653 字
3 分钟
高等数学(下)习题集整理流程
Waiting for api.github.com...
本文记录从原始 PDF 到可维护 LaTeX 题库文档的完整流程,目标包括:
- 将扫描资料转为可编辑文本;
- 修正 OCR 误识别并重建题目结构;
- 优化模板排版,提高文档一致性与可读性。
第一步:使用 Doc2x 将 PDF 转为 Markdown
首先通过 Doc2x 对 PDF 进行 OCR,并导出 Markdown 初稿。操作流程如下:
- 上传原始 PDF;
- 选择 OCR 转 Markdown;
- 下载转换结果,形成初始
.md文件。
该步骤的作用是完成内容数字化,但初稿通常仍存在以下问题:
- 公式符号识别偏差(上下标、分式、向量记号等);
- 断行与段落结构不稳定;
- 题号、选项、小问层级混乱。
因此,OCR 结果仅作为后续整理的底稿。
第二步:使用 Codex 完成内容迁移、纠错与排版统一
在 OCR 初稿基础上,使用 Codex 将内容迁移至项目结构,并进行系统清洗。核心工作包括:
- 将 Markdown 内容按章节迁移至
example_text_type.tex; - 按题型重建结构(选择、填空、综合题及小问);
- 修正 OCR 识别错误:
- 公式与数学符号;
- 标点、空格与断句;
- 题号与题干对应关系;
- 统一题型环境写法,减少手动排版带来的格式漂移。
完成后,文档由“识别文本”转为“可编译、可维护”的题库源文件。
第三步:使用 Codex 优化 ExBook.cls(缩进与题间距)
内容整理完成后,对模板层进行版式优化,重点处理缩进与题间距。
具体调整如下:
- 增强题目与小问层级的缩进控制,使题干与子问题的视觉关系更清晰;
- 将题后留白从手工控制改为题型驱动,统一由
bbox负责; - 在
standard版式中引入分类型间距规则:
[choice]:题后不额外留白;[blank]:题后4mm;[big]:题后4cm。
扩展效果:
- 排版行为从“逐题手工微调”转为“规则化输出”,降低维护成本;
- 不同题型的页面节奏更稳定,跨章节观感一致;
- 后续增量录题时,仅需声明题型即可复用间距策略。
结果
通过上述三步,形成了可持续迭代的习题文档流程:
- 输入层:Doc2x 完成 PDF 数字化;
- 处理层:Codex 完成迁移、纠错与结构化整理;
- 输出层:优化后的
ExBook.cls提供一致、稳定的排版结果。
该流程同时兼顾了整理效率、可维护性与最终阅读体验。
高等数学(下)习题集整理流程
https://blog.goatpretty.com/posts/011/