653 字
3 分钟
高等数学(下)习题集整理流程
goatpretty
/
Advanced-Mathematics-II-Exercise-Book
Waiting for api.github.com...
00K
0K
0K
Waiting...

本文记录从原始 PDF 到可维护 LaTeX 题库文档的完整流程,目标包括:

  • 将扫描资料转为可编辑文本;
  • 修正 OCR 误识别并重建题目结构;
  • 优化模板排版,提高文档一致性与可读性。

第一步:使用 Doc2x 将 PDF 转为 Markdown#

首先通过 Doc2x 对 PDF 进行 OCR,并导出 Markdown 初稿。操作流程如下:

  1. 上传原始 PDF;
  2. 选择 OCR 转 Markdown;
  3. 下载转换结果,形成初始 .md 文件。

该步骤的作用是完成内容数字化,但初稿通常仍存在以下问题:

  • 公式符号识别偏差(上下标、分式、向量记号等);
  • 断行与段落结构不稳定;
  • 题号、选项、小问层级混乱。

因此,OCR 结果仅作为后续整理的底稿。

第二步:使用 Codex 完成内容迁移、纠错与排版统一#

在 OCR 初稿基础上,使用 Codex 将内容迁移至项目结构,并进行系统清洗。核心工作包括:

  1. 将 Markdown 内容按章节迁移至 example_text_type.tex
  2. 按题型重建结构(选择、填空、综合题及小问);
  3. 修正 OCR 识别错误:
  • 公式与数学符号;
  • 标点、空格与断句;
  • 题号与题干对应关系;
  1. 统一题型环境写法,减少手动排版带来的格式漂移。

完成后,文档由“识别文本”转为“可编译、可维护”的题库源文件。

第三步:使用 Codex 优化 ExBook.cls(缩进与题间距)#

内容整理完成后,对模板层进行版式优化,重点处理缩进与题间距。

具体调整如下:

  1. 增强题目与小问层级的缩进控制,使题干与子问题的视觉关系更清晰;
  2. 将题后留白从手工控制改为题型驱动,统一由 bbox 负责;
  3. standard 版式中引入分类型间距规则:
  • [choice]:题后不额外留白;
  • [blank]:题后 4mm
  • [big]:题后 4cm

扩展效果:

  • 排版行为从“逐题手工微调”转为“规则化输出”,降低维护成本;
  • 不同题型的页面节奏更稳定,跨章节观感一致;
  • 后续增量录题时,仅需声明题型即可复用间距策略。

结果#

通过上述三步,形成了可持续迭代的习题文档流程:

  • 输入层:Doc2x 完成 PDF 数字化;
  • 处理层:Codex 完成迁移、纠错与结构化整理;
  • 输出层:优化后的 ExBook.cls 提供一致、稳定的排版结果。

该流程同时兼顾了整理效率、可维护性与最终阅读体验。

高等数学(下)习题集整理流程
https://blog.goatpretty.com/posts/011/
作者
GoatPretty
发布于
2026-02-14
许可协议
CC BY-NC-SA 4.0