这一步主要是整理PDF,而非下载的可复制的文本文件。
之所以要整理PDF,是因为我们下一步是使用ORC工具识别文字,而书籍有页眉和页脚,待到识别后再去整理会比较麻烦,所以在还是PDF的时候就来处理。
先要安装能编辑PDF的软件,是要能编辑的,不是那种只能打开浏览的,推荐安装adobe acrobat。
1)、先手动删除封面、前言、目录、封底等,只留下正文。
2)、选择“文档/裁剪页面”,调出裁剪页面对话框,通过设置页面的上下边距,将要裁剪的位置确定下来,然后在右下角页面范围中选择“所有的页面”,并且选择“应用到:奇数”。
3)、为什么要选择奇数页呢?因为扫描PDF时书本放置的方向问题,可能会导致奇数页与偶数页的上下边距不一样,所以我们先剪掉奇数页。
4)、接着前面的2和3步,对偶数页进行裁剪。
5)、文件/导出/图像/JPEG,将所有页面导出到一个文件夹中,软件会将每一页保存为一个图片,不用担心文件名称问题。acrobat软件中带有orc功能,但我试了一下,没啥反应,我建议用专业的ORC软件。
6)、ORC软件是识别文本,对于习题中带有图片的处理我有一个办法,会在后期题目编辑步骤中介绍。