Index
Project
Book Digitalization

Book Digitalization

最近准备学习一些计算机以外的知识,但是发现这些领域很多东西并没有很好的在互联网上流传,而是记录在书本里。 我试着找了一些书的 PDF,但是一个比较大的问题是它们通常被压缩的比较厉害,文字看起来并不舒适,而且一般是民间爱好者自行扫描,质量无法保证,有时还会有水印。 那么能不能直接买电子版书籍呢? 一个是亚马逊之类的平台可能只提供了 mobi 这种格式的文件,没有实际图书比较精美的排版,看起来并不舒服(尽管 mobi 可以自己调整显示格式,也更数字化)。 另一个是有些书并没有电子版提供。

说完了需求,我想探索一下把数据数字化的一整套流程,看看能做到什么程度。 理想情况下,希望能把一本实体书变成内嵌文字的 PDF 。

关于这件事情,有一个知乎回答讲解的非常详细:

想把自己的书籍扫描成 PDF,什么样的扫描仪比较合适? - 窗边瞳子的回答 - 知乎 https://www.zhihu.com/question/46979886/answer/831959156

但是一路看下来,我发现通过摄像头拍摄的各种方法都有很多缺陷:

  • 手机直接拍受算法影响很大,而且繁琐不稳定,我也没有找到比较好用的免费 APP 。
  • 高拍仪同样有色差的问题,而且常见的高拍仪尽管便宜但是配套软件比较差,同样没法自动化,页数多了很繁琐。
  • 扫描仪。 普通的平面扫描仪操作起来同样繁琐。

好在除了上面提到的方法,还有一种馈纸式扫描仪,自动把一摞纸一张张扫描,感觉是个绝赞的方案,缺点是需要把书拆开,而且仪器本身比较贵。

关于扫描仪的方案流程,机器配置+拆书: https://www.bilibili.com/read/cv323238

关于拆书:

如何优雅地拆书? - 星海途记的回答 - 知乎 https://www.zhihu.com/question/31506031/answer/414336842

关于拆书后重新装订:

https://zh.wikihow.com/%E4%BF%AE%E5%A4%8D%E4%B9%A6%E7%B1%8D%E7%9A%84%E8%A3%85%E8%AE%A2

关于 ABBYY FineReader 的破解版,中文互联网找了一圈,发现下载下来都是官方试用版,可能都被杰克丁举报了个遍吧。 最后在一个俄文网站上找到了,好用:

https://1progs.ru/abbyy-finereader-professional-russkaya-versiya-klyuch/

前面有人提到 ABBYY PDF Transformer+ ,看了一下官网的对比,FineReader 能力完全覆盖 PDF Transformer+,看起来后者已经被弃用了,所以不用纠结了。

http://bcxw.net/article/476.html 这个工具用来处理pdf的书签还挺方便的(https://pan.baidu.com/s/17XuvNsQGDntmrj8KFyO_GQ | 09l3)


当然,如果网上已经有比较高质量的 PDF 就不用自己费事了,我的评判标准是如果有 mobi 格式或者看的下去的 PDF 格式就不值得自己费劲去制作。

下面收集一些比较好的搜书网站:


跑个题,前面提到了拆书,现在其实还有一种类似电影解说的“拆书”流量生意 http://www.woshipm.com/it/1812586.html

Created by sine at 2022-06-24 17:57:10. Last modification: 2022-06-24 20:06:12