AI 时代,解析各种格式的文档,喂给大模型,变成了一种常见的需求。
本文总结我精挑细选出来的库。
需求:
https://github.com/mehmet-kozan/pdf-parse
基于 Mozilla 的 PDF.js 封装的,这个基本上是 JavaScript 世界里最好的 PDF Viewer 了。
https://github.com/harshankur/officeParser
https://github.com/kepano/defuddle
从任意网站爬下来的 HTML 内容,如何解析为干净的 markdown,就靠这个了。
这个库基于 turndown。
是 Mozilla 阅读模式 的代替品。阅读模式你知道的,能把复杂网页抽的干干净净。
https://github.com/postalsys/postal-mime
Email 的解析,正文用到前面的 HTML 解析,附件用到前面的 Office 解析
最好的方法,是用大模型推理->图像与视频理解->文字识别与信息抽取。
我的一些老项目,为了支持旧版的 Offic 文件(现在很少了),用过这些