最好的用于解析文档的库

AI 时代,解析各种格式的文档,喂给大模型,变成了一种常见的需求。

本文总结我精挑细选出来的库。

需求:

PDF 文档解析

https://github.com/mehmet-kozan/pdf-parse

基于 Mozilla 的 PDF.js 封装的,这个基本上是 JavaScript 世界里最好的 PDF Viewer 了。

Office 文档解析

https://github.com/harshankur/officeParser

HTML 网页解析

https://github.com/kepano/defuddle

从任意网站爬下来的 HTML 内容,如何解析为干净的 markdown,就靠这个了。

这个库基于 turndown

Mozilla 阅读模式 的代替品。阅读模式你知道的,能把复杂网页抽的干干净净。

Email 解析

https://github.com/postalsys/postal-mime

Email 的解析,正文用到前面的 HTML 解析,附件用到前面的 Office 解析

图片解析

最好的方法,是用大模型推理->图像与视频理解->文字识别与信息抽取。


我的一些老项目,为了支持旧版的 Offic 文件(现在很少了),用过这些

发表于 2026 年 4 月 17 日,星期五
更新于 2026 年 4 月 18 日,星期六