最好的用于解析文档的库

AI 时代，解析各种格式的文档，喂给大模型，变成了一种常见的需求。

本文总结我精挑细选出来的库。

需求：

基于 Mozilla 的 PDF.js 封装的，这个基本上是 JavaScript 世界里最好的 PDF Viewer 了。

解析出文档的 AST
支持格式 (docx, pptx, xlsx, odt, odp, ods, pdf, rtf)
- pdf 仍然用到 Mozilla 的 PDF.js
支持OCR
- 使用 Tesseract.js 。Tesseract 是老牌的 C++ 离线开源 OCR 引擎。Tesseract.js 是它的一个 Wasm 移植。

从任意网站爬下来的 HTML 内容，如何解析为干净的 markdown，就靠这个了。

这个库基于 turndown。

是 Mozilla 阅读模式的代替品。阅读模式你知道的，能把复杂网页抽的干干净净。

Email 的解析，正文用到前面的 HTML 解析，附件用到前面的 Office 解析

最好的方法，是用大模型推理->图像与视频理解->文字识别与信息抽取。

我的一些老项目，为了支持旧版的 Offic 文件（现在很少了），用过这些