玩酷网

PDF-Extract-Kit 是一款功能强大的开源工具箱,旨在从复杂多样的 P

PDF-Extract-Kit 是一款功能强大的开源工具箱,旨在从复杂多样的 PDF 文档中高效提取高质量内容。

github.com/opendatalab/PDF-Extract-Kit

以下是其主要功能和优势:

集成文档解析主流模型:汇聚布局检测、公式检测、公式识别、OCR等文档解析核心任务的众多SOTA模型;

多样性文档下高质量解析结果:结合多样性文档标注数据在进行模型微调,在复杂多样的文档下提供高质量解析结果;

模块化设计:模块化设计使用户可以通过修改配置文件及少量代码即可自由组合构建各种应用,让应用构建像搭积木一样简便;

全面评测基准:提供多样性全面的PDF评测基准,用户可根据评测结果选择最适合自己的模型。