今天为大家分享两个PDF转Markdown格式工具,Let's go!
MarkerMarker是一个TJ君最近才发现的开源转换项目,旨在快速准确的将PDF格式的文件转换成日常用到的Markdown格式。
主要特点包括:
支持各种类型的PDF文档,尤其针对书籍和科学论文进行了优化,提升转换效果支持主流的多种语言自动删除页眉、页脚以及其他不需要的部分自动对文中的表格及代码进行优化处理展示自动提取并保存图像以及打上标记简单的说,Marker遵循了如下的一个过程:
提取文本,如有需要进行OCR识别-->检测内容顺序并进行页面布局-->对每一个区域格式化-->组合每一个区域-->完成转换。
与早于他成名的另一个PDF转markdown的模型Nougat相比,Marker的主要优势在于更快速,至于准确率,起码作者给出的对比结果是略胜一筹:
如果想安装这个项目试一下的话,需要准备好python 3.9+和PyTorch,对与没有GPU的大多数小伙伴来说,CPU足矣运行,但是要提前准备好CPU版本的Torch
项目地址:https://github.com/VikParuchuri/marker
PDF-To-Markdown ConverterPDF-To-Markdown Converter是一个基于Javascript的工具,同样用于解析PDF文件并转换为Markdown格式
除了开源的程序代码,PDF-To-Markdown Converter直接提供一个在线的转换网站,想直接使用的小伙伴可以直接尝试转换。
作者表示上传只是用于文件转换,并不会将文件保留或发送到任何位置。
TJ君找了个PDF文件试了下,效果如下,速度尚可:
原文:
有需要的小伙伴可以直接使用。
项目地址:https://github.com/jzillmann/pdf-to-markdown