玩酷网

[开源]一个高效的开源知识提取器工具,专为企业知识库建设而设计

一飞开源,介绍创意、新奇、有趣、实用的开源应用、系统、软件、硬件及技术,一个探索、发现、分享、使用与互动交流的开源技术社

一飞开源,介绍创意、新奇、有趣、实用的开源应用、系统、软件、硬件及技术,一个探索、发现、分享、使用与互动交流的开源技术社区平台。致力于打造活力开源社区,共建开源新生态!

一、开源项目简介X2Knowledge - 知识提取器工具

X2Knowledge 是一个高效的开源知识提取器工具,专为企业知识库建设而设计。它支持将PDF、Word、PPT、Excel、WAV、MP3等多种格式的文件智能转换为结构化的TXT或Markdown格式,帮助用户快速将各类文档资料标准化地录入企业知识库系统。通过先进的格式解析和内容提取技术,该项目显著提升知识转换的效率和准确性,是RAG(检索增强生成)应用和企业知识管理的理想预处理工具。

这是一个基于Python Flask的Web应用,可以将各种文档格式(Word、Excel、PowerPoint、PDF、TXT和Markdown)转换为纯文本或结构化的Markdown。

二、开源协议

使用Apache-2.0开源协议

三、界面展示系统截图

###界面

主页

API调用

原始格式

MD格式

效果WORD文件

WORD转换效果

WORD中表格转换效果

Execel效果

PPT效果

四、功能概述功能特点将多种文件格式转换为文本或Markdown支持Word (.doc, .docx)、Excel (.xls, .xlsx)、PowerPoint (.ppt, .pptx)、PDF、文本文件等在Markdown转换模式下保持文档结构通过OCR从图像中提取文本Markdown转换保留文档结构,包括标题、列表和表格保持链接和格式提供转换后的Markdown预览功能OCR支持自动从文档中嵌入的图像提取文本适用于Word、PowerPoint和PDF文件中的图像音频转换 (新功能)将音频文件(.mp3, .wav)转换为文本/Markdown描述提取元数据,包括时长、声道和采样率UTF-8编码自动将文档转换为UTF-8编码解决中文字符显示问题无需手动配置编码大文件支持支持高达50MB的文件高效处理大型文档项目优势高性能文档处理:优化的文档解析引擎,能够高效处理各种格式的文档低资源消耗:即使在配置较低的服务器上也能流畅运行准确的结构保留:特别是在Markdown转换中,能够准确保留文档的原始结构多平台支持:可在Windows、macOS和Linux系统上部署灵活的API接口:提供RESTful API,方便与其他系统集成无外部依赖的部署:除OCR功能外,核心功能无需外部服务支持容器化部署:支持Docker部署,简化环境配置已知问题较旧的Word文档(.doc格式)处理时间可能较长;建议在上传前将其转换为.docx格式一些复杂的文档布局在Markdown转换中可能无法完美保留OCR准确性取决于图像质量和文本复杂性五、技术选型使用方法选择转换模式(文本或Markdown)上传您的文档(或拖放)查看、复制或下载转换结果使用Markdown预览功能查看格式化结果(使用Markdown模式时)REST API

该工具提供了REST API以供程序访问:

文本转换:POST /api/convertMarkdown转换:POST /api/convert-to-md

有关详细文档和测试,请通过Web界面访问API文档页面。

安装与部署本地安装要求Python 3.6+Flaskpytesseract(用于OCR功能)Tesseract OCR引擎

详细内容请查看 README.md 文档

致谢pytesseract提供OCR功能FlaskWeb框架MarkidownMarkidown工具marked.js提供Markdown渲染highlight.js提供代码高亮各种文档处理库六、源码地址

访问一飞开源:https://code.exmay.com/