[开源]从零开始的RAG系统,追求极致的简单和强大,支持多AI平台

科技一飞开源 2025-03-13 08:59:13

一飞开源,介绍创意、新奇、有趣、实用的开源应用、系统、软件、硬件及技术,一个探索、发现、分享、使用与互动交流的开源技术社区平台。致力于打造活力开源社区,共建开源新生态!

一、开源项目简介

RAG 从未如此简单

minRAG是从零开始的RAG系统,追求极致的简单和强大,不超过1万行代码,无需安装,双击启动.支持OpenAI、Gitee AI、百度千帆、腾讯云LKE、阿里云百炼、字节火山引擎等AI平台.

二、开源协议

使用AGPL-3.0开源协议

三、界面展示界面预览

四、功能概述

RAG从未如此简单.minRAG是从零开始的RAG系统,追求极致的简单和强大,不超过1万行代码,无需安装,双击启动.支持OpenAI、Gitee AI、百度千帆、腾讯云LKE、阿里云百炼、字节火山引擎等AI平台.

五、技术选型支持的AI平台

因为 reranker 没有统一标准,组件参数中base_url要填写完整的路径

OpenAI

minRAG实现了OpenAI的标准规范,所有兼容OpenAI的平台都可以使用.

Gitee AI(默认)

AI平台默认是 Gitee AI,Gitee AI每天100次免费调用

腾讯云LKE知识引擎百度千帆阿里云百炼字节火山引擎tika集成

默认minRAG只支持markdown和text等文本格式,可以使用TikaConverter组件调用tika服务解析文档内容,TikaConverter组件配置示例:

{ "tikaURL": "http://localhost:9998/tika", "defaultHeaders": { "Content-Type": "application/octet-stream" }}

启动 tika 的命令如下:

## tika 3.x 依赖 jdk11+java -jar tika-server-standard-3.1.0.jar --host=0.0.0.0 --port=9998## 不输出日志#nohup java -jar tika-server-standard-3.1.0.jar --host=0.0.0.0 --port=9998 >/dev/null 2>&1 &

或者下载tika-windows start.bat启动tika.注意修改indexPipeline流水线的参数,把原来的MarkdownConverter替换为TikaConverter:

{ "start": "TikaConverter", "process": { "TikaConverter": "DocumentSplitter", "DocumentSplitter": "OpenAIDocumentEmbedder", "OpenAIDocumentEmbedder": "SQLiteVecDocumentStore" }}

详细内容请查看 README.md 文档

RAG

检索增强生成(Retrieval-augmented Generation),简称RAG,是当下热门的大模型前沿技术之一。

检索增强生成模型结合了语言模型和信息检索技术。具体来说,当模型需要生成文本或者回答问题时,它会先从一个庞大的文档集合中检索出相关的信息,然后利用这些检索到的信息来指导文本的生成,从而提高预测的质量和准确性。

六、源码地址

访问一飞开源:https://code.exmay.com/

0 阅读:0

科技一飞开源

简介:感谢大家的关注