本地运行大语言模型的最佳工具集

AI大模型风起云涌的时代，ChatGPT、Claude.ai和Meta.ai等各种各样的AI聊天机器人让大家眼花缭乱，不知道该用那个才好。但是这类模型往往需要通过Saas的方式访问其平台，如果真在在需要一些涉及敏感或者保密数据情况下就不能使用。为了解决这个问题可以下载开源大模型在本地隔离环境中部署和使用。这样，让外部无法访问的你的数据。运行自己的大语言模型可能听起来很复杂，但使用正确的工具，它会非常简单。本文虫虫就给大家推荐一下支持在本地部署的大模型工具，让你完美打造本地的ChatGPT智能助手。

GPT4Al：集成多模型后台的本地聊天机器人

如果想要一个在本地运行并且不会将数据发送到其他地方的聊天机器人，GPT4All提供了一个非常容易设置的桌面客户端可供下载。它包括在本地系统上运行的模型的选项，并且有适用于Windows、macOS和Ubuntu的版本。

第一次打开GPT4All桌面应用程序时，将看到下载大约10个（截至撰写本文时）可在本地运行的模型的选项。其中包括Meta AI的Llama-2-7B聊天模型。通过输入API密钥（订购了其授权），也可以将OpenAI的GPT-3.5和GPT-4继集成进来。

GPT4All中模型下载界面的一部分。一旦打开应用程序的使用部分，下载的模型就会自动出现。

一旦模型设置完毕，聊天机器人界面本身就干净且易于使用。方便的选项包括将聊天复制到剪贴板并生成响应。

还有一个测试版LocalDocs插件，可在本地与自己的文档“聊天”。可以在“设置”>“插件”选项卡中启用它，在 “LocalDocs 插件（BETA）设置”标题和在特定文件夹路径创建集合的选项。

该Beta版插件目前还在内测阶段，即使大语言模型可以访问添加的专家信息，它仍然可能会“产生幻觉”（编造事情）。尽管如此，这是一个有趣的功能，随着开源模型变得更加强大，它可能会得到改进。

除了聊天机器人应用程序之外，GPT4All还支持Python、Node和命令行界面 (CLI)。另外还支持服务器模式，通过一个本地Web AI平台通过HTTP API供本地其他机器进行交互使用。

LLM：命令行大模型

LLM是一个支持在本地部署和使用的最简单的开源大模型之一。系统为Python开发需要本地Python语言环境。以Mac为例，通过Homebrew包管理器一键下载安装：

brew install llm

在windows下可以使用pip：

pip install llm

LLM 默认使用OpenAI模型，但可以使用插件在本地运行其他模型。例如，如果安装了gpt4all插件，则可以使用GPT4All访问其他本地模型，比如llama、MLC和MPT-30B等模型的插件。

插件安装的命令llm install，比如

llm install llm-gpt4all

可以使用以下命令查看所有可用模型（远程模型和已安装的模型），包括每个模型的简要信息：llm models list

当要求LLM列出可用模型时显示的内容。

LLM的使用方法也很简单：

llm -m the-model-name "查询内容"

Llm支持与GPT4All兼容的模型，如果本地系统上不存在GPT4All模型，LLM工具会在运行查询之前自动为下载它。下载模型时，将在终端中看到一个进度条。

还可以为 LLM 中的模型设置别名：

llm aliases set falcon ggml-model-gpt4all-falcon-q4_0

要查看所有可用的别名，可用

llm aliases

LLM还有其他功能，例如argument标志，支持继续之前的聊天并能够在 Python脚本中使用它。

Ollama：桌面上的Llama模型

Ollama是一种比LLM更简单的下载和运行模型的方法。

Ollama的安装设置非常简单，通过点击就可以实现。尽管Ollama是一个命令行工具，但只有一个命令的语法如下ollama run model-name。与LLM一样，如果系统上尚未存在该模型，它将自动下载。

可用模型包括基于Llama的模型的多个版本，包括Llama 3、Code Llama CodeUp和medllama2（经过微调以回答问题）医疗问题。关于Ollama运行硬件其官方建议为：

应该至少有8GB的RAM来运行3B模型，16GB来运行7B模型，32GB 来运行 13B模型。

Ollama这次hi一些附加功能，例如LangChain集成以及与PrivateGPT一起运行的能力。Ollama也支持在终端窗口中运行，并在每次需要问问题时将其弹出。

h2oGPT：与自己的文档聊天

H2O.ai致力于自动化机器学习，其工具比较适合具有特定领域知识的专业人士使用。

h2oGPT测试版本的安装快速而简单，对一个小白来说也完全不在话下。

无需添加自己的文件，就可以将该应用程序用作通用聊天机器人。或者可以上传一些文档并询问有关这些文件的问题。兼容的文件格式包括PDF、Excel、CSV、Word、文本、Markdown等。

h2oGPT UI 提供一个专家选项卡，其中包含许多配置选项，供用户知道自己在做什么。这为更有经验的用户提供了尝试改善结果的选择。

如果想更好地控制更多模型的流程和选项，请下载完整的应用程序。对于具有GPU或仅CPU的系统，有适用于Windows和macOS的一键安装程序。

PrivateGPT：安全保护隐私的本地大模型

PrivateGPT还旨在让用户使用自然语言查询自己的文档并获得生成式AI响应。该应用程序中的文档可以包括几十种不同的格式。PrivateGPT保证数据100%保护用户数据隐私，任何数据都不会离开执行环境。用户可以在没有互联网连接的情况下提取文档并提出问题。

PrivateGPT提供脚本来摄取数据文件，将它们分割成块，创建“嵌入”（文本含义的数字表示），并将这些嵌入存储在本地Chroma向量存储中。当提出问题时，该应用程序会搜索相关文档并将这些文档发送给大语言模型以生成答案。

对于熟悉Python的同学，则可以完全克隆完整的 PrivateGPT 代码并在本地运行它。如果对 Python 的了解较少，可能需要下已经打包好的简化版本，该版本的设置要容易得多。

PrivateGPT包含可能在终端中的“与自己的文档聊天”应用程序中最想要的功能，但文档警告说它不适用于生产，一旦运行它，即使是小型型号选项在家用级电脑上运行也非常缓慢。

LocalGPT

PrivateGPT的衍生产品LocalGPT包含更多模型选项。对于这种安装和设置是否“简单”，人们可能会有不同的看法，但它看起来确实很有希望。不过，与 PrivateGPT 一样单独在 CPU 上运行它会很慢。

Jan

Jan是一个相对较新的开源项目，旨在通过“开放、本地优先的产品”来“民主化人工智能访问”。该应用程序易于下载和安装，界面在可定制性和易用性之间实现了良好的平衡。这是一个使用起来很有趣的应用程序。

选择要在一月使用的模型非常简单。在应用程序中有超过30个模型的描述可供一键下载，其中包括一些带有视觉的模型。还可以以GGUF格式导入其他格式。如果硬件不足，Jan中心列出的型号会显示“RAM 不足”标签。

Jan 的聊天界面包括一个右侧面板，可让设置LLM的系统指令并调整参数。

除了在本地运行LLMS之外，Jan还允许使用云端的OpenAI模型。而且，可以将Jan设置为使用远程或本地API服务器。

Chat with RTX

英伟达的Chat with RTX演示应用程序旨在回答有关文档目录的问题。自今年2月份推出以来，RTX可以使用本地运行的Mistral或Llama 2 LLM。需要一台配备 Nvidia GeForce RTX 30系列或更高GPU且至少有8GB GPU RAM 的Windows PC 才能运行该应用程序。还需要稳定的互联网连接，因为下载的压缩包大小为 35GB。

解压后，Chat with RTX 是一个非常易于使用的简单界面。单击该图标将启动一个Windows终端，该终端运行脚本以在默认浏览器中启动应用程序。

选择LLM和文件路径，等待应用程序文件创建嵌入（可以在终端窗口中跟踪该进度），然后提出的问题。响应包括指向LLM用于生成答案的文档的链接，如果想确保信息准确，这会很有帮助，因为模型可能会根据它知道的其他信息而不仅仅是您的特定文档来回答。该应用程序当前支持.txt、.pdf和.doc文件以及通过油管视频的URL。

llamafile

llamafile由Mozilla推出，允许开发人员将大型语言模型的关键部分转换为可执行文件。它还附带了可以下载GGUF 格式的LLM文件、导入它们并在本地浏览器内聊天界面中运行它们的软件。

要运行llamafile，

curl -L github /Mozilla-Ocho/llamafile/releases/download/0.1/llamafile-server-0.1> llamafilechmod +x llamafile

然后，下载选择的模型。下好后就可以在终端中运行模型

./llamafile --model ./zephyr-7b-alpha.Q4_0.gguf

代替zephyr无论模型位于何处，请等待其加载，然后在浏览器中打开它： 127.0.0.1:8080，将有看到一个打开的屏幕，其中包含各种聊天选项：

在底部输入查询，它就会变成一个基本的聊天机器人界面：

可以使用项目GitHub 存储库上的示例文件之一来测试运行单个可执行文件： mistral-7b-instruct, llava-v1.5-7b-server，或者wizardcoder-python-13b。

LM Studio

另一个桌面应用程序LM Studio具有易于使用的界面来运行聊天，但更多地需要自己选择模型。如果知道要下载并运行什么模型，这可能是一个不错的选择。如果刚开始使用ChatGPT，并且对如何最好地平衡精度与大小的知识有限，那么所有选择一开始可能会有点不知所措。Hugging Face Hub是LM Studio内部模型下载的主要来源，模型数量非常多。

LM Studio提供一个漂亮、干净的界面：

LM Studio提供一个内置服务器，可以作为OpenAI API 的直接替代品。

总结

与其使用其他在线平台聊天查询，不如动手打造一个适应自己的本地大模型，不光可以保护自己的数据隐私，也可以借此对大模型底层和更深入的探索了解，提高自己的AI功力。

玩酷网

本地运行大语言模型的最佳工具集

安全运维得看我