本地运行大型语言模型的最简单指南

本地运行大型语言模型的最简单方法

到目前为止，大多数人都已经与大型语言模型（LLM）互动过，或者我们现在称之为AI的东西。它们已经从被视作会产生幻觉、无能的聊天机器人，发展成为如今有用的工具。你可能正在使用三大巨头（OpenAI、Anthropic、Google）的LLM，而本地LLM可能不会取代它们，但它确实在隐私和控制方面给了你更多选择。

历史上，本地LLM在很大程度上落后于前沿模型，但OpenAI和Qwen发布了能力强大的开放权重模型，证明了这些模型非常适合日常任务。本文旨在让尽可能多的人了解运行本地LLM的最简单方法、其他可选方案，以及为什么要这样做。

但为什么？

当然是隐私
完全离线，除非你通过某些MCP授予互联网访问权限
免费？除了微不足道的推理功耗成本
可能比前沿LLM更快的选择
在你喜欢的工具中使用本地API；如VSCode等
能够为整个本地网络托管LLM
可以为特定目的进行微调
对所有人都可访问

自托管LLM的要求

谈到可访问性和要求，嘿。自然，更大的模型需要更强大的设置，但根据你的系统规格，仍然有许多能力强大的模型可以良好运行。经验法则是，模型大小应小于你的RAM，并留有足够的空间以免系统挂起。

虽然不是必需，但强烈建议拥有GPU，这样你可以享受快速的令牌生成（你得到的文本输出）和现代CPU以实现更快的提示处理。拥有M芯片组的Mac用户和拥有专用GPU（尤其是Nvidia RTX）的PC用户将受益最多。

值得了解

如果感觉太技术性，你可以跳过本节，但这些内容总体上值得了解：

LLM推理的佼佼者是llama.cpp，这是Georgi Gerganov的一个开源项目。大多数本地LLM工具都是它的封装器，自行处理初始配置。
我们在消费级机器上运行的本地LLM通常是从原始大小“量化”而来的。原始的gpt-oss-20b需要48GB的RAM，但我们将使用的量化模型仅需要14.27GB，同时提供类似的性能。
量化使LLM对每个人都可访问，即使你没有GPU，只需根据你的规格运行模型。4位精度模型是最佳选择，大多数工具默认使用这些。
量化的4位7b模型通常比8位3b模型表现更好。这些模型中的“b”代表用于训练它们的数十亿参数。
由于模型不擅长回答它们没有数据的问题，你希望尽可能合理地运行具有最高参数的模型以获得最佳结果。

大多数工具会推荐你可以根据规格运行的模型，因此你不需要太担心技术术语，默认设置运行良好。

运行本地LLM的流行选项

今天我们有很多选项可用，但我将特别讨论Ollama和LMStudio，同时简要列出其他选项。

Ollama

Ollama是一个流行的开源选择，具有类似于ChatGPT的简单干净界面。这是我和许多其他人在迁移到更好的工具之前开始自托管LLM的方式。你安装它，从下拉菜单中选择一个模型，然后，砰，完成。

模型下载后，它将在后端处理所有配置的同时自行加载。你准备好开始与你自己的本地托管LLM对话，完全隐私。如果你厌倦了与三大巨头的前沿模型对话时编辑私人信息，这尤其有用。

Ollama令人喜欢和讨厌的是它的简单性，它太简单了，没有任何配置空间，除非你想通过CLI使用它，但这违背了本文的宗旨。一个特别不喜欢的质量问题是无法选择哪些模型出现在下拉列表中。

与其他工具相比，我在Ollama上也遇到了令牌生成速度低的问题，但我确定这是我由于升级CPU而运行相同旧启动驱动器的问题。尽管如此，它的界面还有很多需要改进的地方，但可以理解的是，他们希望保持一切尽可能简单。

1
2
3
4


总持续时间：10.8826881秒
提示评估计数：77个令牌
评估计数：378个令牌
评估速率：35.77令牌/秒

我必须使用CLI，因为应用程序不显示令牌速度，但35.77令牌就像每秒27个单词（我在LMstudio上的结果是这个的四倍）。所以这个结果显然是错误的，我只是无法通过重新安装修复它，并且没有意愿这样做，因为其他工具有更好的界面。

你可能不会遇到这个问题，所以我可以推荐Ollama作为一个伟大、简单的平台来开始使用本地LLM。它是开源的，你甚至可以通过Docker自己构建它。

LMStudio

LMStudio是在桌面上运行LLM的更好方式，具有丰富的界面和各种聊天界面的生活质量功能。与Ollama类似，它易于设置。你安装它，选择一个模型下载，然后你就可以开始了。

那个令牌生成速度是疯狂的；它比使用Claude（通过API）更快，Claude是我的日常驱动。Claude非常受欢迎，所以在高峰时间经常返回服务器过载，或者对简单请求花费比预期更多的时间。考虑到这一点，这个速度是一个愉快的惊喜，但这确实取决于你的硬件。

自托管LLM的另一个很酷的事情是，除非你使用它们，否则它们不会运行任何计算。它们被加载到内存中，但除了显示输出外没有GPU使用。但我个人设置LMStudio在一小时未使用时弹出模型，以便严重依赖GPU使用的应用程序（视频编辑、Blender等）不会崩溃。

现在，关于LMStudio可能不好的事情……它是闭源的。你会认为倡导隐私、本地LLM，然后使用闭源界面没有意义，你这样想部分是正确的。幸运的是，现在有许多开源的LLM界面可用，我在下一节中提到。它们不如LMStudio丰富，但如果你想多走一步安全，它们是最好的替代方案。

我确实查看了LMStudio收集的数据，根据他们的隐私政策，它是你的系统规格，以为运行时提供准确的更新，以及你如何使用他们的模型搜索的“匿名”活动。显然没有其他东西。但就价值而言，在聊天期间没有来自LMStudio的网络活动，直到你打开模型搜索，所以它确实检查通过：

你总是可以通过防火墙为LMStudio禁用互联网访问，但运行时和模型半定期接收优化更新，所以你可能错过一点。也就是说，我确实使用了数据包嗅探器，并感到足够满意推荐这个应用程序。

LMStudio默认尝试提供最佳配置，没有任何系统挂起的可能性，但一个小提示是你希望你的GPU做最多的工作以获得最快的输出。理想情况下，你选择的模型应该完全适合你的GPU的RAM，这样就没有卸载到CPU。因此，尽可能最大化GPU卸载设置。

其他选项

如果上述选项感觉不合适，你仍然有许多开源替代方案。其中一些可能需要通过Docker构建界面或有其他先决条件，如Python、Node等。

带有llama.cpp的OpenWebUI
带有ollama的OpenWebUI
GPT4ALL（76.7k星）
AnythingLLM（49k星）
LocalAI（35.4k星）
Koboldcpp（8.2k星）

结论

我希望这被证明是开始运行本地LLM的一个良好介绍。我试图保持简单，以便每个人都可以私有访问他们自己的本地托管LLM。如果你喜欢这个，你可能想订阅我们的新闻通讯，我在其中分享开发人员和设计师领域的趋势文章和新闻。以下是截至今天发布日期的最近一些新闻通讯：[1], [2], [3]。