本地运行大型语言模型的最简易指南

本文详细介绍了在本地运行大型语言模型的各种方法,包括Ollama和LMStudio等工具的使用,模型量化技术原理,硬件配置要求,以及推荐使用的开源模型,帮助用户实现完全私密的AI对话体验。

本地运行LLMs的最简易方法

如今大多数人都已经与大型语言模型(LLM)互动过,或者我们现在称之为AI的工具。它们已经从被视作会产生幻觉、无能的聊天机器人,发展成为如今非常有用的工具。你可能正在使用三大巨头(OpenAI、Anthropic、Google)的LLM,本地LLM可能不会完全取代它们,但它在隐私和控制方面为你提供了更多选择。

历史上,本地LLM在很大程度上落后于前沿模型,但OpenAI和Qwen发布的有能力的开放权重模型证明了这些模型非常适合日常任务。本文旨在让尽可能多的人了解运行本地LLM的最简单方法、其他可选方案,以及为什么要这样做。

但为什么?

  • 当然是隐私
  • 完全离线,除非你通过某些MCP授予互联网访问权限
  • 免费?除了微不足道的推理功耗成本
  • 可能比前沿LLM更快的选择
  • 在你喜欢的工具中使用本地API;如VSCode等
  • 能够为整个本地网络托管LLM
  • 可以为特定目的进行微调
  • 对所有人都可访问

自托管LLM的要求

谈论可访问性和要求在同一句话中,嘿。自然,更大的模型需要更强大的设置,但根据你的系统规格,仍然有许多有能力的模型可以良好运行。经验法则是模型大小应小于你的RAM,并留有足够的空间以免系统挂起。

这不是硬性要求,但强烈建议拥有GPU,这样你可以享受快速的令牌生成(你得到的文本输出)和现代CPU以实现更快的提示处理。拥有M芯片组的Mac用户和拥有专用GPU(尤其是Nvidia RTX)的PC用户将受益最多。

值得了解的知识

如果感觉太技术性,你可以跳过本节,但这些知识总体上值得了解:

  • LLM推理的佼佼者是llama.cpp,这是Georgi Gerganov的一个开源项目。大多数本地LLM工具都是它的封装器,自行处理初始配置。
  • 我们在消费级机器上运行的本地LLM通常是从原始大小"量化"而来的。原始的gpt-oss-20b需要48GB的RAM,但我们将使用的量化模型只需要14.27GB,同时提供类似的性能。
  • 量化使LLM对每个人都可访问,即使你没有GPU,只需根据你的规格运行模型。4位精度模型是最佳选择,大多数工具默认使用这些。
  • 量化的4位7b模型通常比8位3b模型表现更好。这些模型中的"b"代表用于训练它们的数十亿参数。
  • 由于模型不擅长回答它们没有数据的问题,你希望尽可能合理地运行具有最高参数的模型以获得最佳结果。

大多数工具会推荐你可以根据规格运行的模型,因此你不需要太担心技术术语,默认设置运行得很好。

运行本地LLM的流行选项

今天我们有很多选项可用,但我将特别讨论Ollama和LMStudio,同时简要列出其他选项。

Ollama

Ollama是一个流行的开源选择,具有类似于ChatGPT的简单干净界面。这是我和许多其他人在迁移到更好的工具之前开始自托管LLM的方式。你安装它,从下拉菜单中选择一个模型,然后,完成了。

模型下载后,它将在后端处理所有配置时自行加载。你准备好开始与你自己的完全私密的本地托管LLM对话了。如果你厌倦了与三大巨头的前沿模型对话时编辑私人信息,这特别有用。

Ollama令人喜欢和讨厌的是它的简单性,它太简单了,没有任何配置空间,除非你想通过CLI使用它,但这违背了本文的宗旨。一个特别不喜欢的生活质量问题是它无法选择哪些模型出现在下拉菜单中。

与其他工具相比,我在Ollama上也遇到了令牌生成速度低的问题,但我确信这是由于升级CPU同时运行相同的旧启动驱动器而导致的个人问题。尽管如此,它的界面还有很多需要改进的地方,但可以理解的是,他们希望保持一切尽可能简单。

1
2
3
4
总时长:10.8826881秒
提示评估计数:77个令牌
评估计数:378个令牌
评估率:35.77令牌/秒

我必须使用CLI,因为应用程序不显示令牌速度,但35.77令牌就像每秒27个单词(我在LMstudio上的结果是这个的四倍)。所以这个结果显然是错误的,我只是无法通过重新安装修复它,并且没有意愿这样做,因为其他工具有更好的界面。

你可能不会遇到这个问题,所以我可以推荐Ollama作为一个很好的、简单的平台来开始使用本地LLM。它是开源的,你甚至可以通过Docker自己构建它。

LMStudio

LMStudio是在桌面上运行LLM的更好方式,具有丰富的界面和各种聊天界面的生活质量功能。与Ollama类似,它易于设置。你安装它,选择一个模型下载,然后就可以开始了。

那个令牌生成速度是疯狂的;它比使用Claude(通过API)更快,这是我日常使用的工具。Claude非常受欢迎,所以在高峰时段经常返回服务器过载,或者对简单请求花费比预期更多的时间。考虑到这一点,这个速度是一个愉快的惊喜,但这确实取决于你的硬件。

自托管LLM的另一个很酷的事情是,除非你使用它们,否则它们不会运行任何计算。它们被加载到内存中,但除了显示输出外没有GPU使用。但我个人设置LMStudio在一小时未使用时弹出模型,这样严重依赖GPU使用的应用程序(视频编辑、Blender等)不会崩溃。

现在,关于LMStudio可能不好的事情……它是闭源的。你会认为倡导隐私、本地LLM,然后使用闭源界面没有意义,你这样想部分是正确的。幸运的是,现在有许多开源的LLM界面可用,我在下一节中提到。它们不如LMStudio丰富,但如果你想多走一步安全,它们是最好的替代方案。

我确实查看了LMStudio收集的数据,根据他们的隐私政策,它是你的系统规格,以为运行时提供准确的更新,以及你如何使用他们的模型搜索的"匿名化"活动。显然没有其他东西。但就价值而言,在聊天期间没有来自LMStudio的网络活动,直到你打开模型搜索,所以它确实检查出来:

你始终可以通过防火墙为LMStudio禁用互联网访问,但运行时和模型半定期接收优化更新,因此你可能会错过一点。也就是说,我确实使用了数据包嗅探器,并感到足够满意推荐该应用程序。

LMStudio默认尝试提供最佳配置,而没有任何系统挂起的可能性,但一个小提示是你希望你的GPU做最多的工作以获得最快的输出。理想情况下,你选择的模型应该完全适合你的GPU的RAM,这样就没有卸载到CPU。因此,尽可能最大化GPU卸载设置。

其他选项

如果上述选项感觉不合适,你仍然有许多开源替代方案。其中一些可能需要通过Docker构建界面或有其他先决条件,如Python、Node等。

  • 使用llama.cpp的OpenWebUI
  • 使用ollama的OpenWebUI
  • GPT4ALL(76.7k星)
  • AnythingLLM(49k星)
  • LocalAI(35.4k星)
  • Koboldcpp(8.2k星)

推荐模型

回答这个问题的最简单方法是下载任何看起来与你兼容的模型。LMStudio默认显示你的机器可以运行的模型的量化4位版本。从其中任何一个中选择,你将获得与原始模型类似的性能,但使用消费级硬件。

注意:OpenAI的GPT-oss,Google的Gemma3,阿里云Qwen3,DeepSeek的蒸馏模型,Mistral的Magistral Small,和Microsoft的Phi4。

也存在任务特定模型:用于编码的Qwen3-Coder、Devstral,和用于STEM相关任务的Mathstral。如果你心中有任何任务(搜索、研究、OCR、处理图像等),可能已经存在特定的模型。

没有GPU的用户可以尝试更大模型的更小版本,如Gemma 3-1b或Gemma 3-4b、TinyLLama、Mistral 7b等。

HuggingFace有一个添加你的硬件细节的选项。这样做后,它会突出显示你可以可能运行的那个模型的所有量化。你的目标应该是选择一个你的机器可以舒适地以"Q4_K_M"量化运行的模型,这提供了质量、速度和大小的良好平衡。如果你想知道这些字母是什么意思,这是一篇好文章。

结论

我希望这被证明是开始运行本地LLM的一个很好的介绍。我试图保持简单,以便每个人都可以私密访问他们自己的本地托管LLM。如果你喜欢这个,你可能想订阅我们的新闻通讯,我在其中分享开发人员和设计师领域的趋势文章和新闻。以下是截至今天发布日期的最近一些新闻通讯:[1], [2], [3]。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计