如何在嵌入式Linux上用LiteLLM部署轻量级语言模型

随着AI在智能设备、嵌入式系统和边缘计算中变得至关重要，能够在本地运行语言模型——无需依赖云端——变得至关重要。无论是为了降低延迟、提高数据隐私，还是实现离线功能，本地AI推理都为各行各业开辟了新的机遇。LiteLLM提供了一个实用的解决方案，可将大型语言模型引入资源受限的设备，弥合强大AI工具与嵌入式硬件限制之间的差距。

在嵌入式Linux上部署开源LLM网关LiteLLM，可以解锁在资源受限环境中运行轻量级AI模型的能力。LiteLLM充当一个灵活的代理服务器，提供了一个统一的API接口，可以接受OpenAI风格的请求——允许您使用一致的、对开发者友好的格式与本地或远程模型进行交互。本指南将引导您完成从安装到性能调优的所有步骤，帮助您在嵌入式Linux发行版上构建一个可靠、轻量级的AI系统。

准备工作清单

在开始之前，您需要准备以下内容：

一台运行基于Linux的操作系统（例如Debian）的设备，并具备足够的计算资源来处理LLM操作。
设备上已安装Python 3.7或更高版本。
能够访问互联网以下载必要的软件包和模型。

分步安装指南

步骤 1：安装LiteLLM

首先，确保设备系统是最新的并准备好进行安装。然后，在一个干净安全的环境中安装LiteLLM。

更新软件包列表以确保能获取最新的软件版本：

1

sudo apt-get update

检查是否已安装pip（Python包安装器）：

1

pip --version

如果未安装，请使用以下命令安装：

1

sudo apt-get install python3-pip

建议使用虚拟环境。检查venv是否已安装：

1

dpkg -s python3-venv | grep "Status: install ok installed"

如果venv已安装，输出将是“Status: install ok installed”。如果未安装：

1

sudo apt install python3-venv -y

创建并激活虚拟环境：

1
2


python3 -m venv litellm_env
source litellm_env/bin/activate

使用pip安装LiteLLM及其代理服务器组件：

1

pip install 'litellm[proxy]'

在此虚拟环境中使用LiteLLM。要停用虚拟环境，请输入 deactivate。

步骤 2：配置LiteLLM

安装好LiteLLM后，下一步是定义其运行方式。这通过一个配置文件来完成，该文件指定要使用的语言模型以及提供服务的端点。

导航到一个合适的目录并创建一个名为 config.yaml 的配置文件：

1
2
3


mkdir ~/litellm_config
cd ~/litellm_config
nano config.yaml

在 config.yaml 中，指定您打算使用的模型。例如，要配置LiteLLM与Ollama提供的模型进行交互：

1
2
3
4
5


model_list:
  - model_name: codegemma
    litellm_params:
      model: ollama/codegemma:2b
      api_base: http://localhost:11434

此配置将模型名称 codegemma 映射到由Ollama在 http://localhost:11434 上提供的 codegemma:2b 模型。

步骤 3：使用Ollama加载模型

为了在本地运行您的AI模型，您将使用一个名为Ollama的工具。它专为直接在您的设备上托管大型语言模型而设计——无需依赖云服务。

首先，使用以下命令安装Ollama：

1

curl -fsSL https://ollama.com/install.sh | sh

此命令下载并运行官方安装脚本，该脚本会自动启动Ollama服务器。

安装完成后，您就可以加载想要使用的AI模型了。在本例中，我们将拉取一个名为 codegemma:2b 的紧凑模型。

1

ollama pull codegemma:2b

模型下载完成后，Ollama服务器将开始监听请求——准备从您的本地设置生成响应。

步骤 4：启动LiteLLM代理服务器

准备好模型和配置后，就可以启动LiteLLM代理服务器了——这个组件使您的本地AI模型能够被应用程序访问。

要启动服务器，请使用以下命令：

1

litellm --config ~/litellm_config/config.yaml

代理服务器将初始化并暴露您在配置中定义的端点，允许应用程序通过一致的API与指定的模型进行交互。

步骤 5：测试部署

让我们确认一切是否按预期工作。编写一个简单的Python脚本，向LiteLLM服务器发送测试请求，并将其保存为 test_script.py：

1
2
3
4
5
6
7
8


import openai

client = openai.OpenAI(api_key="anything", base_url="http://localhost:4000")
response = client.chat.completions.create(
    model="codegemma",
    messages=[{"role": "user", "content": "Write me a Python function to calculate the nth Fibonacci number."}]
)
print(response)

最后，使用此命令运行脚本：

1

python3 ./test_script.py

如果设置正确，您将从本地模型收到响应——这证实了LiteLLM已启动并正在运行。

优化LiteLLM在嵌入式设备上的性能

为了确保在嵌入式系统上获得快速、可靠的性能，选择合适的语言模型并调整LiteLLM的设置以匹配您设备的限制非常重要。

选择合适的语言模型

并非每个AI模型都适用于资源有限的设备——有些模型太重了。因此，选择专门为此类环境设计的紧凑、优化的模型至关重要：

DistilBERT – BERT的蒸馏版本，保留了BERT超过95%的性能，参数量为6600万。适用于文本分类、情感分析和命名实体识别等任务。
TinyBERT – 拥有约1450万个参数，专为移动和边缘设备设计，在问答和情感分类等任务上表现出色。
MobileBERT – 针对设备端计算进行了优化，参数量为2500万，达到BERT近99%的准确率。非常适合需要实时处理的移动应用程序。
TinyLlama – 一个紧凑模型，拥有约11亿个参数，TinyLlama在能力和效率之间取得了平衡，适用于资源受限环境中的实时自然语言处理。
MiniLM – 一个紧凑的Transformer模型，拥有约3300万个参数，对于语义相似性和问答等任务非常有效，特别是在硬件有限且需要快速处理的场景中。

选择一个适合您设置的模型不仅仅是节省空间——更是为了确保性能流畅、响应迅速，并有效利用设备有限的资源。

配置设置以获得更好性能

当您在有限的硬件上工作时，一些小的调整可以产生很大的影响。通过微调关键的LiteLLM设置，您可以提升性能并确保一切运行顺畅。

限制令牌数量 较短的响应意味着更快的结果。限制响应中的最大令牌数可以减少内存和计算负载。在LiteLLM中，可以通过在进行API调用时设置 max_tokens 参数来实现。例如：

1
2
3
4
5
6
7
8
9


import openai

client = openai.OpenAI(api_key="anything", base_url="http://localhost:4000")
response = client.chat.completions.create(
    model="codegemma",
    messages=[{"role": "user", "content": "Write me a Python function to calculate the nth Fibonacci number."}],
    max_tokens=500 # 将响应限制在500个令牌
)
print(response)

调整 max_tokens 有助于保持回复简洁，并减轻设备的负载。

管理并发请求 如果太多请求同时到达服务器，即使是最佳优化的模型也可能陷入困境。这就是为什么LiteLLM包含一个选项来限制其同时处理的查询数量。例如，您可以通过如下设置 max_parallel_requests 来限制LiteLLM最多处理5个并发请求：

1

litellm --config ~/litellm_config/config.yaml --num_requests 5

此设置有助于均匀分配负载，并确保您的设备在高需求期间也能保持稳定。

总结

在嵌入式设备上运行LLM并不一定需要重型基础设施或专有服务。LiteLLM提供了一个简化、开源的解决方案，可以轻松、灵活且高性能地部署语言模型——即使在资源有限的设备上也是如此。通过正确的模型和配置，您可以在边缘驱动实时AI功能，支持从智能助手到安全的本地处理等各种应用。

在嵌入式Linux上部署轻量级语言模型：使用LiteLLM的完整指南

本文详细介绍了如何在资源受限的嵌入式Linux设备上，使用开源工具LiteLLM和Ollama来部署和运行轻量级大型语言模型，实现本地化AI推理。内容包括从环境准备、逐步安装配置、模型选择到性能优化的全流程指南。