开源大语言模型本地部署技术解析

本文详细介绍了最新发布的开源大语言模型gpt-oss-120b和gpt-oss-20b的技术特性,包括混合专家架构、参数配置、硬件要求以及在推理、工具使用和结构化输出方面的性能表现,适合开发者了解本地部署AI模型的技术细节。

某机构发布了gpt-oss-120b和gpt-oss-20b两款开源权重语言模型,专为高性能推理、工具使用和高效部署而设计。这是自GPT-2以来该公司首次发布完全开源权重的语言模型,采用宽松的Apache 2.0许可证。

gpt-oss-120b模型采用混合专家架构,每个token激活51亿参数。在核心推理基准测试中匹配或超越了专有模型o4-mini,同时可在单块80GB GPU上高效运行。较小的gpt-oss-20b模型激活其210亿参数中的36亿,仅需16GB内存即可在消费级硬件上运行,适用于设备端推理或快速迭代,无需依赖云基础设施。

两款模型均支持高级用例,包括思维链推理、工具使用和结构化输出。开发者可配置模型应用不同级别的推理力度,在速度与准确性之间取得平衡。

采用从某机构内部o系列模型适配的技术进行训练,gpt-oss模型使用旋转位置嵌入、分组多查询注意力,并支持128k上下文长度。在编程、健康、数学和智能体基准测试(包括MMLU、HealthBench、Codeforces和TauBench)中进行评估,即使与o4-mini和GPT-4o等闭源模型相比也展现出强劲性能。

某机构发布这些模型时未对其思维链(CoT)推理施加直接监督,使研究人员能够研究推理轨迹以发现潜在问题,如偏见或滥用。

为评估风险,某机构使用生物学和网络安全领域的对抗数据对模型进行了最坏情况微调。即使经过强力微调,根据某机构的准备框架,模型也未达到高风险能力水平。外部专家评审的发现为最终发布提供了依据。该公司还推出了50万美元奖金的红队挑战,以进一步评估模型在真实环境中的表现。

模型已在Hugging Face和多个部署平台上提供。20B模型仅需16GB RAM即可本地运行。正如一位Reddit用户询问:

这个模型能否在不连接互联网的计算机上本地使用?运行此模型的最低配置计算机是什么(Altman说是’高端’)?

另一位用户澄清:

下载后,运行不需要互联网。至于配置:运行20B模型需要至少16GB RAM(VRAM或系统内存)。16GB的MacBook Air可以每秒生成数十个token。现代GPU可达数百以上。

某中心还通过ONNX Runtime将20B模型的GPU优化版本引入Windows,通过Foundry Local和VS Code的AI工具包提供。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计