在Northflank上运行OpenAI全新GPT-OSS(开源)模型
OpenAI刚刚发布了采用Apache 2.0许可证的首个全开源大语言模型系列GPT-OSS。该版本包含两个模型:gpt-oss-20b和gpt-oss-120b,专为快速、低延迟推理设计,具有强大的推理和指令跟随能力。Northflank可帮助您在安全的高性能环境中轻松部署和运行这些模型。
TL;DR速览
- OpenAI发布Apache 2.0许可的强大开源LLM系列GPT-OSS
- 120B模型在2×H100上可提供顶级性能表现
- 通过Northflank的vLLM+Open WebUI一键堆栈即可快速部署(无速率限制)
GPT-OSS技术解析
GPT-OSS是OpenAI发布的新开源LLM系列,已集成到Hugging Face Transformers v4.55.0。该模型采用混合专家(MoE)架构,支持4-bit量化(mxfp4)以实现快速高效推理。
模型选项:
- gpt-oss-20b:210亿总参数,单token激活约36亿参数,16GB显存即可运行
- gpt-oss-120b:1170亿总参数,单token激活约51亿参数,需H100或多GPU配置
核心能力:
- 指令跟随
- 思维链推理
- 工具使用和结构化聊天格式
- 支持Transformers/vLLM/Llama.cpp/Ollama推理
部署方案对比
20B模型:优化速度和易用性,适合单卡部署
120B模型:更强的复杂任务处理能力,需H100集群
我们推荐使用vLLM运行GPT-OSS-120B以获得最佳性能。
Northflank部署指南
方案一:一键部署
- 注册Northflank账户
- 通过堆栈模板部署GPT-OSS+Open WebUI
方案二:手动部署(关键步骤)
|
|
成本估算
- 2×H100 GPU成本:$5.48/小时
- 每百万token处理成本:
- 输入token:$0.12
- 输出token:$2.42
技术意义
GPT-OSS是OpenAI首个采用宽松许可证的开源权重通用LLM,其120B版本在多数基准测试中与o4-mini性能相当,是目前最强的开源模型之一。结合Northflank平台,开发者可获得完全自主的延迟、成本和隐私控制能力。