在Northflank上部署OpenAI全新开源模型GPT-OSS全指南

本文详细讲解如何在Northflank平台一键部署OpenAI最新开源的GPT-OSS大语言模型,包含120B参数的MoE架构解析、vLLM高性能推理配置指南以及完整的Python API调用示例代码。

在Northflank上运行OpenAI全新GPT-OSS(开源)模型

OpenAI刚刚发布了采用Apache 2.0许可证的首个全开源大语言模型系列GPT-OSS。该版本包含两个模型:gpt-oss-20b和gpt-oss-120b,专为快速、低延迟推理设计,具有强大的推理和指令跟随能力。Northflank可帮助您在安全的高性能环境中轻松部署和运行这些模型。

TL;DR速览

  • OpenAI发布Apache 2.0许可的强大开源LLM系列GPT-OSS
  • 120B模型在2×H100上可提供顶级性能表现
  • 通过Northflank的vLLM+Open WebUI一键堆栈即可快速部署(无速率限制)

GPT-OSS技术解析

GPT-OSS是OpenAI发布的新开源LLM系列,已集成到Hugging Face Transformers v4.55.0。该模型采用混合专家(MoE)架构,支持4-bit量化(mxfp4)以实现快速高效推理。

模型选项:

  • gpt-oss-20b:210亿总参数,单token激活约36亿参数,16GB显存即可运行
  • gpt-oss-120b:1170亿总参数,单token激活约51亿参数,需H100或多GPU配置

核心能力:

  • 指令跟随
  • 思维链推理
  • 工具使用和结构化聊天格式
  • 支持Transformers/vLLM/Llama.cpp/Ollama推理

部署方案对比

20B模型:优化速度和易用性,适合单卡部署
120B模型:更强的复杂任务处理能力,需H100集群

我们推荐使用vLLM运行GPT-OSS-120B以获得最佳性能。

Northflank部署指南

方案一:一键部署

  1. 注册Northflank账户
  2. 通过堆栈模板部署GPT-OSS+Open WebUI

方案二:手动部署(关键步骤)

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
# 模型服务配置示例
vllm serve openai/gpt-oss-120b --tensor-parallel-size 2

# Python API调用示例
client = OpenAI(
    api_key=os.environ.get("OPENAI_API_KEY"),
    base_url="https://your-vllm-instance-url/v1"
)

chat_response = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[{"role": "user", "content": "解释Python循环优化"}]
)

成本估算

  • 2×H100 GPU成本:$5.48/小时
  • 每百万token处理成本:
    • 输入token:$0.12
    • 输出token:$2.42

技术意义

GPT-OSS是OpenAI首个采用宽松许可证的开源权重通用LLM,其120B版本在多数基准测试中与o4-mini性能相当,是目前最强的开源模型之一。结合Northflank平台,开发者可获得完全自主的延迟、成本和隐私控制能力。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计