在Northflank上运行OpenAI全新GPT-OSS（开源）模型

OpenAI刚刚发布了采用Apache 2.0许可证的首个全开源大语言模型系列GPT-OSS。该版本包含两个模型：gpt-oss-20b和gpt-oss-120b，专为快速、低延迟推理设计，具有强大的推理和指令跟随能力。Northflank可帮助您在安全的高性能环境中轻松部署和运行这些模型。

TL;DR速览

OpenAI发布Apache 2.0许可的强大开源LLM系列GPT-OSS
120B模型在2×H100上可提供顶级性能表现
通过Northflank的vLLM+Open WebUI一键堆栈即可快速部署（无速率限制）

GPT-OSS技术解析

GPT-OSS是OpenAI发布的新开源LLM系列，已集成到Hugging Face Transformers v4.55.0。该模型采用混合专家（MoE）架构，支持4-bit量化（mxfp4）以实现快速高效推理。

模型选项：

gpt-oss-20b：210亿总参数，单token激活约36亿参数，16GB显存即可运行
gpt-oss-120b：1170亿总参数，单token激活约51亿参数，需H100或多GPU配置

核心能力：

指令跟随
思维链推理
工具使用和结构化聊天格式
支持Transformers/vLLM/Llama.cpp/Ollama推理

部署方案对比

20B模型：优化速度和易用性，适合单卡部署
120B模型：更强的复杂任务处理能力，需H100集群

我们推荐使用vLLM运行GPT-OSS-120B以获得最佳性能。

Northflank部署指南

方案一：一键部署

注册Northflank账户
通过堆栈模板部署GPT-OSS+Open WebUI

方案二：手动部署（关键步骤）

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


# 模型服务配置示例
vllm serve openai/gpt-oss-120b --tensor-parallel-size 2

# Python API调用示例
client = OpenAI(
    api_key=os.environ.get("OPENAI_API_KEY"),
    base_url="https://your-vllm-instance-url/v1"
)

chat_response = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[{"role": "user", "content": "解释Python循环优化"}]
)

成本估算

2×H100 GPU成本：$5.48/小时
每百万token处理成本：
- 输入token：$0.12
- 输出token：$2.42

技术意义

GPT-OSS是OpenAI首个采用宽松许可证的开源权重通用LLM，其120B版本在多数基准测试中与o4-mini性能相当，是目前最强的开源模型之一。结合Northflank平台，开发者可获得完全自主的延迟、成本和隐私控制能力。

在Northflank上部署OpenAI全新开源模型GPT-OSS全指南

本文详细讲解如何在Northflank平台一键部署OpenAI最新开源的GPT-OSS大语言模型，包含120B参数的MoE架构解析、vLLM高性能推理配置指南以及完整的Python API调用示例代码。