推出支持 OpenAI Harmony 格式的 GPT-OSS-120B 和 GPT-OSS-20B
· 7 分钟阅读
OpenAI 正通过发布两款强大的新模型:GPT-OSS-120B 和 GPT-OSS-20B,重返开源 AI 领域。这些开放权重推理模型可根据 Apache 2.0 许可证使用,在推理能力方面取得了重大进展,并原生支持 OpenAI Harmony 响应格式。
什么是 GPT-OSS 模型?
GPT-OSS 模型代表了 OpenAI 在开源开发方面的回归,采用先进的专家混合(MoE)架构,旨在提供企业级的推理性能,同时保持效率。这些模型于 2025 年 8 月根据 Apache 2.0 许可证发布,为从企业服务器到消费设备的各种部署场景提供了不同的性能-效率权衡。
GPT-OSS-120B:企业级性能
该 1170 亿参数模型(总计 1168 亿,每个 token 激活参数 51 亿)提供:
- 高级推理:在竞赛编码(Codeforces)和问题解决(MMLU)方面,性能优于 OpenAI o3-mini,并与 o4-mini 相当
- MoE 架构:专家混合设计,具有交替的密集注意力和局部带状稀疏注意力模式
- 长上下文窗口:原生支持高达 128k 的上下文长度,并带有旋转位置嵌入(RoPE)
- 企业集成:针对推理、代理任务和开发者用例进行了优化
- MXFP4 量化:MoE 权重被量化为 MXFP4 格式,可在单个 80GB GPU 上部 署
GPT-OSS-20B:高效便捷
该 210 亿参数模型(总计 209 亿,每个 token 激活参数 36 亿)侧重于:
- 消费级硬件:仅需 16GB 内存即可在笔记本电脑和 Apple Silicon 设备上运行
- 竞争力:尽管尺寸较小,但性能与 o3-mini 相当或更优,在数学方面表现尤为出色
- 边缘部署:非常适合设备端应用和消费级硬件
- MXFP4 效率:由于量化的 MoE 权重,仅需 16GB 内存
性能基准
两款 GPT-OSS 模型在各种评估指标上均表现出卓越的性能,在开源 AI 领域确立了它们极具竞争力的地位。

基准测试结果

基准测试结果显示:
- GPT-OSS-120B 在竞赛编码和通用问题解决方面,性能优于 OpenAI o3-mini,并与 o4-mini 相当
- GPT-OSS-20B 尽管尺寸较小,但在性能上与 o3-mini 相当或更优,尤其在数学方面表现出色
- 两款模型在推理、编码和知识任务等各种评估类别中均表现强劲
- 模型在保持竞争力的同时,提供了开源可访问性和本地部署的优势
这些结果使 GPT-OSS 模型成为专有解决方案的强大替代方案,特别是对于需要高性能 AI 功能并完全控制其部署环境的组织而言。
OpenAI Harmony 格式:结构化对话
两款模型均原生支持 OpenAI Harmony 响应格式,带来多项关键优势:
多通道通信
Harmony 格式将响应组织成三个独立的通道:
- 最终通道:面向用户的响应,提供清晰、可操作的信息
- 分析通道:内部推理和思维链过程
- 评论通道:函数调用、工具使用和实现细节
基于角色的层级结构
五个定义的角色创建了清晰的信息层级:
- 系统:最高优先级的配置和约束
- 开发者:实现指南和技术规范