OpenAI 发布了最新的模型系列:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这三款模型目前仅通过API提供,旨在为开发者带来更强大的能力和更优的成本效益。
核心亮点:
1️⃣性能超越前代: 新模型系列在各项基准测试中普遍超越了 GPT-4o 和 GPT-4o mini,尤其在 编码 和 指令遵循 方面取得了显著进步。
2️⃣编码能力大幅提升: GPT-4.1 在 SWE-bench Verified 上的得分高达 54.6%,比 GPT-4o 提升了 21.4%,成为领先的编码模型。它在处理代码 diff、遵循格式、减少冗余编辑等方面也更可靠。
3️⃣指令遵循更精准: 在 Scale 的 MultiChallenge 基准测试中,GPT-4.1 得分提高了 10.5%,能更可靠地理解和执行复杂、多步骤或带有约束条件的指令。
4️⃣更强的长上下文处理: 所有三款新模型均支持高达 100万 token 的上下文窗口,远超之前的 128k token。同时,它们对长上下文的理解和信息提取能力也得到了优化(如“大海捞针”测试和新的 OpenAI-MRCR、Graphwalks 评估所示),能更好地处理大型代码库、长文档分析等任务。
优化的成本与效率:
1️⃣GPT-4.1 mini: 小型模型性能的巨大飞跃,在许多基准上甚至超越了 GPT-4o,但延迟近乎减半,成本降低了 83%。
2️⃣GPT-4.1 nano: OpenAI 迄今为止 最快、最便宜 的模型,拥有 100万 token 上下文窗口,性能超越 GPT-4o mini,非常适合需要低延迟的任务(如分类、自动补全)。
整体成本下降: GPT-4.1 比 GPT-4o 的中位数查询成本降低了 26%。同时,对于重复传递相同上下文的查询,提示缓存(prompt caching)折扣提高到 75%。
3️⃣视觉能力增强: 新模型系列,特别是 GPT-4.1 mini,在图像理解方面表现优异,在 MMMU、MathVista 等多个视觉基准测试中得分亮眼,并能在无字幕的长视频理解(Video-MME)任务中取得领先。
4️⃣更适用于构建智能体(Agents): 改进的指令遵循可靠性和长上下文理解能力,使 GPT-4.1 系列模型在驱动能够自主完成任务的 AI 智能体方面更为有效。
(知识更新: 知识库更新至 2024年6月。)
GPT-4.5 Preview 将被弃用: 由于 GPT-4.1 在性能和成本上更具优势,GPT-4.5 Preview 将在 2025年7月14日 停用,开发者有三个月时间进行迁移。
总而言之,GPT-4.1 系列是 OpenAI 聚焦于开发者实际需求,在编码、指令遵循、长上下文处理和成本效益方面迈出的重要一步,为构建更智能、更可靠、更强大的 AI 应用和智能体解锁了新的可能性。欢迎开发者们通过 API 探索和使用这些新模型!