GPT-4o mini：推動高效智能的進一步發展 (2025)

OpenAI 宣佈了一個革命性的新產品—GPT-4o mini，這是我們至今最具成本效益的小型模型。GPT-4o mini 將會顯著擴展 AI 應用範圍，使智能更加負擔得起。這款模型在 MMLU 上取得了 82% 的高分，並在 LMSYS 排行榜上超越了 GPT-41。其價格為每百萬輸入字元 $0.15，每百萬輸出字元 $0.60，比之前的前沿模型便宜了一個數量級，並且比 GPT-3.5 Turbo 便宜超過 60%。

目錄顯示

GPT-4o mini 的應用範圍

GPT-4o mini 以其低成本和低延遲，能夠勝任多種任務，例如：

多次模型調用：如調用多個 API。
大容量上下文處理：如處理完整的代碼庫或對話歷史。
即時文字回應：如客戶支持聊天機器人。

目前，GPT-4o mini 支持文本和視覺的 API，未來將會支持文本、圖像、視頻和音頻的輸入和輸出。這款模型擁有 128K 字元的上下文窗口，每次請求支持最多 16K 輸出字元，並擁有截至 2023 年 10 月的知識。改進的分詞器使得處理非英語文本更加經濟高效。

優越的文字智能和多模態推理能力

GPT-4o mini 在學術基準上超越了 GPT-3.5 Turbo 和其他小型模型，並支持與 GPT-4o 相同的語言範圍。它在函數調用方面表現出色，允許開發者構建能夠從外部系統獲取數據或採取行動的應用，並且在長上下文性能上比 GPT-3.5 Turbo 有顯著提升。

基準測試成績

GPT-4o mini 在以下幾個重要基準測試中表現出色：

推理任務：在 MMLU 上得分 82.0%，超越 Gemini Flash 的 77.9% 和 Claude Haiku 的 73.8%。
數學和編碼能力：在 MGSM 測試中得分 87.0%，相比之下，Gemini Flash 得分 75.5%，Claude Haiku 得分 71.7%。在 HumanEval 測試中得分 87.2%，超越 Gemini Flash 的 71.5% 和 Claude Haiku 的 75.9%。
多模態推理：在 MMMU 測試中得分 59.4%，超越 Gemini Flash 的 56.1% 和 Claude Haiku 的 50.2%。

模型評估成績表

評估基準	GPT-4o mini	Gemini Flash	Claude Haiku	GPT-3.5 Turbo	GPT-4o
MMLU	82.0%	77.9%	73.8%	69.8%	88.7%
MGSM	87.0%	75.5%	71.7%	56.3%	90.5%
HumanEval	87.2%	71.5%	75.9%	68.0%	90.2%
MMMU	59.4%	56.1%	50.2%	0.0%	69.1%

安全措施

安全性從一開始就在我們的模型中內建，並在每一步開發過程中得到強化。在預訓練中，我們過濾掉不希望模型學習或輸出的信息，如仇恨言論、成人內容、主要聚合個人信息的網站和垃圾信息。在後訓練中，我們使用人類反饋的強化學習技術（RLHF）來對齊模型行為，以提高模型回應的準確性和可靠性。

GPT-4o mini 具有與 GPT-4o 相同的安全緩解措施，經過我們的準備框架及自願承諾的自動和人工評估，得到仔細評估。超過 70 名外部專家在社會心理學和虛假信息等領域測試 GPT-4o，以識別潛在風險，並在即將發布的 GPT-4o 系統卡和準備得分卡中分享詳情。這些專家的洞察幫助改進了 GPT-4o 和 GPT-4o mini 的安全性。

說明與價格

GPT-4o mini 現在可用於 Assistants API、Chat Completions API 和 Batch API。開發者需支付每百萬輸入字元 $0.15 和每百萬輸出字元 $0.60（大約相當於 2500 頁標準書籍的字元量）。我們計劃在接下來的幾天內推出 GPT-4o mini 的微調功能。

在 ChatGPT 中，免費用戶、Plus 用戶和團隊用戶今天就可以訪問 GPT-4o mini，取代 GPT-3.5。企業用戶也將從下週開始訪問，以符合我們使 AI 益處普及的使命。