Grok 4 是咩嚟?簡介同釋出日期

2025 年 7 月 9 日,Elon Musk 旗下的 xAI 宣布最新大型語言模型 Grok 4 正式上線,並透過 X(前身 Twitter)直播示範。早前 Musk 曾表示新版本會在 7 月 4 日後推出,而且會將版本名稱由原本計劃的 Grok 3.5 改為 Grok 4,強調需要為專用編程模型再進行一次大型訓練。這意味著 xAI 已跳過 3.5 版,直接進入第四代模型。
Grok 4 嘅核心特點:多代理架構同即時工具
SmythOS 的測評文章指出,Grok 4 本質上仍然係大型語言模型,但在 Heavy 高階方案加入了「多代理(multi‑agent)」層,一次可以運行 8、16 甚至 32 個模型副本討論同融合答案,提升推理能力。直播中演示咗 Grok 4 可以:
- 即時搜尋網絡資料;
- 執行短程程式碼去計算數字;
- 生成簡單圖像或軌道圖。
透過即時使用工具,Grok 4 在像「人類最後考試(HLE)」等基準測試中嘅準確度明顯提高。
另外,xAI 目標將回應延遲縮短至約 250 毫秒,約為 Grok 2 的一半;實時語音回覆變得更加流暢,對需要快速互動的語音助手尤其重要。
Benchmark 成績:標準版 VS. Heavy 版
根據目前公開的測試,Grok 4 Heavy 在多項學術基準上超越其他閉源模型,尤其在需要推理或多步運算的任務中表現突出。以下是部分測試數據:
測試項目 | 指標/範圍 | Grok 4 標準 | Grok 4 Heavy | GPT‑4o | Claude Opus 4 | Gemini 2.5 Pro |
---|---|---|---|---|---|---|
Humanity’s Last Exam (HLE) | 準確率 | 約 25% | 41–50% | 22% | 18% | 21% |
GPQA(物理/天文) | 準確率 | —— | 87–88% | 86.4% | 84% | 86.4% |
AIME 2025(數學) | 正確率 (%) | —— | 95% | 88.9% | 75.5% | 88.9% |
SWE‑Bench(程式碼) | 任務 pass@1 | —— | 72–75% | 71.7% | 72.5% | 69% |
ARC‑AGI‑v2(綜合推理) | Composite (%) | —— | 15.8% | 8% | 8% | 7% |
— 代表官方暫未公布標準版數據
可以看到,Heavy 版的多代理架構帶來明顯優勢,尤其在複雜數學和物理問題上顯著領先。
收費模式:標準版與 Heavy 版差異
Grok 4 提供兩個收費等級,價格和功能差異如下:
功能 / 特點 | Grok 4 標準版($30/月) | Grok 4 Heavy($300/year) | 說明 |
---|---|---|---|
基礎模型權重 | 同樣的 4 系列權重 | 同樣的 4 系列權重 | 重量級只在推理方式上不同 |
平行代理數 | ❌ | 最多 32 個代理 | 提升推理準確度 |
即時網絡搜尋 | ✅ | ✅ | 直播中示範兩者均可調用 |
程式碼執行時間 | 約 5 秒 | 約 30 秒 | Heavy 支援較長運行時間 |
Context Window 大小 | 256K token | 256K token | 與 GPT‑4o 相同 |
每分鐘查詢配額 | 約 20 問題 | 約 120 問題 | 數值估算,官方未公布 |
語音延遲 | ≈ 500 毫秒 | ≈ 350 毫秒 | Heavy 的語音更流暢 |
Heavy 版針對需要高準確度或快速語音回應的研究機構、程式開發者或語音助手開發者,而普通博主、愛好者或一般 SaaS 流程則建議從標準版開始。
Musk 對 Grok 4 的願景:修訂全人類知識庫
在 2025 年 6 月的預告中,Musk 說他與 xAI 團隊正在使用名為 Grok 3.5(後改為 4)的模型整夜「磨練」,目標是使用新版本去重寫整個人類知識庫,去除錯誤、補充缺失資訊,再以此訓練模型。他認為現時許多基礎模型的資料來源存在偏見,Grok 4 加入專用編碼模塊後,將能更好地整理和提升網絡知識。這種策略顯示 xAI 不只追求模型性能,還希望改變訓練資料質量。
尚待解決的問題:透明度與多模態限制
雖然 Grok 4 被稱為「世界上最強大的模型」,但仍有多個未解決的疑慮。SmythOS 指出,截至 2025 年 7 月 10 日,xAI 未公開任何有關訓練數據來源的資料卡或高層次描述,令外界難以評估偏見或風險。Musk 亦承認模型有時會「聽起來很聰明但答錯」,顯示幻覺問題仍然存在。另外,現階段 Grok 4 只能輸出圖像,未能處理圖片輸入,xAI 表示完整的多模態支持要到 9 月才推出。
結語:Grok 4 對 AI 行業嘅啟示
Grok 4 的釋出標誌著 xAI 正面挑戰 GPT‑4o、Claude Opus 和 Gemini 等頂尖模型。透過多代理架構、即時工具使用和快速語音,Grok 4 在多個標準測試上超越對手,尤其 Heavy 版更具競爭力。不過,模型的訓練透明度和幻覺問題仍需改善。對於香港或華語地區嘅開發者和企業,建議可以先試用每月 30 美元的標準版,評估其與現有解決方案的差異,再決定是否升級到 Heavy 版。
隨着 xAI 計劃在未來幾個月推出專用編程模型和完整多模態支持,Grok 4 可能會成為開發者和研究人員日常工作嘅重要工具。無論結果如何,這一輪競爭肯定會加速整個人工智能行業的進步。