Grok 4 是咩嚟？簡介同釋出日期

2025 年 7 月 9 日，Elon Musk 旗下的 xAI 宣布最新大型語言模型 Grok 4 正式上線，並透過 X（前身 Twitter）直播示範。早前 Musk 曾表示新版本會在 7 月 4 日後推出，而且會將版本名稱由原本計劃的 Grok 3.5 改為 Grok 4，強調需要為專用編程模型再進行一次大型訓練。這意味著 xAI 已跳過 3.5 版，直接進入第四代模型。

Grok 4 嘅核心特點：多代理架構同即時工具

SmythOS 的測評文章指出，Grok 4 本質上仍然係大型語言模型，但在 Heavy 高階方案加入了「多代理（multi‑agent）」層，一次可以運行 8、16 甚至 32 個模型副本討論同融合答案，提升推理能力。直播中演示咗 Grok 4 可以：

即時搜尋網絡資料；
執行短程程式碼去計算數字；
生成簡單圖像或軌道圖。

透過即時使用工具，Grok 4 在像「人類最後考試（HLE）」等基準測試中嘅準確度明顯提高。

另外，xAI 目標將回應延遲縮短至約 250 毫秒，約為 Grok 2 的一半；實時語音回覆變得更加流暢，對需要快速互動的語音助手尤其重要。

Benchmark 成績：標準版 VS. Heavy 版

根據目前公開的測試，Grok 4 Heavy 在多項學術基準上超越其他閉源模型，尤其在需要推理或多步運算的任務中表現突出。以下是部分測試數據：

測試項目	指標/範圍	Grok 4 標準	Grok 4 Heavy	GPT‑4o	Claude Opus 4	Gemini 2.5 Pro
Humanity’s Last Exam (HLE)	準確率	約 25%	41–50%	22%	18%	21%
GPQA（物理/天文）	準確率	——	87–88%	86.4%	84%	86.4%
AIME 2025（數學）	正確率 (%)	——	95%	88.9%	75.5%	88.9%
SWE‑Bench（程式碼）	任務 pass@1	——	72–75%	71.7%	72.5%	69%
ARC‑AGI‑v2（綜合推理）	Composite (%)	——	15.8%	8%	8%	7%

— 代表官方暫未公布標準版數據

可以看到，Heavy 版的多代理架構帶來明顯優勢，尤其在複雜數學和物理問題上顯著領先。

收費模式：標準版與 Heavy 版差異

Grok 4 提供兩個收費等級，價格和功能差異如下：

功能 / 特點	Grok 4 標準版（$30/月）	Grok 4 Heavy（$300/year）	說明
基礎模型權重	同樣的 4 系列權重	同樣的 4 系列權重	重量級只在推理方式上不同
平行代理數	❌	最多 32 個代理	提升推理準確度
即時網絡搜尋	✅	✅	直播中示範兩者均可調用
程式碼執行時間	約 5 秒	約 30 秒	Heavy 支援較長運行時間
Context Window 大小	256K token	256K token	與 GPT‑4o 相同
每分鐘查詢配額	約 20 問題	約 120 問題	數值估算，官方未公布
語音延遲	≈ 500 毫秒	≈ 350 毫秒	Heavy 的語音更流暢

Heavy 版針對需要高準確度或快速語音回應的研究機構、程式開發者或語音助手開發者，而普通博主、愛好者或一般 SaaS 流程則建議從標準版開始。

Musk 對 Grok 4 的願景：修訂全人類知識庫

在 2025 年 6 月的預告中，Musk 說他與 xAI 團隊正在使用名為 Grok 3.5（後改為 4）的模型整夜「磨練」，目標是使用新版本去重寫整個人類知識庫，去除錯誤、補充缺失資訊，再以此訓練模型。他認為現時許多基礎模型的資料來源存在偏見，Grok 4 加入專用編碼模塊後，將能更好地整理和提升網絡知識。這種策略顯示 xAI 不只追求模型性能，還希望改變訓練資料質量。

尚待解決的問題：透明度與多模態限制

雖然 Grok 4 被稱為「世界上最強大的模型」，但仍有多個未解決的疑慮。SmythOS 指出，截至 2025 年 7 月 10 日，xAI 未公開任何有關訓練數據來源的資料卡或高層次描述，令外界難以評估偏見或風險。Musk 亦承認模型有時會「聽起來很聰明但答錯」，顯示幻覺問題仍然存在。另外，現階段 Grok 4 只能輸出圖像，未能處理圖片輸入，xAI 表示完整的多模態支持要到 9 月才推出。

結語：Grok 4 對 AI 行業嘅啟示

Grok 4 的釋出標誌著 xAI 正面挑戰 GPT‑4o、Claude Opus 和 Gemini 等頂尖模型。透過多代理架構、即時工具使用和快速語音，Grok 4 在多個標準測試上超越對手，尤其 Heavy 版更具競爭力。不過，模型的訓練透明度和幻覺問題仍需改善。對於香港或華語地區嘅開發者和企業，建議可以先試用每月 30 美元的標準版，評估其與現有解決方案的差異，再決定是否升級到 Heavy 版。

隨着 xAI 計劃在未來幾個月推出專用編程模型和完整多模態支持，Grok 4 可能會成為開發者和研究人員日常工作嘅重要工具。無論結果如何，這一輪競爭肯定會加速整個人工智能行業的進步。