Grok 4 是咩嚟?簡介同釋出日期

Grok 4 是咩嚟?簡介同釋出日期

2025 年 7 月 9 日,Elon Musk 旗下的 xAI 宣布最新大型語言模型 Grok 4 正式上線,並透過 X(前身 Twitter)直播示範。早前 Musk 曾表示新版本會在 7 月 4 日後推出,而且會將版本名稱由原本計劃的 Grok 3.5 改為 Grok 4,強調需要為專用編程模型再進行一次大型訓練。這意味著 xAI 已跳過 3.5 版,直接進入第四代模型。

Grok 4 嘅核心特點:多代理架構同即時工具

SmythOS 的測評文章指出,Grok 4 本質上仍然係大型語言模型,但在 Heavy 高階方案加入了「多代理(multi‑agent)」層,一次可以運行 8、16 甚至 32 個模型副本討論同融合答案,提升推理能力。直播中演示咗 Grok 4 可以:

  • 即時搜尋網絡資料
  • 執行短程程式碼去計算數字
  • 生成簡單圖像或軌道圖

透過即時使用工具,Grok 4 在像「人類最後考試(HLE)」等基準測試中嘅準確度明顯提高。

另外,xAI 目標將回應延遲縮短至約 250 毫秒,約為 Grok 2 的一半;實時語音回覆變得更加流暢,對需要快速互動的語音助手尤其重要。

Benchmark 成績:標準版 VS. Heavy 版

根據目前公開的測試,Grok 4 Heavy 在多項學術基準上超越其他閉源模型,尤其在需要推理或多步運算的任務中表現突出。以下是部分測試數據:

測試項目指標/範圍Grok 4 標準Grok 4 HeavyGPT‑4oClaude Opus 4Gemini 2.5 Pro
Humanity’s Last Exam (HLE)準確率約 25%41–50%22%18%21%
GPQA(物理/天文)準確率——87–88%86.4%84%86.4%
AIME 2025(數學)正確率 (%)——95%88.9%75.5%88.9%
SWE‑Bench(程式碼)任務 pass@1——72–75%71.7%72.5%69%
ARC‑AGI‑v2(綜合推理)Composite (%)——15.8%8%8%7%

— 代表官方暫未公布標準版數據

可以看到,Heavy 版的多代理架構帶來明顯優勢,尤其在複雜數學和物理問題上顯著領先。

收費模式:標準版與 Heavy 版差異

Grok 4 提供兩個收費等級,價格和功能差異如下:

功能 / 特點Grok 4 標準版($30/月)Grok 4 Heavy($300/year)說明
基礎模型權重同樣的 4 系列權重同樣的 4 系列權重重量級只在推理方式上不同
平行代理數最多 32 個代理提升推理準確度
即時網絡搜尋直播中示範兩者均可調用
程式碼執行時間約 5 秒約 30 秒Heavy 支援較長運行時間
Context Window 大小256K token256K token與 GPT‑4o 相同
每分鐘查詢配額約 20 問題約 120 問題數值估算,官方未公布
語音延遲≈ 500 毫秒≈ 350 毫秒Heavy 的語音更流暢

Heavy 版針對需要高準確度或快速語音回應的研究機構、程式開發者或語音助手開發者,而普通博主、愛好者或一般 SaaS 流程則建議從標準版開始。

Musk 對 Grok 4 的願景:修訂全人類知識庫

在 2025 年 6 月的預告中,Musk 說他與 xAI 團隊正在使用名為 Grok 3.5(後改為 4)的模型整夜「磨練」,目標是使用新版本去重寫整個人類知識庫,去除錯誤、補充缺失資訊,再以此訓練模型。他認為現時許多基礎模型的資料來源存在偏見,Grok 4 加入專用編碼模塊後,將能更好地整理和提升網絡知識。這種策略顯示 xAI 不只追求模型性能,還希望改變訓練資料質量。

尚待解決的問題:透明度與多模態限制

雖然 Grok 4 被稱為「世界上最強大的模型」,但仍有多個未解決的疑慮。SmythOS 指出,截至 2025 年 7 月 10 日,xAI 未公開任何有關訓練數據來源的資料卡或高層次描述,令外界難以評估偏見或風險。Musk 亦承認模型有時會「聽起來很聰明但答錯」,顯示幻覺問題仍然存在。另外,現階段 Grok 4 只能輸出圖像,未能處理圖片輸入,xAI 表示完整的多模態支持要到 9 月才推出。

結語:Grok 4 對 AI 行業嘅啟示

Grok 4 的釋出標誌著 xAI 正面挑戰 GPT‑4o、Claude Opus 和 Gemini 等頂尖模型。透過多代理架構、即時工具使用和快速語音,Grok 4 在多個標準測試上超越對手,尤其 Heavy 版更具競爭力。不過,模型的訓練透明度和幻覺問題仍需改善。對於香港或華語地區嘅開發者和企業,建議可以先試用每月 30 美元的標準版,評估其與現有解決方案的差異,再決定是否升級到 Heavy 版。

隨着 xAI 計劃在未來幾個月推出專用編程模型和完整多模態支持,Grok 4 可能會成為開發者和研究人員日常工作嘅重要工具。無論結果如何,這一輪競爭肯定會加速整個人工智能行業的進步。

Similar Posts

Leave a Reply