Grok 3: xAI推出的進階多模態大型語言模型
Grok 3是由伊隆·馬斯克創立的人工智慧新創公司xAI所開發的Grok系列多模態大型語言模型。它是Grok 2 的後繼者,旨在為Grok聊天機器人提供支援,並強調先進的推理、即時搜尋功能和多模態理解,重點在於解決複雜問題和擷取最新資訊。
Grok 3的核心目的與能力
Grok 3結合了強大的推理能力和廣泛的預訓練,旨在超越許多現有的對話式人工智慧,在需要邏輯、多步驟問題解決和即時資訊檢索的任務中表現更佳。它被視為在推理和搜尋整合方面,直接與其他高階聊天模型競爭的產品。
以下是它的主要功能,我們將詳細解釋:
- 「思考」和「深度搜尋」模式: Grok 3主要有兩種操作模式。「思考」模式著重於結構化、多步驟的推理和解釋,而「深度搜尋」模式則擴展了網路搜尋功能,以收集更深入、更多樣化的資料來源,提供最新的資訊。這種雙模式方法有助於嚴謹的問題解決和廣泛的研究任務。
- 超大上下文視窗:據報導,在某些配置下,上下文容量可達100萬個詞元,這讓模型能夠處理非常長的文檔、大型數據集和冗長的提示,而不會遺漏先前的內容。
- 進階推理與問題解決: Grok 3被認為在多步驟推理任務、證明以及複雜的科學或數學問題上表現出色,而且在擬定解決方案的過程中,經常會像強化學習一樣進行精進。
- 多模態理解:這個模型據說能夠以整合的方式處理文字和圖像(有時候也包括其他模態),讓它能夠執行像是分析圖表、圖形或嵌入式視覺內容,並結合文字輸入的任務。
Grok 3的訓練與基礎架構
xAI強調了Grok 3 的訓練規模,包括使用大型的專業超級運算叢集(Colossus)和大量的 GPU 運算能力來實現其功能。據描述,該模型比其前身擁有更龐大的運算資源。
Grok 3的效能表現
Grok 3展現了業界領先的效能,與前代產品和許多競爭的AI模型相比,都有顯著的提升。主要的效能亮點包括:
- 準確度: Grok 3在 MMLU(大規模多任務語言理解)上達到 92.7% 的準確度,在 GSM8K(數學推理)上達到 89.3% 的準確度,在 HumanEval(編碼任務)上達到 86.5% 的準確度,展現出強大的推理、語言和編碼能力。
- 速度:它處理資料的速度比舊版本快30%,而且回應時間比同類產品(例如:o1 proChatGPT )快25%。
- 效率: Grok 3 的能源消耗降低了 30%,在維持效能的同時,也更有效率。
- 規模與容量: Grok 3擁有 2.7 兆個參數、12.8 兆個詞彙的訓練資料集,以及龐大的 128,000 個token的上下文視窗,在處理廣泛且複雜的提示方面表現出色。
- 基準測試表現卓越:獨立報告證實, Grok 3 的效能大約是Grok 2 的十倍,準確度高出 20%,在推理和事實準確性任務方面表現更優異。
Grok 3與其他模型比較
| 面向 | Grok 3 | GPT-5 | Claude Sonnet 4 |
| 發行日期 | 2025年2月(測試版) | 2025年8月7日 | 2025年5月22日 (Claude 4 系列;Sonnet 4.5 於2025年9月29日發布) |
| 參數 | 未公開(使用超過20萬個H100 GPU進行訓練;運算能力約為Grok 2的10倍) | 未公開(混合多模態;比GPT-4的約1.76兆參數還要多) | 未公開( Claude 4 系列估計約 400B;類似 MoE 的效率) |
| 上下文視窗 | 100萬個代幣 | 40萬個字元(12.8萬個字元輸出) | 20萬個詞元(Sonnet 4 的測試版是100萬個詞元;4.5 版有擴充) |
| MMLU-Pro(一般知識) | 大約八成(對世界知識很熟悉) | 大約90%(發布時的最新技術) | 大約85% (4.5版有改善) |
| GPQA(研究生等級科學) | 75.4% (開啟「思考模式」時為84.6%) | 86.0% (使用工具/專業版時為 89.4%) | 大約83% (4.5週,有思考的話是83.4%) |
| 美國數學邀請賽 ( AIME ) | 52.2% (與 Think 合作時為 93.3%;在 Beta 評估中最高可達 100%) | 94.6% (100% 包含思考/Python) | 大約78% (如果用Python,4.5版可以達到100%) |
| HumanEval/LiveCodeBench/SWE-bench (程式碼) | 57.0% LCB (79.4% w/ Think);SWE-bench 預估值約 70%。 | 74.9% SWE-bench Verified;88% Aider Polyglot | 72.7% SWE-bench (4.5版為77.2%;使用平行運算時為82%) |
| 多模態理解 | 大約七成三 | 84.2% (原生多模態,來自訓練資料) | 大約七成(在代理任務方面,4.5 分的表現很強) |
| 速度 (每秒代幣數) | ~63 輸出 | ~128 (為生產環境優化) | 大約100(是Claude 3.7的兩倍;在4.5版本中,自主運行時間超過30小時) |
| 使用方式與價格 | 免費使用,但對 grok.com/X 應用程式有限制;SuperGrok/Premium+ 提供更高的使用額度(詳情請見 x.ai/grok);API 透過xAI提供。 | ChatGPT Pro (每月20美元以上);API:輸入每百萬字元1.25美元,輸出每百萬字元10美元(小型/奈米模型有更便宜的方案) | Claude Pro (每月20美元);API:輸入每百萬字元3美元,輸出每百萬字元15美元(擴展上下文進階版) |
試試看HIX AI上的Grok 3
想要一個簡單、直接的方式來使用Grok 3,而且沒有任何限制嗎?試試HIX AI吧!這裡有三個簡單的步驟可以做到:
- 來逛逛HIX AI的AI聊天平台。
- 選擇Grok 3模型。
- 你可以問模型任何問題,它會馬上給你答案。
常見問題解答
Grok 3與 Grok 2 有何不同?
Grok 3強調更深層的推理、更大的上下文視窗、更強大的即時資料整合以及更高的效率。它還引入了增強的思路鏈處理、用於糾錯的回溯以及更廣泛的多模態輸入。與 Grok 2 相比,使用者通常會看到更快的推理週期和對長而複雜的提示的更好處理。
Grok 3最擅長執行哪些任務?
Grok 3擅長複雜的多步驟推理和問題解決、即時資料檢索和合成、多模式輸入(文字、圖像、音訊)和長上下文理解等許多任務。
Grok 3 的準確度如何?
Grok 3旨在在推理、事實性和編碼任務中實現高精度,並透過檢索增強功能來改進最新事實。基準測試結果因任務和版本而異,因此預計其在核心推理和檢索方面將表現強勁,部分任務的表現或與競爭對手不相上下,或在某些極端情況下有所提升。
Grok 3有多快?
報告顯示,與早期 Grok 版本和同類高端型號相比,新版本延遲更具競爭力或有所改善,性能經過優化,可在推理密集型交互和數據密集型提示中提供更快的響應速度。具體速度取決於部署、硬體和特定任務。


