立即與 Grok-3 聊天

Grok 3： xAI推出的進階多模態大型語言模型

Grok 3是由伊隆·馬斯克創立的人工智慧新創公司xAI所開發的Grok系列多模態大型語言模型。它是Grok 2 的後繼者，旨在為Grok聊天機器人提供支援，並強調先進的推理、即時搜尋功能和多模態理解，重點在於解決複雜問題和擷取最新資訊。

Grok 3的核心目的與能力

Grok 3結合了強大的推理能力和廣泛的預訓練，旨在超越許多現有的對話式人工智慧，在需要邏輯、多步驟問題解決和即時資訊檢索的任務中表現更佳。它被視為在推理和搜尋整合方面，直接與其他高階聊天模型競爭的產品。

以下是它的主要功能，我們將詳細解釋：

「思考」和「深度搜尋」模式： Grok 3主要有兩種操作模式。「思考」模式著重於結構化、多步驟的推理和解釋，而「深度搜尋」模式則擴展了網路搜尋功能，以收集更深入、更多樣化的資料來源，提供最新的資訊。這種雙模式方法有助於嚴謹的問題解決和廣泛的研究任務。
超大上下文視窗：據報導，在某些配置下，上下文容量可達100萬個詞元，這讓模型能夠處理非常長的文檔、大型數據集和冗長的提示，而不會遺漏先前的內容。
進階推理與問題解決： Grok 3被認為在多步驟推理任務、證明以及複雜的科學或數學問題上表現出色，而且在擬定解決方案的過程中，經常會像強化學習一樣進行精進。
多模態理解：這個模型據說能夠以整合的方式處理文字和圖像（有時候也包括其他模態），讓它能夠執行像是分析圖表、圖形或嵌入式視覺內容，並結合文字輸入的任務。

Grok 3的訓練與基礎架構

xAI強調了Grok 3 的訓練規模，包括使用大型的專業超級運算叢集（Colossus）和大量的 GPU 運算能力來實現其功能。據描述，該模型比其前身擁有更龐大的運算資源。

Grok 3的效能表現

Grok 3展現了業界領先的效能，與前代產品和許多競爭的AI模型相比，都有顯著的提升。主要的效能亮點包括：

準確度： Grok 3在 MMLU（大規模多任務語言理解）上達到 92.7% 的準確度，在 GSM8K（數學推理）上達到 89.3% 的準確度，在 HumanEval（編碼任務）上達到 86.5% 的準確度，展現出強大的推理、語言和編碼能力。
速度：它處理資料的速度比舊版本快30%，而且回應時間比同類產品（例如：o1 proChatGPT ）快25%。
效率： Grok 3 的能源消耗降低了 30%，在維持效能的同時，也更有效率。
規模與容量： Grok 3擁有 2.7 兆個參數、12.8 兆個詞彙的訓練資料集，以及龐大的 128,000 個token的上下文視窗，在處理廣泛且複雜的提示方面表現出色。
基準測試表現卓越：獨立報告證實， Grok 3 的效能大約是Grok 2 的十倍，準確度高出 20%，在推理和事實準確性任務方面表現更優異。

Grok 3與其他模型比較

面向	Grok 3	GPT-5	Claude Sonnet 4
發行日期	2025年2月（測試版）	2025年8月7日	2025年5月22日 (Claude 4 系列；Sonnet 4.5 於2025年9月29日發布)
參數	未公開（使用超過20萬個H100 GPU進行訓練；運算能力約為Grok 2的10倍）	未公開（混合多模態；比GPT-4的約1.76兆參數還要多）	未公開（ Claude 4 系列估計約 400B；類似 MoE 的效率）
上下文視窗	100萬個代幣	40萬個字元（12.8萬個字元輸出）	20萬個詞元（Sonnet 4 的測試版是100萬個詞元；4.5 版有擴充）
MMLU-Pro（一般知識）	大約八成（對世界知識很熟悉）	大約90%（發布時的最新技術）	大約85% (4.5版有改善)
GPQA（研究生等級科學）	75.4% (開啟「思考模式」時為84.6%)	86.0% (使用工具/專業版時為 89.4%)	大約83% (4.5週，有思考的話是83.4%)
美國數學邀請賽 ( AIME )	52.2% (與 Think 合作時為 93.3%；在 Beta 評估中最高可達 100%)	94.6% (100% 包含思考/Python)	大約78% (如果用Python，4.5版可以達到100%)
HumanEval/LiveCodeBench/SWE-bench (程式碼)	57.0% LCB (79.4% w/ Think)；SWE-bench 預估值約 70%。	74.9% SWE-bench Verified；88% Aider Polyglot	72.7% SWE-bench (4.5版為77.2%；使用平行運算時為82%)
多模態理解	大約七成三	84.2% (原生多模態，來自訓練資料)	大約七成（在代理任務方面，4.5 分的表現很強）
速度 (每秒代幣數)	~63 輸出	~128 (為生產環境優化)	大約100（是Claude 3.7的兩倍；在4.5版本中，自主運行時間超過30小時）
使用方式與價格	免費使用，但對 grok.com/X 應用程式有限制；SuperGrok/Premium+ 提供更高的使用額度（詳情請見 x.ai/grok）；API 透過xAI提供。	ChatGPT Pro (每月20美元以上)；API：輸入每百萬字元1.25美元，輸出每百萬字元10美元（小型/奈米模型有更便宜的方案）	Claude Pro (每月20美元)；API：輸入每百萬字元3美元，輸出每百萬字元15美元（擴展上下文進階版）

試試看HIX AI上的Grok 3

想要一個簡單、直接的方式來使用Grok 3，而且沒有任何限制嗎？試試HIX AI吧！這裡有三個簡單的步驟可以做到：

來逛逛HIX AI的AI聊天平台。
選擇Grok 3模型。
你可以問模型任何問題，它會馬上給你答案。

常見問題解答

Grok 3與 Grok 2 有何不同？

Grok 3強調更深層的推理、更大的上下文視窗、更強大的即時資料整合以及更高的效率。它還引入了增強的思路鏈處理、用於糾錯的回溯以及更廣泛的多模態輸入。與 Grok 2 相比，使用者通常會看到更快的推理週期和對長而複雜的提示的更好處理。

Grok 3最擅長執行哪些任務？

Grok 3擅長複雜的多步驟推理和問題解決、即時資料檢索和合成、多模式輸入（文字、圖像、音訊）和長上下文理解等許多任務。

Grok 3 的準確度如何？

Grok 3旨在在推理、事實性和編碼任務中實現高精度，並透過檢索增強功能來改進最新事實。基準測試結果因任務和版本而異，因此預計其在核心推理和檢索方面將表現強勁，部分任務的表現或與競爭對手不相上下，或在某些極端情況下有所提升。

Grok 3有多快？

報告顯示，與早期 Grok 版本和同類高端型號相比，新版本延遲更具競爭力或有所改善，性能經過優化，可在推理密集型交互和數據密集型提示中提供更快的響應速度。具體速度取決於部署、硬體和特定任務。