☰

Groq問世ASIC趨勢無法擋　通用型GPU架構難滿足AI服務

隨着AI服務從訓練導向轉向推論導向，營運成本成爲企業決策核心，GPU高成本與高功耗限制逐漸顯現；通用型GPU架構難以滿足AI服務，都讓ASIC由輔助角色轉爲核心基礎設施。

文／魏聖峰

ASIC原本是大型ＣＳＰ業者爲了降低成本而自行研發的客製化晶片，如今Nvidia在GTC 2026宣佈正式導入以Groq的LPU（語言處理單元）的ASIC推論架構，引發業界震撼，這將會讓ASIC在ＡＩ領域有關鍵性的轉折。過去Nvidia總認爲，研發更強的ＧＰＵ將能主導未來的ＡＩ世界，或許因爲ＧＰＵ的研發成本高，並出現部分瓶頸，現在還得需要低功耗、低延遲等的需求，這恐怕是ＧＰＵ短期內難以做到的事。現在的ＡＩ應用將從訓練轉向推論（Inference）以實際落地。在這個背景下，ASIC有機會從邊緣角色，轉變爲ＡＩ基礎設施的一部分。

Groq是一家專注於ＡＩ推論的ASIC公司，核心產品是語言處理單元（ＬＰＵ），專門針對大語言模型（ＬＬＭ）的推理速度進行優化，強調低延遲與高吞吐量。與純統ＧＰＵ相比，Groq是完全不同的設計理念。在資料流導向架構上，ＧＰＵ採用通用運算架構，需要頻繁從外部記憶體（HBM）存取資料，而Groq透過大量內建SRAM、靜態排程和管道化（Pipline）資料流，讓資料可以在晶片內部流動，明顯降低延遲。接着是SRAM取代HBM，降低對HBM依賴，避免記憶體瓶頸和提供極低延遲。這對ＬＬＭ推論中的token-by-token生成非常重要。

Groq是ASIC晶片

Groq這款晶片並不適用在模型訓練，而是專注在即時對話、ＡＩ代理、程式生成以及邊緣ＡＩ應用上。它是一款爲ＡＩ應用而生的晶片，而不是爲訓練而設計的晶片。隨着ＬＬＭ逐步成熟，市場關鍵指標也隨之改變。不再只是算力，而是延遲（Latency）、能耗和單位成本等問題。ＧＰＵ在上述指標下，相較ASIC晶片的成本、能耗都來得高，且延遲不夠低，在ＡＩ應用上ＧＰＵ就不符合成本需求。這也讓過去Nvidia的ＧＰＵ獨大格局遭到自我顛覆，得靠導入Groq ASIC晶片方式，讓Nvidia的ＡＩ架構補上推論的缺口。

先前本刊曾介紹過Vera Rubin架構中的六大晶片平臺，包含Vera CPU、Rubin GPU、DPU、NVLink、ConnectX NIC和記憶體HBM。這些晶片分別掌管整個ＡＩ系統的控制、訓練、資料處理中心、高速互連、網路連結和記憶體等主要功能，代表Nvidia正從晶片供應商轉型爲ＡＩ工廠架構提供者，Vera Rubin就是一座ＡＩ工廠。

現在出現一個問題，就是ＧＰＵ在進行資料叢集運作時，會需要向記憶體不斷地存取資料，這會造成記憶體有瓶頸並形成運作效率出現延遲現象。如果在ＡＩ應用端也採用這類ＧＰＵ時，將出現這類問題，並影響應用端的效率。再者，ＧＰＵ的價格較高，大型ＣＳＰ業者在他們的資料中心，在比較次要端或是應用端部分的運作，就採用自研ASIC晶片，降低建置成本是主要的理由。當Nvidia發現ＧＰＵ有上述瓶頸時，透過導入Groq ASIC晶片來解決，主要用在即時推論生成（Decode），形成混合運算架構。這個架構下，ＧＰＵ負責大規模運算，ASIC負責高效率執行。

降低建置成本

過去黃仁勳對於ASIC晶片的評論，大致認爲運作效率不如自家ＧＰＵ來得強，雖然能降低成本，卻可能在算力上輸一截，結果可能適得其反並喪失客戶算力的商機。黃仁勳這樣講到現在都沒錯，的確ASIC晶片運作效率不如ＧＰＵ強，但如果擺在次要的運算中心，因爲這個次要運算中心不需要非常強大的ＧＰＵ算力，還能降低成本。隨着邊緣運算需求在未來ＡＩ應用上會扮演重要的角色，而邊緣運算中心的主流就會是ASIC晶片。這樣的趨勢，加上Nvidia採用Groq的ASIC晶片後，很可能就讓ASIC晶片在ＡＩ架構上浮上臺面。（全文未完）

全文及圖表請見《先探投資週刊2397期精彩當期內文轉載》

Groq問世ASIC趨勢無法擋 通用型GPU架構難滿足AI服務

相關資訊

Groq問世ASIC趨勢無法擋　通用型GPU架構難滿足AI服務