Groq問世ASIC趨勢無法擋 通用型GPU架構難滿足AI服務
隨着AI服務從訓練導向轉向推論導向,營運成本成爲企業決策核心,GPU高成本與高功耗限制逐漸顯現;通用型GPU架構難以滿足AI服務,都讓ASIC由輔助角色轉爲核心基礎設施。
文/魏聖峰
ASIC原本是大型CSP業者爲了降低成本而自行研發的客製化晶片,如今Nvidia在GTC 2026宣佈正式導入以Groq的LPU(語言處理單元)的ASIC推論架構,引發業界震撼,這將會讓ASIC在AI領域有關鍵性的轉折。過去Nvidia總認爲,研發更強的GPU將能主導未來的AI世界,或許因爲GPU的研發成本高,並出現部分瓶頸,現在還得需要低功耗、低延遲等的需求,這恐怕是GPU短期內難以做到的事。現在的AI應用將從訓練轉向推論(Inference)以實際落地。在這個背景下,ASIC有機會從邊緣角色,轉變爲AI基礎設施的一部分。
Groq是一家專注於AI推論的ASIC公司,核心產品是語言處理單元(LPU),專門針對大語言模型(LLM)的推理速度進行優化,強調低延遲與高吞吐量。與純統GPU相比,Groq是完全不同的設計理念。在資料流導向架構上,GPU採用通用運算架構,需要頻繁從外部記憶體(HBM)存取資料,而Groq透過大量內建SRAM、靜態排程和管道化(Pipline)資料流,讓資料可以在晶片內部流動,明顯降低延遲。接着是SRAM取代HBM,降低對HBM依賴,避免記憶體瓶頸和提供極低延遲。這對LLM推論中的token-by-token生成非常重要。
Groq是ASIC晶片
Groq這款晶片並不適用在模型訓練,而是專注在即時對話、AI代理、程式生成以及邊緣AI應用上。它是一款爲AI應用而生的晶片,而不是爲訓練而設計的晶片。隨着LLM逐步成熟,市場關鍵指標也隨之改變。不再只是算力,而是延遲(Latency)、能耗和單位成本等問題。GPU在上述指標下,相較ASIC晶片的成本、能耗都來得高,且延遲不夠低,在AI應用上GPU就不符合成本需求。這也讓過去Nvidia的GPU獨大格局遭到自我顛覆,得靠導入Groq ASIC晶片方式,讓Nvidia的AI架構補上推論的缺口。
先前本刊曾介紹過Vera Rubin架構中的六大晶片平臺,包含Vera CPU、Rubin GPU、DPU、NVLink、ConnectX NIC和記憶體HBM。這些晶片分別掌管整個AI系統的控制、訓練、資料處理中心、高速互連、網路連結和記憶體等主要功能,代表Nvidia正從晶片供應商轉型爲AI工廠架構提供者,Vera Rubin就是一座AI工廠。
現在出現一個問題,就是GPU在進行資料叢集運作時,會需要向記憶體不斷地存取資料,這會造成記憶體有瓶頸並形成運作效率出現延遲現象。如果在AI應用端也採用這類GPU時,將出現這類問題,並影響應用端的效率。再者,GPU的價格較高,大型CSP業者在他們的資料中心,在比較次要端或是應用端部分的運作,就採用自研ASIC晶片,降低建置成本是主要的理由。當Nvidia發現GPU有上述瓶頸時,透過導入Groq ASIC晶片來解決,主要用在即時推論生成(Decode),形成混合運算架構。這個架構下,GPU負責大規模運算,ASIC負責高效率執行。
降低建置成本
過去黃仁勳對於ASIC晶片的評論,大致認爲運作效率不如自家GPU來得強,雖然能降低成本,卻可能在算力上輸一截,結果可能適得其反並喪失客戶算力的商機。黃仁勳這樣講到現在都沒錯,的確ASIC晶片運作效率不如GPU強,但如果擺在次要的運算中心,因爲這個次要運算中心不需要非常強大的GPU算力,還能降低成本。隨着邊緣運算需求在未來AI應用上會扮演重要的角色,而邊緣運算中心的主流就會是ASIC晶片。這樣的趨勢,加上Nvidia採用Groq的ASIC晶片後,很可能就讓ASIC晶片在AI架構上浮上臺面。(全文未完)
全文及圖表請見《先探投資週刊2397期精彩當期內文轉載》