Google新技術爆衝擊記憶體需求 郭明𫓹:邏輯不存在

▲Google。(圖/達志影像/美聯社)

記者高兆麟/臺北報導

外界關注Google透過KV cache壓縮技術,是否將大幅削弱記憶體需求,不過天風國際證券分析師郭明𫓹指出,相關推論「邏輯不存在」,強調AI記憶體瓶頸並非單一規格問題,而是跨硬體、演算法與應用層的系統性挑戰,各類解法反而呈現互補關係。

郭明𫓹指出,當前AI發展面臨的核心瓶頸之一爲「記憶體之牆」(Memory wall),主要源自transformer架構下,每生成一個token都需讀取KV cache,在長文本趨勢下,記憶體讀取壓力持續放大。

他表示,雖然目前尚無架構可取代transformer,但近期產業出現多項技術,正從不同層面緩解記憶體瓶頸影響,包含硬體、演算法與應用端三個層級。

在硬體層面,輝達透過LPX架構,將部分運算從GPU與HBM中分離,藉此降低記憶體頻寬競爭、改善延遲與運算穩定性。郭明𫓹指出,該做法並非解決記憶體瓶頸,而是優化輸出品質與效率,顯示即便頻寬提升,問題仍非單純靠規格升級可解。

在演算法層面,Google推出TurboQuant技術,透過壓縮KV cache,降低單次推理所需的記憶體讀取量,在維持精度下提升效率。郭明𫓹認爲,此舉可降低token成本並提升產出,但並不代表記憶體需求消失,反而是提升既有資源使用效率。

他進一步指出,Google在推動壓縮技術的同時,仍持續提升TPU記憶體容量,顯示壓縮與規格升級屬於互補,而非替代關係。

至於應用層,Anthropic則透過記憶體管理機制,從「選擇、壓縮、精煉」三個方向優化資料使用方式,以降低不必要的記憶體讀取,提升推理效率。郭明𫓹指出,即便硬體持續升級,應用端仍須重新設計記憶使用方式,凸顯問題本質並非單一元件可解。

綜合來看,郭明𫓹強調,記憶體瓶頸雖爲技術問題,但解法來自不同商業目標驅動,因此產業不會出現單一解方。他直言,「壓縮KV cache就能讓記憶體需求消失」的說法過於簡化,實際上各類技術是同時存在、相互補強。

他認爲,隨着AI應用持續擴大,記憶體需求仍將長期存在,產業將透過多層次技術持續緩解瓶頸,而非被單一創新技術所顛覆。