DeepSeek擬首度對外融資 V4徹底擺脫輝達
打破「從不融資」鐵律的大陸人工智慧(AI)新創公司DeepSeek正尋求首輪外部融資,目標籌集至少3億美元(新臺幣96億元),估值最少100億美元(新臺幣3185億元)。
此外DeepSeek V4的發佈時間一再推遲,跟模型本身關係不大,實際上是一場底層硬體的大遷移。以往DeepSeek之前所有模型都基於輝達達晶片訓練。但這次V4將運行在華爲最新的升騰晶片上。
The Information報導,DeepSeek這次選擇啓動融資,代表DeepSeek創始人樑文鋒終於做出巨大的轉變。先前作爲技術理想主義者的他,一直希望保持DeepSeek的獨立性,不受商業壓力的干擾。
DeepSeek上一次發佈新一代模型,還是在2025年 R1爆火時。如今DeepSeek已經讓全行業等了一年半。
如果此次融資成功,DeepSeek就可以擁有更多算力,同時還能開出更高薪酬,防止頂尖研究者流失。
不過,由於DeepSeek「大陸初創公司」的身分,一些美國風險投資人態度會比較謹慎。
V4原定今年2月亮相,但已跳票多次。路透在4月初給出的最新時間是「未來幾周內」。從目前已知資訊來看,V4的規模和野心遠超前代。參數量躍升至萬億級別。
V4採用MoE架構,總參數約1兆,但每個token僅啓動約370億參數,推理成本與V3持平。這個設計思路延續了DeepSeek一貫的效率優先哲學。
V4引入一套名爲Engram的條件記憶架構,實現對超長上下文的恆定時間檢索。據內部測試,在100萬token長度下的資訊召回率達到97%,遠超V3在128K上下文時的表現。
金融時報報導,V4將是DeepSeek首個原生多模態模型,支持文本、圖像和影片生成。先前DeepSeek的模型一直以純文字爲主,而其他旗艦模型早已擁抱多模態。
V4從立項之初就以代碼生成爲核心目標。內部benchmark顯示SWE-bench成績超過80%,HumanEval達到90%。據稱V4能處理整個代碼倉庫級別的複雜bug修復,在長上下文代碼推理上的表現將超越Claude和GPT系列。
DeepSeek的工程師們花了大量時間解決V4對華爲晶片的適配問題,重寫核心代碼,從輝達的CUDA生態遷移到華爲的CANN架構。這是一個技術決策,也是一個戰略信號。
DeepSeek刻意沒有給輝達和AMD提前提供V4做優化適配,而是將早期存取權限獨家給了國產晶片廠商。
如果V4在華爲晶片上跑出有競爭力的性能,將是全球第一個不依賴輝達的前沿AI模型。
DeepSeek即將推出的新一代模型V4,傳將捨棄輝達改採華爲設計的最新晶片。路透