近日,“史上最快大模型”爆火。一家海外AI芯片初創公司Groq使用其自研LPU(語言處理單元)作爲推理芯片,使大模型每秒生成(chéng)速度接近每秒500 token(文本中的一個最小單位),碾壓GPT-3.5的每秒40 token。
這(zhè)意味著(zhe)大模型從處理請求到獲得響應所需的時(shí)間大幅縮短,有網友直呼“它回複的速度比我眨眼還(hái)快”;有人認爲Groq的LPU可能(néng)成(chéng)爲英偉達GPU芯片的有力替代品;更有自媒體聲稱英偉達被(bèi)Groq的LPU“碾壓”。
但随後(hòu)陸續有業界專家對(duì)于Groq LPU性價比和競争力提出質疑,并否認其可能(néng)沖擊英偉達。有計算顯示Groq LPU的硬件成(chéng)本約是英偉達H100 GPU的40倍,能(néng)耗成(chéng)本約是其10倍。
專家質疑Groq LPU性價比和競争力
清華大學(xué)集成(chéng)電路學(xué)院副教授何虎接受記者采訪表示,LPU屬于推理芯片,和目前供不應求、主要用于大模型訓練的GPU芯片不能(néng)算同一個賽道(dào)。從推理芯片賽道(dào)來看,LPU目前可能(néng)達到了較高性能(néng),但是運行成(chéng)本并不低。高性能(néng)低成(chéng)本的推理芯片可以降低推理成(chéng)本、拓寬AI大模型應用範圍。其市場前景主要取決于推理需求的市場選擇,不太涉及科技競争。
顧名思義,訓練芯片主要用于訓練大模型,推理芯片則主要用于AI應用中。業内認爲,随著(zhe)各行各業迎來垂類大模型,AI大模型應用逐步落地,用于推理的算力將(jiāng)和訓練算力一樣(yàng)受到關注。
然而,即便是用于推理,有專家根據LPU、GPU的内存容量和大模型運行吞吐量計算,無論在性價比和能(néng)效比上,LPU都(dōu)無法和英偉達的GPU競争。
臉書原AI科學(xué)家、阿裡(lǐ)原技術副總裁賈揚清在海外社交媒體平台發(fā)文分析,Groq LPU的内存容量非常小(230MB)。簡單計算得出,運行700億參數模型時(shí),需要305張Groq卡,相當于使用8張英偉達H100。從目前的價格來看,這(zhè)意味著(zhe)在同等吞吐量下,Groq LPU的硬件成(chéng)本約是H100的40倍,能(néng)耗成(chéng)本約是其10倍。
記者采訪的某國(guó)内頭部AI芯片公司負責人也認同上述計算結果。他認爲,與GPU使用HBM(高帶寬存儲器)不同,LPU使用了SRAM(靜态随機存儲器)作爲存儲,就(jiù)意味著(zhe)要堆很多卡才能(néng)跑一個大模型。
騰訊科技芯片專家姚金鑫更是直言:“英偉達在本次AI浪潮中的絕對(duì)領先地位,使得全球都(dōu)翹首以盼挑戰者。每次吸引眼球的文章,總會(huì)在最初被(bèi)人相信,除了這(zhè)個原因之外,還(hái)是因爲在做對(duì)比時(shí)的‘套路’,故意忽略其他因素,用單一維度來做比較。”
Groq多年緻力于颠覆GPU和CPU等傳統架構
Groq官網介紹說(shuō),LPU代表語言處理單元,是一種(zhǒng)新型的端到端處理單元系統,可爲具有順序組件的計算密集型應用程序(如大語言模型LLM)提供最快的推理。
Groq官網展示的簡化LPU架構
對(duì)于爲什麼(me)LPU用于LLM和生成(chéng)式AI時(shí)比GPU快得多,Groq官網解釋說(shuō),LPU旨在克服LLM的兩(liǎng)個瓶頸:計算密度和内存帶寬。對(duì)于LLM來說(shuō),LPU的計算能(néng)力要大于GPU和CPU,減少了計算每個單詞所需的時(shí)間後(hòu),可以更快生成(chéng)文本序列。此外,通過(guò)消除外部内存瓶頸使LPU推理引擎能(néng)在LLM上提供比GPU高幾個數量級的性能(néng)。
Groq成(chéng)立于2016年。早在2021年,外界就(jiù)曾將(jiāng)Groq稱爲“英偉達最強挑戰者”。2021年,Groq獲得了由知名投資機構老虎環球管理基金、D1 Capital領投的3億美元,總融資額達3.67億美元。
2023年8月,Groq就(jiù)推出了Groq LPU,可以以每秒超過(guò)100 token的創紀錄速度運行700億參數的企業級語言模型。Groq估計,與其他系統相比,它具有10倍到100倍的速度優勢。
Groq創始人兼首席執行官喬納森·羅斯(Jonathan Ross)曾表示:“人工智能(néng)受到現有系統的限制,其中許多系統正在被(bèi)新進(jìn)入者追随或逐步改進(jìn)。無論你在這(zhè)個問題上投入多少錢,GPU和CPU等傳統架構都(dōu)難以滿足人工智能(néng)和機器學(xué)習不斷增長(cháng)的需求……我們的使命更具颠覆性:Groq尋求通過(guò)將(jiāng)計算成(chéng)本降至零來釋放人工智能(néng)的潛力。”