英偉達被(bèi)“碾壓”？

2024-02-22 16:20:51來源：上海證券報微信公衆号

分享到：

近日，“史上最快大模型”爆火。一家海外AI芯片初創公司Groq使用其自研LPU（語言處理單元）作爲推理芯片，使大模型每秒生成(chéng)速度接近每秒500 token（文本中的一個最小單位），碾壓GPT-3.5的每秒40 token。

這(zhè)意味著(zhe)大模型從處理請求到獲得響應所需的時(shí)間大幅縮短，有網友直呼“它回複的速度比我眨眼還(hái)快”；有人認爲Groq的LPU可能(néng)成(chéng)爲英偉達GPU芯片的有力替代品；更有自媒體聲稱英偉達被(bèi)Groq的LPU“碾壓”。

但随後(hòu)陸續有業界專家對(duì)于Groq LPU性價比和競争力提出質疑，并否認其可能(néng)沖擊英偉達。有計算顯示Groq LPU的硬件成(chéng)本約是英偉達H100 GPU的40倍，能(néng)耗成(chéng)本約是其10倍。

專家質疑Groq LPU性價比和競争力

清華大學(xué)集成(chéng)電路學(xué)院副教授何虎接受記者采訪表示，LPU屬于推理芯片，和目前供不應求、主要用于大模型訓練的GPU芯片不能(néng)算同一個賽道(dào)。從推理芯片賽道(dào)來看，LPU目前可能(néng)達到了較高性能(néng)，但是運行成(chéng)本并不低。高性能(néng)低成(chéng)本的推理芯片可以降低推理成(chéng)本、拓寬AI大模型應用範圍。其市場前景主要取決于推理需求的市場選擇，不太涉及科技競争。

顧名思義，訓練芯片主要用于訓練大模型，推理芯片則主要用于AI應用中。業内認爲，随著(zhe)各行各業迎來垂類大模型，AI大模型應用逐步落地，用于推理的算力將(jiāng)和訓練算力一樣(yàng)受到關注。

然而，即便是用于推理，有專家根據LPU、GPU的内存容量和大模型運行吞吐量計算，無論在性價比和能(néng)效比上，LPU都(dōu)無法和英偉達的GPU競争。

臉書原AI科學(xué)家、阿裡(lǐ)原技術副總裁賈揚清在海外社交媒體平台發(fā)文分析，Groq LPU的内存容量非常小（230MB）。簡單計算得出，運行700億參數模型時(shí)，需要305張Groq卡，相當于使用8張英偉達H100。從目前的價格來看，這(zhè)意味著(zhe)在同等吞吐量下，Groq LPU的硬件成(chéng)本約是H100的40倍，能(néng)耗成(chéng)本約是其10倍。

記者采訪的某國(guó)内頭部AI芯片公司負責人也認同上述計算結果。他認爲，與GPU使用HBM（高帶寬存儲器）不同，LPU使用了SRAM（靜态随機存儲器）作爲存儲，就(jiù)意味著(zhe)要堆很多卡才能(néng)跑一個大模型。

騰訊科技芯片專家姚金鑫更是直言：“英偉達在本次AI浪潮中的絕對(duì)領先地位，使得全球都(dōu)翹首以盼挑戰者。每次吸引眼球的文章，總會(huì)在最初被(bèi)人相信，除了這(zhè)個原因之外，還(hái)是因爲在做對(duì)比時(shí)的‘套路’，故意忽略其他因素，用單一維度來做比較。”

Groq多年緻力于颠覆GPU和CPU等傳統架構

Groq官網介紹說(shuō)，LPU代表語言處理單元，是一種(zhǒng)新型的端到端處理單元系統，可爲具有順序組件的計算密集型應用程序（如大語言模型LLM）提供最快的推理。

Groq官網展示的簡化LPU架構

對(duì)于爲什麼(me)LPU用于LLM和生成(chéng)式AI時(shí)比GPU快得多，Groq官網解釋說(shuō)，LPU旨在克服LLM的兩(liǎng)個瓶頸：計算密度和内存帶寬。對(duì)于LLM來說(shuō)，LPU的計算能(néng)力要大于GPU和CPU，減少了計算每個單詞所需的時(shí)間後(hòu)，可以更快生成(chéng)文本序列。此外，通過(guò)消除外部内存瓶頸使LPU推理引擎能(néng)在LLM上提供比GPU高幾個數量級的性能(néng)。

Groq成(chéng)立于2016年。早在2021年，外界就(jiù)曾將(jiāng)Groq稱爲“英偉達最強挑戰者”。2021年，Groq獲得了由知名投資機構老虎環球管理基金、D1 Capital領投的3億美元，總融資額達3.67億美元。

2023年8月，Groq就(jiù)推出了Groq LPU，可以以每秒超過(guò)100 token的創紀錄速度運行700億參數的企業級語言模型。Groq估計，與其他系統相比，它具有10倍到100倍的速度優勢。

Groq創始人兼首席執行官喬納森·羅斯（Jonathan Ross）曾表示：“人工智能(néng)受到現有系統的限制，其中許多系統正在被(bèi)新進(jìn)入者追随或逐步改進(jìn)。無論你在這(zhè)個問題上投入多少錢，GPU和CPU等傳統架構都(dōu)難以滿足人工智能(néng)和機器學(xué)習不斷增長(cháng)的需求……我們的使命更具颠覆性：Groq尋求通過(guò)將(jiāng)計算成(chéng)本降至零來釋放人工智能(néng)的潛力。”

更多資訊關注
中方信富公衆号

推薦内容