百川智能(néng)發(fā)布超千億參數大模型Baichuan 3

2024-01-29 14:49:34來源：中國(guó)證券網

分享到：

上證報中國(guó)證券網訊（記者孫小程）1月29日，百川智能(néng)發(fā)布超千億參數大語言模型Baichuan 3。在多個英文評測中，Baichuan 3表現接近GPT-4水平。在CMMLU、GAOKAO、HumanEval和MBPP等多個中文評測榜單上，Baichuan 3超越GPT-4，展現了其在中文任務上的優勢。此外，在MT-Bench、IFEval等對(duì)齊榜單評測中，Baichuan 3超越了GPT-3.5、Claude等大模型。

在對(duì)邏輯推理能(néng)力及專業性要求極高的MCMLE、MedExam、CMExam等權威醫療評測上，Baichuan 3的中文效果同樣(yàng)超過(guò)GPT-4，是中文醫療任務表現最佳的大模型之一。Baichuan 3還(hái)突破“叠代式強化學(xué)習”技術，進(jìn)一步提升了語義理解和生成(chéng)能(néng)力，在詩詞創作的格式、韻律、表意等方面(miàn)表現優異。

據介紹，爲了給Baichuan3注入豐富的醫療知識，百川智能(néng)在模型預訓練階段構建了超過(guò)千億Token的醫療數據集，包括醫學(xué)研究文獻、真實的電子病曆資料、醫學(xué)領域的專業書籍和知識庫資源、針對(duì)醫療問題的問答資料等。該數據集涵蓋從理論到實際操作，從基礎理論到臨床應用等各個方面(miàn)的醫學(xué)知識，确保了模型在醫療領域的專業度和知識深度。

與百億、幾百億級别參數模型訓練不同，超千億參數模型在訓練過(guò)程中對(duì)高質量數據，訓練穩定性、訓練效率的要求都(dōu)高出幾個量級。爲更好(hǎo)解決相關問題，百川智能(néng)在訓練過(guò)程中針對(duì)性提出了“動态數據選擇”“重要度保持”以及“異步CheckPoint存儲”等多種(zhǒng)創新技術手段及方案，有效提升了Baicuan 3的各項能(néng)力。

爲全面(miàn)提升數據質量，百川智能(néng)設計了一套基于因果采樣(yàng)的動态訓練數據選擇方案，該方案能(néng)夠在模型訓練過(guò)程中動态選擇訓練數據，極大提升數據質量。訓練效率方面(miàn)，百川智能(néng)針對(duì)超千億參數模型的并行訓練問題進(jìn)行了一系列優化，通過(guò)多種(zhǒng)技術創新，Baichuan 3的訓練框架在性能(néng)方面(miàn)相比業界主流框架提升超過(guò)30%。

在擁有豐富高質量專業醫療知識，并能(néng)通過(guò)調優後(hòu)的Prompt對(duì)這(zhè)些知識進(jìn)行充分激發(fā)基礎上，結合超千億參數的推理能(néng)力，Baichuan 3在醫療領域的任務效果提升顯著，在各類中英文醫療測試中的成(chéng)績提升了2到14個百分點。

更多資訊關注
中方信富公衆号

推薦内容