7月22日最新資訊,Hugging Face科技公司在語言模型領域再創新高,正式推出了SmolLM系列——一款專為適應多樣計算資源而設計的緊湊型語言模型家族。該系列包含三個版本,分別搭載了1.35億、3.6億及17億參數,旨在以高效能應對不同應用場景。
據Hugging Face SmolLM項目的首席機器學習工程師Loubna Ben Allal介紹:“我們認識到,并非每項任務都需要龐大的模型來支撐,正如鉆孔無需重型破碎球一樣。專為特定任務定制的小型模型,同樣能夠勝任繁重的工作。”
尤為引人注目的是,即便是家族中最小的成員SmolLM-135M,在訓練數據相對有限的情況下,其性能仍超越了Meta的MobileLM-125M模型,展現出非凡的潛力。而SmolLM-360M則自豪地宣稱,在性能上已凌駕于所有參數少于5億的模型之上。至于旗艦產品SmolLM-1.7B,更是在一系列基準測試中力壓群雄,包括微軟的Phi-1.5和Meta的MobileLM-1.5B等強勁對手。
Hugging Face不僅在技術上追求卓越,更在開放共享上樹立了典范。公司決定將SmolLM的整個開發流程,從數據管理到訓練步驟,全部對外開源。這一舉措不僅彰顯了公司對開源文化的堅定支持,也體現了對可重復研究的高度重視,為行業內的科研人員提供了寶貴的資源。
SmolLM系列的卓越表現,離不開其背后精心策劃的高質量訓練數據。這些模型依托于Cosmo語料庫構建,該語料庫融合了Cosmopedia v2(包含合成教科書與故事)、Python Edu(教育導向的Python示例)以及FineWeb Edu(精選教育網絡內容)等多維度資源,確保了模型學習內容的豐富性與準確性。
Loubna Ben Allal強調:“SmolLM系列的成功,是對數據質量重要性的有力證明。我們創新性地結合了網絡數據與合成數據,通過精心策劃,打造出了這些性能卓越的小型模型。”這一成就不僅為語言模型領域注入了新的活力,也為未來智能應用的發展開辟了更加廣闊的道路。
-
數據管理
+關注
關注
1文章
276瀏覽量
19528 -
語言模型
+關注
關注
0文章
482瀏覽量
10188
發布評論請先 登錄
相關推薦
評論