千帆杯AI原生應用開發挑戰賽第二期賽題“賀歲靈感模型”已于2月28日圓滿結束。經過嚴格的自動評估和人工復審后,現已決出TOP10選手!
第二期賽題,結合新春佳節的背景以“賀歲靈感模型”為主題,鼓勵開發者使用千帆ModelBuilder,基于ERNIE Speed模型打造一個春節文案創作的精調模型,在通過對模型精調使其保持原有能力的同時,還能準確理解和執行文案創作,幫助用戶成為春節檔“最強賀歲文案專家”。
本期賽題主要通過千帆ModelBuilder工具鏈中“模型評估”的部分能力以及人工評估做整體評審,全方位保證評審結果的公平、公正、公開。
第一輪:自動評估(滿分1分)
以“內容分”和“字數控制分”為主要考核指標,兩項標準分別占據0.6、0.4的權重,通過加權平均后,得出“選手模型”的作品分數。
內容分(占據0.6權重):官方輸入包含內容及字數要求的評測數據集,以ERNIE Bot 4.0作為裁判,如果“選手模型”答案比數據集答案更好則得分,反之則不得分。如果ERNIE Bot 4.0沒有明確返回評測數據集答案更好,均算作“選手模型”得分。
字數控制分(占據0.4權重):基于官方評測數據集的字數要求,根據“選手模型”的全量回答綜合得出最終字數控制評分。
具體規則:根據“選手模型”答案字數與評測數據集中字數要求的diff進行分段打分,具體分段分數如下:
diff ≤ 0.05,得1分
0.05 < diff ≤ 0.1,得0.9分
0.1 < diff ≤ 0.15,得0.8分
0.15 < diff ≤ 0.2,等0.7分
0.2 < diff ≤ 0.25,得0.6分
其余則不得分
舉例:如評測數據要求為300字,選手模型返回290字,則diff為:(300-290)/300=0.033,最終得分因0.033 ≤ 0.05,因此在該評測數據下字數控制得1分。
第二輪:人工評估(滿分1分)
為了保證自動評估的結果,官方針對自動評估得出的TOP 12“選手模型”安排了第二輪人工評估。(由于選手比分較為接近,因此官方對TOP 12“選手模型”進行人工評估)
人工評估由三位百度專家通過人工查驗的方式進行,專家通過對參賽選手所提供的模型微調方案進行投票(一位專家最多可投3票),如選手獲得三票,即獲得滿分。
“千帆杯”第二期
「最強挑戰者」出爐
第二期最強挑戰者張輝,帶來作品“賀歲靈感模型”,張輝使用ModelBuilder的模型SFT精調工具鏈,基于ERNIE Speed基座模型,精調訓練出了一個能準確控制創作字數的春節賀歲文案模型。
ERNIE Speed模型作為百度在2024年最新發布的自研高性能大語言模型,憑借其輕量級、高效的自然語言處理等特點,可以快速地響應用戶需求。同時,其在微調場景下優勢顯著,模型的訓練時間更短,成本更低,特定場景下的效果可媲美ERNIE Bot 4.0。
自2月發布上線以來,目前已有超過150家企業采用了ERNIE Speed模型,它除了能做到快速響應外,作為基礎通用大模型,在閱讀理解、close-book問答、創作與續寫等復雜任務上,也能達到甚至超越千億大模型的效果。每一位開發者,都可以在ERNIE Speed的助力下,快速實現企業級的專屬模型訓練,探索AI大模型的無限可能。
更多AI的想象
值得期待
3月21日,百度智能云將在北京舉行AI Cloud Day:百度智能云千帆產品發布會。作為2024年AI領域最值得期待的系列產品發布會,誠摯邀請所有技術愛好者共襄盛舉。屆時,百度智能云千帆ModelBuilder和AppBuilder也將公布最新產品進展,發布系列新模型以及應用開發工具組件等,分享如何助力企業、用戶釋放模型創新潛能,簡單高效打造AI原生應用,推動中國AI原生應用的發展,共同邁入嶄新的AI生產力的最新紀元。
審核編輯:劉清
-
百度智能云
+關注
關注
0文章
47瀏覽量
1903 -
AI大模型
+關注
關注
0文章
307瀏覽量
294
原文標題:“千帆杯”第二期十萬大獎花落誰家?TOP10名單出爐!
文章出處:【微信號:baidu_2000,微信公眾號:百度】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論