近日,上海人工智能實(shí)驗(yàn)室發(fā)布聯(lián)合語言資料數(shù)據(jù)聯(lián)盟會(huì)員單位,共同發(fā)布“生萬權(quán)”1.0多模式詞典訓(xùn)練語言資料開源。
“書生·萬卷”1.0將集中語言資料數(shù)據(jù)聯(lián)盟會(huì)員們豐富的內(nèi)容積累和上海人工智能實(shí)驗(yàn)室的數(shù)據(jù)處理能力等優(yōu)勢(shì),為學(xué)術(shù)界及產(chǎn)業(yè)界提供高品質(zhì)的大規(guī)模模型多模態(tài)事前訓(xùn)練語言資料。開放源代碼提供2tb以上的數(shù)據(jù),多種融合,精細(xì)處理,價(jià)值排序,使用方便高效。
此次開放源代碼“書生·萬卷”1.0包含文本、圖片、文本和視頻三部分?jǐn)?shù)據(jù)集。其中,文本數(shù)據(jù)來自網(wǎng)頁,百科全書,書籍,專利,教材,考試題等,數(shù)據(jù)總量超過5億個(gè),數(shù)據(jù)大小也超過1tb,涵蓋科技,文學(xué),媒體,教育,法律等多個(gè)領(lǐng)域。
圖像和文字?jǐn)?shù)據(jù)主要來自公開網(wǎng)頁,經(jīng)過處理形成圖像和文字交叉的文件。總數(shù)字超過2200萬個(gè),數(shù)據(jù)大小超過140gb,涵蓋新聞事件、人物、自然景觀、社會(huì)生活等多個(gè)領(lǐng)域。
視頻數(shù)據(jù)主要是中國中央電視臺(tái)(cctv)和上海文廣集團(tuán)提供,新聞、電影、電視等多種類型的節(jié)目,包括視頻,視頻文件總數(shù)超過1000個(gè),數(shù)據(jù)大小超過900gb,內(nèi)容是軍事、文藝、體育、自然、知識(shí)、影像藝術(shù)等領(lǐng)域覆蓋著。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46859瀏覽量
237584 -
源代碼
+關(guān)注
關(guān)注
96文章
2944瀏覽量
66670 -
模型
+關(guān)注
關(guān)注
1文章
3173瀏覽量
48715
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論