欧美日韩亚洲另类一区二区_综合久久免费精品无码视频_亚洲中文字幕无码永久在线_无码?V综合网国产精品

又一來自騰訊AI實驗室的資源帖。騰訊AI實驗室宣布，正式開源一個大規模、高質量的中文詞向量數據集。該數據集包含800多萬中文詞匯，相比現有的公開數據，在覆蓋率、新鮮度及準確性上大幅提高。在對話回復質量預測、醫療實體識別等自然語言處理方向的業務應用方面，騰訊內部效果提升顯著。

數據集特點

總體來講，騰訊AI實驗室此次公開的中文詞向量數據集包含800多萬中文詞匯，其中每個詞對應一個200維的向量。

具體方面，騰訊自稱，該數據集著重在3方面進行了提升：

1. 覆蓋率（Coverage）：

該詞向量數據包含很多現有公開的詞向量數據所欠缺的短語，比如“不念僧面念佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”為例，利用騰訊AI Lab詞向量計算出的語義相似詞如下：

墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河

2. 新鮮度（Freshness）：

該數據包含一些最近一兩年出現的新詞，如“戀與制作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側改革”、“因吹斯汀”等。

以“因吹斯汀”為例，利用騰訊AI Lab詞向量計算出的語義相似詞如下：

一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了

3. 準確性（Accuracy）：

由于采用了更大規模的訓練數據和更好的訓練算法，所生成的詞向量能夠更好地表達詞之間的語義關系，如下列相似詞檢索結果所示：

在開源前，騰訊內部經歷了多次測評，認為該數據集相比于現有的公開數據，在相似度和相關度指標上均達到了更高的分值。

數據集構建經驗

那么這樣的數據集，騰訊AI實驗室是如何構建的呢？

他們圍繞3方面分享了構建及優化經驗：

1. 語料采集：

訓練詞向量的語料來自騰訊新聞和天天快報的新聞語料，以及自行抓取的互聯網網頁和小說語料。

大規模多來源語料的組合，使得所生成的詞向量數據能夠涵蓋多種類型的詞匯。

而采用新聞數據和最新網頁數據對新詞建模，也使得詞向量數據的新鮮度大為提升。

2. 詞庫構建：

除了引入維基百科和百度百科的部分詞條之外，還實現了Shi等人于2010年提出的語義擴展算法，可從海量的網頁數據中自動發現新詞——根據詞匯模式和超文本標記模式，在發現新詞的同時計算新詞之間的語義相似度。

3. 訓練算法：

騰訊AI Lab采用自研的Directional Skip-Gram (DSG)算法作為詞向量的訓練算法。

DSG算法基于廣泛采用的詞向量訓練算法Skip-Gram (SG)，在文本窗口中詞對共現關系的基礎上，額外考慮了詞對的相對位置，以提高詞向量語義表示的準確性。

意義

最后，表揚一下鵝廠的開源之舉。

目前針對英語環境，工業界和學術界已發布了一些高質量的詞向量數據，并得到了廣泛的使用和驗證。

其中較為知名的有谷歌公司基于word2vec算法、斯坦福大學基于GloVe算法、Facebook基于fastText項目發布的數據等。

然而，目前公開可下載的中文詞向量數據還比較少，并且數據的詞匯覆蓋率有所不足，特別是缺乏很多短語和網絡新詞。

所以有資源有能力的騰訊，還有心做這樣的事情，對業界實屬利好。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
30239

瀏覽量
268478
騰訊

騰訊

+關注

關注
7

文章
1646

瀏覽量
49402

原文標題：資源 | 騰訊開源800萬中文詞的NLP數據集

文章出處：【微信號：WUKOOAI，微信公眾號：悟空智能科技】歡迎添加關注！文章轉載請注明出處。

創夢天地與騰訊云攜手成立聯合創新實驗室

成立聯合創新實驗室，旨在深化并拓展雙方在游戲研發中的合作。根據協議，聯合創新實驗室將圍繞“AI助力游戲研發提質增效”這一主題展開工作。雙方將在已有的AI代碼助手、

發表于 11-21 13:58 ?259次閱讀

LIMS系統在芯片實驗室中的應用

在高速發展的芯片行業中，芯片實驗室作為技術創新和產品驗證的核心部門，面臨著諸多挑戰與問題。這些問題不僅影響了實驗室的工作效率，還可能對芯片產品的質量和研發周期產生不利影響。幸運的是，LIMS系統

發表于 11-07 17:59 ?216次閱讀

深圳南柯電子電磁兼容性EMC實驗室：構建與測試的關鍵要素

深圳南柯電子｜電磁兼容性EMC實驗室：構建與測試的關鍵要素

發表于 11-05 14:53 ?187次閱讀

深圳南柯電子電磁兼容性EMC<b class='flag-5'>實驗室</b>：<b class='flag-5'>構建</b>與測試的關鍵要素

LIMS實驗室管理平臺的實施步驟

實驗室信息管理系統（LIMS）是現代實驗室管理的核心，它通過集成各種實驗室操作流程，提高實驗室的工作效率和數據管理能力。實施LIMS系統是一個系統化的過程，需要精心規劃和執行。以下是實

發表于 10-29 09:10 ?202次閱讀

榮耀與智譜攜手共建AI大模型聯合實驗室

近日，榮耀終端有限公司與北京智譜華章科技有限公司正式攜手，共同宣布成立AI大模型技術聯合實驗室，并簽署了戰略合作協議。此次合作標志著雙方在人工智能領域的深度合作邁入新階段，共同致力于為用戶帶來前所未有的智能體驗。

發表于 09-03 18:15 ?962次閱讀

中軟國際金融AI實驗室成立引領金融科技新動力

進程的新里程碑。推動金融智能化? 中軟國際金融AI實驗室的使命是通過 AICC 人工智能客戶聯絡中心構建的金融解決方案，驅動下一代金融呼叫中心的企業工作流程。實驗室致力于在金融領域推

發表于 08-01 18:49 ?912次閱讀

優刻得與聯想AI實驗室攜手共建高效AI資源池

近日，云計算服務提供商優刻得（UCloud）與聯想AI實驗室宣布達成戰略合作，雙方將共同打造一個高效且靈活的本地化AI資源池，旨在加速AI技術的研發與應用創新。此次合作標志著優刻得在推

發表于 07-14 14:19 ?1066次閱讀

DEKRA德凱為Hisense海信實驗室授予CTF實驗室資質

近日，全球領先的檢驗檢測認證機構DEKRA德凱為海信家電集團洗護技術測試研究中心（以下簡稱：Hisense海信）實驗室授予CTF實驗室資質。

發表于 04-10 14:52 ?499次閱讀

簡述超聲波清洗機在實驗室中獨特的清洗優點

實驗室超聲波清洗機具有高效、環保、適用范圍廣、操作簡便和安全可靠等獨特清洗特點。這些特點使得超聲波清洗機在實驗室清洗領域得到了廣泛應用，并成為了實驗

發表于 03-18 09:02 ?370次閱讀

Cognizant成立高級人工智能實驗室

近日，全球領先的IT解決方案提供商Cognizant宣布在舊金山成立高級人工智能（AI）實驗室。該實驗室的成立標志著Cognizant在人工智能領域的進一步深耕，旨在通過前沿技術和創新應用，推動人工智能技術的快速發展和應用落地。

發表于 03-11 10:36 ?559次閱讀

加固平板電腦在醫療實驗室上的應用

加固平板電腦在醫療實驗室中的發揮了非常重要的作用。在億道三防onerugged系列產品中，加固平板電腦以其獨特的功能特點和可靠性，為醫療實驗室的工作帶來了深遠的影響。

發表于 02-25 11:03 ?330次閱讀

上海AI實驗室發布新一代書生·視覺大模型

近日，上海人工智能實驗室（上海AI實驗室）聯手多所知名高校及科技公司共同研發出新一代書生·視覺大模型（InternVL）。

發表于 02-04 11:25 ?1063次閱讀

實驗室設備定位管理系統

實驗室設備定位管理系統是一種用于實驗室設備管理和定位的系統。它利用物聯網技術和定位技術，幫助實驗室管理人員實時了解實驗室內設備的位置和狀態，提高設備的利用率和管理效率。該系統使用傳感

發表于 01-10 16:13 ?797次閱讀

實驗室電源電路原理圖

該臺式電源電路適合您的電子實驗實驗室。該電路不能構建在一塊銅層壓板上。臺式電源設計為使用舊燈籠電池“D”和“C”。

發表于 12-16 17:58 ?2110次閱讀

淺析RFID技術在學校實驗室管理中的應用

一直以來，多數高校實驗室設備管理采取傳統手工方式，無法滿足當前高校的發展需求。同時，對于實驗室設備的資產進行清查時也多是通過掃描手寫編碼或是條形碼標簽的方式進行核實，這樣的盤查效率極低，且極易出現錯誤，很難實現實驗室設備的賬物核

發表于 12-13 16:48 ?460次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

騰訊AI實驗室是如何構建的？有什么特點

評論

創夢天地與騰訊云攜手成立聯合創新實驗室

LIMS系統在芯片實驗室中的應用

深圳南柯電子電磁兼容性EMC實驗室：構建與測試的關鍵要素

LIMS實驗室管理平臺的實施步驟

榮耀與智譜攜手共建AI大模型聯合實驗室

中軟國際金融AI實驗室成立引領金融科技新動力

優刻得與聯想AI實驗室攜手共建高效AI資源池

DEKRA德凱為Hisense海信實驗室授予CTF實驗室資質

簡述超聲波清洗機在實驗室中獨特的清洗優點

Cognizant成立高級人工智能實驗室

加固平板電腦在醫療實驗室上的應用

上海AI實驗室發布新一代書生·視覺大模型

實驗室設備定位管理系統

實驗室電源電路原理圖

淺析RFID技術在學校實驗室管理中的應用