資料介紹
中文抽詞在中文自然語言處理中是最基礎的工作。本文提出了一種無詞典的t-score 和二分相結合的抽詞算法。它首先對原始文本進行預處理,利用噪音詞的輔助信息來做初始切分,經過處理后一部分詞被抽取出來,存入結果集。接著利用本文的抽詞算法來進行二次抽詞,本算法應用了N-Gram 的思想,經過實驗證明,該算法不但抽詞速度快,而且抽取出的詞相對長度大,維護了中文語言的完整性,為進一步進行語義分析和索引構建打下了良好的基礎。
關鍵字:無詞典;t-score;二分法;快速抽詞
文本信息在人類的日常生活中起到舉足輕重的作用,它是人們傳遞和接收信息的一種最廣泛的形式。近年來,隨著Internet技術與規模的不斷發展,網絡上的各種信息資源也隨之迅速膨脹,其中很大一部分是以文本形式表示的。中文文本信息處理如文本分類[1]、機器翻譯、自動文摘、信息檢索等絕大部分需要以詞為基本單位。
中文與西文最大的區別就是:西文詞與詞之間用空格分開,因而詞與詞的界限是非常明顯的;而中文詞與詞之間沒有明顯的劃分界限,并且詞的長度也是不定的。這就大大增加了中文自然語言處理的難度,同時分詞研究是任何基于中文信息研究的第一步工作。
目前基于中文的分詞方法大致分為兩類:基于統計和基于規則[2]。其中大多數算法是基于一個提前構造好的詞庫來進行匹配,因此詞典的覆蓋率成為影響這類算法效率的一個關鍵因素[3]。然而由于漢語本身的靈活性,以及各種新詞的不斷涌現,要構造出一個完整的覆蓋各個領域的通用詞庫是一件不容易的事情。
因此,本文將研究一種基于無詞典的抽詞方法,這種方法擴展了分詞算法的應用領域,同時與文獻[4]相比,該算法不是基于逐字掃描,所以大大提高了分詞的效率。通過實驗證明該算法的抽詞效率、準確率和可接收率更高,同時能減少分詞算法的復雜度。本文首先介紹如何對輸入文本進行預處理,其次介紹如何利用t-score 和二分相結合算法來對預處理的字串進行抽詞,最后給出實驗結果,并對現在和未來的工作加以總結。
關鍵字:無詞典;t-score;二分法;快速抽詞
文本信息在人類的日常生活中起到舉足輕重的作用,它是人們傳遞和接收信息的一種最廣泛的形式。近年來,隨著Internet技術與規模的不斷發展,網絡上的各種信息資源也隨之迅速膨脹,其中很大一部分是以文本形式表示的。中文文本信息處理如文本分類[1]、機器翻譯、自動文摘、信息檢索等絕大部分需要以詞為基本單位。
中文與西文最大的區別就是:西文詞與詞之間用空格分開,因而詞與詞的界限是非常明顯的;而中文詞與詞之間沒有明顯的劃分界限,并且詞的長度也是不定的。這就大大增加了中文自然語言處理的難度,同時分詞研究是任何基于中文信息研究的第一步工作。
目前基于中文的分詞方法大致分為兩類:基于統計和基于規則[2]。其中大多數算法是基于一個提前構造好的詞庫來進行匹配,因此詞典的覆蓋率成為影響這類算法效率的一個關鍵因素[3]。然而由于漢語本身的靈活性,以及各種新詞的不斷涌現,要構造出一個完整的覆蓋各個領域的通用詞庫是一件不容易的事情。
因此,本文將研究一種基于無詞典的抽詞方法,這種方法擴展了分詞算法的應用領域,同時與文獻[4]相比,該算法不是基于逐字掃描,所以大大提高了分詞的效率。通過實驗證明該算法的抽詞效率、準確率和可接收率更高,同時能減少分詞算法的復雜度。本文首先介紹如何對輸入文本進行預處理,其次介紹如何利用t-score 和二分相結合算法來對預處理的字串進行抽詞,最后給出實驗結果,并對現在和未來的工作加以總結。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 一種PLC控制步進電機的分度算法 8次下載
- 一種側重于學習情感特征的預訓練方法 4次下載
- 一種基于詞和文檔嵌入的關鍵詞抽取方法 4次下載
- 一種用于釋義識別的句子相似度算法 8次下載
- 一種針對DoT算法的模板攻擊方法 8次下載
- 一種針對DoT算法的模板攻擊方法 12次下載
- 一種適用于FPGA實現的盲均衡算法 7次下載
- 一種加權最大相關最小相似視覺詞典優化 2次下載
- 一種低硬件資源消耗快速SVPWM算法 0次下載
- 一種新型的預測功能控制算法
- 一種求解電大平臺天線互耦的時域積分方程快速算法
- 一種無詞典快速抽詞算法的設計和實現
- 一種公歷到農歷日期轉換算法的實現
- 一種基于SYN 漏洞的DDoS攻擊防御算法的實現
- 一種基于序列譯碼的快速相關攻擊算法
- 講解消息分發的一種編譯期實現法 451次閱讀
- 基于一種用于JumpStarter的抗離群的采樣算法 564次閱讀
- 基于一種無OS的MCU實用軟件框架 599次閱讀
- 一種實用的嵌入式無 OS 軟件框架 564次閱讀
- MD5到底算不算一種加密算法? 1436次閱讀
- 基于CORDIC的高速Sobel算法實現 3454次閱讀
- 一種全新的無監督機器翻譯方法,在BLUE基準測試上取得了10分以上提升 5943次閱讀
- 基于接收機的應用提出了一種混合式高動態范圍AGC算法 6763次閱讀
- 一種基于STM32的智能采油控制系統的設計與實現 2252次閱讀
- 一種基于分布式算法的低通FIR濾波器 3188次閱讀
- 一種FFT插值正弦波快速頻率估計算法 9269次閱讀
- 一種AES密碼算法的實現 2922次閱讀
- 快速高效的實現浮點復數矩陣分解 955次閱讀
- 基于圖像增強的去霧快速算法的FPGA實現 5211次閱讀
- 一種改進的無線傳感器網絡非測距定位算法 1191次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1490次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 93次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關電源原理及各功能電路詳解
- 0.38 MB | 10次下載 | 免費
- 6基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7基于單片機和 SG3525的程控開關電源設計
- 0.23 MB | 3次下載 | 免費
- 8基于單片機的紅外風扇遙控
- 0.23 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多