精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

自然語言基礎技術之命名實體識別相對全面的介紹

8g3K_AI_Thinker ? 來源:lp ? 2019-04-17 10:12 ? 次閱讀

本文對自然語言基礎技術之命名實體識別進行了相對全面的介紹,包括定義、發展歷史、常見方法、以及相關數據集,最后推薦一大波 Python 實戰利器,并且包括工具的用法。

01

定義

先來看看維基百科上的定義:Named-entity recognition (NER) (also known as entity identification, entity chunking and entity extraction) is a subtask of information extraction that seeks to locate and classify named entity mentions in unstructured text into pre-defined categories such as the person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.

命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。簡單的講,就是識別自然文本中的實體指稱的邊界和類別。

02

發展歷史

命名實體識別這個術語首次出現在 MUC-6(Message Understanding Conferences),這個會議關注的主要問題是信息抽取(Information Extraction),第六屆 MUC 除了信息抽取評測任務還開設了新評測任務即命名實體識別任務。

除此之外,其他相關的評測會議包括CoNLL(Conference on Computational Natural Language Learning)、ACE(Automatic Content Extraction)和IEER(Information Extraction-Entity Recognition Evaluation)等。

在MUC-6之前,大家主要是關注人名、地名和組織機構名這三類專業名詞的識別。自MUC-6起,后面有很多研究對類別進行了更細致的劃分,比如地名被進一步細化為城市、州和國家,也有人將人名進一步細分為政治家、藝人等小類。

此外,一些評測還擴大了專業名詞的范圍,比如CoNLL某年組織的評測中包含了產品名的識別。一些研究也涉及電影名、書名、項目名、研究領域名稱、電子郵件地址、電話號碼以及生物信息學領域的專有名詞(如蛋白質、DNA、RNA等)。甚至有一些工作不限定“實體”的類型,而是將其當做開放域的命名實體識別和分類。

03

常見方法

早期的命名實體識別方法基本都是基于規則的。之后由于基于大規模的語料庫的統計方法在自然語言處理各個方面取得不錯的效果之后,一大批機器學習的方法也出現在命名實體類識別任務。宗成慶老師在統計自然語言處理一書粗略的將這些基于機器學習的命名實體識別方法劃分為以下幾類:

有監督的學習方法:這一類方法需要利用大規模的已標注語料對模型進行參數訓練。目前常用的模型或方法包括隱馬爾可夫模型、語言模型、最大熵模型、支持向量機、決策樹和條件隨機場等。值得一提的是,基于條件隨機場的方法是命名實體識別中最成功的方法。

半監督的學習方法:這一類方法利用標注的小數據集(種子數據)自舉學習。

無監督的學習方法:這一類方法利用詞匯資源(如 WordNet)等進行上下文聚類。

混合方法:幾種模型相結合或利用統計方法和人工總結的知識庫。

值得一提的是,由于深度學習在自然語言的廣泛應用,基于深度學習的命名實體識別方法也展現出不錯的效果,此類方法基本還是把命名實體識別當做序列標注任務來做,比較經典的方法是 LSTM+CRF、BiLSTM+CRF。

04

相關數據集

1. CCKS2017 開放的中文的電子病例測評相關的數據。

評測任務一:

https://biendata.com/competition/CCKS2017_1/

評測任務二:

https://biendata.com/competition/CCKS2017_2/

2. CCKS2018 開放的音樂領域的實體識別任務。

評測任務:

https://biendata.com/competition/CCKS2018_2/

3. (CoNLL 2002)Annotated Corpus for Named Entity Recognition。

地址:

https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus

4. NLPCC2018 開放的任務型對話系統中的口語理解評測。

地址:

http://tcci.ccf.org.cn/conference/2018/taskdata.php

5. 一家公司提供的數據集,包含人名、地名、機構名、專有名詞。

下載地址:

https://bosonnlp.com/dev/resource

05

工具推薦

1. Stanford NER

斯坦福大學開發的基于條件隨機場的命名實體識別系統,該系統參數是基于 CoNLL、MUC-6、MUC-7 和 ACE 命名實體語料訓練出來的。

地址:

https://nlp.stanford.edu/software/CRF-NER.shtml

Python 實現的 Github 地址:

https://github.com/Lynten/stanford-corenlp

2 .MALLET

麻省大學開發的一個統計自然語言處理的開源包,其序列標注工具的應用中能夠實現命名實體識別。

官方地址:

http://mallet.cs.umass.edu/

3. Hanlp

HanLP 是一系列模型與算法組成的 NLP 工具包,由大快搜索主導并完全開源,目標是普及自然語言處理在生產環境中的應用。支持命名實體識別。

Github 地址:

https://github.com/hankcs/pyhanlp

官網:

http://hanlp.linrunsoft.com/

4. NLTK

NLTK 是一個高效的 Python 構建的平臺,用來處理人類自然語言數據。

Github 地址:

https://github.com/nltk/nltk

官網:

http://www.nltk.org/

5. SpaCy

工業級的自然語言處理工具,遺憾的是不支持中文。

Gihub 地址:

https://github.com/explosion/spaCy

官網:https://spacy.io/

6. Crfsuite

可以載入自己的數據集去訓練 CRF 實體識別模型。

文檔地址:

https://sklearn-crfsuite.readthedocs.io/en/latest/?badge=latest

代碼已上傳:

https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/NER.ipynb

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8382

    瀏覽量

    132444
  • 數據集
    +關注

    關注

    4

    文章

    1205

    瀏覽量

    24649
  • 自然語言處理

    關注

    1

    文章

    614

    瀏覽量

    13513

原文標題:一文讀懂命名實體識別

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    python自然語言

    最近,python自然語言是越來越火了,那么什么是自然語言自然語言(Natural Language )廣納了眾多技術,對自然或人類
    發表于 05-02 13:50

    自然語言處理技術介紹

    ,包括:分詞、詞性標注、句法分析、命名實體識別,以及信息抽取領域的實體關系抽取等。2.1.分詞分詞是自然語言處理技術的基礎構成之一,并且是其
    發表于 09-27 09:57

    hanlp漢語自然語言處理入門基礎知識介紹

    人工智能。自然語言處理涉及的幾個層次:作為輸入一共有兩個來源,語音與文本。所以第一級是語音識別和OCR或分詞(事實上,跳過分詞雖然理所當然地不能做句法分析,但字符級也可以直接做不少應用)。接下來是形態學
    發表于 01-02 14:43

    HanLP分詞命名實體提取詳解

    名、地名等都稱之為實體。在工程領域,招投標文件里的這些實體信息至關重要。利用自然語言處理技術從形式各異的文件中提取出這些實體,能有效提高工作
    發表于 01-11 14:32

    HanLP-命名實體識別總結

    的中國人名自動識別研究》,大家可以百度一下看看 地名識別 理論指導文章為:《基于層疊隱馬爾可夫模型的中文命名實體識別》 機構名識別 機構名的
    發表于 07-31 13:11

    【推薦體驗】騰訊云自然語言處理

    `相信大家對NLP自然語言處理的技術都不陌生,它是計算機科學領域和AI領域中的一個分支,它與計算機和人類之間使用自然語言進行交互密切相關,而NLP的最終目標是使計算機能夠像人類一樣理解語言
    發表于 10-09 15:28

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務有哪些?自然語言處理的方法是什么?
    發表于 09-08 06:51

    基于神經網絡結構在命名實體識別中應用的分析與總結

    近年來,基于神經網絡的深度學習方法在自然語言處理領域已經取得了不少進展。作為NLP領域的基礎任務—命名實體識別(Named Entity Recognition,NER)也不例外,神經網絡結構在
    的頭像 發表于 01-18 09:24 ?4627次閱讀
    基于神經網絡結構在<b class='flag-5'>命名實體</b><b class='flag-5'>識別</b>中應用的分析與總結

    思必馳中文命名實體識別任務助力AI落地應用

    數據集基于清華大學開源的文本分類數據集THUCTC[2],選出部分進行細粒度命名實體標注。原數據來源于Sina News RSS[3]。這項測評是中文自然語言處理領域的大規模賽事,有眾多知名企業同臺競技
    的頭像 發表于 02-22 18:27 ?1862次閱讀

    命名實體識別的遷移學習相關研究分析

    命名實體識別(NER)是自然語言處理的核心應用任務之一。傳統和深度命名實體識別方法嚴重依賴于大量具有相同分布的標注訓練數據,模型可移植性差。
    發表于 04-02 15:15 ?8次下載
    <b class='flag-5'>命名實體</b><b class='flag-5'>識別</b>的遷移學習相關研究分析

    基于字語言模型的中文命名實體識別系統

    造成的數據稀缺問題,以及傳統字向量不能解決的一字多義問題,文中使用在大規模無監督數據上預訓練的基于上下文相關的字向量,即利用語言模型生成上下文相關字向量以改進中文NER模型的性能。同時,為解決命名實體識別中的未登
    發表于 04-08 14:36 ?14次下載
    基于字<b class='flag-5'>語言</b>模型的中文<b class='flag-5'>命名實體</b><b class='flag-5'>識別</b>系統

    關于邊界檢測增強的中文命名實體識別

    引言 命名實體識別(Named Entity Recognition,NER)是自然語言處理領域的一個基礎任務,是信息抽取等許多任務的子任務,旨在識別非結構化文本中屬于預先定義的類別的
    的頭像 發表于 09-22 16:05 ?3069次閱讀

    自然語言列舉法描述法各自的特點

    自然語言文本。在自然語言處理中,列舉法和描述法是兩種常見的方法。 列舉法 列舉法是一種基于規則的方法,它通過列舉所有可能的情況來解決問題。在自然語言處理中,列舉法通常用于詞性標注、命名實體
    的頭像 發表于 07-03 14:13 ?979次閱讀

    nlp自然語言處理的主要任務及技術方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術在許多領域
    的頭像 發表于 07-09 10:26 ?887次閱讀

    圖像識別技術包括自然語言處理嗎

    圖像識別技術自然語言處理是人工智能領域的兩個重要分支,它們在很多方面有著密切的聯系,但也存在一些區別。 一、圖像識別技術
    的頭像 發表于 07-16 10:54 ?642次閱讀