統計機器學習方法：基于HMM的中文詞性標注

前言

最近在重刷李航老師的《統計機器學習方法》嘗試將其與NLP結合，通過具體的NLP應用場景，強化對書中公式的理解，最終形成「統計機器學習方法 for NLP」的系列。這篇將介紹隱馬爾可夫模型HMM（「絕對給你一次講明白」）并基于HMM完成一個中文詞性標注的任務。

HMM是什么

「隱馬爾可夫模型（Hidden Markov Model, HMM)」 是做NLP的同學繞不過去的一個基礎模型, 是一個生成式模型, 通過訓練數據學習隱變量和觀測變量的聯合概率分布。

HMM具有「兩個基本假設」：

齊次馬爾可夫性假設：時刻的隱變量只跟前一個時刻的隱變量有關

觀測獨立性: 任意時刻的觀測變量只與該時刻的隱變量有關。所以可以構成下面一個有向圖, 從而可以分解成圖上邊的概率乘積。

「訓練階段」：通過對訓練數據進行極大似然估計, 得到HMM模型的參數：初始概率向量 (對應圖中的 )，隱變量之間的轉移概率矩陣 (對應圖中的，隱變量到觀測變量之前的轉移概率矩陣 ((對應圖中的。

「預測階段」: 給定觀測變量，解出使概率最大的隱變量。因為HMM是一個生成模型, 所以模型在預測階段需要從全部可能的隱變量中找到使得最大的那個。然而假設步長為 , 對于每一步，隱變量可能的取值有個, 那么全部可能的隱變量個數為 , 這是一個指數級的時間復雜度,窮舉肯定是不現實的。所以就引入了維特比算法(Viterbi algorithm)進行剪枝。

維特比算法的簡單的說就是「提前終止了不可能路徑」。具體而言, 在每一步遍歷全部的個節點,對于每一個節點繼續遍歷可能來源于上一步的個節點, 只保留上一步 () 個節點中概率最大的路徑, 裁剪其余的條路徑。所以時間復雜度降低到 , 相比指數級的暴力枚舉, 這是可接受的。

值得注意的是現在在深度學習在解碼階段基本不用「維特比算法」解碼而更多的是使用「beam search」解碼。這是因為「維特比算法」需要一個很強的假設：當前節點只與上一個點有關, 這也正是齊次馬爾可夫性假設, 所以路徑整體概率才可以表示成各個子路徑相乘的形式。但是深度學習時代的解碼則不滿足這個假設, 即, 而需要整體考慮, 所以beam search始終保留「整體最優」的個結果。

基于HMM的詞性標注

詞性標注是指給定一句話(已經完成了分詞)，給這個句子中的每個詞標記上詞性，例如名詞，動詞，形容詞等。這是一項最基礎的NLP任務，可以給很多高級的NLP任務例如信息抽取，語音識別等提供有用的先驗信息。

這個任務中我們認為隱變量是詞性(名詞，動詞等)，觀測變量是中文的詞語，需要進行的建模。

下面將分為：「數據處理，模型訓練，模型預測」 三個部分來介紹如果利用HMM實現詞性標注

數據處理

這里采用「1998人民日報詞性標注語料庫」進行模型的訓練，包括44個基本詞性以及19484個句子。具體可以參考這里：https://www.heywhale.com/mw/dataset/5ce7983cd10470002b334de3

PFR語料庫是對人民日報1998年上半年的純文本語料進行了詞語切分和詞性標注制作而成的，嚴格按照人民日報的日期、版序、文章順序編排的。文章中的每個詞語都帶有詞性標記。目前的標記集里有26個基本詞類標記（名詞n、時間詞t、處所詞s、方位詞f、數詞m、量詞q、區別詞b、代詞r、動詞v、形容詞a、狀態詞z、副詞d、介詞p、連詞c、助詞u、語氣詞y、嘆詞e、擬聲詞o、成語i、習慣用語l、簡稱j、前接成分h、后接成分k、語素g、非語素字x、標點符號w）外，從語料庫應用的角度，增加了專有名詞（人名nr、地名ns、機構名稱nt、其他專有名詞nz）；從語言學角度也增加了一些標記，總共使用了40多個個標記。

2. 模型訓練

根據數據估計HMM的模型參數：全部的詞性集合，全部的詞集合，初始概率向量，詞性到詞性的轉移矩陣 ?，詞性到詞的轉移矩陣。這里直接采用頻率估計概率的方法，但是對于會存在大量的0，所以需要進一步采用「拉普拉斯平滑處理」。

#?統計words和tags
words?=?set()
tags?=?set()
for?words_with_tag?in?sentences:
????for?word_with_tag?in?words_with_tag:
????????word,?tag?=?word_with_tag
????????words.add(word)
????????tags.add(tag)
words?=?list(words)
tags?=?list(tags)
#?統計?詞性到詞性轉移矩陣A?詞性到詞轉移矩陣B?初始向量pi
#?先初始化
A?=?{tag:?{tag:?0?for?tag?in?tags}?for?tag?in?tags}
B?=?{tag:?{word:?0?for?word?in?words}?for?tag?in?tags}
pi?=?{tag:?0?for?tag?in?tags}
#?統計A，B
for?words_with_tag?in?sentences:
????head_word,?head_tag?=?words_with_tag[0]
????pi[head_tag]?+=?1
????B[head_tag][head_word]?+=?1
????for?i?in?range(1,?len(words_with_tag)):
????????A[words_with_tag[i-1][1]][words_with_tag[i][1]]?+=?1
????????B[words_with_tag[i][1]][words_with_tag[i][0]]?+=?1
#?拉普拉斯平滑處理并轉換成概率
sum_pi_tag?=?sum(pi.values())
for?tag?in?tags:
????pi[tag]?=?(pi[tag]?+?1)?/?(sum_pi_tag?+?len(tags))
????sum_A_tag?=?sum(A[tag].values())
????sum_B_tag?=?sum(B[tag].values())
????for?next_tag?in?tags:
????????A[tag][next_tag]?=?(A[tag][next_tag]?+?1)?/?(sum_A_tag?+?len(tags))
????for?word?in?words:
????????B[tag][word]?=?(B[tag][word]?+?1)?/?(sum_B_tag?+?len(words))

看一下詞性轉移矩陣

3. 模型預測

在預測階段基于維特比算法進行解碼

def?decode_by_viterbi(sentence):
????words?=?sentence.split()
????sen_length?=?len(words)
????T1?=?[{tag:?float('-inf')?for?tag?in?tags}?for?i?in?range(sen_length)]
????T2?=?[{tag:?None?for?tag?in?tags}?for?i?in?range(sen_length)]
????#?先進行第一步
????for?tag?in?tags:
????????T1[0][tag]?=?math.log(pi[tag])?+?math.log(B[tag][words[0]])
????#?繼續后續解碼
????for?i?in?range(1,?sen_length):
????????for?tag?in?tags:
????????????for?pre_tag?in?tags:
????????????????current_prob?=?T1[i-1][pre_tag]?+?math.log(A[pre_tag][tag])?+?math.log(B[tag][words[i]])
????????????????if?current_prob?>?T1[i][tag]:
????????????????????T1[i][tag]?=?current_prob
????????????????????T2[i][tag]?=?pre_tag
????#?獲取最后一步的解碼結果
????last_step_result?=?[(tag,?prob)?for?tag,?prob?in?T1[sen_length-1].items()]
????last_step_result.sort(key=lambda?x:?-1*x[1])
????last_step_tag?=?last_step_result[0][0]
????#?向前解碼
????step?=?sen_length?-?1
????result?=?[last_step_tag]
????while?step?>?0:
????????last_step_tag?=?T2[step][last_step_tag]
????????result.append(last_step_tag)
????????step?-=?1
????result.reverse()
????return?list(zip(words,?result))

最后進行簡單的測試

decode_by_viterbi('我?和?我?的?祖國')
[('我',?'r/代詞'),?
?('和',?'c/連詞'),?
?('我',?'r'/代詞),?
?('的',?'u'/助詞),?
?('祖國',?'n'/名詞)]

decode_by_viterbi('中國?經濟?迅速?發展?，?對?世界?經濟?貢獻?很?大')?
[('中國',?'ns/地名'),
?('經濟',?'n/名詞'),
?('迅速',?'ad/形容詞'),
?('發展',?'v/動詞'),
?('，',?'w/其他'),
?('對',?'p/介詞'),
?('世界',?'n/名詞'),
?('經濟',?'n/名詞'),
?('貢獻',?'n/名詞'),
?('很',?'d'/副詞),
?('大',?'a'/形容詞)]

可以看到基本都是正確的，根據文獻HMM一般中文詞性標注的準確率能夠達到85%以上 :)

當然「HMM的缺陷也很明顯」，主要是兩個強假設在實際中是不成立的。因為隱變量不僅僅跟前一個狀態的隱變量有關（跟之前全部的隱藏變量和觀測變量有關），同時當前觀測變量也不僅僅跟當前的隱變量有關（跟之前全部的隱藏變量和觀測變量有關），這也是后面深度學習中RNN等模型嘗試解決的問題了。

編輯：黃飛

閱讀全文

HMM(9856) HMM(9856)
機器學習(130423) 機器學習(130423)
nlp(21784) nlp(21784)

中文分詞研究難點-詞語切分和語言規范

學習模型學習詞語切分的規律（稱為訓練），從而實現對未知文本的切分。隨著大規模語料庫的建立，統計機器學習方法的研究和發展，基于統計的中文分詞方法漸漸成為了主流方法。中文分詞的研究難點中文分詞難點主要體現在

2019-09-04 17:39:58

機器學習分類算法之支持向量機SVM

統計學習方法C++實現之六支持向量機（SVM）

2019-04-29 10:47:58

機器學習對中文的理解

機器學習基礎教程實踐(一)——中文的向量化

2019-08-27 14:19:29

統計的學習方法

統計學習方法感知機

2020-07-15 10:33:49

統計學習方法數據挖掘

統計學習方法C1概論

2019-10-29 09:12:28

FPGA學習方法及發展方向

FPGA學習快一年了，感覺達到了一定的瓶頸，沒人帶，自學很吃力，現在只會簡單地做一些小東西，想更加系統的學習一下FPGA將來從事FPGA有沒有好的學習方法或者發展方向什么的？求不吝賜教。

2015-11-24 17:58:14

FPGA技術的學習方法

。那么究竟如何才能高效學習好FPGA技術呢？本期邀請到的FPGA專家梅雪松，將為大家解答FPGA有效學習方法。專家觀點：學習FPGA技術，或者不僅局限于FPGA，學習任何一個新技術只要運用科學

2017-01-11 13:58:34

FPGA新手求推薦書籍，學習方法

由于自己基礎差，之前接觸的電子方面的東西也比較少，現在學習FPGA，求大嬸推薦學習方法及書籍！！！

2013-12-23 12:59:49

HanLP分詞命名實體提取詳解

參考 HanLP詞性標注集招中標項目文本樣式多變、內容復雜，我們無法直接定位文本中的某一位置來提取實體。小編采用基于統計和基于規則相融合的機器學習方法。首先，統計這些實體出現的前后文單詞和詞性，并考慮

2019-01-11 14:32:15

Hanlp分詞之CRF中文詞法分析詳解

;);System.out.println(wordList);不傳入模型路徑時將默認加載配置文件指定的模型。詞性標注CRF詞性標注器的訓練與加載與中文分詞類似，對應CRFPOSTagger。命名實體識別CRF命名實體識別也是類似的用法

2019-02-18 15:28:50

Hanlp等七種優秀的開源中文分詞庫推薦

：l索引全切分模式l用戶自定義詞典l兼容繁體中文l訓練用戶自己的領域模型l 詞性標注lHMM詞性標注（速度快）l感知機詞性標注、CRF詞性標注（精度高）l 命名實體識別l基于HMM角色標注的命名實體識別

2018-10-12 11:23:25

Linux建議的學習方法

宋寶華：迭代螺旋法——關于Linux學習方法的血淚建議

2020-04-15 11:38:59

Linux的學習方法及學習注意事項介紹

結合自己的幾年的個人開發經驗，及對 Linux，更是類UNIX系統，及開源軟件文化，談談Linux的學習方法與學習中應該注意的一些事。

2019-07-15 06:01:54

MCU的學習方法

剛才在q群上有人發表了關于MCU的學習方法，在此分享下，看規格書（datasheet、errata sheet），看懂了，背熟了，看原理圖，理解了，看例子程序，理解透了，修改，開始自己寫程序，不知大家有沒有其他方法，可以在此分享下。

2013-05-23 10:01:52

Python NLTK學習方法

Python NLTK學習5（詞性標注）

2020-05-29 10:39:56

STM32的學習方法

STM32學習方法

2023-09-28 06:18:03

STM32的學習方法分享？

STM32的學習方法

2020-08-14 04:00:51

arm單片機學習方法

大家給推薦下 arm 學習方法

2012-03-30 09:10:09

dsp 的學習方法收集：如何學習dsp

最近把dsp的本科教材《dsp原理及應用》學習完了，也重新復習了一下信號與系統予數字信號處理。不曉得如何繼續深入下去，畢竟手邊沒有實踐機會。在網上找了一些dsp的學習方法，收錄于此。百度知道中看

2012-03-01 13:55:18

labview有什么比較好的學習方法，求賜教？

labview有什么比較好的學習方法，求賜教？感謝大家分享。

2013-04-15 14:47:55

linux 新手入門求助，求各位好友推介好的資料和學習方法

linux 新手入門求助，求各位好友推介好的資料和學習方法，本人跪謝{:12:}

2014-03-13 23:29:37

stm32學習方法以及資料

2016-11-30 11:42:50

stm32學習方法及資料

這學習stm32的是越來越多，但是沒有學習方法的話還真不好學，一看一懵，還在努力的學友們加油努力，邁過這個坎我弄了幾個視頻的資具體是哪的我就就說了避嫌省的給人家做了廣告！就不好了

2018-11-09 13:20:39

【下載】《機器學習》+《機器學習實戰》

讀者, 本書附錄給出了一些相關數學基礎知識簡介.目錄：全書共16 章，大致分為3 個部分：第1 部分（第1～3 章）介紹機器學習的基礎知識；第2 部分（第4～10 章）討論一些經典而常用的機器學習方法

2017-06-01 15:49:24

【卡酷機器人】——基礎學習方法

`` 這里和大伙兒講解一下卡酷機器人基礎學習方法，如果有錯誤，歡迎大家指點喲。``

2015-01-09 18:01:34

關于STM32的學習方法

分享一下自己的學習思路，是關于我的STM32的學習方法，以STM32硬件編程思想為例第一點：編程首先應該清楚的是“需要什么”。需求包括①上級（自己）開出的要求、條件。②硬件應實現的功能。③是否符合

2021-08-11 06:55:59

初學STM32是否有推薦的學習方法、教程和開發板

大家好，本人只學過AVR單片機，對C語言沒有學過，想學習一下STM32，是否有推薦的學習方法、教程和開發板！非常感謝

2018-09-14 09:40:27

單片機學習方法和步驟相關資料推薦

學習單片機的動機不外乎有四種：一是為興趣愛好而學，二是為專業而學；三是為飯碗而學；四是在工作中被逼而學。不管是哪種動機，因主修專業的不同以及電子基礎的深淺不同，對于不同的人可能采用不同的學習方法

2021-11-22 08:31:58

單片機的學習方法和步驟

2021-07-15 09:11:11

單片機的學習方法和步驟

不同的學習方法，根據筆者的親身學習經驗，提出筆者的學習方法和步驟。Part 1 基礎理論知識學習基礎理論知識包括模擬電路、數字電路和C語言知識。模擬電路和數字電路屬于抽象學科，要把它學好還得費點精神。在你

2021-11-30 06:38:31

基于CRF序列標注的中文依存句法分析器的Java實現

速度翻了一倍，達到了1262.8655 sent/s開源項目本文代碼已集成到HanLP中開源項目中，最新hanlp1.7版本已經發布CRF簡介CRF是序列標注場景中常用的模型，比HMM能利用更多的特征

2019-01-16 14:21:03

基于結構化平均感知機的分詞器Java實現

的講義《The Structured Perceptron》。本文實現的AP分詞器預測是整個句子的BMES標注序列，當然屬于結構化預測問題了。感知機二分類感知機的基礎形式如《統計學習方法》所述，是定義在

2019-01-14 11:15:41

基于結構化感知機的詞性標注與命名實體識別框架

`上周就關于《結構化感知機標注框架的內容》已經分享了一篇《分詞工具Hanlp基于感知機的中文分詞框架》，本篇接上一篇內容，繼續分享詞性標注與命名實體識別框架的內容。詞性標注訓練詞性標注是分詞后緊接著

2019-04-08 14:57:23

嵌入式ARM+Linux的學習方法是什么？

ARM菜鳥跪求嵌入式ARM+Linux的學習方法是什么？學習嵌入式ARM+linux有什么方法么？學習路線是什么？路過的朋友可否簡單說下？?

2020-07-16 08:09:29

嵌入式Linux學習方法

2012-08-20 15:26:55

嵌入式開發板的學習方法

本文轉自：http://www.topeetboard.com 嵌入式知識體系龐大，下面介紹并了解嵌入式開發的體系及學習方法，學習嵌入式開發需要有很好的指引，也就是方法，嵌入式開發學習必須掌握方法

2016-03-30 17:21:43

嵌入式系統學習方法

很多新手都問過嵌入式系統學習方法，好的學習方法可以事半功倍，學習嵌入式系統，掌握了好的學習方法，自然可以水到渠成。本篇文章就來說說嵌入式系統學習方法，新手必看哦!　　第一，學習基本的裸機編程　　對于

2021-12-17 06:42:07

快速的學習方法?

有老師跟我說學習方法,直接從模塊化電路一個一個的學,不明白的再看電路基礎的相關章節,這樣好嗎?有沒有具體有哪些模塊,求詳細說下,,或有其他快速學習的方法.請指點下.

2016-06-25 22:28:08

文本信息抽取的分階段詳細介紹

文本信息抽取作為監督學習的一項具體運用。文本信息抽取可以分為兩個階段：學習階段和抽取階段。其過程如下圖所示：學習階段，首先有一些帶標注的數據集，每一個樣本包含文字單元序列和標注序列組成，機器學子

2019-09-16 15:03:58

最簡單的電路圖學習方法

最簡單的電路圖學習方法

2013-06-18 10:59:01

求128單片機學習方法

求128單片機學習方法

2013-01-06 22:38:17

求大神分享esp8266的一些學習方法與筆記

求大神分享esp8266的一些學習方法與筆記

2021-09-28 09:14:17

目前常用的自然語言處理開源項目/開發包大匯總

的中文詞法分析工具包，具有中文分詞和詞性標注功能。開發語言：網址：THULAC：一個高效的中文詞法分析工具包開發機構：清華大學自然語言處理與社會人文計算實驗室協議：研究目的免費開放源代碼，商用目的需洽談

2018-11-26 10:31:45

自然語言處理技術介紹

實體識別也可以看做是標注問題，因此可以采用HMM、CRF等進行模型的訓練。基于統計的命名實體識別需要基于分詞、詞性標注等技術。命名實體可以有多種分類方法，ACE08評測計劃里定義了五大類實體類型：設施

2018-09-27 09:57:14

自然語言處理的詞性標注方法

自然語言處理——78 詞性標注方法

2020-04-21 11:38:38

萌新求助，求大佬分享單片機學習方法

萌新求助，求大佬分享單片機學習方法

2021-11-08 08:36:47

計算機視覺應用深度學習

怎樣從傳統機器學習方法過渡到深度學習？

2021-10-14 06:51:23

請教STM32開發板的學習方法

請教STM32開發板的學習方法，請教快速高效的方法

2019-04-22 06:35:06

請問STM32單片機的學習方法有哪些？

請問STM32單片機的學習方法有哪些？

2021-10-26 06:59:15

集成學習和Boosting提升方法

李航《統計學習方法》——第八章Boosting提升方法【補充集成學習】+習題答案

2019-06-05 09:49:28

模擬電子電路的學習方法

模擬電子電路的學習方法

2009-08-07 15:49:55

252

基于無向圖序列標注模型的中文分詞詞性標注一體化系統

在中文詞法分析中，分詞是詞性標注必須經歷的階段。為了能在分詞階段就充分利用詞性標注的信息和減少兩階段錯誤的累計，最好的方法是將兩個階段，整合到一個架構中。該文

2010-03-06 11:22:46

嵌入式linux學習方法總結

嵌入式linux學習方法總結嵌入式linux的學習現在挺流行

2008-09-10 10:44:57

3442

電子技術自學的學習方法

電子技術自學的學習方法人的一生中使用自立學習法的時間最長，自己看書、自己動手就是自立學習法。1．具備基本條件事半功倍為了高效率運用自

2009-04-07 09:34:54

25033

第1章 ZigBee簡介和學習方法

ZigBee簡介和學習方法很適合入門級別的人學習。

2015-12-07 18:36:58

[學習嵌入式]嵌入式系統學習方法，輕松入門嵌入式

[學習嵌入式]嵌入式系統學習方法，輕松入門嵌入式。

2016-03-28 15:29:21

ZigBee 簡介和學習方法

zigbee簡介以及學習方法，ZigBee的歷史發展前景。

2016-04-15 14:07:57

AVR單片機學習方法詳解

詳細介紹AVR單片機學習方法，很適合初學者！

2016-05-16 17:15:25

專欄 | 深度學習在NLP中的運用？從分詞、詞性到機器翻譯、對話系統

從分詞、詞性等基礎模塊，到機器翻譯、知識問答等領域，本文列舉并分析一些深度學習在 NLP 領域的具體運用，希望對大家研究深度學習和 NLP 有所幫助。

2017-08-18 17:06:58

7295

基于表示學習方法的中文分詞系統

為提高中文分詞的準確率和未登錄詞（ OOV）識別率，提出了一種基于字表示學習方法的中文分詞系統。首先使用Skip-gram模型將文本中的詞映射為高維向量空間中的向量；其次用K-means聚類算法

2017-12-11 14:35:57

模型驅動深度學習的標準流程與學習方法解析

模型驅動的深度學習方法近年來，深度學習在人工智能領域一系列困難問題上取得了突破性成功應用。

2018-01-24 11:30:13

4608

深度解析機器學習三類學習方法

在機器學習(Machine learning)領域。主要有三類不同的學習方法：監督學習(Supervised learning)、非監督學習(Unsupervised learning)、半監督學習(Semi-supervised learning)。

2018-05-07 09:09:01

13404

《機器學習與數據挖掘：方法和應用》

和應用》的介紹及下載地址贊助本站《機器學習與數據挖掘：方法和應用》分為5個部分，共18章，較為全面地介紹了機器學習的基本概念，并討論了數據挖掘和知識發現中的有關問題及多策略學習方法，具體地闡述了機器學習與數據挖掘在工程設計，文本、圖像和音樂，網頁分析、計算機病毒和

2018-06-27 18:38:01

639

機器學習心得總結

接觸機器學習有一年了，是從上張敏老師的課開始的。后來師兄推薦了一本《統計學習理論的本質》，還記得第一印象覺得“統計”二字很奇怪。之后就漸漸習以為常了，接觸到的機器學習方法都是基于統計的，以至于統計學習與機器學習成了一個概念，以至于最近看了一些東西突然覺得自己長見識了。

2018-07-07 09:40:00

12722

《統計學習方法》李航詳細電子教材免費下載

詳細介紹支持向量機、Boosting、最大熵、條件隨機場等十個統計學習方法。

2018-08-22 17:55:15

如何學好機器學習？機器學習的學習方法4個關鍵點整理概述

。對于想要了解或從事AI行業工作的小伙伴們來說，能夠快速、深入的掌握機器學習相關知識顯得尤為重要，小編給大家整理機器學習的學習方法。

2018-09-24 19:29:00

5867

基于隱馬爾科夫模型和卷積神經網絡的圖像標注方法

開發大規模圖像庫的搜索和瀏覽算法，使得圖像自動標注的重要性日益增強。基于隱馬爾科夫模型（HMM）與卷積神經網絡（CNN），我們提出了一種新的圖像標注方法HMM + CNN。首先，訓練一個多標簽學習

2018-11-16 17:17:18

機器學習入門寶典《統計學習方法》的介紹

《統計學習方法》可以說是機器學習的入門寶典，許多機器學習培訓班、互聯網企業的面試、筆試題目，很多都參考這本書。本文根據網上資料用python復現了課程內容，并提供本書的代碼實現、課件及電子書下載。

2018-11-25 09:24:13

4250

谷歌推出基于機器學習的圖像標注方式

近日，谷歌公司推出了一款新型圖像標注方式 “流體標注”，即采用機器學習來注釋分類標簽并勾勒出圖片中的每個對象和背景區域。谷歌表示其可將標記數據集的速度提高3倍。

2018-11-27 15:36:19

3503

面向人工智能的機器學習方法體系總結

此處梳理出面向人工智能的機器學習方法體系，主要體現機器學習方法和邏輯關系，理清機器學習脈絡，后續文章會針對機器學習系列講解算法原理和實戰。抱著一顆嚴謹學習之心，有不當之處歡迎斧正。

2018-12-17 15:10:22

3095

如何使用紋理信息進行室內場景語義標注的學習方法資料說明

針對目前室內場景視頻中關鍵物體的檢測、跟蹤及信息編輯等方面主要是采用人工處理方式，存在效率低、精度不高等問題，提出了一種基于紋理信息的室內場景語義標注學習方法。首先，采用光流方法獲取視頻幀間的運動

2018-12-19 17:08:42

區塊鏈數據集有怎樣的機器學習方法

區塊鏈數據集提供了一個與加密貨幣資產行為相關的獨特的數據宇宙，因此，為機器學習方法的應用提供了獨特的機會。

2019-11-26 09:49:14

758

如何使用機器學習來分析區塊鏈數據集

區塊鏈數據集提供了一個與加密貨幣資產行為相關的獨特的數據宇宙，因此，為機器學習方法的應用提供了獨特的機會。然而，區塊鏈數據集的性質和結構給機器學習方法帶來了獨特的挑戰。

2019-11-26 11:38:52

1600

隨著人工智能的落地自動化機器學習方法AutoML應運而生

隨著概念的普及，科技公司對人工智能的要求越來越高，成本、準確度、效率都影響著人工智能能否落地融入日常的使用中。對人工智能應用的快速增長也進而催生了對影響人工智能水平的關鍵要素——機器學習方法的需求。自動化機器學習方法AutoML應運而生。

2019-12-02 15:03:01

655

深度討論集成學習方法，解決AI實踐難題

集成學習方法是一類先進的機器學習方法，這類方法訓練多個學習器并將它們結合起來解決一個問題，在實踐中獲得了巨大成功，并成為機器學習領域的“常青樹”，受到學術界和產業界的廣泛關注。

2020-08-16 11:40:51

616

運用多種機器學習方法比較短文本分類處理過程與結果差別

目標從頭開始實踐中文短文本分類，記錄一下實驗流程與遇到的坑運用多種機器學習（深度學習 + 傳統機器學習）方法比較短文本分類處理過程與結果差別工具深度學習：keras 傳統機器學習

2020-11-02 15:37:15

4798

深度學習：四種利用少量標注數據進行命名實體識別的方法

導讀近年來，深度學習方法在特征抽取深度和模型精度上表現優異，已經超過了傳統方法，但無論是傳統機器學習還是深度學習方法都依賴大量標注數據來訓練模型，而現有的研究對少量標注數據學習問題探討較少。本文

2021-01-03 09:35:00

9404

188萬中文詞庫包括了輸入法和機器學習與訓練

本文檔的主要內容詳細介紹的是188萬中文詞庫包括了輸入法和機器學習與訓練。

2021-02-26 15:01:57

基于強化學習的壯語詞標注方法

目前壯語智能信息處理研究處于起步階段，缺乏自動詞性標注方法。針對壯語標注語料匱乏、人工標注費時費力而機器標注性能較差的現狀，提出一種基于強化學習的壯語詞性標注方法。依據壯語的文法特點和中文賓州

2021-05-14 11:29:35

基于機器學習的中文隱式實體關系抽取方法

2021-06-02 14:42:14

基于腦電信號掃視軌跡的異質遷移學習方法

基于腦電信號掃視軌跡的異質遷移學習方法

2021-06-07 15:41:04

面向異質信息的網絡表示學習方法綜述

面向異質信息的網絡表示學習方法綜述

2021-06-09 14:12:29

單片機學習方法總結資料分享

單片機學習方法總結資料分享

2021-11-13 20:36:05

單片機學習筆記————單片機學習方法和步驟

2021-11-14 14:06:04

水聲被動定位中的機器學習方法研究進展綜述

水聲被動定位中的機器學習方法研究進展綜述來源：《信號處理》，作者牛海強等摘要：?本文對基于機器學習方法的水聲被動定位研究進展進行了綜述。所涉及的機器學習方法有多層感知機(前饋神經網絡)、支持

2021-12-24 11:18:27

468

融合零樣本學習和小樣本學習的弱監督學習方法綜述

融合零樣本學習和小樣本學習的弱監督學習方法綜述來源：《系統工程與電子技術》，作者潘崇煜等摘要:?深度學習模型嚴重依賴于大量人工標注的數據，使得其在數據缺乏的特殊領域內應用嚴重受限。面對數據缺乏

2022-02-09 11:22:37

1731

基于優化的元學習方法

為了解決上述問題，本文將目光從任務專用的soft prompt模型設計轉移到任務通用的模型參數初始化點搜索，以幫助模型快速適應到不同的少標注任務上。本文采用近年提出的基于優化的元學習方法，例如MAML[4]、Reptile[5]等

2022-12-15 15:19:30

830

聯合學習在傳統機器學習方法中的應用

聯合學習在傳統機器學習方法中的應用

2023-07-05 16:30:28

489

統計學習方法代碼集

統計學習所含部分代碼合集

2023-09-07 09:24:21

梳理單片機學習方法、產品開發流程

梳理單片機學習方法、產品開發流程

2023-09-21 17:20:07

362

已全部加載完成

搜索歷史

統計機器學習方法：基于HMM的中文詞性標注

評論