根據此訓練得出隱馬爾科夫模型,用維特比算法實現了一個簡單的拼音輸入法。
原理簡介
隱馬爾科夫模型
抄一段網上的定義:
隱馬爾可夫模型 (Hidden Markov Model) 是一種統計模型,用來描述一個含有隱含未知參數的馬爾可夫過程。其難點是從可觀察的參數中確定該過程的隱含參數,然后利用這些參數來作進一步的分析。
拼音輸入法中可觀察的參數就是拼音,隱含的參數就是對應的漢字。
viterbi算法
維特比算法,思想是動態規劃,代碼比較簡單就不贅述。
代碼解釋
model定義
代碼見model/table.py文件,針對隱馬爾科夫的三個概率矩陣,分別設計了三個數據表存儲。這樣的好處很明顯,漢字的轉移概率矩陣是一個非常大的稀疏矩陣,直接文件存儲占用空間很大,并且加載的時候也只能一次性讀入內存,不僅內存占用高而且加載速度慢。此外數據庫的join操作非常方便viterbi算法中的概率計算。
數據表定義如下:
classTransition(BaseModel):
__tablename__='transition'
id=Column(Integer,primary_key=True)
previous=Column(String(1),nullable=False)
behind=Column(String(1),nullable=False)
probability=Column(Float,nullable=False)
classEmission(BaseModel):
__tablename__='emission'
id=Column(Integer,primary_key=True)
character=Column(String(1),nullable=False)
pinyin=Column(String(7),nullable=False)
probability=Column(Float,nullable=False)
classStarting(BaseModel):
__tablename__='starting'
id=Column(Integer,primary_key=True)
character=Column(String(1),nullable=False)
probability=Column(Float,nullable=False)
模型生成
代碼見train/main.py文件,里面的initstarting,initemission,init_transition分別對應于生成隱馬爾科夫模型中的初始概率矩陣,發射概率矩陣,轉移概率矩陣,并把生成的結果寫入sqlite文件中。訓練用到的數據集是結巴分詞里的詞庫,因為沒有訓練長句子,最后運行的結果也證明只能適用于短句輸入。
初始概率矩陣
統計初始化概率矩陣,就是找出所有出現在詞首的漢字,并統計它們出現在詞首的次數,最后根據上述數據算出這些漢字出現在詞首的概率,沒統計的漢字就認為出現在詞首的概率是0,不寫入數據庫。有一點注意的是為了防止概率計算的時候因為越算越小導致計算機無法比較,所有的概率都進行了自然對數運算。統計的結果如下:
轉移概率矩陣
此處用到的是最簡單的一階隱馬爾科夫模型,即認為在一個句子里,每個漢字的出現只和它前面的的一個漢字有關,雖然簡單粗暴,但已經可以滿足大部分情況。統計的過程就是找出字典中每個漢字后面出現的漢字集合,并統計概率。因為這個概率矩陣非常的大,逐條數據寫入數據庫過慢,后續可以優化為批量寫入,提高訓練效率。結果如下:
上圖展示的一后面出現概率最高的十個字,也挺符合日常習慣。
發射概率矩陣
通俗點就是統計每個漢字對應的拼音以及在日常情況下的使用概率,已暴舉例,它有兩個讀音:bao和pu,難點就是找bao和pu出現的概率。此處統計用到了pypinyin模塊,把字典中的短語轉換為拼音后進行概率統計,但是某些地方讀音也不完全正確,最后運行的輸入法會出現和拼音不匹配的結果。統計結果如下:
viterbi實現
代碼建input_method/viterbi.py文件,此處會找到最多十個局部最優解,注意是十個局部最優解而不是十個全局最優解,但是這十個解中最優的那個是全局最優解,代碼如下:
def viterbi(pinyin_list):
"""
viterbi算法實現輸入法
Aargs:
pinyin_list (list): 拼音列表
"""
start_char=Emission.join_starting(pinyin_list[0])
V={char:probforchar,probinstart_char}
foriinrange(1,len(pinyin_list)):
pinyin=pinyin_list[i]
prob_map={}
forphrase,probinV.iteritems():
character=phrase[-1]
result=Transition.join_emission(pinyin,character)
ifnotresult:
continue
state,new_prob=result
prob_map[phrase+state]=new_prob+prob
ifprob_map:
V=prob_map
else:
returnV
returnV
結果展示
運行input_method/viterbi.py文件,簡單的展示一下運行結果:
問題統計:
統計字典生成轉移矩陣寫入數據庫的速度太慢,運行一次要將近十分鐘。
發射概率矩陣數據不準確,總有一些漢字的拼音不匹配。
訓練集太小,實現的輸入法不適用于長句子。
-
python
+關注
關注
56文章
4783瀏覽量
84473 -
隱馬爾科夫模型
+關注
關注
0文章
4瀏覽量
1339
原文標題:隱馬爾科夫模型 python 實現簡單拼音輸入法
文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論