国产成人无码aⅴ片在线观看_久久精品人人妻人人玩_国产产无码乱码精品久久鸭

FoolNLTK — 作者號稱“可能不是最快的開源中文分詞，但很可能是最準的開源中文分詞”。

這個開源工具包基于BiLSTM模型訓練而成，功能包含分詞，詞性標注，實體識別。并支持用戶自定義詞典，可訓練自己的模型及批量處理文本。

1.準備

開始之前，你要確保Python和pip已經(jīng)成功安裝在電腦上，如果沒有，可以訪問這篇文章：超詳細Python安裝指南進行安裝。

如果你用Python的目的是數(shù)據(jù)分析，可以直接安裝Anaconda：Python數(shù)據(jù)分析與挖掘好幫手—Anaconda，它內置了Python和pip.

此外，推薦大家用VSCode編輯器，它有許多的優(yōu)點：Python 編程的最好搭檔—VSCode 詳細指南。

請選擇以下任一種方式輸入命令安裝依賴 ：

Windows 環(huán)境打開 Cmd (開始-運行-CMD)。
MacOS 環(huán)境打開 Terminal (command+空格輸入Terminal)。
如果你用的是 VSCode編輯器或 Pycharm，可以直接使用界面下方的Terminal.

pip install foolnltk

2.使用說明

2.1 分詞功能

通過 fool.cut 函數(shù)，能夠實現(xiàn)分詞功能：

import fool

text = "一個傻子在北京"
print(fool.cut(text))
# ['一個', '傻子', '在', '北京']

命令行針對文件進行分詞操作：

python -m fool [filename]

2.2 用戶自定義詞典

詞典格式格式如下，詞的權重越高，詞的長度越長就越越可能出現(xiàn)，權重值請大于1：

難受香菇 10
什么鬼 10
分詞工具 10
北京 10
北京天安門 10

加載詞典：

import fool
fool.load_userdict(path) # path 為詞典路徑
text = ["我在北京天安門看你難受香菇", "我在北京曬太陽你在非洲看雪"]
print(fool.cut(text))
#[['我', '在', '北京', '天安門', '看', '你', '難受', '香菇'],
# ['我', '在', '北京', '曬太陽', '你', '在', '非洲', '看', '雪']]

刪除詞典：

fool.delete_userdict()

2.3 詞性標注

詞性標注只需要使用 pos_cut 函數(shù)，生成的數(shù)組結果中，第一個維度是對應字符串的識別結果。第二個維度是分詞后的每個詞語及對應的詞性。

import fool

text = ["一個傻子在北京"]
print(fool.pos_cut(text))
#[[('一個', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]]

2.4 實體識別

實體識別的結果元素中，第一二個元素是關鍵詞的起始坐標和結束坐標，第三個元素是實體類別，最后一個元素是實體關鍵詞。

import fool

text = ["一個傻子在北京","你好啊"]
words, ners = fool.analysis(text)
print(ners)
#[[(5, 8, 'location', '北京')]]

3.定制自己的模型

你可以在 linux 的 Python3 環(huán)境定制自己的模型。

git clone https://github.com/rockyzhengwu/FoolNLTK.git
cd FoolNLTK/train

訓練。 模型訓練 data_dir 存放訓練數(shù)據(jù)格式如 datasets/demo 下。下載與訓練的模型,我這里是將下載的模型軟鏈接到 pretrainmodel 下

python ./train_bert_ner.py --data_dir=data/bid_train_data 
  --bert_config_file=./pretrainmodel/bert_config.json 
  --init_checkpoint=./pretrainmodel/bert_model.ckpt 
  --vocab_file=./pretrainmodel/vocab.txt 
  --output_dir=./output/all_bid_result_dir/ --do_train

導出模型 。模型導出 predict 同時指定 do_export 就能導出 pb 格式的模型，用于部署:

python ./train_bert_ner.py --data_dir=data/bid_train_data 
  --bert_config_file=./pretrainmodel/bert_config.json 
  --init_checkpoint=./pretrainmodel/bert_model.ckpt 
  --vocab_file=vocab.txt 
  --output_dir=./output/all_bid_result_dir/ --do_predict --do_export

預測。在 bert_predict.py 中指定下面三個參數(shù)就能加載訓練好的模型完成預測:

VOCAB_FILE = './pretrainmodel/vocab.txt'
LABEL_FILE = './output/label2id.pkl'
EXPORT_PATH = './export_models/1581318324'

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)分析

數(shù)據(jù)分析

+關注

關注
2

文章
1427

瀏覽量
34015
python

python

+關注

關注
56

文章
4782

瀏覽量
84453
工具包

工具包

+關注

關注
0

文章
46

瀏覽量
9524
nlp

nlp

+關注

關注
1

文章
487

瀏覽量
22011

PIC 語言工具包問題

大家好，PIC 我是新手，有個簡單的問題請教一下，就是我導入一個mcp的包，mplab會報語言工具包不對，這個要如何處理，因我導的是網(wǎng)上下下來的包，所以不知道之前用的是什么語言

發(fā)表于 04-19 14:00

Labview 處理圖片的工具包？

現(xiàn)在需要對圖片進行識別和處理，比如將bmp圖像化成二位數(shù)組進行處理，用數(shù)組處理起來非常慢，有沒有好用的工具包啊

發(fā)表于 11-13 11:50

跪求sound and vibration工具包的中文手冊。

發(fā)表于 09-24 10:46

LabView 2018中文版32位，以及2018工具包大全，DSC2018工具包，VISION2018視覺工具包附下載地址

://url.elecfans.com/u/78643b3008LabView 2018中文版32位，以及2018工具包大全，DSC2018工具包，VISION2018視覺工具包。La

發(fā)表于 05-09 15:19

并口開發(fā)調試工具包（推薦）

并口開發(fā)調試工具包 （推薦）:

發(fā)表于 05-27 10:15 ?35次下載

并口開發(fā)調試<b class='flag-5'>工具包</b> （推薦）

固件工具包

固件工具包 修改工具包 高興向大家公布這個信息！首先介紹一下這個工具地用途： 1、修改固件 - 通過此工具能夠修改固件中絕大多數(shù)地信息及配置。 2、...

發(fā)表于 03-16 14:49 ?71次下載

Labview2013各工具包的功能簡介

Labview2013各工具包的功能簡介Labview2013各工具包的功能簡介

發(fā)表于 11-20 11:20 ?1次下載

WEBENCH 設計工具包綜合概述

WEBENCH 設計工具包綜合概述

發(fā)表于 09-15 09:28 ?6次下載

Microchip蘋果配件開發(fā)工具包

這一講是Microchip蘋果配件開發(fā)工具包蘋果配件開發(fā)工具包

發(fā)表于 06-06 13:45 ?2267次閱讀

數(shù)字電源入門工具包的詳細中文資料概述

本用戶指南提供數(shù)字電源入門工具包的概述。現(xiàn)代電源的發(fā)展趨勢是外形更小巧，效率更高，靈活性更強，成本更低。在開關電源（Switch Mode Power Supply，SMPS）設計中采用數(shù)字信號

發(fā)表于 06-11 11:28 ?34次下載

數(shù)字電源入門<b class='flag-5'>工具包</b>的詳細<b class='flag-5'>中文</b>資料概述

PIC32以太網(wǎng)入門工具包的中文介紹和使用的詳細概述

本文檔介紹了如何使用PIC32以太網(wǎng)入門工具包II（也稱為“入門工具包”）開發(fā)工具在目標板上仿真和調試固件。 PIC32以太網(wǎng)入門工具包II該開發(fā)板為Microchip 的32位單片

發(fā)表于 06-07 17:28 ?19次下載

低成本mTouch評估工具包的詳細中文資料概述

本文檔介紹了如何將低成本mTouch評估工具包用作開發(fā)工具來評估m(xù)Touch 1D解決方案，以及如何基于該工具包來開發(fā)電容傳感應用。

發(fā)表于 06-06 10:29 ?9次下載

造林輔助工具包:更簡單有效的造林

電子發(fā)燒友網(wǎng)站提供《造林輔助工具包:更簡單有效的造林.zip》資料免費下載

發(fā)表于 11-14 10:17 ?0次下載

造林輔助<b class='flag-5'>工具包</b>:更<b class='flag-5'>簡單</b>有效的造林

SM2246XT工具包

SM2246XT工具包免費下載。

發(fā)表于 04-23 09:35 ?24次下載

OneInstall工具包

電子發(fā)燒友網(wǎng)站提供《OneInstall工具包.exe》資料免費下載

發(fā)表于 08-18 14:54 ?0次下載

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

FoolNLTK：簡單好用的中文NLP工具包