无码人妻精品一区二区三区99不卡_久久久精品国产亚洲综合久久久国产中文字幕免费_国产黄a一级二级三级看三区_最新欧美国产亚洲一区二区三区精品久久久不卡_无码免费无码又爽高潮喷水网站_日韩人妻无码精品久久专区

網(wǎng)絡(luò)原指用一個(gè)巨大的虛擬畫面，把所有東西連接起來，也可以作為動(dòng)詞使用。在計(jì)算機(jī)領(lǐng)域中，網(wǎng)絡(luò)就是用物理鏈路將各個(gè)孤立的工作站或主機(jī)相連在一起，組成數(shù)據(jù)鏈路，從而達(dá)到資源共享和通信的目的。凡將地理位置不同，并具有獨(dú)立功能的多個(gè)計(jì)算機(jī)系統(tǒng)通過通信設(shè)備和線路而連接起來，且以功能完善的網(wǎng)絡(luò)軟件（網(wǎng)絡(luò)協(xié)議、信息交換方式及網(wǎng)絡(luò)操作系統(tǒng)等）實(shí)現(xiàn)網(wǎng)絡(luò)資源共享的系統(tǒng)，可稱為計(jì)算機(jī)網(wǎng)絡(luò)。網(wǎng)絡(luò)的迅速發(fā)展，使人們不僅面臨信息爆炸，同時(shí)也面臨著如何從浩如煙海的信息中獲取自己所需信息的難題。如何有效地組織和處理海量的信息，并過濾和管理網(wǎng)絡(luò)資源，已成為必須面對(duì)的問題。

為了網(wǎng)頁信息的有效組織和檢索，人們開發(fā)了各種網(wǎng)絡(luò)信息搜索器，在一定程度上確實(shí)提高了網(wǎng)絡(luò)信息的利用率。與文本分類技術(shù)相比較，網(wǎng)頁分類更加復(fù)雜，這是由網(wǎng)頁的結(jié)構(gòu)特征決定的，但是網(wǎng)頁的信息主要是通過文本的方式向人們傳遞的，所以在對(duì)網(wǎng)頁分類之前，首先要對(duì)其中的文本進(jìn)行提取，對(duì)所提取的文本分類，最終使網(wǎng)頁分類問題轉(zhuǎn)化為文本分類問題。

目前，文本分類技術(shù)的研究比較活躍，已經(jīng)出現(xiàn)了多種文本分類算法，并且被廣泛應(yīng)用于多個(gè)領(lǐng)域：信息檢索、搜索引擎、文本數(shù)據(jù)庫等。文本分類算法基本是基于概率統(tǒng)計(jì)模型，本文就是基于互信息（MI）提出一種改進(jìn)的特征提取方法，并根據(jù)TFIDF提出一種新的特征權(quán)值計(jì)算方法構(gòu)建中文網(wǎng)頁分類器。

1 網(wǎng)頁預(yù)處理

網(wǎng)頁分類之前首先要進(jìn)行預(yù)處理，實(shí)際上就是HTML解析，把解析出來的內(nèi)容用于文本分類，選取網(wǎng)頁中的下面這些文本用于分類：

（1）錨文本。錨文本是網(wǎng)頁中用于指示所連接網(wǎng)頁內(nèi)容的提示，由于后面要對(duì)提取的文本進(jìn)行分類，所以只提取文字形式的錨文本。

（2）title文本。這樣的文本可能是網(wǎng)頁中最重要的標(biāo)簽，必須取得。

（3）meta標(biāo)簽。其重要的功能就是設(shè)置關(guān)鍵字，網(wǎng)頁的制作者往往都設(shè)置了關(guān)鍵字，來提高網(wǎng)頁的搜索點(diǎn)擊率。可以利用meta標(biāo)簽中的有關(guān)文本內(nèi)容進(jìn)行網(wǎng)頁分類。

（4）主文本。上面這些信息獲取之后，網(wǎng)頁中剩余的文本信息還在各種HTML標(biāo)簽中，在HTML源文件中，主文本有可能不是連續(xù)出現(xiàn)的。主文本一般是網(wǎng)頁中文字最集中的較長(zhǎng)的字符串，查看源文件，那些比較長(zhǎng)的字符串是整個(gè)出現(xiàn)在1個(gè)標(biāo)簽中的。

文本首先要確定的問題就是表示文本的基本單位，用于表示文本的基本單位通常稱為文本的特征或特征項(xiàng)。中文文本不同于英文文本，英文文本以空格為分隔符，非常明確。而中文文本需要對(duì)其進(jìn)行分詞處理才能得出每個(gè)特征。本文采用中科院計(jì)算技術(shù)研究所漢語詞法分析系統(tǒng)ICTCLAS3.0進(jìn)行分詞。如果把這些對(duì)文本分類沒有意義的虛詞作為特征，將會(huì)帶來很大噪音，降低文本分類的效率和準(zhǔn)確率。因此，在提取文本特征時(shí)，應(yīng)首先考慮剔除這些對(duì)文本分類沒有用處的虛詞，而在實(shí)詞中，又以名詞和動(dòng)詞對(duì)于文本的類別特性的表現(xiàn)力最強(qiáng)。

2 特征提取

特征提取就是提取出最能代表某篇文章或某類的特征項(xiàng)，以達(dá)到降維的效果從而減少文本分類的計(jì)算量。典型特征提取方法：信息增益（Information Gain），互信息（MI）、文檔頻度（DF）。傳統(tǒng)的MI特征提取方法：

計(jì)算出所有特征詞的統(tǒng)計(jì)值后，從大到小進(jìn)行排序，然后根據(jù)需要從上到下選取一定數(shù)量的特征詞構(gòu)建文本分類的特征詞庫。

3 特征加權(quán)及向量化

TFIDF算法及其改進(jìn)型[5]有多種公式，本文使用一種新的改進(jìn)的TF-IDF公式來計(jì)算特征詞的權(quán)重。TF-IDF公式有很多變種，比較常見的TF-IDF公式：

文本分類

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

HTML

HTML

+關(guān)注

關(guān)注
0

文章
277

瀏覽量
34503
分類器

分類器

+關(guān)注

關(guān)注
0

文章
152

瀏覽量
13175
文本

文本

+關(guān)注

關(guān)注
0

文章
118

瀏覽量
17068

評(píng)論

相關(guān)推薦

pyhanlp文本分類與情感分析

得到一個(gè)分類器，利用該分類器，我們就可以進(jìn)行文本分類了。IClassifier classifier = new NaiveBayesCla

發(fā)表于 02-20 15:37

TensorFlow的CNN文本分類

在TensorFlow中實(shí)現(xiàn)CNN進(jìn)行文本分類(譯)

發(fā)表于 10-31 09:27

NLPIR平臺(tái)在文本分類方面的技術(shù)解析

一下NLPIR大數(shù)據(jù)語義智能分析系統(tǒng)是怎樣實(shí)現(xiàn)文本分類的。NLPIR大數(shù)據(jù)語義智能分析平臺(tái)的文本分類有兩種模式：專家規(guī)則分類與機(jī)器學(xué)習(xí)分類。專家規(guī)則

發(fā)表于 11-18 17:46

基于文本分類的網(wǎng)頁排序算法

隨著web 技術(shù)的發(fā)展，好的網(wǎng)頁排序算法越來越重要。本文主要討論了網(wǎng)頁排序應(yīng)當(dāng)考慮的因素如網(wǎng)頁更新時(shí)間等。在對(duì)這些因素

發(fā)表于 09-12 11:29 ?8次下載

基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)

基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)_徐凱

發(fā)表于 01-07 18:56 ?2次下載

融合詞語類別特征和語義的短文本分類方法

LDA主題模型從背景知識(shí)中選擇最優(yōu)主題形成新的短文本特征，在此基礎(chǔ)上建立分類器進(jìn)行分類。采用支持向量機(jī)SVM與是近鄰法k-NN

發(fā)表于 11-22 16:29 ?0次下載

基于級(jí)聯(lián)式分類器的網(wǎng)頁分類方法

針對(duì)海量網(wǎng)頁在線自動(dòng)高效獲取網(wǎng)頁分類系統(tǒng)設(shè)計(jì)中如何更有效地平衡準(zhǔn)確度與資源開銷之間的矛盾問題，提出一種基于級(jí)聯(lián)式分類器的

發(fā)表于 12-05 08:44 ?0次下載

textCNN論文與原理——短文本分類

是處理圖片的torchvision，而處理文本的少有提及，快速處理文本數(shù)據(jù)的包也是有的，那就是torchtext［1］。下面還是結(jié)合上一個(gè)案例：【深度學(xué)習(xí)】textCNN論文與原理——短文本分類（基于pytorch）［2］，使用

發(fā)表于 12-31 10:08 ?2497次閱讀

基于深度神經(jīng)網(wǎng)絡(luò)的文本分類分析

　　隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，許多研究者嘗試?yán)蒙疃葘W(xué)習(xí)來解決文本分類問題，特別是在卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)方面，出現(xiàn)了許多新穎且有效的分類方法。對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類問題進(jìn)行

發(fā)表于 03-10 16:56 ?37次下載

結(jié)合BERT模型的中文文本分類算法

針對(duì)現(xiàn)有中文短文夲分類算法通常存在特征稀疏、用詞不規(guī)范和數(shù)據(jù)海量等問題，提出一種基于Transformer的雙向編碼器表示（BERT）的中文短文本分

發(fā)表于 03-11 16:10 ?6次下載

基于LSTM的表示學(xué)習(xí)-文本分類模型

的關(guān)鍵。為了獲得妤的文本表示，提高文本分類性能，構(gòu)建了基于LSTM的表示學(xué)習(xí)-文本分類模型，其中表示學(xué)習(xí)模型利用語言模型為文本分類模型提供初

發(fā)表于 06-15 16:17 ?18次下載

帶你從頭構(gòu)建文本分類器

文本分類是 NLP 中最常見的任務(wù)之一，它可用于廣泛的應(yīng)用或者開發(fā)成程序，例如將用戶反饋文本標(biāo)記為某種類別，或者根據(jù)客戶文本語言自動(dòng)歸類。另外向我們平時(shí)見到的郵件垃圾過濾器也是文本分類

發(fā)表于 03-22 10:49 ?3496次閱讀

深度學(xué)習(xí)——如何用LSTM進(jìn)行文本分類

簡(jiǎn)介主要內(nèi)容包括如何將文本處理為Tensorflow LSTM的輸入如何定義LSTM 用訓(xùn)練好的LSTM進(jìn)行文本分類代碼導(dǎo)入相關(guān)庫 #coding=utf-8 import

發(fā)表于 10-21 09:57 ?1562次閱讀

PyTorch文本分類任務(wù)的基本流程

文本分類是NLP領(lǐng)域的較為容易的入門問題，本文記錄文本分類任務(wù)的基本流程，大部分操作使用了**torch**和**torchtext**兩個(gè)庫。 ## 1. 文本數(shù)據(jù)預(yù)處理

發(fā)表于 02-22 14:23 ?1063次閱讀

NLP中的遷移學(xué)習(xí)：利用預(yù)訓(xùn)練模型進(jìn)行文本分類

遷移學(xué)習(xí)徹底改變了自然語言處理（NLP）領(lǐng)域，允許從業(yè)者利用預(yù)先訓(xùn)練的模型來完成自己的任務(wù)，從而大大減少了訓(xùn)練時(shí)間和計(jì)算資源。在本文中，我們將討論遷移學(xué)習(xí)的概念，探索一些流行的預(yù)訓(xùn)練模型，并通過實(shí)際示例演示如何使用這些模型進(jìn)行文本分類。我們將使用擁抱面轉(zhuǎn)換器庫來實(shí)現(xiàn)。

發(fā)表于 06-14 09:30 ?431次閱讀