精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PyTorch教程-15.5。帶全局向量的詞嵌入 (GloVe)

jf_pJlTbmA9 ? 來源:PyTorch ? 作者:PyTorch ? 2023-06-05 15:44 ? 次閱讀

上下文窗口中的單詞共現(xiàn)可能攜帶豐富的語義信息。例如,在大型語料庫中,“固體”一詞與“冰”比“蒸汽”更可能同時出現(xiàn),但“氣體”一詞與“蒸汽”一起出現(xiàn)的頻率可能高于“冰”。此外,可以預(yù)先計算此類共現(xiàn)的全球語料庫統(tǒng)計數(shù)據(jù):這可以提高培訓(xùn)效率。為了利用整個語料庫中的統(tǒng)計信息進(jìn)行詞嵌入,讓我們首先重新審視第 15.1.3 節(jié)中的 skip-gram 模型,但使用全局語料庫統(tǒng)計信息(例如共現(xiàn)計數(shù))來解釋它。

15.5.1。Skip-Gram 與全球語料庫統(tǒng)計

表示為qij條件概率 P(wj∣wi)詞的wj給定的詞wi在 skip-gram 模型中,我們有

(15.5.1)qij=exp?(uj?vi)∑k∈Vexp(uk?vi),

任何索引在哪里i載體vi和 ui代表詞wi分別作為中心詞和上下文詞,并且 V={0,1,…,|V|?1}是詞匯表的索引集。

考慮詞wi可能在語料庫中多次出現(xiàn)。在整個語料庫中,所有上下文詞無論在哪里wi被作為他們的中心詞形成一個多重集 Ci允許同一元素的多個實(shí)例的單詞索引。對于任何元素,其實(shí)例數(shù)稱為其多重性。為了舉例說明,假設(shè)這個詞wi在語料庫和上下文詞的索引中出現(xiàn)兩次 wi作為他們在兩個上下文窗口中的中心詞是 k,j,m,k和k,l,k,j. 因此,多重集 Ci={j,j,k,k,k,k,l,m},其中元素的多樣性j,k,l,m分別為 2、4、1、1。

現(xiàn)在讓我們表示元素的多重性j在多重集中 Ci作為xij. 這是單詞的全局共現(xiàn)計數(shù)wj(作為上下文詞)和詞 wi(作為中心詞)在整個語料庫中的同一上下文窗口中。使用這樣的全局語料庫統(tǒng)計,skip-gram 模型的損失函數(shù)相當(dāng)于

(15.5.2)?∑i∈V∑j∈Vxijlogqij.

我們進(jìn)一步表示xi上下文窗口中所有上下文詞的數(shù)量wi作為他們的中心詞出現(xiàn),相當(dāng)于|Ci|. 出租pij是條件概率xij/xi用于生成上下文詞 wj給定的中心詞wi, (15.5.2) 可以改寫為

(15.5.3)?∑i∈Vxi∑j∈Vpijlogqij.

在(15.5.3)中, ?∑j∈Vpijlogqij計算條件分布的交叉熵pij全球語料庫統(tǒng)計和條件分布qij模型預(yù)測。這種損失也由xi如上所述。最小化(15.5.3)中的損失函數(shù) 將使預(yù)測的條件分布接近全局語料庫統(tǒng)計的條件分布。

雖然通常用于測量概率分布之間的距離,但交叉熵?fù)p失函數(shù)在這里可能不是一個好的選擇。一方面,正如我們在 第 15.2 節(jié)中提到的,適當(dāng)歸一化的成本 qij導(dǎo)致整個詞匯表的總和,這在計算上可能很昂貴。另一方面,來自大型語料庫的大量稀有事件通常由交叉熵?fù)p失建模,以分配過多的權(quán)重。

15.5.2。手套模型

鑒于此,GloVe模型對基于平方損失的 skip-gram 模型做了三處改動(Pennington et al. , 2014):

使用變量pij′=xij和 qij′=exp?(uj?vi)不是概率分布,取兩者的對數(shù),所以平方損失項是 (logpij′?logqij′)2=(uj?vi?logxij)2.

為每個單詞添加兩個標(biāo)量模型參數(shù)wi:中心詞偏差bi和上下文詞偏差ci.

用權(quán)重函數(shù)替換每個損失項的權(quán)重 h(xij), 在哪里h(x)在增加的間隔[0,1].

綜上所述,訓(xùn)練 GloVe 就是最小化下面的損失函數(shù):

(15.5.4)∑i∈V∑j∈Vh(xij)(uj?vi+bi+cj?logxij)2.

對于權(quán)重函數(shù),建議的選擇是: h(x)=(x/c)α(例如α=0.75) 如果 x

需要強(qiáng)調(diào)的是,如果單詞wi出現(xiàn)在單詞的上下文窗口中wj,則反之。所以, xij=xji. 不像word2vec那樣擬合非對稱條件概率pij, GloVe 適合對稱 logxij. 因此,任何詞的中心詞向量和上下文詞向量在 GloVe 模型中在數(shù)學(xué)上是等價的。然而在實(shí)踐中,由于不同的初始化值,同一個詞在訓(xùn)練后仍然可能在這兩個向量中得到不同的值:GloVe 將它們相加作為輸出向量。

15.5.3。從共現(xiàn)概率比解釋 GloVe

我們還可以從另一個角度解讀 GloVe 模型。使用第 15.5.1 節(jié)中的相同符號,令 pij=defP(wj∣wi)是生成上下文詞的條件概率wj給予 wi作為語料庫中的中心詞。表 15.5.1 列出了給定單詞“ice”和“steam”的幾個共現(xiàn)概率及其基于大型語料庫統(tǒng)計數(shù)據(jù)的比率。

表 15.5.1大型語料庫中的詞-詞共現(xiàn)概率及其比率(改編自 Pennington et al. ( 2014 )中的表 1 )
wk= 堅硬的 氣體 時尚
p1=P(wk∣ice) 0.00019 0.000066 0.003 0.000017
p2=P(wk∣steam) 0.000022 0.00078 0.0022 0.000018
p1/p2 8.9 0.085 1.36 0.96

我們可以從表 15.5.1中觀察到以下內(nèi)容:

一句話wk與“冰”相關(guān)但與“蒸汽”無關(guān)的,例如wk=solid,我們期望更大的共現(xiàn)概率比,例如 8.9。

一句話wk與“蒸汽”有關(guān)但與“冰”無關(guān)的,例如wk=gas,我們期望更小的共現(xiàn)概率比,例如 0.085。

一句話wk與“冰”和“蒸汽”都相關(guān)的,例如wk=water,我們期望共現(xiàn)概率的比率接近 1,例如 1.36。

一句話wk與“冰”和“蒸汽”均無關(guān),例如wk=fashion,我們期望共現(xiàn)概率的比率接近 1,例如 0.96。

可以看出,共現(xiàn)概率的比值可以直觀地表達(dá)詞與詞之間的關(guān)系。因此,我們可以設(shè)計一個三個詞向量的函數(shù)來擬合這個比例。對于共現(xiàn)概率的比率pij/pik和wi 作為中心詞和wj和wk作為上下文詞,我們想使用一些函數(shù)來擬合這個比率f:

(15.5.5)f(uj,uk,vi)≈pijpik.

在許多可能的設(shè)計中f,我們只在下面選擇一個合理的選擇。由于共現(xiàn)概率的比率是一個標(biāo)量,我們要求f是標(biāo)量函數(shù),例如 f(uj,uk,vi)=f((uj?uk)?vi). 切換單詞索引j和k在(15.5.5)中,它必須認(rèn)為f(x)f(?x)=1, 所以一種可能性是 f(x)=exp?(x), IE,

(15.5.6)f(uj,uk,vi)=exp?(uj?vi)exp?(uk?vi)≈pijpik.

現(xiàn)在讓我們選擇 exp?(uj?vi)≈αpij, 在哪里α是一個常數(shù)。自從pij=xij/xi, 兩邊取對數(shù)后得到 uj?vi≈logα+logxij?logxi. 我們可能會使用額外的偏差項來適應(yīng) ?logα+logxi, 比如中心詞偏差 bi和上下文詞偏差cj:

(15.5.7)uj?vi+bi+cj≈logxij.

用權(quán)重測量式(15.5.7)的平方誤差,得到式(15.5.4)中的GloVe損失函數(shù)。

15.5.4。概括

skip-gram 模型可以使用全局語料庫統(tǒng)計信息(例如詞-詞共現(xiàn)計數(shù))來解釋。

交叉熵?fù)p失可能不是衡量兩個概率分布差異的好選擇,尤其是對于大型語料庫。GloVe 使用平方損失來擬合預(yù)先計算的全局語料庫統(tǒng)計數(shù)據(jù)。

對于 GloVe 中的任何單詞,中心詞向量和上下文詞向量在數(shù)學(xué)上是等價的。

GloVe 可以從詞-詞共現(xiàn)概率的比率來解釋。

15.5.5。練習(xí)

如果的話wi和wj在同一個上下文窗口中同時出現(xiàn),我們?nèi)绾卫盟鼈冊谖谋拘蛄兄械木嚯x重新設(shè)計計算條件概率的方法 pij?提示:請參閱 GloVe 論文 (Pennington等人,2014 年)的第 4.2 節(jié)。

對于任何一個詞,它的中心詞偏向和上下文詞偏向在 GloVe 中在數(shù)學(xué)上是否等價?為什么?

Discussions

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    803

    瀏覽量

    13150
收藏 人收藏

    評論

    相關(guān)推薦

    構(gòu)建向量模型相關(guān)資料分享

    向量就是向量; 向量的計算應(yīng)該有意義, 需要盡可能保留原來的語言特征, 把語素編碼到連續(xù)的、能反映語素間關(guān)系的連續(xù)的
    發(fā)表于 09-17 07:17

    如何構(gòu)建向量模型?

    如何構(gòu)建向量模型?
    發(fā)表于 11-10 07:43

    Pytorch模型如何通過paddlelite部署到嵌入式設(shè)備?

    Pytorch模型如何通過paddlelite部署到嵌入式設(shè)備?
    發(fā)表于 12-23 09:38

    結(jié)合向量和聚類算法的話題演進(jìn)分析

    話題演進(jìn)分析主要是挖掘話題內(nèi)容隨著時間流的演進(jìn)情況。話題的內(nèi)容可用關(guān)鍵來表示。利用word2vec對75萬篇新聞和微博文本進(jìn)行訓(xùn)練,得到向量模型。將文本流處理后輸入模型,獲得時間序列下所有詞匯
    發(fā)表于 11-24 15:44 ?1次下載

    基于分布式向量的主題分類

    主題分類在內(nèi)容檢索和信息篩選中應(yīng)用廣泛,其核心問題可分為兩部分:文本表示和分類模型。近年來,基于分布式向量對文本進(jìn)行表示,使用卷積神經(jīng)網(wǎng)絡(luò)作為分類器的文本主題分類方法取得了較好的分類效果。本文研究
    發(fā)表于 12-05 16:19 ?0次下載
    基于分布式<b class='flag-5'>詞</b><b class='flag-5'>向量</b>的主題分類

    基于向量和CRF的領(lǐng)域術(shù)語識別方法

    針對基于統(tǒng)計特征的領(lǐng)域術(shù)語識別方法忽略了術(shù)語的語義和領(lǐng)域特性,從而影響識別結(jié)果這一問題,提出一種基于向量和條件隨機(jī)場(CRF)的領(lǐng)域術(shù)語識別方法。該方法利用詞向量具有較強(qiáng)的語義表達(dá)能力、詞語與領(lǐng)域
    發(fā)表于 12-09 11:52 ?1次下載

    關(guān)于GN-GloVe嵌入技術(shù)詳解

    帶有這樣的偏見的嵌入模型,會給下游的NLP應(yīng)用帶來嚴(yán)重問題。例如,基于嵌入技術(shù)的簡歷自動篩選系統(tǒng)或工作自動推薦系統(tǒng),會歧視某種性別的候選人(候選人的姓名反映了性別)。除了造成這種明
    的頭像 發(fā)表于 09-23 09:25 ?3832次閱讀

    wordNet向量和詞義

    的每一個位置t,均存在中心c和上下o 4. 使用c和o的向量相似性來計算給定c和o的概率 5.不斷調(diào)整
    的頭像 發(fā)表于 11-02 15:16 ?2928次閱讀
    wordNet<b class='flag-5'>詞</b><b class='flag-5'>向量</b>和詞義

    融合BERT向量與TextRank的關(guān)鍵抽取方法

    結(jié)合文檔本身的結(jié)構(gòu)信息與外部詞語的語義信息,提出一種融合BERT向量與 Textrank的關(guān)鍵抽取方法。在基于網(wǎng)絡(luò)圖的 Textrank方法基礎(chǔ)上,引入語義差異性并利用BERT
    發(fā)表于 03-21 09:55 ?18次下載
    融合BERT<b class='flag-5'>詞</b><b class='flag-5'>向量</b>與TextRank的關(guān)鍵<b class='flag-5'>詞</b>抽取方法

    低頻向量優(yōu)化在短文本分類中的應(yīng)用

    眾多自然語言處理( Natural Language Processing,NLP)任務(wù)受益于在大規(guī)模語料上訓(xùn)練的向量。由于預(yù)訓(xùn)練的向量具有大語料上的通用語義特征,因此將這些
    發(fā)表于 05-17 15:37 ?13次下載

    基于雙通道向量的卷積膠囊網(wǎng)絡(luò)文本分類算法

    基于向量空間模型的文本分類方法的文本表示具有高緯度、高稀疏的特點(diǎn),特征表達(dá)能力較弱,且特征工程依賴人工提取,成本較髙。針對該問題,提出基于雙通道向量的卷積膠囊網(wǎng)絡(luò)文本分類算法。將WordⅤec訓(xùn)練
    發(fā)表于 05-24 15:07 ?6次下載

    PyTorch教程15.5全局向量嵌入(GloVe)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.5全局向量
    發(fā)表于 06-05 11:01 ?0次下載
    <b class='flag-5'>PyTorch</b>教程<b class='flag-5'>15.5</b>之<b class='flag-5'>帶</b><b class='flag-5'>全局</b><b class='flag-5'>向量</b>的<b class='flag-5'>詞</b><b class='flag-5'>嵌入</b>(<b class='flag-5'>GloVe</b>)

    PyTorch教程15.6之子嵌入

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.6之子嵌入.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 11:02 ?0次下載
    <b class='flag-5'>PyTorch</b>教程15.6之子<b class='flag-5'>詞</b><b class='flag-5'>嵌入</b>

    PyTorch教程-15.6. 子嵌入

    15.6. 子嵌入? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax
    的頭像 發(fā)表于 06-05 15:44 ?326次閱讀

    nlp自然語言處理模型有哪些

    嵌入(Word Embedding) 嵌入是將詞匯映射到高維空間的向量表示,使得語義相近的
    的頭像 發(fā)表于 07-05 09:57 ?626次閱讀