精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

    0
    • 聊天消息
    • 系統(tǒng)消息
    • 評論與回復(fù)
    登錄后你可以
    • 下載海量資料
    • 學(xué)習(xí)在線課程
    • 觀看技術(shù)視頻
    • 寫文章/發(fā)帖/加入社區(qū)
    會員中心
    創(chuàng)作中心

    完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

    3天內(nèi)不再提示

    wordNet詞向量和詞義

    深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:艾春輝 ? 2020-11-02 15:16 ? 次閱讀

    review: Word2vec: More details

    How do we have usable meaning in a computer?

    wordNet的問題:?

    1. 詞語跟詞語之間存在一定的語境差別 2. 有些單詞的新含義缺少 3. 需要主觀調(diào)整 4. 無法計(jì)算單詞相似度 word2vec

    步驟:

    1. 尋找大量的文本 2. 固定詞匯表中的每個(gè)單詞都有一個(gè)向量表示 3. 文本中的每一個(gè)位置t,均存在中心詞c和上下詞o 4. 使用c和o的詞向量相似性來計(jì)算給定c和o的概率 5.不斷調(diào)整詞向量來最大化這個(gè)概率

    word2vec的一些參數(shù):

    1. U的每一行都是一個(gè)單詞的詞向量,點(diǎn)乘之后通過softmax可以得到概率分布,從而得到上下文分布。但是該分布和你在上下文哪個(gè)位置是無關(guān)的, 2. We want a model that gives a reasonably high probability estimate to all words that occur in the context (fairly often)----我們希望給出一個(gè)合理的高概率估計(jì) 3. 去除一些停用詞 更細(xì)的細(xì)節(jié)

    為什么每個(gè)單詞都需要訓(xùn)練兩個(gè)詞向量

    1. 更容易優(yōu)化,最后都取平均值 2. 可以每個(gè)單詞只??個(gè)向量

    兩個(gè)模型變體

    1. Skip-grams (SG)輸?中?詞并預(yù)測上下?中的單詞 2. Continuous Bag of Words (CBOW)輸?上下?中的單詞并預(yù)測中?詞 之前?直使?softmax(簡單但代價(jià)很?的訓(xùn)練?法)

    接下來使?負(fù)采樣?法加快訓(xùn)練速率 The skip-gram model with negative sampling (HW2)

    原始的論文中skip-gram模型是最大化的,這里給出:

    課程中的公式:

    我們希望中?詞與真實(shí)上下?單詞的向量點(diǎn)積更?,中?詞與隨機(jī)單詞的點(diǎn)積更?

    k是我們負(fù)采樣的樣本數(shù)?

    這里的0.75次方是選擇的比較好的,沒有科學(xué)依據(jù)

    But why not capture co-occurrence counts directly?共現(xiàn)矩陣

    共現(xiàn)矩陣 X

    1. 兩個(gè)方法:windows vs. full document 2. Window :與word2vec類似,在每個(gè)單詞周圍都使?Window,包括語法(POS)和語義信息 3. Word-document 共現(xiàn)矩陣的基本假設(shè)是在同?篇?章中出現(xiàn)的單詞更有可能相互關(guān)聯(lián)。假設(shè)單詞i出現(xiàn)在?章 中j,則矩陣元素$X_{ij}$加?,當(dāng)我們處理完數(shù)據(jù)庫中的所有?章后,就得到了矩陣 X,其??為 |V|*M,其中|V|為詞匯量,而M為文章數(shù),這?構(gòu)建單詞?章co-occurrencematrix的?法也是經(jīng)典的Latent Semantic Analysis所采?的。{>>潛在語義分析<<} ?

    利?某個(gè)定?窗?中單詞與單詞同時(shí)出現(xiàn)的次數(shù)來產(chǎn)?window-based (word-word) co-occurrence matrix

    let me to tell you a example: 句子

    1. I like deep learning. 2. I like NLP. 3. I enjoy flying. 則我們可以得到如下的word-word co-occurrence matrix:

    使?共現(xiàn)次數(shù)衡量單詞的相似性,但是會隨著詞匯量的增加?增?矩陣的??,并且需要很多空間來存儲這??維矩陣,后續(xù)的分類模型也會由于矩陣的稀疏性?存在稀疏性問題,使得效果不佳。我們需要 對這?矩陣進(jìn)?降維,獲得低維(25-1000)的稠密向量 how to reduce the dimensionality?

    方法一: SVD分解

    方法二: Ramped windows that count closer words more----將window傾斜向能統(tǒng)計(jì)更接近的單詞中

    方法三: 采用person相關(guān)系數(shù)

    glove

    兩種方法:

    1. 基于計(jì)數(shù):使?整個(gè)矩陣的全局統(tǒng)計(jì)數(shù)據(jù)來直接估計(jì):

    優(yōu)點(diǎn)

    1. 訓(xùn)練快速 2. 統(tǒng)計(jì)數(shù)據(jù)?效利?

    缺點(diǎn)

    1. 主要?于捕捉單詞相似性 2. 對?量數(shù)據(jù)給予?例失調(diào)的重視 2. 轉(zhuǎn)換計(jì)數(shù):定義概率分布并試圖預(yù)測單詞

    優(yōu)點(diǎn)

    1. 提?其他任務(wù)的性能 2. 能捕獲除了單詞相似性以外的復(fù)雜的模式

    缺點(diǎn)

    1. 與語料庫??有關(guān)的量表 2. 統(tǒng)計(jì)數(shù)據(jù)的低效使?(采樣是對統(tǒng)計(jì)數(shù)據(jù)的低效使?) Encoding meaning in vector differences

    采用共現(xiàn)矩陣的思想對meaning進(jìn)行編碼

    為什么采用比值有用?這里摘抄至網(wǎng)上: 假如我們想?yún)^(qū)分ice(固體)和stream(蒸汽),它們之間的關(guān)系可通過與不同單詞x的共線矩陣相似性比值來秒速,比如p(solid | ice)和p(solid | stream)相比,雖然它們之間的值都很小,不能透露有效消息,但是它們的比值卻很大,所以相比之下,solid更常見的用來表示ice而不是stream

    我們?nèi)绾卧u判在線性表達(dá)下的共現(xiàn)矩陣相似度

    1. log-bilinear 模型:

    2. 向量差異:

    公式推導(dǎo)部分來啦,非常非常重要的目標(biāo)函數(shù)優(yōu)化 基于對于以上概率比值的觀察,我們假設(shè)模型的函數(shù)有如下形式:

    其中,代表了context vector, 如上例中的solid, gas, water, fashion等。則是我們要比較的兩個(gè)詞匯, 如上例中的ice,steam。 ? F的可選的形式過多,我們希望有所限定。首先我們希望的是F能有效的在單詞向量空間內(nèi)表示概率比值,由于向顯空問是線性率間,一個(gè)自然的假設(shè)是 F 是關(guān)于同顯 的差的形式:

    或:

    在此,作者又對其進(jìn)行了對稱性分析,即對于word-word co-occurrence,將向量劃分為center word還是context word的選擇是不重要的,即我們在交換的時(shí)候該式仍然成立。如何保證這種對稱性呢? ? ? 我們分兩步來進(jìn)行, 首先要求滿足

    該方程的解為 F=exp(參考上面的評價(jià)方法)同時(shí)與

    相比較有

    所以,

    注意其中破壞了交換時(shí)的對稱性, 但是這一項(xiàng)并不依賴于 k?所以我們可以將其融合進(jìn)關(guān)于的bias項(xiàng)第二部就是為了平衡對稱性, 我們再加入關(guān)于的bias項(xiàng)我們就可以得到的形式。另一方面作者注宣到模型的一個(gè)缺點(diǎn)是對于所有的co-occurence的權(quán)重是一樣的,即使是那些較少發(fā) 生的co-occurrence。作者認(rèn)為這些可能是噪聲聲,所以他加入了前面的項(xiàng)來做weighted least squares regression模型,即為

    的形式。 其中權(quán)重項(xiàng) f 需滿足一下條件:

    f(0)=0,因?yàn)橐?是有限的。

    較少發(fā)生的co-occurrence所占比重較小。

    對于較多發(fā)生的co-occurrence, f(x)也不能過大。

    優(yōu)點(diǎn)

    訓(xùn)練快速

    可以擴(kuò)展到?型語料庫

    即使是?語料庫和?向量,性能也很好

    How to evaluate word vectors?

    與NLP的?般評估相關(guān):內(nèi)在與外在

    內(nèi)在

    對特定/中間?任務(wù)進(jìn)?評估

    計(jì)算速度快

    有助于理解這個(gè)系統(tǒng)

    不清楚是否真的有?,除?與實(shí)際任務(wù)建?了相關(guān)性

    外在

    對真實(shí)任務(wù)的評估

    計(jì)算精確度可能需要很?時(shí)間

    不清楚?系統(tǒng)是問題所在,是交互問題,還是其他?系統(tǒng)

    如果?另?個(gè)?系統(tǒng)替換?個(gè)?系統(tǒng)可以提?精確度

    Intrinsic word vector evaluation

    詞向量類?a:b = c:?,類似于之前的男人對國王,求女人對?

    英文解釋: This metric has an intuitive interpretation. Ideally, we want xb?xa = xd ?xc (For instance, queen – king = actress – actor). This implies that we want xb?xa + xc = xd. Thus we identify the vector xd which maximizes the normalized dot-product between the two word vectors (i.e. cosine similarity).

    一些結(jié)果舉例子:

    結(jié)論

    1. 300是?個(gè)很好的詞向量維度 2. 不對稱上下?(只使?單側(cè)的單詞)不是很好,但是這在下游任務(wù)重可能不同 3. window size 設(shè)為 8 對 Glove向量來說?較好 4. window size設(shè)為2的時(shí)候?qū)嶋H上有效的,并且對于句法分析是更好的,因?yàn)榫浞ㄐЧ?常局部 5. 當(dāng)詞向量的維度不斷變大的時(shí)候,詞向量的效果不會一直變差,并且會保持平穩(wěn) 6. glove的訓(xùn)練時(shí)間越長越好 7. 數(shù)據(jù)集越大越好,盡量使用百科類數(shù)據(jù)集合 8. 使用余弦相似度 Another intrinsic word vector evaluation

    the problem:Most words have lots of meanings!(一詞多義問題)? Especially common words ? Especially words that have existed for a long time

    method1: Improving Word Representations Via Global Context And Multiple Word Prototypes (Huang et al. 2012) -------將常?詞的所有上下?進(jìn)?聚類,通過該詞得到?些清晰的簇,從?將這個(gè)常?詞分解為多個(gè)單詞,例如 bank_1, bank_2, bank_3

    method2: Linear Algebraic Structure of Word Senses, with Applications to Polysemy (Arora, …, Ma, …, TACL 2018)

    Different senses of a word reside in a linear superposition (weighted sum) in standard word embeddings like word2vec -----------采用加權(quán)和的形式進(jìn)行處理

    令人驚訝的是,這個(gè)加權(quán)均值的效果非常好

    Training for extrinsic tasks

    到目前我們學(xué)的為止,我們的目標(biāo)是內(nèi)在任務(wù),強(qiáng)調(diào)開發(fā)一個(gè)特別優(yōu)秀的word embedding。接下來我們討論如何處理外部任務(wù)

    Problem Formulation

    Most NLP extrinsic tasks can be formulated as classi?cation tasks. For instance, given a sentence, we can classify the sentence to have positive, negative or neutral sentiment. Similarly, in named-entity recognition (NER), given a context and a central word, we want to classify the central word to be one of many classes. ------許多nlp的task都可以歸類為分類任務(wù)

    for example:我們有一個(gè)句子: Jim bought 300 shares of Acme Corp. in 2006,我們的目標(biāo)是得到一個(gè)結(jié)果:[Jim]Person bought 300 shares of [Acme Corp.]Organization in [2006]Time.

    對于這類問題,我們通常從以下形式的訓(xùn)練集合開始:

    其中是一個(gè)d維度的詞向量,是一個(gè)C維度的one-hot向量,表示我們wished label(情感詞語,其他詞語,命名主體詞語,買賣決策,等) ? 在機(jī)器學(xué)習(xí)里面,對于上面問題,我們通常固定輸入和輸出的形式,然后采用一些優(yōu)化算法訓(xùn)練權(quán)重。但在nlp里面,我們需要在訓(xùn)練外部任務(wù)的時(shí)候,對輸入的詞向量進(jìn)行再次訓(xùn)練 ?Retraining Word Vectors?

    我們預(yù)訓(xùn)練的詞向量在外部評估中的表現(xiàn)仍然有提高的可能,然而,如果我們選擇重新訓(xùn)練,我們會存在很大的風(fēng)險(xiǎn)------可能效果會比之前差得多

    If we retrain word vectors using the extrinsic task, we need to ensure that the training set is large enough to cover most words from the vocabulary. -----因?yàn)閣ord2vec和glove會產(chǎn)生一些語義接近的單詞,并且這些單詞位于同一個(gè)單詞空間。如果我們在一個(gè)小的數(shù)據(jù)集上預(yù)訓(xùn)練,這些單詞可能在向量空間中移動(dòng),這會導(dǎo)致我們的結(jié)果更差

    舉例子: 這兩個(gè)例子可以清楚明白的看到,訓(xùn)練集合如果過于小,我們的分類結(jié)果非常差

    結(jié)論:如果訓(xùn)練數(shù)據(jù)集合太小,就不應(yīng)該對單詞向量進(jìn)行再訓(xùn)練。如果培訓(xùn)集很大,再培訓(xùn)可以提高性能Softmax Classi?cation and Regularization

    softmax的訓(xùn)練

    1. 函數(shù)形式:

    2. 上個(gè)式子,是我們計(jì)算x是j的概率,我們采用交叉熵?fù)p失函數(shù):

    3. 對上面損失函數(shù)優(yōu)化,因?yàn)槲覀?y_j$為1,其他類別就是0,也就是說,對于單個(gè)詞語我們的損失函數(shù)簡化為:

    4. 上式損失函數(shù)只是一個(gè)單詞的,但是我們需要使用的訓(xùn)練集不止一個(gè)dancing,假設(shè)我們有N個(gè)單詞,將損失函數(shù)擴(kuò)展:

    5. 為了防止過擬合,我們需要加入一個(gè)懲罰項(xiàng):

    為什么懲罰項(xiàng)的參數(shù)是? ? 我們需要同時(shí)訓(xùn)練模型的權(quán)值w和詞向量x。對于權(quán)值來將,我們需要一個(gè)d維度向量的輸入和一個(gè)C維度向量輸出,所以是C*d;對于詞向量來說,我們詞匯表有v個(gè)詞匯,每個(gè)詞匯的維度是d維,所以是|v|*d ? ????6. 如果我們調(diào)整好 λ 這個(gè)超參數(shù)的值,這會降低損失函數(shù)出現(xiàn)很大值的參數(shù)的可能性因?yàn)閼土P項(xiàng)的存在,同時(shí),這個(gè)也能提高模型的泛化能力 ?Window Classi?cation

    我們通常的輸入不是一個(gè)單詞

    更多的情況,我們模型的輸入是一個(gè)單詞序列(取決于你的問題的情況,確認(rèn)窗口的大小),一般來講,較窄的窗口會在句法測試中會存在更好的性能,而更寬的窗口在語義測試中表現(xiàn)更好

    敲公式敲累了,偷個(gè)懶,這里就是在softmax里面我們擴(kuò)展到你窗口大小就行

    本文推薦閱讀論文:

    Improving Distributional Similarity with Lessons Learned from Word Embeddings

    Evaluation methods for unsupervised word embeddings

    責(zé)任編輯:xj

    原文標(biāo)題:【CS224N筆記】詞向量和詞義

    文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

    聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
    • 向量
      +關(guān)注

      關(guān)注

      0

      文章

      55

      瀏覽量

      11660
    • WordNet
      +關(guān)注

      關(guān)注

      0

      文章

      4

      瀏覽量

      7478

    原文標(biāo)題:【CS224N筆記】詞向量和詞義

    文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

    收藏 人收藏

      評論

      相關(guān)推薦

      科技云報(bào)到:大模型時(shí)代下,向量數(shù)據(jù)庫的野望

      科技云報(bào)到:大模型時(shí)代下,向量數(shù)據(jù)庫的野望
      的頭像 發(fā)表于 10-14 17:18 ?206次閱讀

      HLK-V20支持用戶修改喚醒和命令 海凌科語音定制后臺系統(tǒng)上線

      HLK-V20離線語音模塊首發(fā)即爆款,在抖音上V20的單個(gè)視頻播放量過100萬。關(guān)于這款產(chǎn)品用戶咨詢量最多的便是語音命令和喚醒的自定義問題。在很多用戶看來,作為一款離線語音模塊,HLK-V20
      的頭像 發(fā)表于 07-28 08:38 ?576次閱讀
      HLK-V20支持用戶修改喚醒<b class='flag-5'>詞</b>和命令<b class='flag-5'>詞</b> 海凌科語音定制后臺系統(tǒng)上線

      nlp自然語言處理模型有哪些

      嵌入(Word Embedding) 嵌入是將詞匯映射到高維空間的向量表示,使得語義相近的向量空間中的距離更近。常見的
      的頭像 發(fā)表于 07-05 09:57 ?626次閱讀

      大模型應(yīng)用之路:從提示到通用人工智能(AGI)

      大模型在人工智能領(lǐng)域的應(yīng)用正迅速擴(kuò)展,從最初的提示(Prompt)工程到追求通用人工智能(AGI)的宏偉目標(biāo),這一旅程充滿了挑戰(zhàn)與創(chuàng)新。本文將探索大模型在實(shí)際應(yīng)用中的進(jìn)展,以及它們?nèi)绾螢閷?shí)現(xiàn)AGI
      的頭像 發(fā)表于 06-14 10:20 ?2116次閱讀
      大模型應(yīng)用之路:從提示<b class='flag-5'>詞</b>到通用人工智能(AGI)

      大模型卷價(jià)格,向量數(shù)據(jù)庫“卷”什么?

      被大模型“帶飛”這一年,向量數(shù)據(jù)庫才剛剛寫下序言
      的頭像 發(fā)表于 05-23 09:24 ?1747次閱讀
      大模型卷價(jià)格,<b class='flag-5'>向量</b>數(shù)據(jù)庫“卷”什么?

      【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

      語義學(xué)習(xí)的起點(diǎn)是研究如何將轉(zhuǎn)化為向量表示,這一直是自然語言處理領(lǐng)域的研究熱點(diǎn)。詞表示方法主要分為三種:的獨(dú)熱表示、的分布式表示和基于預(yù)訓(xùn)練的
      發(fā)表于 05-05 12:17

      搭載英偉達(dá)GPU,全球領(lǐng)先的向量數(shù)據(jù)庫公司Zilliz發(fā)布Milvus2.4向量數(shù)據(jù)庫

      在美國硅谷圣何塞召開的 NVIDIA GTC 大會上,全球領(lǐng)先的向量數(shù)據(jù)庫公司 Zilliz 發(fā)布了 Milvus 2.4 版本。這是一款革命性的向量數(shù)據(jù)庫系統(tǒng),在業(yè)界首屈一指,它首次采用了英偉達(dá)
      的頭像 發(fā)表于 04-01 14:33 ?451次閱讀
      搭載英偉達(dá)GPU,全球領(lǐng)先的<b class='flag-5'>向量</b>數(shù)據(jù)庫公司Zilliz發(fā)布Milvus2.4<b class='flag-5'>向量</b>數(shù)據(jù)庫

      請問PSOC4的中斷向量表在哪查看?

      如題,PSOC4的中斷向量表在哪查看?謝謝
      發(fā)表于 02-06 06:22

      什么是中斷向量偏移,為什么要做中斷向量偏移?

      當(dāng)MCU中有兩段或以上程序的時(shí)候(第一個(gè)程序?yàn)橛脩鬊ootLoader程序,其他的為APP程序,這個(gè)在前期視頻《什么是ISP?什么是IAP》中有講過),APP程序中都需要做中斷向量偏移,那么什么是中斷向量偏移,為什么要做中斷向量
      的頭像 發(fā)表于 01-30 09:47 ?1627次閱讀
      什么是中斷<b class='flag-5'>向量</b>偏移,為什么要做中斷<b class='flag-5'>向量</b>偏移?

      支持向量機(jī)的基本原理 支持向量機(jī)可以解決什么問題

      支持向量機(jī)(Support Vector Machine,簡稱SVM)是一種非常流行和強(qiáng)大的機(jī)器學(xué)習(xí)算法,常用于分類和回歸問題。它的基本原理源自于統(tǒng)計(jì)學(xué)和線性代數(shù)的理論基礎(chǔ),通過找到能夠在特征空間
      的頭像 發(fā)表于 01-17 11:17 ?1552次閱讀

      M453VG6AE中斷向量表起始地址是多少呢?一共有多個(gè)中斷向量呢?

      芯片:M453VG6AE 這款芯片中斷向量表起始地址是多少呢?一共有多個(gè)中斷向量呢?
      發(fā)表于 01-17 08:13

      騰訊云把向量數(shù)據(jù)庫“卷”到哪一步了?

      被大模型“帶飛”這一年,向量數(shù)據(jù)庫才剛剛寫下序言
      的頭像 發(fā)表于 01-15 09:49 ?1554次閱讀
      騰訊云把<b class='flag-5'>向量</b>數(shù)據(jù)庫“卷”到哪一步了?

      臺達(dá)小型向量控制變頻器C200系列使用手冊

      電子發(fā)燒友網(wǎng)站提供《臺達(dá)小型向量控制變頻器C200系列使用手冊.pdf》資料免費(fèi)下載
      發(fā)表于 01-12 15:43 ?0次下載

      #2023,你的 FPGA 年度關(guān)鍵是什么? #

      FPGA 年度關(guān)鍵,我的想法是“標(biāo)準(zhǔn)化”;今年的工作中遇到了不少同事的issues,本身都是小問題或者很細(xì)節(jié)的東西但是卻反復(fù)出現(xiàn)問題,目前想到的最好的辦法是做好設(shè)計(jì)規(guī)則的標(biāo)準(zhǔn)化才能避免,不知道大家有沒有更好的建議?
      發(fā)表于 12-06 20:31

      ElasticSearch同義代碼解析

      同義用于提高搜索質(zhì)量并擴(kuò)大匹配范圍。 例如,搜索oil的用戶可能希望找到包含原油或石油的文檔,盡管這三個(gè)完全不同。
      的頭像 發(fā)表于 11-29 10:26 ?792次閱讀
      ElasticSearch同義<b class='flag-5'>詞</b>代碼解析