精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

電子發燒友App

硬聲App

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示
創作
電子發燒友網>電子資料下載>電子資料>PyTorch教程15.6之子詞嵌入

PyTorch教程15.6之子詞嵌入

2023-06-05 | pdf | 0.13 MB | 次下載 | 免費

資料介紹

在英語中,諸如“helps”、“helped”和“helping”之類的詞是同一個詞“help”的變形形式。“dog”與“dogs”的關系與“cat”與“cats”的關系相同,“boy”與“boyfriend”的關系與“girl”與“girlfriend”的關系相同。在法語和西班牙語等其他語言中,許多動詞有超過 40 種變形形式,而在芬蘭語中,一個名詞可能有多達 15 種格。在語言學中,形態學研究詞的形成和詞的關系。然而,word2vec 和 GloVe 都沒有探索單詞的內部結構。

15.6.1。fastText 模型

回想一下單詞在 word2vec 中是如何表示的。在skip-gram模型和連續詞袋模型中,同一個詞的不同變形形式直接由不同的向量表示,沒有共享參數為了使用形態信息,fastText 模型提出了一種子詞嵌入方法,其中一個子詞是一個字符n-gram Bojanowski等人,2017 年。與學習詞級向量表示不同,fastText 可以被視為子詞級 skip-gram,其中每個中心由其子詞向量的總和表示。

讓我們舉例說明如何使用單詞“where”為 fastText 中的每個中心詞獲取子詞。首先,在單詞的首尾添加特殊字符“<”和“>”,以區別于其他子詞的前綴和后綴。然后,提取字符n-克從字。例如,當n=3,我們得到所有長度為 3 的子詞:“”,以及特殊子詞“”?!?、“whe”、“her”、“ere”、“re>

在 fastText 中,對于任何單詞w, 表示為Gw其所有長度在 3 到 6 之間的子字及其特殊子字的并集。詞匯表是所有詞的子詞的并集。出租zg是子詞的向量g在字典中,向量vw為詞w作為 skip-gram 模型中的中心詞的是其子詞向量的總和:

(15.6.1)vw=∑g∈Gwzg.

fastText 的其余部分與 skip-gram 模型相同。與skip-gram模型相比,fastText中的詞匯量更大,導致模型參數更多。此外,為了計算一個詞的表示,必須將其所有子詞向量相加,從而導致更高的計算復雜度。然而,由于具有相似結構的詞之間的子詞共享參數,稀有詞甚至詞匯表外的詞可能會在 fastText 中獲得更好的向量表示。

15.6.2。字節對編碼

在 fastText 中,所有提取的子詞都必須具有指定的長度,例如36,因此無法預定義詞匯量大小。為了允許在固定大小的詞匯表中使用可變長度的子詞,我們可以應用一種稱為字節對編碼(BPE) 的壓縮算法來提取子詞 ( Sennrich et al. , 2015 )。

字節對編碼對訓練數據集進行統計分析,以發現單詞中的常見符號,例如任意長度的連續字符。從長度為 1 的符號開始,字節對編碼迭代地合并最頻繁的一對連續符號以產生新的更長的符號。請注意,為了提高效率,不考慮跨越單詞邊界的對。最后,我們可以使用子詞這樣的符號來分詞。字節對編碼及其變體已用于流行的自然語言處理預訓練模型中的輸入表示,例如 GPT-2 Radford等人,2019 年和 RoBERTa Liu等人,2019 年. 下面,我們將說明字節對編碼的工作原理

首先,我們將符號詞匯表初始化為所有英文小寫字符、一個特殊的詞尾符號'_'和一個特殊的未知符號'[UNK]'。

import collections

symbols = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
      'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z',
      '_', '[UNK]']
import collections

symbols = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
      'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z',
      '_', '[UNK]']

由于我們不考慮跨越單詞邊界的符號對,我們只需要一個字典raw_token_freqs將單詞映射到它們在數據集中的頻率(出現次數)。請注意,特殊符號'_'附加到每個單詞,以便我們可以輕松地從輸出符號序列(例如,“a_ tall er_ man”)中恢復單詞序列(例如,“a taller man”)。由于我們從僅包含單個字符和特殊符號的詞匯表開始合并過程,因此在每個單詞中的每對連續字符之間插入空格(字典的鍵token_freqs)。換句話說,空格是單詞中符號之間的分隔符。

raw_token_freqs = {'fast_': 4, 'faster_': 3, 'tall_': 5, 'taller_': 4}
token_freqs = {}
for token, freq in raw_token_freqs.items():
  token_freqs[' '.join(list(token))] = raw_token_freqs[token]
token_freqs
{'f a s t _': 4, 'f a s t e r _': 3, 't a l l _': 5, 't a l l e r _': 4}
raw_token_freqs = {'fast_': 4, 'faster_': 3, 'tall_': 5, 'taller_': 4}
token_freqs = {}
for token, freq in raw_token_freqs.items():
  token_freqs[' '.join(list(token))] = raw_token_freqs[token]
token_freqs
{'f a s t _': 4, 'f a s t e r _': 3, 't a l l _': 5, 't a l l e r _': 4}

我們定義了以下get_max_freq_pair函數,該函數返回單詞中出現頻率最高的一對連續符號,其中單詞來自輸入字典的鍵token_freqs

def get_max_freq_pair(token_freqs):
  pairs = collections.defaultdict(int)
  for token, freq in token_freqs.items():
    symbols = token.split()
    for i in range(len(symbols) - 1):
      # Key of `pairs` is a tuple of two consecutive symbols
      pairs[symbols[i], symbols[i + 1]] += freq
  return max(pairs, key=pairs.get) # Key of `pairs` with the max value
def get_max_freq_pair(token_freqs):
  pairs = collections.defaultdict(int)
  for token, freq in token_freqs.items():
    symbols = token.split()
    for i in range(len(symbols) - 1):
      # Key of `pairs` is a tuple of two consecutive symbols
      pairs[symbols[i], symbols[i + 1]] += freq
  return max(pairs, key=pairs.get) # Key of `pairs` with the max value

作為一種基于連續符號頻率的貪婪方法,字節對編碼將使用以下merge_symbols函數合并最頻繁的一對連續符號以產生新的符號。

def merge_symbols(max_freq_pair, token_freqs, symbols):
  symbols.append(''.join(max_freq_pair))
  new_token_freqs = dict()
  for token, freq in token_freqs.items():
    new_token = token.replace(' '.join(max_freq_pair),
                 ''.join(max_freq_pair))
    new_token_freqs[new_token] = token_freqs[token]
  return new_token_freqs
def merge_symbols(max_freq_pair, token_freqs, symbols):
  symbols.append(''.join(max_freq_pair))
  new_token_freqs = dict()
  for token, freq in token_freqs.items():
    new_token = token.replace(' '.join(max_freq_pair),
                 ''.join(max_freq_pair))
    new_token_freqs[new_token] = token_freqs[token]
  return new_token_freqs

現在我們在字典的鍵上迭代執行字節對編碼算法token_freqs在第一次迭代中,出現頻率最高的一對連續符號是't''a',因此字節對編碼將它們合并以產生新的符號'ta'<

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

查看更多

下載排行

本周

  1. 1開關電源設計原理手冊
  2. 1.83 MB   |  4次下載  |  免費
  3. 2PL4807單節鋰離子電池充電器中文手冊
  4. 1.36 MB   |  2次下載  |  免費
  5. 3智能小車proteus仿真+C源程序
  6. 0.02 MB   |  1次下載  |  免費
  7. 4FS5080E 5V升壓充電兩串鋰電池充電管理IC中文手冊
  8. 8.45 MB   |  1次下載  |  免費
  9. 5HT2120兩節鋰電池保護板電路
  10. 0.22 MB   |  1次下載  |  免費
  11. 6TMR技術在電流傳感器中的應用
  12. 616.47 KB  |  1次下載  |  免費
  13. 7OPAx320x精密CMOS運算放大器
  14. 2.22MB   |  1次下載  |  免費
  15. 8BQ77207EVM用戶指南
  16. 865.23KB   |  1次下載  |  免費

本月

  1. 1XL4015+LM358恒壓恒流電路圖
  2. 0.38 MB   |  155次下載  |  1 積分
  3. 2PCB布線和布局電路設計規則
  4. 0.40 MB   |  46次下載  |  免費
  5. 3GB/T4706.1-2024 家用和類似用途電器的安全第1部分:通用要求
  6. 7.43 MB   |  14次下載  |  1 積分
  7. 4智能門鎖原理圖
  8. 0.39 MB   |  13次下載  |  免費
  9. 5JESD79-5C_v1.30-2024 內存技術規范
  10. 2.71 MB   |  10次下載  |  免費
  11. 6elmo直線電機驅動調試細則
  12. 4.76 MB   |  9次下載  |  6 積分
  13. 7WIFI智能音箱原理圖完整版
  14. 0.09 MB   |  7次下載  |  10 積分
  15. 8PC1013三合一快充數據線充電芯片介紹
  16. 1.03 MB   |  7次下載  |  免費

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935115次下載  |  10 積分
  3. 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉換器 PCB layout 設計
  4. 1.48MB  |  420061次下載  |  10 積分
  5. 3Altium DXP2002下載入口
  6. 未知  |  233084次下載  |  10 積分
  7. 4電路仿真軟件multisim 10.0免費下載
  8. 340992  |  191367次下載  |  10 積分
  9. 5十天學會AVR單片機與C語言視頻教程 下載
  10. 158M  |  183333次下載  |  10 積分
  11. 6labview8.5下載
  12. 未知  |  81581次下載  |  10 積分
  13. 7Keil工具MDK-Arm免費下載
  14. 0.02 MB  |  73806次下載  |  10 積分
  15. 8LabVIEW 8.6下載
  16. 未知  |  65985次下載  |  10 積分