電子發燒友網>電子資料下載>電子資料>PyTorch教程10.5之機器翻譯和數據集

PyTorch教程10.5之機器翻譯和數據集

1843857 2023-06-05 | pdf | 0.30 MB | 次下載 | 免費

資料介紹

在引起人們對現代 RNN 廣泛興趣的重大突破中，有一項是統計機器翻譯應用領域的重大進展。在這里，模型以一種語言的句子呈現，并且必須預測另一種語言的相應句子。請注意，由于兩種語言的語法結構不同，這里的句子可能有不同的長度，并且兩個句子中相應的詞可能不會以相同的順序出現。

許多問題都具有這種在兩個這樣的“未對齊”序列之間進行映射的風格。示例包括從對話提示到回復或從問題到答案的映射。廣義上，此類問題稱為 序列到序列(seq2seq) 問題，它們是本章剩余部分和第 11 節大部分內容的重點。

在本節中，我們將介紹機器翻譯問題和我們將在后續示例中使用的示例數據集。幾十年來，語言間翻譯的統計公式一直很流行（Brown等人，1990 年，Brown等人，1988 年），甚至在研究人員使神經網絡方法起作用之前（這些方法通常被統稱為神經機器翻譯）。

首先，我們需要一些新代碼來處理我們的數據。與我們在9.3 節中看到的語言建模不同，這里的每個示例都包含兩個單獨的文本序列，一個是源語言，另一個（翻譯）是目標語言。以下代碼片段將展示如何將預處理后的數據加載到小批量中進行訓練。

						import os
import torch
from d2l import torch as d2l

						 

						import os
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

						import os
from jax import numpy as jnp
from d2l import jax as d2l

						 

						No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

					

						import os
import tensorflow as tf
from d2l import tensorflow as d2l

						 

10.5.1。下載和預處理數據集

首先，我們從 Tatoeba Project 下載由雙語句子對組成的英法數據集。數據集中的每一行都是一個制表符分隔的對，由一個英文文本序列和翻譯后的法文文本序列組成。請注意，每個文本序列可以只是一個句子，也可以是一段多句。在這個英語翻譯成法語的機器翻譯問題中，英語被稱為源語言，法語被稱為目標語言。

							class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])

							 

Downloading ../data/fra-eng.zip from http://d2l-data.s3-accelerate.amazonaws.com/fra-eng.zip...
Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!

							class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])

							 

							Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!

						

							class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])

							 

							Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!

						

							class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])

							 

							Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!

						

下載數據集后，我們對原始文本數據進行幾個預處理步驟。例如，我們將不間斷空格替換為空格，將大寫字母轉換為小寫字母，在單詞和標點符號之間插入空格。

							@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])

							 

							go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !

						

							@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])

							 

							go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !

						

							@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])

							 

							go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !

						

							@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])

							 

							go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !

						

10.5.2。代幣化

與第 9.3 節中的字符級標記化不同，對于機器翻譯，我們在這里更喜歡單詞級標記化（當今最先進的模型使用更復雜的標記化技術）。以下_tokenize方法對第一個max_examples文本序列對進行分詞，其中每個分詞要么是一個單詞，要么是一個標點符號。我們將特殊的“”標記附加到每個序列的末尾，以指示序列的結束。當模型通過生成一個接一個標記的序列標記進行預測時，“”標記的生成表明輸出序列是完整的。最后，下面的方法返回兩個令牌列表列表：src和tgt。具體來說，src[i]是來自ith源語言（此處為英語）的文本序列和tgt[i]目標語言（此處為法語）的文本序列。