PyTorch教程之數據預處理

2072275 2023-06-02 | pdf | 0.14 MB | 次下載 | 免費

資料介紹

到目前為止，我們一直在處理以現成張量形式到達的合成數據。然而，要在野外應用深度學習，我們必須提取以任意格式存儲的雜亂數據，并對其進行預處理以滿足我們的需要。幸運的是，pandas 庫可以完成大部分繁重的工作。本節雖然不能替代適當的pandas 教程，但將為您提供一些最常見例程的速成課程。

2.2.1. 讀取數據集

逗號分隔值 (CSV) 文件普遍用于存儲表格（類似電子表格）數據。此處，每一行對應一個記錄并由多個（逗號分隔）字段組成，例如，“Albert Einstein,March 14 1879,Ulm,Federal polytechnic school,Accomplishments in the field of gravitational physics”。為了演示如何加載 CSV 文件pandas，我們在下面創建了一個 CSV 文件 ../data/house_tiny.csv。此文件表示房屋數據集，其中每一行對應一個不同的房屋，列對應房間數 ( NumRooms)、屋頂類型 ( RoofType) 和價格 ( Price)。

					import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
  f.write('''NumRooms,RoofType,Price
NA,NA,127500
2,NA,106000
4,Slate,178100
NA,NA,140000''')

					 

現在讓我們導入pandas并加載數據集read_csv。

							import pandas as pd

data = pd.read_csv(data_file)
print(data)

							  NumRooms RoofType  Price
  NaN   NaN 127500
  2.0   NaN 106000
  4.0  Slate 178100
  NaN   NaN 140000

						

							import pandas as pd

data = pd.read_csv(data_file)
print(data)

							  NumRooms RoofType  Price
  NaN   NaN 127500
  2.0   NaN 106000
  4.0  Slate 178100
  NaN   NaN 140000

						

							import pandas as pd

data = pd.read_csv(data_file)
print(data)

							  NumRooms RoofType  Price
  NaN   NaN 127500
  2.0   NaN 106000
  4.0  Slate 178100
  NaN   NaN 140000

						

							import pandas as pd

data = pd.read_csv(data_file)
print(data)

							  NumRooms RoofType  Price
  NaN   NaN 127500
  2.0   NaN 106000
  4.0  Slate 178100
  NaN   NaN 140000

						

2.2.2. 數據準備

在監督學習中，我們訓練模型在給定一組輸入值的情況下預測指定的目標值。我們處理數據集的第一步是分離出對應于輸入值和目標值的列。我們可以按名稱或通過基于整數位置的索引 ( ) 選擇列。iloc

您可能已經注意到，pandas將所有 CSV 條目替換NA為一個特殊的NaN（不是數字）值。這也可能在條目為空時發生，例如“3,,,270000”。這些被稱為缺失值，它們是數據科學的“臭蟲”，是您在整個職業生涯中都會遇到的持續威脅。根據上下文，缺失值可以通過插補或刪除來處理。插補用缺失值的估計值替換缺失值，而刪除只是丟棄那些包含缺失值的行或列。

以下是一些常見的插補啟發法。對于分類輸入字段，我們可以將其視為NaN一個類別。由于該RoofType 列采用值Slate和NaN，pandas可以將此列轉換為兩列RoofType_Slate和RoofType_nan。屋頂類型為的行將分別將和 Slate的值設置為 1 和 0。相反的情況適用于具有缺失值的行。RoofType_SlateRoofType_nanRoofType

							inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

							 

							  NumRooms RoofType_Slate RoofType_nan
  NaN        0       1
  2.0        0       1
  4.0        1       0
  NaN        0       1

						

							inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

							 

							  NumRooms RoofType_Slate RoofType_nan
  NaN        0       1
  2.0        0       1
  4.0        1       0
  NaN        0       1

						

							inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

							 

							  NumRooms RoofType_Slate RoofType_nan
  NaN        0       1
  2.0        0       1
  4.0        1       0
  NaN        0       1

						

							inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

							 

							  NumRooms RoofType_Slate RoofType_nan
  NaN        0       1
  2.0        0       1
  4.0        1       0
  NaN        0       1

						

對于缺失的數值，一種常見的啟發式方法是用 NaN相應列的平均值替換條目。

							inputs = inputs.fillna(inputs.mean())
print(inputs)

							  NumRooms RoofType_Slate RoofType_nan
  3.0        0       1
  2.0        0       1
  4.0        1       0
  3.0        0       1

						

							inputs = inputs.fillna(inputs.mean())
print(inputs)

							  NumRooms RoofType_Slate RoofType_nan
  3.0        0       1
  2.0        0       1
  4.0        1       0
  3.0        0       1

						

							inputs = inputs.fillna(inputs.mean())
print(inputs)

							  NumRooms RoofType_Slate RoofType_nan
  3.0        0       1
  2.0        0       1
  4.0        1       0
  3.0        0       1

						

							inputs = inputs.fillna(inputs.mean())
print(inputs)

							  NumRooms RoofType_Slate RoofType_nan
  3.0        0       1
  2.0        0       1
  4.0        1       0
  3.0        0       1

						

2.2.3. 轉換為張量格式

inputs現在和中的所有條目targets都是數字，我們可以將它們加載到張量中（回憶一下2.1 節）。

							import torch

X, y = torch.tensor(inputs.values), torch.tensor(targets.values)
X, y

							(tensor([[3., 0., 1.],
     [2., 0., 1.],
     [4., 1., 0.],
     [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

						

							from mxnet import np

X, y = np.array(inputs.values), np.array(targets.values)
X, y

							(array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]], dtype=float64),
 array([127500, 106000, 178100, 140000], dtype=int64))