本章將介紹Python的最基本語法,以及一些和深度學(xué)習(xí)還有計(jì)算機(jī)視覺最相關(guān)的基本使用。
Python簡介
Python是一門解釋型的高級編程語言,特點(diǎn)是簡單明確。Python作者是荷蘭人Guido van Rossum,1982年他獲得數(shù)學(xué)和計(jì)算機(jī)碩士學(xué)位后,在荷蘭數(shù)學(xué)與計(jì)算科學(xué)研究所(Centrum Wiskunde & Informatica, CWI)謀了份差事。在CWI期間,Guido參與到了一門叫做ABC的語言開發(fā)工作中。ABC是一門教學(xué)語言,所以擁有簡單,可讀性好,語法更接近自然語言等特點(diǎn)。在那個(gè)C語言一統(tǒng)天下的年代,ABC就是一股簡單的清流,畢竟是門教學(xué)語言,最后沒有流行起來,不過這段經(jīng)歷影響了Guido。1989年的圣誕假期,閑得蛋疼的Guido決定設(shè)計(jì)一門簡單易用的新語言,要介于C和Shell之間,同時(shí)吸取ABC語法中的優(yōu)點(diǎn)。Guido用自己喜歡的一部喜劇電視劇來命名這門語言:《Monty Python‘s Flying Circus》。
1991年,第一版基于C實(shí)現(xiàn)的Python編譯器誕生,因?yàn)楹唵危卣剐院茫琍ython很快就在Guido的同事中大受歡迎,不久Python的核心開發(fā)人員就從Guido一人變成了一個(gè)小團(tuán)隊(duì)。后來隨著互聯(lián)網(wǎng)時(shí)代的到來,開源及社區(qū)合作的方式蓬勃發(fā)展,Python也借此上了發(fā)展的快車道。因?yàn)镻ython非常容易拓展,在不同領(lǐng)域的開發(fā)者貢獻(xiàn)下,許多受歡迎的功能和特征被開發(fā)出來,漸漸形成了各種各樣的庫,其中一部分被加入到Python的標(biāo)準(zhǔn)庫中,這讓本來就不需要過多思考底層細(xì)節(jié)的Python變得更加強(qiáng)大好用。在不過多考慮執(zhí)行效率的前提下,使用Python進(jìn)行開發(fā)的周期相比傳統(tǒng)的C/C++甚至Java等語言都大大縮短,代碼量也大幅降低,所以出bug的可能性也小了很多。因此有了語言專家Bruce Eckel的那句名言:Life is short, you need Python. 后來這句話的中文版“人生苦短,我用Python”被Guido印在了T恤上。發(fā)展至今,Python漸漸成了最流行的語言之一,在編程語言排行榜TOBIE中常年占據(jù)前5的位置。另外隨著Python的用戶群越來越壯大,慢慢在本身特點(diǎn)上發(fā)展出了自己的哲學(xué),叫做Python的禪(The Zen of Python)。遵循Python哲學(xué)的做法叫做很Python(Pythonic),具體參見:
PEP 20 — The Zen of Python
>> import this
Python擁有很好的擴(kuò)充性,可以非常輕松地用其他語言編寫模塊供調(diào)用,用Python編寫的模塊也可以通過各種方式輕松被其他語言調(diào)用。所以一種常見的Python使用方式是,底層復(fù)雜且對效率要求高的模塊用C/C++等語言實(shí)現(xiàn),頂層調(diào)用的API用Python封裝,這樣可以通過簡單的語法實(shí)現(xiàn)頂層邏輯,故而Python又被稱為“膠水語言”。這種特性的好處是,無需花費(fèi)很多時(shí)間在編程實(shí)現(xiàn)上,更多的時(shí)間可以專注于思考問題的邏輯。尤其是對做算法和深度學(xué)習(xí)的從業(yè)人員,這種方式是非常理想的,所以如今的深度學(xué)習(xí)框架中,除了MATLAB,或是Deeplearning4j這種擺明了給Java用的,其他框架基本上要么官方接口就是Python,要么支持Python接口。
安裝和使用Python
Python有兩個(gè)大版本,考慮到用戶群數(shù)量和庫的各種框架的兼容性,本文以Python2(2.7)為準(zhǔn),語法盡量考慮和Python3的兼容。
Unix/Linux下的Python基本都是系統(tǒng)自帶的,一般默認(rèn)為Python2,使用時(shí)在終端直接鍵入python就能進(jìn)入Python解釋器界面:
在解釋器下就已經(jīng)可以進(jìn)行最基本的編程了,比如:
?
寫程序的話還是需要保存成文件再執(zhí)行,比如我們寫下面語句,并且保存為helloworld.py:
print(“Hello world!”)
然后在終端里執(zhí)行:
安裝更多的python庫一般有兩種方法,第一是用系統(tǒng)的軟件包管理,以Ubuntu 16.04 LTS為例,比如想要安裝numpy庫(后面會介紹這個(gè)庫),軟件包的名字就是python-numpy,所以在終端中輸入:
>> sudo apt install python-numpy
Python自己也帶了包管理器,叫做pip,使用如下:
>> pip install numpy
安裝和深度學(xué)習(xí)相關(guān)的框架時(shí),一般來說推薦使用系統(tǒng)自帶的包管理,出現(xiàn)版本錯誤的可能性低一些。另外也可以使用一些提前配置好很多第三方庫的Python包,這些包通常已經(jīng)包含了深度學(xué)習(xí)框架中絕大多數(shù)的依賴庫,比如最常用的是Anaconda:
Download Anaconda Now!
Windows下的Python安裝簡單一些,從官方網(wǎng)站下載相應(yīng)的安裝程序就可以了,當(dāng)然也有更方便的已經(jīng)包含了很全的第三方庫的選擇,WinPython:
WinPython
并且是綠色的,直接執(zhí)行就可以用了。
Python基本語法
There should be one– and preferably only one –obvious way to do it.
對于一個(gè)特定的問題,應(yīng)該只用最好的一種方法來解決。
基本數(shù)據(jù)類型和運(yùn)算
基本數(shù)據(jù)類型
Python中最基本的數(shù)據(jù)類型包括整型,浮點(diǎn)數(shù),布爾值和字符串。類型是不需要聲明的,比如:
a = 1 # 整數(shù)
b = 1.2 # 浮點(diǎn)數(shù)
c = True # 布爾類型
d = "False" # 字符串
e = None # NoneType
其中#是行內(nèi)注釋的意思。最后一個(gè)None是NoneType,注意不是0,在Python中利用type函數(shù)可以查看一個(gè)變量的類型:
type(a) #
type(b) #
type(c) #
type(d) #
type(e) #
注釋中是執(zhí)行type()函數(shù)后的輸出結(jié)果,可以看到None是單獨(dú)的一種類型NoneType。在很多API中,如果執(zhí)行失敗就會返回None。
變量和引用
Python中基本變量的賦值一般建立的是個(gè)引用,比如下面的語句:
a = 1
b = a
c = 1
a賦值為1后,b=a執(zhí)行時(shí)并不會將a的值復(fù)制一遍,然后賦給b,而是簡單地為a所指的值,也就是1建立了一個(gè)引用,相當(dāng)于a和b都是指向包含1這個(gè)值的這塊內(nèi)存的指針。所以c=1執(zhí)行的也是個(gè)引用建立,這三個(gè)變量其實(shí)是三個(gè)引用,指向同一個(gè)值。這個(gè)邏輯雖然簡單,不過也還是常常容易弄混,這沒關(guān)系,Python內(nèi)置了id函數(shù),可以返回一個(gè)對象的地址,用id函數(shù)可以讓我們知道每個(gè)變量指向的是不是同一個(gè)值:
id(a) # 35556792L
id(b) # 35556792L
id(c) # 35556792L
注釋中表示的仍是執(zhí)行后的結(jié)果。如果這時(shí)候我們接下面兩個(gè)語句:
b = 2 # b的引用到新的一個(gè)變量上
id(b) # 35556768L
可以看到b引用到了另一個(gè)變量上。
運(yùn)算符
Python中的數(shù)值的基本運(yùn)算和C差不多,字符串的運(yùn)算更方便,下面是常見的例子:
a = 2
b = 2.3
c = 3
a + b # 2 + 2.3 = 4.3
c – a # 3 - 2 = 1
a / b # 整數(shù)除以浮點(diǎn)數(shù),運(yùn)算以浮點(diǎn)數(shù)為準(zhǔn),2 / 2.3 = 0.8695652173913044
a / c # Python2中,整數(shù)除法,向下取整 2 / 3 = 0
a ** c # a的c次方,結(jié)果為8
a += 1 # Python中沒有i++的用法,自增用+=
c -= 3 # c變成0了
d = 'Hello'
d + ' world!' # 相當(dāng)于字符串拼接,結(jié)果為'Hello world!'
d += ' "world"!'# 相當(dāng)于把字符串接在當(dāng)前字符串尾,d變?yōu)?#39;Hello "world"!'
e = r'\n\t\\'
print(e) # '\\n\\t\\\\'
需要提一下的幾點(diǎn):1)字符串用雙引號和單引號都可以,區(qū)別主要是單引號字符串中如果出現(xiàn)單引號字符則需要用轉(zhuǎn)義符,雙引號也是一樣,所以在單引號字符串中使用雙引號,或者雙引號字符串中使用單引號就會比較方便。另外三個(gè)雙引號或者三個(gè)單引號圍起來的也是字符串,因?yàn)閾Q行方便,更多用于文檔。2)Python2中兩個(gè)數(shù)值相除會根據(jù)數(shù)值類型判斷是否整數(shù)除法,Python3種則都按照浮點(diǎn)數(shù)。想要在Python2種也執(zhí)行Python3中的除法只要執(zhí)行下面語句:
from __future__ import division # 使用Python3中的除法
1 / 2
3)字符串前加r表示字符串內(nèi)容嚴(yán)格按照輸入的樣子,好處是不用轉(zhuǎn)義符了,非常方便。
Python中的布爾值和邏輯的運(yùn)算非常直接,下面是例子:
a = True
b = False
a and b # False
a or b # True
not a # False
基本上就是英語,操作符優(yōu)先級之類的和其他語言類似。Python中也有位操作:
~8 # 按位翻轉(zhuǎn),1000 --> -(1000+1)
8 >> 3 # 右移3位,1000 --> 0001
1 << 3 # 左移3位,0001 --> 1000
5 & 2 # 按位與,101 & 010 = 000
5 | 2 # 按位或,101 | 010 = 111
4 ^ 1 # 按位異或,100 ^ 001 = 101
==, !=和is
判斷是否相等或者不等的語法和C也一樣,另外在Python中也常常見到is操作符,這兩者的區(qū)別在于==和!=比較引用指向的內(nèi)存中的內(nèi)容,而is判斷兩個(gè)變量是否指向一個(gè)地址,看下面的代碼例子:
a = 1
b = 1.0
c = 1
a == b # True,值相等
a is b # False,指向的不是一個(gè)對象,這個(gè)語句等效于 id(a) == id(b)
a is c # True,指向的都是整型值1
所以一定要分清要比較的對象應(yīng)該用那種方式,對于一些特殊的情況,比如None,本著Pythonic的原則,最好用is None。
注意關(guān)鍵字
Python中,萬物皆對象。不過這并不是這里要探討的話題,想說的是一定要注意關(guān)鍵字,因?yàn)樗袞|西都是對象,所以一個(gè)簡簡單單的賦值操作就可以把系統(tǒng)內(nèi)置的函數(shù)給變成一個(gè)普通變量,來看下邊例子:
id(type) # 506070640L
type = 1 # type成了指向1的變量
id(type) # 35556792L
id = 2 # id成了指向2的變量
from __future__ import print_function
print = 3 # print成了指向3的變量
注意print是個(gè)很特殊的存在,在Python3中是按照函數(shù)用,在Python2中卻是個(gè)命令式的語句,最早print的用法其實(shí)是下邊這樣:
print "Hello world!"
這么用主要是受到ABC語法的影響,但這個(gè)用法并不Pythonic,后來加入了print函數(shù),為了兼容允許兩種用法并存。所以單純給print賦值是不靈的,在Python2中使用Python3中的一些特性都是用from __future__ import來實(shí)現(xiàn)。
模塊導(dǎo)入
因?yàn)樘岬搅藢ο竺采w和import,所以簡單講一下。import是利用Python中各種強(qiáng)大庫的基礎(chǔ),比如要計(jì)算cos(π)的值,可以有下面4種方式:
# 直接導(dǎo)入Python的內(nèi)置基礎(chǔ)數(shù)學(xué)庫
import math
print(math.cos(math.pi))
# 從math中導(dǎo)入cos函數(shù)和pi變量
from math import cos, pi
print(cos(pi))
# 如果是個(gè)模塊,在導(dǎo)入的時(shí)候可以起個(gè)別名,避免名字沖突或是方便懶得打字的人使用
import math as m
print(m.cos(m.pi))
# 從math中導(dǎo)入所有東西
from math import *
print(cos(pi))
一般來說最后一種方式不是很推薦,因?yàn)椴恢纈mport導(dǎo)入的名字里是否和現(xiàn)有對象名已經(jīng)有沖突,很可能會不知不覺覆蓋了現(xiàn)有的對象。
容器
列表
Python中的容器是異常好用且異常有用的結(jié)構(gòu)。這節(jié)主要介紹列表(list),元組(tuple),字典(dict)和集合(set)。這些結(jié)構(gòu)和其他語言中的類似結(jié)構(gòu)并無本質(zhì)不同,來看例子了解下使用:
a = [1, 2, 3, 4]
b = [1]
c = [1]
d = b
e = [1, "Hello world!", c, False]
print(id(b), id(c)) # (194100040L, 194100552L)
print(id(b), id(d)) # (194100040L, 194100040L)
print(b == c) # True
f = list("abcd")
print(f) # ['a', 'b', 'c', 'd']
g = [0]*3 + [1]*4 + [2]*2 # [0, 0, 0, 1, 1, 1, 1, 2, 2]
因?yàn)樽兞科鋵?shí)是個(gè)引用,所以對列表而言也沒什么不同,所以列表對類型沒什么限制。也正因?yàn)槿绱耍妥兞坎煌氖牵词褂孟嗤恼Z句賦值,列表的地址也是不同的,在這個(gè)例子中體現(xiàn)在id(b)和id(c)不相等,而內(nèi)容相等。列表也可以用list()初始化,輸入參數(shù)需要是一個(gè)可以遍歷的結(jié)構(gòu),其中每一個(gè)元素會作為列表的一項(xiàng)。“*”操作符對于列表而言是復(fù)制,最后一個(gè)語句用這種辦法生成了分段的列表。
列表的基本操作有訪問,增加,刪除,和拼接:
a.pop() # 把最后一個(gè)值4從列表中移除并作為pop的返回值
a.append(5) # 末尾插入值,[1, 2, 3, 5]
a.index(2) # 找到第一個(gè)2所在的位置,也就是1
a[2] # 取下標(biāo),也就是位置在2的值,也就是第三個(gè)值3
a += [4, 3, 2] # 拼接,[1, 2, 3, 5, 4, 3, 2]
a.insert(1, 0) # 在下標(biāo)為1處插入元素0,[1, 0, 2, 3, 5, 4, 3, 2]
a.remove(2) # 移除第一個(gè)2,[1, 0, 3, 5, 4, 3, 2]
a.reverse() # 倒序,a變?yōu)閇2, 3, 4, 5, 3, 0, 1]
a[3] = 9 # 指定下標(biāo)處賦值,[2, 3, 4, 9, 3, 0, 1]
b = a[2:5] # 取下標(biāo)2開始到5之前的子序列,[4, 9, 3]
c = a[2:-2] # 下標(biāo)也可以倒著數(shù),方便算不過來的人,[4, 9, 3]
d = a[2:] # 取下標(biāo)2開始到結(jié)尾的子序列,[4, 9, 3, 0, 1]
e = a[:5] # 取開始到下標(biāo)5之前的子序列,[2, 3, 4, 9, 3]
f = a[:] # 取從開頭到最后的整個(gè)子序列,相當(dāng)于值拷貝,[2, 3, 4, 9, 3, 0, 1]
a[2:-2] = [1, 2, 3] # 賦值也可以按照一段來,[2, 3, 1, 2, 3, 0, 1]
g = a[::-1] # 也是倒序,通過slicing實(shí)現(xiàn)并賦值,效率略低于reverse()
a.sort()
print(a) # 列表內(nèi)排序,a變?yōu)閇0, 1, 1, 2, 2, 3, 3]
因?yàn)榱斜硎怯许樞虻模院晚樞蛳嚓P(guān)的操作是列表中最常見的,首先我們來打亂一個(gè)列表的順序,然后再對這個(gè)列表排序:
import random
a = range(10) # 生成一個(gè)列表,從0開始+1遞增到9
print(a) # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
random.shuffle(a) # shuffle函數(shù)可以對可遍歷且可變結(jié)構(gòu)打亂順序
print(a) # [4, 3, 8, 9, 0, 6, 2, 7, 5, 1]
b = sorted(a)
print(b) # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
c = sorted(a, reverse=True)
print(c) # [9, 8, 7, 6, 5, 4, 3, 2, 1, 0]
元組
元組和列表有很多相似的地方,最大的區(qū)別在于不可變,還有如果初始化只包含一個(gè)元素的tuple和列表不一樣,因?yàn)檎Z法必須明確,所以必須在元素后加上逗號。另外直接用逗號分隔多個(gè)元素賦值默認(rèn)是個(gè)tuple,這在函數(shù)多返回值的時(shí)候很好用:
a = (1, 2)
b = tuple(['3', 4]) # 也可以從列表初始化
c = (5,)
print(c) # (5,)
d = (6)
print(d) # 6
e = 3, 4, 5
print(e) # (3, 4, 5)
集合
集合是一種很有用的數(shù)學(xué)操作,比如列表去重,或是理清兩組數(shù)據(jù)之間的關(guān)系,集合的操作符和位操作符有交集,注意不要弄混:
A = set([1, 2, 3, 4])
B = {3, 4, 5, 6}
C = set([1, 1, 2, 2, 2, 3, 3, 3, 3])
print(C) # 集合的去重效果,set([1, 2, 3])
print(A | B) # 求并集,set([1, 2, 3, 4, 5, 6])
print(A & B) # 求交集,set([3, 4])
print(A - B) # 求差集,屬于A但不屬于B的,set([1, 2])
print(B - A) # 求差集,屬于B但不屬于A的,set([5, 6])
print(A ^ B) # 求對稱差集,相當(dāng)于(A-B)|(B-A),set([1, 2, 5, 6])
字典
字典是一種非常常見的“鍵-值”(key-value)映射結(jié)構(gòu),鍵無重復(fù),一個(gè)鍵不能對應(yīng)多個(gè)值,不過多個(gè)鍵可以指向一個(gè)值。還是通過例子來了解,構(gòu)建一個(gè)名字->年齡的字典,并執(zhí)行一些常見操作:
a = {'Tom': 8, 'Jerry': 7}
print(a['Tom']) # 8
b = dict(Tom=8, Jerry=7) # 一種字符串作為鍵更方便的初始化方式
print(b['Tom']) # 8
if 'Jerry' in a: # 判斷'Jerry'是否在keys里面
print(a['Jerry']) # 7
print(a.get('Spike')) # None,通過get獲得值,即使鍵不存在也不會報(bào)異常
a['Spike'] = 10
a['Tyke'] = 3
a.update({'Tuffy': 2, 'Mammy Two Shoes': 42})
print(a.values()) # dict_values([8, 2, 3, 7, 10, 42])
print(a.pop('Mammy Two Shoes')) # 移除'Mammy Two Shoes'的鍵值對,并返回42
print(a.keys()) # dict_keys(['Tom', 'Tuffy', 'Tyke', 'Jerry', 'Spike'])
注意到初始化字典和集合很像,的確如此,集合就像是沒有值只有鍵的字典。既然有了人名到年齡的映射,也許你立馬想到是否可以給字典排序?在Python3.6之前,這個(gè)問題是錯誤的,字典是一種映射關(guān)系,沒有順序。當(dāng)然了,如果要把(鍵, 值)的這種對進(jìn)行排序,是沒有問題的,前提是先把字典轉(zhuǎn)化成可排序的結(jié)構(gòu),items()或者iteritems()可以做到這件事,接上段代碼繼續(xù):
b = a.items()
print(b) # [('Tuffy', 2), ('Spike', 10), ('Tom', 8), ('Tyke', 3), ('Jerry', 7)]
from operator import itemgetter
c = sorted(a.items(), key=itemgetter(1))
print(c) # [('Tuffy', 2), ('Tyke', 3), ('Jerry', 7), ('Tom', 8), ('Spike', 10)]
d = sorted(a.iteritems(), key=itemgetter(1))
print(d) # [('Tuffy', 2), ('Tyke', 3), ('Jerry', 7), ('Tom', 8), ('Spike', 10)]
e = sorted(a)
print(e) # 只對鍵排序,['Jerry', 'Spike', 'Tom', 'Tuffy', 'Tyke']
items()可以把字典中的鍵值對轉(zhuǎn)化成一個(gè)列表,其中每個(gè)元素是一個(gè)tuple,tuple的第一個(gè)元素是鍵,第二個(gè)元素是值。變量c是按照值排序,所以需要一個(gè)操作符itemgetter,去位置為1的元素作為排序參考,如果直接對字典排序,則其實(shí)相當(dāng)于只是對鍵排序。字典被當(dāng)作一個(gè)普通的可遍歷結(jié)構(gòu)使用時(shí),都相當(dāng)于遍歷字典的鍵。如果覺得字典沒有順序不方便,可以考慮使用OrderedDict,使用方式如下:
from collections import OrderedDict
a = {1: 2, 3: 4, 5: 6, 7: 8, 9: 10}
b = OrderedDict({1: 2, 3: 4, 5: 6, 7: 8, 9: 10})
print(a) # {1: 2, 3: 4, 9: 10, 5: 6, 7: 8}
print(b) # OrderedDict([(1, 2), (3, 4), (9, 10), (5, 6), (7, 8)])
這樣初始化時(shí)的順序就保留了,除了有序的特性以外,用法上和字典沒有區(qū)別。2016年9月,Guido宣布在Python3.6中,字典將默認(rèn)有序,這樣就不用糾結(jié)了。另外需要注意的一點(diǎn)是字典是通過哈希表實(shí)現(xiàn)的,所以鍵必須是可哈希的, list不能被哈希,所以也不能作為字典的鍵,而tuple就可以。
因?yàn)樯仙隙未a中用到了iteritems(),所以這里順帶提一下迭代器(iterator),迭代器相當(dāng)于一個(gè)函數(shù),每次調(diào)用都返回下一個(gè)元素,從遍歷的角度來看就和列表沒有區(qū)別了。iteritems()就是一個(gè)迭代器,所以效果一樣,區(qū)別是迭代器占用更少內(nèi)存,因?yàn)椴恍枰簧蟻砭蜕烧麄€(gè)列表。一般來說,如果只需要遍歷一次,用迭代器是更好的選擇,若是要多次頻繁從一個(gè)可遍歷結(jié)構(gòu)中取值,且內(nèi)存夠,則直接生成整個(gè)列表會更好。當(dāng)然,用迭代器生成一個(gè)完整列表并不麻煩,所以有個(gè)趨勢是把迭代器作為默認(rèn)的可遍歷方式,比如前面我們使用過用來生成等差數(shù)列列表的range(),在Python2中對應(yīng)的迭代器形式是xrange()。在Python3中,range()就不再產(chǎn)生一個(gè)列表了,而是作為迭代器,xrange()直接沒了。
分支和循環(huán)
從這節(jié)開始,代碼就未必適合在Python終端中輸入了,選個(gè)順手的編輯器或者IDE。作者良心推薦PyCharm,雖然慢,但好用,社區(qū)版免費(fèi):
PyCharm
for循環(huán)
上面提到的4種容器類型都是可遍歷的,所以該講講用來遍歷的for循環(huán)了。for循環(huán)的語法也是簡單的英語:
a = ['This', 'is', 'a', 'list', '!']
b = ['This', 'is', 'a', 'tuple', '!']
c = {'This': 'is', 'an': 'unordered', 'dict': '!'}
# 依次輸出:'This', 'is', 'a', 'list', '!'
for x in a:
print(x)
# 依次輸出:'This', 'is', 'a', 'tuple', '!'
for x in b:
print(x)
# 鍵的遍歷。不依次輸出:'This', 'dict', 'an'
for key in c:
print(key)
# 依次輸出0到9
for i in range(10):
print(i)
注意到每個(gè)for循環(huán)中,print都有縮進(jìn),這是Python中一個(gè)讓人愛恨交織的特點(diǎn):強(qiáng)行縮進(jìn)來表明成塊的代碼。這樣做的好處是代碼十分清晰工整,還有助于防止寫出過長的函數(shù)或者過深的嵌套,壞處是有時(shí)候不知為什么tab和空格就一起出現(xiàn)了,又或是多重if-else不知怎得就沒對齊,還是挺麻煩的。
回到for循環(huán)上,這種把每個(gè)元素拿出來的遍歷方式叫做for_each風(fēng)格,熟悉Java的話就不會陌生,C++11中也開始支持這種for循環(huán)方式。不過如果還是需要下標(biāo)呢?比如遍歷一個(gè)list的時(shí)候,希望把對應(yīng)下標(biāo)也打印出來,這時(shí)可以用enumerate:
names = ["Rick", "Daryl", "Glenn"]
# 依次輸出下標(biāo)和名字
for i, name in enumerate(names):
print(i, name)
需要注意的是,通過取下標(biāo)遍歷當(dāng)然是可行的,比如用len()函數(shù)獲得列表長度,然后用range()/xrange()函數(shù)獲得下標(biāo),但是并不推薦這樣做:
words = ["This", "is", "not", "recommended"]
# not pythonic :(
for i in xrange(len(words)):
print(words[i])
在使用for循環(huán)時(shí),有時(shí)會遇到這樣一種場景:我們需要對遍歷的每個(gè)元素進(jìn)行某種判斷,如果符合這種判斷的情況沒有發(fā)生,則執(zhí)行一個(gè)操作。舉個(gè)例子某神秘部門要審核一個(gè)字符串列表,如果沒有發(fā)現(xiàn)不和諧的字眼,則將內(nèi)容放心通過,一種解決辦法是下面這樣:
wusuowei = ["I", "don't", "give", "a", "shit"] # 無所謂
hexie = True # 默認(rèn)和諧社會
for x in wusuowei:
if x == "f**k":
print("What the f**k!") # 發(fā)現(xiàn)了不該出現(xiàn)的東西,WTF!
hexie = False # 不和諧了
break # 趕緊停下!不能再唱了
if hexie: # 未發(fā)現(xiàn)不和諧元素!
print("Harmonious society!") # 和諧社會!
這樣需要設(shè)置一個(gè)標(biāo)記是否發(fā)現(xiàn)不和諧因素的狀態(tài)變量hexie,循環(huán)結(jié)束后再根據(jù)這個(gè)變量判斷內(nèi)容是否可以放心通過。一種更簡潔不過有些小眾的做法是直接和else一起,如果for循環(huán)中的if塊內(nèi)的語句沒有被觸發(fā),則通過else執(zhí)行指定操作:
wusuowei = ["I", "don't", "give", "a", "shit"]
for x in wusuowei:
if x == "f**k":
print("What the f**k!")
hexie = False
break
else: # for循環(huán)中if內(nèi)語句未被觸發(fā)
print("Harmonious society!") # 和諧社會!
這樣不需要一個(gè)標(biāo)記是否和諧的狀態(tài)變量,語句簡潔了很多。
if和分支結(jié)構(gòu)
上一個(gè)例子中已經(jīng)出現(xiàn)if語句了,所以這部分講講if。Python的條件控制主要是三個(gè)關(guān)鍵字:if-elif-else,其中elif就是else if的意思。還是看例子:
pets =['dog', 'cat', 'droid', 'fly']
for pet in pets:
if pet == 'dog': # 狗糧
food = 'steak' # 牛排
elif pet == 'cat': # 貓糧
food = 'milk' # 牛奶
elif pet == 'droid': # 機(jī)器人
food = 'oil' # 機(jī)油
elif pet == 'fly': # 蒼蠅
food = 'sh*t' #
else:
pass
print(food)
需要提一下的是pass,這就是個(gè)空語句,什么也不做,占位用。Python并沒有switch-case的語法,等效的用法要么是像上面一樣用if-elif-else的組合,要么可以考慮字典:
pets = ['dog', 'cat', 'droid', 'fly']
food_for_pet = {
'dog': 'steak',
'cat': 'milk',
'droid': 'oil',
'fly': 'sh*t'
}
for pet in pets:
food = food_for_pet[pet] if pet in food_for_pet else None
print(food)
這里還用到了一個(gè)if-else常見的行內(nèi)應(yīng)用,就是代替三元操作符,如果鍵在字典中,則food取字典的對應(yīng)值,否則為None。
if表達(dá)式中的小技巧
通過鏈?zhǔn)奖容^讓語句簡潔:
if -1 < x < 1: # 相較于 if x > -1 and x < 1:
print('The absolute value of x is < 1')
判斷一個(gè)值是不是等于多個(gè)可能性中的一個(gè):
if x in ['piano', 'violin', 'drum']: # 相較于 if x == 'piano' or x == 'violin' or x =='drum':
print("It's an instrument!")
Python中的對象都會關(guān)聯(lián)一個(gè)真值,所以在if表達(dá)式中判斷是否為False或者是否為空的時(shí)候,是無需寫出明確的表達(dá)式的:
a = True
if a: # 判斷是否為真,相較于 a is True
print('a is True')
if 'sky': # 判斷是否空字符串,相較于 len('sky') > 0
print('birds')
if '': # 判斷是否空字符串,同上
print('Nothing!')
if {}: # 判斷是否空的容器(字典),相較于len({}) > 0
print('Nothing!')
隱式表達(dá)式為False的是如下狀況:
– None
– False
– 數(shù)值0
– 空的容器或序列(字符串也是一種序列)
– 用戶自定義類中,如果定義了__len__()或者_(dá)_nonzero__(),并且被調(diào)用后返回0或者False
while循環(huán)
while的就是循環(huán)和if的綜合體,是一種單純的基于條件的循環(huán),本身沒有遍歷的意思,這是和for_each的本質(zhì)差別,這種區(qū)別比起C/C++中要明確得多,用法如下:
i = 0
while i < 100: # 笑100遍
print("ha")
while True: # 一直笑
print("ha")
函數(shù)、生成器和類
還是從幾個(gè)例子看起:
def say_hello():
print('Hello!')
def greetings(x='Good morning!'):
print(x)
say_hello() # Hello!
greetings() # Good morning!
greetings("What's up!") # What's up!
a = greetings() # 返回值是None
def create_a_list(x, y=2, z=3): # 默認(rèn)參數(shù)項(xiàng)必須放后面
return [x, y, z]
b = create_a_list(1) # [1, 2, 3]
c = create_a_list(3, 3) # [3, 3, 3]
d = create_a_list(6, 7, 8) # [6, 7, 8]
def traverse_args(*args):
for arg in args:
print(arg)
traverse_args(1, 2, 3) # 依次打印1, 2, 3
traverse_args('A', 'B', 'C', 'D') # 依次打印A, B, C, D
def traverse_kargs(**kwargs):
for k, v in kwargs.items():
print(k, v)
traverse_kargs(x=3, y=4, z=5) # 依次打印('x', 3), ('y', 4), ('z', 5)
traverse_kargs(fighter1='Fedor', fighter2='Randleman')
def foo(x, y, *args, **kwargs):
print(x, y)
print(args)
print(kwargs)
# 第一個(gè)pring輸出(1, 2)
# 第二個(gè)print輸出(3, 4, 5)
# 第三個(gè)print輸出{'a': 3, 'b': 'bar'}
foo(1, 2, 3, 4, 5, a=6, b='bar')
其實(shí)和很多語言差不多,括號里面定義參數(shù),參數(shù)可以有默認(rèn)值,且默認(rèn)值不能在無默認(rèn)值參數(shù)之前。Python中的返回值用return定義,如果沒有定義返回值,默認(rèn)返回值是None。參數(shù)的定義可以非常靈活,可以有定義好的固定參數(shù),也可以有可變長的參數(shù)(args: arguments)和關(guān)鍵字參數(shù)(kargs: keyword arguments)。如果要把這些參數(shù)都混用,則固定參數(shù)在最前,關(guān)鍵字參數(shù)在最后。
Python中萬物皆對象,所以一些情況下函數(shù)也可以當(dāng)成一個(gè)變量似的使用。比如前面小節(jié)中提到的用字典代替switch-case的用法,有的時(shí)候我們要執(zhí)行的不是通過條件判斷得到對應(yīng)的變量,而是執(zhí)行某個(gè)動作,比如有個(gè)小機(jī)器人在坐標(biāo)(0, 0)處,我們用不同的動作控制小機(jī)器人移動:
moves = ['up', 'left', 'down', 'right']
coord = [0, 0]
for move in moves:
if move == 'up': # 向上,縱坐標(biāo)+1
coord[1] += 1
elif move == 'down': # 向下,縱坐標(biāo)-1
coord[1] -= 1
elif move == 'left': # 向左,橫坐標(biāo)-1
coord[0] -= 1
elif move == 'right': # 向右,橫坐標(biāo)+1
coord[0] += 1
else:
pass
print(coord)
不同條件下對應(yīng)的是對坐標(biāo)這個(gè)列表中的值的操作,單純的從字典取值就辦不到了,所以就把函數(shù)作為字典的值,然后用這個(gè)得到的值執(zhí)行相應(yīng)動作:
moves = ['up', 'left', 'down', 'right']
def move_up(x): # 定義向上的操作
x[1] += 1
def move_down(x): # 定義向下的操作
x[1] -= 1
def move_left(x): # 定義向左的操作
x[0] -= 1
def move_right(x): # 定義向右的操作
x[0] += 1
# 動作和執(zhí)行的函數(shù)關(guān)聯(lián)起來,函數(shù)作為鍵對應(yīng)的值
actions = {
'up': move_up,
'down': move_down,
'left': move_left,
'right': move_right
}
coord = [0, 0]
for move in moves:
actions[move](coord)
print(coord)
把函數(shù)作為值取到后,直接加一括號就能使了,這樣做之后起碼在循環(huán)部分看上去很簡潔。有點(diǎn)C里邊函數(shù)指針的意思,只不過更簡單。其實(shí)這種用法在之前講排序的時(shí)候我們已經(jīng)見過了,就是operator中的itemgetter。itemgetter(1)得到的是一個(gè)可調(diào)用對象(callable object),和返回下標(biāo)為1的元素的函數(shù)用起來是一樣的:
def get_val_at_pos_1(x):
return x[1]
heros = [
('Superman', 99),
('Batman', 100),
('Joker', 85)
]
sorted_pairs0 = sorted(heros, key=get_val_at_pos_1)
sorted_pairs1 = sorted(heros, key=lambda x: x[1])
print(sorted_pairs0)
print(sorted_pairs1)
在這個(gè)例子中我們用到了一種特殊的函數(shù):lambda表達(dá)式。Lambda表達(dá)式在Python中是一種匿名函數(shù),lambda關(guān)鍵字后面跟輸入?yún)?shù),然后冒號后面是返回值(的表達(dá)式),比如上邊例子中就是一個(gè)取下標(biāo)1元素的函數(shù)。當(dāng)然,還是那句話,萬物皆對象,給lambda表達(dá)式取名字也是一點(diǎn)問題沒有的:
some_ops = lambda x, y: x + y + x*y + x**y
some_ops(2, 3) # 2 + 3 + 2*3 + 2^3 = 19
生成器(Generator)
生成器是迭代器的一種,形式上看和函數(shù)很像,只是把return換成了yield,在每次調(diào)用的時(shí)候,都會執(zhí)行到y(tǒng)ield并返回值,同時(shí)將當(dāng)前狀態(tài)保存,等待下次執(zhí)行到y(tǒng)ield再繼續(xù):
# 從10倒數(shù)到0
def countdown(x):
while x >= 0:
yield x
x -= 1
for i in countdown(10):
print(i)
# 打印小于100的斐波那契數(shù)
def fibonacci(n):
a = 0
b = 1
while b < n:
yield b
a, b = b, a + b
for x in fibonacci(100):
print(x)
生成器和所有可迭代結(jié)構(gòu)一樣,可以通過next()函數(shù)返回下一個(gè)值,如果迭代結(jié)束了則拋出StopIteration異常:
a = fibonacci(3)
print(next(a)) # 1
print(next(a)) # 1
print(next(a)) # 2
print(next(a)) # 拋出StopIteration異常
Python3.3以上可以允許yield和return同時(shí)使用,return的是異常的說明信息:
# Python3.3以上可以return返回異常的說明
def another_fibonacci(n):
a = 0
b = 1
while b < n:
yield b
a, b = b, a + b
return "No more ..."
a = another_fibonacci(3)
print(next(a)) # 1
print(next(a)) # 1
print(next(a)) # 2
print(next(a)) # 拋出StopIteration異常并打印No more消息
類(Class)
Python中的類的概念和其他語言相比沒什么不同,比較特殊的是protected和private在Python中是沒有明確限制的,一個(gè)慣例是用單下劃線開頭的表示protected,用雙下劃線開頭的表示private:
class A:
"""Class A"""
def __init__(self, x, y, name):
self.x = x
self.y = y
self._name = name
def introduce(self):
print(self._name)
def greeting(self):
print("What's up!")
def __l2norm(self):
return self.x**2 + self.y**2
def cal_l2norm(self):
return self.__l2norm()
a = A(11, 11, 'Leonardo')
print(A.__doc__) # "Class A"
a.introduce() # "Leonardo"
a.greeting() # "What's up!"
print(a._name) # 可以正常訪問
print(a.cal_l2norm()) # 輸出11*11+11*11=242
print(a._A__l2norm()) # 仍然可以訪問,只是名字不一樣
print(a.__l2norm()) # 報(bào)錯: 'A' object has no attribute '__l2norm'
類的初始化使用的是__init__(self,),所有成員變量都是self的,所以以self.開頭。可以看到,單下劃線開頭的變量是可以直接訪問的,而雙下劃線開頭的變量則觸發(fā)了Python中一種叫做name mangling的機(jī)制,其實(shí)就是名字變了下,仍然可以通過前邊加上“_類名”的方式訪問。也就是說Python中變量的訪問權(quán)限都是靠自覺的。類定義中緊跟著類名字下一行的字符串叫做docstring,可以寫一些用于描述類的介紹,如果有定義則通過“類名.__doc__”訪問。這種前后都加雙下劃線訪問的是特殊的變量/方法,除了__doc__和__init__還有很多,這里就不展開講了。
Python中的繼承也非常簡單,最基本的繼承方式就是定義類的時(shí)候把父類往括號里一放就行了:
class B(A):
"""Class B inheritenced from A"""
def greeting(self):
print("How's going!")
b = B(12, 12, 'Flaubert')
b.introduce() # Flaubert
b.greeting() # How's going!
print(b._name()) # Flaubert
print(b._A__l2norm()) # “私有”方法,必須通過_A__l2norm訪問
map, reduce和filter
map可以用于對可遍歷結(jié)構(gòu)的每個(gè)元素執(zhí)行同樣的操作,批量操作:
map(lambda x: x**2, [1, 2, 3, 4]) # [1, 4, 9, 16]
map(lambda x, y: x + y, [1, 2, 3], [5, 6, 7]) # [6, 8, 10]
reduce則是對可遍歷結(jié)構(gòu)的元素按順序進(jìn)行兩個(gè)輸入?yún)?shù)的操作,并且每次的結(jié)果保存作為下次操作的第一個(gè)輸入?yún)?shù),還沒有遍歷的元素作為第二個(gè)輸入?yún)?shù)。這樣的結(jié)果就是把一串可遍歷的值,減少(reduce)成一個(gè)對象:
reduce(lambda x, y: x + y, [1, 2, 3, 4]) # ((1+2)+3)+4=10
filter顧名思義,根據(jù)條件對可遍歷結(jié)構(gòu)進(jìn)行篩選:
filter(lambda x: x % 2, [1, 2, 3, 4, 5]) # 篩選奇數(shù),[1, 3, 5]
需要注意的是,對于filter和map,在Python2中返回結(jié)果是列表,Python3中是生成器。
列表生成(list comprehension)
列表生成是Python2.0中加入的一種語法,可以非常方便地用來生成列表和迭代器,比如上節(jié)中map的兩個(gè)例子和filter的一個(gè)例子可以用列表生成重寫為:
[x**2 for x in [1, 2, 3, 4]] # [1, 4, 9 16]
[sum(x) for x in zip([1, 2, 3], [5, 6, 7])] # [6, 8, 10]
[x for x in [1, 2, 3, 4, 5] if x % 2] # [1, 3, 5]
zip()函數(shù)可以把多個(gè)列表關(guān)聯(lián)起來,這個(gè)例子中,通過zip()可以按順序同時(shí)輸出兩個(gè)列表對應(yīng)位置的元素對。有一點(diǎn)需要注意的是,zip()不會自動幫助判斷兩個(gè)列表是否長度一樣,所以最終的結(jié)果會以短的列表為準(zhǔn),想要以長的列表為準(zhǔn)的話可以考慮itertools模塊中的izip_longest()。如果要生成迭代器只需要把方括號換成括號,生成字典也非常容易:
iter_odd = (x for x in [1, 2, 3, 4, 5] if x % 2)
print(type(iter_odd)) #
square_dict = {x: x**2 for x in range(5)} # {0: 0, 1: 1, 2: 4, 3: 9, 4: 16}
至于列表生成和map/filter應(yīng)該優(yōu)先用哪種,這個(gè)問題很難回答,不過Python創(chuàng)始人Guido似乎不喜歡map/filter/reduce,他曾在表示過一些從函數(shù)式編程里拿來的特性是個(gè)錯誤。
字符串
Python中字符串相關(guān)的處理都非常方便,來看例子:
a = 'Life is short, you need Python'
a.lower() # 'life is short, you need Python'
a.upper() # 'LIFE IS SHORT, YOU NEED PYTHON'
a.count('i') # 2
a.find('e') # 從左向右查找'e',3
a.rfind('need') # 從右向左查找'need',19
a.replace('you', 'I') # 'Life is short, I need Python'
tokens = a.split() # ['Life', 'is', 'short,', 'you', 'need', 'Python']
b = ' '.join(tokens) # 用指定分隔符按順序把字符串列表組合成新字符串
c = a + '\n' # 加了換行符,注意+用法是字符串作為序列的用法
c.rstrip() # 右側(cè)去除換行符
[x for x in a] # 遍歷每個(gè)字符并生成由所有字符按順序構(gòu)成的列表
'Python' in a # True
Python2.6中引入了format進(jìn)行字符串格式化,相比在字符串中用%的類似C的方式,更加強(qiáng)大方便:
a = 'I’m like a {} chasing {}.'
# 按順序格式化字符串,'I’m like a dog chasing cars.'
a.format('dog', 'cars')
# 在大括號中指定參數(shù)所在位置
b = 'I prefer {1} {0} to {2} {0}'
b.format('food', 'Chinese', 'American')
# >代表右對齊,>前是要填充的字符,依次輸出:
# 000001
# 000019
# 000256
for i in [1, 19, 256]:
print('The index is {:0>6d}'.format(i))
# <代表左對齊,依次輸出:
# *---------
# ****------
# *******---
for x in ['*', '****', '*******']:
progress_bar = '{:-<10}'.format(x)
print(progress_bar)
for x in [0.0001, 1e17, 3e-18]:
print('{:.6f}'.format(x)) # 按照小數(shù)點(diǎn)后6位的浮點(diǎn)數(shù)格式
print('{:.1e}'.format(x)) # 按照小數(shù)點(diǎn)后1位的科學(xué)記數(shù)法格式
print ('{:g}'.format(x)) # 系統(tǒng)自動選擇最合適的格式
template = '{name} is {age} years old.'
c = template.format(name='Tom', age=8)) # Tom is 8 years old.
d = template.format(age=7,)# Jerry is 7 years old.
format在生成字符串和文檔的時(shí)候非常有用,更多更詳細(xì)的用法可以參考Python官網(wǎng):
7.1. string – Common string operations – Python 2.7.13 documentation
文件操作和pickle
在Python中,推薦用上下文管理器(with-as)來打開文件,IO資源的管理更加安全,而且不用老惦記著給文件執(zhí)行close()函數(shù)。還是舉例子來說明,考慮有個(gè)文件name_age.txt,里面存儲著名字和年齡的關(guān)系,格式如下:
Tom,8
Jerry,7
Tyke,3
...
讀取文件內(nèi)容并全部顯示:
with open('name_age.txt', 'r') as f: # 打開文件,讀取模式
lines = f.readlines() # 一次讀取所有行
for line in lines: # 按行格式化并顯示信息
name, age = line.rstrip().split(',')
print('{} is {} years old.'.format(name, age))
open()的第一個(gè)參數(shù)是文件名,第二個(gè)參數(shù)是模式。文件的模式一般有四種,讀取(r),寫入(w),追加(a)和讀寫(r+)。如果希望按照二進(jìn)制數(shù)據(jù)讀取,則將文件模式和b一起使用(wb, r+b…)。
再考慮一個(gè)場景,要讀取文件內(nèi)容,并把年齡和名字的順序交換存成新文件age_name.txt,這時(shí)可以同時(shí)打開兩個(gè)文件:
with open('name_age.txt', 'r') as fread, open('age_name.txt', 'w') as fwrite:
line = fread.readline()
while line:
name, age = line.rstrip().split(',')
fwrite.write('{},{}\n'.format(age, name))
line = fread.readline()
有的時(shí)候我們進(jìn)行文件操作是希望把對象進(jìn)行序列化,那么可以考慮用pickle模塊:
import pickle
lines = [
"I'm like a dog chasing cars.",
"I wouldn't know what to do if I caught one...",
"I'd just do things."
]
with open('lines.pkl', 'wb') as f: # 序列化并保存成文件
pickle.dump(lines, f)
with open('lines.pkl', 'rb') as f: # 從文件讀取并反序列化
lines_back = pickle.load(f)
print(lines_back) # 和lines一樣
注意到,序列化的時(shí)候就得使用b模式了。Python2中有個(gè)效率更高的pickle叫cPickle,用法和pickle一樣,在Python3中就只有一個(gè)pickle。
異常
相比起其他一些語言,在Python中我們可以更大膽地使用異常,因?yàn)楫惓T赑ython中是非常常見的存在,比如下面這種簡單的遍歷:
a = ['Why', 'so', 'serious', '?']
for x in a:
print(x)
當(dāng)用for進(jìn)行遍歷時(shí),會對要遍歷的對象調(diào)用iter()。這需要給對象創(chuàng)建一個(gè)迭代器用來依次返回對象中的內(nèi)容。為了能成功調(diào)用iter(),該對象要么得支持迭代協(xié)議(定義__iter__()),要么得支持序列協(xié)議(定義__getitem__())。當(dāng)遍歷結(jié)束時(shí),__iter__()或者_(dá)_getitem__()都需要拋出一個(gè)異常。__iter__()會拋出StopIteration,而__getitem__()會拋出IndexError,于是遍歷就會停止。
在深度學(xué)習(xí)中,尤其是數(shù)據(jù)準(zhǔn)備階段,常常遇到IO操作。這時(shí)候遇到異常的可能性很高,采用異常處理可以保證數(shù)據(jù)處理的過程不被中斷,并對有異常的情況進(jìn)行記錄或其他動作:
for filepath in filelist: # filelist中是文件路徑的列表
try:
with open(filepath, 'r') as f:
# 執(zhí)行數(shù)據(jù)處理的相關(guān)工作
...
print('{} is processed!'.format(filepath))
except IOError:
print('{} with IOError!'.format(filepath))
# 異常的相應(yīng)處理
...
多進(jìn)程(multiprocessing)
深度學(xué)習(xí)中對數(shù)據(jù)高效處理常常會需要并行,這時(shí)多進(jìn)程就派上了用場。考慮這樣一個(gè)場景,在數(shù)據(jù)準(zhǔn)備階段,有很多文件需要運(yùn)行一定的預(yù)處理,正好有臺多核服務(wù)器,我們希望把這些文件分成32份,并行處理:
from multiprocessing import Process#, freeze_support
def process_data(filelist):
for filepath in filelist:
print('Processing {} ...'.format(filepath))
# 處理數(shù)據(jù)
...
if __name__ == '__main__':
# 如果是在Windows下,還需要加上freeze_support()
#freeze_support()
# full_list包含了要處理的全部文件列表
...
n_total = len(full_list) # 一個(gè)遠(yuǎn)大于32的數(shù)
n_processes = 32
# 每段子列表的平均長度
length = float(n_total) / float(n_processes)
# 計(jì)算下標(biāo),盡可能均勻地劃分輸入文件列表
indices = [int(round(i*length)) for i in range(n_processes+1)]
# 生成每個(gè)進(jìn)程要處理的子文件列表
sublists = [full_list[indices[i]:indices[i+1]] for i in range(n_processes)]
# 生成進(jìn)程
processes = [Process(target=process_data, args=(x,)) for x in sublists]
# 并行處理
for p in processes:
p.start()
for p in processes:
p.join()
其中if __name__ == ‘__main__’用來標(biāo)明在import時(shí)不包含,但是作為文件執(zhí)行時(shí)運(yùn)行的語句塊。為什么不用多線程呢?簡單說就是Python中線程的并發(fā)無法有效利用多核,如果有興趣的讀者可以從下面這個(gè)鏈接看起:
GlobalInterpreterLock – Python Wiki
os模塊
深度學(xué)習(xí)中的數(shù)據(jù)多是文件,所以數(shù)據(jù)處理階段和文件相關(guān)的操作就非常重要。除了文件IO,Python中一些操作系統(tǒng)的相關(guān)功能也能夠非常方便地幫助數(shù)據(jù)處理。想象一下我們有一個(gè)文件夾叫做data,下邊有3個(gè)子文件夾叫做cat,dog和bat,里面分別是貓,狗和蝙蝠的照片。為了訓(xùn)練一個(gè)三分類模型,我們先要生成一個(gè)文件,里面每一行是文件的路徑和對應(yīng)的標(biāo)簽。定義cat是0,dog是1,bat是2,則可以通過如下腳本:
import os
# 定義文件夾名稱和標(biāo)簽的對應(yīng)關(guān)系
label_map = {
'cat': 0,
'dog': 1,
'bat': 2
}
with open('data.txt', 'w') as f:
# 遍歷所有文件,root為當(dāng)前文件夾,dirs是所有子文件夾名,files是所有文件名
for root, dirs, files in os.walk('data'):
for filename in files:
filepath = os.sep.join([root, filename]) # 獲得文件完整路徑
dirname = root.split(os.sep)[-1] # 獲取當(dāng)前文件夾名稱
label = label_map[dirname] # 得到標(biāo)簽
line = '{},{}\n'.format(filepath, label)
f.write(line)
其中,os.sep是當(dāng)前操作系統(tǒng)的路徑分隔符,在Unix/Linux中是’/’,Windows中是’\\’。有的時(shí)候我們已經(jīng)有了所有的文件在一個(gè)文件夾data下,希望獲取所有文件的名稱,則可以用os.listdir():
filenames = os.listdir('data')
os也提供了諸如拷貝,移動和修改文件名等操作。同時(shí)因?yàn)榇蟛糠稚疃葘W(xué)習(xí)框架最常見的都是在Unix/Linux下使用,并且Unix/Linux的shell已經(jīng)非常強(qiáng)大(比Windows好用太多),所以只需要用字符串格式化等方式生成shell命令的字符串,然后通過os.system()就能方便實(shí)現(xiàn)很多功能,有時(shí)比os,還有Python中另一個(gè)操作系統(tǒng)相關(guān)模塊shutil還要方便:
import os, shutil
filepath0 = 'data/bat/IMG_000001.jpg'
filepath1 = 'data/bat/IMG_000000.jpg'
# 修改文件名
os.system('mv {} {}'.format(filepath0, filepath1))
#os.rename(filepath0, filepath1)
# 創(chuàng)建文件夾
dirname = 'data_samples'
os.system('mkdir -p {}'.format(dirname))
#if not os.path.exists(dirname):
# os.mkdir(dirname)
# 拷貝文件
os.system('cp {} {}'.format(filepath1, dirname))
#shutil.copy(filepath1, dirname)
評論
查看更多