Caffe是一個深度學(xué)習(xí)框架,具有表達力強、速度快和模塊化的思想,由伯克利視覺學(xué)習(xí)中心(BVLC)和社區(qū)貢獻者開發(fā)。Yangqing Jia在加州大學(xué)伯克利分校攻讀博士期間創(chuàng)建了這個項目。
為什么選擇Caffe?
富有表現(xiàn)力的架構(gòu)鼓勵應(yīng)用和創(chuàng)新。使用Caffe,可以在配置中定義模型和優(yōu)化,不需要硬編碼。通過設(shè)置一個GPU機器訓(xùn)練標(biāo)記在CPU和GPU之間轉(zhuǎn)換,接著調(diào)配商品化集群系統(tǒng)或移動設(shè)備來完成。
代碼的可擴展性讓開發(fā)更加活躍。在Caffe項目的第一年,它就被開發(fā)者fork超過1000次,由他們完成許多重要的修改并反饋回來。多虧那些貢獻者,這個框架在代碼和模型兩方面都在追蹤最先進的技術(shù)。
速度使Caffe完美的用于研究實驗和工業(yè)開發(fā)。使用一個NVIDIA K40 GPU Caffe每天可以處理超過60M的圖像。推理過程為1ms/一幅圖像,而學(xué)習(xí)過程為4ms/一幅圖像。我們相信Caffe是現(xiàn)在可使用最快的ConvNet應(yīng)用。
社區(qū):在視覺、速度和多媒體方面,Caffe已經(jīng)有能力用于學(xué)術(shù)研究項目、啟動原型,甚至大規(guī)模的工業(yè)應(yīng)用。
安裝
在安裝之前,看一下這個手冊,記錄下平臺的一些細(xì)節(jié)。我們可以在Ubuntu 16.04-12.04、OS X10.11-10.8上通過Docker和AWS安裝和運行Caffe。官方的編譯腳本和Makefile.config編譯由社區(qū)CMake編譯補全。
逐步介紹:
Docker setup開包即用計劃
Ubuntu installation標(biāo)準(zhǔn)平臺
Debian installation使用單個命令安裝caffe
OS X installation
RHEL/CentOS/Fedora installation
Windows請參閱由Guillaume Dumont領(lǐng)導(dǎo)的Windows分支
OpenCL請參閱由Fabian Tschopp領(lǐng)導(dǎo)的OpenCL分支
AWS AMI預(yù)配置為AWS
必備條件
Caffe有幾個依賴項:
CUDA是GPU模式所需要的。
推薦使用庫版本7+和最新的驅(qū)動版本,但是6.*也可以。
5.5和5.0兼容但是被認(rèn)為是過時的。
BLAS通過ATLAS、MKL或OpenBLAS使用。
Boost>=1.55
Protobuf、glog、gflags、hdf5
可選依賴項:
OpenCV>=2.4 包括3.0
IO庫:lmdb、leveldb(注意:leveldb需要snappy)
CuDNN用于GPU加速(v5)
Pycaffe和Matcaffe接口有它們自己的需求。
對于Python Caffe:Python 2.7或Python 3.3+,numpy(>=1.7),boost條件下為boost.python
對于MATLAB Caffe:帶有mex編譯器的MATLAB。
cuDNN Caffe:為了達到最快的運行速度,Caffe通過插入式集成NVIDIA cuDNN來加速。為了提升你的Caffe模型的速度,安裝cuDNN,然后安裝Caffe時在Makefile.config中取消注釋USE_CUDNN:=1標(biāo)記。Caffe會自動進行加速。當(dāng)前版本是cuDNN v5;在舊版Caffe中支持舊版本。
CPU-only Caffe:對于cold-brewed只有CPU模式的Caffe,在Makefile.config中取消注釋CUP_ONLY :=1標(biāo)記,配置和生成沒有CUDA的Caffe。這對于云或者集中配置非常有幫助。
CUDA和BLAS
Caffe需要CUDA nvcc編譯器編譯它的GPU代碼和用于GPU操作的CUDA驅(qū)動器。可以去NUIDIA CUDA網(wǎng)站,按照那里的安裝說明安裝CUDA。分別安裝庫和最新的獨立驅(qū)動器;驅(qū)動器和庫捆綁在一起通常是過時的。警告!331.*CUDA驅(qū)動器序列有嚴(yán)重的性能問題,不要使用它。
為獲得最佳性能,Caffe可以通過NVIDIA cuDNN加速。在cuDNN網(wǎng)站上免費注冊、安裝,然后繼續(xù)根據(jù)安裝說明操作。編譯cuDNN時在你的Makefile.config中設(shè)置USE_CUDNN :=1標(biāo)記。
Caffe需要BLAS作為它的矩陣和向量計算的后端。有幾個這個庫的實現(xiàn)工具。你可以選擇:
ATLAS:免費、開源、默認(rèn)用于Caffe。
Intel MKL:商業(yè)的,針對Intel CPUs進行了優(yōu)化,可以免費試用,也可以獲得學(xué)生授權(quán)。
安裝MKL。
設(shè)置MKL環(huán)境變量(細(xì)節(jié):Linux,OS X)。例如:source /opt/intel/mkl/bin/mklvars.sh intel64
在Makefile.config中設(shè)置BLAS := mkl
OpenBLAS:免費并開源;安裝這個優(yōu)化的并行的BLAS需要更多的工作量,雖然它可能提供加速。
安裝OpenBLAS
在config中設(shè)置BLAS :=open
Python 和 MATLAB Caffe(可選)
Python
主要依賴numpy和boost.python(由boost提供)。Pandas也很有用,而且一些例子中需要它。
你可以使用下面的命令安裝依賴項。
Python
1 | forreqin$(catrequirements.txt);dopipinstall$req;done |
但是,建議先安裝Anaconda Python發(fā)行包,它可以提供大多數(shù)必需的包和hdf5庫依賴項。
在安裝結(jié)束后導(dǎo)入caffe Python模塊,通過諸如export PYTHONPATH=/path/to/caffe/python:$PYTHONPATH添加模塊目錄到你的$PYTHONPATH。不應(yīng)該在caffe/python/caffe目錄中導(dǎo)入模塊。
Caffe’s Python接口在Python2.7中工作。Python3.3+應(yīng)該立即可以使用,不需要protobuf支持。對于protobuf支持請安裝protobuf 3.0 alpha (https://developers.google.com/protocol-buffers/)。早期版本的Python需要自行探索安裝方法。
MATLAB
安裝MATLAB,確保$PATH中已加入mex。
Caffe的MATLAB接口可以在版本2015a、2014a/b、2013a/b和2012b中工作。
編譯
Caffe可以使用Make或CMake編譯。Make是官方支持,CMake由社區(qū)支持。
使用Make編譯
通過復(fù)制和修改示例Makefile.config為安裝配置生成文件。默認(rèn)值應(yīng)該可以工作,但是如果使用Anaconda Python,要取消注釋對應(yīng)的代碼行。
Python
1 2 3 4 5 |
cpMakefile.config.exampleMakefile.config # Adjust Makefile.config (for example, if using Anaconda Python, or if cuDNN is desired) makeall maketest makeruntest |
對于CPU&GPU加速的Caffe,不需要改變。
對于使用NVIDIA私有的cuDNN軟件的cuDNN加速器,取消注釋Makefile.config中的USE_CUDNN :=1。cuDNN有時比Caffe的GPU加速器速度快,但不是一貫如此。
對于只有CPU的Caffe,取消注釋Makefile.config中的CPU_ONLY :=1。
為了編譯Python和MATLAB包裝類,分別執(zhí)行make pycaffe和make matcaffe。確保先在Makefile.config中設(shè)置你的MATLAB和Python路徑。
分配:運行make distribute,創(chuàng)建一個帶有所有Caffe頭文件的distribute目錄,編譯庫、二進制文件等。為分配到其他機器所需。
速度:為了快速的生成,通過運行make all –j8并行編譯,其中8是并行編譯線程的數(shù)量(線程數(shù)量最好選擇機器內(nèi)核的數(shù)量)。
安裝好Caffe后,檢查MNIST教程和ImageNet模型教程。
CMake編譯
在手動編輯Makefile.config的地方配置編譯文件,Caffe提供一個非官方的CMake編譯,感謝一些社區(qū)成員。需要CMAke版本>=2.8.7。基本步驟如下所示:
Python
1 2 3 4 5 6 |
mkdirbuild cdbuild cmake.. makeall makeinstall makeruntest |
ImageNet訓(xùn)練網(wǎng)絡(luò)
這個教程是為了讓你準(zhǔn)備好使用自己的數(shù)據(jù)訓(xùn)練自己的模型。如果你想要一個ImageNet訓(xùn)練網(wǎng)絡(luò),那么請注意訓(xùn)練會消耗大量的能源,而我們討厭全球變暖,所以我們提供CaffeNet模型作為下面model zoo中的訓(xùn)練模型。
數(shù)據(jù)準(zhǔn)備
本文指出所有的路徑,并假設(shè)所有的命令在caffe根目錄執(zhí)行。
ImageNet,我們這里的意思是ILSVRC12挑戰(zhàn)賽,但是你可以輕松訓(xùn)練整個ImageNet,只是需要更多的磁盤控件和稍微多一點的訓(xùn)練時間。
我們假設(shè)你已經(jīng)下載了ImageNet訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù),它們存儲在你的磁盤中如下位置:
Python
1 2 |
/path/to/imagenet/train/n01440764/n01440764_10026.JPEG /path/to/imagenet/val/ILSVRC2012_val_00000001.JPEG |
首先,你需要準(zhǔn)備一些用于訓(xùn)練的輔助數(shù)據(jù)。這些數(shù)據(jù)可以這樣下載。
Python
1 | ./data/ilsvrc12/get_ilsvrc_aux.sh |
訓(xùn)練和驗證輸入數(shù)據(jù)分別為train.txt和val.txt,使用文本文件列出所有文件和它們的標(biāo)簽。注意我們對標(biāo)簽使用同ILSVRC devkit不同的索引:我們按照ASCII碼排序這些同義詞組的名字,從0到999標(biāo)記它們。在synset_works.txt中查看同義詞組和名字的映射。
你可能想要預(yù)先調(diào)整圖像的大小為256*256。默認(rèn)情況下,我們不需要顯示的做這個,因為在集群環(huán)境中,一個好處是可以并行調(diào)整圖像大小,并使用分布式編程環(huán)境。例如,Yangqing使用他的輕量級mincepie包。如果你想要事情更簡單,你也可以像這樣使用shell命令:
Python
1 2 3 |
fornamein/path/to/imagenet/val/*.JPEG;do convert-resize256x256\!$name$name done |
看一下examples/imagenet/create_imagenet.sh。根據(jù)需要設(shè)置路徑為訓(xùn)練和驗證目錄,同時設(shè)置“RESIZE=true”調(diào)整所有圖像的大小為256*256,如果你沒有提前調(diào)整圖像。現(xiàn)在只使用examples/imagenet/create_imagenet.sh創(chuàng)建leveldbs。注意,examples/imagenet/ilsvrc12_train_leveldb和examples/imagenet/ilsvrc12_val_leveldb不應(yīng)該在執(zhí)行前存在。它由腳本創(chuàng)建。GLOG_logtostderr=1僅僅傳送更多的信息給你觀察,你可以安全地忽視它。
計算圖像平均值
模型需要我們從每幅圖像中減去圖像平均值,所以我們必須計算平均值。tools/compute_image_mean.cpp完成這些,它也是一個熟悉怎樣操縱多個組件很好的例子,例如協(xié)議緩存、leveldbs和登錄,如果你不熟悉它們的話。總之,平均值計算可以這樣做:
Python
1 | ./examples/imagenet/make_imagenet_mean.sh |
結(jié)果會生成data/ilsvrc12/imagenet_mean.binaryproto.
模型定義
我們將描述Krizhevsky、Sutskever和Hinton在NIPS 2012的文章中第一次提出這個方法的參考實例。
網(wǎng)絡(luò)定義(models/bvlc_reference_caffenet/train_val.prototxt)遵循Krizhevsky等人的定義。注意,如果偏離了本文建議的文件路徑,你需要在.prototxt文件中調(diào)整相關(guān)路徑。
如果你認(rèn)真看了models/bvlc_reference_caffenet/train_val.prototxt,你會注意到幾個指定phase: TRAIN或phase: TEST的include部分。這部分允許我們在一個文件中定義兩個非常相關(guān)的網(wǎng)絡(luò):一個網(wǎng)絡(luò)用于訓(xùn)練,另一個網(wǎng)絡(luò)用于測試。這兩個網(wǎng)絡(luò)幾乎是相同的,分享所有的層,除了那些標(biāo)記為include { phase: TRAIN } 或 include { phase: TEST }的層。在這種情況下,只有輸入層和一個輸出層是不同的。
輸入層的不同:訓(xùn)練網(wǎng)絡(luò)數(shù)據(jù)的輸入層從examples/imagenet/ilsvrc12_train_leveldb中提取數(shù)據(jù),隨機的映射到輸入圖像。測試網(wǎng)絡(luò)的數(shù)據(jù)層從examples/imagenet/ilsvrc12_val_leveldb中獲得數(shù)據(jù),不執(zhí)行隨機映射。
輸出層的不同:兩個網(wǎng)絡(luò)都輸出softmax_loss層,它在訓(xùn)練網(wǎng)絡(luò)中用于計算損失函數(shù),并初始化反向傳播算法,而在驗證過程只是簡單的報告這個損失。測試網(wǎng)絡(luò)還有第二個輸出層,accuracy,它用于報告測試集的準(zhǔn)確度。在訓(xùn)練過程,測試網(wǎng)絡(luò)偶爾在測試集上被實例化并測試,產(chǎn)生代碼行如Test score #0: xxx 和 Test score #1: xxx。在這里score0是準(zhǔn)確度(對于未訓(xùn)練的網(wǎng)絡(luò)將從1/1000=0.001開始),score1是損失(對于未訓(xùn)練的網(wǎng)絡(luò)將從7附近開始)。
我們也將設(shè)計一個協(xié)議緩存用于運行求解。讓我們做幾個計劃:
我們將以256個為一組,運行總共450000次迭代(大約90個最大訓(xùn)練次數(shù))。
每1000次迭代,我們使用驗證數(shù)據(jù)測試學(xué)習(xí)網(wǎng)絡(luò)。
我們設(shè)置初始學(xué)習(xí)速率為0.01,每100000次迭代后減小它(大概20個最大訓(xùn)練次數(shù))。
每20個迭代顯示一次信息。
這個訓(xùn)練網(wǎng)絡(luò)的動量為0.9,權(quán)重衰減為0.0005.
每10000次迭代,我們會簡要說明當(dāng)前狀態(tài)。
聽起來不錯吧?這是在models/bvlc_reference_caffenet/solver.prototxt.中完成的。
訓(xùn)練ImageNet
準(zhǔn)備好了嗎?我們開始訓(xùn)練。
Python
1 | ./build/tools/caffetrain--solver=models/bvlc_reference_caffenet/solver.prototxt |
在一個K40機器上,每20次迭代大概需要運行26.5秒(在K20上為36秒),所以實際上每幅圖像完成完全前后向移動采集數(shù)據(jù)為5.2ms。大概2ms向前,其余時間向后。如果你對仔細(xì)分析計算時間感興趣,你可以運行
Python
1 | ./build/tools/caffetime--model=models/bvlc_reference_caffenet/train_val.prototxt |
繼續(xù)訓(xùn)練?
我們都經(jīng)歷過停電,或者我們想要稍微獎勵自己一下,玩一會兒Battlefield(還有人記得Quake嗎?)。因為我們在訓(xùn)練時截取中間結(jié)果,所以我們可以從截圖位置繼續(xù)訓(xùn)練。這可以很容易的完成,像這樣:
Python
1 2 |
./build/tools/caffetrain--solver=models/bvlc_reference_caffenet/solver.prototxt— snapshot=models/bvlc_reference_caffenet/caffenet_train_iter_10000.solverstate |
其中腳本caffenet_train_iter_10000.solverstate是存儲所有所需信息的求解狀態(tài)簡介,可以用來恢復(fù)為準(zhǔn)確的求解狀態(tài)(包括參數(shù)、動量歷史等)。
結(jié)語
因為你有了已訓(xùn)練網(wǎng)絡(luò),查看怎樣使用Python接口分類圖像。
分類ImageNet:使用C++接口
Caffe,它的內(nèi)核是用C++寫的。可以使用Caffe的C++接口去完成類似上個例子中Python代碼展示的圖像分類應(yīng)用。為了查看Caffe C++ API更通用的示例,你應(yīng)該學(xué)習(xí)tools/caffe.cpp中的命令行工具caffe的源代碼。
介紹
文件examples/cpp_classification/classification.cpp給出了簡單的C++代碼。為了簡單起見,這個例子不支持單一樣本過采樣,也不支持多個獨立樣本的批處理。這個例子不是試圖達到系統(tǒng)吞吐量的最大可能分類,而是特別注意在保持代碼可讀性的同時避免不必要的劣化。
編譯
這個C++示例是在編譯Caffe時自動生成。遵循文檔說明編譯Caffe,在build目錄中這個分類示例被生成為examples/classification.bin。
用途
想要使用預(yù)先訓(xùn)練的CaffeNet模型分類示例,需要先從“Model Zoo”中下載。使用腳本:
Python
1 | ./scripts/download_model_binary.pymodels/bvlc_reference_caffenet |
ImageNet標(biāo)簽文件(也叫同義詞組文件)也是需要的,用于將預(yù)測類別映射到類別名:
C++
1 | ./data/ilsvrc12/get_ilsvrc_aux.sh |
使用這些下載的文件,我們可以分類預(yù)先準(zhǔn)備的貓圖像(examples/images/cat.jpg),使用命令:
C++
1 2 3 4 5 6 |
./build/examples/cpp_classification/classification.bin\ models/bvlc_reference_caffenet/deploy.prototxt\ models/bvlc_reference_caffenet/bvlc_reference_caffenet.caffemodel\ data/ilsvrc12/imagenet_mean.binaryproto\ data/ilsvrc12/synset_words.txt\ examples/images/cat.jpg |
輸出應(yīng)該是:
C++
1 2 3 4 5 6 7 8 9 10 11 |
----------Predictionforexamples/images/cat.jpg---------- 0.3134-"n02123045 tabby, tabby cat" 0.2380-"n02123159 tiger cat" 0.1235-"n02124075 Egyptian cat" 0.1003-"n02119022 red fox, Vulpes vulpes" 0.0715-"n02127052 lynx, catamount" |
提高性能
為了進一步提高性能,你需要更多的利用GPU,這里是一些準(zhǔn)則:
盡早將數(shù)據(jù)轉(zhuǎn)移到GPU上,在這里完成所有的預(yù)處理操作。
如果你同時分類許多圖像,應(yīng)該使用批處理(許多獨立圖像在一次運行中被分類)。
使用多線程分類確保GPU被充分利用,不要等待I/O阻塞CPU線程。
-
多媒體
+關(guān)注
關(guān)注
0文章
495瀏覽量
36943 -
C++
+關(guān)注
關(guān)注
22文章
2104瀏覽量
73497 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5493瀏覽量
120979
發(fā)布評論請先 登錄
相關(guān)推薦
評論