NumPy 是什么?它是大名鼎鼎的使用 Python 進行科學計算的基礎軟件包,是 Python 生態(tài)系統(tǒng)中數(shù)據(jù)分析、機器學習、科學計算的主力軍,極大簡化了向量與矩陣的操作處理。除了計算外,它還包括了:
功能強大的 N 維數(shù)組對象。
精密廣播功能函數(shù)。
強大的線性代數(shù)、傅立葉變換和隨機數(shù)功能
今日,NumPy 核心開發(fā)團隊的論文終于在 Nature 上發(fā)表,詳細介紹了使用 NumPy 的數(shù)組編程(Array programming)。這篇綜述論文的發(fā)表距離 NumPy 誕生已經(jīng)過去了 15 年。
論文地址:https://www.nature.com/articles/s41586-020-2649-2 NumPy 官方團隊在 Twitter 上簡要概括了這篇論文的核心內(nèi)容:
NumPy 為數(shù)組編程提供了簡明易懂、表達力強的高級 API,同時還考慮了維持快速運算的底層機制。 NumPy 提供的數(shù)組編程基礎和生態(tài)系統(tǒng)中的大量工具結合,形成了適合探索性數(shù)據(jù)分析的完美交互環(huán)境。NumPy 還包括增強與 PyTorch、Dask 和 JAX 等外部庫互操作性的協(xié)議。 基于這些特性,NumPy 為張量計算提供了標準的 API,成為 Python 中不同數(shù)組技術之間的核心協(xié)調(diào)機制。
接下來,我們來看這篇 NumPy 綜述論文的詳細內(nèi)容。 論文摘要 數(shù)組編程為訪問、操縱和計算向量、矩陣和高維數(shù)組中的數(shù)據(jù)提供了功能強大、緊湊且表達力強的語法。NumPy 是 Python 語言的主要數(shù)組編程庫,它在物理、化學、天文學、地球科學、生物學、心理學、材料科學、工程學、金融和經(jīng)濟學等領域的研究分析中都起著至關重要的作用。例如,在天文學中,NumPy 是發(fā)現(xiàn)引力波和黑洞首次成像的軟件棧中的重要部分。 這篇論文回顧了一些基本的數(shù)組概念,以及它們?nèi)绾涡纬梢环N簡單而強大的編程范式,使其能夠用于組織、探索和分析科學數(shù)據(jù)。NumPy 是構建科學 Python 生態(tài)系統(tǒng)的基礎。它的應用十分普遍,一些面向特殊需求受眾的項目已經(jīng)開發(fā)出自己的類 NumPy 接口和數(shù)組對象。 由于其在 Python 生態(tài)系統(tǒng)中的核心地位,NumPy 越來越多地充當數(shù)組計算庫之間的互操作層,并且和其 API 一起提供了靈活的框架,以支持未來十年的科學和工業(yè)分析。 NumPy 的演變史 在 NumPy 之前,已經(jīng)出現(xiàn)了兩個 Python 數(shù)組包。Numeric 包開發(fā)于 20 世紀 90 年代中期,它提供了 Python 中的數(shù)組對象和 array-aware 函數(shù)。Numeric 是用 C 語言寫的,并鏈接到線性代數(shù)的標準快速實現(xiàn)。其最早的應用之一是美國勞倫斯利弗莫爾國家實驗室的慣性約束核聚變研究。 為了處理來自哈勃太空望遠鏡的大型天文圖像,Numeric 被重實現(xiàn)為 Numarray,它添加了對結構化數(shù)組、靈活 indexing、內(nèi)存映射、字節(jié)序變體、更高效的內(nèi)存使用以及更好的類型轉(zhuǎn)換規(guī)則的支持。 盡管 Numarray 與 Numeric 高度兼容,但這兩個包之間的差異足以將社區(qū)開發(fā)者分為兩類。而 2005 年,NumPy 的出現(xiàn)完美地統(tǒng)一了這兩個包,它將 Numarray 的功能和 Numeric 的 small-array 性能及其豐富的 C API 結合起來。 如今,15 年過去了,NumPy 幾乎支持所有進行科學和數(shù)值計算的 Python 庫(包括 SciPy、Matplotlib、pandas、scikit-learn 和 scikit-image)。NumPy 是一個社區(qū)開發(fā)的開源庫,它提供了多維 Python 數(shù)組對象以及對其進行操作的 array-aware 函數(shù)。由于其固有的簡潔性,事實上 NumPy 數(shù)組已經(jīng)成為 Python 中數(shù)組數(shù)據(jù)的交換格式。 NumPy 使用 CPU 對內(nèi)存內(nèi)(in-memory)數(shù)組進行操作。為了利用現(xiàn)代的專用存儲和硬件,最近已經(jīng)擴展出一系列 Python 數(shù)組包。與 Numarray–Numeric 之間存在較大差異的情況不同,現(xiàn)在的這些新庫很難在社區(qū)開發(fā)者中引起分歧,因為它們都是建立在 NumPy 之上的。但是,為了使社區(qū)能夠使用新的探索性技術,NumPy 正在過渡為核心協(xié)調(diào)機制,該機制規(guī)劃了良好定義的數(shù)組編程 API,并在合適的時候?qū)⑵浞职l(fā)給專門的數(shù)組實現(xiàn)。 NumPy 數(shù)組 NumPy 數(shù)組是一種能夠高效存儲和訪問多維數(shù)組的數(shù)據(jù)結構,支持廣泛類型的科學計算。NumPy 數(shù)組包括指針和用于解釋存儲數(shù)據(jù)的元數(shù)據(jù),即 data type(數(shù)據(jù)類型)、shape(形狀)和 strides(步幅),參見下圖 1a。
圖 1:NumPy 數(shù)組包括多種基礎數(shù)組概念。 數(shù)據(jù)類型描述了數(shù)組中存儲元素的本質(zhì)。一個數(shù)組只有一個數(shù)據(jù)類型,數(shù)組中的每個元素在內(nèi)存中占用的字節(jié)數(shù)是一樣的。數(shù)據(jù)類型包括實數(shù)、復數(shù)、字符串、timestamp 和指針等。 數(shù)組的形狀決定了每個軸上的元素數(shù)量,軸的數(shù)量即為數(shù)組的維數(shù)。例如,數(shù)字向量可存儲為形狀為 N 的一維數(shù)組,而彩色視頻是形狀為 (T, M, N, 3) 的四維數(shù)組。 步幅是解釋計算機內(nèi)存的必要組件,它可以線性地存儲元素。步幅描述了在內(nèi)存中逐行逐列移動時所需的字節(jié)數(shù)。例如,形狀為 (4, 3) 的二維浮點數(shù)數(shù)組,它其中的每個元素均在內(nèi)存中占用 8 個字節(jié)數(shù)。要想在連續(xù)列之間移動,我們需要在內(nèi)存中前進 8 個字節(jié)數(shù),要想到達下一行,則需要前進 3 × 8 = 24 個字節(jié)數(shù)。因此該數(shù)組的步幅為 (24, 8)。NumPy 可以用 C 或 Fortran 的內(nèi)存順序存儲數(shù)組,沿著行或列遍歷。這使得使用這些語言寫的外部庫可以直接訪問內(nèi)存中的 NumPy 數(shù)組數(shù)據(jù)。 用戶使用「indexing」(訪問子數(shù)組或單個元素)、「operators」(各種運算符)和「array-aware function」與 NumPy 數(shù)組進行交互。它們?yōu)?NumPy 數(shù)組編程提供了簡明易懂、表達力強的高級 API,同時還考慮了維持快速運算的底層機制。 對數(shù)組執(zhí)行 indexing 將返回單個元素、子數(shù)組或滿足特定條件的元素(參見上圖 1b)。數(shù)組甚至還可以用其他數(shù)組進行 indexing(參加圖 1c)。返回子數(shù)組的 indexing 還可以返回原始數(shù)組的「view」,以便在兩個數(shù)組之間共享數(shù)據(jù)。這就為內(nèi)存有限的情況下基于數(shù)組數(shù)據(jù)子集進行運算提供了一種強大的方式。 為了補充數(shù)組語法,NumPy 還包括對數(shù)組執(zhí)行向量化計算的函數(shù),包括 arithmetic、statistics 和 trigonometry(參見圖 1d)。向量化計算基于整個數(shù)組運行而不是其中的單個元素,這對于數(shù)組編程而言是必要的。這意味著,在 C 等語言中需要幾十行才能表達的運算在這里只需一個清晰的 Python 表達式即可實現(xiàn)。這就帶來了簡潔的代碼,并使得用戶不必關注分析細節(jié),同時 NumPy 以接近最優(yōu)的方式循環(huán)遍歷數(shù)組元素。 對兩個形狀相同的數(shù)組執(zhí)行向量化計算(如加法)時,接下來會發(fā)生什么是很明確的。而「broadcasting」機制允許 NumPy 處理維度不同的數(shù)組之間的運算,例如向數(shù)組添加一個標量值。broadcasting 還能泛化至更復雜的示例,如縮放數(shù)組的每一列或生成坐標網(wǎng)格。在 broadcasting 中,單個或兩個數(shù)組可以重疊(沒有從內(nèi)存中復制任何數(shù)據(jù)),使得 operands 的形狀匹配(參見圖 1d)。 其他 array-aware function(如加、求平均值、求最大值)都是執(zhí)行逐元素的「reduction」,累積單個數(shù)組的一個、多個或所有軸上的結果。例如,將一個 n 維數(shù)組與 d 個軸進行累加,得到維度為 n ? d 的數(shù)組(參見圖 1f)。 NumPy 還包含可以創(chuàng)建、reshaping、concatenating 和 padding 數(shù)組,執(zhí)行數(shù)據(jù)排序和計數(shù),讀取和寫入文件的 array-aware function。這為生成偽隨機數(shù)提供了大量支持,它還可以使用 OpenBLAS 或 Intel MKL 等后端執(zhí)行加速線性代數(shù)。 總之,內(nèi)存內(nèi)的數(shù)組表示、緊密貼近數(shù)學的語法和多種 array-aware function 共同構成了生產(chǎn)力強、表達力強的數(shù)組編程語言。 科學 Python 生態(tài)系統(tǒng) Python 是一個開源、通用的解釋型編程語言,非常適合數(shù)據(jù)清洗、與 web 資源交互和解析文本之類的標準編程任務。添加快速數(shù)組操作和線性代數(shù)能夠讓科學家在一種編程語言中完成所有的工作。 盡管 NumPy 不是 Python 標準庫的一部分,但它也從與 Python 開發(fā)者的良好關系中受益。在過去這些年中,Python 語言已經(jīng)加入了一些新的功能和特殊的語法,以便 NumPy 具備更加簡潔和易于閱讀的數(shù)組表示法。但是,由于 NumPy 不是 Python 標準庫的一部分,所以它能夠規(guī)定自己的發(fā)布策略和開發(fā)模式。 從發(fā)展史、開發(fā)和應用的角度來看,SciPy 和 Matplotlib 與 NumPy 聯(lián)系緊密。SciPy 為科學計算提供了基礎算法,包括數(shù)學、科學和工程程序。Matplotlib 生成可發(fā)表品質(zhì)的圖表和可視化文件。NumPy、SciPy 和 Matplotlib 的結合,再加上 IPython、Jupyter 這類高級交互環(huán)境,為 Python 中的數(shù)組編程提供了堅實的基礎。 如圖 2 所示,科學 Python 生態(tài)系統(tǒng)建立在上述基礎之上,它提供了多種廣泛應用的專有技術庫,而這又是眾多領域特定項目的基礎。NumPy 是這一 array-aware 庫生態(tài)系統(tǒng)的基礎,它設置了文檔標準、提供了數(shù)組測試基礎結構,并增加了對 Fortran 等編譯器的構建支持。
圖 2:NumPy 是科學 Python 生態(tài)系統(tǒng)的基礎。 很多研究團隊設計出大型、復雜的科學庫,這些庫為 Python 生態(tài)系統(tǒng)增添了特定于具體應用的功能。例如,由事件視界望遠鏡(Event Horizon Telescope, EHT)合作項目開發(fā)的 eht-imaging 庫依賴科學 Python 生態(tài)系統(tǒng)的很多低級組件。而 EHT 合作項目利用該庫捕獲了黑洞的首張圖像。 在 eht-imaging 庫中,NumPy 數(shù)組在流程鏈的每一步存儲和操縱數(shù)值數(shù)據(jù)。 基于數(shù)組編程創(chuàng)建的交互式環(huán)境及其周邊的工具生態(tài)系統(tǒng)(IPython 或 Jupyter 內(nèi)部)完美適用于探索性數(shù)據(jù)分析。用戶可以流暢地檢查、操縱和可視化他們的數(shù)據(jù),并快速迭代以改善編程語句。然后,將這些語句拼接入命令式或函數(shù)式程序,或包含計算和敘述的 notebook。 超出探索性研究的科學計算通常在文本編輯器或 Spyder 等集成開發(fā)環(huán)境(IDE)中完成。這一豐富和高產(chǎn)的環(huán)境使 Python 在科學研究界流行開來。 為了給探索性研究和快速原型提供補充支持,NumPy 形成了使用經(jīng)過時間檢驗的軟件工程實踐來提升協(xié)作、減少誤差的文化。這種文化不僅獲得了項目領導者的采納,而且還被傳授給初學者。NumPy 團隊很早就采用分布式版本控制和代碼審查機制來改善代碼協(xié)同,并使用持續(xù)測試對 NumPy 的每個提議更改運行大量自動化測試。 這種使用最佳實踐來制作可信賴科學軟件的文化已經(jīng)被基于 NumPy 構建的生態(tài)系統(tǒng)所采用。例如,在近期英國皇家天文學會授予 Astropy 的一項獎項中表示:「Astropy 項目為數(shù)百名初級科學家提供了專業(yè)水平的軟件開發(fā)實踐,包括版本控制使用、單元測試、代碼審查和問題追蹤程序等。這對于現(xiàn)代研究人員而言是一項重要的技能組合,但物理或天文學專業(yè)的正規(guī)大學教育卻常常忽略這一點。」社區(qū)成員通過課程和研討會來彌補正規(guī)教育中的這一缺失。 近來數(shù)據(jù)科學、機器學習和人工智能的快速發(fā)展進一步大幅提升了 Python 的科學使用。Python 的重要應用,如 eht-imaging 庫,現(xiàn)已存在于自然和社會科學的幾乎每個學科之中。這些工具已經(jīng)成為很多領域主要的軟件環(huán)境。大學課程、新手培訓營和暑期班通常教授 NumPy 及其生態(tài)系統(tǒng),它們也成為世界各地社區(qū)會議和研討會的焦點。NumPy 和它的 API 已經(jīng)無處不在了。 數(shù)組激增和互操作性 NumPy 在 CPU 上提供了內(nèi)存內(nèi)、多維和均勻鍵入(即單一指向和跨步的)的數(shù)組。NumPy 可以在嵌入式設備和世界上最大的超級計算機等機器上運行,其性能接近編譯語言。在大多數(shù)情況下,NumPy 解決了絕大部分的數(shù)組計算用例。 但是現(xiàn)在,科學數(shù)據(jù)集通常超出單個機器的存儲容量,并且可以在多個機器或云上存儲。此外,近來深度學習和人工智能應用的加速需求已經(jīng)促生了專用加速器硬件,包括 GPU、TPU 和 FPGA。目前,由于 NumPy 具有的內(nèi)存內(nèi)數(shù)據(jù)模型,它無法直接使用這類存儲和專用硬件。 然而,GPU、TPU 和 FPGA 的分布式數(shù)據(jù)和并行執(zhí)行能夠很好地映射到數(shù)組編程范式,所以可用的現(xiàn)代硬件架構與利用它們的計算能力所必需的工具之間存在著差距。 社區(qū)為彌補這一差距做出的努力使得新的數(shù)組實現(xiàn)激增。例如,每個深度學習框架都創(chuàng)建了自己的數(shù)組。PyTorch、TensorFlow、Apache MXNet 和 JAX 數(shù)組都有能力以分布式方式在 CPU 和 GPU 上運行,其中使用惰性計算(lazy evaluation)實現(xiàn)額外性能優(yōu)化。SciPy 和 PyData/Sparse 都提供有稀疏數(shù)組,這些數(shù)組通常包含很少的非零值,并只在內(nèi)存中存儲以提升效率。 此外,還有一些項目在 NumPy 數(shù)組上構建作為數(shù)據(jù)容器,并擴展相應功能。Dask 通過這種方式使分布式數(shù)組成為可能,而標記數(shù)組是通過 xarray 實現(xiàn)的。 這類庫常常模仿 NumPy API,以降低初學者準入門檻,并為更廣泛的社區(qū)提供穩(wěn)定的數(shù)組編程接口。這反過來也會阻止一些破壞性分立(disruptive schism),如 Numeric 和 Numarray 之間的差異。 但是探索使用數(shù)組的新方法從本質(zhì)上講是試驗性的,事實上,Theano 和 Caffe 等一些有前途的庫已經(jīng)停止了開發(fā)。每當用戶決定嘗試一項新技術時,他們必須更改 import 語句,并確保新庫能夠?qū)崿F(xiàn)他們當前使用的所有 NumPy API 部件。 在理想狀態(tài)下,用戶可以通過 NumPy 函數(shù)或語義在專用數(shù)組上進行操作,這樣他們可以編寫一次代碼,然后從 NumPy 數(shù)組、GPU 數(shù)組、分布式數(shù)組以及其他數(shù)組之間的切換中獲益。為了支持外部數(shù)組對象之間的數(shù)組操作,NumPy 增加了一項充當核心協(xié)調(diào)機制的功能,并提供指定的 API,具體如上圖 2 所示。 為了促進這種互操作性,NumPy 提供了允許專用數(shù)組傳遞給 NumPy 函數(shù)的「協(xié)議」,具體如下圖 3 所示。反過來,NumPy 根據(jù)需要將操作分派給原始庫。超過 400 個最流行的 NumPy 函數(shù)得到了支持。該協(xié)議通過 Dask、CuPy、xarray 和 PyData/Sparse 等廣泛使用的庫來實現(xiàn)。 得益于這些進展,用戶現(xiàn)在可以使用 Dask 將自己的計算從單個機器擴展至多個系統(tǒng)。該協(xié)議允許用戶通過 Dask 數(shù)組中嵌入的 CuPy 數(shù)組等,在分布式多 GPU 系統(tǒng)上大規(guī)模地重新部署 NumPy 代碼。 使用 NumPy 的高級 API,用戶可以在具有數(shù)百萬個核的多系統(tǒng)上利用高度并行化的代碼執(zhí)行,并且需要的代碼更改最少。 如下圖 3 所示,NumPy 的 API 和數(shù)組協(xié)議向生態(tài)系統(tǒng)提供了新的數(shù)組:
現(xiàn)在,這些數(shù)組協(xié)議是 NumPy 的主要特征,它們的重要性預計也會越來越大。NumPy 開發(fā)者(很多也是這篇文章的作者)迭代地改善和增加協(xié)議設計,以改進實用性和簡化應用方式。 論文最后對 NumPy 的現(xiàn)狀和未來進行了總結和展望: 在未來十年中,NumPy 開發(fā)者將面臨多項挑戰(zhàn)。新設備將出現(xiàn),現(xiàn)有的專用硬件將面臨摩爾定律的收益遞減,數(shù)據(jù)科學從業(yè)者將越來越多,類型也更加廣泛。而他們中的大部分將使用 NumPy。 隨著光片顯微鏡和大型綜合巡天望遠鏡(LSST)等設備和儀器的采用,科學數(shù)據(jù)的規(guī)模將持續(xù)擴大。新一代語言、解釋器和編譯器,如 Rust、Julia 和 LLVM,將創(chuàng)造出新的概念和數(shù)據(jù)結構。
原文標題:15年!NumPy論文終出爐,還登上了Nature
-
編程
+關注
關注
88文章
3596瀏覽量
93610 -
python
+關注
關注
56文章
4783瀏覽量
84473 -
數(shù)組
+關注
關注
1文章
416瀏覽量
25913
原文標題:15年!NumPy論文終出爐,還登上了Nature
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論