研究表明,雖然Google Cloud AI(谷歌云人工智能)和機(jī)器學(xué)習(xí)平臺(tái)缺少一些功能,并且仍處于測(cè)試階段,但其范圍和質(zhì)量在行業(yè)中仍是首屈一指的。
谷歌公司擁有行業(yè)規(guī)模最大的機(jī)器學(xué)習(xí)堆棧之一,目前以其Google Cloud AI和機(jī)器學(xué)習(xí)平臺(tái)為中心。谷歌公司在數(shù)年前就開源了TensorFlow,但TensorFlow仍然是一個(gè)最成熟的、并且廣泛引用的深度學(xué)習(xí)框架。同樣,谷歌公司幾年前將Kubernetes剝離成為開源軟件,但它仍然是主要的容器管理系統(tǒng)。
谷歌云平臺(tái)是開發(fā)人員、數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家的最佳工具和基礎(chǔ)設(shè)施來源之一,但是從歷史上看,對(duì)于缺乏認(rèn)真的數(shù)據(jù)科學(xué)或編程背景的業(yè)務(wù)分析師而言,Google Cloud AI的吸引力并不大。而這種情況現(xiàn)在開始改變。
Google Cloud AI和機(jī)器學(xué)習(xí)平臺(tái)包括人工智能構(gòu)建塊、人工智能平臺(tái)和加速器以及人工智能解決方案。這些是針對(duì)業(yè)務(wù)主管而不是數(shù)據(jù)科學(xué)家的相當(dāng)新的人工智能解決方案,其中可能包括來自谷歌公司或其合作伙伴的咨詢。
經(jīng)過預(yù)先訓(xùn)練但可自定義的人工智能構(gòu)建塊可以在不熟悉編程或數(shù)據(jù)科學(xué)的情況下使用。盡管如此,出于實(shí)用的原因,數(shù)據(jù)科學(xué)家經(jīng)常使用它們,從本質(zhì)上講,無需大量的模型培訓(xùn)即可完成工作。
人工智能平臺(tái)和加速器通常面向數(shù)據(jù)科學(xué)家,并且需要編碼技能、數(shù)據(jù)準(zhǔn)備技術(shù)知識(shí)和大量培訓(xùn)時(shí)間。為此建議在嘗試了相關(guān)構(gòu)建模塊之后再去實(shí)施。
Google Cloud AI產(chǎn)品中仍然缺少一些鏈接,尤其是在數(shù)據(jù)準(zhǔn)備方面。Google Cloud與數(shù)據(jù)導(dǎo)入和調(diào)節(jié)服務(wù)最接近的是Trifacta公司的第三方Cloud Dataprep。但是,內(nèi)置在Cloud AutoML Tables中的功能工程很有希望,并且將這種服務(wù)用于其他情況將很有用。
人工智能的陰暗面與責(zé)任感(或缺乏道德感)以及持久的模型偏見(通常是由于用于訓(xùn)練的偏見數(shù)據(jù))有關(guān)。谷歌公司于2018年發(fā)布了人工智能原則。這項(xiàng)工作仍在進(jìn)行中,但這是指導(dǎo)的基礎(chǔ),最近在有關(guān)責(zé)任人工智能的博客文章中對(duì)此進(jìn)行了討論。
谷歌公司在人工智能市場(chǎng)上有很多競(jìng)爭(zhēng)對(duì)手,而公共云市場(chǎng)上也有很多競(jìng)爭(zhēng)對(duì)手(云計(jì)算供應(yīng)商超過六家)。為了公平地進(jìn)行比較,并且進(jìn)行總結(jié):AWS云平臺(tái)可以完成谷歌云平臺(tái)的大部分工作,并且也非常出色,但是通常收取更高的價(jià)格。
谷歌云的人工智能構(gòu)建塊不需要太多的機(jī)器學(xué)習(xí)專業(yè)知識(shí),而需要基于預(yù)先訓(xùn)練的模型和自動(dòng)訓(xùn)練。人工智能平臺(tái)可以讓用戶訓(xùn)練和部署自己的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型。
Google Cloud AI構(gòu)建基塊
Google Cloud AI構(gòu)建基塊是易于使用的組件,用戶可以將其合并到自己的應(yīng)用程序中以添加視覺、語言、對(duì)話和結(jié)構(gòu)化數(shù)據(jù)。許多人工智能構(gòu)件都是經(jīng)過預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),但是如果它們不能滿足用戶的需求,則可以使用轉(zhuǎn)移學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)搜索進(jìn)行自定義。AutoML Tables有所不同,因?yàn)樗梢允褂脭?shù)據(jù)科學(xué)家來為表格數(shù)據(jù)集找到最佳機(jī)器學(xué)習(xí)模型的過程實(shí)現(xiàn)自動(dòng)化。
AutoML
Google Cloud AutoML服務(wù)為語言對(duì)翻譯、文本分類、對(duì)象檢測(cè)、圖像分類和視頻對(duì)象分類和跟蹤提供定制的深層神經(jīng)網(wǎng)絡(luò)。它們需要標(biāo)記數(shù)據(jù)進(jìn)行培訓(xùn),但不需要深入學(xué)習(xí)、轉(zhuǎn)移學(xué)習(xí)或編程方面的重要知識(shí)。
Google Cloud AutoML可以為用戶的標(biāo)記數(shù)據(jù)自定義經(jīng)過谷歌公司測(cè)試的、高精度的深度神經(jīng)網(wǎng)絡(luò)。AutoML從數(shù)據(jù)中訓(xùn)練模型,而不是從頭開始,AutoML為語言對(duì)翻譯和上面列出的其他服務(wù)實(shí)現(xiàn)了自動(dòng)深度轉(zhuǎn)移學(xué)習(xí)(意味著從現(xiàn)有的基于其他數(shù)據(jù)的深層神經(jīng)網(wǎng)絡(luò)開始)和神經(jīng)結(jié)構(gòu)搜索(意味著找到了額外網(wǎng)絡(luò)層的正確組合)。
在每一個(gè)領(lǐng)域,谷歌公司已經(jīng)有一個(gè)或多個(gè)基于深度神經(jīng)網(wǎng)絡(luò)和大量標(biāo)簽數(shù)據(jù)的預(yù)先訓(xùn)練服務(wù)。這些方法很可能適用于未經(jīng)修改的數(shù)據(jù),用戶應(yīng)該對(duì)此進(jìn)行測(cè)試,以節(jié)省時(shí)間和成本。如果他們沒有做到,Google Cloud AutoML可以幫助用戶創(chuàng)建一個(gè)能做到的模型,而不需要用戶知道如何執(zhí)行轉(zhuǎn)移學(xué)習(xí)或如何設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)。
與從頭開始訓(xùn)練神經(jīng)網(wǎng)絡(luò)相比,轉(zhuǎn)移學(xué)習(xí)具有兩個(gè)主要優(yōu)點(diǎn):首先,它需要的訓(xùn)練數(shù)據(jù)要少得多,因?yàn)榫W(wǎng)絡(luò)的大多數(shù)層已經(jīng)經(jīng)過了良好的訓(xùn)練。其次,它訓(xùn)練得更快,因?yàn)樗粌?yōu)化最后一層。
雖然過去通常將Google Cloud AutoML服務(wù)打包在一起提供,但現(xiàn)在列出了它們的基本預(yù)訓(xùn)練服務(wù)。其他大多數(shù)公司所說的AutoML是由Google Cloud AutoML Tables執(zhí)行的。
為此測(cè)試AutoML Vision自定義花卉分類器,采用一個(gè)小時(shí)的時(shí)間從Google樣本圖像中訓(xùn)練了這個(gè)分類器,并在附近藝術(shù)博物館拍攝了郁金香的照片進(jìn)行比較。
AutoML Tables
對(duì)于許多回歸和分類問題,通常的數(shù)據(jù)科學(xué)過程是創(chuàng)建數(shù)據(jù)表以進(jìn)行訓(xùn)練、清理和整理數(shù)據(jù),執(zhí)行特征工程,并嘗試在轉(zhuǎn)換后的表上訓(xùn)練所有適當(dāng)?shù)哪P?,包括進(jìn)行優(yōu)化的步驟最佳模型的超參數(shù)。在人工識(shí)別目標(biāo)字段后,Google Cloud AutoML Tables可以自動(dòng)執(zhí)行整個(gè)過程。
AutoML Tables會(huì)自動(dòng)在Google的model-zoo中搜索結(jié)構(gòu)化數(shù)據(jù),以找到最適合的模型,從線性/邏輯回歸模型(用于更簡單的數(shù)據(jù)集)到高級(jí)的深度、集成和架構(gòu)搜索方法(用于更大型、更復(fù)雜的模型)不等。它可以自動(dòng)執(zhí)行各種表格數(shù)據(jù)原語(例如數(shù)字、類、字符串、時(shí)間戳和列表)上的要素工程,并幫助用戶檢測(cè)和處理缺失值、異常值和其他常見數(shù)據(jù)問題。
其無代碼界面可指導(dǎo)用戶完成整個(gè)端到端機(jī)器學(xué)習(xí)生命周期,從而使團(tuán)隊(duì)中的任何人都可以輕松構(gòu)建模型,并將其可靠地集成到更廣泛的應(yīng)用程序中。AutoMLTables提供了廣泛的輸入數(shù)據(jù)和模型行為可解釋性功能,以及用于防止出現(xiàn)常見的錯(cuò)誤。AutoMLTables也可在API和筆記本環(huán)境中使用。
AutoML Tables與其他幾種AutoML實(shí)現(xiàn)和框架競(jìng)爭(zhēng)。
從功能設(shè)計(jì)到部署,AutoML Tables實(shí)現(xiàn)了用于為表格數(shù)據(jù)創(chuàng)建預(yù)測(cè)模型的整個(gè)流程的自動(dòng)化。
在AutoML Tables的分析階段可以看到所有原始功能的描述性統(tǒng)計(jì)信息。
免費(fèi)的Google Cloud Vision“嘗試API”界面允許將圖片拖動(dòng)到網(wǎng)頁上并查看結(jié)果??梢钥吹胶⒆釉谖⑿Γ虼恕癑oy”標(biāo)簽正確。但該算法無法完全識(shí)別所戴的帽子。
Vision API
Google Cloud Vision API是一項(xiàng)經(jīng)過預(yù)先訓(xùn)練的機(jī)器學(xué)習(xí)服務(wù),用于對(duì)圖像進(jìn)行分類并提取各種功能。它可以將圖像分為數(shù)千種經(jīng)過預(yù)先訓(xùn)練的類別,從圖像中發(fā)現(xiàn)的通用對(duì)象和動(dòng)物(例如貓)到一般情況(例如黃昏),再到特定地標(biāo)(艾菲爾鐵塔和大峽谷),并確定圖像的一般屬性,例如其主導(dǎo)色。它可以隔離臉部區(qū)域,然后對(duì)臉部進(jìn)行幾何分析(面部方位和地標(biāo))和情感分析,盡管它不會(huì)將某人臉部識(shí)別為特定人物,但名人(需要特殊使用許可)除外。Vision API使用OCR檢測(cè)圖像中超過50種語言和各種文件類型的文本。它還可以識(shí)別產(chǎn)品徽標(biāo),并檢測(cè)成人、暴力和醫(yī)療內(nèi)容。
Video Intelligence API
谷歌云的Video Intelligence API會(huì)自動(dòng)識(shí)別存儲(chǔ)和流式視頻中的2萬多個(gè)對(duì)象、位置和動(dòng)作。它還可以區(qū)分場(chǎng)景變化,并在視頻、快照或幀級(jí)別提取豐富的元數(shù)據(jù)。它還使用OCR執(zhí)行文本檢測(cè)和提取,檢測(cè)顯式內(nèi)容,自動(dòng)關(guān)閉字幕和說明,識(shí)別徽標(biāo),并檢測(cè)人臉、人物和姿勢(shì)。
谷歌公司建議使用Video Intelligence API來提取元數(shù)據(jù)以索引、組織和搜索用戶的視頻內(nèi)容。它可以錄制視頻并生成隱藏字幕,以及標(biāo)記和過濾不適當(dāng)?shù)膬?nèi)容,所有這些都比人工錄制更具成本效益。用例包括內(nèi)容審核、內(nèi)容推薦、媒體存檔、廣告。
Natural Language API
自然語言處理(NLP)是其“秘方”的重要組成部分,可以使對(duì)Google Search和Google Assistant的輸入效果很好。Natural Language API將相同的技術(shù)公開給用戶的程序。它可以使用10種語言執(zhí)行語法分析、實(shí)體提取、情感分析和內(nèi)容分類。如果用戶了解某種語言,可以指定使用。否則,API將嘗試自動(dòng)檢測(cè)語言。當(dāng)前可應(yīng)要求提前提供一個(gè)單獨(dú)的API,專門處理與醫(yī)療保健相關(guān)的內(nèi)容。
Translation API
Translation API可以翻譯一百多種語言,如果用戶沒有指定,則可以自動(dòng)檢測(cè)源語言,并提供三種版本:基本翻譯、高級(jí)翻譯、媒體翻譯。高級(jí)翻譯API支持詞匯表,批處理翻譯和自定義模型的使用?;痉gAPI本質(zhì)上是消費(fèi)者Google翻譯界面所使用的API。而AutoML Translation允許用戶使用轉(zhuǎn)移學(xué)習(xí)來訓(xùn)練自定義模型。
Media Translation API直接以12種語言從音頻文件或流文件中轉(zhuǎn)換內(nèi)容,并自動(dòng)生成標(biāo)點(diǎn)符號(hào)。視頻和電話通話音頻有不同的模型。
Text-to-Speech
Text-to-Speech(文字轉(zhuǎn)聲音)的 API可以將純文本和SSML標(biāo)記轉(zhuǎn)換為聲音,可以選擇200多種聲音和40種語言和變體。其變體包括不同的國家和民族口音,例如美國、英國、南非、印度、愛爾蘭和澳大利亞的語言。
其基本的聲音聽起來通常很機(jī)械。WaveNet聲音通常聽起來更自然,但使用成本較高。用戶還可以從自己的錄音室質(zhì)量的錄音中創(chuàng)建自定義聲音。
用戶可以將合成聲音的速度調(diào)高或調(diào)慢4倍,將音調(diào)調(diào)高或調(diào)低20個(gè)半音。SSML標(biāo)簽允許用戶添加暫停、數(shù)字、日期和時(shí)間格式以及其他發(fā)音說明。還可以將音量增益最多增加16分貝,或?qū)⒁袅孔疃鄿p小96分貝。
Speech-to-Text
Speech-to-Text (聲音轉(zhuǎn)文字)API使用谷歌公司先進(jìn)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法將語音轉(zhuǎn)換為文字,以實(shí)現(xiàn)自動(dòng)語音識(shí)別(ASR)。它支持超過125種語言和變體,可以在本地(帶有許可證)以及在谷歌云平臺(tái)中進(jìn)行部署。Speech-to-Text可以針對(duì)較短的音頻樣本(一分鐘或更短)進(jìn)行同步運(yùn)行,針對(duì)較長的音頻(最長達(dá)到480分鐘)進(jìn)行異步處理,并可以進(jìn)行流傳輸以進(jìn)行實(shí)時(shí)識(shí)別。
用戶可以通過提供提示來自定義語音識(shí)別,以轉(zhuǎn)錄特定于領(lǐng)域的術(shù)語和稀有單詞。有專門的ASR模型用于視頻、電話、命令和搜索,以及“默認(rèn)”(其他任何東西)。雖然用戶可以在API請(qǐng)求中嵌入編碼的音頻,但更多情況下,用戶將為存儲(chǔ)在Google云存儲(chǔ)桶中的二進(jìn)制音頻文件提供URI。
Dialogflow
Dialogflow Essentials建立在“Speech-to-Text” (聲音轉(zhuǎn)文字)和“Text-to-Speech” (文字轉(zhuǎn)聲音)的基礎(chǔ)上,并且可以利用40多個(gè)預(yù)先構(gòu)建的代理作為模板,用于具有單個(gè)主題對(duì)話的小型機(jī)器人。Dialogflow CX是一個(gè)高級(jí)開發(fā)套件,用于創(chuàng)建會(huì)話式人工智能應(yīng)用程序,包括聊天機(jī)器人、語音機(jī)器人和IVR(交互式語音響應(yīng))機(jī)器人程序。它包括一個(gè)可視化的機(jī)器人構(gòu)建平臺(tái)(見下面的屏幕截圖)、協(xié)作和版本控制工具以及高級(jí)IVR功能支持,并針對(duì)企業(yè)規(guī)模和復(fù)雜性進(jìn)行了優(yōu)化。
Dialogflow CX是用于復(fù)雜語音交互虛擬代理的設(shè)計(jì)器。設(shè)計(jì)師在此處列出了意圖“store.location”的十個(gè)短語。類似的短語也會(huì)被識(shí)別出來。
Inference API
時(shí)間序列數(shù)據(jù)通常需要進(jìn)行一些特殊的處理,尤其是如果用戶希望除了處理大型歷史數(shù)據(jù)集之外還對(duì)流數(shù)據(jù)實(shí)時(shí)執(zhí)行數(shù)據(jù)處理,尤其如此。完全托管的無服務(wù)器Inference API目前處于有限的Alpha測(cè)試中,可使用事件時(shí)間標(biāo)記檢測(cè)趨勢(shì)和異常,處理包含多達(dá)數(shù)百億個(gè)事件的數(shù)據(jù)集,每秒可以運(yùn)行數(shù)千個(gè)查詢,并以低延遲進(jìn)行響應(yīng)。
Recommendations API
使用機(jī)器學(xué)習(xí)來建立有效的推薦系統(tǒng)被認(rèn)為是一個(gè)棘手和耗時(shí)的問題。谷歌公司已經(jīng)用推薦API實(shí)現(xiàn)了這一過程的自動(dòng)化,目前還在測(cè)試階段。這項(xiàng)完全管理的服務(wù)負(fù)責(zé)預(yù)處理用戶的數(shù)據(jù)、培訓(xùn)和調(diào)整機(jī)器學(xué)習(xí)模型,以及提供基礎(chǔ)設(shè)施。它也糾正了偏見和季節(jié)性。它集成了相關(guān)的谷歌服務(wù),如Analytics 360、Tag Manager、Merchant Center、云存儲(chǔ)和BigQuery。初始模型培訓(xùn)和調(diào)整需要兩到五天的時(shí)間才能完成。
Google Cloud AI平臺(tái)
Google Cloud AI平臺(tái)和加速器面向開發(fā)者、數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師。大多數(shù)情況下,使用Google Cloud AI平臺(tái)來解決問題可能是一項(xiàng)巨大的努力。如果用戶可以通過使用人工智能構(gòu)建塊來避免這種努力,則應(yīng)該這樣做。
Google Cloud AI平臺(tái)促進(jìn)了開發(fā)人員、數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的端到端機(jī)器學(xué)習(xí)工作流程。雖然它不能幫助用戶獲取數(shù)據(jù)或?yàn)槟P途幋a,但可以幫助將其余的機(jī)器學(xué)習(xí)工作流程結(jié)合在一起。
Google Cloud AI平臺(tái)將大多數(shù)機(jī)器學(xué)習(xí)工作流程聯(lián)系在一起,從模型培訓(xùn)到模型版本控制和管理。
人工智能平臺(tái)包括幾個(gè)模型訓(xùn)練服務(wù)和各種機(jī)器類型的訓(xùn)練和調(diào)整,包括GPU和TPU加速器。預(yù)測(cè)服務(wù)允許用戶從任何經(jīng)過培訓(xùn)的模型中提供預(yù)測(cè);它不僅限于用戶自己訓(xùn)練的模型或用戶在谷歌云平臺(tái)上訓(xùn)練的模型。
AI Platform Notebooks在谷歌云平臺(tái)的虛擬機(jī)實(shí)現(xiàn)了JupyterLab Notebooks,并預(yù)先配置了TensorFlow、PyTorch和其他深度學(xué)習(xí)軟件包。人工智能平臺(tái)數(shù)據(jù)標(biāo)簽服務(wù)使用戶可以為要用于訓(xùn)練模型的數(shù)據(jù)集請(qǐng)求人工標(biāo)簽。人工智能平臺(tái)深度學(xué)習(xí)虛擬機(jī)映像針對(duì)關(guān)鍵的機(jī)器學(xué)習(xí)框架和工具以及GPU支持針對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)任務(wù)進(jìn)行了優(yōu)化。
AI Platform Notebooks
對(duì)于許多數(shù)據(jù)科學(xué)家來說,使用Jupyter或JupyterLab Notebook是開發(fā)、共享模型和機(jī)器學(xué)習(xí)工作流的最簡單方法之一。 AI Platform Notebooks使創(chuàng)建和管理通過JupyterLab、Git、GCP集成,以及用戶選擇的Python 2或Python 3、R、Python或R核心程序包、TensorFlow、PyTorch和CUDA預(yù)先配置的安全虛擬機(jī)變得更加簡單。
雖然Kaggle和Colab也支持Jupyter Notebooks,但Kaggle面向的是愛好者和學(xué)習(xí)專業(yè)人士,Colab面向的是研究人員和學(xué)生,而AI Platform Notebooks則面向企業(yè)用戶。對(duì)于繁重的工作,AI Platform Notebooks可以使用深度學(xué)習(xí)虛擬機(jī)、Dataproc集群和Dataflow,并且可以連接到GCP數(shù)據(jù)源,例如BigQuery。
用戶可以從小型虛擬機(jī)開始開發(fā),然后再擴(kuò)展到具有更多內(nèi)存和CPU的功能更強(qiáng)大的虛擬機(jī),并可能使用GPU或TPU進(jìn)行深度學(xué)習(xí)培訓(xùn)。用戶還可以將Notebooks保存在Git存儲(chǔ)庫中,并將其加載到其他實(shí)例中。或者可以使用下面討論的人工智能平臺(tái)培訓(xùn)服務(wù)。
以下是一個(gè)使用AI Notebooks的實(shí)施代碼實(shí)驗(yàn)室。以下是該實(shí)驗(yàn)的屏幕截圖。里面的一個(gè)目錄有預(yù)先加載到JupyterLab中的示例Notebooks。它們看起來很有趣。
當(dāng)創(chuàng)建新的Google Cloud AI Notebook實(shí)例時(shí),可以選擇環(huán)境的起點(diǎn)。以后可以優(yōu)化虛擬機(jī)。
代碼實(shí)驗(yàn)室的開頭設(shè)置了程序包導(dǎo)入,并針對(duì)公共BigQuery數(shù)據(jù)集運(yùn)行查詢以獲取用于分析和模型訓(xùn)練的數(shù)據(jù)。該代碼實(shí)驗(yàn)室自由地混合了Pandas、TensorFlow、NumPy和Scikit-learn的方法。Witwidget是Google假設(shè)工具。
在導(dǎo)入數(shù)據(jù)后,代碼實(shí)驗(yàn)室會(huì)將其拆分以進(jìn)行測(cè)試和培訓(xùn),并訓(xùn)練一個(gè)簡單的完全連接的神經(jīng)網(wǎng)絡(luò)。該實(shí)驗(yàn)的重點(diǎn)是演示Google Cloud AI Notebook,而不是訓(xùn)練最佳的模型,因此只有10個(gè)周期,最終的均方誤差并不是那么大。
可解釋人工智能和假設(shè)工具
如果用戶使用TensorFlow作為框架來構(gòu)建和擬合模型,則可以使用谷歌公司的假設(shè)分析工具來了解更改訓(xùn)練數(shù)據(jù)中的值可能如何影響模型。在其他領(lǐng)域稱之為敏感性研究。假設(shè)分析工具還可以顯示許多有用的圖形。
如果適合TensorFlow模型,則可以使用Cloud AI Notebook中的Google假設(shè)工具來探索模型的可解釋性。
人工智能平臺(tái)訓(xùn)練
與模型開發(fā)相比,模型訓(xùn)練通常需要更多的計(jì)算資源。用戶可以在Google Cloud AI Notebook或自己的小型數(shù)據(jù)集上訓(xùn)練簡單模型。要在大型數(shù)據(jù)集上訓(xùn)練復(fù)雜的模型,使用AI Platform Training服務(wù)可能會(huì)更好。
訓(xùn)練服務(wù)針對(duì)存儲(chǔ)在Cloud Storage存儲(chǔ)桶、Cloud Bigtable或其他GCP存儲(chǔ)服務(wù)中的訓(xùn)練和驗(yàn)證數(shù)據(jù),運(yùn)行存儲(chǔ)在Cloud Storage存儲(chǔ)桶中的訓(xùn)練應(yīng)用程序。如果用戶運(yùn)行內(nèi)置算法,則無需構(gòu)建自己的訓(xùn)練應(yīng)用程序。
用戶可以訓(xùn)練使用云存儲(chǔ)(目前是TensorFlow、Scikit learn和XGBoost)的代碼包的模型,以及使用來自云存儲(chǔ)的自定義容器映像的模型和使用內(nèi)置算法的模型。用戶還可以使用從人工智能平臺(tái)深度學(xué)習(xí)容器派生的預(yù)構(gòu)建PyTorch容器映像。
目前的內(nèi)置算法有XGBoost、分布式XGBoost、線性學(xué)習(xí)、廣度和深度學(xué)習(xí)、圖像分類、圖像對(duì)象檢測(cè)和TabNet。除了圖像分類和圖像對(duì)象檢測(cè)之外,所有這些算法都是從表格數(shù)據(jù)中訓(xùn)練出來的。目前,除XGBoost以外的所有算法都依賴TensorFlow 1.14。
用戶可以從人工智能平臺(tái)控制臺(tái)的“作業(yè)”選項(xiàng)卡運(yùn)行人工智能平臺(tái)培訓(xùn),也可以發(fā)出Google Cloud AI平臺(tái)作業(yè)提交訓(xùn)練命令來運(yùn)行人工智能平臺(tái)培訓(xùn)。命令行調(diào)用方法還可以自動(dòng)將模型代碼上傳到Cloud Storage存儲(chǔ)桶。
用戶可以使用分布式XGBoost、TensorFlow和PyTorch進(jìn)行分布式人工智能平臺(tái)訓(xùn)練。每個(gè)框架的設(shè)置都不同。對(duì)于TensorFlow,有三種可能的分配策略,以及“規(guī)模等級(jí)”的六個(gè)選項(xiàng),它們定義了訓(xùn)練集群的配置。
超參數(shù)調(diào)整通過對(duì)具有不同訓(xùn)練過程變量的模型進(jìn)行多次訓(xùn)練(以設(shè)置可變權(quán)重)(例如通過設(shè)置學(xué)習(xí)率來控制算法)來工作。用戶可以相當(dāng)簡單地在TensorFlow模型上執(zhí)行超參數(shù)調(diào)整,因?yàn)門ensorFlow在摘要事件報(bào)告中返回其訓(xùn)練指標(biāo)。對(duì)于其他框架,用戶可能需要使用cloud ml-hypertune Python軟件包,以便人工智能平臺(tái)訓(xùn)練可以檢測(cè)模型的指標(biāo)。定義訓(xùn)練作業(yè)時(shí),用戶可以設(shè)置要調(diào)整的超參數(shù)、范圍以及調(diào)整搜索策略。
用戶可以使用GPU或TPU進(jìn)行訓(xùn)練。通常,用戶需要指定一個(gè)實(shí)例類型,其中包括要使用的GPU或TPU,然后從代碼中啟用它們。模型越大,越復(fù)雜,GPU或TPU加速其訓(xùn)練的可能性就越大。
Google Cloud AI Platform Jobs是用戶如何使用三個(gè)機(jī)器學(xué)習(xí)框架之一或自定義容器映像來設(shè)置模型訓(xùn)練的方法。選擇框架時(shí),還必須選擇一個(gè)版本。
內(nèi)置算法是為自定義模型提供機(jī)器學(xué)習(xí)框架和代碼的替代方法。
AI Platform Vizier
執(zhí)行超參數(shù)優(yōu)化的另一種方法是使用AI平臺(tái)Vizier(黑盒優(yōu)化服務(wù))。Vizier進(jìn)行了多次試驗(yàn)研究,并且可以解決許多類型的優(yōu)化問題,而不僅僅是人工智能訓(xùn)練。Vizier仍處于Beta測(cè)試中。
AI Platform Prediction
在擁有訓(xùn)練有素的模型后,用戶需要將其部署以進(jìn)行預(yù)測(cè)。AI Platform Prediction管理云平臺(tái)中的計(jì)算資源以運(yùn)行用戶的模型。用戶將模型導(dǎo)出為可部署到AI Platform Prediction的工件。無需在Google Cloud AI上訓(xùn)練模型。
AI Platform Prediction假設(shè)模型會(huì)隨著時(shí)間而變化,因此模型包含版本,并且可以部署版本。這些版本可以基于完全不同的機(jī)器學(xué)習(xí)模型,盡管如果模型的所有版本都使用相同的輸入和輸出會(huì)有所幫助。
這張照片和它的疊加顯示了有助于模型將動(dòng)物識(shí)別為貓而不是狗的區(qū)域。
AI Platform Prediction分配節(jié)點(diǎn)以處理發(fā)送到模型版本的在線預(yù)測(cè)請(qǐng)求。部署模型版本時(shí),可以自定義AI Platform Prediction用于這些節(jié)點(diǎn)的虛擬機(jī)的數(shù)量和類型。節(jié)點(diǎn)并非完全是虛擬機(jī),但是底層的機(jī)器類型是相似的。
用戶可以允許AI Platform Prediction自動(dòng)或人工縮放節(jié)點(diǎn)。如果將GPU用于模型版本,則無法自動(dòng)縮放節(jié)點(diǎn)。如果分配的計(jì)算機(jī)類型對(duì)于模型而言太大,則可以嘗試自動(dòng)縮放節(jié)點(diǎn),但是可能永遠(yuǎn)無法滿足用于縮放的CPU負(fù)載條件。在理想情況下,用戶將使用剛好適合其機(jī)器學(xué)習(xí)模型的節(jié)點(diǎn)。
除了預(yù)測(cè)之外,該平臺(tái)還可以針對(duì)特定預(yù)測(cè)以特征歸因的形式提供人工智能解釋。目前正在進(jìn)行Beta測(cè)試??梢詫⑻卣鳉w因用作表格數(shù)據(jù)的條形圖和圖像數(shù)據(jù)的覆蓋圖。
AI Platform Deep Learning VM Images
當(dāng)用戶從普通的原始操作系統(tǒng)開始時(shí),配置其環(huán)境以進(jìn)行機(jī)器學(xué)習(xí)和深度學(xué)習(xí),CUDA驅(qū)動(dòng)程序以及JupyterLab有時(shí)可能需要訓(xùn)練模型的時(shí)間,至少對(duì)于簡單模型而言是這樣。使用預(yù)配置的映像可以解決這個(gè)問題。
用戶可以使用TensorFlow、TensorFlow Enterprise、PyTorch、R或其他六種框架來選擇人工智能平臺(tái)深度學(xué)習(xí)虛擬機(jī)映像。所有圖像都可以包括JupyterLab,并且打算與GPU一起使用的圖像可以具有CUDA驅(qū)動(dòng)程序。
用戶可以通過Google Cloud命令行(通過Google Cloud SDK安裝)或Google Cloud市場(chǎng)創(chuàng)建實(shí)例。創(chuàng)建虛擬機(jī)時(shí),用戶可以選擇虛擬CPU的數(shù)量(也需確定內(nèi)存數(shù)量)以及GPU的數(shù)量和種類。用戶會(huì)根據(jù)所選的硬件看到每月費(fèi)用的估算值,并獲得持續(xù)使用的折扣。這些框架不收取額外費(fèi)用。如果選擇帶有GPU的虛擬機(jī),則需要等待幾分鐘來安裝CUDA驅(qū)動(dòng)程序。
用戶可以從Google Cloud Console和命令行創(chuàng)建深度學(xué)習(xí)虛擬機(jī)。需要注意,CUDA驅(qū)動(dòng)程序和JupyterLab安裝均只需要選中一個(gè)復(fù)選框。框架、GPU、機(jī)器類型和區(qū)域選擇是從下拉列表中完成的。
AI Platform Deep Learning Containers
谷歌公司還提供了適用于本地計(jì)算機(jī)或Google Kubernetes Engine(GKE)上的Docker的深度學(xué)習(xí)容器。容器具有用戶可能需要的所有框架、驅(qū)動(dòng)程序和支持軟件,與虛擬機(jī)映像不同,虛擬機(jī)映像僅允許用戶選擇所需的內(nèi)容。深度學(xué)習(xí)容器目前處于beta測(cè)試中。
AI Platform Pipelines
MLOps(機(jī)器學(xué)習(xí)操作)將DevOps(開發(fā)人員操作)實(shí)踐應(yīng)用于機(jī)器學(xué)習(xí)工作流。許多Google Cloud AI平臺(tái)都以某種方式支持MLOps,但人工智能平臺(tái)管道是MLOps的核心。
當(dāng)前處于beta測(cè)試的AI Platform Pipelines通過減輕用戶使用TensorFlow Extended(TFX)設(shè)置Kubeflow Pipelines的難度,使開始使用MLOps更加容易。開源Kubeflow項(xiàng)目致力于使機(jī)器學(xué)習(xí)工作流在Kubernetes上的部署簡單,可移植且可擴(kuò)展。Kubeflow Pipelines是Kubeflow的一個(gè)組件,目前處于beta測(cè)試中,它是用于部署和管理端到端機(jī)器學(xué)習(xí)工作流的全面解決方案。
當(dāng)Spotify將其MLOps切換到Kubeflow Pipelines和TFX時(shí),一些團(tuán)隊(duì)將其實(shí)驗(yàn)數(shù)量增加了7倍。
TensorFlow Extended是用于部署生產(chǎn)機(jī)器學(xué)習(xí)管道的端到端平臺(tái)。 TFX提供了一個(gè)工具包,可幫助用戶在各種編排器(如Apache Airflow、Apache Beam和Kubeflow Pipelines)上協(xié)調(diào)機(jī)器學(xué)習(xí)過程,從而使實(shí)施MLOps更加容易。Google Cloud AI Platform Pipelines使用TFX Pipelines,這是DAG(有向無環(huán)圖),使用Kubeflow Pipelines,而不是Airflow或Beam。
用戶可以通過Google Cloud控制臺(tái)中人工智能平臺(tái)的“管道”標(biāo)簽管理人工智能平臺(tái)管道。創(chuàng)建一個(gè)新的管道實(shí)例將創(chuàng)建一個(gè)Kubernetes集群,一個(gè)云存儲(chǔ)桶和一個(gè)Kubeflow管道。然后,用戶可以根據(jù)示例定義管道,也可以使用TFX從頭開始定義管道。
Spotify使用TFX和Kubeflow改進(jìn)了其MLOps。該公司報(bào)告說,一些團(tuán)隊(duì)正在進(jìn)行7倍以上的實(shí)驗(yàn)。
AI Platform Data Labeling Service
Google Cloud AI Platform數(shù)據(jù)標(biāo)簽服務(wù)可讓用戶與人工標(biāo)簽人員一起為可在機(jī)器學(xué)習(xí)模型中使用的數(shù)據(jù)集合生成高度準(zhǔn)確的標(biāo)簽。該服務(wù)目前處于beta測(cè)試階段,由于發(fā)生新冠疫情,因此可用性非常有限。
AI Hub
Google Cloud AI Hub目前處于beta測(cè)試中,可為構(gòu)建人工智能系統(tǒng)的開發(fā)人員和數(shù)據(jù)科學(xué)家提供一系列資產(chǎn)。用戶可以查找和共享資產(chǎn)。即使以beta形式,AI Hub似乎也很有用。
Google Cloud AI Hub是一種在谷歌云平臺(tái)上學(xué)習(xí)、構(gòu)建和共享人工智能項(xiàng)目的快速方法。
TensorFlow Enterprise
TensorFlow Enterprise為用戶提供了TensorFlow的Google Cloud優(yōu)化發(fā)行版,并具有長期版本支持。TensorFlow Enterprise發(fā)行版包含定制的TensorFlow二進(jìn)制文件和相關(guān)軟件包。每個(gè)版本的TensorFlow企業(yè)版發(fā)行版都基于特定版本的TensorFlow;包含的所有軟件包都可以在開源中獲得。
Google Cloud AI Solutions
谷歌公司針對(duì)企業(yè)高管,而不是面向數(shù)據(jù)科學(xué)家或程序員推出人工智能解決方案。解決方案通常帶有可選的咨詢或合同開發(fā)組件。咨詢服務(wù)也可單獨(dú)提供。
Contact Center AI
Contact Center AI(CCAI)是用于聯(lián)絡(luò)中心的谷歌解決方案,旨在提供人性化的互動(dòng)。它建立在Dialogflow的基礎(chǔ)上,可以提供虛擬代理,監(jiān)視客戶意圖,在必要時(shí)切換到實(shí)時(shí)座席并為人工代理提供幫助。谷歌公司有六家合作伙伴,可幫助用戶開發(fā)和部署CCAI解決方案,并支持和培訓(xùn)您的代理商。
Build and Use AI
Build and Use AI是通用定義的解決方案,主要提供谷歌公司的人工智能專業(yè)知識(shí),人工智能構(gòu)建基塊和人工智能平臺(tái)來解決用戶的業(yè)務(wù)問題。除其他好處之外,該解決方案還可以幫助用戶通過管道自動(dòng)化和CI/CD設(shè)置MLop。
Document AI
Document AI將Google Vision API OCR構(gòu)建塊與Cloud Natural Language結(jié)合使用,以從通常以PDF格式提供的商業(yè)文檔中提取和解釋信息。其他組件可解析常規(guī)表格和發(fā)票表格。針對(duì)抵押貸款處理和采購的行業(yè)特定解決方案目前正在測(cè)試中。谷歌公司有六個(gè)合作伙伴可以幫助實(shí)施Document AI解決方案。
各種工具的定價(jià)
Cloud AutoML Translation:訓(xùn)練:每小時(shí)76美元;分類:在前50萬個(gè)字符后,每百萬個(gè)字符需支付80美元。
Cloud AutoML Natural Language:訓(xùn)練:每小時(shí)3美元;分類:在前3萬條記錄之后的每千條記錄需要支付5美元。
Cloud AutoML Vision:訓(xùn)練:在第一個(gè)小時(shí)后每小時(shí)為20美元;分類:前1000個(gè)圖像后每千個(gè)圖像為3美元。
Cloud AutoML Tables: 訓(xùn)練:6小時(shí)免費(fèi)一次性使用+每小時(shí)19.32美元(并行使用92臺(tái)n1-standard-4等效服務(wù)器);批量預(yù)測(cè):6小時(shí)免費(fèi)一次性使用+每小時(shí)1.16 美元(并行使用5.5臺(tái)n1-standard-4等效服務(wù)器);在線預(yù)測(cè):每小時(shí)0.21美元(1臺(tái)n1-standard-4等效服務(wù)器)。
Video:在每月第一個(gè)1000分鐘后,每分鐘將支付4美分到7美分。
Natural Language:每月第5,000個(gè)單元后,每1,000個(gè)單元需要支付0.5美元到2美元。
Translation:在每月前50萬個(gè)字符之后,每百萬個(gè)字符需要支付20美元。
Media Translation:每月首個(gè)60分鐘之后,每分鐘需要支付0.068美元至0.084美元。
Text to speech:每月首個(gè)400萬個(gè)字符后,每100萬個(gè)字符需要支付4美元,
Speech to text:每月首個(gè)60分鐘后,每15秒需要支付0.004至0.009美元。
Dialogflow CX代理:100次聊天會(huì)話需要支付20美元,100次語音會(huì)話需要支付45美元。
Dialogflow ES代理:因模式而異,反映了基本的語音和自然語言收費(fèi)。
Recommendations AI: 2.5美元/節(jié)點(diǎn)/小時(shí),用于訓(xùn)練和調(diào)整;每月2000萬個(gè)請(qǐng)求以上的數(shù)量折扣的預(yù)測(cè)為0.27美元/1000個(gè)。
GPU:0.11到2.48美元/GPU/小時(shí)。
TPU:每小時(shí)需要支付1.35到8美元。
AI Platform Training:每小時(shí)需要支付0.19到21.36美元。
AI Platform Predictions: 需要支付0.045到1.13美元/節(jié)點(diǎn)/小時(shí),加上GPU價(jià)格為0.45到2.48美元/ GPU /小時(shí)。
平臺(tái)
所有服務(wù)均在Google Cloud Platform上運(yùn)行;一些也可以在內(nèi)部部署設(shè)施或容器中運(yùn)行。
責(zé)任編輯:PSY
-
谷歌
+關(guān)注
關(guān)注
27文章
6142瀏覽量
105116 -
人工智能
+關(guān)注
關(guān)注
1791文章
46896瀏覽量
237671 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8382瀏覽量
132444
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論