機器學習和人工智能將會繼續深入IT服務領域,并為軟件工程師開發的應用程序提供補充。如果IT團隊想跟上發展步伐,就需要提高他們的機器學習技能。
云計算服務為構建和部署人工智能和機器學習應用程序所需的一系列功能提供支持。在許多方面,人工智能系統的管理方式與IT專業人士在云平臺中熟悉的其他軟件非常相似。但只是因為可以部署應用程序,并不意味著可以成功地部署機器學習模型。
雖然這些共同點可能會促進過渡,但也存在著顯著的差異。除了軟件工程技能之外,組織的IT團隊成員還需要擁有特定的機器學習和人工智能知識。除了技術專長之外,他們還需要了解目前可用的云計算工具來支持他們團隊的計劃。
IT專業人士需要探索在云端成功使用人工智能所需的五種機器學習技能,并了解亞馬遜、微軟和谷歌提供支持這些技能的產品。雖然這些技能有一些重疊,但不會有全能的技能。通過培養具有這些技能的團隊成員,可以讓組織獲得利用基于云計算的機器學習的優勢。
1. 數據工程
如果IT專業人員想在云平臺實施任何類型的人工智能策略,都需要了解數據工程。數據工程包含一系列要求數據整理和工作流開發的技能,以及一些軟件架構的知識。
IT專業知識的不同領域可以分解為IT專業人員應該完成的不同任務。例如,數據整理通常涉及數據源標識、數據提取、數據質量評估、數據集成和管道開發,以在生產環境中執行這些操作。
數據工程師應該能夠輕松地使用關系數據庫、NoSQL數據庫和對象存儲系統。Python是一種流行的編程語言,可以與批處理和流處理平臺(如apachebeam)和分布式計算平臺(如apachespark)一起使用。即使IT人員不是精通Python程序的專家,掌握一些Python語言的知識將使其能夠從大量的開源工具中獲取數據工程和機器學習。
數據工程在所有主要云平臺中都得到了很好的支持。AWS公司提供了全面的服務來支持數據工程,例如AWS Glue,適用于Apache Kafka的Amazon Managed Streaming(MSK)和各種Amazon Kinesis服務。AWS Glue是數據目錄以及提取、轉換和加載(ETL)服務,其中包括對計劃作業的支持。MSK是數據工程管道的有用構建塊,而Kinesis服務對于部署可擴展流處理管道特別有用。
谷歌云平臺提供了Cloud Dataflow,這是一項托管的Apache Beam服務,可以支持批處理和Steam處理。對于ETL流程,谷歌云平臺提供了基于Hadoop的數據集成服務。
Microsoft Azure也提供了幾種托管數據工具,例如Azure Cosmos DB、Data Catalog和Data Lake Analytics等。
2. 建立模型
機器學習是一門正在不斷發展和進步的學科,IT人員可以通過研究和開發機器學習算法來從事自己的職業。
IT團隊使用工程師提供的數據來構建模型和創建可以提出建議,預測值和對項目進行分類的軟件。重要的是要了解機器學習的基礎知識,即使許多模型構建過程都是在云中自動完成的。
作為模型構建者,需要了解數據和業務目標,制定問題的解決方案,并了解如何將其與現有系統集成的工作。
市場上的一些產品包括谷歌公司的Cloud AutoML,這是可以幫助組織使用結構化數據以及圖像、視頻和自然語言來構建自定義模型的服務,而無需對機器學習有更多的了解。 微軟Azure在Visual Studio中提供了ML.NET模型構建器,該模型構建器提供了用于構建、訓練和部署模型的界面。Amazon SageMaker是另一項托管服務,用于在云中構建和部署機器學習模型。
這些工具可以選擇算法,確定數據中哪些特征或屬性最有用,并使用稱之為超參數調整的過程優化模型。這些服務擴展了機器學習和人工智能策略的潛在用途。正如人們駕駛汽車不必成為汽車機械工程師一樣,IT專業人員也不需要獲得機器學習的研究生學位來構建有效的模型。
3. 公平與偏差檢測
算法做出的決策直接而顯著地影響個人。例如,金融服務使用人工智能來做出有關信貸的決策,這可能會無意中對特定人群產生偏見。這不僅可能有拒絕信貸對個人帶來的影響,而且還會使金融機構面臨違反《平等信貸機會法》等法規的風險。
這些看似艱巨的任務對于人工智能和機器學習模型是必不可少的。檢測模型中的偏差可能需要具有統計和機器學習技能,但是與模型構建一樣,某些繁重的工作可以由機器完成。
FairML是用于審核預測模型的開源工具,可幫助開發人員識別工作中的偏見。檢測模型偏差的經驗還可以為數據工程和模型構建過程提供幫助。谷歌云的公平性工具在市場上領先,其中包括假設分析工具、公平性指標和可解釋的人工智能服務。
4. 模型性能評估
模型構建過程的一部分是評估機器學習模型的性能。例如,根據準確性和召回率對分類器進行評估。回歸模型(例如那些預測房屋出售價格的模型)是通過測量平均誤差率來評估的。
如今表現良好的模型將來可能會表現不佳。問題不在于該模型是否以某種方式被破壞,而是該模型是根據不再反映其使用環境的數據進行訓練的。即使沒有突然的重大事件,也會發生數據漂移。重要的是評估模型并在生產中繼續對其進行監視。
Amazon SageMaker、Azure Machine Learning Studio和Google Cloud AutoML等服務包括一系列模型性能評估工具。
5. 領域知識
領域知識并不是一種特定的機器學習技能,但它是成功的機器學習策略中最重要的部分之一。
每個行業都有一定的知識體系,必須以某種能力進行研究,尤其對于構建算法的決策者。機器學習模型受到約束以反映用于訓練它們的數據。具有領域知識的IT人員對于知道在哪里應用人工智能,并評估其有效性至關重要。
責編AJX
-
云計算
+關注
關注
39文章
7735瀏覽量
137205 -
人工智能
+關注
關注
1791文章
46859瀏覽量
237584 -
機器學習
+關注
關注
66文章
8377瀏覽量
132411
發布評論請先 登錄
相關推薦
評論