亚洲AV无码精品无码麻豆_免费无码国产V片在线观看_无遮挡粉嫩小泬久久久久久久

在格物匯之前發表的《工業大數據挖掘的利器——Spark MLlib》中提到，Spark 的MLlib組件能夠對工業現場海量數據進行高效挖掘，快速呈現結果給業務分析人員。接下來將向大家介紹SparkMLlib 中的GBDT算法，并將應用該算法對工業數據進行代碼實戰。

1算法概念

GB（Gradient Boosting）梯度提升算法，GB 共需要進行M次迭代，通過采用梯度下降的方法，每次迭代向損失函數的負梯度方向進行移動，從而使損失函數越來越小，進而使模型越來越精確。算法偽代碼如下：

GB算法跟原始的Boosting算法相比較，還是有比較明顯的區別。

Boosting算法開始的時候，是會給每個樣本附上權重的，在每次迭代的時候就會增加錯的樣本的權重，減少對的樣本的權重，經過N次迭代之后，會得到N個分類器，然后我們再將他們組合起來，得到最終模型。

GB算法與Boosting區別是，他的每一次迭代的目標都是減少上一次的殘差，所以在殘差減少的方向上建立一個新的模型。在GB算法框架上加入決策樹，就是GBDT（GradientBoost Decision Tree）算法。

GBDT主要的優點有：

1）可以靈活處理各種類型的數據，包括連續值和離散值。

2）在相對少的調參時間情況下，預測的準備率也可以比較高。這個是相對SVM來說的。

3）使用一些健壯的損失函數，對異常值的魯棒性非常強。比如 Huber損失函數和Quantile損失函數。

4）很好的利用了弱分類器進行級聯。

5）充分考慮的每個分類器的權重。

6）可以得到變量間的重要性排序。

GBDT的主要缺點有：

1）由于弱學習器之間存在依賴關系，難以并行訓練數據，不過可以通過自采樣的SGBT來達到部分并行。

2完整代碼實例

工業生產中，產品在制程過程中會有很多特性值，如果能對產品的特性值及時進行預測，得到特性值的具體數值，那么就會幫組業務人員知曉產品的質量，實現產品的全檢，并能防止異常產品后流，造成不必要的浪費。

本次實戰代碼的采用的數據是半導體制程中某一道工序的機臺的制程參數值，通過采用SparkMLlib中的GBDT算法對工業現場機臺的制程參數進行建模，預測出經過該機臺生產之后產品的膜層厚度。

模型最后輸出模型性能指標如下：

Mape（Mean Absolute Percentage Error）：0．23％

通過上圖模型輸出的預測值與實際值對比，發現預測出來的產品膜厚的數值走勢跟實際數值走勢基本符合，mape達到0．5％以內，擬合度相當可觀，后續還可以通過樣本篩選以及特征工程等手段對該模型進行進一步調優。

在模型達到業務需求的擬合度等指標后，通過該模型進行部署，實現產品的“實時全檢”，從而實現產品質量的全面監控，杜絕異常產品后流；與工廠內的抽檢系統結合后，降低產品的抽檢率，提高工廠的效率。

GBDT算法的用途還是比較廣泛的，它不僅可以處理分類問題，能對線性與非線性回歸問題進行處理，還能通過輸出變量間重要因子排序，方便業務人員快速定位異常變量。在工業現場的頑固異常分析還是產品特性預測等領域，GBDT算法確實是很值得數據分析人員考慮的一種算法。

本文作者：

格創東智大數據工程師黃歡（轉載請注明作者及來源）

審核編輯：符乾江

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

智能計算

智能計算

+關注

關注
0

文章
176

瀏覽量
16454
智能制造

智能制造

+關注

關注
48

文章
5481

瀏覽量
76261
工業互聯網

工業互聯網

+關注

關注
28

文章
4299

瀏覽量
94050
工業大數據

工業大數據

+關注

關注
0

文章
72

瀏覽量
7825

西北工業大學OpenHarmony技術俱樂部正式揭牌成立

11月15日，由OpenAtom OpenHarmony（以下簡稱“OpenHarmony”）項目群技術指導委員會與西北工業大學共同舉辦的“西北工業大學OpenHarmony技術俱樂部成立大會”在

發表于 11-19 18:04 ?148次閱讀

西北<b class='flag-5'>工業大</b>學OpenHarmony技術俱樂部正式揭牌成立

智慧城市與大數據的關系

智慧城市與大數據之間存在著密切的關系，這種關系體現在大數據對智慧城市建設的支撐和推動作用，以及智慧城市產生的大量數據對大數據技術的應用需求。 大數據

發表于 10-24 15:27 ?472次閱讀

基于大數據與深度學習的穿戴式運動心率算法

性能的關鍵手段。然而，在復雜多變的運動環境中，準確測量心率數據對于傳統算法而言具有較大的技術瓶頂。本文將探討如何運用大數據和深度學習技術來開發創新的穿戴式運動心率算

發表于 09-10 08:03 ?221次閱讀

小鵬汽車榮獲2024年機械工業大型重點骨干企業

近日，由中國機械工業聯合會主辦的“2024年機械工業大型重點骨干企業發展論壇暨機械、鋼鐵產業鏈融通發展大會”在北京舉行，小鵬汽車榮獲“機械工業大型重點骨干企業”稱號。

發表于 08-05 10:26 ?468次閱讀

工業大數據云平臺在設備預測性維護中的作用

，只有保證設備的安全穩定運行才能保障生產的持續，質量的可靠，提升企業產品競爭力。因此，企業就需要加強對設備狀況的及時把握，并一定程度上實現工業設備預測性維護。為此，數之能提供的工業大數據云平臺可以全面接入

發表于 06-28 15:31 ?228次閱讀

感謝湖北工業大學對我司高低溫試驗箱的認可

近日，我們收到了來自湖北工業大學的一份重要認可函，這份函件是對我們公司研發的高低溫試驗箱的高度評價和肯定。在此，我們深感榮幸，并對湖北工業大學表示衷心的感謝。感謝湖北工業大學對我司高低溫試驗箱的認可

發表于 05-29 09:59 ?280次閱讀

海清智元與某央企銀行簽訂行業大模型和AI算法戰略合作協議

海清智元與某央企銀行簽訂行業大模型和AI算法戰略合作協議

發表于 05-14 14:58 ?456次閱讀

工業大模型的五個基本問題

工業業大模型是大模型為賦能工業應用所產生的產業新形態，是制造業數字化轉型3.0的重要載體，是一個新質體。

發表于 04-23 16:04 ?661次閱讀

工業大數據發展面臨的問題

工業大數據作為工業與數字經濟之間的橋梁紐帶，對加快工業數字化轉型、推進數實融合，支撐新型工業化建設意義重大。

發表于 04-16 11:52 ?500次閱讀

什么是國密算法？工業網關為什么要支持國密算法？

工業網關是應用于工業物聯網關的常見通信交換傳輸設備，由于在使用過程中通常涉及工業敏感數據，因此也需要支持國密算法實現

發表于 01-31 16:55 ?1102次閱讀

大數據技術是干嘛的 大數據核心技術有哪些

大數據技術是指用來處理和存儲海量、多類型、高速的數據的一系列技術和工具。現如今，大數據已經滲透到各個行業和領域，對企業決策和業務發展起到了重要作用。本文將詳細介紹大數據技術的概念、發展

發表于 01-31 11:07 ?3086次閱讀

基于工業大數據和物聯網的智能工廠如何實現

在中國制造2025及工業4.0技術的加持下，離散制造業的流程工業實現生產設備網絡化、生產數據可視化、生產現場無人化等現金數據應用，做到橫向與縱向的集成，實現邊緣到云端的

發表于 12-25 15:32 ?543次閱讀

誠邀報名｜黃向東邀您共話開源工業物聯網大數據

2023 開放原子開發者大會 OPEN ATOM DEVELOPERS CONFERENCE 開源工業物聯網大數據分論壇 2023.12.17 物聯網與大數據技術的飛速進步，為工業數字

發表于 12-20 16:54 ?351次閱讀

開源工業物聯網大數據分論壇圓滿舉辦

物聯網與大數據技術的快速發展，為工業數字化提供了技術支撐。推進新型工業化建設過程中，工業復雜場景離不開底層操作系統、物聯網數據采集、

發表于 12-20 09:40 ?845次閱讀

誠邀報名｜黃向東邀您共話開源工業物聯網大數據

2023開放原子開發者大會 . OPEN ATOM DEVELOPERS CONFERENCE 開源工業物聯網大數據分論壇 2023.12.17 物聯網與大數據技術的飛速進步，為工業

發表于 12-05 19:35 ?531次閱讀