精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深入研究數據分析技術

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Seth DeLand ? 2022-07-06 14:17 ? 次閱讀

數據的海嘯為企業提供了優化流程和提供差異化??產品的機會。一套新的算法??和基礎設施已經出現,允許企業使用大數據或機器學習等關鍵數據分析技術來利用這些機會。

此外,大數據或機器學習背后的這種新基礎設施導致了許多不同的技術,這些技術支持構建數據分析算法的迭代過程。正是構建算法的迭代過程的這個開始階段可以讓企業走向成功。這個迭代過程涉及嘗試多種策略,例如尋找其他數據源以及不同的機器學習方法和特征轉換。

鑒于要嘗試的組合可能無限多,因此快速迭代至關重要。領域專家非常適合快速迭代,因為他們可以利用他們的知識和直覺來避免不太可能產生強大結果的方法。具有領域知識的工程師越快將他們的知識應用到支持快速迭代的工具中,企業就能越快獲得競爭優勢。

但在深入研究支持這項活動的技術之前,讓我們先來看看這個迭代過程的一個例子,以及在此過程中要問的一些問題。

迭代數據集

假肢公司知道,如果它知道客戶會做什么活動(站立、坐著、走路等),它可以制造更智能的假肢。因此,它提出的第一個問題是:我們可以使用哪些數據來確定這一點?

該公司的工程師知道他們的大多數客戶都有智能手機,因此他們希望使用來自智能手機傳感器的數據來確定他們的活動。該公司的工程師首先記錄加速度計的數據。他們將機器學習算法直接應用于數據,但學習結果不如他們希望的那么好。迭代過程開始了,工程師接著問:我們是否有其他方法可以為機器學習準備數據,從而產生更好的結果?

該公司的工程師應用信號處理技術從傳感器數據中提取頻率內容,并再次嘗試機器學習技術。結果更好,但還沒有完全達到,所以他們問:我們可以使用其他數據來源來改進我們的預測嗎?

他們決定還記錄來自智能手機的陀螺儀數據,并將其與加速度計數據相結合。再次訓練他們的機器學習模型,他們現在對結果感到滿意,并開始生產。

工程師在迭代過程中可能會問的其他問題包括:

有哪些可用數據?

還有其他數據源嗎?

可以使用哪些類型的流程從數據中提取高級信息

該模型將在哪里運行?

某些類型的錯誤分類是否比其他類型的錯誤分類成本更高?

我們如何才能快速進行實驗來驗證想法并回答上述問題?

既然您已經看到了迭代過程的示例和要問的問題,那么這個過程背后的技術呢?

大數據迭代

隨著越來越多的數據產生,系統需要發展以處理所有數據。在這個“大數據”領域,兩個大型項目重塑了格局:Hadoop 和 Spark。這兩個項目都是 Apache 軟件基金會的一部分。它們共同使存儲和分析大量數據變得更容易、更便宜。

這些技術可以極大地影響工程師的工作。對于習慣于在臺式機、網絡驅動器或傳統數據庫中處理文件中數據的工程師來說,這些新工具需要一種不同的方式來訪問數據,然后才能考慮進行分析。在許多情況下,可能會造成人為的數據孤島和低效率,例如每次執行新分析時都需要聯系某人將數據從大數據系統中提取出來。

工程師在處理大數據時面臨的另一個挑戰是需要改變他們的計算方法。當數據小到足以放入內存時,標準的工作流程是加載數據并執行計算;計算通常會很快,因為數據已經在內存中。但是對于大數據,通常會有磁盤讀/寫,以及跨網絡的數據傳輸,這會減慢計算速度。

當工程師設計一種新算法時,他們需要能夠快速迭代許多設計。結果是一個新的工作流程,包括獲取數據樣本并在本地使用它,從而實現快速迭代和輕松使用有用的開發工具,如調試器。一旦算法在樣本上經過審查,它就會針對大數據系統中的完整數據集運行。

這些挑戰的解決方案是一個系統,讓工程師可以使用熟悉的環境編寫代碼,該代碼既可以在本地數據樣本上運行,也可以在大數據系統中的完整數據集上運行。MATLAB 等工具與 Hadoop 等大數據系統建立連接。可以下載數據樣本,并在本地制作算法原型。利用延遲評估框架的新計算模型用于以性能優化的方式在完整數據集上運行算法。對于工程和數據科學工作流程中常見的迭代分析,這種延遲評估模型是減少完成完整數據集分析所需時間的關鍵,這通常可能是幾分鐘或幾小時的數量級。

大數據技術一直是數據科學發展的關鍵推動力。隨著大量數據的收集,需要新的算法來對這些數據進行推理,這導致了機器學習的使用熱潮。

機器學習

機器學習用于識別數據中的潛在趨勢和結構。機器學習分為無監督學習和監督學習。

在無監督學習中,我們試圖發現數據中的關系,例如所有相似的數據點組。例如,我們可能想查看駕駛數據,以了解人們駕駛汽車的模式是否不同。通過聚類分析,我們可能會發現不同的趨勢,例如城市駕駛與高速公路駕駛,或者更有趣的是,不同風格的駕駛員(例如,激進的司機)。

在監督學習中,我們得到輸入和輸出數據,目標是訓練一個模型,該模型在給定新輸入的情況下可以預測新輸出。監督學習通常用于圖像中的預測性維護、欺詐檢測和面部識別等應用。

機器學習的每個領域——無監督學習和監督學習——都有幾十種流行的算法(還有數百種不太流行的算法)。但是,很難知道這些算法中的哪一種最適合您正在處理的特定問題。通常,最好的辦法就是嘗試一下并比較結果。這在某些環境中可能是相當大的挑戰,因為研究人員根據他們的問題和偏好構建具有不同接口的算法。

成熟的機器學習工具為各種算法提供一致的界面,并且可以輕松快速地嘗試不同的方法。這對于執行數據科學的領域專家來說至關重要,因為它使他們能夠識別機器學習比傳統方法提供改進的“速贏”。這種方法還可以防止他們花費數天或數周的時間將機器學習模型調整為不適合機器學習的數據集。MATLAB 等工具通過提供訓練和比較多個機器學習模型的點擊式應用??程序來解決這個問題。

迭代更快

大數據和機器學習相結合,有望為長期存在的業務問題帶來新的解決方案。底層技術掌握在非常熟悉這些業務問題的領域專家手中,可以產生顯著的成果。例如,貝克休斯的工程師使用機器學習技術來預測他們的天然氣和石油開采卡車上的泵何時會出現故障。他們從這些卡車上收集了近 1 TB 的數據,然后使用信號處理技術來識別相關的頻率內容。領域知識在這里至關重要,因為他們需要了解卡車上可能出現在傳感器讀數中的其他系統,但這對預測泵故障沒有幫助。他們應用了機器學習技術,可以區分健康的泵和不健康的泵。由此產生的系統預計將減少 1000 萬美元的總成本。在整個過程中,他們對泵車系統的了解使他們能夠深入挖掘數據并快速迭代。

利用處理大數據和應用機器學習的工具,貝克休斯的工程師能夠很好地解決改善業務成果的問題。憑借對這些復雜系統的領域知識,工程師們將這些工具遠遠超出了網絡和營銷應用程序的傳統用途。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • matlab
    +關注

    關注

    182

    文章

    2963

    瀏覽量

    230195
  • 機器學習
    +關注

    關注

    66

    文章

    8382

    瀏覽量

    132444
  • 大數據
    +關注

    關注

    64

    文章

    8864

    瀏覽量

    137310
收藏 人收藏

    評論

    相關推薦

    深入解析:海外IP代理在跨境電商與數據分析中的應用

    海外IP代理在跨境電商與數據分析中的應用廣泛,其重要性不容忽視。
    的頭像 發表于 11-20 08:27 ?172次閱讀

    LLM在數據分析中的作用

    隨著大數據時代的到來,數據分析已經成為企業和組織決策的關鍵工具。數據科學家和分析師需要從海量數據中提取有價值的信息,以支持業務決策。在這個過
    的頭像 發表于 11-19 15:35 ?159次閱讀

    eda與傳統數據分析的區別

    EDA(Exploratory Data Analysis,探索性數據分析)與傳統數據分析之間存在顯著的差異。以下是兩者的主要區別: 一、分析目的和方法論 EDA 目的 :EDA的主要目的是對
    的頭像 發表于 11-13 10:52 ?226次閱讀

    raid 在大數據分析中的應用

    的具體應用: 一、提高性能 并行讀寫 :RAID技術通過并行讀寫多個磁盤,可以顯著提高數據的讀寫速度。在大數據分析環境中,數據讀寫速度是影響分析
    的頭像 發表于 11-12 09:44 ?165次閱讀

    SUMIF函數在數據分析中的應用

    在商業和科學研究中,數據分析是一項基本且關鍵的技能。Excel作為最常用的數據分析工具之一,提供了多種函數來幫助用戶處理和分析數據。SUMI
    的頭像 發表于 11-11 09:14 ?247次閱讀

    云計算在大數據分析中的應用

    云計算在大數據分析中的應用廣泛且深入,它為用戶提供了存儲、計算、分析和預測的強大能力。以下是對云計算在大數據分析中應用的介紹: 一、存儲和處理海量
    的頭像 發表于 10-24 09:18 ?334次閱讀

    數據分析除了spss還有什么

    數據分析是當今世界中一個非常重要的領域,它涉及到從大量數據中提取有用信息、發現模式和趨勢,并為決策提供支持。SPSS(Statistical Package for the Social
    的頭像 發表于 07-05 15:01 ?556次閱讀

    數據分析的工具有哪些

    數據分析是一個涉及收集、處理、分析和解釋數據以得出有意義見解的過程。在這個過程中,使用正確的工具至關重要。以下是一些主要的數據分析工具,以及它們的功能和用途的介紹。 Excel Exc
    的頭像 發表于 07-05 14:54 ?778次閱讀

    數據分析有哪些分析方法

    數據分析是一種重要的技能,它可以幫助我們從大量的數據中提取有價值的信息,從而做出更明智的決策。在這篇文章中,我們將介紹數據分析的各種方法,包括描述性分析、診斷性
    的頭像 發表于 07-05 14:51 ?534次閱讀

    倫敦商學院深入研究中國神州數碼戰略轉型

    China)數字化轉型歷程的深入研究為基礎,共同撰寫了案例研究「神州數碼的轉型:駕馭數據、云和人工智能的潛力(The Transformation of Digital China
    的頭像 發表于 07-02 11:25 ?468次閱讀
    倫敦商學院<b class='flag-5'>深入研究</b>中國神州數碼戰略轉型

    機器學習在數據分析中的應用

    隨著大數據時代的到來,數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從數據中學習規律,為企業和組織提供了更高效、更準確的
    的頭像 發表于 07-02 11:22 ?553次閱讀

    求助,關于AD采集到的數據分析問題

    問題描述:使用AD采集一個10Hz到2MHz的脈沖,脈沖底部可能大于零,由采集到的數據分析出該脈沖的上升時間,幅值和占空比。 備注:在分析的時候已經知道脈沖的頻率,精度為2X10^-5. 在分析
    發表于 05-09 07:40

    態勢數據分析系統軟件

    智慧華盛恒輝態勢分析軟件系統的功能描述、部署環境、界面使用、技術支持及一些常見問題及其解決辦法等。為數據態勢分析軟件系統的管理人員和使用人員提供說明。 智慧華盛恒輝態勢
    的頭像 發表于 04-22 11:36 ?417次閱讀

    基于振弦采集儀的工程監測數據分析方法研究

    基于振弦采集儀的工程監測數據分析方法研究 基于振弦采集儀的工程監測數據分析方法研究主要涉及以下幾個方面: 基于振弦采集儀的工程監測數據分析
    的頭像 發表于 01-02 15:12 ?384次閱讀
    基于振弦采集儀的工程監測<b class='flag-5'>數據分析</b>方法<b class='flag-5'>研究</b>

    Get職場新知識:做分析,用大數據分析工具

    為什么企業每天累積那么多的數據,也做數據分析,但最后決策還是靠經驗?很大程度上是因為這些數據都被以不同的指標和存儲方式放在各自的系統中,這就導致了數據
    發表于 12-05 09:36