精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習特征工程的五個方面優點

汽車玩家 ? 來源:今日頭條 ? 作者:不一樣的程序猿 ? 2020-03-15 16:57 ? 次閱讀

特征工程是用數學轉換的方法將原始輸入數據轉換為用于機器學習模型的新特征。特征工程提高了機器學習模型的準確度和計算效率,體現在以下五個方面

1、把原始數據轉換成與目標相關的數據

我們可以使用特征工程對原始數據進行轉換,使其更接近目標變量,轉換后的特征對目標更有預測性。在這種情況下,雖然未加工輸入出現在原始數據集中,但如果將轉換后的特征作為輸入,則機器學習將提高預測的準確性。

2、引入額外的數據源

特征工程可以使從業者向機器學習模型引入額外的數據源。對于首次注冊的用戶,我們可以猜測該用戶的終生價值。在眾多指標中,我們可以捕捉每個用戶的地理位置。雖然這個數據可以直接作為分類特征(例如,IP地址和郵政編碼)提供,但模型基于這些來確定位置信息仍存在困難。

通過第三方的人口統計數據,我們可以做的更好。例如,這將允許我們計算每個用戶區域的平均收入和人口密度,并把這些因素直接插入到訓練集中?,F在,這些預測性因素立即變得更容易推斷,而不是依賴模型從原始位置數據推斷這種微妙的關系。更進一步,位置信息轉換成收入和人口密度的特征工程,可使我們估計這些位置衍生出的特征哪一個更為重要。

3、使用非結構化的數據源

特征工程可使我們在機器學習模型中使用非結構化的數據源。許多數據源本質上并不是結構化的特征向量。非結構化數據,如文本、時間序列、圖像、視頻、日志數據和點擊流等,占創建數據的絕大多數。特征工程使從業者從上述原始數據流中產生機器學習的特征向量。

4、創建更容易解釋的特征

特征工程使機器學習的從業者能夠創建更易于解釋和實用的特征。通常,使用機器學習發現數據中的模式,對于產生精確的預測十分有用,但會遇到模型的可解釋性和模型的最終應用的一些限制。這些情況下,在驅動數據生成、鏈接原始數據和目標變量的過程中,產生更有指示性的新特征,這樣更有價值。

5、用大特征集提高創造性

特征工程使得我們可以扔進大量的特征,觀察它們代表了什么。我們能創建盡可能多的數據,觀察在訓練模型中哪些更有預測力。這使得機器學習的從業者在創建和測試特征時擺脫僵化心理,并能夠發現新的趨勢和模式。

雖然當幾十個甚至上百個特征用于訓練機器學習模型時,過擬合成為一個問題,但嚴謹的特征選擇算法,可減少特征使其易于管理。例如,我們可以自主選擇前10個特征的預測,與所有1000個特征的預測是一樣好,還是優于后者。

特征工程

引自《機器學習實戰》

在機器學習應用領域中,特征工程扮演著非常重要的角色,可以說特征工程是機器學習應用的基礎。在機器學習業界流傳著這樣一句話:“數據和特征決定了機器學習算法的上限,而模型和算法只是不斷逼近而已。”在機器學習應用中,特征工程介于“數據”和“模型”之間,特征工程是使用數據的專業領域知識創建能夠使機器學習算法工作的特征的過程,而好的數據勝于多的數據。美國計算機科學家Peter Norvig有兩句經典名言:“基于大量數據的簡單模型勝于少量數據的復雜模型。”以及“更多的數據勝于聰明的算法,而好的數據勝于多的數據?!币虼?,特征工程的前提是收集足夠多的數據,其次是從大量數據中提取關鍵信息并表示為模型所需要的形式。合適的特征可以讓模型預測更加容易,機器學習應用更有可能成功。

引自《美團機器學習》

在監督機器學習過程中,我們使用數據教自動系統如何做出準確的決策。機器學習算法被設計成發現模式和歷史訓練數據間的聯系;它們從數據中學習并將學習結果編碼到模型中,從而對新數據的重要屬性做出準確的預測。因此,訓練數據是機器學習中的基本問題。有了高質量的數據,就可以捕捉到細微的差別和關聯關系,從而建立高保真的預測系統。相反,若訓練數據質量不佳,則再好的機器學習算法也無濟于事。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8306

    瀏覽量

    131838
收藏 人收藏

    評論

    相關推薦

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    重要環節,目標是從給定的時間序列數據中提取出有用的信息和特征,以支持后續的分析和預測任務。 特征工程(Feature Engineering)是將數據轉換為更好地表示潛在問題的
    發表于 08-17 21:12

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    本人有些機器學習的基礎,理解起來一點也不輕松,加油。 作者首先說明了時間序列的信息提取是時間序列分析的一重要環節,目標是從給定的時間序列數據中提取出有用的信息和特征,以支持后續的分析
    發表于 08-14 18:00

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    數據中提取特征并將其轉化為交易策略,以及機器學習在其他金融領域(包括資產定價、資產配置、波動率預測)的應用。 全書彩版印刷,內容結構嚴整,條理清晰,循序漸進,由淺入深,是很好的時間序列學習
    發表于 08-07 23:03

    機器學習中的數據預處理與特征工程

    機器學習的整個流程中,數據預處理與特征工程是兩至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從數
    的頭像 發表于 07-09 15:57 ?191次閱讀

    人工智能深度學習大模型及其應用領域

    隨著科技的飛速發展,人工智能(AI)技術特別是深度學習在各個領域展現出了強大的潛力和廣泛的應用價值。深度學習作為人工智能的一核心分支,通過模擬人腦神經網絡的結構和功能,實現了對復雜數據的自動
    的頭像 發表于 07-03 18:20 ?2206次閱讀

    人臉檢測的種方法各有什么特征和優缺點

    人臉檢測是計算機視覺領域的一重要研究方向,主要用于識別和定位圖像中的人臉。以下是種常見的人臉檢測方法及其特征和優缺點的介紹: 基于膚色的方法 特征:基于膚色的方法主要利用人臉膚色與
    的頭像 發表于 07-03 14:47 ?421次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮中,機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器
    的頭像 發表于 07-01 11:40 ?613次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一經典數據集,在統計學習機器
    的頭像 發表于 06-27 08:27 ?1426次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經典算法與應用

    特征工程與數據預處理全解析:基礎技術和代碼示例

    機器學習和數據科學的世界里,數據的質量是建模成功與否的關鍵所在。這就是特征工程和數據預處理發揮作用的地方。本文總結的這些關鍵步驟可以顯著提高模型的性能,獲得更準確的預測,我們將深入研
    的頭像 發表于 06-26 08:28 ?334次閱讀
    <b class='flag-5'>特征</b><b class='flag-5'>工程</b>與數據預處理全解析:基礎技術和代碼示例

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    ,如何將機器學習、深度學習或者大模型技術應用在大規模的數據生產中,是一非常關鍵的問題。 國內外已出版了許多關于機器
    發表于 06-25 15:00

    通過強化學習策略進行特征選擇

    來源:DeepHubIMBA特征選擇是構建機器學習模型過程中的決定性步驟。為模型和我們想要完成的任務選擇好的特征,可以提高性能。如果我們處理的是高維數據集,那么選擇
    的頭像 發表于 06-05 08:27 ?222次閱讀
    通過強化<b class='flag-5'>學習</b>策略進行<b class='flag-5'>特征</b>選擇

    機器視覺系統模塊介紹

    典型的機器視覺系統由主要模塊組成:照明、鏡頭、相機、圖像采集和視覺處理器。讓我們看一下這結構的目的、
    的頭像 發表于 05-09 17:13 ?582次閱讀
    <b class='flag-5'>機器</b>視覺系統<b class='flag-5'>五</b><b class='flag-5'>個</b>模塊介紹

    數據預處理和特征工程的常用功能

    機器學習最基礎的5流程,分別是數據獲取,數據預處理,特征工程,建模、測試和預測,上線與部署。
    的頭像 發表于 01-25 11:26 ?551次閱讀

    什么是特征工程?機器學習特征工程詳解解讀

    One-hot 編碼對于用機器學習模型能夠理解的簡單數字數據替換分類數據很有用。
    發表于 12-28 17:14 ?255次閱讀
    什么是<b class='flag-5'>特征</b><b class='flag-5'>工程</b>?<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的<b class='flag-5'>特征</b><b class='flag-5'>工程</b>詳解解讀

    機器視覺學習筆記:圖像特征提取

    區域和輪廓只包含對分割結果的原始描述,在實際應用中我們還需要從區域或輪廓中確定一或多個特征量。這些確定的特征量被稱為特征。
    的頭像 發表于 10-23 14:12 ?1179次閱讀
    <b class='flag-5'>機器</b>視覺<b class='flag-5'>學習</b>筆記:圖像<b class='flag-5'>特征</b>提取