精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹幾種用于機(jī)器學(xué)習(xí)探索性數(shù)據(jù)分析的數(shù)據(jù)類(lèi)型

nlfO_thejiangme ? 來(lái)源:未知 ? 作者:李倩 ? 2018-04-20 16:47 ? 次閱讀

數(shù)據(jù)類(lèi)型是統(tǒng)計(jì)學(xué)中的重要概念,我們需要對(duì)它有正確的理解方能利用正確的數(shù)據(jù)類(lèi)型來(lái)獲得結(jié)論。這篇文章將介紹幾種用于機(jī)器學(xué)習(xí)探索性數(shù)據(jù)分析的數(shù)據(jù)類(lèi)型,以便正確的把握和利用數(shù)據(jù)。

對(duì)數(shù)據(jù)結(jié)構(gòu)的良好理解對(duì)于機(jī)器學(xué)習(xí)中探索性分析十分重要,對(duì)于不同的數(shù)據(jù)類(lèi)型我們需要不同的統(tǒng)計(jì)學(xué)度量手段來(lái)進(jìn)行分析測(cè)試。同時(shí)也需要根據(jù)數(shù)據(jù)的類(lèi)型選擇合適的可視化方式來(lái)幫助我們更好的理解數(shù)據(jù)。最后數(shù)據(jù)類(lèi)型也為變量的分類(lèi)提供了一個(gè)有效的途徑。

分類(lèi)數(shù)據(jù)

分類(lèi)數(shù)據(jù)代表著對(duì)象的屬性特點(diǎn)。諸如人群的性別、語(yǔ)言、國(guó)籍大都屬于分類(lèi)數(shù)據(jù)。分類(lèi)數(shù)據(jù)通常也可以用數(shù)值表示(例如1表示女性而0表示男性),但需要注意的是這一數(shù)值并沒(méi)有數(shù)學(xué)上的意義僅僅是分類(lèi)的標(biāo)記而已。

定類(lèi)數(shù)據(jù)

定類(lèi)變量用于標(biāo)記不同變量的特征,而并不需要定量的數(shù)值,它們僅僅是標(biāo)簽而已。需要注意定類(lèi)數(shù)據(jù)是無(wú)序的,對(duì)于變量順序的更改不會(huì)改變數(shù)據(jù)的本質(zhì)特征。

上圖中表示的便是一個(gè)樣本典型的分類(lèi)數(shù)據(jù),分別描述了個(gè)體的性別和語(yǔ)言屬性。特別的作圖中是一個(gè)只有兩個(gè)屬性的二叉分枝。

定序數(shù)據(jù)

定序數(shù)據(jù)代表了離散但是有序的變量單位。它于定類(lèi)數(shù)據(jù)十分類(lèi)型但確實(shí)有序的數(shù)據(jù)組織。下面教育背景的數(shù)據(jù)很好地的描述了定序數(shù)據(jù)的特點(diǎn)。

上圖中的四個(gè)選項(xiàng)依次表示了不同的受教育程度,但卻無(wú)法量化初級(jí)教育與高中的差別和高中與大學(xué)差別間的不同。定序數(shù)據(jù)缺乏對(duì)于特征間差別的量化使得它更多的只能用于評(píng)價(jià)利于情緒和用戶滿意度等一系列非數(shù)值特征。

數(shù)值數(shù)據(jù)

離散數(shù)據(jù)

離散數(shù)據(jù)是指其取值是不連續(xù)的分離值,數(shù)據(jù)只能在一些特定點(diǎn)取值。這樣的數(shù)據(jù)不能定量測(cè)量但可以進(jìn)行統(tǒng)計(jì)計(jì)量,并可將其蘊(yùn)含的信息通過(guò)分類(lèi)的方式進(jìn)行表示。擲硬幣便是最著名的例子,我們無(wú)法預(yù)測(cè)出下一次硬幣的正反但是可以通過(guò)統(tǒng)計(jì)歷史數(shù)據(jù)來(lái)估測(cè)概率的分布。

當(dāng)處理離散數(shù)據(jù)時(shí)我們需要對(duì)兩個(gè)問(wèn)題進(jìn)行深入思考:數(shù)據(jù)是否可以計(jì)數(shù)統(tǒng)計(jì),是否可以分割成較小的部分。如果結(jié)論于此相關(guān)數(shù)據(jù)可以被測(cè)量而不能夠計(jì)數(shù),那么意味著我們需要處理的便是連續(xù)的數(shù)據(jù)類(lèi)型。

連續(xù)數(shù)據(jù)

連續(xù)數(shù)據(jù)類(lèi)型代表著對(duì)象可測(cè)量的連續(xù)取值,雖然不能夠計(jì)數(shù)但是可以用某種尺度進(jìn)行連續(xù)的測(cè)量取值,例如人的身高和年齡便是連續(xù)的數(shù)值。通常情況下人們只用或者實(shí)數(shù)來(lái)進(jìn)行表示。

定距數(shù)據(jù)

定距變量用于表示對(duì)象等差屬性的描述方法。當(dāng)我們使用定距變量時(shí)我們可以明確的知道數(shù)值間的順序和差別,并計(jì)量這種差別。對(duì)于溫度的描述就是一個(gè)定距數(shù)據(jù)典型的例子。

但定距變量存在的問(wèn)題在于它沒(méi)有一個(gè)絕對(duì)的基準(zhǔn)零值,對(duì)于上圖中的溫度來(lái)說(shuō)0度并不意味著沒(méi)有溫度。對(duì)于定距變量來(lái)說(shuō)我們可以進(jìn)行加減操作卻無(wú)法進(jìn)行乘除或者比例計(jì)算操作。由于不存在絕對(duì)零值使得描述性和推理性的統(tǒng)計(jì)方法都無(wú)法在定距數(shù)據(jù)上應(yīng)用。

定比數(shù)據(jù)

定比數(shù)據(jù)和定距數(shù)據(jù)一樣都是有序的數(shù)據(jù)排列,但定比數(shù)據(jù)存在一個(gè)絕對(duì)的零值,所描述的都是具有零值基準(zhǔn)的變量,包括重量、高度和長(zhǎng)度等。

為何數(shù)據(jù)類(lèi)型如此重要?

由于不同的統(tǒng)計(jì)方法適用于不同的數(shù)據(jù)類(lèi)型,所以數(shù)據(jù)的類(lèi)型對(duì)于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)分析十分重要。試想如果利用連續(xù)數(shù)據(jù)的分析方法來(lái)研究分類(lèi)數(shù)據(jù),那么十有八九會(huì)得出錯(cuò)誤的結(jié)論。對(duì)于數(shù)據(jù)類(lèi)型的理解將會(huì)有助于我們選擇正確的方法和統(tǒng)計(jì)模型來(lái)探索和分析數(shù)據(jù)。那么不同的數(shù)據(jù)類(lèi)型我們?cè)撨x擇何種統(tǒng)計(jì)模型來(lái)分析呢?

對(duì)于定類(lèi)數(shù)據(jù)來(lái)說(shuō)主要需要關(guān)注頻率、比例/百分比和可視化方法三個(gè)要素。用頻率度量某一事物在一定時(shí)間或者是在數(shù)據(jù)集中發(fā)生的次數(shù)。同時(shí)可以用頻率將其從數(shù)據(jù)中的占比進(jìn)行統(tǒng)計(jì)和分離。對(duì)于這列數(shù)據(jù)來(lái)說(shuō)餅圖和柱狀圖是最好的呈現(xiàn)方式。

對(duì)于定序數(shù)據(jù)來(lái)說(shuō)除了百分比和頻率等指標(biāo)外,還可以利用百分位數(shù)、中位數(shù)等統(tǒng)計(jì)指標(biāo)來(lái)描述數(shù)據(jù)。

對(duì)于連續(xù)數(shù)據(jù)來(lái)說(shuō)可以利用更為豐富的的手段進(jìn)行處理,除了常見(jiàn)統(tǒng)計(jì)手段的均值和方差外還有峰峰值、范圍等指標(biāo)來(lái)進(jìn)行表示。為了表示數(shù)據(jù)的誤差和離散程度,帶有誤差棒的箱式圖和直方圖不失為一種直觀的呈現(xiàn)方式。通過(guò)箱圖可以看到數(shù)據(jù)的集中程度和誤差程度,而直方圖則可以提供數(shù)據(jù)的整體形態(tài)、中值、分布以及趨勢(shì)。

在這篇文章中我們看到除了連續(xù)和離散的數(shù)值類(lèi)型外,統(tǒng)計(jì)學(xué)中還包括了定序數(shù)據(jù)、定類(lèi)數(shù)據(jù)、定距數(shù)據(jù)和定比數(shù)據(jù)等類(lèi)別。對(duì)于不同的數(shù)據(jù)類(lèi)型有著不同的分析和可視化方法,在著手處理數(shù)據(jù)時(shí),理解數(shù)據(jù)是開(kāi)始工作的首要條件,不僅有助于我們選擇正確的工具和方法,更有助于我們用正確的思維去探索和分析數(shù)據(jù),更容易地得出正確有效的結(jié)論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:機(jī)器學(xué)習(xí)探索性數(shù)據(jù)分析的數(shù)據(jù)類(lèi)型

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Python中常用的數(shù)據(jù)類(lèi)型

    的對(duì)象集合。7. 集合集合是一個(gè)無(wú)序的、不重復(fù)的數(shù)據(jù)組合,它的主要作用有兩個(gè),分別是去重和關(guān)系測(cè)試。以上是對(duì)Python的七種數(shù)據(jù)類(lèi)型的簡(jiǎn)單介紹,具體使用方法,可以進(jìn)行深入查找學(xué)習(xí)
    發(fā)表于 04-19 15:14

    怎么有效學(xué)習(xí)Python數(shù)據(jù)分析

    Python在人工智能、機(jī)器學(xué)習(xí)領(lǐng)域受到火熱追捧,很大程度上在于它擁有非常龐大的第三方庫(kù),以及強(qiáng)大的通用編程性能。因此,快速掌握Python進(jìn)行數(shù)據(jù)分析,就是學(xué)習(xí)Python各種第三方
    發(fā)表于 06-28 15:18

    什么是探索性測(cè)試ET

    探索性測(cè)試ET(exploratory)是和ST(script based test)相比較而言的.籠統(tǒng)地說(shuō),ST就是有確定的步驟和預(yù)期目標(biāo)的測(cè)試.探索性測(cè)試可以說(shuō)是一種測(cè)試思維。它沒(méi)有很多實(shí)際
    發(fā)表于 07-05 06:38

    推薦幾本機(jī)器學(xué)習(xí)和深度學(xué)習(xí)必讀書(shū)籍+機(jī)器學(xué)習(xí)實(shí)戰(zhàn)視頻PPT+大數(shù)據(jù)分析書(shū)籍

    小白 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)必讀書(shū)籍+機(jī)器學(xué)習(xí)實(shí)戰(zhàn)視頻PPT+大數(shù)據(jù)分析書(shū)籍推薦!
    發(fā)表于 07-22 17:02

    數(shù)據(jù)探索數(shù)據(jù)預(yù)處理

    目錄1數(shù)據(jù)探索數(shù)據(jù)預(yù)處理21.1 賽題回顧21.2 數(shù)據(jù)探索性分析與異常值處理21.3 相關(guān)性
    發(fā)表于 07-12 08:37

    探索性數(shù)據(jù)分析(EDA)及其應(yīng)用

    所謂探索性數(shù)據(jù)分析(EDA),是指對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過(guò)作圖、制表、方程擬合、計(jì)算
    發(fā)表于 01-24 10:02 ?1499次閱讀
    <b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>(EDA)及其應(yīng)用

    設(shè)計(jì)多網(wǎng)絡(luò)協(xié)議的Python網(wǎng)絡(luò)編程的探索性指南

    很高興看到本書(shū)出版了,我要感謝所有為本書(shū)的出版做出貢獻(xiàn)的人。本書(shū)是Python網(wǎng)絡(luò)編程方面的探索性指南,涉及了很多網(wǎng)絡(luò)協(xié)議
    發(fā)表于 09-14 10:47 ?5次下載

    如何看懂R中的探索性數(shù)據(jù)分析(附R代碼)

    本文將通過(guò)介紹一個(gè)代碼模板的四個(gè)基本步驟,來(lái)幫助您完成數(shù)據(jù)分析的初期探索
    的頭像 發(fā)表于 11-25 10:52 ?3550次閱讀
    如何看懂R中的<b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>(附R代碼)

    Python數(shù)據(jù)類(lèi)型幾種

    是對(duì)Python的七種數(shù)據(jù)類(lèi)型的簡(jiǎn)單介紹,具體使用方法,可以進(jìn)行深入查找學(xué)習(xí)!本文摘自tj.java.tedu.cn,如有侵權(quán)請(qǐng)及時(shí)告知。
    發(fā)表于 02-18 17:59 ?1516次閱讀

    細(xì)分模型探索性數(shù)據(jù)分析和預(yù)處理

    交流學(xué)習(xí)!文章較長(zhǎng),建議收藏~ 客戶細(xì)分模型是將整體會(huì)員劃分為不同的細(xì)分群體或類(lèi)別,然后基于細(xì)分群體做管理、營(yíng)銷(xiāo)和關(guān)懷。客戶細(xì)分模型常用于整體會(huì)員的宏觀性分析以及探索性
    的頭像 發(fā)表于 11-08 16:05 ?1540次閱讀
    細(xì)分模型<b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>和預(yù)處理

    Sweetviz讓你三行代碼實(shí)現(xiàn)探索性數(shù)據(jù)分析

    Sweetviz是一個(gè)開(kāi)源Python庫(kù),它只需三行代碼就可以生成漂亮的高精度可視化效果來(lái)啟動(dòng)EDA(探索性數(shù)據(jù)分析)。輸出一個(gè)HTML。 如上圖所示,它不僅能根據(jù)性別、年齡等不同欄目縱向分析
    的頭像 發(fā)表于 10-17 10:59 ?438次閱讀
    Sweetviz讓你三行代碼實(shí)現(xiàn)<b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>

    Sweetviz: 讓你三行代碼實(shí)現(xiàn)探索性數(shù)據(jù)分析

    Sweetviz是一個(gè)開(kāi)源Python庫(kù),它只需三行代碼就可以生成漂亮的高精度可視化效果來(lái)啟動(dòng)EDA(探索性數(shù)據(jù)分析)。輸出一個(gè)HTML。 它不僅能根據(jù)性別、年齡等不同欄目縱向分析數(shù)據(jù)
    的頭像 發(fā)表于 10-31 10:28 ?913次閱讀
    Sweetviz: 讓你三行代碼實(shí)現(xiàn)<b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>

    plc數(shù)據(jù)類(lèi)型怎么理解和應(yīng)用

    的PLC程序的關(guān)鍵。 PLC數(shù)據(jù)類(lèi)型的基本理解 PLC數(shù)據(jù)類(lèi)型是指用于存儲(chǔ)和表示數(shù)據(jù)的方式,它們可以區(qū)分為不同類(lèi)型
    的頭像 發(fā)表于 12-19 11:39 ?4017次閱讀

    機(jī)器學(xué)習(xí)數(shù)據(jù)分析中的應(yīng)用

    隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)量的爆炸性增長(zhǎng)對(duì)數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為一種強(qiáng)大的工具,通過(guò)訓(xùn)練模型從
    的頭像 發(fā)表于 07-02 11:22 ?544次閱讀

    eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別

    EDA(Exploratory Data Analysis,探索性數(shù)據(jù)分析)與傳統(tǒng)數(shù)據(jù)分析之間存在顯著的差異。以下是兩者的主要區(qū)別: 一、分析目的和方法論 EDA 目的 :EDA的主要
    的頭像 發(fā)表于 11-13 10:52 ?212次閱讀