精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

25個基本大數(shù)據(jù)術(shù)語,幫助你溫故知新

悟空智能科技 ? 來源:未知 ? 作者:李倩 ? 2018-07-14 10:33 ? 次閱讀

如果你剛接觸大數(shù)據(jù),你可能會覺得這個領(lǐng)域很難以理解,無從下手。近日,Ramesh Dontha在DataConomy上連發(fā)兩篇文章,扼要而全面地介紹了關(guān)于大數(shù)據(jù)的75個核心術(shù)語,這不僅是大數(shù)據(jù)初學(xué)者很好的入門資料,對于高階從業(yè)人員也可以起到查漏補缺的作用。

本文先介紹了25 個基本大數(shù)據(jù)術(shù)語,幫助你溫故知新,那么開始吧~

01 算法(Algorithm)

算法可以理解成一種數(shù)學(xué)公式或用于進行數(shù)據(jù)分析的統(tǒng)計學(xué)過程。那么,「算法」又是何以與大數(shù)據(jù)扯上關(guān)系的呢?要知道,盡管算法這個詞是一個統(tǒng)稱,但是在這個流行大數(shù)據(jù)分析的時代,算法也經(jīng)常被提及且變得越發(fā)流行。

02 分析(Analyticsanalyze)

讓我們試想一個很可能發(fā)生的情況,你的信用卡公司給你發(fā)了封記錄著你全年卡內(nèi)資金轉(zhuǎn)賬情況的郵件,如果這個時候你拿著這張單子,開始認真研究你在食品、衣物、娛樂等方面消費情況的百分比會怎樣?你正在進行分析工作,你在從你原始的數(shù)據(jù)(這些數(shù)據(jù)可以幫助你為來年自己的消費情況作出決定)中挖掘有用的信息。

那么,如果你以類似的方法在推特和臉書上對整個城市人們發(fā)的帖子進行處理會如何呢?在這種情況下,我們就可以稱之為大數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,就是對大量數(shù)據(jù)進行推理并從中道出有用的信息。以下有三種不同類型的分析方法,現(xiàn)在我們來對它們分別進行梳理。

03 描述性分析法(Descriptive Analytics)

如果你只說出自己去年信用卡消費情況為:食品方面 25%、衣物方面 35%、娛樂方面 20%、剩下 20% 為雜項開支,那么這種分析方法被稱為描述性分析法。當然,你也可以找出更多細節(jié)。

04 預(yù)測性分析法(Predictive Analytics)

如果你對過去 5 年信用卡消費的歷史進行了分析,發(fā)現(xiàn)每年的消費情況基本上呈現(xiàn)一個連續(xù)變化的趨勢,那么在這種情況下你就可以高概率預(yù)測出:來年的消費狀態(tài)應(yīng)該和以往是類似的。這不是說我們在預(yù)測未來,而是應(yīng)該理解為,我們在「用概率預(yù)測」可能發(fā)生什么事情。在大數(shù)據(jù)的預(yù)測分析中,數(shù)據(jù)科學(xué)家可能會使用先進的技術(shù),如機器學(xué)習,和先進的統(tǒng)計學(xué)處理方法(這部分后面我們會談到)來預(yù)測天氣情況、經(jīng)濟變化等等。

05 規(guī)范性分析(Prescriptive Analytics)

這里我們還是用信用卡轉(zhuǎn)賬的例子來理解。假如你想找出自己的哪類消費(如食品、娛樂、衣物等等)可以對整體消費產(chǎn)生巨大影響,那么基于預(yù)測性分析(Predictive Analytics)的規(guī)范性分析法通過引入「動態(tài)指標(action)」(如減少食品或衣物或娛樂)以及對由此產(chǎn)生的結(jié)果進行分析來規(guī)定一個可以降低你整體開銷的最佳消費項。你可以將它延伸到大數(shù)據(jù)領(lǐng)域,并想象一個負責人是如何通過觀察他面前多種動態(tài)指標的影響,進而作出所謂由「數(shù)據(jù)驅(qū)動」的決策的。

06 批處理(Batch processing)

盡管批量數(shù)據(jù)處理從大型機(mainframe)時代就已經(jīng)存在了,但是在處理大量數(shù)據(jù)的大數(shù)據(jù)時代面前,批處理獲得了更重要的意義。批量數(shù)據(jù)處理是一種處理大量數(shù)據(jù)(如在一段時間內(nèi)收集到的一堆交易數(shù)據(jù))的有效方法。分布式計算(Hadoop),后面會討論,就是一種專門處理批量數(shù)據(jù)的方法。

07 Cassandra

是一個很流行的開源數(shù)據(jù)管理系統(tǒng),由Apache Software Foundation 開發(fā)并運營。Apache掌握了很多大數(shù)據(jù)處理技術(shù),Cassandra就是他們專門設(shè)計用于在分布式服務(wù)器之間處理大量數(shù)據(jù)的系統(tǒng)。

08 云計算(Cloud computing)

雖然云計算這個詞現(xiàn)在已經(jīng)家喻戶曉,這里大可不必贅述,但是為了全篇內(nèi)容完整性的考慮,筆者還是在這里加入了云計算詞條。本質(zhì)上講,軟件或數(shù)據(jù)在遠程服務(wù)器上進行處理,并且這些資源可以在網(wǎng)絡(luò)上任何地方被訪問,那么它就可被稱為云計算。

09 集群計算(Cluster computing)

這是一個來描述使用多個服務(wù)器豐富資源的一個集群(cluster)的計算的形象化術(shù)語。更技術(shù)層面的理解是,在集群處理的語境下,我們可能會討論節(jié)點(node)、集群管理層(cluster management layer)、負載平衡(load balancing)和并行處理(parallel processing)等等。

10 暗數(shù)據(jù)(Dark data)

這是一個生造詞,在筆者看來,它是用來嚇唬人,讓高級管理聽上去晦澀難懂的。基本而言,所謂暗數(shù)據(jù)指的是,那些公司積累和處理的實際上完全用不到的所有數(shù)據(jù),從這個意義上來說我們稱它們?yōu)椤赴怠沟臄?shù)據(jù),它們有可能根本不會被分析。這些數(shù)據(jù)可以是社交網(wǎng)絡(luò)中的信息,電話中心的記錄,會議記錄等等。很多估計認為所有公司的數(shù)據(jù)中有60%到90%不等可能是暗數(shù)據(jù),但實際上沒人知道。

11 數(shù)據(jù)湖(Data lake)

當筆者第一次聽到這個詞時,真的以為這是個愚人節(jié)笑話。但是它真的是一個術(shù)語。所以一個數(shù)據(jù)湖(data lake)即一個以大量原始格式保存了公司級別的數(shù)據(jù)知識庫。這里我們介紹一下數(shù)據(jù)倉庫(Data warehouse)。數(shù)據(jù)倉庫是一個與這里提到的數(shù)據(jù)湖類似的概念,但不同的是,它保存的是經(jīng)過清理和并且其它資源整合后的結(jié)構(gòu)化數(shù)據(jù)。

數(shù)據(jù)倉庫經(jīng)常被用于通用數(shù)據(jù)(但不一定如此)。一般認為,一個數(shù)據(jù)湖可以讓人更方便地接觸到那些你真正需要的數(shù)據(jù),此外,你也可以更方便地處理、有效地使用它們。

12 數(shù)據(jù)挖掘(Data mining)

數(shù)據(jù)挖掘關(guān)乎如下過程,從一大群數(shù)據(jù)中以復(fù)雜的模式識別技巧找出有意義的模式,并且得到相關(guān)洞見。它與前文所述的「分析」息息相關(guān),在數(shù)據(jù)挖掘中,你將會先對數(shù)據(jù)進行挖掘,然后對這些得到的結(jié)果進行分析。為了得到有意義的模式(pattern),數(shù)據(jù)挖掘人員會使用到統(tǒng)計學(xué)(一種經(jīng)典的舊方法)、機器學(xué)習算法和人工智能

13 數(shù)據(jù)科學(xué)家

數(shù)據(jù)科學(xué)家是時下非常性感的一門行業(yè)。它指那些可以通過提取原始數(shù)據(jù)(這就是我們前面所謂的數(shù)據(jù)湖)進而理解、處理并得出洞見的這樣一批人。部分數(shù)據(jù)科學(xué)家必備的技能可以說只有超人才有:分析能力、統(tǒng)計學(xué)、計算機科學(xué)、創(chuàng)造力、講故事能力以及理解商業(yè)背景的能力。難怪這幫人工資很高。

14 分布式文件系統(tǒng)(Distributed File System)

大數(shù)據(jù)數(shù)量太大,不能存儲在一個單獨的系統(tǒng)中,分布式文件系統(tǒng)是一個能夠把大量數(shù)據(jù)存儲在多個存儲設(shè)備上的文件系統(tǒng),它能夠減少存儲大量數(shù)據(jù)的成本和復(fù)雜度。

15 ETL

ETL代表提取、轉(zhuǎn)換和加載。它指的是這一個過程:「提取」原始數(shù)據(jù),通過清洗/豐富的手段,把數(shù)據(jù)「轉(zhuǎn)換」為「適合使用」的形式,并且將其「加載」到合適的庫中供系統(tǒng)使用。即使ETL源自數(shù)據(jù)倉庫,但是這個過程在獲取數(shù)據(jù)的時候也在被使用,例如,在大數(shù)據(jù)系統(tǒng)中從外部源獲得數(shù)據(jù)。

16 Hadoop

當人們思考大數(shù)據(jù)的時候,他們會立即想到Hadoop。Hadoop是一個開源軟件架構(gòu)(logo是一頭可愛的大象),它由 Hadoop分布式文件系統(tǒng)(HDFS)構(gòu)成,它允許使用分布式硬件對大數(shù)據(jù)進行存儲、抽象和分析。如果你真的想讓某人對這個東西印象深刻,你可以跟他說 YARN(Yet Another Resource Scheduler),顧名思義,就是另一個資源調(diào)度器。我確實被提出這些名字的人深深震撼了。提出 Hadoop 的 Apache 基金會,還負責 Pig、Hive 以及 Spark(這都是一些軟件的名字)。你沒有被這些名字驚艷到嗎?

17 內(nèi)存計算(In-memory computing)

通常認為,任何不涉及到 I/O訪問的計算都會更快一些。內(nèi)存計算就是這樣的技術(shù),它把所有的工作數(shù)據(jù)集都移動到集群的集體內(nèi)存中,避免了在計算過程中向磁盤寫入中間結(jié)果。Apache Spark 就是一個內(nèi)存計算的系統(tǒng),它相對 Mapreduce 這類 I/O 綁定的系統(tǒng)具有很大的優(yōu)勢。

18 物聯(lián)網(wǎng)(IoT)

最新的流行語就是物聯(lián)網(wǎng)(IoT)。IoT 是嵌入式對象中(如傳感器、可穿戴設(shè)備、車、冰箱等等)的計算設(shè)備通過英特網(wǎng)的互聯(lián),它們能夠收發(fā)數(shù)據(jù)。物聯(lián)網(wǎng)生成了海量的數(shù)據(jù),帶來了很多大數(shù)據(jù)分析的機遇。

19 機器學(xué)習(Machine Learning)

機器學(xué)習是基于喂入的數(shù)據(jù)去設(shè)計能夠?qū)W習、調(diào)整和提升的系統(tǒng)的一種方法。使用設(shè)定的預(yù)測和統(tǒng)計算法,它們持續(xù)地逼近「正確的」行為和想法,隨著更多的數(shù)據(jù)被輸入到系統(tǒng),它們能夠進一步提升。

20 MapReduce

MapReduce可能有點難以理解,我試著解釋一下吧。MapReduce是一個編程模型,最好的理解就是要注意到Map和Reduce是兩個不同的過程。在 MapReduce中,程序模型首先將大數(shù)據(jù)集分割成一些小塊(這些小塊拿技術(shù)術(shù)語來講叫做「元組」,但是我描述的時候會盡量避免晦澀的技術(shù)術(shù)語),然后這些小塊會被分發(fā)給不同位置上的不同計算機(也就是說之前描述過的集群),這在Map過程是必須的。然后模型會收集每個計算結(jié)果,并且將它們「reduce」成一個部分。MapReduce的數(shù)據(jù)處理模型和Hadoop分布式文件系統(tǒng)是分不開的。

21 非關(guān)系型數(shù)據(jù)庫(NoSQL)

這個詞聽起來幾乎就是「SQL,結(jié)構(gòu)化查詢語言」的反義詞,SQL 是傳統(tǒng)的關(guān)系型數(shù)據(jù)管理系統(tǒng)(RDBMS)必需的,但是 NOSQL 實際上指的是「不止SQL」。

NoSQL實際上指的是那些被設(shè)計來處理沒有結(jié)構(gòu)(或者沒有「schema」,綱要)的大量數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)。NoSQL 適合大數(shù)據(jù)系統(tǒng),因為大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)庫需要 NoSQL的這種靈活性和分布式優(yōu)先的特點。

22 R語言

這還有人能給一個編程語言起一個更加糟糕的名字嗎?R 語言就是這樣的語言。不過,R 語言是一個在統(tǒng)計工作中工作得很好的語言。如果你不知道 R 語言,別說你是數(shù)據(jù)科學(xué)家。因為 R 語言是數(shù)據(jù)科學(xué)中最流行的編程語言之一。

23 Spark(Apache Spark)

Apache Spark 是一個快速的內(nèi)存數(shù)據(jù)處理引擎,它能夠有效地執(zhí)行那些需要迭代訪問數(shù)據(jù)庫的流處理、機器學(xué)習以及SQL負載。Spark通常會比我們前面討論過的MapReduce 快好多。

24 流處理(Stream processing)

流處理被設(shè)計來用于持續(xù)地進行流數(shù)據(jù)的處理。與流分析技術(shù)(指的是能夠持續(xù)地計算數(shù)值和統(tǒng)計分析的能力)結(jié)合起來,流處理方法特別能夠針對大規(guī)模數(shù)據(jù)的實時處理。

25 結(jié)構(gòu)化vs非結(jié)構(gòu)化數(shù)據(jù)(Structured v Unstructured Data)

這是大數(shù)據(jù)中的對比之一。結(jié)構(gòu)化數(shù)據(jù)基本上是那些能夠被放在關(guān)系型數(shù)據(jù)庫中的任何數(shù)據(jù),以這種方式組織的數(shù)據(jù)可以與其他數(shù)據(jù)通過表格來關(guān)聯(lián)。非結(jié)構(gòu)化數(shù)據(jù)是指任何不能夠被放在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),例如郵件信息、社交媒體上的狀態(tài),以及人類語音等等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)管理
    +關(guān)注

    關(guān)注

    1

    文章

    290

    瀏覽量

    19609
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8864

    瀏覽量

    137310
  • 分布式計算
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    4458

原文標題:不懂這25個名詞,好意思說你懂大數(shù)據(jù)?

文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    半導(dǎo)體和電子產(chǎn)品如何有效散熱和結(jié)溫分析

    電氣設(shè)計只是電子產(chǎn)品的開始,散熱是任何可靠設(shè)計都要考慮的重要部分。這篇有關(guān)散熱設(shè)計的文章對老練的工程師來說是溫故知新,對菜鳥級工程師來說則是一新的概念。
    發(fā)表于 09-24 12:28 ?1946次閱讀
    半導(dǎo)體和電子產(chǎn)品如何有效散熱和結(jié)溫分析

    溫故知新-----bios報警聲詳細解析

    溫故知新-----bios報警聲詳細解析最近看到很多人說bios報警,進不了系統(tǒng),我就把我保留的bios聲代表的意思說一下,希望對大家有幫助。award bios1短:系統(tǒng)正常啟動2短:常規(guī)錯誤1長
    發(fā)表于 02-23 15:46

    每個人都應(yīng)該知道的25個大數(shù)據(jù)術(shù)語

    摘要: 如果你初來乍到,大數(shù)據(jù)看起來很嚇人!根據(jù)你掌握的基本理論,讓我們專注于一些關(guān)鍵術(shù)語以此給你的約會對象、老板、家人或者任何一人帶來深刻的印象。 讓我們開始吧: 1.算法。“算法”如何與
    發(fā)表于 02-07 13:35

    《程序員修養(yǎng)與連接》 閱讀筆記 精選資料分享

    一、溫故知新1.理解x86平臺下的,系統(tǒng)軟件背后的原理2.由于cup頻率的提升導(dǎo)致內(nèi)存跟不上cpu的速度,于是產(chǎn)生了與內(nèi)存頻率一致的系統(tǒng)總線3.由于圖形化操作系統(tǒng)的發(fā)展,特別是3D游戲和多媒體的發(fā)展
    發(fā)表于 07-29 06:24

    深化一下對LDO知識的理解

    溫故知新,通過回顧LDO的專業(yè)術(shù)語與定義來再深化一下對LDO知識的理解。在星球文章【電源專題】線性穩(wěn)壓器(LDO)簡介 中我們介紹了,LDO是Low Drop Out的首寫字母的縮寫,其中Drop
    發(fā)表于 12-28 08:00

    液晶1602溫故知新總結(jié)_段志杰

    發(fā)表于 04-01 15:16 ?2次下載

    Altium_Designer電子工程師培訓(xùn)2

    對于Altium_Designer初步入門學(xué)員有很大幫助,對于經(jīng)驗豐富的技術(shù)人員有溫故知新的意義!
    發(fā)表于 06-14 17:35 ?0次下載

    大數(shù)據(jù)術(shù)語一覽

    每天數(shù)十億字節(jié)的數(shù)據(jù)收集下,了解大數(shù)據(jù)的復(fù)雜內(nèi)涵非常重要。為了幫助你了解這一領(lǐng)域,我們從最近的大數(shù)據(jù)指南中編輯了一列表,列出了最重要的相關(guān)
    發(fā)表于 09-27 16:52 ?1次下載

    25個大數(shù)據(jù)術(shù)語概念解析

    1.算法。算法如何與大數(shù)據(jù)相關(guān)?即使算法是一通用術(shù)語,但大數(shù)據(jù)分析使其在當代更受青睞和流行。2.分析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。 3
    的頭像 發(fā)表于 01-25 18:51 ?3804次閱讀

    溫故知新:HTTP/2協(xié)議

    去年年底,據(jù)國際互聯(lián)網(wǎng)工程任務(wù)組( IETF )消息,HTTP-over-QUIC 實驗性協(xié)議將被重命名為 HTTP/3,即有望成為 HTTP 協(xié)議的第三正式版本,也就是說HTTP/3可能要來了。 該消息是如此的惹人注目,是因為HTTP是我們身邊的協(xié)議,Web應(yīng)用都離不開它。
    的頭像 發(fā)表于 12-25 18:08 ?848次閱讀

    關(guān)于大數(shù)據(jù)的75核心術(shù)語下篇(50 術(shù)語

    Ramesh Dontha 曾在 DataConomy 上連發(fā)兩篇文章,扼要而全面地介紹了關(guān)于大數(shù)據(jù)的 75 核心術(shù)語,這不僅是大數(shù)據(jù)初學(xué)者很好的入門資料,對于高階從業(yè)人員也可以起到
    的頭像 發(fā)表于 04-07 18:03 ?2582次閱讀

    大數(shù)據(jù)領(lǐng)域75核心術(shù)語詳解(上)

    Ramesh Dontha 曾在 DataConomy 上連發(fā)兩篇文章,扼要而全面地介紹了關(guān)于大數(shù)據(jù)的 75 核心術(shù)語,這不僅是大數(shù)據(jù)初學(xué)者很好的入門資料,
    的頭像 發(fā)表于 04-28 14:51 ?1688次閱讀

    華為為上海交大提供極簡綠色智能安全的數(shù)據(jù)中心解決方案

    而在“華為云WeLink”的幫助下,隨時溫故知新,再難的知識點也不是問題。老師們可以將日常授課形成在線直播、點播的視頻資源池,供同學(xué)們隨時訪問。同時,師生們還可以在線開展視頻會議,無論是答疑解惑,還是日常溝通,都可以隨時隨地進行。
    的頭像 發(fā)表于 09-13 17:48 ?2773次閱讀

    單片機入門必備知識

    溫故知新,講解了單片機的一些常識,最基礎(chǔ)的東西。它的構(gòu)成,發(fā)展,內(nèi)部結(jié)構(gòu)等。
    發(fā)表于 11-13 13:51 ?10次下載
    單片機入門必備知識

    51單片機(C語言版)-第一講:如何學(xué)習單片機

    學(xué)習單片機四步走鸚鵡學(xué)舌照葫蘆畫瓢他山之石可以攻玉理論實踐結(jié)合,溫故知新軟件安裝keil的安裝STC_ISP燒入程序驅(qū)動安裝
    發(fā)表于 11-14 17:06 ?0次下載
    51單片機(C語言版)-第一講:如何學(xué)習單片機