精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

25個大數(shù)據(jù)術語概念解析

電子工程師 ? 來源:網(wǎng)絡整理 ? 2018-01-25 18:51 ? 次閱讀

如果你初來乍到,大數(shù)據(jù)看起來很嚇人!根據(jù)你掌握的基本理論,讓我們專注于一些關鍵術語以此給你的約會對象、老板、家人或者任何一個人帶來深刻的印象。

讓我們開始吧:

1.算法。“算法”如何與大數(shù)據(jù)相關?即使算法是一個通用術語,但大數(shù)據(jù)分析使其在當代更受青睞和流行。

2.分析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。如果你有興趣進一步分析自己在食物、衣服、娛樂等方面具體花費占比呢?那你便是在做“分析”了。你正從一堆原始數(shù)據(jù)中來吸取經(jīng)驗,以幫助自己為來年的消費做出決策。如果你正在針對整個城市人群對Twitter或Facebook的帖子做同樣的練習呢?那我們便是在討論大數(shù)據(jù)分析了。大數(shù)據(jù)分析的實質是利用大量數(shù)據(jù)來進行推斷和講故事。大數(shù)據(jù)分析有3種不同到的類型,接下來便繼續(xù)本話題進行依次討論。

3.描述性分析。剛剛如果你告訴我,去年你的信用卡消費在食物上花費了25%、在服裝上花費了35%、娛樂活動上花費了20%、剩下的就是雜七雜八的事項,這種便是描述性分析。當然你還可以參考更多的細節(jié)。

4.預測分析。如果你根據(jù)過去5年的信用卡歷史記錄來進行分析,并且劃分具有一定的連續(xù)性,則你可以高概率預測明年將與過去幾年相差無幾。此處需要注意的細節(jié)是,這并不是“預測未來”,而是未來可能會發(fā)生的“概率”。在大數(shù)據(jù)預測分析中,數(shù)據(jù)科學家可能會使用類似機器學習、高級的統(tǒng)計過程(后文將對這些術語進行介紹)等先進的技術去預測天氣、經(jīng)濟變化等。

5.規(guī)范分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體支出產(chǎn)生巨大的影響。規(guī)范分析建立在預測分析的基礎之上,包含了“行動”記錄(例如減少食品、服裝、娛樂支出),并分析所得結果來“規(guī)定”最佳類別以減少總體支出。你可以嘗試將其發(fā)散到大數(shù)據(jù),并設想高管們?nèi)绾瓮ㄟ^查看各種行動的影響來做出數(shù)據(jù)驅動的決策。

6.批處理。雖然批量數(shù)據(jù)處理在大型機時代就早已出現(xiàn),但大數(shù)據(jù)交給它更多大數(shù)據(jù)集處理,因此賦予了批處理更多的意義。對于一段時間內(nèi)收集到的一組事務,批量數(shù)據(jù)處理為處理大量數(shù)據(jù)提供了一種有效的方法。后文將介紹的Hadoop便是專注于批量數(shù)據(jù)處理。超越批處理的世界:流計算 使用Spark SQL構建批處理程序。

7. Cassandra是由Apache Software Foundation管理的一款流行的開源數(shù)據(jù)庫管理系統(tǒng)。很多大數(shù)據(jù)技術都歸功于Apache,其中Cassandra的設計初衷便是處理跨分布式服務器的大量數(shù)據(jù)。

8. 云計算。顯而易見云計算已經(jīng)變得無所不在,所以本文可能無須贅述,但為了文章的完整性還是佐以介紹。云計算的本質是在遠程服務器上運行的軟件和(/或)數(shù)據(jù)托管,并允許從互聯(lián)網(wǎng)上的任何地方進行訪問。

9. 集群計算。它是一種利用多臺服務器的匯集資源的“集群”來進行計算的奇特方式。在了解了更多技術之后,我們可能還會討論節(jié)點、集群管理層、負載平衡和并行處理等。

10. 黑暗數(shù)據(jù)。依我看來,這個詞適用于那些嚇得六神無主的高級管理層們。從根本上來說,黑暗數(shù)據(jù)是指那些被企業(yè)收集和處理但又不用于任何有意義用途的數(shù)據(jù),因此描述它是“黑暗的”,它們可能永遠被埋沒。它們可能是社交網(wǎng)絡信息流、呼叫中心日志、會議筆記,諸如此類。人們做出了諸多估計,在60-90%的所有企業(yè)數(shù)據(jù)都可能是“黑暗數(shù)據(jù)”,但無人真正知曉。

11. 數(shù)據(jù)湖。當我第一次聽到這個詞的時候,我真的以為有人在開愚人節(jié)的玩笑。但它真的是個術語!數(shù)據(jù)湖是一個原始格式的企業(yè)級數(shù)據(jù)的大型存儲庫。雖然此處討論的是數(shù)據(jù)湖,但有必要再一起討論下數(shù)據(jù)倉庫,因為數(shù)據(jù)湖和數(shù)據(jù)倉庫在概念上是極其相似的,都是企業(yè)級數(shù)據(jù)的存儲庫,但在清理和與其他數(shù)據(jù)源集成之后的結構化格式上有所區(qū)別。數(shù)據(jù)倉庫常用于常規(guī)數(shù)據(jù)(但不完全)。據(jù)說數(shù)據(jù)湖能夠讓用戶輕松訪問企業(yè)級數(shù)據(jù),用戶真正按需知道自己正在尋找的是什么、如何處理并讓其智能化使用。擁抱開源技術的前提——認識數(shù)據(jù)湖 你知道數(shù)據(jù)湖泊(DATA LAKE)嗎?

12. 數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是指利用復雜的模式識別技術從大量數(shù)據(jù)中找到有意義的模式、提取見解。這與我們前文討論的使用個人數(shù)據(jù)做分析的術語“分析”密切相關。為了提取出有意義的模式,數(shù)據(jù)挖掘者使用統(tǒng)計學(是呀,好老的數(shù)學)、機器學習算法和人工智能

13.數(shù)據(jù)科學家。我們談論的是一個如此熱門的職業(yè)!數(shù)據(jù)科學家們可以通過提取原始數(shù)據(jù)(難道是從前文所說的數(shù)據(jù)湖中提取的?),處理數(shù)據(jù),然后提出新見解。數(shù)據(jù)科學家所需具備的一些技能與超人無異:分析、統(tǒng)計、計算機科學、創(chuàng)造力、故事講述和理解業(yè)務環(huán)境。難怪他們能獲得如此高的薪水報酬。

14.分布式文件系統(tǒng)。由于大數(shù)據(jù)太大而無法在單個系統(tǒng)上進行存儲,分布式文件系統(tǒng)提供一種數(shù)據(jù)存儲系統(tǒng),方便跨多個存儲設備進行大量數(shù)據(jù)的存放,并有助于降低大量數(shù)據(jù)存儲的成本和復雜度。

15. ETL。ETL分別是extract,transform,load的首字母縮寫,代表提取、轉化和加載的過程。 它具體是指“提取”原始數(shù)據(jù),通過數(shù)據(jù)清洗/修飾的方式進行“轉化”以獲得 “適合使用”的數(shù)據(jù),進而“加載”到合適的存儲庫中供系統(tǒng)使用的整個過程。盡管ETL這一概念源于數(shù)據(jù)倉庫,但現(xiàn)在也適用于其它情景下的過程,例如在大數(shù)據(jù)系統(tǒng)中從外部數(shù)據(jù)源獲取/吸收數(shù)據(jù)。我們需要什么樣的ETL?

工程師要不要寫ETL?——教你構建高效的算法/數(shù)據(jù)科學部門 ETL的經(jīng)驗總結

16. Hadoop。人們一想起大數(shù)據(jù)就能立即想到Hadoop。 Hadoop(擁有可愛的大象LOGO)是一個開源軟件框架,主要組成部分是Hadoop分布式文件系統(tǒng)(HDFS),Hadoop部署了分布式硬件以支持大型數(shù)據(jù)集的存儲、檢索和分析。如果你真的想給別人留下深刻的印象,還可以談談YARN(Yet Another Resource Schedule,另一個資源調(diào)度器),正如其名,它也是一個資源調(diào)度器。我由衷佩服這些為程序命名的人。為Hadoop命名的Apache基金會還想出了Pig,Hive和Spark(沒錯,它們都是各種軟件的名稱)。這些名字難道不讓你感到印象深刻嗎?

17. 內(nèi)存計算。一般來說,任何可以在不訪問I / O的情況下進行的計算預計會比需要訪問I/O的速度更快。內(nèi)存內(nèi)計算是一種能夠將工作數(shù)據(jù)集完全轉移到集群的集體內(nèi)存中、并避免了將中間計算寫入磁盤的技術。Apache Spark便是一種內(nèi)存內(nèi)計算系統(tǒng),它與I / O相比,在像Hadoop MapReduce這樣的系統(tǒng)上綁定具有巨大的優(yōu)勢。

18. IOT最新的流行語是物聯(lián)網(wǎng)(Internet of things,簡稱IOT)。IOT是通過互聯(lián)網(wǎng)將嵌入式對象(傳感器、可穿戴設備、汽車、冰箱等)中的計算設備互連在一起,并且能夠發(fā)送/接收數(shù)據(jù)。IOT產(chǎn)生了大量的數(shù)據(jù),這為呈現(xiàn)大數(shù)據(jù)分析提供了更多的機會。

19.機器學習。機器學習是為了設計一種基于提供的數(shù)據(jù)能夠進行不斷學習、調(diào)整、改進的系統(tǒng)的設計方法。機器使用預測和統(tǒng)計的算法進行學習并專注于實現(xiàn)“正確的”行為模式和簡見解,隨著越來越多的數(shù)據(jù)注入系統(tǒng)它還在不斷進行優(yōu)化改進。典型的應用有欺詐檢測、在線個性化推薦等。

20.MapReduce。MapReduce的概念可能會有點混亂,但讓我試一試。MapReduce是一個編程模型,最好的理解方法是將Map和Reduce是看作兩個獨立的單元。在這種情況下,編程模型首先將大數(shù)據(jù)的數(shù)據(jù)集分成幾個部分(技術術語上是稱作“元組”,但本文并不想太過技術性),因此可以部署到不同位置的不同計算機上(即前文所述的集群計算),這些本質上是Map的組成部分。接下來該模型收集到所有結果并將“減少”到同一份報告中。 MapReduce的數(shù)據(jù)處理模型與hadoop的分布式文件系統(tǒng)相輔相成。

21.NoSQL。乍一聽這像是針對傳統(tǒng)關系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的面向對象的SQL(Structured Query Language, 結構化查詢語言)的抗議,其實NoSQL代表的是NOT ONLY SQL,意即“不僅僅是SQL”。 NoSQL實際上是指被用來處理大量非結構化、或技術上被稱作“圖表”(例如關系型數(shù)據(jù)庫的表)等數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)。NoSQL數(shù)據(jù)庫一般非常適用于大型數(shù)據(jù)系統(tǒng),這得益于它們的靈活性以及大型非結構化數(shù)據(jù)庫所必備的分布式結構。

22.R語言。有人能想到比這個編程語言更糟糕的名字嗎?是的,’R’是一門在統(tǒng)計計算中表現(xiàn)非常優(yōu)異的編程語言。如果你連’R’都不知道,那你就不是數(shù)據(jù)科學家。(如果你不知道’R’,就請不要把那些糟糕的代碼發(fā)給我了)。這就是在數(shù)據(jù)科學中最受歡迎的語言之一的R語言。

23. Spark(Apache Spark)。Apache Spark是一種快速的內(nèi)存內(nèi)數(shù)據(jù)處理引擎,它可以高效執(zhí)行需要快速迭代訪問數(shù)據(jù)集的流、機器學習或SQL工作負載。Spark通常比我們前文討論的MapReduce快很多。

24.流處理。流處理旨在通過“連續(xù)”查詢對實時和流數(shù)據(jù)進行操作。結合流分析(即在流內(nèi)同時進行連續(xù)計算數(shù)學或統(tǒng)計分析的能力),流處理解決方案可以被用來實時處理非常大的數(shù)據(jù)。

25. 結構化和非結構化數(shù)據(jù)。這是大數(shù)據(jù)5V中的“Variety”多樣性。結構化數(shù)據(jù)是能夠放入關系型數(shù)據(jù)庫的最基本的數(shù)據(jù)類型,通過表的組織方式可以聯(lián)系到任何其他數(shù)據(jù)。非結構化數(shù)據(jù)則是所有不能直接存入關系數(shù)據(jù)庫中的數(shù)據(jù),例如電子郵件、社交媒體上的帖子、人類錄音等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關推薦

    ADS1675最大數(shù)據(jù)吞吐率是是多少?

    ADS1675 24bit的ADC的采樣率最大是4Msps,請問這款adc的最大數(shù)據(jù)吞吐率是是多少?怎么算的,在datasheet中有明確寫出來嗎
    發(fā)表于 11-28 07:56

    VLAN 概念解析及使用場景

    1. VLAN 概念解析 VLAN(Virtual Local Area Network,虛擬局域網(wǎng))是一種在交換網(wǎng)絡中劃分不同廣播域的技術。VLAN 的主要目的是將一物理局域網(wǎng)劃分成多個邏輯
    的頭像 發(fā)表于 11-19 09:33 ?230次閱讀

    raid 在大數(shù)據(jù)分析中的應用

    RAID(Redundant Array of Independent Disks,獨立磁盤冗余陣列)在大數(shù)據(jù)分析中的應用主要體現(xiàn)在提高存儲系統(tǒng)的性能、可靠性和容量上。以下是RAID在大數(shù)據(jù)分析中
    的頭像 發(fā)表于 11-12 09:44 ?165次閱讀

    智慧城市與大數(shù)據(jù)的關系

    智慧城市與大數(shù)據(jù)之間存在著密切的關系,這種關系體現(xiàn)在大數(shù)據(jù)對智慧城市建設的支撐和推動作用,以及智慧城市產(chǎn)生的大量數(shù)據(jù)大數(shù)據(jù)技術的應用需求。 大數(shù)據(jù)
    的頭像 發(fā)表于 10-24 15:27 ?490次閱讀

    梯云物聯(lián) 智慧電梯數(shù)據(jù)先行:電梯大數(shù)據(jù)平臺構建安全生態(tài)

    在現(xiàn)代化城市的摩天大樓中,電梯作為垂直交通的動脈,其安全性與效率直接關系到居民的生活質量和社會運行的順暢。隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等技術的飛速發(fā)展,智慧電梯的概念應運而生,而梯云物聯(lián)電梯大數(shù)據(jù)平臺
    的頭像 發(fā)表于 08-23 09:57 ?358次閱讀

    使用CYW20829的BLE進行最大數(shù)據(jù)發(fā)送應用,BLE丟失數(shù)據(jù)如何解決?

    我目前正在使用 CYW20829 的 BLE 進行最大數(shù)據(jù)發(fā)送應用,我使用的是 FREERTOS(例程 Bluetooth_LE_GATT_Throughput_Server 是我的參考),藍牙被
    發(fā)表于 07-23 07:56

    大數(shù)據(jù)采集系統(tǒng)分為幾類

    大數(shù)據(jù)采集系統(tǒng)是大數(shù)據(jù)生態(tài)系統(tǒng)中的重要組成部分,它負責從各種數(shù)據(jù)源收集、整合和存儲數(shù)據(jù)。根據(jù)不同的數(shù)據(jù)源、采集方法和應用場景,
    的頭像 發(fā)表于 07-01 15:44 ?1349次閱讀

    請問一個大數(shù)組是不是不能同時跨用內(nèi)外部SRAM?

    外部SRAM已經(jīng)測試可用(循環(huán)全寫后讀出來做數(shù)據(jù)比對),然后在MDK中啟用外部ram的設置,并且申請一1024*1024字節(jié)的大數(shù)組,編譯后在map文件中已經(jīng)能夠看到 Total RWSize
    發(fā)表于 03-26 07:06

    如何采用“狀態(tài)機”解析UART數(shù)據(jù)

    如果一系統(tǒng)接收上述“不定長度”的協(xié)議幀,將會有一挑戰(zhàn)--如何高效接收與解析。 為簡化系統(tǒng)設計,我們強烈建議您采用“狀態(tài)機”來解析UART數(shù)據(jù)
    的頭像 發(fā)表于 03-25 14:29 ?633次閱讀
    如何采用“狀態(tài)機”<b class='flag-5'>解析</b>UART<b class='flag-5'>數(shù)據(jù)</b>幀

    CYBT-343026傳輸大數(shù)據(jù)時會丟數(shù)據(jù)的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。 我根據(jù) SPP 樣本制作了一操作 SPP 的應用程序。 但是,傳輸大數(shù)據(jù)時有時會丟失數(shù)據(jù)。 它從
    發(fā)表于 03-01 15:04

    通過CY7C68013A想實現(xiàn)一generic HID設備,如何修改描述符及端點最大數(shù)據(jù)包的大小?

    通過CY7C68013A想實現(xiàn)一generic HID設備,使用一中斷型輸入端點和一中斷型輸出端點,最大數(shù)據(jù)包長度均為1024(或512?)字節(jié),請問基于CY3684開發(fā)套件提供
    發(fā)表于 02-28 06:37

    大數(shù)據(jù)技術是干嘛的 大數(shù)據(jù)核心技術有哪些

    大數(shù)據(jù)技術是指用來處理和存儲海量、多類型、高速的數(shù)據(jù)的一系列技術和工具。現(xiàn)如今,大數(shù)據(jù)已經(jīng)滲透到各個行業(yè)和領域,對企業(yè)決策和業(yè)務發(fā)展起到了重要作用。本文將詳細介紹大數(shù)據(jù)技術的
    的頭像 發(fā)表于 01-31 11:07 ?3109次閱讀

    構建高效數(shù)據(jù)生態(tài):數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、大數(shù)據(jù)平臺與數(shù)據(jù)中臺解析_光點科技

    在數(shù)字化的浪潮中,一套高效的數(shù)據(jù)管理系統(tǒng)是企業(yè)競爭力的核心。從傳統(tǒng)的數(shù)據(jù)庫到現(xiàn)代的數(shù)據(jù)中臺,每一種技術都在數(shù)據(jù)的旅程中扮演著關鍵角色。本文將深入探討
    的頭像 發(fā)表于 01-17 10:20 ?350次閱讀

    SSD入門必看|這些專業(yè)術語你知道多少?

    SSD領域涉及到較多的專業(yè)術語,為了更深入地了解SSD技術,本文對常用SSD術語進行簡要的說明和介紹。Namespace命名空間,是NVMe協(xié)議中一基本的邏輯空間的概念。簡單地說,命
    的頭像 發(fā)表于 12-16 08:34 ?819次閱讀
    SSD入門必看|這些專業(yè)<b class='flag-5'>術語</b>你知道多少?

    Get職場新知識:做分析,用大數(shù)據(jù)分析工具

    為什么企業(yè)每天累積那么多的數(shù)據(jù),也做數(shù)據(jù)分析,但最后決策還是靠經(jīng)驗?很大程度上是因為這些數(shù)據(jù)都被以不同的指標和存儲方式放在各自的系統(tǒng)中,這就導致了數(shù)據(jù)的分析口徑和標準不一致,無法在同一
    發(fā)表于 12-05 09:36