Ramesh Dontha 曾在 DataConomy 上連發兩篇文章,扼要而全面地介紹了關于大數據的 75 個核心術語,這不僅是大數據初學者很好的入門資料,對于高階從業人員也可以起到查漏補缺的作用。本文為下篇(50 個術語)。
下面來對上篇文章涵蓋的術語做個簡短的回顧:算法,分析,描述性分析,預處理分析,預測分析,批處理,Cassandra(一個大規模分布式數據存儲系統),云計算,集群計算,暗數據,數據湖,數據挖掘,數據科學家,分布式文件系統,ETL,Hadoop(一個開發和運行處理大規模數據的軟件平臺),內存計算,物聯網,機器學習,Mapreduce(hadoop 的核心組件之一),NoSQL(非關系型的數據庫),R,Spark(計算引擎),流處理,結構化 vs 非結構化數據。
我們接下來繼續了解另外 50 個大數據術語。
Apache:
軟件基金會(ASF)提供了許多大數據的開源項目,目前有 350 多個。解釋完這些項目需要耗費大量時間,所以我只挑選解釋了一些流行術語。Apache Kafka:命名于捷克作家卡夫卡,用于構建實時數據管道和流媒體應用。它如此流行的原因在于能夠以容錯的方式存儲、管理和處理數據流,據說還非常「快速」。鑒于社交網絡環境大量涉及數據流的處理,卡夫卡目前非常受歡迎。
Apache Mahout:
Mahout 提供了一個用于機器學習和數據挖掘的預制算法庫,也可用作創建更多算法的環境。換句話說,機器學習極客的最佳環境。
Apache Oozie:
在任何編程環境中,你都需要一些工作流系統通過預定義的方式和定義的依賴關系,安排和運行工作。Oozie 為 pig、MapReduce 以及 Hive 等語言編寫的大數據工作所提供正是這個。
Apache Drill, Apache Impala, Apache Spark SQL:
這三個開源項目都提供快速和交互式的 SQL,如與 Apache Hadoop 數據的交互。如果你已經知道 SQL 并處理以大數據格式存儲的數據(即 HBase 或 HDFS),這些功能將非常有用。抱歉,這里說的有點奇怪。
Apache Hive:
知道 SQL 嗎?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 讀取、寫入和管理駐留在分布式存儲中的大型數據集。
Apache Pig:
Pig 是在大型分布式數據集上創建、查詢、執行例程的平臺。所使用的腳本語言叫做 Pig Latin(我絕對不是瞎說,相信我)。據說 Pig 很容易理解和學習。但是我很懷疑有多少是可以學習的?
Apache Sqoop:
一個用于將數據從 Hadoop 轉移到非 Hadoop 數據存儲(如數據倉庫和關系數據庫)的工具。
Apache Storm:
一個免費開源的實時分布式計算系統。它使得使用 Hadoop 進行批處理的同時可以更容易地處理非結構化數據。
為什么 AI 出現在這里?你可能會問,這不是一個單獨的領域嗎?所有這些技術發展趨勢緊密相連,所以我們最好靜下心來繼續學習,對吧?AI 以軟硬件結合的方式開發智能機器和軟件,這種硬件和軟件的結合能夠感知環境并在需要時采取必要的行動,不斷從這些行動中學習。是不是聽起來很像機器學習?跟我一起「困惑」吧。
行為分析(Behavioral Analytics):
你有沒有想過谷歌是如何為你需要的產品/服務提供廣告的?行為分析側重于理解消費者和應用程序所做的事情,以及如何與為什么它們以某種方式起作用。這涉及了解我們的上網模式,社交媒體互動行為,以及我們的網上購物活動(購物車等),連接這些無關的數據點,并試圖預測結果。舉一個例子,在我找到一家酒店并清空購物車后,我收到了度假村假期線路的電話。我還要說多點嗎?
Brontobytes:
1 后面 27 個零,這是未來數字世界存儲單位的大小。而我們在這里,來談談 Terabyte、Petabyte、Exabyte、Zetabyte、Yottabyte 和 Brontobyte。你一定要讀這篇文章才能深入了解這些術語。
商業智能(Business Intelligence):
我將重用 Gartner 對 BI 的定義,因為它解釋的很好。商業智能是一個總稱,包括應用程序、基礎設施、工具以及最佳實踐,它可以訪問和分析信息,從而改善和優化決策及績效。
生物測定學(Biometrics):
這是一項 James Bondish 技術與分析技術相結合的通過人體的一種或多種物理特征來識別人的技術,如面部識別,虹膜識別,指紋識別等。
點擊流分析(Clickstream analytics):
用于分析用戶在網絡上瀏覽時的在線點擊數據。有沒有想過即使在切換網站時,為什么某些谷歌廣告還是陰魂不散?因為谷歌大佬知道你在點擊什么。
聚類分析(Cluster Analysis):
是一個試圖識別數據結構的探索性分析,也稱為分割分析或分類分析。更具體地說,它試圖確定案例的同質組(homogenous groups),即觀察、參與者、受訪者。如果分組以前未知,則使用聚類分析來識別案例組。因為它是探索性的,確實對依賴變量和獨立變量進行了區分。SPSS 提供的不同的聚類分析方法可以處理二進制、標稱、序數和規模(區間或比率)數據。
比較分析(Comparative Analytics):
因為大數據的關鍵就在于分析,所以本文中我將深入講解分析的意義。顧名思義,比較分析是使用諸如模式分析、過濾和決策樹分析等統計技術來比較多個進程、數據集或其他對象。我知道它涉及的技術越來越少,但是我仍無法完全避免使用術語。比較分析可用于醫療保健領域,通過比較大量的醫療記錄、文件、圖像等,給出更有效和更準確的醫療診斷。
關聯分析(Connection Analytics):
你一定看到了像圖表一樣的蜘蛛網將人與主題連接起來,從而確定特定主題的影響者。關聯分析分析可以幫助發現人們、產品、網絡之中的系統,甚至是數據與多個網絡結合之間的相關連接和影響。
數據分析師(Data Analyst):
數據分析師是一個非常重要和受歡迎的工作,除了準備報告之外,它還負責收集、編輯和分析數據。
數據清洗(Data Cleansing):
顧名思義,數據清洗涉及到檢測并更正或者刪除數據庫中不準確的數據或記錄,然后記住「臟數據」。借助于自動化或者人工工具和算法,數據分析師能夠更正并進一步豐富數據,以提高數據質量。請記住,臟數據會導致錯誤的分析和糟糕的決策。
數據即服務(DaaS):
我們有軟件即服務(SaaS), 平臺即服務(PaaS),現在我們又有 DaaS,它的意思是:數據即服務。通過給用戶提供按需訪問的云端數據,DaaS 提供商能夠幫助我們快速地得到高質量的數據。
數據虛擬化(Data virtualization):
這是一種數據管理方法,它允許某個應用在不知道技術細節(如數據存放在何處,以什么格式)的情況下能夠抽取并操作數據。例如,社交網絡利用這個方法來存儲我們的照片。
臟數據(Dirty Data):
既然大數據這么吸引人,那么人們也開始給數據加上其他的形容詞來形成新的術語,例如黑數據(dark data)、臟數據(dirty data)、小數據(small data),以及現在的智能數據(smart data)。臟數據就是不干凈的數據,換言之,就是不準確的、重復的以及不一致的數據。顯然,你不會想著和臟數據攪在一起。所以,盡快地修正它。
模糊邏輯(Fuzzy logic):
我們有多少次對一件事情是確定的,例如 100% 正確?很稀少!我們的大腦將數據聚合成部分的事實,這些事實進一步被抽象為某種能夠決定我們決策的閾值。模糊邏輯是一種這樣的計算方式,與像布爾代數等等中的「0」和「1」相反,它旨在通過漸漸消除部分事實來模仿人腦。
游戲化(Gamification):
在一個典型的游戲中,你會有一個類似于分數一樣的元素與別人競爭,并且還有明確的游戲規則。大數據中的游戲化就是使用這些概念來收集、分析數據或者激發玩家。
圖數據庫(Graph Databases):
圖數據使用節點和邊這樣的概念來代表人和業務以及他們之間的關系,以挖掘社交媒體中的數據。是否曾經驚嘆過亞馬遜在你買一件產品的時候告訴你的關于別人在買什么的信息?對,這就是圖數據庫。
Hadoop 用戶體驗(Hadoop User Experience /Hue):
Hue 是一個能夠讓使用 Apache Hadoop 變得更加容易的開源接口。它是一款基于 web 的應用;它有一款分布式文件系統的文件瀏覽器;它有用于 MapReduce 的任務設計;它有能夠調度工作流的框架 Oozie;它有一個 shell、一個 Impala、一個 Hive UI 以及一組 Hadoop API。
高性能分析應用(HANA):
這是 SAP 公司為大數據傳輸和分析設計的一個軟硬件內存平臺。
HBase:
一個分布式的面向列的數據庫。它使用 HDFS 作為其底層存儲,既支持利用 MapReduce 進行的批量計算,也支持利用事物交互的批量計算。
負載均衡(Load balancing):
為了實現最佳的結果和對系統的利用,將負載分發給多個計算機或者服務器。
元數據(Metadata):
元數據就是能夠描述其他數據的數據。元數據總結了數據的基本信息,這使得查找和使用特定的數據實例變得更加容易。例如,作者、數據的創建日期、修改日期以及大小,這幾項是基本的文檔元數據。除了文檔文件之外,元數據還被用于圖像、視頻、電子表格和網頁。
MongoDB:
MongoDB 是一個面向文本數據模型的跨平臺開源數據庫,而不是傳統的基于表格的關系數據庫。這種數據庫結構的主要設計目的是讓結構化數據和非結構化數據在特定類型應用的整合更快、更容易。
Mashup:
幸運的是,這個術語和我們在日常生活中使用的「mashup」一詞有著相近的含義,就是混搭的意思。實質上,mashup 是一個將不同的數據集合并到一個單獨應用中的方法(例如:將房地產數據與地理位置數據、人口數據結合起來)。這確實能夠讓可視化變得很酷。
多維數據庫(Multi-Dimensional Databases):
這是一個為了數據在線分析處理(OLAP)和數據倉庫優化而來的數據庫。如果你不知道數據倉庫是什么,我可以解釋一下,數據倉庫不是別的什么東西,它只是對多個數據源的數據做了集中存儲。
多值數據庫(MultiValue Databases):
多值數據庫是一種非關系型數據庫,它能夠直接理解三維數據,這對直接操作 HTML 和 XML 字符串是很好的。
自然語言處理(Natural Language Processing):
自然語言處理是被設計來讓計算機更加準確地理解人類日常語言的軟件算法,能夠讓人類更加自然、更加有效地和計算機交互。
神經網絡(Neural Network):
根據這個描述(http://neuralnetworksanddeeplearning.com/),神經網絡是一個受生物學啟發的非常漂亮的編程范式,它能夠讓計算機從觀察到的數據中學習。已經好久沒有一個人會說一個編程范式很漂亮了。實際上,神經網絡就是受現實生活中腦生物學啟發的模型。..。..。 與神經網絡緊密關聯的一個術語就是深度學習。深度學習是神經網絡中一系列學習技術的集合。
模式識別(Pattern Recognition):
當算法需要在大規模數據集或者在不同的數據集上確定回歸或者規律的時候,就出現了模式識別。它與機器學習和數據挖掘緊密相連,甚至被認為是后兩者的代名詞。這種可見性可以幫助研究者發現一些深刻的規律或者得到一些可能被認為很荒謬的結論。
射頻識別(Radio Frequency Identification/RFID):
射頻識別是一類使用非接觸性無線射頻電磁場來傳輸數據的傳感器。隨著物聯網的發展,RFID 標簽能夠被嵌入到任何可能的「東西里面」,這能夠生成很多需要被分析的數據。歡迎來到數據世界。
軟件即服務(SaaS):
軟件即服務讓服務提供商把應用托管在互聯網上。SaaS 提供商在云端提供服務。
半結構化數據(Semi-structured data):
半結構化數據指的是那些沒有以傳統的方法進行格式化的數據,例如那些與傳統數據庫相關的數據域或者常用的數據模型。半結構化數據也不是完全原始的數據或者完全非結構化的數據,它可能會包含一些數據表、標簽或者其他的結構元素。半結構化數據的例子有圖、表、XML 文檔以及電子郵件。半結構化數據在萬維網上十分流行,在面向對象數據庫中經常能夠被找到。
情感分析(Sentiment Analysis):
情感分析涉及到了對消費者在社交媒體、顧客代表電話訪談和調查中存在的多種類型的交互和文檔中所表達的情感、情緒和意見的捕捉、追蹤和分析。文本分析和自然語言處理是情感分析過程中的典型技術。情感分析的目標就是要辨別或評價針對一個公司、產品、服務、人或者時間所持有的態度或者情感。
空間分析(Spatial analysis):
空間分析指的是對空間數據作出分析,以識別或者理解分布在幾何空間中的數據的模式和規律,這類數據有幾何數據和拓撲數據。
流處理(Stream processing):
流處理被設計用來對「流數據」進行實時的「連續」查詢和處理。為了對大量的流數據以很快的速度持續地進行實時的數值計算和統計分析,社交網絡上的流數據對流處理的需求很明確。
智能數據(Smart Data):
是經過一些算法處理之后有用并且可操作的數據。
Terabyte:
這是一個相對大的數字數據單位,1TB 等于 1000GB。據估計,10TB 能夠容納美國國會圖書館的所有印刷品,而 1TB 則能夠容納整個百科全書 Encyclopedia Brittanica。
可視化(Visualization):
有了合理的可視化之后,原始數據就能夠使用了。當然這里的可視化并不止簡單的圖表。而是能夠包含數據的很多變量的同時還具有可讀性和可理解性的復雜圖表。
Yottabytes:
接近 1000 Zettabytes,或者 2500 萬億張 DVD。現在所有的數字存儲大概是 1 Yottabyte,而且這個數字每 18 個月會翻一番。
Zettabytes:
Zettabytes:接近 1000 Exabytes,或者 10 億 Terabytes。
編輯:lyn
-
大數據
+關注
關注
64文章
8863瀏覽量
137300
原文標題:大數據領域75個核心術語講解(下)
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論