精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

什么是大數據?大數據技術有哪些?

jf_78858299 ? 來源:巽達信息 ? 作者:巽達信息 ? 2023-03-29 10:56 ? 次閱讀

“大數據 ”這個概念火了很久,但又很不容易說得清楚(不然呢?怎么會是個位數的回答),這時候買本書來看看可能會更香。

先說結論——大數據技術,其實就是一套完整的“數據+業務+需求”的解決方案。

它其實是一個很寬泛的概念,涉及五個領域:

  1. 業務分析;2.數據分析;3.數據挖掘;4.機器學習;5.人工智能

從1到5,越來越需要技術背景;從5到1,越來越貼近具體業務。

其實,除了像搜索引擎這樣依靠數據技術而誕生的產品外,大部分互聯網產品在生存期,即一個產品從0到1的階段,并不是特別需要大數據技術的。而在產品的發展期,也就是從“1”到“無窮”的階段,“大數據技術”對產品的作用才會逐漸體現。

主要原因是初期產品的功能和服務較少,也沒有“積累的用戶數據”用于模型研發。所以,我們常聽說“構建大數據的壁壘”,這里面,“數據技術”是小壁壘,“大數據”本身才是大壁壘。

這里就從“大數據”開始說起。

什么是大數據?

“大數據 ”從字面上看,就是很“大”的“數據”。先別急著打我。有多大呢?

早N多年前,百度首頁導航每天需要提供的數據超過1.5PB(1PB=1024TB),這些數據如果打印出來將超過5千億張A4紙。

5千億張,是不是很暴力了。

再來兩個不暴力的:

“廣西人最愛點贊,河北人最愛看段子,最關心時政的是山西人,最關注八卦的是天津。”

這組有趣的數據,是今日頭條根據用戶閱讀大數據得出的結論。

而比這個更精準的數據,是三年前美國明尼蘇達州的一則八卦新聞:

一位氣勢洶洶的老爸沖進Target的一家連鎖超市,質問超市為什么把嬰兒用品的廣告發給他正在念高中的女兒。

但非常打臉的是,這位父親跟他女兒溝通后發現女兒真的懷孕了。

在大數據的世界里,事情的原理很簡單——這位姑娘搜尋商品的關鍵詞,以及她在社交網站所顯露的行為軌跡,使超市的營銷系統捕捉到了她懷孕的信息。

你看,單個的數據并沒有價值,但越來越多的數據累加,量變會產生質的飛躍。

腦補一下上面這個事件中的“女兒”,她在網絡營銷系統中的用戶畫像標準可能包括:用戶ID、性別 、性格描述、資產狀況、信用狀況、喜歡的顏色、鐘愛的品牌、大姨媽的日期、上周購物清單等等,有了這些信息,系統就可以針對這個用戶,進行精準的廣告營銷和個性化購物推薦。

當然,除了獲得大數據的個性化推薦,一不留神也容易被大數據割一波韭菜。

亞馬遜在一次新碟上市時,根據潛在客戶的人口信息、購物歷史、上網記錄等,給同一張碟片報出了不同的價格。這場“殺熟事件”的結局就是:亞馬遜的 CEO 貝索斯不得不親自出來道歉,解釋只是在進行價格測試。

大數據 ,說白了,就是巨量數據集合。

大數據來源于海量用戶的一次次的行為數據,是一個數據集合;但大數據的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。

在電影《美國隊長2》里,系統能把一個人從出生開始的所有行為特征,如消費行為,生活行為等,作為標簽存入數據庫中,最后推測出未來這個人是否會對組織產生威脅,然后使用定位系統,把這些預測到有威脅的人殺死。

而在《點球成金》里,球隊用數據建模的方式,挖掘潛在的明星隊員(但其實這個案例并非典型的大數據案例,因為用到的是早已存在的數據思維和方法)。

麥肯錫全球研究所曾給出過大數據一個相當規矩的定義:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。

上面這四個特征,也就是人們常說的大數據的4V特征(volume,variety,value,velocity),即大量,多樣性,價值,及時性。

圖片

具體來說就是:

  1. 數據體量巨大(這是大數據最明顯的特征),有人認為,大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);這里按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB(進率2^10)。

不過,數據的體量有時可能并沒那么重要。比如13億人口的名字,只占硬盤幾百M空間的數據,但已經是這個領域里非常大的數據。

  1. 數據類型繁多(也就是多維度的表現形式)。比如,網絡日志、視頻、圖片、地理位置信息等等。
  2. 價值密度低,商業價值高。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。因此,如何結合業務邏輯并通過強大的機器算法來挖掘數據價值(所謂“浪里淘金”吧),是最需要解決的問題。
  3. 處理速度快且及時。數據處理遵循“1秒定律”,可從各種類型的數據中快速獲得高價值的信息。

事實上,關于這個“4V”,業界還是有不少爭議的。比如阿里技術委員會的王堅博士,就直接把4V“扔”進了***堆。王堅在《在線》這本書里說過:“我分享時說‘大數據’這個名字叫錯了,它沒有反映出數據最本質的東西。”

他認為,今天數據的意義并不在于有多“大”,真正有意思的是數據變得“在線”了,這恰恰是互聯網的特點。所有東西都能“在線”這件事(數據隨時能調用和計算),遠比“大”更能反映本質。

什么是大數據技術?

對于一個從事大數據行業人來說,一切數據都是有意義的。因為通過數據采集、數據存儲、數據管理、數據分析與挖掘、數據展現等,我們可以發現很多有用的或有意思的規律和結論。

比如,北京公交一卡通每天產生4千萬條刷卡記錄,分析這些刷卡記錄,可以清晰了解北京市民的出行規律,來有效改善城市交通。

但這4千萬條刷卡數據 ,不是想用就能用的,需要通過“存儲”“計算”“智能”來對數據進行加工和支撐,從而實現數據的增值。

而在這其中,最關鍵的問題不在于數據技術本身,而在于是否實現兩個標準:第一,這4千萬條記錄,是否足夠多,足夠有價值;第二,是否找到適合的數據技術的業務應用。

下面就來簡單說說上述提到的一些和“大數據“”形影不離的“小伙伴們”——

1.云計算

由于大數據的采集、存儲和計算的量都非常大,所以大數據需要特殊的技術,以有效地處理大量的數據。

從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。

可以說,大數據相當于海量數據的“數據庫”,云計算相當于計算機和操作系統,將大量的硬件資源虛擬化后再進行分配使用。

整體來看,未來的趨勢是,云計算作為計算資源的底層,支撐著上層的大數據處理,而大數據的發展趨勢是,實時交互式的查詢效率和分析能力, “動一下鼠標就可以在秒級操作PB級別的數據”。

2.Hadoop/HDFS /Mapreduce/Spark

除了云計算,分布式系統基礎架構Hadoop的出現,為大數據帶來了新的曙光。

Hadoop是Apache軟件基金會旗下的一個分布式計算平臺,為用戶提供了系統底層細節透明的開源分布式基礎架構。它是一款用Java編寫的開源軟件框架,用于分布式存儲,并對非常大的數據集進行分布式處理,用戶可以在不了解分布式底層細節的情況下,開發分布式程序,現在Hadoop被公認為行業大數據標準開源軟件。

而HDFS為海量的數據提供了存儲;Mapreduce則為海量的數據提供了并行計算,從而大大提高計算效率。它是一種編程模型,用于大規模數據集(大于1TB)的并行運算,能允許開發者在不具備開發經驗的前提下也能夠開發出分布式的并行程序,并讓其運行在數百臺機器上,在短時間完成海量數據的計算。

在使用了一段時間的 MapReduce 以后,程序員發現 MapReduce 的程序寫起來太麻煩,希望能夠封裝出一種更簡單的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。

同時Spark/storm/impala等各種各樣的技術也相繼進入數據科學的視野。比如Spark是Apache Software Foundation中最活躍的項目,是一個開源集群計算框架,也是一個非??粗厮俣鹊拇髷祿幚砥脚_。

打個比方,如果我們把上面提到的4千萬條記錄比喻成“米”,那么,我們可以用“HDFS”儲存更多的米,更豐富的食材;如果我們有了“Spark”這些組件(包括深度學習框架Tensorflow),就相當于有了“鍋碗瓢盆”,基本上就能做出一頓可口的飯菜了。

圖片

其實,大數據火起來的時候,很多做統計出身的人心里曾經是有一萬個***的——因為大數據實在太火,以至于很多公司在招人的時候,關注的是這個人對計算工具的使用,而忽略了人對數據價值和行業的理解。

但目前統計學專業人士確實面臨的一個現實問題是:隨著客戶企業的數據量逐漸龐大,不用編程的方式很難做數據分析。所以,越來越多的統計學家也拿自己開涮:“統計學要被計算機學替代了,因為現在幾乎沒有非大數據量的統計應用”。

總之,掌握編程的基礎,大量的項目實踐,是從事大數據技術領域的必要條件。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 云計算
    +關注

    關注

    39

    文章

    7733

    瀏覽量

    137199
  • 數據庫
    +關注

    關注

    7

    文章

    3765

    瀏覽量

    64274
  • 大數據
    +關注

    關注

    64

    文章

    8863

    瀏覽量

    137293
收藏 人收藏

    評論

    相關推薦

    探尋大數據時代的商業變革

    `科技的進步在很多時候總會超出我們的想象。近年來,“大數據”一詞逐漸被大眾所熟知,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。大數據時代已然來臨,它
    發表于 05-27 17:11

    大數據技術經驗交流 場景化數據算法

    可視化數據指導,讓每一個人看懂大數據;多場景數據算法,讓所有數據都有跡可循;大數據技術經驗交流群
    發表于 06-01 17:12

    為什么小數據大數據更重要

    大數據在2015年一年的收集量比有史以來人類總共收集到的數據總和都要多,可是90%都沒有被利用,成了廢數據。問題出在哪里?請看下文:早在2014年,加州大學戴維斯分校的
    發表于 12-27 14:54

    如何從零學大數據?

    新如何學習大數據技術大數據怎么入門?怎么做大數據分析?數據科學需要學習那些技術
    發表于 03-01 15:41

    常見大數據應用哪些?

    與預測、數據分析結果展示等,為做出正確決策提供依據,其數據級別通常在PB以上,以下是常用的大數據技術:一、大數據基礎階段
    發表于 03-13 16:50

    大數據運用的技術

    大數據是對海量數據進行存儲、計算、統計、分析處理的一系列處理手段,處理的數據量通常是TB級,甚至是PB或EB級的數據,這是傳統數據處理手段所
    發表于 04-08 16:50

    大數據數據類型

    大數據不僅僅是一個數據,它是大數據集的集合,不能使用傳統的計算技術來處理,宏觀上來講,它不僅包括需處理的數據,還包括各種工具、
    發表于 05-11 15:57

    大數據開發核心技術詳解

    數據的核心是云技術和BI。關于大數據和云計算的關系人們通常會有誤解,而且也會把它們混起來說,分別做一句話直白解釋就是:云計算就是硬件資源的虛擬化;大數據就是海量
    發表于 07-26 16:26

    基于hadoop的免費大數據平臺哪些?

    時期內關于大數據應用開發又將進入到一個新的階段。現在市面上圍繞大數據的應用開發如火如荼,比如,企業級大數據處理平臺開發、政務大數據平臺的開發、智慧交通
    發表于 11-07 14:10

    大數據平臺開發公司哪些?

    `大數據、區塊鏈可以說近幾年互聯網非常火爆的風口了,發展真可謂是蓬勃向上。圍繞大數據進行的行業變革、創新已經不僅僅是趨勢,而是真實在進行中。大數據技術對各行業的重要性不言而喻,15年*
    發表于 11-15 15:17

    大數據的定義及其應用

    目錄1、大數據概述1.1. 概述1.2. 大數據定義1.3. 大數據技術發展2、大數據應用2.1. 大數
    發表于 07-12 06:12

    什么是大數據?大數據的特點哪些

    大數據(big data)目錄1什么是大數據2大數據的定義3大數據的特點[1]4大數據的作用[2]5大數
    發表于 07-12 06:52

    大數據技術與應用是學什么的?

    大數據技術與應用是學什么的?大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。大數據
    發表于 07-27 07:47

    什么是大數據

    ,毅然決定學習大數據技術,進入相關行業,而有的人還在觀望,不知道未來大數據前景怎么樣?今日博主有幸在1024"程序員節"上,為大家(更多是入門級的選...
    發表于 08-31 08:52

    大數據技術是干嘛的 大數據核心技術哪些

    大數據技術是指用來處理和存儲海量、多類型、高速的數據的一系列技術和工具。現如今,大數據已經滲透到各個行業和領域,對企業決策和業務發展起到了重
    的頭像 發表于 01-31 11:07 ?3083次閱讀