雖然有多種解讀,但業界一般認為,大數據有四個“V”字開頭的特征:Volume(容量), Variety(種類), Velocity(速度)和最重要的Value(價值)。Volume是指大數據巨大的數據量與數據完整性。張亞勤說,IT業界所指的數據,誕生不過60多年。而一直到個人電腦普及前,由于存儲、計算和分析工具的技術和成本限制,許多自然界和人類社會值得記錄的信號,并未形成數據。幾十年前,氣象、地質、石油物探、出版業、媒體業和影視業是大量、持續產出信號的行業,但那時90%以上采用的是存儲模擬信號,難以通過計算設備和軟件進行直接分析。擁有大量資金和人才的政府和企業,也只能把少量最關鍵的信號,進行抽取、轉換、裝載到數據庫中。
張亞勤認為,盡管業界對達到怎樣的數量級才算是大數據并無定論,但在很多行業的應用場景里,數據集本身的大小并不是最重要的,是否完整才最重要。Variety則意味著要在海量、種類繁多的數據間發現其內在關聯。互聯網時代,各種設備通過網絡連成了一個整體。進入以互動為特征的Web2.0時代,個人計算機用戶不僅可以通過網絡獲取信息,還成為了信息的制造者和傳播者。這個階段,不僅是數據量開始了爆炸式增長,數據種類也開始變得繁多。
“這必然促使我們對海量數據進行分析、處理和集成,找出原本看來毫無關系的那些數據的‘關聯性’,把似乎沒有用的數據變成有用的信息,以支持我們做出的判斷。”張亞勤說。
Velocity可以理解為更快地滿足實時性需求。數據的實時化需求正越來越清晰。對普通人而言,開車去吃飯,會先用移動終端中的地圖查詢餐廳的位置,預計行車路線的擁堵情況,了解停車場信息甚至是其他用戶對餐廳的評論。吃飯時,會用手機拍攝食物的照片,編輯簡短評論發布到微博或者微信上,還可以用LBS(基于位置的服務)應用查找在同一間餐廳吃飯的人,看有沒有好友在附近……
張亞勤說,如今,通過各種有線和無線網絡,人和人、人和各種機器、機器和機器之間產生無處不在的連接,這些連接不可避免地帶來數據交換。而數據交換的關鍵是降低延遲,以近乎實時——這意味著小于250毫秒——的方式呈獻給用戶。“但比前面3個‘V’更重要的,就是Value,它是大數據的最終意義——獲得洞察力和價值。”張亞勤說,大數據的崛起,正是在人工智能、機器學習和數據挖掘等技術的迅速發展驅動下,呈現這么一個過程:將信號轉化為數據,將數據分析為信息,將信息提煉為知識,以知識促成決策和行動。
目前,云計算已經普及并成為IT行業主流技術,其實質是在計算量越來越大、數據越來越多、越來越動態、越來越實時的需求背景下被催生出來的一種基礎架構和商業模式。個人用戶將文檔、照片、視頻、游戲存檔記錄上傳至“云”中永久保存,企業客戶根據自身需求,可以搭建自己的“私有云”,或托管、或租用“公有云”上的IT資源與服務,這些都已不是新鮮事。可以說,云是一棵掛滿了大數據的蘋果樹。
大數據的出現,正在引發全球范圍內深刻的技術與商業變革。在技術上,大數據使從數據當中提取信息的常規方式發生了變化。“在技術領域,以往更多是依靠模型的方法,現在我們可以借用規模龐大的數據,用基于統計的方法,有望使語音識別、機器翻譯這些技術領域在大數據時代取得新的進展。”張亞勤說。
-
大數據
+關注
關注
64文章
8864瀏覽量
137311
發布評論請先 登錄
相關推薦
評論