“大數(shù)據(jù)分析、可視化及BI領(lǐng)域
雖然這三個(gè)領(lǐng)域在功能及應(yīng)用范圍上各有千秋,但實(shí)質(zhì)上可以說是相輔相成:通過大數(shù)據(jù)的基礎(chǔ)分析工具,研究人員可以獲得數(shù)據(jù)內(nèi)部的邏輯及結(jié)果表現(xiàn),但通常這些結(jié)果過于復(fù)雜并缺乏合理的表達(dá)形式,使數(shù)據(jù)科學(xué)家及企業(yè)的管理者無法快速領(lǐng)會(huì)并對(duì)經(jīng)營活動(dòng)進(jìn)行調(diào)整。
因此大數(shù)據(jù)的可視化方案應(yīng)運(yùn)而生,多數(shù)可視化方案都作為數(shù)據(jù)分析工具的延伸而存在,但也有少部分公司另辟蹊徑,采用非傳統(tǒng)方式將數(shù)據(jù)的可視化更加貼近需求。BI則是大數(shù)據(jù)分析和可視化與業(yè)務(wù)場景的結(jié)合,作為企業(yè)內(nèi)部管理工具,使企業(yè)的價(jià)值有了極大的增長,成為了大數(shù)據(jù)應(yīng)用領(lǐng)域重要的一環(huán)。
大數(shù)據(jù)分析領(lǐng)域,在朝向易用、簡單化發(fā)展
大部分大數(shù)據(jù)分析企業(yè)的現(xiàn)狀,可以說是將數(shù)據(jù)的分析、可視化及數(shù)據(jù)的采集、治理、集成進(jìn)行了一體化,以大數(shù)據(jù)的分析平臺(tái)形式存在。例如Fractal Analytics除了具備數(shù)據(jù)分析功能外,還提供自動(dòng)化數(shù)據(jù)清理及驗(yàn)證服務(wù),能夠返回標(biāo)準(zhǔn)化的結(jié)構(gòu)化數(shù)據(jù); Voyager Labs則能夠?qū)崟r(shí)采集、分析遍布世界各地的數(shù)十億個(gè)數(shù)據(jù)點(diǎn),幫助用戶進(jìn)行預(yù)測。
上述典型公司主要面向大型企業(yè)進(jìn)行定制化全流程服務(wù),客單價(jià)有時(shí)高達(dá)千萬美元級(jí)別,例如Fractal Analytics的客戶就包括飛利浦、金佰利等大型公司,其高昂的價(jià)格及服務(wù)令小型企業(yè)望塵莫及。
但隨著大數(shù)據(jù)技術(shù)的逐漸普及,SaaS化的大數(shù)據(jù)分析服務(wù)將是一個(gè)明確的發(fā)展方向,而其使用門檻也將大幅降低,從而將大數(shù)據(jù)分析的能力逐步賦予給中小企業(yè),以真正的實(shí)現(xiàn)其基礎(chǔ)資源的價(jià)值。同時(shí)確保企業(yè)數(shù)據(jù)安全的數(shù)據(jù)脫敏、數(shù)據(jù)保護(hù)市場也會(huì)隨著SaaS化的到來而逐步拓展出新的市場空間。
目前大數(shù)據(jù)技術(shù)簡化、低成本、易用的趨勢已經(jīng)在部分公司的產(chǎn)品策略上有所體現(xiàn),例如大數(shù)據(jù)分析公司Domino的產(chǎn)品讓數(shù)據(jù)科學(xué)家只需專注于自己的分析工作,而不用關(guān)注軟硬件基礎(chǔ)設(shè)施的建立及維護(hù),Datameer更進(jìn)一步開發(fā)出的產(chǎn)品屏蔽了復(fù)雜的大數(shù)據(jù)分析底層技術(shù),通過類似電子表格的可視化數(shù)據(jù)分析用戶界面,讓企業(yè)的員工能夠快速上手使用,RapidMiner Studio可零代碼操作客戶端,實(shí)現(xiàn)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、文本挖掘、預(yù)測性分析等功能。
在大數(shù)據(jù)分析能力普及的同時(shí),提升數(shù)據(jù)分析性能、優(yōu)化數(shù)據(jù)分析結(jié)果的技術(shù)研發(fā)也在快速進(jìn)展中。例如SigOpt通過自主開發(fā)的貝葉斯優(yōu)化(Bayesian Optimization)算法來調(diào)整模型的參數(shù),獲得了比常見的網(wǎng)格搜索(grid searching technique)解決方案更快、更穩(wěn)定、更易于使用的結(jié)果,目前SigOpt 的產(chǎn)品不僅可以讓用戶測試不同變量,還能夠提供下一步的測試建議,以幫助用戶持續(xù)優(yōu)化改善數(shù)據(jù)分析結(jié)果。
令人感到欣喜的是,在大數(shù)據(jù)分析領(lǐng)域還存在著一些顛覆了傳統(tǒng)數(shù)據(jù)分析理論,采用獨(dú)特方式方法進(jìn)行數(shù)據(jù)分析的公司。這類公司的技術(shù)對(duì)傳統(tǒng)數(shù)據(jù)分析方法進(jìn)行了很好的補(bǔ)充,在特定領(lǐng)域有著成功的應(yīng)用。
這類公司中的典型之一是由三位全球頂尖的數(shù)學(xué)家創(chuàng)立的Ayasdi,它利用拓?fù)鋽?shù)據(jù)分析技術(shù)和上百種機(jī)器學(xué)習(xí)的算法來處理復(fù)雜的數(shù)據(jù)集,不僅可以有效地捕捉高維數(shù)據(jù)空間的拓?fù)?a target="_blank">信息,而且擅長發(fā)現(xiàn)一些用傳統(tǒng)方法無法發(fā)現(xiàn)的小分類,這種方法目前在基因與癌癥研究領(lǐng)域大顯身手,例如一位醫(yī)生利用Ayasdi的數(shù)據(jù)分析技術(shù)發(fā)現(xiàn)了乳腺癌的14個(gè)變種,如今Ayasdi已經(jīng)在金融服務(wù)和醫(yī)療保健行業(yè)中獲得了相當(dāng)數(shù)量的客戶。
可視化技術(shù),逐步實(shí)現(xiàn)了自動(dòng)化、智能化
大數(shù)據(jù)可視化是連接數(shù)據(jù)分析結(jié)果與人腦的最好途徑,因此可視化技術(shù)的高低也成為了左右大數(shù)據(jù)企業(yè)獲客能力的重要因素。目前可視化的發(fā)展方向同大數(shù)據(jù)分析一致,都是朝著簡單、自動(dòng)化、智能的方向在努力。
典型企業(yè)如Alteryx是一個(gè)提供一站式數(shù)據(jù)分析平臺(tái)的初創(chuàng)公司,旨在讓用戶在同一個(gè)平臺(tái)上完成數(shù)據(jù)輸入、建模以及數(shù)據(jù)圖形化等操作,將數(shù)據(jù)運(yùn)算與精美的圖像完美地嫁接在一起,并能夠和SAS和R語言一樣進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)和分析。
通過可視化幫助用戶實(shí)現(xiàn)真正的管理能力提升也是重要的功能之一,德國大數(shù)據(jù)公司Celonis通過流程挖掘技術(shù),從日常記錄中提取數(shù)據(jù)、發(fā)現(xiàn)關(guān)鍵因素,并最終揭示公司在業(yè)務(wù)中的執(zhí)行情況,能夠幫助客戶公司提高30%的工作效率。
發(fā)展到如今,可視化技術(shù)已經(jīng)不局限于傳統(tǒng)的分析結(jié)果展示,而是能夠直接轉(zhuǎn)換文本、圖片等非結(jié)構(gòu)化的數(shù)據(jù)并直觀展現(xiàn),例如Quid利用機(jī)器智能讀取大量文本,然后將該數(shù)據(jù)轉(zhuǎn)換為交互式視覺地圖,以節(jié)約過去通常會(huì)耗費(fèi)在閱讀檢索中的大量時(shí)間。Origami幫助營銷人員將CRM、社交媒體、郵件營銷和調(diào)查報(bào)告等跨平臺(tái)的數(shù)據(jù)整合并進(jìn)行有效分析,使其簡單化、直觀化、視覺化,人人都能夠高效實(shí)用。
同時(shí)數(shù)據(jù)分析及可視化對(duì)硬件應(yīng)用的革新也在進(jìn)行中,開發(fā)GPU關(guān)系數(shù)據(jù)庫服務(wù)的Kinetica獲得了5000萬美元A輪融資,采用同一技術(shù)路線的MapD也已經(jīng)能夠做到比傳統(tǒng)計(jì)算內(nèi)核快100倍的速度對(duì)大數(shù)據(jù)進(jìn)行查詢與可視化。
BI技術(shù)擺脫"雞肋",實(shí)時(shí)便捷普惠政企效率提升
BI技術(shù)的發(fā)展已經(jīng)有了較長的歷史,但由于技術(shù)因素此前一直被限制于企業(yè)內(nèi)部采集與應(yīng)用,實(shí)際發(fā)揮的效果有限并且使用率不高。如今在數(shù)據(jù)采集與應(yīng)用范圍普及與大數(shù)據(jù)分析、可視化技術(shù)的推動(dòng)下,通過數(shù)據(jù)儀表板、智能決策等方式提升企業(yè)運(yùn)營效率利器的BI再次獲得了資本市場的青睞,Tableau作為BI的代表性企業(yè)已經(jīng)順利IPO目前市值超過48億美元,另一家代表性企業(yè)DOMO估值也達(dá)到20億美元,成長速度遠(yuǎn)超傳統(tǒng)商業(yè)軟件公司。
相比于可視化技術(shù),BI更偏重于實(shí)際的應(yīng)用,通過模板化、SaaS化及去代碼等方式,BI應(yīng)用范圍不再局限于數(shù)據(jù)科學(xué)家及企業(yè)高管,可預(yù)見未來企業(yè)內(nèi)部每個(gè)員工都可以通過BI工具獲知自己及所處部門的各項(xiàng)數(shù)據(jù),并能夠有針對(duì)性的改進(jìn)工作方式與方向。
已經(jīng)累計(jì)融資1.77億美元的Looker令用戶能夠使用自然語言進(jìn)行查詢,降低了查詢大型數(shù)據(jù)集的門檻;GoodData為企業(yè)提供大數(shù)據(jù)分析SaaS服務(wù),其所有的數(shù)據(jù)分析服務(wù)實(shí)現(xiàn)了100%云化,企業(yè)可以將公司已有數(shù)據(jù)導(dǎo)入GoodData的云平臺(tái),再對(duì)數(shù)據(jù)做跟蹤、切分、可視化、分析等處理。
BI領(lǐng)域一個(gè)有意思的應(yīng)用案例是Qlik公司的產(chǎn)品受到了中國海關(guān)總署的高度贊揚(yáng)。海關(guān)總署每天都需要進(jìn)行龐大的數(shù)據(jù)分析, Qlik則通過圖形化數(shù)據(jù)展示,使海關(guān)管理人員不再受平臺(tái)和時(shí)間的限制,能夠多視角長跨度的分析,實(shí)現(xiàn)了對(duì)于現(xiàn)有海量數(shù)據(jù)的業(yè)務(wù)的快速展示,極大地促進(jìn)了稽查效果。
“企業(yè)大數(shù)據(jù)檢索、產(chǎn)品大數(shù)據(jù)分析、大數(shù)據(jù)咨詢預(yù)測、大數(shù)據(jù)平臺(tái)及機(jī)器學(xué)習(xí)領(lǐng)域
企業(yè)大數(shù)據(jù)檢索能夠充分挖掘并釋放企業(yè)數(shù)據(jù)的潛力;產(chǎn)品的大數(shù)據(jù)分析使用戶行為成為了產(chǎn)品設(shè)計(jì)與運(yùn)營環(huán)節(jié)的重要參考因素;大數(shù)據(jù)技術(shù)與咨詢業(yè)務(wù)的結(jié)合則對(duì)咨詢行業(yè)形成了很大的影響,數(shù)據(jù)技術(shù)導(dǎo)向的咨詢業(yè)務(wù)將極有可能成為未來行業(yè)的主流選擇;大數(shù)據(jù)服務(wù)支撐平臺(tái)類企業(yè)則為大數(shù)據(jù)技術(shù)的普及和實(shí)用化做了很大的貢獻(xiàn),是大數(shù)據(jù)技術(shù)生態(tài)中不可或缺的一環(huán);最后是機(jī)器學(xué)習(xí),作為大數(shù)據(jù)分析的底層技術(shù)方法也逐漸開始得到廣泛應(yīng)用。
首先將企業(yè)大數(shù)據(jù)檢索、產(chǎn)品大數(shù)據(jù)分析、大數(shù)據(jù)咨詢預(yù)測、大數(shù)據(jù)平臺(tái)和機(jī)器學(xué)習(xí)這五個(gè)領(lǐng)域的典型企業(yè)列舉如下,接下來將分版塊進(jìn)行詳細(xì)介紹。
企業(yè)大數(shù)據(jù)檢索
移動(dòng)互聯(lián)網(wǎng)的普及與SaaS服務(wù)的興起令企業(yè)沉淀的數(shù)據(jù)量呈指數(shù)級(jí)上升,但目前對(duì)企業(yè)數(shù)據(jù)價(jià)值的挖掘僅僅停留在較淺層面,真正的大數(shù)據(jù)分析能力還尚未應(yīng)用。因此如何做好企業(yè)內(nèi)部數(shù)據(jù)信息價(jià)值的發(fā)掘成為了關(guān)鍵的第一步。
提升企業(yè)數(shù)據(jù)挖掘檢索能力,并將檢索的技術(shù)門檻降低的典型企業(yè)有Algolia,目前其產(chǎn)品具備關(guān)鍵字輸入智能容錯(cuò)功能,并提供搜索排名配置,能夠讓普通員工也能按需要找到自己所需的數(shù)據(jù)信息。同時(shí)Algolia還為移動(dòng)設(shè)備提供了離線搜索引擎,其C++ SDK可以嵌入到應(yīng)用服務(wù)器端,這樣即便沒有網(wǎng)絡(luò)連接應(yīng)用也能提供搜索功能,適用范圍很廣。
而在SaaS化服務(wù)興起的同時(shí),企業(yè)采用多種軟件導(dǎo)致內(nèi)部數(shù)據(jù)不聯(lián)通而形成了數(shù)據(jù)孤島。根據(jù)互聯(lián)網(wǎng)女皇Mary Meeker的分析,不同行業(yè)的公司平均使用SaaS服務(wù)的數(shù)量從最低25個(gè)至高達(dá)91個(gè),需要跨平臺(tái)數(shù)據(jù)檢索分析服務(wù)。Maana開發(fā)的數(shù)據(jù)搜索和發(fā)現(xiàn)平臺(tái)Maana Knowledge Graph,其長處便是收集來自多個(gè)系統(tǒng)或者”孤島”的數(shù)據(jù),并將其轉(zhuǎn)換為運(yùn)營建議,可廣泛應(yīng)用于多個(gè)行業(yè)。
產(chǎn)品大數(shù)據(jù)分析
產(chǎn)品大數(shù)據(jù)分析相對(duì)其他應(yīng)用來說關(guān)注度稍低,但其能夠發(fā)揮的功能并不少。通過收集用戶的瀏覽、點(diǎn)擊、購買等行為,不單從宏觀上能夠察覺用戶群體的喜好變化提前應(yīng)對(duì),微觀上還能夠構(gòu)建用戶畫像,從而做到定制的產(chǎn)品推薦與營銷,能夠有效的提升用戶的消費(fèi)水平與滿意程度。
Mixpanel便是一家提供類似產(chǎn)品的公司,其讓企業(yè)用戶跟蹤用戶的使用習(xí)慣提供實(shí)時(shí)分析,其產(chǎn)品有用戶動(dòng)態(tài)分析(Trends)、行為漏斗模型(Funnels)、用戶活躍度(Cohorts)及單用戶行為分析(People)等幾個(gè)模塊,全面的覆蓋了可能發(fā)生的用戶行為與場景。
大數(shù)據(jù)咨詢預(yù)測
如今大數(shù)據(jù)技術(shù)的發(fā)展為事件分析和預(yù)測提供了可能,并且準(zhǔn)確度和處理速度已經(jīng)具備了很大競爭力,傳統(tǒng)咨詢公司的處境類似于現(xiàn)在面對(duì)AI威脅的華爾街分析師,或許不久之后就將會(huì)被替代。因此隨著逐漸出現(xiàn)大數(shù)據(jù)咨詢公司的同時(shí),傳統(tǒng)咨詢企業(yè)也紛紛與大數(shù)據(jù)技術(shù)公司合作,甚至成立了自己的數(shù)據(jù)業(yè)務(wù)部門。
Opera Solutions便是一家依托大數(shù)據(jù)分析的咨詢公司,其創(chuàng)始人是咨詢行業(yè)資深人士,曾創(chuàng)辦了商業(yè)咨詢公司Mitchell Madison和Zeborg。
目前Opera致力于金融領(lǐng)域的數(shù)據(jù)分析類咨詢,通過建模、定量分析給客戶提供建議,解決客戶的商業(yè)問題。例如其計(jì)算機(jī)系統(tǒng)可以一次性采集數(shù)十億條數(shù)據(jù),包含從房產(chǎn)和汽車價(jià)格到經(jīng)紀(jì)賬戶和供應(yīng)鏈的實(shí)時(shí)數(shù)據(jù)等,通過分析從中獲得有關(guān)消費(fèi)者、市場和整個(gè)經(jīng)濟(jì)體系將如何行動(dòng)的信號(hào)或見解。其客戶包含了咨詢機(jī)構(gòu)及花旗銀行等公司,最近還為摩根士丹利提供了幫助經(jīng)紀(jì)人團(tuán)隊(duì)給其客戶提供投資建議的業(yè)務(wù)。
新技術(shù)、機(jī)器學(xué)習(xí)與咨詢預(yù)測行業(yè)的結(jié)合,相比于僅使用大數(shù)據(jù)分析技術(shù)能夠獲得更好的效果,也成為了行業(yè)內(nèi)的一個(gè)小熱點(diǎn)。例如基于社會(huì)物理學(xué)原理的Endor能夠依托少量數(shù)據(jù)生成統(tǒng)一的人類行為數(shù)據(jù)集,并比傳統(tǒng)海量數(shù)據(jù)分析方式更早的做出模式識(shí)別與判斷。在甄別facebook上受ISIS控制的賬號(hào)的實(shí)驗(yàn)中,根據(jù)已知少量ISIS賬號(hào)特性,Endor高效分辨出了新的ISIS疑似賬號(hào)并且準(zhǔn)確度令人滿意。
大數(shù)據(jù)服務(wù)支撐平臺(tái)
目前圍繞著大數(shù)據(jù)技術(shù)與大數(shù)據(jù)產(chǎn)業(yè)生態(tài)鏈發(fā)展的,還有許多是平臺(tái)服務(wù)型的公司,這類公司具備一定的技術(shù)水平,但主要通過服務(wù)大數(shù)據(jù)技術(shù)公司及科研人員而存在,是技術(shù)生態(tài)中不可或缺的一環(huán)。
Dataiku創(chuàng)建了一個(gè)云平臺(tái),旨在使數(shù)據(jù)科學(xué)家和普通員工更容易獲得公司收集的大數(shù)據(jù),并通過機(jī)器學(xué)習(xí)庫縮短了專家以及數(shù)據(jù)分析師所需要的時(shí)間。
Algorithmia的平臺(tái)上提供包括機(jī)器學(xué)習(xí)、語義分析、文本分析等通用性算法,一旦用戶找到想用的算法,只需添加幾行簡單的算法查詢代碼到應(yīng)用中,Algorithmia的服務(wù)器就會(huì)與應(yīng)用連接,避免了開發(fā)者的重復(fù)勞動(dòng)。
目前部分向開發(fā)者社區(qū)業(yè)務(wù)發(fā)展過渡的平臺(tái)型企業(yè),因其資源已經(jīng)得到行業(yè)巨頭的青睞,被Google收購的Kaggle便是一例,通過舉辦數(shù)據(jù)科學(xué)周邊的線上競賽,Kaggle吸引了大量數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)開發(fā)者的參與,為各類現(xiàn)實(shí)中的商業(yè)難題尋找基于數(shù)據(jù)的算法解決方案。同時(shí)Kaggle為其社區(qū)提供了一整套服務(wù),包括知名的招聘服務(wù)以及代碼分享工具Kernels。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí),是模式識(shí)別、統(tǒng)計(jì)學(xué)習(xí)、數(shù)據(jù)挖掘的技術(shù)手段,也是計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等領(lǐng)域的底層技術(shù),在附件的介紹中大家可以看到,微軟Azure、Google云平臺(tái)及AWS都推出了自己的機(jī)器學(xué)習(xí)產(chǎn)品,而眾多的機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司則通過提供有特色的技術(shù)或服務(wù)進(jìn)行差異化競爭。
已累計(jì)獲得了7900萬美元融資的Attivio專注于利用機(jī)器學(xué)習(xí)技術(shù)通過文本進(jìn)行情緒分析,提供有監(jiān)督的機(jī)器學(xué)習(xí)與無監(jiān)督機(jī)器學(xué)習(xí)兩種技術(shù),幫助企業(yè)通過識(shí)別企業(yè)語料庫中的文檔進(jìn)行情緒建模與分析。思科通過Attivio的智能系統(tǒng)令銷售人員能夠在與客戶合作時(shí)依據(jù)對(duì)方的情緒、消費(fèi)能力等數(shù)據(jù)推薦合適產(chǎn)品,從而節(jié)省了數(shù)百萬的銷售運(yùn)營費(fèi)用,同時(shí)節(jié)約了銷售團(tuán)隊(duì)15-25%的時(shí)間。
DataRobot的業(yè)務(wù)是搜索了數(shù)百萬種可能的算法組合,并進(jìn)行預(yù)處理、特征計(jì)算、轉(zhuǎn)換和調(diào)整參數(shù),為用戶的數(shù)據(jù)集和預(yù)測目標(biāo)提供最佳模型,使用戶無需數(shù)據(jù)科學(xué)專業(yè)背景也能在幾分鐘內(nèi)構(gòu)建優(yōu)秀模型,例如銀行利用Datarobot能夠自動(dòng)構(gòu)建非常準(zhǔn)確的預(yù)測模型,識(shí)別欺詐性金融交易從而避免損失。
-
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8863瀏覽量
137290
原文標(biāo)題:2017全球大數(shù)據(jù)產(chǎn)業(yè)八領(lǐng)域典型公司盤點(diǎn)分析
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論