大數(shù)據(jù)智能決策
來(lái)源:《自動(dòng)化學(xué)報(bào)》?,作者于洪等
摘 要?在全球信息化快速發(fā)展的背景下,大數(shù)據(jù)已經(jīng)成為一種戰(zhàn)略資源.各行各業(yè)的決策活動(dòng)在頻度、廣度及復(fù)雜性上較以往有著本質(zhì)的不同.決策過(guò)程中的不確定性因素增多,決策分析的難度不斷加大.傳統(tǒng)的數(shù)據(jù)分析方法以及基于人工經(jīng)驗(yàn)的決策已難以滿足大數(shù)據(jù)時(shí)代的決策需求,大數(shù)據(jù)驅(qū)動(dòng)的智能決策將成為決策研究的主旋律.該文結(jié)合大數(shù)據(jù)特性,對(duì)大數(shù)據(jù)決策的特點(diǎn)進(jìn)行了歸納,并從智能決策支持系統(tǒng)、不確定性處理、信息融合、關(guān)聯(lián)分析和增量分析等方面綜述了大數(shù)據(jù)智能決策的研究與發(fā)展現(xiàn)狀,討論了大數(shù)據(jù)智能決策依然面臨的挑戰(zhàn),并對(duì)一些潛在的研究方向進(jìn)行了展望分析.
關(guān)鍵詞?大數(shù)據(jù),智能決策,不確定性,信息融合,關(guān)聯(lián)分析,增量式學(xué)習(xí)
當(dāng)今社會(huì)處于一個(gè)信息技術(shù)高速發(fā)展時(shí)期,數(shù)據(jù)信息的交互、共享與開放程度持續(xù)加快,使得各行業(yè)領(lǐng)域的數(shù)據(jù)信息呈爆炸式增長(zhǎng).“大數(shù)據(jù)時(shí)代” 如約而至,并成為當(dāng)今社會(huì)的代名詞.大數(shù)據(jù)以其蘊(yùn)藏巨大的經(jīng)濟(jì)、社會(huì)和科研價(jià)值受到社會(huì)各界的廣泛關(guān)注[1].2012 年1 月,達(dá)沃斯世界經(jīng)濟(jì)論壇發(fā)布的大數(shù)據(jù)報(bào)告“Big data,big impact:new possibilities for international development” 將大數(shù)據(jù)列為和貨幣與黃金同等重要的新經(jīng)濟(jì)資產(chǎn)[2].2012 年5 月,聯(lián)合國(guó)發(fā)布的Big Data for Development:Challenges& Opportunities?白皮書指出,大數(shù)據(jù)是聯(lián)合國(guó)和各國(guó)政府的一個(gè)歷史性機(jī)遇,利用大數(shù)據(jù)進(jìn)行決策,是提升國(guó)家治理能力,實(shí)現(xiàn)治理能力現(xiàn)代化的必然要求,可以幫助政府更好地參與經(jīng)濟(jì)社會(huì)的運(yùn)行與發(fā)展[3].在科研領(lǐng)域,大數(shù)據(jù)正引領(lǐng)數(shù)據(jù)密集型科學(xué)(Data-intensive science) 的到來(lái),形成繼實(shí)驗(yàn)科學(xué)、理論科學(xué)以及計(jì)算科學(xué)之后的第四科學(xué)范式[4],有望推動(dòng)傳統(tǒng)科學(xué)的假設(shè)驅(qū)動(dòng)模式向基于大數(shù)據(jù)探索的數(shù)據(jù)密集型方法轉(zhuǎn)變.在全球信息化快速發(fā)展的背景下,大數(shù)據(jù)已逐漸成為世界各國(guó)的基礎(chǔ)性戰(zhàn)略資源,運(yùn)用大數(shù)據(jù)推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展正成為趨勢(shì).
現(xiàn)階段加快發(fā)展智能經(jīng)濟(jì)、智能服務(wù)和智能制造是我國(guó)經(jīng)濟(jì)增長(zhǎng)的內(nèi)在需求和必然選擇.目前我國(guó)處于工業(yè)化和信息化的深度融合時(shí)期,我國(guó)制造業(yè)正處于從價(jià)值鏈的低端向中高端、從中國(guó)制造向中國(guó)創(chuàng)造轉(zhuǎn)變的關(guān)鍵歷史時(shí)期,發(fā)展基于大數(shù)據(jù)的人工智能新技術(shù)是實(shí)現(xiàn)從制造大國(guó)向制造強(qiáng)國(guó)邁進(jìn)的戰(zhàn)略舉措.在此背景之下,國(guó)家相繼出臺(tái)了“‘互聯(lián)網(wǎng)+’ 行動(dòng)計(jì)劃” 和“中國(guó)制造2025” 戰(zhàn)略規(guī)劃,特別是國(guó)務(wù)院頒布的“促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要” 和“新一代人工智能發(fā)展規(guī)劃” 都將大數(shù)據(jù)智能作為重點(diǎn)發(fā)展方向,大數(shù)據(jù)的戰(zhàn)略資源地位進(jìn)一步凸顯.近年來(lái),以大數(shù)據(jù)與人工智能技術(shù)為基礎(chǔ)的“智能制造[5]” 成為推動(dòng)大數(shù)據(jù)從概念到落地的重要模式和手段.從大數(shù)據(jù)的供給需求來(lái)看,智能制造的核心要義便是在兩化融合的基礎(chǔ)上構(gòu)建智能分析優(yōu)化系統(tǒng)“工業(yè)大腦”,對(duì)大數(shù)據(jù)進(jìn)行智能化分析進(jìn)而實(shí)現(xiàn)智能決策.
決策存在于人類一切實(shí)踐活動(dòng)當(dāng)中.小到一臺(tái)機(jī)器的操作,大到一個(gè)國(guó)家的治理,都離不開決策.例如,工業(yè)領(lǐng)域的操作優(yōu)化與資源分配、商業(yè)領(lǐng)域的個(gè)性化推薦與供應(yīng)商選擇、交通領(lǐng)域的車流控制與路徑導(dǎo)航、醫(yī)療領(lǐng)域的疾病診斷與治療策略等都屬于決策范疇.隨著社會(huì)節(jié)奏的持續(xù)加快,來(lái)自各領(lǐng)域行業(yè)的決策活動(dòng)在頻度、廣度及復(fù)雜性上較以往都有著本質(zhì)的提高.決策問題的不確定性程度隨著決策環(huán)境的開放程度以及決策資源的變化程度而越來(lái)越大.傳統(tǒng)的基于人工經(jīng)驗(yàn)、直覺及少量數(shù)據(jù)分析的決策方式已經(jīng)遠(yuǎn)不能滿足日益?zhèn)€性化、多樣化、復(fù)雜化的決策需求.在當(dāng)前信息開放與交互的經(jīng)營(yíng)環(huán)境下,機(jī)遇與挑戰(zhàn)并存.如何把握機(jī)遇,這就需要企業(yè)或組織具備出色的決策能力.在這個(gè)過(guò)程中大數(shù)據(jù)正扮演著越來(lái)越重要的角色.
大數(shù)據(jù)作為一種重要的信息資產(chǎn),可望為人們提供全面的、精準(zhǔn)的、實(shí)時(shí)的商業(yè)洞察和決策指導(dǎo).楊善林院士等指出,大數(shù)據(jù)的價(jià)值在于其“決策有用性”,通過(guò)分析、挖掘來(lái)發(fā)現(xiàn)其中蘊(yùn)藏的知識(shí),可以為各種實(shí)際應(yīng)用提供其他資源難以提供的決策支持[6].美國(guó)應(yīng)用信息經(jīng)濟(jì)學(xué)家Hubbard 認(rèn)為“一切皆可量化”,并積極倡導(dǎo)數(shù)據(jù)化決策[7].紐約大學(xué)Provost教授等認(rèn)為數(shù)據(jù)科學(xué)的終極目標(biāo)就是改善決策[8].從數(shù)據(jù)到知識(shí),從知識(shí)到?jīng)Q策,是當(dāng)前大數(shù)據(jù)智能的計(jì)算范式[9],研究大數(shù)據(jù)的意義就是不斷提高“從數(shù)據(jù)到?jīng)Q策的能力”.隨著大數(shù)據(jù)技術(shù)的發(fā)展,人們傳統(tǒng)的決策模式與思維方式正在發(fā)生著變革,基于大數(shù)據(jù)的決策方式正逐漸成為決策應(yīng)用與研究領(lǐng)域的主旋律,大數(shù)據(jù)決策時(shí)代已經(jīng)到來(lái).大數(shù)據(jù)能夠突破事物之間隱性因素?zé)o法被量化的瓶頸,充分闡述生產(chǎn)的主客體和生產(chǎn)全過(guò)程、全時(shí)段的客觀狀態(tài),通過(guò)智能化分析和預(yù)測(cè)判斷來(lái)提高企業(yè)的決策能力[10].在商業(yè)領(lǐng)域,利用大數(shù)據(jù)相關(guān)分析,可以更加精準(zhǔn)地了解客戶的消費(fèi)行為,幫助決策者挖掘新的商業(yè)模式,制定商品價(jià)格,實(shí)現(xiàn)供應(yīng)商協(xié)同工作,緩和供需之間的矛盾,控制預(yù)算開支.例如,全球零售巨頭沃爾瑪(Wal-Mart),通過(guò)對(duì)銷售交易大數(shù)據(jù)的知識(shí)獲取,成功用于價(jià)格策略和推薦活動(dòng)中的決策支持[11].而在工業(yè)領(lǐng)域,為實(shí)現(xiàn)智能制造,每個(gè)影響生產(chǎn)決策的因素都可以經(jīng)過(guò)工業(yè)大數(shù)據(jù)的預(yù)測(cè),以直觀明了的量化信息形式加以呈現(xiàn),方便決策者對(duì)制造能力進(jìn)行整體評(píng)估,進(jìn)而快速有效地制定各項(xiàng)生產(chǎn)決策,優(yōu)化勞動(dòng)力投入,避免產(chǎn)能過(guò)剩[10].目前,百度的工業(yè)大數(shù)據(jù)監(jiān)測(cè)平臺(tái)已經(jīng)應(yīng)用到汽車、日化等制造行業(yè).三一重工則利用大數(shù)據(jù)分析技術(shù)為智能工程機(jī)械物聯(lián)網(wǎng)提供決策支持,推進(jìn)了制造服務(wù)化的步伐.Google 公司旗下的AlphaGo 以4:1 的總比分戰(zhàn)勝世界圍棋冠軍李世石同樣是大數(shù)據(jù)決策頗具代表性的案例.
基于大數(shù)據(jù)的科學(xué)決策,是公共管理、工業(yè)制造、醫(yī)療健康、金融服務(wù)等眾多行業(yè)領(lǐng)域未來(lái)發(fā)展的方向和目標(biāo).如何進(jìn)行大數(shù)據(jù)的智能分析與科學(xué)決策,實(shí)現(xiàn)由數(shù)據(jù)優(yōu)勢(shì)向決策優(yōu)勢(shì)的轉(zhuǎn)化,仍然是當(dāng)前大數(shù)據(jù)應(yīng)用研究中的關(guān)鍵問題.然而,對(duì)大數(shù)據(jù)的分析和處理在不同行業(yè)和領(lǐng)域均存在著巨大的挑戰(zhàn),大數(shù)據(jù)的大體量、高通量、多源異構(gòu)性和不確定性等對(duì)傳統(tǒng)的數(shù)據(jù)處理硬件設(shè)備和軟件處理方法均構(gòu)成前所未有的挑戰(zhàn).目前,機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘及統(tǒng)計(jì)理論等傳統(tǒng)理論方法已經(jīng)廣泛地應(yīng)用于大數(shù)據(jù)分析,但多數(shù)方法是建立在“獨(dú)立同分布” 的假設(shè)之上,難以應(yīng)對(duì)大數(shù)據(jù)的不確定性顯著、關(guān)聯(lián)復(fù)雜、動(dòng)態(tài)增長(zhǎng)、來(lái)源和分布廣泛等問題,多數(shù)只能挖掘到底層的數(shù)據(jù)特征,而對(duì)于挖掘高層次的符合人類認(rèn)知的知識(shí)依然無(wú)法取得較好的效果,難以高效地將大數(shù)據(jù)轉(zhuǎn)化為決策價(jià)值.基于大數(shù)據(jù)的智能決策是一門集應(yīng)用性和科研性于一體的學(xué)科領(lǐng)域,目前還存在眾多待研究的問題.大數(shù)據(jù)智能決策在內(nèi)涵外延、模型理論、技術(shù)方法及實(shí)施策略等方面還需要人們繼續(xù)投入更多的研究與實(shí)踐.
本文旨在綜述大數(shù)據(jù)決策的特點(diǎn)以及大數(shù)據(jù)決策技術(shù)的發(fā)展現(xiàn)狀,分析大數(shù)據(jù)智能決策面臨的問題與挑戰(zhàn),并對(duì)一些潛在研究方向進(jìn)行展望.文章結(jié)構(gòu)如下:第1 節(jié)介紹了大數(shù)據(jù)的概念及特性,總結(jié)了大數(shù)據(jù)決策的特點(diǎn); 第2 節(jié)從智能決策支持系統(tǒng)、基于不確定性分析的智能決策、基于信息融合的智能決策、基于關(guān)聯(lián)分析的智能決策和基于增量分析的智能決策五個(gè)方面綜述了大數(shù)據(jù)智能決策的研究與發(fā)展現(xiàn)狀; 第3 節(jié)討論了大數(shù)據(jù)智能決策面臨的挑戰(zhàn)與發(fā)展趨勢(shì); 第4 節(jié)為結(jié)束語(yǔ).
1 大數(shù)據(jù)決策
1.1 大數(shù)據(jù)的概念及特性
由于不同領(lǐng)域的大數(shù)據(jù)在特性上存在差異,并且人們分析大數(shù)據(jù)的背景和應(yīng)用大數(shù)據(jù)的目的不同,因此不同的領(lǐng)域?qū)<覍?duì)大數(shù)據(jù)的定義也各不相同.高德納咨詢公司、維基百科、美國(guó)國(guó)家科學(xué)基金會(huì)分別從不同的角度給出了大數(shù)據(jù)的定義.我國(guó)的《工業(yè)大數(shù)據(jù)白皮書(2019 版)》還對(duì)工業(yè)大數(shù)據(jù)進(jìn)行了定義[12].簡(jiǎn)言之,大數(shù)據(jù)就是無(wú)法在合理時(shí)間內(nèi)利用現(xiàn)有的數(shù)據(jù)處理手段進(jìn)行諸如存儲(chǔ)、管理、抓取等分析和處理的數(shù)據(jù)集合[13].
有關(guān)大數(shù)據(jù)的特性,業(yè)界普遍將其歸納為4V 特性:一是數(shù)據(jù)體量(Volume) 大,如一些電商企業(yè)日常處理PB 級(jí)別的數(shù)據(jù)已經(jīng)常態(tài)化; 二是數(shù)據(jù)類型多樣(Variety),如在工業(yè)大數(shù)據(jù)中數(shù)據(jù)類型包含了數(shù)值、文本、圖片、音頻、視頻以及傳感器信號(hào)等;三是大數(shù)據(jù)的價(jià)值(Value) 巨大,但價(jià)值密度稀疏,需要通過(guò)分析和挖掘來(lái)獲取數(shù)據(jù)當(dāng)中有價(jià)值的信息;四是大數(shù)據(jù)的高通量(Velocity),它除了指數(shù)據(jù)高速產(chǎn)生以外,還意味著數(shù)據(jù)的采集與分析過(guò)程必須迅速及時(shí),以滿足用戶“及時(shí)、實(shí)時(shí)” 的決策需求.
在特定領(lǐng)域,大數(shù)據(jù)還有著特有的性質(zhì).如在工業(yè)領(lǐng)域,人們還強(qiáng)調(diào)大數(shù)據(jù)的實(shí)時(shí)性、閉環(huán)性、強(qiáng)關(guān)聯(lián)性、多層面不規(guī)則采樣性、多時(shí)空時(shí)間序列性等[14]; 在管理與商業(yè)領(lǐng)域,人們更關(guān)注大數(shù)據(jù)的商用價(jià)值,并提出大數(shù)據(jù)應(yīng)用的5R 模型,即相關(guān)性(Relevant)、實(shí)時(shí)性(Real-time)、真實(shí)性(Realistic)、可靠性(Reliable)、投資回報(bào)(ROI)[13].在科研領(lǐng)域,Wang 等著重分析了大數(shù)據(jù)的不確定性特征[15].Wu等則從大數(shù)據(jù)的異構(gòu)(Heterogeneous)、自治(Autonomous)、復(fù)雜(Complex)、演化(Evolving) 四個(gè)角度提出了描述大數(shù)據(jù)特性的HACE 定理[16].
1.2 大數(shù)據(jù)決策及其特點(diǎn)
決策是人們?yōu)閷?shí)現(xiàn)某一特定的目標(biāo),在占有一定的信息和經(jīng)驗(yàn)(知識(shí)) 的基礎(chǔ)上,根據(jù)主客觀條件的可能性,提出各種可行方案,采用一定的科學(xué)方法和手段,對(duì)解決問題的方案進(jìn)行比較、分析和評(píng)價(jià),并最終進(jìn)行方案選擇的全過(guò)程.從本質(zhì)上來(lái)講,決策通常是目標(biāo)驅(qū)動(dòng)的行為,是目標(biāo)導(dǎo)向下的問題求解過(guò)程,該過(guò)程也廣泛地被認(rèn)為是人類的認(rèn)知過(guò)程.大數(shù)據(jù)決策便是以大數(shù)據(jù)為主要驅(qū)動(dòng)的決策方式.隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)逐漸成為人們獲取對(duì)事物和問題更深層次認(rèn)知的決策資源,特別是人工智能技術(shù)與大數(shù)據(jù)的深度融合,為復(fù)雜決策的建模和分析提供了強(qiáng)有力的工具.
隨著大數(shù)據(jù)應(yīng)用越來(lái)越多地服務(wù)于人們的日常生活,基于大數(shù)據(jù)的決策方式將形成其固有的特性和潛在的趨勢(shì),在此我們將它們一并歸納為大數(shù)據(jù)決策的特點(diǎn).在固有特性方面:大數(shù)據(jù)的實(shí)時(shí)產(chǎn)生及動(dòng)態(tài)變化決定了大數(shù)據(jù)決策的動(dòng)態(tài)性; 大數(shù)據(jù)的多方位感知意味著通過(guò)多源數(shù)據(jù)的整合可以實(shí)現(xiàn)更加全面的決策; 大數(shù)據(jù)潛在的不確定性也使得決策問題的求解過(guò)程呈現(xiàn)不確定性特征.在潛在趨勢(shì)方面:相關(guān)分析或?qū)⒋嬉蚬治?成為獲取大數(shù)據(jù)隱含知識(shí)更有效的手段; 用戶的興趣偏好在大數(shù)據(jù)時(shí)代將更受關(guān)注,更多的商業(yè)決策向滿足個(gè)性化需求轉(zhuǎn)變.基于以上理解,本文對(duì)大數(shù)據(jù)決策的特點(diǎn)進(jìn)行如下總結(jié):
1) 大數(shù)據(jù)決策的動(dòng)態(tài)特性
大數(shù)據(jù)是對(duì)事物客觀表象和演化規(guī)律的抽象表達(dá),其動(dòng)態(tài)性和增量性是對(duì)事物狀態(tài)的持續(xù)反映.不可否認(rèn)的是,人們?cè)跊Q策過(guò)程中的每一步行動(dòng)都將影響事物的發(fā)展進(jìn)程,并全程由大數(shù)據(jù)所反映.此時(shí)決策問題的描述以及決策求解的策略都需要跟隨動(dòng)態(tài)數(shù)據(jù)給予及時(shí)調(diào)整,通過(guò)面向大數(shù)據(jù)的增量式學(xué)習(xí)方法實(shí)現(xiàn)知識(shí)的動(dòng)態(tài)演化與有效積累,進(jìn)而反饋到?jīng)Q策執(zhí)行當(dāng)中.大數(shù)據(jù)決策的動(dòng)態(tài)特性決定了問題的求解過(guò)程應(yīng)該是一個(gè)集描述、預(yù)測(cè)、引導(dǎo)為一體的迭代過(guò)程,該過(guò)程須形成一個(gè)完整的、閉環(huán)的、動(dòng)態(tài)的體系結(jié)構(gòu).簡(jiǎn)要來(lái)說(shuō),大數(shù)據(jù)環(huán)境下的決策模型將是一種具備實(shí)時(shí)反饋的閉環(huán)模型,決策模式將更多地由相對(duì)靜態(tài)的模式或多步驟模式轉(zhuǎn)變?yōu)閷?duì)決策問題動(dòng)態(tài)描述的漸進(jìn)式求解模式.
2) 大數(shù)據(jù)決策的全局特性
截至目前,人們已經(jīng)開發(fā)出多種多樣的決策支持系統(tǒng),但多數(shù)是面向具體領(lǐng)域中的單一生產(chǎn)環(huán)節(jié)或特定目標(biāo)下的局部決策問題,往往無(wú)法較好地實(shí)現(xiàn)全局決策優(yōu)化與多目標(biāo)任務(wù)協(xié)同.在信息開放與交互的大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的跨視角、跨媒介、跨行業(yè)等多源特性創(chuàng)造了信息的交叉、互補(bǔ)與綜合運(yùn)用的條件,這促使了人們進(jìn)一步提升問題求解的關(guān)聯(lián)意識(shí)和全局意識(shí).在大數(shù)據(jù)環(huán)境下決策分析會(huì)更加注重?cái)?shù)據(jù)的全方位性,生產(chǎn)流程的系統(tǒng)性、業(yè)務(wù)各環(huán)節(jié)的交互性、多目標(biāo)問題的協(xié)同性.通過(guò)多源異構(gòu)信息的融合分析,可以實(shí)現(xiàn)不同信源信息對(duì)全局決策問題求解的有效協(xié)同.基于大數(shù)據(jù)的決策系統(tǒng),對(duì)每個(gè)單一問題的決策,都將以優(yōu)先考慮整體決策的優(yōu)化作為前提,進(jìn)而為決策者提供企業(yè)級(jí)、全局性的決策支持.
3) 大數(shù)據(jù)決策的不確定性特征
一般而言,決策的不確定性來(lái)源于三個(gè)方面:一是決策信息不完整、不確定而導(dǎo)致的決策不確定性;二是決策信息分析能力不足而導(dǎo)致的決策不確定性[17]; 三是決策問題過(guò)于復(fù)雜而難以建模導(dǎo)致的不確定性.大數(shù)據(jù)決策的不確定性不外乎以上三個(gè)方面.在信息不完整和不確定方面,首先,大數(shù)據(jù)具有來(lái)源和分布廣泛、關(guān)聯(lián)關(guān)系復(fù)雜等特性,對(duì)于多數(shù)企業(yè)而言,即便借助各種先進(jìn)的數(shù)據(jù)收集手段盡可能地將各種信源數(shù)據(jù)進(jìn)行整合,但仍難以保證信息的全面性和完整性; 其次,大數(shù)據(jù)固有的動(dòng)態(tài)特性決定了大數(shù)據(jù)的分布存在隨時(shí)間變化的不確定性; 另外,大數(shù)據(jù)中普遍存在的噪聲與數(shù)據(jù)缺失現(xiàn)象決定了大數(shù)據(jù)的不完備、不精確性.在大數(shù)據(jù)分析能力方面,顯然現(xiàn)有的大數(shù)據(jù)分析處理技術(shù)還存在著不足,諸如多源異構(gòu)數(shù)據(jù)融合分析、不確定性知識(shí)發(fā)現(xiàn)及大數(shù)據(jù)關(guān)聯(lián)分析等方面仍是當(dāng)前頗具挑戰(zhàn)的研究方向.在決策問題建模方面,在一些非穩(wěn)態(tài)、強(qiáng)耦合的系統(tǒng)環(huán)境下,建立精確的動(dòng)態(tài)決策模型往往異常困難,比如流程工業(yè)中的操作優(yōu)化決策.現(xiàn)階段面向大數(shù)據(jù)的決策問題求解,人們通常使用滿意近似解代替精確解,以此保證問題求解的經(jīng)濟(jì)性和高效性.這種近似求解方式實(shí)際上也反映了大數(shù)據(jù)決策的不確定性特征.
4) 從因果分析向相關(guān)分析轉(zhuǎn)變
在過(guò)往的數(shù)據(jù)分析中,人們往往假設(shè)數(shù)據(jù)的精確性,并通過(guò)反復(fù)試驗(yàn)的手段探索事物之間的因果關(guān)系.但在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的精確性難以保證,數(shù)據(jù)總體對(duì)價(jià)值獲取的完備性異常重要,此時(shí)用于發(fā)現(xiàn)因果關(guān)系的反復(fù)嘗試方法變得異常困難.從統(tǒng)計(jì)學(xué)角度看,變量之間的關(guān)系大體可以分兩種類型:函數(shù)關(guān)系和相關(guān)關(guān)系,一般情況下,數(shù)據(jù)很難嚴(yán)格地滿足函數(shù)關(guān)系,而相關(guān)關(guān)系的要求較為寬松,在大數(shù)據(jù)環(huán)境下更加容易被接受[18],并能滿足人類的眾多決策需求.該方面的成功案例有Google 公司的流感預(yù)測(cè)[19]、啤酒與尿布關(guān)聯(lián)規(guī)則的挖掘等.在面向大數(shù)據(jù)智能化分析的決策應(yīng)用中,相關(guān)性分析技術(shù)可為正確數(shù)據(jù)的選擇提供必要的判定與依據(jù),同時(shí)將其與其他智能分析方法相結(jié)合,可有效避免對(duì)數(shù)據(jù)獨(dú)立同分布的假設(shè),提高數(shù)據(jù)分析的合理性和認(rèn)可度.
5) 決策向滿足個(gè)性化需求轉(zhuǎn)變
在商業(yè)和制造業(yè)領(lǐng)域,對(duì)用戶進(jìn)行精準(zhǔn)營(yíng)銷,滿足用戶的個(gè)性化需求是提升客戶價(jià)值和實(shí)現(xiàn)企業(yè)競(jìng)爭(zhēng)力的經(jīng)營(yíng)準(zhǔn)則.在大數(shù)據(jù)背景下,產(chǎn)品和服務(wù)的提供以及價(jià)值的創(chuàng)造有望更加貼近社會(huì)大眾的個(gè)性化需求.以互聯(lián)網(wǎng)大數(shù)據(jù)為基礎(chǔ),企業(yè)通過(guò)輿情分析、情感挖掘等以用戶為中心的數(shù)據(jù)驅(qū)動(dòng)方法,可以精準(zhǔn)挖掘消費(fèi)者的興趣與偏好,做出有針對(duì)性的個(gè)性化需求預(yù)測(cè),進(jìn)而為消費(fèi)者提供專屬的個(gè)性化產(chǎn)品與服務(wù).宏觀上講,大數(shù)據(jù)可以打通企業(yè)和消費(fèi)者之間的信息主動(dòng)反饋機(jī)制.社會(huì)大眾通過(guò)意見的表達(dá),可以迅速轉(zhuǎn)化為商業(yè)經(jīng)營(yíng)的決策依據(jù),反向指導(dǎo)產(chǎn)品的設(shè)計(jì)和制造環(huán)節(jié),實(shí)現(xiàn)生產(chǎn)與市場(chǎng)需求的有效對(duì)接.以Netflix[20]?為代表的推薦系統(tǒng)正是一個(gè)基于個(gè)性化需求的大數(shù)據(jù)決策系統(tǒng).隨著社會(huì)化媒體應(yīng)用的深入,多元主體參與決策有了更多的便捷性和可能性,決策過(guò)程中價(jià)值多元的作用更加明顯,由此傳統(tǒng)自上而下的精英決策模型將會(huì)改變,并逐漸形成面向公眾與滿足用戶個(gè)性化需求的決策模式.
通過(guò)以上有關(guān)大數(shù)據(jù)決策特點(diǎn)的總結(jié),我們不難發(fā)現(xiàn)大數(shù)據(jù)決策有著相較于傳統(tǒng)基于小數(shù)據(jù)分析決策的諸多不同之處.更進(jìn)一步,大數(shù)據(jù)決策的特點(diǎn)反應(yīng)了當(dāng)前大數(shù)據(jù)智能決策的研究重點(diǎn)與需求.大數(shù)據(jù)決策的不確定性、動(dòng)態(tài)性、全局性以及向相關(guān)性分析的轉(zhuǎn)變,決定了面向大數(shù)據(jù)的關(guān)聯(lián)分析、不確定性分析、對(duì)增量與多源數(shù)據(jù)的有效利用都將是大數(shù)據(jù)智能決策研究中的關(guān)鍵內(nèi)容.
2 大數(shù)據(jù)智能決策研究現(xiàn)狀分析
從靜態(tài)決策到動(dòng)態(tài)決策、從單人決策到群體決策、從基于小規(guī)模數(shù)據(jù)分析的決策到基于大數(shù)據(jù)知識(shí)發(fā)現(xiàn)的決策,決策理論與方法已經(jīng)發(fā)生了巨大的變化[21],基于大數(shù)據(jù)的智能決策逐漸成為新時(shí)代決策應(yīng)用及研究的新生力量.大數(shù)據(jù)智能決策就是用智能計(jì)算方法對(duì)大數(shù)據(jù)進(jìn)行智能化分析與處理,從中抽取結(jié)構(gòu)化的知識(shí),進(jìn)而對(duì)問題進(jìn)行求解或?qū)ξ磥?lái)做出最優(yōu)判斷的過(guò)程.該過(guò)程需要滿足大數(shù)據(jù)決策在不確定性、動(dòng)態(tài)性、全局性以及關(guān)聯(lián)性上的分析需求.
在面向大數(shù)據(jù)的決策應(yīng)用中,關(guān)聯(lián)分析為問題假設(shè)的初步分析以及正確數(shù)據(jù)選擇提供必要的判定與依據(jù),它既是一個(gè)重要前提也是一種必要的分析手段; 不確定性是大數(shù)據(jù)決策的顯著特征,同時(shí)也是大數(shù)據(jù)智能決策研究的重點(diǎn)與難點(diǎn); 大數(shù)據(jù)決策的動(dòng)態(tài)性決定了大數(shù)據(jù)知識(shí)動(dòng)態(tài)演化的重要性,如何有效利用數(shù)據(jù)的增量性同樣是大數(shù)據(jù)智能決策研究的關(guān)鍵點(diǎn); 大數(shù)據(jù)決策追求的全局性,要求大數(shù)據(jù)智能決策能夠?qū)⒍嘣葱畔⑦M(jìn)行融合與協(xié)同以消除信息孤島.需要指出的是,大數(shù)據(jù)的關(guān)聯(lián)性、不確定性、增量性和多源性不是相互獨(dú)立的因素,四者之間存在著潛在的聯(lián)系,在實(shí)際應(yīng)用中可能并發(fā)存在,但從研究的角度出發(fā),一般很難將上述四種因素的分析同時(shí)討論.此外,智能決策支持系統(tǒng)是智能決策分析方法的載體,隨著大數(shù)據(jù)應(yīng)用的普及,智能決策支持系統(tǒng)的發(fā)展也是大數(shù)據(jù)決策領(lǐng)域備受人們關(guān)注的研究方向.結(jié)合以上討論,本節(jié)將從智能決策支持系統(tǒng)、基于不確定性分析的智能決策、基于信息融合的智能決策、基于關(guān)聯(lián)分析的智能決策和基于增量分析的智能決策五個(gè)方面展開對(duì)大數(shù)據(jù)智能決策研究與發(fā)展現(xiàn)狀的綜述分析.
2.1 智能決策支持系統(tǒng)
決策支持是在管理科學(xué)和運(yùn)籌學(xué)的基礎(chǔ)上發(fā)展而來(lái)的一門學(xué)科,20 世紀(jì)70 年代,Scott-Morton 提出了決策支持系統(tǒng)(Decision support system,DSS)的概念[22].DSS 是以提高決策有效性為目的,綜合利用大量數(shù)據(jù),有機(jī)地結(jié)合各種模型,通過(guò)人機(jī)交互的方式,輔助各級(jí)決策者實(shí)現(xiàn)科學(xué)決策的計(jì)算機(jī)系統(tǒng).1980 年,Sprague[23]?將DSS 設(shè)計(jì)為由用戶接口、數(shù)據(jù)庫(kù)管理系統(tǒng)、模型庫(kù)管理系統(tǒng)三部件集成的兩庫(kù)(數(shù)據(jù)庫(kù)和模型庫(kù)) 框架.隨著人們對(duì)DSS研究和應(yīng)用的深入,DSS 相繼引入方法庫(kù)管理系統(tǒng)、知識(shí)庫(kù)管理系統(tǒng)和推理機(jī)并形成四庫(kù)(數(shù)據(jù)庫(kù)、模型庫(kù)、方法庫(kù)和知識(shí)庫(kù)) 框架.經(jīng)過(guò)幾十年的發(fā)展,DSS 不斷與新技術(shù)、新學(xué)科相互交叉融合,并在體系結(jié)構(gòu)、問題處理模式、功能模塊集成等方面發(fā)生了巨大變化,其應(yīng)用也被推廣到諸多領(lǐng)域.
智能決策支持系統(tǒng)(Intelligent decision support system,IDSS) 是由DSS 不斷升級(jí)和演化得來(lái).20 世紀(jì)80 年代,專家系統(tǒng)(Expert system,ES)廣泛流行,Bonczek 等[24]?將決策支持系統(tǒng)與專家系統(tǒng)相結(jié)合,充分發(fā)揮DSS 的數(shù)值分析能力和ES 的符號(hào)知識(shí)的處理能力,用于解決定量與定性問題以及半結(jié)構(gòu)化、非結(jié)構(gòu)化問題,有效擴(kuò)大了DSS 處理問題的范圍.這種DSS 與ES 結(jié)合的思想即構(gòu)成智能決策支持系統(tǒng)的初期模型.智能決策支持系統(tǒng)利用人工智能和專家系統(tǒng)技術(shù)在定性分析和不確定推理上的優(yōu)勢(shì),以及人類在問題求解中的經(jīng)驗(yàn)和知識(shí),為決策問題的求解提供了更加廣闊的思路.近年來(lái),幾乎所有有關(guān)決策支持系統(tǒng)的研究都是圍繞著人工智能技術(shù)的應(yīng)用而展開的.人工智能方法已經(jīng)逐漸滲透到IDSS 的體系結(jié)構(gòu)、問題求解方法等各個(gè)方面.綜合來(lái)看,智能決策系統(tǒng)的研究逐漸由過(guò)去的決策部件功能的擴(kuò)展發(fā)展到部件的綜合集成,由過(guò)去的定量模型發(fā)展到基于知識(shí)的智能決策方法[25].
和許多正在發(fā)展中的事物一樣,智能決策支持系統(tǒng)是一個(gè)發(fā)展中的概念.隨著社會(huì)的發(fā)展,信息量的激增,管理、決策日趨復(fù)雜,單純依靠某一個(gè)決策者做出的決策往往不夠完善,于是Gray 將群決策理論引入DSS,提出了群決策支持系統(tǒng)(Group decision support system,GDSS) 的概念[26],旨在吸收群體的經(jīng)驗(yàn)和智慧,實(shí)現(xiàn)群體對(duì)決策問題的共同求解.GDSS 為企業(yè)的組織決策提供一種開放與協(xié)同的決策環(huán)境,達(dá)到提高決策質(zhì)量的目的.GDSS是智能決策支持系統(tǒng)的一個(gè)重要研究方向,目前分布式環(huán)境下的GDSS 和基于人工智能的群決策方法仍然是該領(lǐng)域的研究熱點(diǎn)[27].
傳統(tǒng)的DSS 多采用靜態(tài)模型,決策過(guò)程需要用戶自主選擇方法和模型,系統(tǒng)缺乏主動(dòng)決策機(jī)制.針對(duì)該問題,Manheim 等[28]?最早提出了主動(dòng)決策支持系統(tǒng)(Active DSS,ADSS) 的概念,并給出了相應(yīng)框架.ADSS 通過(guò)建立人類認(rèn)知模型,在決策問題求解的不同階段,給決策者提供不同的方法選擇,從而形成不同的問題求解路徑.ADSS 是基于人類先驗(yàn)知識(shí)的,但其前提假設(shè)是系統(tǒng)運(yùn)行在靜態(tài)的決策環(huán)境下,因此在實(shí)際應(yīng)用中ADSS 仍然存在適應(yīng)性較差的局限性.不過(guò)人們對(duì)ADSS 的研究為自適應(yīng)決策支持的提出奠定了基礎(chǔ).為了適應(yīng)決策環(huán)境的變化,Shaw[29]?于1993 年提出了自適應(yīng)決策支持系統(tǒng)(Adaptive decision support system,Ad DSS)框架,并嘗試用機(jī)器學(xué)習(xí)和案例推理等方法從大量歷史數(shù)據(jù)和過(guò)往經(jīng)驗(yàn)中發(fā)現(xiàn)與決策問題相關(guān)的知識(shí),以此來(lái)使系統(tǒng)具有隨時(shí)間和決策過(guò)程變化調(diào)整自身行為的能力.在此基礎(chǔ)之上,人們對(duì)AdDSS 展開了大量的研究,包括系統(tǒng)結(jié)構(gòu)自適應(yīng)、領(lǐng)域知識(shí)自適應(yīng)、用戶接口自適應(yīng)等,自適應(yīng)性和自學(xué)習(xí)能力已經(jīng)成為智能決策支持系統(tǒng)的一個(gè)主要標(biāo)志.
互聯(lián)網(wǎng)技術(shù)在決策支持領(lǐng)域的應(yīng)用,使得決策環(huán)境出現(xiàn)了新特點(diǎn),即決策分析中的數(shù)據(jù)不再集中于一個(gè)物理位置,而是分散在不同部門或地區(qū).在此環(huán)境下許多大規(guī)模的管理決策活動(dòng)已不可能或者不便于用集中方式進(jìn)行,而分布式?jīng)Q策支持系統(tǒng)(Distribute decision support system,DDSS) 正是為適應(yīng)這類決策問題而建立的信息系統(tǒng).DDSS 將傳統(tǒng)集中式DSS 發(fā)展為網(wǎng)絡(luò)環(huán)境下的分布式并行處理的方式[30],通過(guò)網(wǎng)絡(luò)連接工作平臺(tái)和分布式數(shù)據(jù)庫(kù)、模型庫(kù)等,支持分布在各地的DSS 彼此交互,從而使他們共同為決策問題求解提供高效及時(shí)的決策支持.在大數(shù)據(jù)環(huán)境下分布式?jīng)Q策支持系統(tǒng)將得到更加廣泛的關(guān)注,分布式數(shù)據(jù)倉(cāng)庫(kù)、分布式人工智能、分布式并行化決策已經(jīng)成為當(dāng)下決策支持領(lǐng)域的重要研究方向.
隨著智能體(Agent) 在人工智能領(lǐng)域的深入研究,相關(guān)學(xué)者將Agent 技術(shù)引入了智能決策支持系統(tǒng),特別是多Agent 理論與技術(shù)為分布式?jīng)Q策支持系統(tǒng)的分析、設(shè)計(jì)和實(shí)現(xiàn)提供了新的途徑.Bui 和Lee[31]?將決策支持系統(tǒng)中的Agent 應(yīng)具備的能力歸納為:獨(dú)立能力、學(xué)習(xí)能力、協(xié)作能力、推理能力、智能性等.目前,多Agent 智能決策支持系統(tǒng)已經(jīng)成為趨勢(shì),通過(guò)加入諸如人機(jī)交互Agent、模型選擇Agent、模型求解Agent 等可以使決策系統(tǒng)減少對(duì)專家的依賴,實(shí)現(xiàn)系統(tǒng)由“模型驅(qū)動(dòng)” 轉(zhuǎn)為“問題驅(qū)動(dòng)”,提高決策系統(tǒng)的整體智能性.Ghadimi 等[32]提出一種面向供應(yīng)鏈可持續(xù)供應(yīng)商選擇和訂單分配的多Agent 系統(tǒng)方法,通過(guò)設(shè)計(jì)數(shù)據(jù)庫(kù)Agent、供應(yīng)商Agent、決策者Agent 和訂單分配Agent,有效提高供應(yīng)商選擇和訂單分配質(zhì)量.
隨著云計(jì)算(Cloud computing) 技術(shù)興起,基于云計(jì)算的智能決策支持系統(tǒng)成為大數(shù)據(jù)智能決策支持的一個(gè)研究方向.云計(jì)算通過(guò)互聯(lián)網(wǎng)將虛擬化的數(shù)據(jù)中心和智能用戶終端有機(jī)地聯(lián)系起來(lái),為用戶提供了便捷的信息服務(wù)環(huán)境.在大數(shù)據(jù)環(huán)境下,云計(jì)算平臺(tái)可以為大數(shù)據(jù)的決策分析提供龐大的存儲(chǔ)空間和強(qiáng)大的分布式并行計(jì)算能力.決策環(huán)境的開放性、決策資源的虛擬化、問題求解的分布式協(xié)作性將使得基于云計(jì)算的智能決策有著與傳統(tǒng)智能決策不同的特征[21].隨著移動(dòng)智能設(shè)備和移動(dòng)互聯(lián)網(wǎng)的普及,分布式移動(dòng)云計(jì)算環(huán)境下智能決策方法成為當(dāng)前的一個(gè)研究熱點(diǎn)[33].
隨著社會(huì)節(jié)奏的加快,企業(yè)或組織所面臨的內(nèi)外部環(huán)境更加復(fù)雜,業(yè)務(wù)問題呈現(xiàn)非線性、不確定性、多維化和實(shí)時(shí)性等特點(diǎn),此時(shí)繼續(xù)使用傳統(tǒng)IDSS 工具和利用局部數(shù)據(jù)進(jìn)行決策分析的方法已經(jīng)難以獲取高質(zhì)量的決策效果.在大數(shù)據(jù)環(huán)境下,智能決策支持系統(tǒng)應(yīng)具備大數(shù)據(jù)的分析處理能力.通過(guò)綜合運(yùn)用互聯(lián)網(wǎng)、云平臺(tái)和人工智能技術(shù),將大數(shù)據(jù)的采集、存儲(chǔ)、管理、分析、共享、可視化等一系列知識(shí)發(fā)現(xiàn)技術(shù)與現(xiàn)有的智能決策支持技術(shù)深度融合,構(gòu)建形成基于大數(shù)據(jù)的智能決策支持系統(tǒng)是智能決策應(yīng)用領(lǐng)域的發(fā)展方向.未來(lái)基于大數(shù)據(jù)的決策支持系統(tǒng)有望具備海量數(shù)據(jù)匯聚融合能力、快速感知和認(rèn)知能力、強(qiáng)大的分析與推理能力、自適應(yīng)與自優(yōu)化能力,可以實(shí)現(xiàn)復(fù)雜業(yè)務(wù)的自動(dòng)識(shí)別、判斷,并做出前沿性和實(shí)時(shí)性的決策支持.
2.2 基于不確定性分析的智能決策
不確定性是指客觀事物聯(lián)系與發(fā)展過(guò)程中無(wú)序的、隨機(jī)的、偶然的、模糊的、粗糙的、近似的屬性[34].現(xiàn)實(shí)世界的多樣性、隨機(jī)性、運(yùn)動(dòng)性,以及人類對(duì)事物描述和信息表達(dá)的不精確性、模糊性決定了人們所能獲取的數(shù)據(jù)本身存在著較多的不確定性.而在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的多源、多樣、增量及不完備等特點(diǎn),加之人們對(duì)數(shù)據(jù)分析處理需求的多樣性(如數(shù)據(jù)融合等),使得大數(shù)據(jù)從宏觀上有著相較于傳統(tǒng)數(shù)據(jù)更多的不確定性.正如Wang 等指出,大數(shù)據(jù)的不確定性不僅存在于大數(shù)據(jù)本身,還體現(xiàn)在大數(shù)據(jù)的處理過(guò)程當(dāng)中[15].因此,關(guān)于大數(shù)據(jù)不確定性信息的表示與處理成為大數(shù)據(jù)智能決策理論方法研究中不可缺少的一部分.在不確定性理論方法中模糊集、粗糙集、貝葉斯理論、證據(jù)理論等在智能決策方法中都起到了關(guān)鍵作用.隨著大數(shù)據(jù)應(yīng)用的增多,以上方法也逐漸被用于面向大數(shù)據(jù)不確定性處理的智能決策當(dāng)中.本小節(jié)將從大數(shù)據(jù)不確定性處理的角度對(duì)相關(guān)方法進(jìn)行回顧和綜述.
模糊集于上世紀(jì)60 年代由Zadeh 提出,通過(guò)隸屬度函數(shù)表達(dá)模糊性概念,其本身是一種有效的不確定性信息表示與處理方法.目前模糊集方法已經(jīng)形成一整套較為完整的理論體系,包括模糊集、模糊邏輯、模糊系統(tǒng)以及它們的擴(kuò)展形式[35].由于模糊集方法可以在不同信息粒度層次上對(duì)不確定性數(shù)據(jù)進(jìn)行表示與處理,因此具有較強(qiáng)的可解釋性和可理解性.模糊集在大數(shù)據(jù)中的應(yīng)用,形成對(duì)大數(shù)據(jù)不確定性的表示與處理的有效手段.在面向大數(shù)據(jù)的聚類應(yīng)用中,模糊C-means 算法(FCM) 已經(jīng)成為一種常用的軟聚類方法.文獻(xiàn)[36] 將FCM 應(yīng)用于機(jī)器人觸覺感知數(shù)據(jù)的分析,解決機(jī)器人觸覺識(shí)別問題.Chang 等[37]?針對(duì)高維度數(shù)據(jù)聚類問題,提出稀疏正則化FCM 算法.Di Martino 等[38]?將FCM擴(kuò)展應(yīng)用于超大型事件數(shù)據(jù)集中的熱點(diǎn)檢測(cè),并進(jìn)一步提出了一種時(shí)空FCM 方法,用于面向時(shí)空大數(shù)據(jù)的熱點(diǎn)檢測(cè)與預(yù)測(cè)問題[39].模糊規(guī)則分類系統(tǒng)廣泛地應(yīng)用于模式識(shí)別和分類任務(wù),可以為用戶提供帶有語(yǔ)義標(biāo)簽的可解釋分類規(guī)則,降低決策失誤的風(fēng)險(xiǎn).Jindal 等[40]?設(shè)計(jì)了云環(huán)境下的模糊規(guī)則分類器,用于處理多源異構(gòu)的遠(yuǎn)程醫(yī)療大數(shù)據(jù),實(shí)現(xiàn)對(duì)病人的遠(yuǎn)程實(shí)時(shí)診斷決策.針對(duì)面向大數(shù)據(jù)的模糊分類,Segatori 等[41]?提出了基于Map Reduce 的分布式模糊決策樹(FDTs) 計(jì)算模型.模糊推理系統(tǒng)還常與神經(jīng)網(wǎng)絡(luò)相結(jié)合,以提高決策問題求解的自適應(yīng)性.在電力系統(tǒng)控制領(lǐng)域,文獻(xiàn)[42] 將神經(jīng)網(wǎng)絡(luò)與模糊推理系統(tǒng)相結(jié)合,提出三種自適應(yīng)神經(jīng)模糊推理系統(tǒng),用于太陽(yáng)能發(fā)電企業(yè)控制決策中的短時(shí)電力預(yù)測(cè)問題.Jindal 等[43]?針對(duì)疾病診斷決策中的分類問題,提出了用于醫(yī)療大數(shù)據(jù)維度約簡(jiǎn)的模糊神經(jīng)分類器方法,有效提高疾病診斷準(zhǔn)確率.更多有關(guān)模糊集在大數(shù)據(jù)決策方面的研究可以參見文獻(xiàn)[35].從現(xiàn)有的基于模糊集方法的大數(shù)據(jù)決策文獻(xiàn)來(lái)看,模糊集方法是適用于大數(shù)據(jù)不確定性分析的有力工具,其數(shù)據(jù)表示的多粒度特性符合人類的認(rèn)知習(xí)慣,可以滿足更多特定領(lǐng)域的大數(shù)據(jù)決策需求.
粗糙集由波蘭數(shù)學(xué)家Pawlak 于1982 年提出.粗糙集使用具有精確概念的上近似集和下近似集對(duì)一個(gè)不精確概念/知識(shí)進(jìn)行近似表示與度量,其獨(dú)特之處在于不需要主觀先驗(yàn)知識(shí),可以直接對(duì)數(shù)據(jù)進(jìn)行分析與推理,并揭示潛在規(guī)律.目前,粗糙集及其擴(kuò)展理論已經(jīng)成為處理不精確、不一致、不完備信息的有力工具,并廣泛用于數(shù)據(jù)挖掘、知識(shí)獲取以及各類決策問題的求解.為滿足粗糙集方法的大數(shù)據(jù)決策分析需求,已有較多學(xué)者從粗糙集的并行化開展了研究.基于粗糙集的多粒度思想,Qian 等[44]?提出基于MapReduce 的粗糙集的并行化層次屬性約簡(jiǎn)方法.Li 等[45]?設(shè)計(jì)了并行化優(yōu)勢(shì)粗糙集近似計(jì)算方法.針對(duì)大數(shù)據(jù)常見的不完備特性,Abdel-Basset等提出將中性集(Neutrosophic sets) 和粗糙集相結(jié)合的方法來(lái)處理智慧城市大數(shù)據(jù)的不完備性問題[46].El-Alfy 等基于遺傳算法研究了面向決策粗糙集的大規(guī)模數(shù)據(jù)集的并行化屬性約簡(jiǎn)方法,并成功用于網(wǎng)絡(luò)入侵檢測(cè)[47].Banerjee 等通過(guò)粗糙集理論和蟻群算法解決大數(shù)據(jù)中的不確定性和最優(yōu)特征抽取分析問題,提出了面向移動(dòng)大數(shù)據(jù)的評(píng)價(jià)決策分析方法[48].針對(duì)大規(guī)模多模態(tài)數(shù)據(jù)的屬性約簡(jiǎn)問題,Hu 等給出了多核模糊粗糙集方法[49].為降低多粒度決策粗糙集在大數(shù)據(jù)分析中的時(shí)間復(fù)雜度,同時(shí)使其滿足大數(shù)據(jù)的半監(jiān)督特性,Qian 等提出了局部多粒度粗糙集方法[50-51].
近年來(lái),由決策粗糙集發(fā)展而來(lái)的三支決策理論[52]?成為一種更為一般化且符合人類認(rèn)知的不確定性決策工具,正受到越來(lái)越多的關(guān)注.在基于Web 的醫(yī)療決策支持系統(tǒng)中,Yao 等將博弈論粗糙集(GTRS) 用于面向醫(yī)療數(shù)據(jù)的不確定性分析,通過(guò)生成三支決策規(guī)則,提高系統(tǒng)整體決策質(zhì)量[53].Yu 等研究了面向多視圖數(shù)據(jù)的不確定性聚類問題,并提出一種主動(dòng)三支聚類方法[54].Zhang 和Yang等[55]?基于區(qū)間值決策粗糙集提出一種三支群決策模型.針對(duì)現(xiàn)實(shí)中有用信息隨時(shí)間不斷增長(zhǎng),Li等[56]?提出了代價(jià)敏感序貫三支決策,并將其應(yīng)用于人臉識(shí)別.Qian 等[57]?基于多粒度思想,提出一種更為一般化的多粒度序貫三支決策模型.
基于貝葉斯理論的方法已經(jīng)在人工智能領(lǐng)域中的不確定性推理、計(jì)算機(jī)學(xué)習(xí)等方面取得了許多成果.對(duì)于不同規(guī)模大小的貝葉斯網(wǎng)絡(luò),可以分別采用精確推理和近似推理算法進(jìn)行分析,并提供決策支持.Lake 等[58]?通過(guò)一個(gè)基于貝葉斯的BPL(Bayesian program learning) 模型來(lái)建模實(shí)現(xiàn)人類層次的概念學(xué)習(xí).Sturlaugson 和Sheppard[59]?研究了連續(xù)時(shí)間貝葉斯網(wǎng)絡(luò)中的不確定推理.Abadpour[60]?利用貝葉斯推理構(gòu)造了模糊可能性聚類算法的目標(biāo)函數(shù).胡支軍等[61]?研究發(fā)現(xiàn)對(duì)項(xiàng)目?jī)r(jià)值事前估計(jì)不確定性的貝葉斯建模可以在風(fēng)險(xiǎn)項(xiàng)目投資組合決策中給出更加精確的價(jià)值估計(jì).Hao 等[62]?研究了不確定性環(huán)境下動(dòng)態(tài)決策中的信息權(quán)重確定問題,提出基于直覺模糊貝葉斯網(wǎng)絡(luò)的動(dòng)態(tài)屬性權(quán)重確定方法,同時(shí)構(gòu)建了面向風(fēng)險(xiǎn)決策問題的動(dòng)態(tài)直覺模糊決策概念框架.貝葉斯網(wǎng)絡(luò)同樣適用于不完備數(shù)據(jù)的處理,Feng 等先后提出了不完備數(shù)據(jù)環(huán)境下基于貝葉斯網(wǎng)絡(luò)的巖爆災(zāi)難預(yù)測(cè)方法[63]?和隧道擠壓預(yù)測(cè)方法[64].
證據(jù)理論(Dempster-shafer theory) 通過(guò)引入信任函數(shù),把不確定與不知道區(qū)分開來(lái),能夠在先驗(yàn)概率未知的情況下,以簡(jiǎn)單的推理形式,得到較好的結(jié)果.例如,Zhang 等[65]?采用證據(jù)推理方法研究了不確定環(huán)境下的多屬性決策分析問題.Sun 和Wang[66]?針對(duì)基于屬性描述的知識(shí),通過(guò)組合證據(jù)來(lái)解決多屬性融合問題.Troiano 等[67]?應(yīng)用D-S 證據(jù)理論挖掘用戶的偏好信息用于推薦決策.杜元偉等[68]?將頭腦風(fēng)暴方法中的基本原則引入到主觀證據(jù)的提取過(guò)程之中,并在此基礎(chǔ)上結(jié)合證據(jù)理論提出了主觀證據(jù)融合決策方法.
由于專家知識(shí)總是有限的,并且能夠以符號(hào)邏輯表示并用來(lái)推理的知識(shí)更為有限,所以許多專家知識(shí)并不是一開始就已經(jīng)具備,更多的還是在決策過(guò)程中學(xué)習(xí)得到的.因此,人們將人工智能中的仿生方法引入到?jīng)Q策過(guò)程中,并取得了很好的效果.仿生方法是一類重要的人工智能方法,能夠適應(yīng)現(xiàn)實(shí)環(huán)境中普遍的不確定性,解決那些無(wú)法精確定義或建模的決策問題.神經(jīng)網(wǎng)絡(luò)、進(jìn)化算法、蟻群算法等均被用于對(duì)存在大量不確定性信息的學(xué)習(xí),并得到較好的決策效果.例如,Bukharov 等[69]?基于神經(jīng)網(wǎng)絡(luò)和遺傳算法構(gòu)建了一個(gè)決策支持系統(tǒng),該系統(tǒng)采用區(qū)間神經(jīng)網(wǎng)絡(luò)來(lái)處理不確定數(shù)據(jù),使用遺傳算法來(lái)選擇最重要的輸入.Yu 等[70]?結(jié)合與或圖和粗糙集等方法將蟻群優(yōu)化算法應(yīng)用于屬性約簡(jiǎn)、約簡(jiǎn)選擇以及Web 服務(wù)選擇中.
此外,概率推理、賦值代數(shù)、連接分析、聚類分析等方法也常常應(yīng)用于不確定性決策分析中.上述理論與方法為智能決策問題的求解提供了有力的支持,但是有關(guān)不確定環(huán)境下面向復(fù)雜大群體決策等方面的求解方法仍然有待進(jìn)一步的研究.
2.3 基于信息融合的智能決策
多源信息融合是人類所固有的一種基本功能.人類可以本能地將各種感知器官所探測(cè)的信息與先驗(yàn)知識(shí)進(jìn)行綜合,進(jìn)而對(duì)周圍的環(huán)境和正在發(fā)生的事件做出準(zhǔn)確的估計(jì).“盲人摸象” 的故事告知我們,單憑一種感官獲得的感知信息,難以獲得對(duì)客觀事物的全面認(rèn)知,而通過(guò)對(duì)不同度量特征的融合處理可以將多源信息轉(zhuǎn)化成對(duì)環(huán)境有價(jià)值的解釋.多源信息融合就是對(duì)人腦綜合處理多源信息功能的模擬[71],以實(shí)現(xiàn)自動(dòng)的或半自動(dòng)的將不同來(lái)源和不同時(shí)間點(diǎn)的信息轉(zhuǎn)化為統(tǒng)一表示形式,進(jìn)而為人們提供有效決策支持的一系列技術(shù)方法[72].
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的分布式存儲(chǔ)與交互式共享會(huì)更加普遍,而具有分布式和分散控制的自治數(shù)據(jù)源是大數(shù)據(jù)應(yīng)用的主要特征之一[16].此時(shí),多源信息融合是提升大數(shù)據(jù)價(jià)值不可或缺的技術(shù)手段.從決策應(yīng)用的角度來(lái)看,社會(huì)經(jīng)濟(jì)活動(dòng)中的企業(yè)或組織在決策時(shí)需要收集大量的數(shù)據(jù),匯集不同的觀點(diǎn),才能制定出符合客觀規(guī)律的決策.隨著數(shù)據(jù)獲取便利性的增加,信息的全面性和多源信息的協(xié)同作用將更多地被人們關(guān)注,而越來(lái)越多的決策任務(wù)的開展,將尋求多源數(shù)據(jù)甚至是跨平臺(tái)、跨區(qū)域、跨領(lǐng)域數(shù)據(jù)的參與.例如,在城市規(guī)劃決策中,政府部門需要結(jié)合路網(wǎng)結(jié)構(gòu)、交通流量、城市人口分布以及POIs 數(shù)據(jù)進(jìn)行綜合分析[73]; 在醫(yī)療診斷中,有時(shí)專家需要將多家醫(yī)療機(jī)構(gòu)的診斷結(jié)果進(jìn)行融合分析;在工業(yè)生產(chǎn)過(guò)程中,可以借助火眼圖像、槽音頻以及其他監(jiān)控?cái)?shù)據(jù)來(lái)綜合判斷鋁電解槽過(guò)熱度狀態(tài)[74].多源信息融合對(duì)于大數(shù)據(jù)決策的意義可以歸納為兩方面:一方面,信息融合有利于進(jìn)一步挖掘數(shù)據(jù)價(jià)值,從眾多分散、異構(gòu)的數(shù)據(jù)源獲取隱含價(jià)值信息,豐富決策的內(nèi)涵; 另一方面,通過(guò)多源數(shù)據(jù)的交叉引證,可以降低大數(shù)據(jù)潛在的噪音、數(shù)據(jù)缺失、信息不一致和語(yǔ)義模糊等不確定性因素[72],提高決策的置信度.
簡(jiǎn)單來(lái)說(shuō),信息融合是一種概念框架.在不同需求和應(yīng)用場(chǎng)景下,信息融合所面對(duì)的問題不同,人們提出的模型方法與技術(shù)手段也各不相同.信息融合技術(shù)最早以多傳感器數(shù)據(jù)融合(Multi-sensor data fusion) 的概念出現(xiàn)在軍事領(lǐng)域.上世紀(jì)70 年代美國(guó)國(guó)防部聯(lián)合指揮實(shí)驗(yàn)室(Joint Directors of Laboratories) 提出了頗具代表性的JDL 模型[72],旨在將來(lái)自不同源的數(shù)據(jù)信息進(jìn)行多層面的融合處理,來(lái)提高目標(biāo)識(shí)別、身份評(píng)估、戰(zhàn)況評(píng)估和威脅評(píng)估的準(zhǔn)確性.在此之后,信息融合技術(shù)不斷地被豐富和拓展,并發(fā)展成為涉及信號(hào)處理、信息理論、統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)的多學(xué)科研究領(lǐng)域.
從信源之間的關(guān)系來(lái)看,學(xué)者們把信息融合的類型劃分為互補(bǔ)型、競(jìng)爭(zhēng)型及合作型[75-76].互補(bǔ)型中的各信源互不依賴,各信源感知目標(biāo)/場(chǎng)景的不同方面,通過(guò)信源融合來(lái)獲取目標(biāo)的全局信息; 競(jìng)爭(zhēng)型中的各信源描述相同目標(biāo)/場(chǎng)景的同一方面,多源信息融合用于冗余校準(zhǔn)和增強(qiáng)信任; 合作型中各信源之間相互依賴,從不同角度感知目標(biāo),多源信息融合用于獲得全新的信息.從信息融合的抽象層次來(lái)看,人們常把融合劃分為數(shù)據(jù)層融合、特征層融合及決策層融合[75].數(shù)據(jù)層融合也稱作像素層或信號(hào)層融合.由于數(shù)據(jù)層融合一般面向等價(jià)信源的數(shù)據(jù)[75],因此其常用融合機(jī)制為競(jìng)爭(zhēng)型.數(shù)據(jù)層融合因盡可能多的保持了現(xiàn)場(chǎng)數(shù)據(jù),其具有信息損失小的優(yōu)點(diǎn),但由于要對(duì)現(xiàn)場(chǎng)數(shù)據(jù)進(jìn)行整體傳輸和集中處理,導(dǎo)致其有通信負(fù)載大、計(jì)算代價(jià)高、處理時(shí)間長(zhǎng)、抗干擾能力差的缺點(diǎn).決策層融合也稱作語(yǔ)義層融合,其操作對(duì)象是規(guī)則或知識(shí).決策層融合依賴于人們對(duì)數(shù)據(jù)特征意義和關(guān)系的理解,是一種高層次的和更符合人類認(rèn)知的融合方式.由于決策層融合不受信源數(shù)據(jù)形式差異的限制,使其融合機(jī)制也更加靈活,它可以面向競(jìng)爭(zhēng)型、合作型和互補(bǔ)型的融合需求.由于決策層融合傳輸和處理的是規(guī)模較小的知識(shí),因此其具有通信負(fù)載小,抗干擾能力強(qiáng),融合中心計(jì)算代價(jià)低的優(yōu)點(diǎn),不過(guò)在各信源的知識(shí)獲取階段仍需花費(fèi)一定的計(jì)算代價(jià)且產(chǎn)生一定的信息損失,使得決策層融合存在信息損失相對(duì)較大且整體計(jì)算代價(jià)不一定會(huì)低的問題.特征層融合的操作對(duì)象是從數(shù)據(jù)中抽取的特征屬性,常用融合機(jī)制有競(jìng)爭(zhēng)型、互補(bǔ)型及合作型,其優(yōu)缺點(diǎn)介于數(shù)據(jù)層融合和決策層融合之間.Gravina 等[75]?總結(jié)了不同層次下數(shù)據(jù)融合對(duì)比情況,見表1.
表1 不同層次下數(shù)據(jù)融合對(duì)比情況表
Table 1 Comparison of data fusion under different levels
在大數(shù)據(jù)時(shí)代,信息來(lái)源更加廣泛,數(shù)據(jù)交互更加頻繁,大數(shù)據(jù)的多源分布現(xiàn)象普遍存在.隨著社會(huì)媒體網(wǎng)絡(luò)、軀體傳感網(wǎng)絡(luò)、智能推薦系統(tǒng)、城市計(jì)算等新興技術(shù)領(lǐng)域的崛起,人們對(duì)數(shù)據(jù)融合技術(shù)的需求進(jìn)一步加大.然而復(fù)雜的大數(shù)據(jù)環(huán)境對(duì)信息融合任務(wù)的開展構(gòu)成諸多挑戰(zhàn).覃雄派等[77]?指出隨著大數(shù)據(jù)的增長(zhǎng),對(duì)大數(shù)據(jù)進(jìn)行分析的基本策略是把計(jì)算推向數(shù)據(jù),而不是移動(dòng)大量的數(shù)據(jù).吳信東指出大數(shù)據(jù)應(yīng)用的自治數(shù)據(jù)源和分布式控制的特點(diǎn)使得整合多源數(shù)據(jù)進(jìn)而集中式挖掘的方法會(huì)因傳輸代價(jià)高昂以及隱私暴露等問題而不可取[16].為實(shí)現(xiàn)對(duì)城市大規(guī)模人群聚集事件的有效預(yù)測(cè),Huang 等[78]?通過(guò)對(duì)多源大數(shù)據(jù)的知識(shí)融合,提出一種基于大數(shù)據(jù)融合的人群聚集預(yù)警方法.Lin 等[79]?基于鄰域粒化的方法,提出一種多信源決策規(guī)則表示方法,進(jìn)而通過(guò)一致性度量原則計(jì)算各信源權(quán)重,實(shí)現(xiàn)多源決策規(guī)則的融合.Zheng[73]?指出大數(shù)據(jù)時(shí)代的信息融合任務(wù)會(huì)更多地面向跨領(lǐng)域數(shù)據(jù).然而跨領(lǐng)域數(shù)據(jù)在表示、分布、尺度上普遍存在的模態(tài)差異,這對(duì)傳統(tǒng)數(shù)據(jù)層融合方法構(gòu)成巨大挑戰(zhàn).雖然已有相關(guān)研究工作將深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)用于多模態(tài)數(shù)據(jù)的統(tǒng)一特征表示[80-81],并在一定程度上解決了多源數(shù)據(jù)特征層融合問題,但是基于DNN 的融合方法的效果取決于參數(shù)調(diào)整的好壞,最優(yōu)參數(shù)的尋找依然是一項(xiàng)耗時(shí)耗力的過(guò)程.另外,對(duì)于DNN 中間層特征表示依然存在可解釋性問題.針對(duì)上述問題,Zheng[73]?提出跨領(lǐng)域大數(shù)據(jù)融合范式(如圖1 所示),即對(duì)各個(gè)數(shù)據(jù)源分別進(jìn)行知識(shí)提取,在知識(shí)層面實(shí)現(xiàn)多源信息語(yǔ)義融合.語(yǔ)義層的信息融合可以大體分為基于多視圖的數(shù)據(jù)融合、基于相似性的數(shù)據(jù)融合、基于概率依賴的數(shù)據(jù)融合以及基于遷移學(xué)習(xí)的數(shù)據(jù)融合[73].
圖1 跨領(lǐng)域大數(shù)據(jù)融合范式[73]
Fig.1 The paradigm of cross-domain big data fusion[73]
在大數(shù)據(jù)多源信息融合任務(wù)中,如何對(duì)信源進(jìn)行評(píng)價(jià)與選擇同樣是一項(xiàng)挑戰(zhàn)性問題.Xu 等首次提出了使用內(nèi)部信任度和外部信任度兩個(gè)指標(biāo)來(lái)評(píng)估信源的可靠性方法,實(shí)現(xiàn)對(duì)冗余和不可靠信源的過(guò)濾,并通過(guò)將原始數(shù)據(jù)轉(zhuǎn)換為三角模糊信息粒,實(shí)現(xiàn)基于粒計(jì)算的多源數(shù)據(jù)融合[82].但上述方法僅適用于多源同構(gòu)數(shù)據(jù)集,難以適應(yīng)多源異構(gòu)數(shù)據(jù)環(huán)境.目前對(duì)信源的評(píng)價(jià)選擇問題依然是信息融合領(lǐng)域的一個(gè)開放性研究課題.多源數(shù)據(jù)信息潛在的不完備、不一致、沖突、語(yǔ)義模糊等不確定性是多源信息融合所要解決的最根本問題,相關(guān)學(xué)者已嘗試將概率論、粗糙集、模糊集、可能性理論以及D-S 證據(jù)理論等應(yīng)用到數(shù)據(jù)融合當(dāng)中,并分別在特定領(lǐng)域取得了較好的效果.Khaleghi 等對(duì)以上各種融合方法的優(yōu)缺點(diǎn)做了詳細(xì)分析,讀者可以參閱文獻(xiàn)[72].
2.4 基于關(guān)聯(lián)分析的智能決策
在現(xiàn)實(shí)世界中,諸多看似沒有關(guān)系的事物之間其實(shí)存在有普遍關(guān)聯(lián),而這些普遍關(guān)聯(lián)往往在一些問題求解中起到關(guān)鍵作用.相關(guān)分析便是一種發(fā)掘事物之間普遍關(guān)聯(lián)的數(shù)據(jù)驅(qū)動(dòng)方法.自19 世紀(jì)80 年代Galton 通過(guò)研究人類身高遺傳問題首次提出“相關(guān)” 概念以來(lái)[83],相關(guān)分析便引起人們的關(guān)注,并逐漸成為一種決策分析的重要手段.作為度量事物之間協(xié)同關(guān)系和關(guān)聯(lián)關(guān)系的有效方法,大數(shù)據(jù)的相關(guān)分析能夠滿足人類的眾多決策需求.例如,Google 公司的趨勢(shì)系統(tǒng),通過(guò)對(duì)互聯(lián)網(wǎng)搜索數(shù)據(jù)的關(guān)聯(lián)分析,實(shí)時(shí)預(yù)測(cè)了2009 年美國(guó)H1N1 流感的爆發(fā)[19].沃爾瑪通過(guò)對(duì)用戶消費(fèi)數(shù)據(jù)的關(guān)聯(lián)分析,發(fā)現(xiàn)啤酒與尿布間的關(guān)聯(lián)關(guān)系.需要特別指出的是,相關(guān)關(guān)系有別于因果關(guān)系.在大數(shù)據(jù)時(shí)代基于相關(guān)關(guān)系挖掘的數(shù)據(jù)分析具有重要的價(jià)值.李國(guó)杰院士等指出,對(duì)于簡(jiǎn)單封閉的系統(tǒng),基于小數(shù)據(jù)的因果關(guān)系分析是可行的,但對(duì)于開放復(fù)雜的巨系統(tǒng)(大數(shù)據(jù)環(huán)境),傳統(tǒng)的因果關(guān)系分析難以奏效[84].首先,大數(shù)據(jù)環(huán)境下數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)關(guān)系錯(cuò)綜復(fù)雜且存在很多噪音,人們很難在變量間建立精確的函數(shù)關(guān)系并在此基礎(chǔ)上探討因果關(guān)系,尋找因果關(guān)系的代價(jià)高昂;其次,大數(shù)據(jù)的動(dòng)態(tài)與演化特性,決定了變量間的因果關(guān)系具有時(shí)效性,環(huán)境狀態(tài)稍有變化,探尋到的因果關(guān)系或已失效.然而相關(guān)關(guān)系的要求較為寬松,可以幫助人們更加快捷、高效地發(fā)現(xiàn)事物之間的內(nèi)在關(guān)聯(lián).
從決策應(yīng)用的角度來(lái)看,大數(shù)據(jù)相關(guān)性分析對(duì)大數(shù)據(jù)智能決策的推動(dòng)作用主要體現(xiàn)于以下兩個(gè)方面.一方面,相關(guān)性分析技術(shù)不僅用于發(fā)現(xiàn)變量之間的潛在關(guān)聯(lián),而且還用于判定分析變量之間偽相關(guān)、假關(guān)聯(lián).試想,通過(guò)對(duì)一組數(shù)據(jù)的回歸分析,可以學(xué)到一個(gè)精度較高的回歸模型,但如果數(shù)據(jù)之間是偽相關(guān)的,那么學(xué)到的模型將導(dǎo)致錯(cuò)誤的科學(xué)推斷及毫無(wú)價(jià)值的預(yù)測(cè)結(jié)果.在面向大數(shù)據(jù)智能化分析的決策應(yīng)用中,由于數(shù)據(jù)混雜且體量大,如何選擇與問題相關(guān)且正確的數(shù)據(jù)來(lái)開展分析是一項(xiàng)極為重要的問題.在該環(huán)節(jié),相關(guān)性分析可以為問題假設(shè)的初步分析以及正確數(shù)據(jù)的選擇,提供必要的判定與依據(jù).在這一方面,牛津大學(xué)Mayer-Schonberger 教授等也給出了相同的觀點(diǎn):“建立在相關(guān)分析法基礎(chǔ)上的預(yù)測(cè)才是大數(shù)據(jù)的核心”[85].另一方面,在實(shí)際應(yīng)用中,相關(guān)性分析不是一個(gè)獨(dú)立的環(huán)節(jié),而是需要將其與其他模型方法進(jìn)行有機(jī)結(jié)合,進(jìn)而提高數(shù)據(jù)分析過(guò)程的合理性以及分析結(jié)果的認(rèn)可度.目前,較多的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)方法仍建立在數(shù)據(jù)的獨(dú)立同分布假設(shè)之上,顯然獨(dú)立同分布只是一種理想假設(shè),這樣的分析結(jié)果存在較大的局限性且不能充分反映數(shù)據(jù)中蘊(yùn)含的真實(shí)知識(shí).近年來(lái),為提高數(shù)據(jù)分析的合理性和準(zhǔn)確性,越來(lái)越多的學(xué)者將相關(guān)分析納入到智能信息處理當(dāng)中,諸如多準(zhǔn)則/屬性決策[86-87]、分類[88]、聚類[89-90]、多標(biāo)簽學(xué)習(xí)[91-92]?等,均取得了較好的效果.綜合來(lái)看,大數(shù)據(jù)相關(guān)分析已經(jīng)成為大數(shù)據(jù)智能決策中的一項(xiàng)關(guān)鍵應(yīng)用技術(shù).
傳統(tǒng)相關(guān)分析中的相關(guān)系數(shù)法往往會(huì)忽視很多變量間隱含的邏輯關(guān)系,難以對(duì)非線性相關(guān)關(guān)系和非函數(shù)相關(guān)關(guān)系進(jìn)行準(zhǔn)確測(cè)量,這些局限性限制了傳統(tǒng)相關(guān)分析法在處理大數(shù)據(jù)問題時(shí)的應(yīng)用范圍.近年來(lái),相關(guān)學(xué)者從典型相關(guān)分析、基于互信息的相關(guān)分析、基于距離的相關(guān)分析展開了對(duì)非線性相關(guān)關(guān)系的研究,此外在偽相關(guān)以及時(shí)序數(shù)據(jù)延遲相關(guān)方面也取得了較多研究成果.以上幾個(gè)方面對(duì)大數(shù)據(jù)相關(guān)性分析提供了理論依據(jù),下述內(nèi)容是以上幾點(diǎn)代表性研究成果的介紹.
目前典型相關(guān)分析(Canonical correlation analysis,CCA)已經(jīng)較多地應(yīng)用在大數(shù)據(jù)分析當(dāng)中,它不僅可以揭示大數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,還可以提取大數(shù)據(jù)中的低維特征.具有代表性的應(yīng)用有數(shù)據(jù)降維[93]、特征融合[94]、數(shù)據(jù)流挖掘[95]、跨模態(tài)檢索[96]等.在典型相關(guān)分析的非線性拓展方面,Yin[97]?基于互信息對(duì)CCA 進(jìn)行了擴(kuò)展.Lai 和Fyfe[98]?基于核方法提出了非線性CCA.Hardoon 等[99]?使用Kernel 典型相關(guān)分析方法來(lái)學(xué)習(xí)圖片和問題描述之間的語(yǔ)義表示.針對(duì)傳統(tǒng)典型相關(guān)分析在大數(shù)據(jù)PB級(jí)數(shù)據(jù)規(guī)模時(shí)不再適應(yīng)的情況,楊靜等[100]?提出一種基于云模型的大數(shù)據(jù)CCA 方法.
互信息作為相關(guān)分析的度量,其優(yōu)勢(shì)在于能有效地刻畫變量之間的非線性關(guān)系[18],能夠有效探測(cè)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和規(guī)律,因此在大數(shù)據(jù)相關(guān)分析中日益受到重視.Reshef 等[101]?通過(guò)互信息定義了最大信息系數(shù)(Maximal information coefficient,MIC) 用來(lái)衡量?jī)蓚€(gè)變量間的相關(guān)性,可以對(duì)變量間的非函數(shù)相關(guān)關(guān)系進(jìn)行有效識(shí)別.MIC 被認(rèn)為具有通用性和均等性,并適用于大規(guī)模的數(shù)據(jù)集,但由于其僅針對(duì)兩個(gè)隨機(jī)變量的相關(guān)分析,因此在實(shí)際應(yīng)用中還存在一定的局限性.Nguyen 等[102]?根據(jù)MIC 方法,提出了更為一般化的相關(guān)分析方法,即最大相關(guān)分析(Maximal correlation analysis,MAC),擴(kuò)展了MIC 的應(yīng)用范圍,實(shí)現(xiàn)對(duì)兩組變量之間的非線性相關(guān)關(guān)系的準(zhǔn)確測(cè)量.
基于距離的相關(guān)系數(shù)(Distance correlation coefficient) 由Sz′ekely 等于2007 年提出[103],可以提供比皮爾遜相關(guān)系數(shù)更多的信息.基于距離的相關(guān)系數(shù)從特征函數(shù)的距離視角考察了兩個(gè)隨機(jī)向量之間的非線性相關(guān)關(guān)系,為高維數(shù)據(jù)的非線性相關(guān)分析提供了有效的度量準(zhǔn)則.Mart′?nez-G′omez 等[104]將基于距離的相關(guān)系數(shù)應(yīng)用于高維巨量的天體物理數(shù)據(jù)集中,用于發(fā)現(xiàn)變量之間的非線性關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)特征的提取,增強(qiáng)分類及模式識(shí)別的效果.Davis 等將基于距離的相關(guān)系數(shù)用于時(shí)間序列分析當(dāng)中[105].基于距離的相關(guān)系數(shù)從特征函數(shù)視角構(gòu)造相關(guān)性度量方法,不但可以度量非線性相關(guān)性,而且可以度量任意兩個(gè)不同維度的隨機(jī)向量的相關(guān)性.但是,距離相關(guān)系數(shù)涉及高維向量間的距離計(jì)算及矩陣點(diǎn)乘運(yùn)算,具有較高的時(shí)間復(fù)雜度.如何提高計(jì)算效率是基于距離相關(guān)系數(shù)分析方法的未來(lái)研究方向[18].
時(shí)序數(shù)據(jù)的延遲相關(guān)性(Lagged correlation)是時(shí)間序列數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要研究?jī)?nèi)容.延遲相關(guān)是時(shí)序數(shù)據(jù)之間普遍存在的現(xiàn)象.例如,國(guó)際原油價(jià)格走勢(shì)常常會(huì)影響到國(guó)內(nèi)成品油的價(jià)格行情,但是這種相關(guān)性并不會(huì)立即表現(xiàn)出來(lái),而是存在一定的延遲.在時(shí)間序列的相關(guān)性判定中,既要判斷數(shù)據(jù)之間是否存在時(shí)差(也稱作“時(shí)間彎曲”),又要考慮數(shù)據(jù)之間是否具有真實(shí)的相關(guān)性.曲線排齊法(Curve registration) 是對(duì)延遲序列進(jìn)行矯正的常用方法.經(jīng)典的曲線排齊方法包括位移排齊法、特征點(diǎn)排齊法、連續(xù)單調(diào)排齊法等.針對(duì)BRAID方法(一種位移排齊法) 在最大延遲相關(guān)點(diǎn)較大時(shí)準(zhǔn)確率不高的問題,林子雨等[106]?提出了三點(diǎn)預(yù)測(cè)探查法(TPFP),該方法可有效處理最大延遲相關(guān)點(diǎn)位置較大的情形,并可應(yīng)對(duì)延遲突變問題.姜高霞和王文劍[107]?構(gòu)造了基于時(shí)間序列相關(guān)系數(shù)特征的相關(guān)性判定方法,并基于光滑廣義期望最大化算法提出一種基于相關(guān)系數(shù)最大化的曲線排齊模型.針對(duì)基于采樣的曲線排齊法中均勻采樣存在的缺陷,張文凱等[108]?提出了基于非均勻采樣的相關(guān)系數(shù)最大化曲線排齊方法.此外動(dòng)態(tài)時(shí)間彎曲法(Dynamic time warping) 也是時(shí)下較為流行的時(shí)移序列排齊方法[109].
偽相關(guān)(Spurious correlation)是指不具有相關(guān)關(guān)系的兩組數(shù)據(jù)卻具有較高樣本相關(guān)系數(shù)的一種統(tǒng)計(jì)現(xiàn)象.該現(xiàn)象將產(chǎn)生誤導(dǎo)性的統(tǒng)計(jì)推斷.關(guān)于偽相關(guān)的產(chǎn)生原因,學(xué)界普遍認(rèn)為是由其他未見因素(共有因素) 的影響而產(chǎn)生.偽相關(guān)的判定問題和如何降低潛在偽相關(guān)的影響是相關(guān)分析應(yīng)用中的重要問題,并且多需要結(jié)合數(shù)據(jù)的背景知識(shí)來(lái)分析.在生態(tài)系統(tǒng)研究當(dāng)中,Baldocchi 等[110]?針對(duì)冠層光合作用和生態(tài)系統(tǒng)呼吸之間可能存在的潛在偽相關(guān)性,通過(guò)改變數(shù)據(jù)匯總和集成的采樣方法和時(shí)間尺度,來(lái)驗(yàn)證不同采樣方法對(duì)以上兩者之間偽相關(guān)度的影響.在基于元社區(qū)結(jié)構(gòu)的物種分類研究當(dāng)中,Clappe等[111]?分析了由空間自相關(guān)(獨(dú)立發(fā)生) 引起的物種分布和空間環(huán)境之間的偽相關(guān)問題,并基于空間約束空模型(Spatially-constrained null model) 提出一種新的方差分解方法,用于從環(huán)境數(shù)據(jù)中校準(zhǔn)空間自相關(guān)帶來(lái)的偽相關(guān)貢獻(xiàn).Gao 等[112]?提出一種新的兩個(gè)非獨(dú)立變量之間偽相關(guān)性的判定方法,通過(guò)引入一個(gè)“純” 偽相關(guān)指標(biāo),并將其與偽相關(guān)指標(biāo)進(jìn)行回歸分析,實(shí)現(xiàn)對(duì)區(qū)域徑流懸沙年產(chǎn)量與徑流深度之間偽相關(guān)性判定,并進(jìn)一步分析表明偽相關(guān)性受變量易變性的顯著影響.在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的海量性、高維性、動(dòng)態(tài)及不確定性等增加了發(fā)現(xiàn)偽相關(guān)的難度,特別是大數(shù)據(jù)的高維特征將顯著增加偽相關(guān)的可能性[113],因此面向大數(shù)據(jù)的相關(guān)分析,不可一味地追求對(duì)數(shù)據(jù)相關(guān)性探尋,而忽略了對(duì)偽相關(guān)的分析與判斷.
2.5 基于增量分析的智能決策
增量性是大數(shù)據(jù)的固有特性之一.現(xiàn)實(shí)生活中廣泛分布的傳感與監(jiān)控設(shè)備、實(shí)時(shí)互聯(lián)的社會(huì)媒體等都構(gòu)成了大數(shù)據(jù)動(dòng)態(tài)增長(zhǎng)的在線場(chǎng)景.基于大數(shù)據(jù)決策的數(shù)據(jù)分析,不單要從歷史大數(shù)據(jù)中獲取知識(shí),更多的是要對(duì)新增數(shù)據(jù)進(jìn)行動(dòng)態(tài)知識(shí)發(fā)現(xiàn).傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)歷史大數(shù)據(jù)的挖掘與分析往往是建立在數(shù)據(jù)隱含規(guī)律對(duì)未來(lái)預(yù)測(cè)有效性的假設(shè)之上,或假定決策狀態(tài)始終處于決策模型的閉環(huán)之內(nèi).顯然現(xiàn)實(shí)世界的復(fù)雜多變性決定了從歷史數(shù)據(jù)中獲取的知識(shí)多數(shù)只具備歷史有效性,在實(shí)用性較強(qiáng)的決策應(yīng)用領(lǐng)域,特別是對(duì)決策時(shí)效性要求較高的工業(yè)控制領(lǐng)域和智能交通領(lǐng)域等,實(shí)時(shí)動(dòng)態(tài)的增量式知識(shí)獲取是保證決策質(zhì)量的必要條件.近年來(lái)隨著大數(shù)據(jù)應(yīng)用的普及,更多專家學(xué)者開始關(guān)注大數(shù)據(jù)的增量式學(xué)習(xí)問題.分類或聚類也是實(shí)現(xiàn)決策分析任務(wù)的常見方法.在這類典型的基于機(jī)器學(xué)習(xí)的決策應(yīng)用中,增量性主要體現(xiàn)于三個(gè)方面:一是數(shù)據(jù)樣本的增量; 二是樣本特征描述信息的增量; 三是類別的增量與數(shù)據(jù)分布的變化.
在數(shù)據(jù)樣本增量方面.針對(duì)以往增量式學(xué)習(xí)均假設(shè)新增樣本是獨(dú)立且同分布的,Xu 等[114]?研究了依賴采樣方法對(duì)增量式支持向量機(jī)算法的影響,并提出了一種基于馬爾科夫重采樣的增量式支持向量機(jī)算法(MR-ISVM),實(shí)現(xiàn)ISVM 學(xué)習(xí)效率的顯著提高.Gu 等[115]?基于代價(jià)敏感鉸鏈損失的支持向量機(jī)(CSHL-SVM) 構(gòu)建了數(shù)據(jù)塊增量式學(xué)習(xí)算法,實(shí)現(xiàn)在線場(chǎng)景下的分類模型的快速更新.粗糙集方法是處理不確定性數(shù)據(jù)的有效決策工具.目前已經(jīng)有專家學(xué)者基于粗糙集的決策方法進(jìn)行了有關(guān)增量式知識(shí)發(fā)現(xiàn)的研究.Chen 等[116]?將變精度粗糙集方法引入集值序信息系統(tǒng),研究了變精度集值序信息系統(tǒng)下的近似集增量更新方法.為應(yīng)對(duì)決策信息系統(tǒng)中數(shù)據(jù)對(duì)象的動(dòng)態(tài)增加問題,Li 等[117]?提出基于優(yōu)勢(shì)粗糙集的增量式近似集更新方法,該方法可以有效解決多準(zhǔn)則決策中的動(dòng)態(tài)增量問題.針對(duì)數(shù)據(jù)樣本的增量以及數(shù)據(jù)中潛在的不確定性,Yu[118]?提出了三支聚類計(jì)算框架,并進(jìn)一步提出了基于樹的增量式三支聚類模型,該模型為不確定性大數(shù)據(jù)的增量式聚類計(jì)算提供了新思路.Hu 等[119]?通過(guò)粗糙集表示聚類問題中數(shù)據(jù)的不確定性,形成一套基于粗糙集的增量式模糊聚類集成方法,實(shí)現(xiàn)對(duì)不確定性數(shù)據(jù)的增量式聚類計(jì)算.
在樣本特征描述信息的增量方面.Hu 等[120]?基于互信息的差異生成策略和特征增量樹生長(zhǎng)機(jī)制提出一種特征增量隨機(jī)森林(FIRF) 學(xué)習(xí)方法,解決老年人健康護(hù)理中因傳感器增加形成的數(shù)據(jù)特征增量問題.Huang 等[121]?在分布式信息系統(tǒng)下基于屬性一般化提出了增量式粗糙近似集更新方法.Jing等[122]?研究了多粒度視角下的知識(shí)粒表示方法,針對(duì)大規(guī)模動(dòng)態(tài)增量決策信息系統(tǒng),提出了多粒度增量式屬性約簡(jiǎn)方法,有效避免數(shù)據(jù)增加過(guò)程中對(duì)等價(jià)類的重復(fù)計(jì)算.針對(duì)層次化多準(zhǔn)則分類問題中屬性值在不同粒度層次上的動(dòng)態(tài)更新,Luo 等[123]?通過(guò)屬性值分類對(duì)知識(shí)粒進(jìn)行細(xì)化和粗化,實(shí)現(xiàn)知識(shí)粒的動(dòng)態(tài)特性的形式化表示,并在此基礎(chǔ)上提出了層次化多準(zhǔn)則決策系統(tǒng)下的優(yōu)勢(shì)粗糙集增量式學(xué)習(xí)方法.面向?qū)傩栽隽康木垲愃惴梢詾榛跓o(wú)監(jiān)督數(shù)據(jù)的決策活動(dòng)提供有益幫助,不過(guò)現(xiàn)階段面向?qū)傩栽隽康木垲愌芯恳廊惠^少.
在類別的增量與數(shù)據(jù)分布的變化方面.傳統(tǒng)的增量式機(jī)器學(xué)習(xí)方法常假設(shè)訓(xùn)練數(shù)據(jù)和新增數(shù)據(jù)符合相同的模式,卻較少考慮新數(shù)據(jù)所屬類別的增加與數(shù)據(jù)分布變化情況,這使得傳統(tǒng)增量式機(jī)器學(xué)習(xí)方法難以適應(yīng)實(shí)際生產(chǎn)中的大數(shù)據(jù)環(huán)境.現(xiàn)實(shí)中的諸多因素會(huì)導(dǎo)致模型在學(xué)習(xí)階段只能接觸到有限的數(shù)據(jù)類別,而在測(cè)試和實(shí)際應(yīng)用階段的數(shù)據(jù)卻包含了在學(xué)習(xí)階段未曾出現(xiàn)的類別.該類場(chǎng)景下的學(xué)習(xí)問題被稱作開集學(xué)習(xí)(Open-set learning) 問題,意在尋求對(duì)已知類識(shí)別的同時(shí),能有效識(shí)別未知新類.Da 等[124]?嘗試從無(wú)標(biāo)簽數(shù)據(jù)中獲取更多分類信息,并基于支持向量機(jī)的大邊緣準(zhǔn)則和半監(jiān)督學(xué)習(xí)中的低密度分離器技術(shù),提出了基于無(wú)標(biāo)簽數(shù)據(jù)增廣類學(xué)習(xí)框架及相應(yīng)的支持向量機(jī)方法,用于開放空間下的樣本預(yù)測(cè).Ristin 等[125-126]?基于隨機(jī)森林算法提出了最近類平均森林算法和支持向量機(jī)森林算法,研究了大規(guī)模圖像分類中數(shù)據(jù)類別增加的增量式學(xué)習(xí)問題.J′unior 等[127]?將最近鄰分類器擴(kuò)展應(yīng)用到開集學(xué)習(xí)當(dāng)中,提出一種開集最近鄰方法.在基于神經(jīng)網(wǎng)絡(luò)的圖形識(shí)別領(lǐng)域,使用數(shù)據(jù)集增廣技術(shù)是應(yīng)對(duì)開集識(shí)別問題的一種方法,Neal 等[128]?提出一種反事實(shí)圖像生成的數(shù)據(jù)增廣方法,并通過(guò)訓(xùn)練后的生成對(duì)抗網(wǎng)絡(luò)生成開集訓(xùn)練樣本,用于對(duì)開集圖像識(shí)別任務(wù)的學(xué)習(xí).通過(guò)在深度網(wǎng)絡(luò)中引入新的模型層OpenMax 并結(jié)合元識(shí)別(Meta-recognition)算法來(lái)估計(jì)未知新類的概率,Bendale 和Boult[129]提出一種深度網(wǎng)絡(luò)開集識(shí)別方法,實(shí)現(xiàn)深度網(wǎng)絡(luò)對(duì)高置信度欺騙圖像以及相似于訓(xùn)練樣本的對(duì)抗圖像的識(shí)別.分布外圖像檢測(cè)問題同樣可看作是一類特殊的開集學(xué)習(xí)問題.Liang 等[130]?針對(duì)基于神經(jīng)網(wǎng)絡(luò)的分布外圖像檢測(cè)問題,提出了基于神經(jīng)網(wǎng)絡(luò)的分布外檢測(cè)器,通過(guò)控制溫度標(biāo)定并結(jié)合添加輸入擾動(dòng)的方法,增加分布內(nèi)圖像與分布外圖像之間的Softmax 分?jǐn)?shù)間隔,在無(wú)需重新訓(xùn)練網(wǎng)絡(luò)的情況下,有效降低分布外樣本的誤判率.目前已有的開集學(xué)習(xí)的研究主要關(guān)注了如何檢測(cè)到新類,然而如何進(jìn)一步區(qū)分新類同樣具有重要的實(shí)際意義和研究?jī)r(jià)值,目前該方面的研究還較少.
在流式數(shù)據(jù)和時(shí)間序列數(shù)據(jù)的實(shí)時(shí)處理任務(wù)中,如何將新增數(shù)據(jù)的分布變化納入學(xué)習(xí)任務(wù)當(dāng)中是一項(xiàng)極其重要的研究工作.基于概念漂移(Concept drift) 的增量式學(xué)習(xí)方法是應(yīng)對(duì)上述問題的有效途徑之一.Ahmad 等[131]?將概念漂移方法用于流式數(shù)據(jù)的非監(jiān)督學(xué)習(xí)當(dāng)中,有效提高了在線異常檢測(cè)的精度.針對(duì)傳統(tǒng)DSS 中的靜態(tài)數(shù)據(jù)分析方法在發(fā)生概念漂移時(shí)無(wú)法做出正確決策的問題,Dong 等[132]研究了數(shù)據(jù)驅(qū)動(dòng)決策支持系統(tǒng)中的概念漂移問題,提出一種基于數(shù)據(jù)分布的概念漂移檢測(cè)方法,為數(shù)據(jù)流提供更好、更精細(xì)的經(jīng)驗(yàn)分布,使得DSS 可以在適當(dāng)?shù)臅r(shí)間調(diào)整決策知識(shí)以適應(yīng)不斷變化的環(huán)境.Lobo 等[133]?使用核密度估計(jì)構(gòu)建了一種進(jìn)化多樣化生成方法,用于在線學(xué)習(xí)中概念漂移后學(xué)習(xí)策略的快速適應(yīng).
3 挑戰(zhàn)問題與發(fā)展趨勢(shì)
誠(chéng)然大數(shù)據(jù)可以為人們帶來(lái)更加科學(xué)全面的決策支持,但大數(shù)據(jù)智能決策的應(yīng)用研究還處于初期階段,并仍面臨諸多挑戰(zhàn).在此,我們討論大數(shù)據(jù)智能決策面臨的一些問題挑戰(zhàn),并指出潛在的應(yīng)對(duì)方法或未來(lái)的發(fā)展趨勢(shì).
3.1 大數(shù)據(jù)多樣性帶來(lái)的挑戰(zhàn)
多樣性是構(gòu)成大數(shù)據(jù)復(fù)雜性的主要因素之一,也是大數(shù)據(jù)智能決策面臨的主要困難.當(dāng)一項(xiàng)綜合決策需要整合多方面數(shù)據(jù)時(shí),不同來(lái)源的大數(shù)據(jù)在類型、分布、頻率及密度上可能各不相同,這對(duì)多源大數(shù)據(jù)融合分析、多源信息協(xié)同決策等構(gòu)成巨大的挑戰(zhàn).現(xiàn)階段對(duì)于處理大數(shù)據(jù)的多源異構(gòu)性,已經(jīng)有一些研究成果,但多數(shù)還是面向具體場(chǎng)景和特定一些類型的大數(shù)據(jù).解決多源異構(gòu)大數(shù)據(jù)的協(xié)同分析問題,消除信息孤島進(jìn)而實(shí)現(xiàn)通用性、魯棒性更好的大數(shù)據(jù)智能決策,是目前大數(shù)據(jù)智能決策的一個(gè)關(guān)鍵性研究課題.
多源大數(shù)據(jù)之間的關(guān)系普遍為互補(bǔ)型或合作型,通過(guò)數(shù)據(jù)層面的融合決策不一定那么有效.目前在特征層實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的融合方法中,有很多基于DNN 的優(yōu)秀成果.然而,基于DNN 的方法只克服了多樣性中的數(shù)據(jù)類型多樣,而對(duì)于分布、頻率等多樣性還無(wú)法應(yīng)對(duì).需要指出的是,任何決策都是有風(fēng)險(xiǎn)代價(jià)的,數(shù)據(jù)分析過(guò)程的可解釋性對(duì)于決策者而言至關(guān)重要,然而可解釋性卻是DNN 的短板.基于粒計(jì)算的DNN 可解釋性研究可望成為大數(shù)據(jù)智能分析的一個(gè)潛在研究方向.
通過(guò)語(yǔ)義層/決策層實(shí)現(xiàn)多源數(shù)據(jù)的綜合利用是解決數(shù)據(jù)異質(zhì)性較好的方法,可以有效避免各種異質(zhì)性問題.在大數(shù)據(jù)環(huán)境下,分布式自治數(shù)據(jù)源是大數(shù)據(jù)應(yīng)用的一大特點(diǎn)[16],去中心化將成為一大趨勢(shì).通過(guò)分布式知識(shí)獲取與協(xié)同的方法可以有效實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的協(xié)同感知與交互.所謂協(xié)同,可解釋為對(duì)不一致信息的沖突分析.研究基于粗糙集、模糊集和群體智能決策的沖突分析方法如何應(yīng)用到大數(shù)據(jù)決策是未來(lái)的一個(gè)發(fā)展方向.
3.2 大數(shù)據(jù)動(dòng)態(tài)性帶來(lái)的挑戰(zhàn)
日益加快的人、機(jī)、物之間的交互活動(dòng),使得數(shù)據(jù)的快速增長(zhǎng)成為大數(shù)據(jù)顯著特性之一.從決策需求的及時(shí)性和準(zhǔn)確性來(lái)看,大數(shù)據(jù)的動(dòng)態(tài)性對(duì)現(xiàn)有的增量式機(jī)器學(xué)習(xí)方法構(gòu)成巨大的挑戰(zhàn).例如,在流式數(shù)據(jù)處理中,如何在發(fā)生概念漂移時(shí)及時(shí)調(diào)整數(shù)據(jù)分析策略并實(shí)現(xiàn)知識(shí)庫(kù)的自適應(yīng)更新,仍是一項(xiàng)挑戰(zhàn)性的研究任務(wù).
針對(duì)大數(shù)據(jù)動(dòng)態(tài)增量問題,可以考慮形成一個(gè)訓(xùn)練學(xué)習(xí)、執(zhí)行預(yù)測(cè)、漂移檢測(cè)、漂移理解、漂移自適應(yīng)的多步驟自適應(yīng)學(xué)習(xí)模型.這類模型的重點(diǎn)和難點(diǎn)在于漂移理解與漂移自適應(yīng).在漂移理解方面可以融入高層次的、符合認(rèn)知的方法,可以采用粗糙集、模糊集、商空間等粒計(jì)算方法建立不同粒度層次下的漂移認(rèn)知模型,實(shí)現(xiàn)符合人類認(rèn)知的層次化概念漂移理解.針對(duì)漂移自適應(yīng)問題,可以通過(guò)構(gòu)建有效的知識(shí)距離度量方法來(lái)度量概念漂移距離與方向,同時(shí)綜合運(yùn)用進(jìn)化計(jì)算與神經(jīng)網(wǎng)絡(luò)等方法構(gòu)建與問題相符的參數(shù)自適應(yīng)模型,實(shí)現(xiàn)對(duì)學(xué)習(xí)模型的演化更新.
3.3 大數(shù)據(jù)極弱監(jiān)督性帶來(lái)的挑戰(zhàn)
大數(shù)據(jù)的快速增長(zhǎng)性也決定了大數(shù)據(jù)的極弱監(jiān)督性甚至是非監(jiān)督性.大數(shù)據(jù)分類學(xué)習(xí)中的極弱監(jiān)督性帶來(lái)的問題通常表現(xiàn)在兩個(gè)方面:一是因標(biāo)記稀缺而不能正確詳盡地反映出整體數(shù)據(jù)集的特點(diǎn),導(dǎo)致學(xué)到的學(xué)習(xí)器泛化能力弱.二是標(biāo)記稀缺使得構(gòu)造多分類器時(shí)多樣性不足,導(dǎo)致集成學(xué)習(xí)不能奏效.大數(shù)據(jù)的極弱監(jiān)督性決定了以聚類算法為特點(diǎn)的無(wú)監(jiān)督學(xué)習(xí)方法在大數(shù)據(jù)增量問題上的研究具有巨大的決策應(yīng)用價(jià)值.不過(guò)大數(shù)據(jù)的增量性不僅體現(xiàn)于數(shù)據(jù)樣本的增加,還體現(xiàn)于屬性的增加.針對(duì)大數(shù)據(jù)屬性增量式聚類問題仍然缺乏有效的方法.
針對(duì)大數(shù)據(jù)的極弱監(jiān)督性,可以充分利用多視角信息、相似領(lǐng)域信息、先驗(yàn)知識(shí)等,采用大數(shù)據(jù)耦合與關(guān)聯(lián)分析、大數(shù)據(jù)與經(jīng)驗(yàn)知識(shí)相融合等技術(shù)增加額外的監(jiān)督信息.三支決策[134]?體現(xiàn)了一種漸進(jìn)決策的思想.我們可以設(shè)計(jì)三支聚類模型逐步地、有效地利用少量標(biāo)簽信息或者領(lǐng)域?qū)<抑R(shí).根據(jù)數(shù)據(jù)類型與問題求解需求,采用合適的粒計(jì)算方法構(gòu)建多粒度聚類分析算法模型,也可望為大數(shù)據(jù)屬性增量式聚類帶來(lái)新的解決思路.
3.4 大數(shù)據(jù)不確定性帶來(lái)的挑戰(zhàn)
不確定性是當(dāng)前人工智能技術(shù)研究中的關(guān)鍵問題,同時(shí)也是貫穿于大數(shù)據(jù)智能決策整個(gè)過(guò)程的核心問題.目前研究較多的就是獲取大數(shù)據(jù)中的不確定性知識(shí).然而不確定性的形式眾多,難以用統(tǒng)一的形式化方法表達(dá),也無(wú)法憑單一的技術(shù)手段來(lái)獲取大數(shù)據(jù)中的不確定性知識(shí).不確定性知識(shí)發(fā)現(xiàn)的研究難度大、價(jià)值高,一直是各領(lǐng)域知識(shí)發(fā)現(xiàn)研究所面臨的核心困難問題.
要實(shí)現(xiàn)復(fù)雜數(shù)據(jù)中不確定性知識(shí)的高效獲取,需要為描述不確定性概念知識(shí)提供合適的數(shù)學(xué)模型,建立不確定性知識(shí)空間中的計(jì)算模型,實(shí)現(xiàn)對(duì)不確定性知識(shí)空間的認(rèn)知和理解,進(jìn)而從數(shù)據(jù)中高效動(dòng)態(tài)獲取滿足約束要求的知識(shí).粒計(jì)算[135-136]?是一種基于認(rèn)知科學(xué)的智能信息計(jì)算范式,它適用于近似求解具有不確定性和層次結(jié)構(gòu)的問題,可以達(dá)到對(duì)問題的簡(jiǎn)化、提高問題求解效率等目的.從多粒度計(jì)算的角度來(lái)看,不確定性和確定性是信息在不同粒度層面上的不同表示形式,在某一層次上的不確定性問題可能是其他層次上的確定性問題[34].通過(guò)研究大數(shù)據(jù)在不同粒度層次上的粒度尋優(yōu)與粒度切換方法可望實(shí)現(xiàn)對(duì)不確定性信息的有效處理.此外,粒計(jì)算往往從實(shí)際問題的需求出發(fā),用可行的滿意近似解替代精確解,提高問題求解效率.
3.5 大數(shù)據(jù)隱私問題帶來(lái)的挑戰(zhàn)
目前大數(shù)據(jù)隱私保護(hù)問題已經(jīng)被廣泛關(guān)注[16].諸如企業(yè)供應(yīng)鏈數(shù)據(jù)、銀行交易數(shù)據(jù)、患者醫(yī)療數(shù)據(jù)、導(dǎo)航用戶軌跡數(shù)據(jù)等均構(gòu)成了隱私保護(hù)的敏感信息范疇.大數(shù)據(jù)的應(yīng)用過(guò)程中往往不可避免地觸及到敏感數(shù)據(jù)的傳輸、交互與分析處理,特別是在跨平臺(tái)、跨企業(yè)、跨領(lǐng)域數(shù)據(jù)的決策分析中,用戶隱私數(shù)據(jù)暴露問題顯得尤為突出.現(xiàn)階段,由于缺乏有效的隱私保護(hù)手段,多數(shù)擁有數(shù)據(jù)的企業(yè)不愿或不能將數(shù)據(jù)公開,這在很大程度上放慢了大數(shù)據(jù)研究與應(yīng)用的落地.目前,有關(guān)大數(shù)據(jù)應(yīng)用中的隱私保護(hù)還沒有標(biāo)準(zhǔn)化的處理手段,在技術(shù)層面和管理層面數(shù)據(jù)隱私都面臨嚴(yán)峻的挑戰(zhàn).有學(xué)者提出通過(guò)制定數(shù)據(jù)訪問與分享的隱私保護(hù)策略,比如設(shè)置一定的訪問資格和權(quán)限,或采用匿名數(shù)據(jù)的方法[137].對(duì)于設(shè)置數(shù)據(jù)訪問權(quán)限的方法,難點(diǎn)在于對(duì)安全認(rèn)證和訪問控制機(jī)制的設(shè)計(jì)以及對(duì)用戶信用的把握; 而采用匿名數(shù)據(jù)的方法,將顯著增加數(shù)據(jù)的不確定性,為數(shù)據(jù)分析帶來(lái)更多困難[7,16].
隱私信息一般是以最細(xì)粒度原始數(shù)據(jù)的形式存在的[136].根據(jù)粒計(jì)算的觀點(diǎn),數(shù)據(jù)是知識(shí)在最細(xì)粒度上的表現(xiàn),知識(shí)是數(shù)據(jù)在不同粒度層次上的抽象[138-139].面對(duì)復(fù)雜大數(shù)據(jù),數(shù)據(jù)、信息、知識(shí)都可以被粒化,并映射到不同的粒度層次上.此時(shí)的計(jì)算單元從原有的最細(xì)粒度的“數(shù)據(jù)” 轉(zhuǎn)變?yōu)榫哂姓J(rèn)知特征的、規(guī)模較小的“知識(shí)粒”,經(jīng)過(guò)粒化后的知識(shí)粒隱藏了細(xì)節(jié)信息,從而可以實(shí)現(xiàn)大數(shù)據(jù)隱私信息有效保護(hù).
3.6 特例狀況帶來(lái)的挑戰(zhàn)
眾所周知,基于機(jī)器學(xué)習(xí)的大數(shù)據(jù)智能化分析處理方法本質(zhì)上是建立在對(duì)大數(shù)據(jù)的統(tǒng)計(jì)分析基礎(chǔ)之上的.在完全信息環(huán)境下,通過(guò)對(duì)大數(shù)據(jù)的智能化分析可以很好地預(yù)測(cè)、判斷大數(shù)據(jù)已經(jīng)覆蓋的事物狀態(tài),但現(xiàn)實(shí)中的決策環(huán)境多是開放性的,事物的狀態(tài)是千變?nèi)f化的,因此即便是經(jīng)過(guò)長(zhǎng)期積累的大數(shù)據(jù)也無(wú)法保證信息的完全性.比如在航天領(lǐng)域中的故障、交通行業(yè)中的事故等多數(shù)都是特例.并且由于現(xiàn)實(shí)條件的約束人們往往無(wú)法通過(guò)反復(fù)試驗(yàn)的方法來(lái)獲取覆蓋各種特例的大數(shù)據(jù)進(jìn)行學(xué)習(xí)預(yù)測(cè),因此對(duì)特例狀況的預(yù)測(cè)和判斷是實(shí)際應(yīng)用中的一大挑戰(zhàn).
對(duì)于特例狀況的學(xué)習(xí),有望借助平行系統(tǒng)和平行學(xué)習(xí)的方法進(jìn)行解決.平行系統(tǒng)的概念是由中科院自動(dòng)化所王飛躍研究員于2004 年提出[140],通過(guò)利用大型計(jì)算模擬、預(yù)測(cè)并誘發(fā)引導(dǎo)復(fù)雜系統(tǒng)現(xiàn)象,構(gòu)建一種軟件定義的人工系統(tǒng)[141].平行學(xué)習(xí)利用計(jì)算實(shí)驗(yàn)方法進(jìn)行預(yù)測(cè)學(xué)習(xí),通過(guò)人工系統(tǒng),依據(jù)原始“小數(shù)據(jù)” 生成大量的人工合成數(shù)據(jù).將人工合成數(shù)據(jù)與原始的小數(shù)據(jù)一起構(gòu)成解決問題的所需的“大數(shù)據(jù)”,通過(guò)學(xué)習(xí)提取,得到應(yīng)用于某些具體場(chǎng)景或任務(wù)的知識(shí),進(jìn)而用于平行控制和平行決策.平行系統(tǒng)和平行學(xué)習(xí)可以滿足人們對(duì)特例狀況模擬與預(yù)測(cè)學(xué)習(xí)的需求,在一定程度上可能會(huì)解決特例對(duì)大數(shù)據(jù)智能決策帶來(lái)的挑戰(zhàn).
3.7 大數(shù)據(jù)認(rèn)知困難帶來(lái)的挑戰(zhàn)
從本質(zhì)上講,決策活動(dòng)是人類的一種認(rèn)知活動(dòng),認(rèn)知過(guò)程是所有決策過(guò)程的共性.現(xiàn)階段的人工智能技術(shù)與機(jī)器學(xué)習(xí)方法對(duì)于大數(shù)據(jù)的處理以及知識(shí)的獲取多數(shù)還處于對(duì)事物的感知層面,如特征提取,模式識(shí)別、預(yù)測(cè)、回歸、聚類等,它們?cè)趯?shí)質(zhì)上都是對(duì)事物的分類認(rèn)知.然而分類僅是人類的一種低層次認(rèn)知,其功能本質(zhì)在于對(duì)事物的區(qū)分、辨別與歸類.單純依靠對(duì)事物的分類還不足以構(gòu)成一項(xiàng)完整的決策.決策是任務(wù)和需求驅(qū)動(dòng)的問題求解過(guò)程,需要決策者在的分類認(rèn)知的基礎(chǔ)之上,繼續(xù)賦予研究對(duì)象以價(jià)值尺度認(rèn)知或功能偏好認(rèn)知,并最終做出選擇的全過(guò)程.讓機(jī)器擁有意識(shí)和理解能力才是人工智能最根本的目標(biāo),在這方面人工智能剛走出了決策認(rèn)知的第一步(即分類認(rèn)知),而偏好認(rèn)知還多依賴于人的參與.在實(shí)際應(yīng)用中,只有不斷提高對(duì)大數(shù)據(jù)快速的、完整的認(rèn)知能力,才能實(shí)現(xiàn)高效及時(shí)的大數(shù)據(jù)智能決策.
陳純?cè)菏恐赋?當(dāng)前大數(shù)據(jù)智能正從規(guī)則的學(xué)習(xí)推理方法,到數(shù)據(jù)驅(qū)動(dòng)的知識(shí)挖掘方法,邁向數(shù)據(jù)驅(qū)動(dòng)與知識(shí)引導(dǎo)的新時(shí)代.將數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法與人類的常識(shí)先驗(yàn)與隱式直覺相結(jié)合,可以實(shí)現(xiàn)可解釋、更魯棒和更通用的人工智能[9].鄭南寧院士指出,由于人類生活環(huán)境的高度不確定性和脆弱性以及面臨問題的開放性,任何智能程度的機(jī)器都無(wú)法完全取代人類,因此有必要將人類的認(rèn)知能力或類人認(rèn)知模型引入人工智能系統(tǒng),形成混合增強(qiáng)智能形態(tài)[142].張鈸院士指出,人類在問題求解中具有天生的知識(shí)驅(qū)動(dòng)能力、對(duì)不確定性問題的處理優(yōu)勢(shì)和對(duì)全局整體的感知能力; 傳統(tǒng)機(jī)器學(xué)習(xí)具有在數(shù)據(jù)分析處理中的數(shù)據(jù)驅(qū)動(dòng)能力、高速計(jì)算能力,二者結(jié)合是未來(lái)信息處理的發(fā)展趨勢(shì)[143].因此,人機(jī)結(jié)合的智能形態(tài)有望構(gòu)造出更加有效的認(rèn)知計(jì)算方法.在今后的大數(shù)據(jù)智能決策的應(yīng)用與研究中,人機(jī)結(jié)合的增強(qiáng)智能有望實(shí)現(xiàn)對(duì)大數(shù)據(jù)更加有效的處理,并創(chuàng)造出更好的結(jié)果.
4 結(jié)束語(yǔ)
在全球信息化快速發(fā)展的背景下,大數(shù)據(jù)以其蘊(yùn)含的巨大價(jià)值正受到社會(huì)各界的廣泛關(guān)注.發(fā)展基于大數(shù)據(jù)的人工智能新技術(shù),實(shí)現(xiàn)基于大數(shù)據(jù)的智能決策是推動(dòng)發(fā)展智能經(jīng)濟(jì)、智能服務(wù)、智能制造的關(guān)鍵手段.現(xiàn)階段,智能決策理論方法在大數(shù)據(jù)驅(qū)動(dòng)的模式下快速發(fā)展,并逐漸形成一系列圍繞多源異構(gòu)大數(shù)據(jù)智能化處理的新方法和新趨勢(shì).為了深入了解大數(shù)據(jù)智能決策的發(fā)展現(xiàn)狀,文章對(duì)大數(shù)據(jù)的特性以及大數(shù)據(jù)決策的特點(diǎn)進(jìn)行了歸納總結(jié),并著重從智能決策支持系統(tǒng)的發(fā)展、不確定性信息處理、信息融合、關(guān)聯(lián)分析以及增量分析五個(gè)方面綜述了當(dāng)前大數(shù)據(jù)智能決策的發(fā)展現(xiàn)狀.最后文章討論了大數(shù)據(jù)智能決策仍然面臨的問題與挑戰(zhàn),展望了一些潛在的方法及研究方向.作為一門快速發(fā)展的開放性學(xué)科領(lǐng)域,大數(shù)據(jù)智能決策在內(nèi)涵外延、模型理論、技術(shù)方法及實(shí)施策略等方面還需要人們繼續(xù)投入更多的研究與實(shí)踐.希望本文對(duì)大數(shù)據(jù)智能決策的相關(guān)介紹與探討能夠?qū)ψx者提供有益的借鑒和幫助.
審核編輯:符乾江
評(píng)論
查看更多