摘要
大數據認識論的主體高度分化并社會化,認識的對象是世界2作用于(包括認識與實踐活動)世界1,以及世界2自身相互作用(同樣包含認識與實踐活動),這兩項相互作用——所產生的數據——在世界3的映射。技術手段會極大影響主體與對象的關系。大數據認識論一步達到傳統認識論第一條道路的終點,引發“知其然而不知其所以然”之爭。認識結果具有多樣性和多重評價,并反作用于世界2。大數據認識論既是認識論,又是產業和實踐論。大數據認識論的特點具有認識史和知識論依據。中國語境下的大數據實踐論具有特別重要的意義。
“大數據”與“認識論”,前者在眼下炙手可熱,后者則是古老的研究領域。將二者聯系起來,前者因深入到認識論而不只是流于口頭和報端的“浮云”,也不僅是“云”;后者因接觸到前者而煥發了新的生命。以下試圖以傳統的認識論來梳理目前關于大數據的種種論述,以及由此反過來擴展傳統的認識論。
文中的論述過程往往把大數據與認識論二者合到一起,既因為大數據認識論實際上正在隱然成形,也因為行文的方便而省略了“與”。因而,文中在述及“大數據認識論”時,并非意味二者完全融合。讀者可以由前后文判斷此處說的是“大數據認識論”,還是大數據“與”認識論。
一般認為,大數據來自自然界,來自生命,以及來自人類社會。前兩項涉及自然科學,涉及后者的學科或學科群已經在某種意義上于被稱為“計算社會科學”。本文沒有涉及大數據認識論在自然科學中的作用,集中討論人類社會中的大數據與認識論的關系。
以下按五個部分的次序上載,敬請期待。
第一
主體與對象
第二
認識過程
第三
認識結果
第四
大數據認識論的認識史和知識論依據
第五
中國語境下的“大數據認識-實踐論”
(為簡明起見,文中沒有加引文;如有必要,請查閱發表在《中國軟科學》2014年第9期上的原文,此處稍有增減和調整。)
一、主體與對象
主體
傳統認識論的認識主體是個人,或者基本上屬于同一個“共同體”,是具有相同或相似的“范式”的團隊。近年來,越來越多的情況是,一方以種種方式委托另一方來認識某個對象,如咨詢、課題,以及知識流程外包等,認識的意向方與實施方分離為甲方和乙方。知識外包是在擁有相當不同范式的各異的共同體之間。為完成甲方的特殊需求,乙方需編寫特殊的程序和軟件。相對而言,乙方和應用互聯網大腦的人員具備專業的技術能力,委托方可以是有特殊需求的科學家,更會有大量來自政府、企業界和社會的甲方,乙方需要相當熟悉甲方的需求才有可能完成后者外包的事項,以及向甲方提供可視化的分析。因而主體在分化為甲乙方的同時又緊密相關。
隨著認識主體的分化,認識的動機目的也發生相應的變化。“小科學”時代,認識為了求真;“大科學”時代,認識的動機承擔越來越多來自社會的需求,較之以往更有可能發生知識的“社會建構”。大數據時代,“面對海量信息,任何人都只需要對自己有益和有用的信息”。一方面甲方的意圖帶有明顯目的性,另一方面,乙方因與甲方分離而較少利益相關,有可能相對客觀冷靜地從事求真的研究。新的問題是:乙方如何判斷甲方所委托事項的合理性。只管求真的乙方是否可以因認識主體的分離而免責,可以不顧其中的倫理道德,有求必應。在高度分化的認識主體之間還需要有關系到責權利等事項細致妥貼的制度安排。簡言之,在大數據認識論中,認識主體高度分化并社會化。眼下如雨后春筍般萌發的智庫顯然可以歸入此處。
從另一個角度看,大數據認識論的認識主體可以清晰地分為三個層次:政府、公司,以及個人,分別對應于國家、市場和社會。政府由大數據把握全局;公司由大數據了解政府與個人的需求,理解相關政策,洞悉競爭對手,以及掌控資源。一個健全的社會擁有與政府和公司處于均衡狀態的個人。目前還看不到個人在大數據認識論中作為主體的地位和作用。可以確定的是,即使個人作為大數據認識論的主體,其影響也與政府和公司不可同日而語。在這樣的層次中,馬爾庫塞曾經批判的“單面人”隱約可見。
對象
相對而言,在大數據認識論中,認識對象的變化更具有根本性。傳統的認識論所涉及的認識對象是客觀存在,是“世界1”(包括被看作世界1的生物學意義上的人類),而大數據認識論中的認識對象既非世界1,亦非世界2對世界1的認識結果亦即“世界3”,而是世界2的宏觀表征。
大數據之所以得以成為研究對象,首先在于提供大數據的人和人際關系發生變化。近代以降,人是機器、單子,社會是由零件組裝而成可拆卸的機器。隨后,人是化工廠、細胞的王國,著眼點基本上都是單獨的個人,因而心理學的對象是獨立的個人。20世紀初,人“成長為”社會動物,個人的心理繞不過社會影響;反之,社會現象也需要下沉到個人心理予以說明;個人與社會難分難舍,其結果是,個人心理變幻莫測,社會現象雜亂無章。直到互聯網時代和功能各異的社交網站出現。
社會軟件建立了一種新型的遠程社會關系,從面對面地交往到數字操縱的交往,深刻地修改了已有的社會模式。“人類行為較之于相對獨立的個體決策行為發生了顯著變化,”構建了某種“心有靈犀一點通”且又變動不居的人際間的相關性,使得數據不再雜亂無章,而是成為某種程度上有規可循的大數據,成為有價值的研究對象。“由于能夠測得更準、計算得更加精確,社會科學也正在脫下‘準科學’的外衣,在21世紀全面邁進科學的殿堂”。
在現象層面,作為對象的大數據有以下特征:首先是所謂“4V”,即數據量大(Volume),類型繁多(Variety),價值密度低(Value),以及速度快時效高(Velocity);在深層是人類在大的時空尺度,也就是在個體不可比擬的量級所顯示出的前所未見的屬性。“揭示冗余度支持的有統計意義的情報及其關聯,從大眾層面而不是個體層面來理解人類行為”。在某種程度上,大數據認識論不是由個體層面,而是從類似于“超級群”的層面理解人類行為,正如實驗心理學不是由單個腦細胞理解人的感知一樣。
正因為此,作為世界3的大數據在某種意義上具有與世界1一個同樣的特征:客觀性。“傳統民調需要設計問卷,可能有意無意引入主觀因素,不能完全排除模糊歧義乃至誤導。大數據是自底而上的自動數據分析,用的是歸納整合的方法,因此更加具有客觀性。為了達成調查,調查者有時不得不施行物質刺激,這也產生了部分客戶純粹為了獎勵而應付調查、返回低質問卷的弊端。自動民調的對象是民意的自然流露(水軍和惡意操縱另論),基數大,也有利于降噪,這就保障了情報的客觀性。”
由此可以看出客觀性的三點依據,其一即數據之大。這一點類似于所謂“主體間性”。顯然,兩三個人之間的主體間性與數以萬計個體的主體間性不可同日而語。昔日社會學的一大困惑在于數據不夠大,因而難以進行客觀的研究。
其二,數據之全,不僅是“二八定律”中的“二”,而且是“八”,也就是“長尾”,這就極大提升了普羅大眾在社會生活中的權重。不過,隨著“少數服從多數”成為現實,如何避免多數人的“暴政”,成為大數據時代有待解決的問題之一。
其三,所謂“自然流露”,也就是無意識。一方面,這種自然流露就是個體的主觀意識,另一方面,個體并不知曉其作為大數據認識論的認識對象。大數據的客觀,所需要的正是這樣不受干擾的“主觀”。千萬個這樣相對純粹的主觀最終匯成客觀。就此而言,作為世界2宏觀表征的大數據可以歸入波普爾的“客觀知識”,也就是世界3。
作為認識對象的大數據所呈現出整體上的特定關系,可以借用“漩渦與人性”的隱喻來說明這一點。網友評論說,如果把水分子用納米碳管來輸運,一樣會出現“整體的擁堵”;反之,如果樓梯足夠寬,人類下樓,怎么也不會出現這個擁堵。宏觀流體定律基于最小顆粒尺度與所考慮的尺度相比可以忽略。在大數據里,個人相當于漩渦中的水分子,其“毛糙”(李德毅)的邊緣和瞬間的變化可以忽略。由此再次可見,數據之“大”的關鍵地位。
大數據不僅具有“4V”的特征,而且處于不斷增長之中。人類存在一天,大數據就與日俱增,永不枯竭。人們對于“物質無限豐富”尚有爭論,至少還需要做一番解釋,對于大數據,似乎甫一問世,即已是無限,乃至需要培育“刪除”和“忘卻”的“美德”。無限的大數據或將有助于解決資源的短缺,讓有限的資源用到刀口上。
主體與對象的特殊關系也是大數據認識論與傳統認識論的一個值得注意的不同點。其一,由于在大數據的背后是處于群體中的毫不知情的人,是眾多社會關系的“總和”,于是認識主體譬如說某家公司,面對握有的大數據便有如同上帝俯視蕓蕓眾生之感,認識主體與對象之間成為牧羊人與羊的關系,“羊”的隱私在“牧羊人”那里透明。此外,相應于認識主體的三個層次,自然也就有作為對象的不同數據。無疑,政府所面對的數據最“大”,公司次之。不過,跨國公司認識對象之大完全可能超過不少國家。個人所能夠認識的數據在大小、內容和性質上均不可與政府與公司手上的數據同相提并論。個人以其數量之大,以及彼此間無意識的主體間性來平衡政府和公司。
其二,上帝會滿足于“俯視”,有人則把對數據的占有和控制看作是在陸權、海權、空權之外的另一種國家核心資產。這一點在斯諾登所曝光的“棱鏡”中得到充分顯示。IBM執行總裁羅睿蘭認為,“數據將成為一切行業當中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。”大數據既可能“成為人類至關重要的自然資源”,也可能成為“另一種國家核心資產”。
誰對大數據擁有產權,甚至主權?傳統認識論以世界1為對象,世界1對任何人一視同仁,因而在認識論上并沒有所有權之爭,所有權主要是在實踐層面,在應用領域。在大數據認識論中,所有權進入到認識層面。在這一點上,大數據不同于世界3。個人、公司、國家可以獨自開發、獨占其中的一部分。大數據不僅具有認識價值,而且擁有因人而異的使用價值。所謂的“計算社會科學”可能會變成私人公司和政府機構的專屬領域,或許會出現占有私有數據的特權學術研究群體,無助于公眾利益。美國倫理審查委員會委員(U.S. Institutional Review Boards)認為,必須增強技術知識來了解產生侵權和個人傷害的可能性,因為新的危害的產生條件不同于現存的模式。
其三,由此可以還引出一點,那就是技術手段在大數據認識論中的極端重要性。棱鏡表明,技術手段可以用于發現、開發大數據,挖掘大數據中的金礦,以及在于控制和支配。由此可見,“大數據時代,技術的有效性要比科學的完整性更重要!”
主體與對象的特殊關系
大數據,受到技術手段和權力的制約和影響。
技術在于開發,關系到作為對象的大數據之大、之深,以及之利。
權力在于選擇、控制與支配,控制大數據的種類、以及透明和共享的程度,并由此支配放牧的羊。
雖然主體與對象在一定程度上可以互易,此時此地的主體在另一個場合可能就成為他人的對象,不過,擁有更先進技術手段和更大權力者無疑更會是牧羊人。
評論
查看更多