CSDN 出品的《2018-2019 中國人工智能產(chǎn)業(yè)路線圖》V2.0 版即將重磅面世!
V1.0 版發(fā)布以來,我們有幸得到了諸多讀者朋友及行業(yè)專家的鼎力支持,在此表示由衷感謝。此次 V2.0 版路線圖將進(jìn)行新一輪大升級(jí),內(nèi)容包括 3 大 AI 前沿產(chǎn)業(yè)趨勢(shì)分析,10 位 AI 特邀專家的深度技術(shù)分析,15 家一線互聯(lián)網(wǎng)企業(yè)的 AI 實(shí)力大巡展,以及 20 個(gè) AI 優(yōu)秀應(yīng)用案例,力求為讀者呈現(xiàn)更全面的中國人工智能產(chǎn)業(yè)發(fā)展概況和趨勢(shì)判斷。
V2.0 版將于 11 月 8 日舉辦的 2018 AI 開發(fā)者大會(huì)上正式發(fā)布,在此之前,我們將不間斷公布精要內(nèi)容,以饗讀者。此為 V2.0 版中深度技術(shù)分析系列稿件第 3 篇,作者為 CSDN 特邀 AI 專家——復(fù)旦大學(xué)教授肖仰華。
一、什么是知識(shí)圖譜
▌1.1 知識(shí)圖譜的定義
知識(shí)圖譜是什么?本質(zhì)上是一種大規(guī)模語義網(wǎng)絡(luò)。理解知識(shí)圖譜的概念,有兩個(gè)關(guān)鍵詞。
首先是語義網(wǎng)絡(luò)。語義網(wǎng)絡(luò)表達(dá)了各種各樣的實(shí)體、概念及其之間的各類語義關(guān)聯(lián)。
圖1. 知識(shí)圖譜示例
比如“C羅”是一個(gè)實(shí)體,“金球獎(jiǎng)”也是一個(gè)實(shí)體,他們倆之間有一個(gè)語義關(guān)系就是“獲得獎(jiǎng)項(xiàng)”。“運(yùn)動(dòng)員”、“足球運(yùn)動(dòng)員”都是概念,后者是前者的子類(對(duì)應(yīng)于圖中的subclassOf 關(guān)系)。
理解知識(shí)圖譜的第二個(gè)關(guān)鍵詞是“大規(guī)模”。語義網(wǎng)絡(luò)并非新鮮事物,早在上個(gè)世紀(jì)七八十年代知識(shí)工程盛行之時(shí),就已存在。相比較于那個(gè)時(shí)代的語義網(wǎng)絡(luò),知識(shí)圖譜規(guī)模更大。
從2012年Google提出知識(shí)圖譜直到今天,知識(shí)圖譜技術(shù)發(fā)展迅速,知識(shí)圖譜的內(nèi)涵遠(yuǎn)遠(yuǎn)超越了其作為語義網(wǎng)絡(luò)的狹義內(nèi)涵。當(dāng)下,在更多實(shí)際場(chǎng)合下,知識(shí)圖譜是作為一種技術(shù)體系,指代大數(shù)據(jù)時(shí)代知識(shí)工程的一系列代表性技術(shù)進(jìn)展的總和。去年我國學(xué)科目錄做了調(diào)整,首次出現(xiàn)了知識(shí)圖譜的學(xué)科方向,教育部對(duì)于知識(shí)圖譜這一學(xué)科的定位是“大規(guī)模知識(shí)工程”,這一定位是十分準(zhǔn)確且內(nèi)涵豐富的。這里需要指出的是知識(shí)圖譜技術(shù)的發(fā)展是個(gè)持續(xù)漸進(jìn)的過程。從上個(gè)世紀(jì)七八十年代的知識(shí)工程興盛開始,學(xué)術(shù)界和工業(yè)界推出了一系列知識(shí)庫,直到2012年Google推出了面向互聯(lián)網(wǎng)搜索的大規(guī)模的知識(shí)庫,被稱之為知識(shí)圖譜。
▌1.2與傳統(tǒng)知識(shí)表示的區(qū)別
理解今天的知識(shí)圖譜內(nèi)涵,是不能割裂其歷史臍帶的。上世紀(jì)七八十年代的各種知識(shí)表示與我們今天的知識(shí)圖譜到底有著本質(zhì)差別。傳統(tǒng)語義網(wǎng)絡(luò)與知識(shí)圖譜的差別首先表現(xiàn)在其規(guī)模上。
知識(shí)圖譜是一種大規(guī)模語義網(wǎng)絡(luò),與上世紀(jì)七八十年代的各類語義網(wǎng)絡(luò)相比較,最顯著的差異就是規(guī)模差異。推而廣之,以知識(shí)圖譜為代表的大數(shù)據(jù)時(shí)代的各種知識(shí)表示與傳統(tǒng)的知識(shí)表示的根本差別首先體現(xiàn)在規(guī)模上。傳統(tǒng)知識(shí)工程一系列知識(shí)表示都是一種典型的“小知識(shí)”(smallknowledge)。
而到了大數(shù)據(jù)時(shí)代,受益于海量數(shù)據(jù)、強(qiáng)大計(jì)算能力以及群智計(jì)算,我們?nèi)缃衲軌蜃詣?dòng)化構(gòu)建、或者眾包構(gòu)建大規(guī)模、高質(zhì)量知識(shí)庫,形成所謂的“大知識(shí)”(bigknowledge,合肥工業(yè)大學(xué)的吳興東教授在很多場(chǎng)合下也提到類似觀點(diǎn))。所以知識(shí)圖譜與傳統(tǒng)知識(shí)表示在淺層次上的區(qū)別,就是大知識(shí)與小知識(shí)的差別,是在規(guī)模上的顯而易見的差別。
更深刻地進(jìn)行分析就會(huì)發(fā)現(xiàn),這樣的一個(gè)知識(shí)規(guī)模上的量變帶來了知識(shí)效用的質(zhì)變。
知識(shí)工程到了上世紀(jì)八十年代之后就銷聲匿跡了。根本原因在于傳統(tǒng)知識(shí)庫構(gòu)建主要依靠人工構(gòu)建、代價(jià)高昂、規(guī)模有限。舉個(gè)例子,我國的詞林辭海是上萬名專家花了10多年編撰而成的,但是它只有十幾萬詞條。而現(xiàn)在任何一個(gè)互聯(lián)網(wǎng)上的知識(shí)圖譜,比如DBpedia,動(dòng)輒包含上千萬實(shí)體。人工構(gòu)建的知識(shí)庫雖然質(zhì)量精良,但是規(guī)模有限。有限的規(guī)模使得傳統(tǒng)知識(shí)表示難以適應(yīng)互聯(lián)網(wǎng)時(shí)代的大規(guī)模開放應(yīng)用的需求。
互聯(lián)網(wǎng)應(yīng)用的特點(diǎn)在于:
一、規(guī)模巨大,我們永遠(yuǎn)不知道用戶下一個(gè)搜索關(guān)鍵詞是什么;
二、精度要求相對(duì)不高,搜索引擎從來不需要保證每個(gè)搜索的理解和檢索都是正確的;
三、簡(jiǎn)單知識(shí)推理,大部分搜索理解與回答只需要實(shí)現(xiàn)簡(jiǎn)單的推理,比如搜索劉德華推薦歌曲,是因?yàn)橹绖⒌氯A是歌星,至于“姚明老婆的婆婆的兒子有多高”這類的復(fù)雜推理在實(shí)際應(yīng)用中所占比率是不高的。
互聯(lián)網(wǎng)上的這種大規(guī)模開放應(yīng)用所需要的知識(shí)很容易突破傳統(tǒng)專家系統(tǒng)由專家預(yù)設(shè)好的知識(shí)庫的知識(shí)邊界。這一定程度上回答了,為何谷歌在2012年這個(gè)時(shí)間節(jié)點(diǎn)推出知識(shí)圖譜,利用一個(gè)全新名稱以表達(dá)與傳統(tǒng)知識(shí)表示毅然決裂的態(tài)度。
二、知識(shí)圖譜的重要性
知識(shí)圖譜是實(shí)現(xiàn)機(jī)器認(rèn)知智能的基礎(chǔ)。機(jī)器認(rèn)知智能的兩個(gè)核心能力:“理解”和“解釋”,均與知識(shí)圖譜有著密切關(guān)系。首先需要給機(jī)器“理解與解釋”提出一種解釋。我認(rèn)為機(jī)器理解數(shù)據(jù)的本質(zhì)是建立起從數(shù)據(jù)到知識(shí)庫中的知識(shí)要素(包括實(shí)體、概念和關(guān)系)映射的一個(gè)過程。
比如如果我說到“2013年的金球獎(jiǎng)得主C羅”這句話,我們之所以說自己理解了這句話,是因?yàn)槲覀儼选癈羅”這個(gè)詞匯關(guān)聯(lián)到我們腦子中的實(shí)體“C羅”,把“金球獎(jiǎng)”這個(gè)詞匯映射到我們腦中的實(shí)體“金球獎(jiǎng)”,然后把“得主”一詞映射到邊“獲得獎(jiǎng)項(xiàng)”這個(gè)關(guān)系。我們可以仔細(xì)體會(huì)一下我們的文本理解過程,其本質(zhì)是建立從數(shù)據(jù)(包括文本、圖片、語音、視頻等)到知識(shí)庫中的實(shí)體、概念、屬性映射的過程。
再來看人類是如何“解釋”的。比如我問“C羅為什么那么牛?”,可以通過知識(shí)庫中的“C羅獲得獎(jiǎng)項(xiàng)金球獎(jiǎng)”以及“金球獎(jiǎng)地位影響力最大的足球獎(jiǎng)項(xiàng)之一”這兩條關(guān)系來解釋這一問題。
這一過程的本質(zhì)就是將知識(shí)庫中的知識(shí)與問題或者數(shù)據(jù)加以關(guān)聯(lián)的過程。有了知識(shí)圖譜,機(jī)器完全可以重現(xiàn)我們的這種理解與解釋過程。有過一定計(jì)算機(jī)研究基礎(chǔ)的,是不難完成上述過程的數(shù)學(xué)建模的。知識(shí)圖譜對(duì)于機(jī)器認(rèn)知智能的重要性也體現(xiàn)在下面幾個(gè)具體方面。
▌2.1 知識(shí)圖譜使能機(jī)器語言認(rèn)知
知識(shí)圖譜對(duì)機(jī)器認(rèn)知智能的必要性還可以從若干具體問題來進(jìn)行闡述。首先,我們來看機(jī)器認(rèn)知的核心能力之一:自然語言理解。
我的觀點(diǎn)是機(jī)器理解自然語言需要類似知識(shí)圖譜這樣的背景知識(shí)。自然語言是異常復(fù)雜的:自然語言有歧義性、多樣性,語義理解有模糊性且依賴上下文。機(jī)器理解自然語言困難的根本原因在于,人類語言理解是建立在人類的認(rèn)知能力基礎(chǔ)之上的,人類的認(rèn)知體驗(yàn)所形成的背景知識(shí)是支撐人類語言理解的根本支柱。
我們?nèi)祟惐舜酥g的語言理解就好比是根據(jù)冰山上浮出水面的一角來揣測(cè)冰山下的部分。我們之所以能夠很自然地理解彼此的語言,是因?yàn)楸舜斯蚕眍愃频纳铙w驗(yàn)、類似的教育背景,從而有著類似的背景知識(shí)。冰山下龐大的背景知識(shí)使得我們可以彼此理解水面上有限的幾個(gè)字符。我們可以做個(gè)簡(jiǎn)單的思想實(shí)驗(yàn),假如現(xiàn)在有個(gè)外星人坐在這里聽我講報(bào)告,他能聽懂么?我想還是很困難的,因?yàn)樗麤]有在地球上生活的經(jīng)歷,沒有與我相類似的教育背景,沒有與我類似的背景知識(shí)庫。
再舉個(gè)很多人都有體會(huì)的例子,我們?nèi)⒓訃H會(huì)議時(shí),經(jīng)常遇到一個(gè)尷尬的局面,就是西方學(xué)者說的笑話,我們東方人很難產(chǎn)生共鳴。因?yàn)槲覀兒退麄兊谋尘爸R(shí)庫不同,我們?cè)绮统詿灐⒂蜅l,西方吃咖啡、面包,不同的背景知識(shí)決定了我們對(duì)幽默有著不同的理解。所以語言理解需要背景知識(shí),沒有強(qiáng)大的背景知識(shí)支撐,是不可能理解語言的。要讓機(jī)器理解我們?nèi)祟惖恼Z言,機(jī)器必需共享與我們類似的背景知識(shí)。
實(shí)現(xiàn)機(jī)器自然語言理解所需要的背景知識(shí)是有著苛刻的條件的:規(guī)模足夠大、語義關(guān)系足夠豐富、結(jié)構(gòu)足夠友好、質(zhì)量足夠精良。
以這四個(gè)條件去看知識(shí)表示就會(huì)發(fā)現(xiàn),只有知識(shí)圖譜是滿足所有這些條件的:知識(shí)圖譜規(guī)模巨大,動(dòng)輒包含數(shù)十億實(shí)體;關(guān)系多樣,比如在線百科圖譜DBpedia包含數(shù)千種常見語義關(guān)系;結(jié)構(gòu)友好,通常表達(dá)為RDF三元組,這是一種對(duì)于機(jī)器而言能夠有效處理的結(jié)構(gòu);質(zhì)量也很精良,因?yàn)橹R(shí)圖譜可以充分利用大數(shù)據(jù)的多源特性進(jìn)行交叉驗(yàn)證,也可利用眾包保證知識(shí)庫質(zhì)量。所以知識(shí)圖譜成為了讓機(jī)器理解自然語言所需的背景知識(shí)的不二選擇。
▌2.3 知識(shí)圖譜使能可解釋人工智能
知識(shí)圖譜對(duì)于認(rèn)知智能的另一個(gè)重要意義在于:知識(shí)圖譜讓可解釋人工智能成為可能。
“解釋”這件事情一定是跟符號(hào)化知識(shí)圖譜密切相關(guān)的。因?yàn)榻忉尩膶?duì)象是人,人只能理解符號(hào),沒辦法理解數(shù)值,所以一定要利用符號(hào)知識(shí)開展可解釋人工智能的研究。可解釋性是不能回避符號(hào)知識(shí)的。
我們先來看幾個(gè)解釋的具體例子。比如,我若問鯊魚為什么可怕?你可能解釋說:因?yàn)轷忯~是食肉動(dòng)物,這實(shí)質(zhì)上是用概念在解釋。若問鳥為什么能飛翔?你可能會(huì)解釋因?yàn)樗谐岚颉_@是用屬性在解釋。若問鹿晗關(guān)曉彤前些日子為什么會(huì)刷屏?你可能會(huì)解釋說因?yàn)殛P(guān)曉彤是鹿晗的女朋友。這是用關(guān)系在解釋。我們?nèi)祟悆A向于利用概念、屬性、關(guān)系這些認(rèn)知的基本元素去解釋現(xiàn)象,解釋事實(shí)。而對(duì)于機(jī)器而言,概念、屬性和關(guān)系都表達(dá)在知識(shí)圖譜里面。因此,解釋離不開知識(shí)圖譜。
▌2.4 知識(shí)引導(dǎo)將成為解決問題的主要方式
知識(shí)圖譜的另一個(gè)重要作用體現(xiàn)在知識(shí)引導(dǎo)將成為解決問題的主要方式。前面已經(jīng)多次提及用戶對(duì)使用統(tǒng)計(jì)模型來解決問題的效果越來越不滿意了,統(tǒng)計(jì)模型的效果已經(jīng)接近“天花板”,要想突破這個(gè)“天花板”,需要知識(shí)引導(dǎo)。
舉個(gè)例子,實(shí)體指代這樣的文本處理難題,沒有知識(shí)單純依賴數(shù)據(jù)是難以取得理想效果的。比如“張三把李四打了,他進(jìn)醫(yī)院了”和“張三把李四打了,他進(jìn)監(jiān)獄了”,人類很容易確定這兩個(gè)不同的“他”的分別指代。因?yàn)槿祟愑兄R(shí),有關(guān)于打人這個(gè)場(chǎng)景的基本知識(shí),知道打人的往往要進(jìn)監(jiān)獄,而被打的往往會(huì)進(jìn)醫(yī)院。但是當(dāng)前機(jī)器缺乏這些知識(shí),所以無法準(zhǔn)確識(shí)別代詞的準(zhǔn)確指代。很多任務(wù)是純粹的基于數(shù)據(jù)驅(qū)動(dòng)的模型所解決不了的,知識(shí)在很多任務(wù)里不可或缺。比較務(wù)實(shí)的做法是將這兩類方法深度融合。
▌2.5 知識(shí)將顯著增加機(jī)器學(xué)習(xí)能力
知識(shí)對(duì)于認(rèn)知智能又一個(gè)很重要的意義就是將顯著增強(qiáng)機(jī)器學(xué)習(xí)的能力。
當(dāng)前的機(jī)器學(xué)習(xí)是一種典型的“機(jī)械式”學(xué)習(xí)方式,與人類的學(xué)習(xí)方式相比顯得比較笨拙。我們的孩童只需要父母告知一兩次:這是貓,那是狗,就能有效識(shí)別或者區(qū)分貓狗。而機(jī)器卻需要數(shù)以萬計(jì)的樣本才能習(xí)得貓狗的特征。
我們中國人學(xué)習(xí)英語,雖然也要若干年才能小有所成,但相機(jī)器對(duì)于語言的學(xué)習(xí)而言要高效的多。機(jī)器學(xué)習(xí)模型落地應(yīng)用中的一個(gè)常見問題是與專家知識(shí)或判斷不符合,這使我們很快陷入進(jìn)退兩難的境地:是相信學(xué)習(xí)模型還是果斷棄之?機(jī)器學(xué)習(xí)與人類學(xué)習(xí)的根本差異可以歸結(jié)為人是有知識(shí)的且能夠有效利用知識(shí)的物種。
我相信,未來機(jī)器學(xué)習(xí)能力的顯著增強(qiáng)也要走上充分利用知識(shí)的道路。符號(hào)知識(shí)對(duì)于機(jī)器學(xué)習(xí)模型的重要作用會(huì)受到越來越多的關(guān)注。這一趨勢(shì)還可以從機(jī)器智能解決問題的兩個(gè)基本模式方面加以論述。
機(jī)器智能的實(shí)現(xiàn)路徑之一是習(xí)得數(shù)據(jù)中的統(tǒng)計(jì)模式,以解決一系列實(shí)際任務(wù)。另一種是專家系統(tǒng),專家將知識(shí)賦予機(jī)器構(gòu)建專家系統(tǒng),讓機(jī)器利用專家知識(shí)解決實(shí)際問題。如今,這兩種方法有合流的趨勢(shì),無論是專家知識(shí)還是通過學(xué)習(xí)模型習(xí)得的知識(shí),都將顯式地表達(dá)并且沉淀到知識(shí)庫中。再利用知識(shí)增強(qiáng)的機(jī)器學(xué)習(xí)模型解決實(shí)際問題。這種知識(shí)增強(qiáng)下的學(xué)習(xí)模型,可以顯著降低機(jī)器學(xué)習(xí)模型對(duì)于大樣本的依賴,提高學(xué)習(xí)的經(jīng)濟(jì)性;提高機(jī)器學(xué)習(xí)模型對(duì)先驗(yàn)知識(shí)的利用率;提升機(jī)器學(xué)習(xí)模型的決策結(jié)果與先驗(yàn)知識(shí)的一致性。
因此,知識(shí)將成為比數(shù)據(jù)更為重要的資產(chǎn)。前幾年大數(shù)據(jù)時(shí)代到來的時(shí)候,大家都說“得數(shù)據(jù)者得天下”。去年,微軟的沈向洋博士曾經(jīng)說過“懂語言者得天下”。而我曾經(jīng)論述過,機(jī)器要懂語言,背景知識(shí)不可或缺。因此,在這個(gè)意義下,將是“得知識(shí)者得天下”。如果說數(shù)據(jù)是石油,那么知識(shí)就好比是石油的萃取物。如果我們只滿足賣數(shù)據(jù)盈利,那就好比是直接輸出石油在盈利。但是石油的真正價(jià)值蘊(yùn)含于其深加工的萃取物中。石油萃取的過程與知識(shí)加工的過程也極為相像。都有著復(fù)雜流程,都是大規(guī)模系統(tǒng)工程。知識(shí)工程的鼻祖,費(fèi)根鮑姆曾經(jīng)說過的一句話“knowledge is the power inAI”。
三、知識(shí)圖譜的生命周期
圖2. 知識(shí)圖譜的生命周期
知識(shí)圖譜系統(tǒng)的生命周期包含四個(gè)重要環(huán)節(jié):知識(shí)表示、知識(shí)獲取、知識(shí)管理與知識(shí)應(yīng)用。這四個(gè)環(huán)節(jié)循環(huán)迭代。
知識(shí)應(yīng)用環(huán)節(jié)明確應(yīng)用場(chǎng)景,明確知識(shí)的應(yīng)用方式。
知識(shí)表示定義了領(lǐng)域的基本認(rèn)知框架,明確領(lǐng)域有哪些基本的概念,概念之間有哪些基本的語義關(guān)聯(lián)。比如企業(yè)家與企業(yè)之間的關(guān)系可以是創(chuàng)始人關(guān)系,這是認(rèn)知企業(yè)領(lǐng)域的基本知識(shí)。知識(shí)表示只提供機(jī)器認(rèn)知的基本骨架,還要通過知識(shí)獲取環(huán)節(jié)來充實(shí)大量知識(shí)實(shí)例。比如喬布斯是個(gè)企業(yè)家,蘋果公司是家企業(yè),喬布斯與蘋果公司就是“企業(yè)家-創(chuàng)始人-企業(yè)”這個(gè)關(guān)系的一個(gè)具體實(shí)例。
知識(shí)實(shí)例獲取完成之后,就是知識(shí)管理。這個(gè)環(huán)節(jié)將知識(shí)加以存儲(chǔ)與索引,并為上層應(yīng)用提供高效的檢索與查詢方式,實(shí)現(xiàn)高效的知識(shí)訪問。
四個(gè)環(huán)節(jié)環(huán)環(huán)相扣,彼此構(gòu)成相鄰環(huán)節(jié)的輸入與輸出。在知識(shí)的具體應(yīng)用過程中,會(huì)不斷得到用戶的反饋,這些反饋會(huì)對(duì)知識(shí)表示、獲取與管理提出新的要求,因此整個(gè)生命周期會(huì)不斷迭代持續(xù)演進(jìn)下去。
▌3.1 知識(shí)表示
在知識(shí)表示方面,常用三元組(主語、謂詞、賓語)表示知識(shí)圖譜。如三元組<七里香,歌曲原唱,周杰倫>表示“七里香這首歌曲的原唱是周杰倫”這一知識(shí)。需要強(qiáng)調(diào)一點(diǎn),知識(shí)圖譜只能表達(dá)一些簡(jiǎn)單的關(guān)聯(lián)事實(shí),但很多領(lǐng)域應(yīng)用的需求已經(jīng)遠(yuǎn)遠(yuǎn)超出了三元組所能表達(dá)的簡(jiǎn)單關(guān)聯(lián)事實(shí),實(shí)際應(yīng)用日益對(duì)于利用更加多元的知識(shí)表示豐富和增強(qiáng)知識(shí)圖譜的語義表達(dá)能力提出了需求。
這一趨勢(shì)首先體現(xiàn)在對(duì)于時(shí)間和空間語義的拓展與表達(dá)方面。
有很多知識(shí)和事實(shí)是有時(shí)間和空間條件的,比如說“美國總統(tǒng)是特朗普”這個(gè)事實(shí)的成立是有時(shí)間條件的,十年前美國的總統(tǒng)不是特朗普,十年之后應(yīng)該也不大可能是特朗普。還有很多事實(shí)是有空間條件的,比如“早餐是燒餅與油條”這件事,在中國是這樣,但是在西方并非如此,西方的早餐可能是咖啡、面包。
從時(shí)空維度拓展知識(shí)表示對(duì)很多特定領(lǐng)域具有較強(qiáng)的現(xiàn)實(shí)意義。比如在位置相關(guān)的應(yīng)用中,如何將POI(Point of Interest)與該P(yáng)OI相關(guān)實(shí)體加以關(guān)聯(lián),成為當(dāng)下拓展POI語義表示的重要任務(wù)之一。比如將“邯鄲路220號(hào)”(復(fù)旦大學(xué)地址)關(guān)聯(lián)到“復(fù)旦大學(xué)”是十分有意義的。在互聯(lián)網(wǎng)娛樂領(lǐng)域,粉絲們往往不僅僅關(guān)心某個(gè)明星的妻子是誰,可能更關(guān)心明星的前任妻子、前任女友等信息,這些應(yīng)用都對(duì)事實(shí)成立的時(shí)間提出了需求。
第二、增強(qiáng)知識(shí)圖譜的跨媒體語義表示。
當(dāng)前的知識(shí)圖譜主要以文本為主,但是實(shí)際應(yīng)用需要有關(guān)某個(gè)實(shí)體的各種媒體表示方式,包括聲音、圖片、視頻等等。比如對(duì)于實(shí)體“Tesla Model S”,我們需要將其關(guān)聯(lián)到相應(yīng)圖片和視頻。知識(shí)圖譜時(shí)空維度拓展在物理實(shí)現(xiàn)上可以通過定義四元組或者五元組加以實(shí)現(xiàn)。跨媒體表示可以通過定義相關(guān)的屬性加以實(shí)現(xiàn)。知識(shí)圖譜的語義增強(qiáng)總體上而言將是未來一段時(shí)間知識(shí)表示的重要任務(wù)。知識(shí)圖譜作為語義網(wǎng)絡(luò),側(cè)重于表達(dá)實(shí)體、概念之間的語義關(guān)聯(lián),還難以表達(dá)復(fù)雜因果關(guān)聯(lián)與復(fù)雜決策過程。
如何利用傳統(tǒng)知識(shí)表示增強(qiáng)知識(shí)圖譜,或者說如何融合知識(shí)圖譜與傳統(tǒng)知識(shí)表示,更充分地滿足實(shí)際應(yīng)用需求,是知識(shí)圖譜領(lǐng)域值得研究的問題之一。在一些實(shí)際應(yīng)用中,研究人員已經(jīng)開始嘗試各種定制的知識(shí)表示,在知識(shí)圖譜基礎(chǔ)上適當(dāng)擴(kuò)展其他知識(shí)表示是一個(gè)值得嘗試的思路。
▌3.2 知識(shí)獲取
圖3.知識(shí)獲取的基本步驟
知識(shí)的獲取是個(gè)系統(tǒng)工程,流程復(fù)雜,內(nèi)涵豐富,涉及到知識(shí)表示、自然語言處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、眾包等一系列技術(shù)。知識(shí)獲取的基本步驟如圖3所示:
第一步是模式(Schema)設(shè)計(jì)。這一步是傳統(tǒng)本體設(shè)計(jì)所要解決的問題。基本目標(biāo)是把認(rèn)知領(lǐng)域的基本框架賦予機(jī)器。在所謂認(rèn)知基本框架中需要指定領(lǐng)域的基本概念,以及概念之間subclassof關(guān)系(比如足球領(lǐng)域需要建立“足球運(yùn)動(dòng)員”是“運(yùn)動(dòng)員”的子類);需要明確領(lǐng)域的基本屬性;明確屬性的適用概念;明確屬性值的類別或者范圍。比如“效力球隊(duì)”這個(gè)屬性一般是定義在足球運(yùn)動(dòng)員這個(gè)概念上,其合理取值是一個(gè)球隊(duì)。
此外,領(lǐng)域還有大量的約束或規(guī)則,比如對(duì)于屬性是否可以取得多值的約束(比如“獎(jiǎng)項(xiàng)”作為屬性是可以取得多值的),再比如球隊(duì)的“隸屬球員”屬性與球員的“效力球隊(duì)”是一對(duì)互逆屬性。這些元數(shù)據(jù)對(duì)于消除知識(shí)庫不一致、提升知識(shí)庫質(zhì)量具有重要意義。
第二步是明確數(shù)據(jù)來源。在這一步要明確建立領(lǐng)域知識(shí)圖譜的數(shù)據(jù)來源。可能來自互聯(lián)網(wǎng)上的領(lǐng)域百科爬取,可能來自通用百科圖譜的導(dǎo)出,可能來自內(nèi)部業(yè)務(wù)數(shù)據(jù)的轉(zhuǎn)換,可能來自外部業(yè)務(wù)系統(tǒng)的導(dǎo)入。應(yīng)該盡量選擇結(jié)構(gòu)化程度相對(duì)較高、質(zhì)量較好的數(shù)據(jù)源,以盡可能降低知識(shí)獲取代價(jià)。
第三步是詞匯挖掘。人們從事某個(gè)行業(yè)的知識(shí)的學(xué)習(xí),都是從該行業(yè)的基本詞匯開始的。在傳統(tǒng)圖書情報(bào)學(xué)領(lǐng)域,領(lǐng)域知識(shí)的積累往往是從敘詞表的構(gòu)建開始的。敘詞表里涵蓋的大都是領(lǐng)域的主題詞,及這些詞匯之間的基本語義關(guān)聯(lián)。在這一步我們是要識(shí)別領(lǐng)域的高質(zhì)量詞匯、同義詞、縮寫詞,以及領(lǐng)域的常見情感詞。比如在政治領(lǐng)域,我們需要知道特朗普又被稱為川普,其英文簡(jiǎn)稱為Trump。
第四步是領(lǐng)域?qū)嶓w發(fā)現(xiàn)(或挖掘)。需要指出的是領(lǐng)域詞匯只是識(shí)別出領(lǐng)域中的重要短語和詞匯。但是這些短語未必是一個(gè)領(lǐng)域?qū)嶓w。從領(lǐng)域文本識(shí)別某個(gè)領(lǐng)域常見實(shí)體是理解領(lǐng)域文本和數(shù)據(jù)的關(guān)鍵一步。在實(shí)體識(shí)別后,還需對(duì)實(shí)體進(jìn)行實(shí)體歸類。能否把實(shí)體歸到相應(yīng)的類別(或者說將某個(gè)實(shí)體與領(lǐng)域類別或概念進(jìn)行關(guān)聯(lián)),是實(shí)體概念化的基本目標(biāo),是理解實(shí)體的關(guān)鍵步驟。比如將特朗普歸類到政治人物、美國總統(tǒng)等類別,對(duì)于理解特朗普的含義具有重要意義。實(shí)體挖掘的另一個(gè)重要任務(wù)是實(shí)體鏈接,也就是將文本里的實(shí)體提及(Mention)鏈接到知識(shí)庫中的相應(yīng)實(shí)體。實(shí)體鏈接是拓展實(shí)體理解,豐富實(shí)體語義表示的關(guān)鍵步驟。
第五步是關(guān)系發(fā)現(xiàn)。關(guān)系發(fā)現(xiàn),或者知識(shí)庫中的關(guān)系實(shí)例填充,是整個(gè)領(lǐng)域知識(shí)圖譜構(gòu)建的重要步驟。關(guān)系發(fā)現(xiàn)根據(jù)不同的問題模型又可以分為關(guān)系分類、關(guān)系抽取和開放關(guān)系抽取等不同變種。關(guān)系分類旨在將給定的實(shí)體對(duì)分類到某個(gè)已知關(guān)系;關(guān)系抽取旨在從文本中抽取某個(gè)實(shí)體對(duì)的具體關(guān)系;開放關(guān)系抽取(OpenIE)從文本中抽取出實(shí)體對(duì)之間的關(guān)系描述。也可以綜合使用這幾種模型與方法,比如根據(jù)開放關(guān)系抽取得到的關(guān)系描述將實(shí)體對(duì)分類到知識(shí)庫中的已知關(guān)系。
第六步是知識(shí)融合。因?yàn)橹R(shí)抽取來源多樣,不同的來源得到的知識(shí)不盡相同,這就對(duì)知識(shí)融合提出了需求。知識(shí)融合需要完成實(shí)體對(duì)齊、屬性融合、值規(guī)范化。實(shí)體對(duì)齊是識(shí)別不同來源的同一實(shí)體。屬性融合是識(shí)別同一屬性的不同描述。不同來源的數(shù)據(jù)值通常有不同的格式、不同的單位或者不同的描述形式。比如日期有數(shù)十種表達(dá)方式,這些需要規(guī)范化到統(tǒng)一格式。
最后一步是質(zhì)量控制。知識(shí)圖譜的質(zhì)量是構(gòu)建的核心問題。知識(shí)圖譜的質(zhì)量可能存在幾個(gè)基本問題:缺漏、錯(cuò)誤、陳舊。
先談知識(shí)庫的缺漏問題。某種意義上,知識(shí)完備對(duì)于知識(shí)資源建設(shè)而言似乎是個(gè)偽命題,我們總能枚舉出知識(shí)庫中缺漏的知識(shí)。知識(shí)缺漏對(duì)于自動(dòng)化方法構(gòu)建的知識(shí)庫而言尤為嚴(yán)重。但是即便如此,構(gòu)建一個(gè)盡可能全的知識(shí)庫仍是任何一個(gè)知識(shí)工程的首要目標(biāo)。既然自動(dòng)化構(gòu)建無法做到完整,補(bǔ)全也就成為了提升知識(shí)庫質(zhì)量的重要手段。補(bǔ)全可以是基于預(yù)定義規(guī)則(比如一個(gè)人出生地是中國,我們可以推斷其國籍也可能是中國),也可以從外部互聯(lián)網(wǎng)文本數(shù)據(jù)進(jìn)行補(bǔ)充(比如很多百科圖譜沒有魯迅身高的信息,需要從互聯(lián)網(wǎng)文本尋找答案進(jìn)行補(bǔ)充)。
其次是糾錯(cuò)。自動(dòng)化知識(shí)獲取不可避免地會(huì)引入錯(cuò)誤,這就需要糾錯(cuò)。根據(jù)規(guī)則進(jìn)行糾錯(cuò)是基本手段,比如A的妻子是B,但B的老公是C,那么根據(jù)妻子和老公是互逆屬性,我們知道這對(duì)事實(shí)可能有錯(cuò)。知識(shí)圖譜的結(jié)構(gòu)也可以提供一定的信息幫助推斷錯(cuò)誤關(guān)聯(lián)。比如在由概念和實(shí)例構(gòu)成的Taxonomy中,理想情況下應(yīng)該是個(gè)有向無環(huán)圖,如果其中存在環(huán),那么有可能存在錯(cuò)誤關(guān)聯(lián)。
最后一個(gè)質(zhì)量控制的重要問題是知識(shí)更新。更新是一個(gè)具有重大研究?jī)r(jià)值,卻未得到充分研究的問題。很多領(lǐng)域都有一定的知識(shí)積累。但問題的關(guān)鍵在于這些知識(shí)無法實(shí)時(shí)更新。比如電商的商品知識(shí)圖譜,往往內(nèi)容陳舊,無法滿足用戶的實(shí)時(shí)消費(fèi)需求(比如“戰(zhàn)狼同款飾品”這類與熱點(diǎn)電影相關(guān)的消費(fèi)需求很難在現(xiàn)有知識(shí)庫中涵蓋)。
經(jīng)歷了上述步驟之后得到一個(gè)初步的知識(shí)圖譜。在實(shí)際應(yīng)用中會(huì)得到不少反饋,這些反饋?zhàn)鳛檩斎脒M(jìn)一步指導(dǎo)上述流程的完善,從而形成閉環(huán)。此外,除了上述自動(dòng)化構(gòu)建的閉環(huán)流程,還應(yīng)充分考慮人工的干預(yù)。人工補(bǔ)充很多時(shí)候是行之有效的方法。比如一旦發(fā)現(xiàn)部分知識(shí)缺漏或陳舊,可以通過特定的知識(shí)編輯工具實(shí)現(xiàn)知識(shí)的添加、編輯和修改。也可以利用眾包手段將很多知識(shí)獲取任務(wù)分發(fā)下去。如何利用眾包手段進(jìn)行大規(guī)模知識(shí)獲取,是個(gè)十分有意思的問題,涉及到知識(shí)貢獻(xiàn)的激勵(lì)機(jī)制,我前幾年有個(gè)題為《未來人機(jī)區(qū)分》的報(bào)告,專門討論如何利用知識(shí)問答形式的驗(yàn)證碼來做知識(shí)獲取,可以搜索此文獲取更多信息。
▌3.3 知識(shí)管理
知識(shí)圖譜的管理主要圖譜的存儲(chǔ)、檢索等問題。通常這些問題的解決需要數(shù)據(jù)庫系統(tǒng)的支撐,因而系統(tǒng)的選型也是知識(shí)圖譜管理的一個(gè)重要問題。這里主要討論能用于知識(shí)圖譜管理的數(shù)據(jù)庫系統(tǒng)選型以及知識(shí)圖譜查詢語言。知識(shí)圖譜存儲(chǔ)是個(gè)較為專業(yè)化的問題,此處不再深入討論。
知識(shí)圖譜管理系統(tǒng)的選型。知識(shí)圖譜本質(zhì)上在表達(dá)關(guān)聯(lián),天然地可以用圖加以建模,因而很多人想到用圖數(shù)據(jù)庫對(duì)領(lǐng)域知識(shí)圖譜加以存儲(chǔ)。圖數(shù)據(jù)庫的確是知識(shí)圖譜存儲(chǔ)選型的重要選擇,但是不是唯一選擇。傳統(tǒng)關(guān)系數(shù)據(jù)庫,近幾年充分發(fā)展的其他類型的NoSQL數(shù)據(jù)庫在很多場(chǎng)景下也是合理選擇。那么數(shù)據(jù)庫的選擇考慮的要素是什么呢?有兩類重要的選型要素:圖譜的規(guī)模以及操作復(fù)雜度。
從圖譜的規(guī)模角度來看,百萬、千萬的節(jié)點(diǎn)和關(guān)系規(guī)模(以及以下規(guī)模)的圖譜對(duì)于圖數(shù)據(jù)庫的需求并不強(qiáng)烈,圖數(shù)據(jù)庫的必要性在中等或者小規(guī)模知識(shí)圖譜上體現(xiàn)并不充分。但是如果圖譜規(guī)模在數(shù)億節(jié)點(diǎn)規(guī)模以上,圖數(shù)據(jù)庫就十分必要了。
從操作復(fù)雜性來看,圖譜上的操作越是復(fù)雜,圖數(shù)據(jù)庫的必要性越是明顯。圖譜上的全局計(jì)算(比如平均最短路徑的計(jì)算),圖譜上的復(fù)雜遍歷,圖譜上的復(fù)雜子圖查詢等等都涉及圖上的多步遍歷。圖上的多步遍歷操作如果是在關(guān)系數(shù)據(jù)庫上實(shí)現(xiàn)需要多個(gè)聯(lián)結(jié)(Join)操作。多個(gè)聯(lián)結(jié)操作的優(yōu)化一直以來是關(guān)系數(shù)據(jù)庫的難題。圖數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)時(shí)針對(duì)多步遍歷做了大量?jī)?yōu)化,能夠?qū)崿F(xiàn)高效圖遍歷操作。
除了上述因素之外,還應(yīng)該充分考慮系統(tǒng)的易用性、普及性與成熟度。總體而言圖數(shù)據(jù)庫還是發(fā)展中的技術(shù),對(duì)于復(fù)雜圖數(shù)據(jù)管理系統(tǒng)的優(yōu)化也是只有少部分專業(yè)人員才能從事的工作。在數(shù)據(jù)庫選型時(shí)需要充分考慮這些因素。我們實(shí)驗(yàn)室在實(shí)現(xiàn)CN-DBpedia(2000萬實(shí)體、2.2億關(guān)系)在線服務(wù)系統(tǒng)時(shí)先后采用了RelationalDB、Graph DB、MongoDB,最后出于綜合考慮選用的是MongoDB,已經(jīng)穩(wěn)定運(yùn)行了三年,累計(jì)提供10億多次API服務(wù)。
知識(shí)圖譜查詢語言。通常對(duì)于表達(dá)為RDF形式的知識(shí)圖譜,可以使用SPARQL查詢語言。SPARQL語言針對(duì)RDF數(shù)據(jù)定義了大量的算子,對(duì)于推理操作有著很好支撐,因而能夠適應(yīng)領(lǐng)域中的復(fù)雜查詢與復(fù)雜推理。從應(yīng)用角度來看,也可以將知識(shí)圖譜僅僅表達(dá)為無類型的三元組。對(duì)于這種輕量級(jí)的表示,關(guān)系數(shù)據(jù)庫與傳統(tǒng)NoSQL數(shù)據(jù)庫也是較好選擇。那么此時(shí),SQL語句就是比較好的選擇。SQL十分成熟,語法簡(jiǎn)單,用戶眾多且有著幾十年的成功應(yīng)用基礎(chǔ)。
很多領(lǐng)域圖譜上的查詢是相對(duì)簡(jiǎn)單的,以單步或者兩到三步遍歷居多。此時(shí),SQL完全能夠勝任。但是不排除有一些特定場(chǎng)景,特別是公共安全、風(fēng)控管理等領(lǐng)域,通常需要進(jìn)行復(fù)雜關(guān)聯(lián)分析,需要較長(zhǎng)路徑的遍歷,需要開展復(fù)雜子圖挖掘,此時(shí)SQL的表達(dá)能力就顯得相對(duì)較弱了。
四、知識(shí)圖譜的發(fā)展現(xiàn)狀及應(yīng)用
▌4.1知識(shí)圖譜的應(yīng)用
知識(shí)圖譜的應(yīng)用場(chǎng)景非常廣泛,除了通用應(yīng)用外,在金融、政府、醫(yī)療等領(lǐng)域也有特殊的應(yīng)用。
圖4. 知識(shí)圖譜的應(yīng)用
通用領(lǐng)域的應(yīng)用主要包括精準(zhǔn)分析、智能搜索、智能問答、智能推薦等。在精準(zhǔn)分析方面,當(dāng)認(rèn)識(shí)到王寶強(qiáng)和寶寶是指同一個(gè)人后,就可以合并“王寶強(qiáng)離婚”和“寶寶離婚”兩個(gè)事件,得到一個(gè)統(tǒng)一的熱點(diǎn)分析。
在智能搜索方面,通過知識(shí)圖譜建立起實(shí)體及其之間的關(guān)系,可提高搜索引擎的理解能力。例如建立代碼知識(shí)圖譜,自動(dòng)理解代碼的上下文信息,如建立起“quicksort”和“快速排序”、“QS”等的等價(jià)關(guān)系,以及“quick sort”是一種排序算法的isA關(guān)系等。這樣一來,當(dāng)用戶搜索“排序算法”時(shí),能把代碼中包含“quick sort”、“快速排序”的內(nèi)容都搜索出來。實(shí)現(xiàn)代碼的精準(zhǔn)、高效搜索。
在智能問答方面,系統(tǒng)降低了人機(jī)交互的門檻,非常適合成為互聯(lián)網(wǎng)的新入口。相較于傳統(tǒng)的用戶輸入問題,搜索引擎返回網(wǎng)頁的方式,智能問答系統(tǒng)可以直接通往答案。例如復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室推出的“不倒翁問答”,是一個(gè)基于知識(shí)圖譜和互聯(lián)網(wǎng)內(nèi)容作為答案來源的問答系統(tǒng),能回答各類事實(shí)型問題。系統(tǒng)接收自然語言問句作為輸入,通過深度學(xué)習(xí)的方法,從知識(shí)圖譜和互聯(lián)網(wǎng)中找到相應(yīng)的答案進(jìn)行解答。支持單知識(shí)問題、是否問題、比較問題、枚舉問題、常識(shí)問題以及多知識(shí)問題等。
在智能推薦方面,可基于知識(shí)圖譜構(gòu)建場(chǎng)景,提供基于場(chǎng)景的推薦。例如在電商領(lǐng)域,通過用戶已購產(chǎn)品推斷其購物場(chǎng)景,并推薦其他相關(guān)場(chǎng)景產(chǎn)品成為一個(gè)熱門需求。
金融領(lǐng)域的應(yīng)用主要包括風(fēng)險(xiǎn)控制和智能投顧等。在風(fēng)險(xiǎn)控制方面,通過構(gòu)建工商知識(shí)圖譜,可以將人、公司的信息用可視化的方式清晰的展示出來。一來可以用于人的特征的不一致性檢測(cè);二來可以進(jìn)行異常節(jié)點(diǎn)分析,如正常借貸人只用一個(gè)手機(jī)號(hào)在一個(gè)金融產(chǎn)品中進(jìn)行借貸,而異常借貸人會(huì)使用多個(gè)手機(jī)號(hào)在多個(gè)不同的金融產(chǎn)品中進(jìn)行借貸;三來很多欺詐團(tuán)伙組織會(huì)通過一系列的復(fù)雜操作來持有公司,利用知識(shí)圖譜的可視化可以發(fā)現(xiàn)其中的潛在風(fēng)險(xiǎn)。
在智能投顧方面,通過對(duì)金融數(shù)據(jù)進(jìn)行結(jié)構(gòu)化提取和智能化分析,根據(jù)客戶自身的理財(cái)需求,實(shí)現(xiàn)自動(dòng)理財(cái)顧問。
政府領(lǐng)域的應(yīng)用主要包括數(shù)據(jù)治理、司法智能輔助審判和智能情報(bào)研判等。在數(shù)據(jù)治理方面,可將所有政務(wù)公開數(shù)據(jù)進(jìn)行融合,構(gòu)建政務(wù)知識(shí)圖譜,為用戶提供統(tǒng)一的政務(wù)數(shù)據(jù)訪問服務(wù)。
在司法智能輔助審判方面,通過建立司法知識(shí)圖譜,建立了一套智能判案輔助機(jī)器人系統(tǒng)。為當(dāng)事人提供專業(yè)的案件咨詢,案件風(fēng)險(xiǎn)評(píng)估,法院服務(wù)和法律援助等。提高簡(jiǎn)單案件的審判效率,減少寶貴的司法資源的浪費(fèi)。
在智能情報(bào)研判方面,主要對(duì)公安情報(bào)數(shù)據(jù)進(jìn)行智能整合,將真實(shí)世界的海量異構(gòu)碎片化數(shù)據(jù)等價(jià)轉(zhuǎn)換為一張唯一的關(guān)系大網(wǎng),與真實(shí)世界的人事地物組織對(duì)象一一對(duì)應(yīng),類似于“公安大腦”。構(gòu)建完成后,每個(gè)民警都可以借助這個(gè)“公安大腦”來進(jìn)行情報(bào)分析,準(zhǔn)確做出判斷。
醫(yī)療領(lǐng)域的主要應(yīng)用包括智能輔助問診和導(dǎo)診和醫(yī)藥研發(fā)等。在智能輔助問診和導(dǎo)診方面,通過構(gòu)建醫(yī)療知識(shí)圖譜及相應(yīng)的虛擬助手,實(shí)現(xiàn)對(duì)患者進(jìn)行自動(dòng)問診并生成規(guī)范、詳細(xì)的門診電子病歷。同時(shí),根據(jù)患者的病歷,自動(dòng)對(duì)其進(jìn)行導(dǎo)診。
在醫(yī)藥研發(fā)方面,傳統(tǒng)藥物研發(fā)需要經(jīng)歷靶點(diǎn)篩選、藥物挖掘、臨床試驗(yàn)、藥物優(yōu)化等階段,耗時(shí)十分巨大。通過從海量醫(yī)學(xué)文獻(xiàn)、論文、專利、臨床試驗(yàn)信息等非結(jié)構(gòu)化數(shù)據(jù)中抽取出可用的信息,構(gòu)建生物知識(shí)圖譜,可加快醫(yī)藥的研發(fā)速度。
五、知識(shí)圖譜面臨的挑戰(zhàn)
知識(shí)圖譜技術(shù)的挑戰(zhàn)主要表現(xiàn)在知識(shí)表示、知識(shí)獲取和知識(shí)應(yīng)用等三個(gè)方面。
在知識(shí)表示層面,越來越多的領(lǐng)域應(yīng)用不僅僅需要關(guān)聯(lián)事實(shí)這種簡(jiǎn)單知識(shí)表示,還要表達(dá)包括邏輯規(guī)則、決策過程在內(nèi)的復(fù)雜知識(shí);需要同時(shí)表達(dá)靜態(tài)知識(shí)和動(dòng)態(tài)知識(shí)。單單知識(shí)圖譜已經(jīng)不足以解決領(lǐng)域的很多實(shí)際問題。如何去增強(qiáng)知識(shí)圖譜的語義表達(dá)能力,如何綜合使用多種知識(shí)表示來解決實(shí)際應(yīng)用中的復(fù)雜問題是非常重要的研究課題。
在知識(shí)獲取方面,領(lǐng)域知識(shí)圖譜一般樣本很小,如果需要構(gòu)建抽取模型,那就需要基于小樣本構(gòu)建有效的模型。目前基于小樣本的機(jī)器學(xué)習(xí)仍然面臨巨大挑戰(zhàn)。解決這一問題的思路之一就是利用知識(shí)引導(dǎo)機(jī)器學(xué)習(xí)模型的學(xué)習(xí)過程。具體實(shí)現(xiàn)手段已經(jīng)有不少團(tuán)隊(duì)在開展相關(guān)的探索工作,比如利用知識(shí)增強(qiáng)樣本、利用知識(shí)構(gòu)建目標(biāo)函數(shù)的正則項(xiàng)以及利用知識(shí)構(gòu)建優(yōu)化目標(biāo)的約束等等。總體而言,這仍然是個(gè)開放問題需要巨大的研究投入。
在知識(shí)的深度應(yīng)用方面。如何將領(lǐng)域知識(shí)圖譜有效應(yīng)用于各類應(yīng)用場(chǎng)景,特別是推薦、搜索、問答之外的應(yīng)用,包括解釋、推理、決策等方面的應(yīng)用仍然面臨巨大挑戰(zhàn),仍然存在很多開放性問題。
六、知識(shí)圖譜未來的發(fā)展趨勢(shì)
從2012年發(fā)展至今,知識(shí)圖譜技術(shù)發(fā)生了一系列的變革。從兩個(gè)方面來講,一方面是應(yīng)用場(chǎng)景,另一個(gè)方面就是技術(shù)生態(tài)。隨著應(yīng)用場(chǎng)景和技術(shù)生態(tài)的變化,整個(gè)知識(shí)圖譜面臨著全新的挑戰(zhàn),以前的技術(shù)手段在應(yīng)對(duì)現(xiàn)在智能化大潮給我們提出的挑戰(zhàn)的時(shí)候,已經(jīng)有些力不從心,所以我們要研發(fā)一些新技術(shù)。
從應(yīng)用的角度來講,知識(shí)圖譜的應(yīng)用趨勢(shì)越來越從通用領(lǐng)域走向行業(yè)領(lǐng)域,現(xiàn)在的局面是通用與行業(yè)應(yīng)用百花齊放,各行各業(yè)都在討論適合自己的知識(shí)圖譜。
今天展示給大家的是我們自己實(shí)驗(yàn)室的知識(shí)圖譜,在通用領(lǐng)域,我們實(shí)驗(yàn)室有CN-DBpedia,Probaseplus。CN-DBpedia是一種通用百科知識(shí)圖譜。通用知識(shí)庫在通用人工智能中扮演著重要的角色,是未來競(jìng)爭(zhēng)的戰(zhàn)略制高點(diǎn),即掌握了通用人工智能技術(shù),可以從一個(gè)戰(zhàn)略制高點(diǎn)向下俯沖,這樣收獲領(lǐng)域知識(shí)圖譜的成果是相對(duì)容易的。但是如果只具備領(lǐng)域人工智能的能力,未必可以掌握通用人工智能能力。
雖然領(lǐng)域/行業(yè)人工智能技術(shù)更容易落地,但是從戰(zhàn)略層面上來講,一定要對(duì)通用人工智能予以高度的關(guān)注。領(lǐng)域人工智能在很多領(lǐng)域已經(jīng)落地開花,但領(lǐng)域圖譜的應(yīng)用也不是簡(jiǎn)單的事,還具有很多挑戰(zhàn)性的研究問題,領(lǐng)域知識(shí)庫構(gòu)建的語料往往比較稀疏,比如在某個(gè)領(lǐng)域提到某個(gè)事實(shí),某類關(guān)系的樣本非常少,這個(gè)時(shí)候利用關(guān)系去構(gòu)建有效的抽取模型就會(huì)變的十分困難,在樣本稀疏的環(huán)境下去做領(lǐng)域知識(shí)圖譜的自動(dòng)化構(gòu)建仍然是件非常困難的事情。
第二個(gè)應(yīng)用場(chǎng)景發(fā)生變化是從搜索延伸至推薦、問答等復(fù)雜任務(wù)。舉個(gè)例子,用知識(shí)圖譜幫助搜索代碼,如果能利用知識(shí)圖譜理解搜索意圖,并返回準(zhǔn)確的代碼,這樣效率將大有提升。用戶搜索輸入關(guān)鍵字,機(jī)器給出答案,還可以為用戶做智能推薦。將來更智能的形式就是直接問答,我們實(shí)驗(yàn)室研發(fā)的“小Cui問答”就是這樣的問答系統(tǒng)。整個(gè)知識(shí)圖譜將來會(huì)在越來越復(fù)雜和多元的場(chǎng)景下發(fā)揮重要的作用。
再進(jìn)一步就是交互方式發(fā)生變化。以前的交互方式更多是基于關(guān)鍵字,現(xiàn)在越來越多的是自然語言的處理,對(duì)話式的處理,像GoogleNow,Apple Siri,Amazon Alexa等等,很多大公司都在研發(fā)自然語言交互的產(chǎn)品,這意味著自然語言交互成為未來人機(jī)交互的主流方式。對(duì)知識(shí)圖譜提出的挑戰(zhàn)就是,對(duì)自然語言的認(rèn)知到了一個(gè)新的高度,需要能夠利用知識(shí)圖譜幫助平臺(tái)和系統(tǒng)更好地理解問答,上下文對(duì)話等等。
進(jìn)而就是從用戶提的問題來看,呈現(xiàn)出從簡(jiǎn)單的陳述類問題到解釋類問題的變化趨勢(shì)。以前用戶喜歡問“what”、“who”、“when”、“where”這樣簡(jiǎn)單陳述性問題,現(xiàn)在越來越多的問“why”、“how”。用戶對(duì)系統(tǒng)智能性的期望越來越高,很多用戶在Google上問why類問題,但是很遺憾,Google還不能進(jìn)行回答,只能回答陳述類問題。隨著“why”、“how”問題越來越多,解釋就變的很重要,可解釋是未來人工智能發(fā)展的核心訴求之一,是人機(jī)互信的前提。
再進(jìn)一步就是,以前在實(shí)體之間找到一些簡(jiǎn)單關(guān)系就行了,比如王寶強(qiáng)的老婆是馬蓉,但現(xiàn)在不滿足于簡(jiǎn)單關(guān)系的揭示,而是希望能夠推理出一些深層關(guān)系,比如王寶強(qiáng)離婚案,為什么王寶強(qiáng)會(huì)請(qǐng)張起淮當(dāng)律師?王寶強(qiáng)和馮小剛是好朋友,馮小剛有個(gè)御用演員叫徐靜蕾,張起淮是徐靜蕾的法律顧問,所以王寶強(qiáng)會(huì)請(qǐng)張起淮當(dāng)律師,這個(gè)就是深層關(guān)系推理。隱式關(guān)系發(fā)現(xiàn)、深層關(guān)系推理將成為智能的主要體現(xiàn)之一。
再從技術(shù)生態(tài)的角度來看,人工智能也發(fā)生了很大的變化。從機(jī)器學(xué)習(xí)來看,雖然深度學(xué)習(xí)發(fā)展非常迅速,并且在樣本數(shù)據(jù)豐富的場(chǎng)景下取得了很好的效果,但是機(jī)器學(xué)習(xí)仍然存在很多問題,小樣本學(xué)習(xí)、無監(jiān)督學(xué)習(xí)手段有限,現(xiàn)有模型難以有效利用大量先驗(yàn)知識(shí)。再從自然語言處理角度來看,雖然自然語言處理在深度學(xué)習(xí)的推動(dòng)下取得了很大的進(jìn)展,但是自然語言處理離實(shí)際應(yīng)用需求還很遠(yuǎn),還只是在處理階段,遠(yuǎn)遠(yuǎn)談不上理解。從知識(shí)庫本身來看,英文圖譜積累迅速,發(fā)展得相當(dāng)成熟,并且在很多應(yīng)用中發(fā)揮了巨大的作用,但是其他語種的知識(shí)圖譜十分缺乏。
雖然現(xiàn)在知識(shí)圖譜很多,但是大部分都側(cè)重在簡(jiǎn)單事實(shí),對(duì)于常識(shí)的覆蓋仍然十分有限。很多知識(shí)圖譜都是依賴手工構(gòu)建的,如何從大規(guī)模數(shù)據(jù)里用數(shù)據(jù)挖掘的方法自動(dòng)挖掘出知識(shí)圖譜的手段仍然缺乏。
總體而言,知識(shí)圖譜技術(shù)的落地應(yīng)用前景是光明的,但是也需要充分意識(shí)到知識(shí)圖譜落地的巨大挑戰(zhàn)。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46845瀏覽量
237535 -
知識(shí)圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7693
原文標(biāo)題:肖仰華談知識(shí)圖譜:知識(shí)將比數(shù)據(jù)更重要,得知識(shí)者得天下
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論