日韩欧美国产专区_国产成人aa视频在线观看_久久久久无码视频_九九免费久久这里有精品23

CSDN 出品的《2018-2019 中國人工智能產(chǎn)業(yè)路線圖》V2.0 版即將重磅面世！

V1.0 版發(fā)布以來，我們有幸得到了諸多讀者朋友及行業(yè)專家的鼎力支持，在此表示由衷感謝。此次 V2.0 版路線圖將進(jìn)行新一輪大升級(jí)，內(nèi)容包括 3 大 AI 前沿產(chǎn)業(yè)趨勢(shì)分析，10 位 AI 特邀專家的深度技術(shù)分析，15 家一線互聯(lián)網(wǎng)企業(yè)的 AI 實(shí)力大巡展，以及 20 個(gè) AI 優(yōu)秀應(yīng)用案例，力求為讀者呈現(xiàn)更全面的中國人工智能產(chǎn)業(yè)發(fā)展概況和趨勢(shì)判斷。

V2.0 版將于 11 月 8 日舉辦的 2018 AI 開發(fā)者大會(huì)上正式發(fā)布，在此之前，我們將不間斷公布精要內(nèi)容，以饗讀者。此為 V2.0 版中深度技術(shù)分析系列稿件第 3 篇，作者為 CSDN 特邀 AI 專家——復(fù)旦大學(xué)教授肖仰華。

一、什么是知識(shí)圖譜

▌1.1 知識(shí)圖譜的定義

知識(shí)圖譜是什么？本質(zhì)上是一種大規(guī)模語義網(wǎng)絡(luò)。理解知識(shí)圖譜的概念，有兩個(gè)關(guān)鍵詞。

首先是語義網(wǎng)絡(luò)。語義網(wǎng)絡(luò)表達(dá)了各種各樣的實(shí)體、概念及其之間的各類語義關(guān)聯(lián)。

圖1. 知識(shí)圖譜示例

比如“C羅”是一個(gè)實(shí)體，“金球獎(jiǎng)”也是一個(gè)實(shí)體，他們倆之間有一個(gè)語義關(guān)系就是“獲得獎(jiǎng)項(xiàng)”。“運(yùn)動(dòng)員”、“足球運(yùn)動(dòng)員”都是概念，后者是前者的子類（對(duì)應(yīng)于圖中的subclassOf 關(guān)系）。

理解知識(shí)圖譜的第二個(gè)關(guān)鍵詞是“大規(guī)模”。語義網(wǎng)絡(luò)并非新鮮事物，早在上個(gè)世紀(jì)七八十年代知識(shí)工程盛行之時(shí)，就已存在。相比較于那個(gè)時(shí)代的語義網(wǎng)絡(luò)，知識(shí)圖譜規(guī)模更大。

從2012年Google提出知識(shí)圖譜直到今天，知識(shí)圖譜技術(shù)發(fā)展迅速，知識(shí)圖譜的內(nèi)涵遠(yuǎn)遠(yuǎn)超越了其作為語義網(wǎng)絡(luò)的狹義內(nèi)涵。當(dāng)下，在更多實(shí)際場(chǎng)合下，知識(shí)圖譜是作為一種技術(shù)體系，指代大數(shù)據(jù)時(shí)代知識(shí)工程的一系列代表性技術(shù)進(jìn)展的總和。去年我國學(xué)科目錄做了調(diào)整，首次出現(xiàn)了知識(shí)圖譜的學(xué)科方向，教育部對(duì)于知識(shí)圖譜這一學(xué)科的定位是“大規(guī)模知識(shí)工程”，這一定位是十分準(zhǔn)確且內(nèi)涵豐富的。這里需要指出的是知識(shí)圖譜技術(shù)的發(fā)展是個(gè)持續(xù)漸進(jìn)的過程。從上個(gè)世紀(jì)七八十年代的知識(shí)工程興盛開始，學(xué)術(shù)界和工業(yè)界推出了一系列知識(shí)庫，直到2012年Google推出了面向互聯(lián)網(wǎng)搜索的大規(guī)模的知識(shí)庫，被稱之為知識(shí)圖譜。

▌1.2與傳統(tǒng)知識(shí)表示的區(qū)別

理解今天的知識(shí)圖譜內(nèi)涵，是不能割裂其歷史臍帶的。上世紀(jì)七八十年代的各種知識(shí)表示與我們今天的知識(shí)圖譜到底有著本質(zhì)差別。傳統(tǒng)語義網(wǎng)絡(luò)與知識(shí)圖譜的差別首先表現(xiàn)在其規(guī)模上。

知識(shí)圖譜是一種大規(guī)模語義網(wǎng)絡(luò)，與上世紀(jì)七八十年代的各類語義網(wǎng)絡(luò)相比較，最顯著的差異就是規(guī)模差異。推而廣之，以知識(shí)圖譜為代表的大數(shù)據(jù)時(shí)代的各種知識(shí)表示與傳統(tǒng)的知識(shí)表示的根本差別首先體現(xiàn)在規(guī)模上。傳統(tǒng)知識(shí)工程一系列知識(shí)表示都是一種典型的“小知識(shí)”（smallknowledge）。

而到了大數(shù)據(jù)時(shí)代，受益于海量數(shù)據(jù)、強(qiáng)大計(jì)算能力以及群智計(jì)算，我們?nèi)缃衲軌蜃詣?dòng)化構(gòu)建、或者眾包構(gòu)建大規(guī)模、高質(zhì)量知識(shí)庫，形成所謂的“大知識(shí)”(bigknowledge，合肥工業(yè)大學(xué)的吳興東教授在很多場(chǎng)合下也提到類似觀點(diǎn))。所以知識(shí)圖譜與傳統(tǒng)知識(shí)表示在淺層次上的區(qū)別，就是大知識(shí)與小知識(shí)的差別，是在規(guī)模上的顯而易見的差別。

更深刻地進(jìn)行分析就會(huì)發(fā)現(xiàn)，這樣的一個(gè)知識(shí)規(guī)模上的量變帶來了知識(shí)效用的質(zhì)變。

知識(shí)工程到了上世紀(jì)八十年代之后就銷聲匿跡了。根本原因在于傳統(tǒng)知識(shí)庫構(gòu)建主要依靠人工構(gòu)建、代價(jià)高昂、規(guī)模有限。舉個(gè)例子，我國的詞林辭海是上萬名專家花了10多年編撰而成的，但是它只有十幾萬詞條。而現(xiàn)在任何一個(gè)互聯(lián)網(wǎng)上的知識(shí)圖譜，比如DBpedia，動(dòng)輒包含上千萬實(shí)體。人工構(gòu)建的知識(shí)庫雖然質(zhì)量精良，但是規(guī)模有限。有限的規(guī)模使得傳統(tǒng)知識(shí)表示難以適應(yīng)互聯(lián)網(wǎng)時(shí)代的大規(guī)模開放應(yīng)用的需求。

互聯(lián)網(wǎng)應(yīng)用的特點(diǎn)在于：

一、規(guī)模巨大，我們永遠(yuǎn)不知道用戶下一個(gè)搜索關(guān)鍵詞是什么；

二、精度要求相對(duì)不高，搜索引擎從來不需要保證每個(gè)搜索的理解和檢索都是正確的；

三、簡(jiǎn)單知識(shí)推理，大部分搜索理解與回答只需要實(shí)現(xiàn)簡(jiǎn)單的推理，比如搜索劉德華推薦歌曲，是因?yàn)橹绖⒌氯A是歌星，至于“姚明老婆的婆婆的兒子有多高”這類的復(fù)雜推理在實(shí)際應(yīng)用中所占比率是不高的。

互聯(lián)網(wǎng)上的這種大規(guī)模開放應(yīng)用所需要的知識(shí)很容易突破傳統(tǒng)專家系統(tǒng)由專家預(yù)設(shè)好的知識(shí)庫的知識(shí)邊界。這一定程度上回答了，為何谷歌在2012年這個(gè)時(shí)間節(jié)點(diǎn)推出知識(shí)圖譜，利用一個(gè)全新名稱以表達(dá)與傳統(tǒng)知識(shí)表示毅然決裂的態(tài)度。

二、知識(shí)圖譜的重要性

知識(shí)圖譜是實(shí)現(xiàn)機(jī)器認(rèn)知智能的基礎(chǔ)。機(jī)器認(rèn)知智能的兩個(gè)核心能力：“理解”和“解釋”，均與知識(shí)圖譜有著密切關(guān)系。首先需要給機(jī)器“理解與解釋”提出一種解釋。我認(rèn)為機(jī)器理解數(shù)據(jù)的本質(zhì)是建立起從數(shù)據(jù)到知識(shí)庫中的知識(shí)要素（包括實(shí)體、概念和關(guān)系）映射的一個(gè)過程。

比如如果我說到“2013年的金球獎(jiǎng)得主C羅”這句話，我們之所以說自己理解了這句話，是因?yàn)槲覀儼选癈羅”這個(gè)詞匯關(guān)聯(lián)到我們腦子中的實(shí)體“C羅”，把“金球獎(jiǎng)”這個(gè)詞匯映射到我們腦中的實(shí)體“金球獎(jiǎng)”，然后把“得主”一詞映射到邊“獲得獎(jiǎng)項(xiàng)”這個(gè)關(guān)系。我們可以仔細(xì)體會(huì)一下我們的文本理解過程，其本質(zhì)是建立從數(shù)據(jù)（包括文本、圖片、語音、視頻等）到知識(shí)庫中的實(shí)體、概念、屬性映射的過程。

再來看人類是如何“解釋”的。比如我問“C羅為什么那么牛？”，可以通過知識(shí)庫中的“C羅獲得獎(jiǎng)項(xiàng)金球獎(jiǎng)”以及“金球獎(jiǎng)地位影響力最大的足球獎(jiǎng)項(xiàng)之一”這兩條關(guān)系來解釋這一問題。

這一過程的本質(zhì)就是將知識(shí)庫中的知識(shí)與問題或者數(shù)據(jù)加以關(guān)聯(lián)的過程。有了知識(shí)圖譜，機(jī)器完全可以重現(xiàn)我們的這種理解與解釋過程。有過一定計(jì)算機(jī)研究基礎(chǔ)的，是不難完成上述過程的數(shù)學(xué)建模的。知識(shí)圖譜對(duì)于機(jī)器認(rèn)知智能的重要性也體現(xiàn)在下面幾個(gè)具體方面。

▌2.1 知識(shí)圖譜使能機(jī)器語言認(rèn)知

知識(shí)圖譜對(duì)機(jī)器認(rèn)知智能的必要性還可以從若干具體問題來進(jìn)行闡述。首先，我們來看機(jī)器認(rèn)知的核心能力之一：自然語言理解。

我的觀點(diǎn)是機(jī)器理解自然語言需要類似知識(shí)圖譜這樣的背景知識(shí)。自然語言是異常復(fù)雜的：自然語言有歧義性、多樣性，語義理解有模糊性且依賴上下文。機(jī)器理解自然語言困難的根本原因在于，人類語言理解是建立在人類的認(rèn)知能力基礎(chǔ)之上的，人類的認(rèn)知體驗(yàn)所形成的背景知識(shí)是支撐人類語言理解的根本支柱。

我們?nèi)祟惐舜酥g的語言理解就好比是根據(jù)冰山上浮出水面的一角來揣測(cè)冰山下的部分。我們之所以能夠很自然地理解彼此的語言，是因?yàn)楸舜斯蚕眍愃频纳铙w驗(yàn)、類似的教育背景，從而有著類似的背景知識(shí)。冰山下龐大的背景知識(shí)使得我們可以彼此理解水面上有限的幾個(gè)字符。我們可以做個(gè)簡(jiǎn)單的思想實(shí)驗(yàn)，假如現(xiàn)在有個(gè)外星人坐在這里聽我講報(bào)告，他能聽懂么？我想還是很困難的，因?yàn)樗麤]有在地球上生活的經(jīng)歷，沒有與我相類似的教育背景，沒有與我類似的背景知識(shí)庫。

再舉個(gè)很多人都有體會(huì)的例子，我們?nèi)⒓訃H會(huì)議時(shí)，經(jīng)常遇到一個(gè)尷尬的局面，就是西方學(xué)者說的笑話，我們東方人很難產(chǎn)生共鳴。因?yàn)槲覀兒退麄兊谋尘爸R(shí)庫不同，我們?cè)绮统詿灐⒂蜅l，西方吃咖啡、面包，不同的背景知識(shí)決定了我們對(duì)幽默有著不同的理解。所以語言理解需要背景知識(shí)，沒有強(qiáng)大的背景知識(shí)支撐，是不可能理解語言的。要讓機(jī)器理解我們?nèi)祟惖恼Z言，機(jī)器必需共享與我們類似的背景知識(shí)。

實(shí)現(xiàn)機(jī)器自然語言理解所需要的背景知識(shí)是有著苛刻的條件的：規(guī)模足夠大、語義關(guān)系足夠豐富、結(jié)構(gòu)足夠友好、質(zhì)量足夠精良。

以這四個(gè)條件去看知識(shí)表示就會(huì)發(fā)現(xiàn)，只有知識(shí)圖譜是滿足所有這些條件的：知識(shí)圖譜規(guī)模巨大，動(dòng)輒包含數(shù)十億實(shí)體；關(guān)系多樣，比如在線百科圖譜DBpedia包含數(shù)千種常見語義關(guān)系；結(jié)構(gòu)友好，通常表達(dá)為RDF三元組，這是一種對(duì)于機(jī)器而言能夠有效處理的結(jié)構(gòu)；質(zhì)量也很精良，因?yàn)橹R(shí)圖譜可以充分利用大數(shù)據(jù)的多源特性進(jìn)行交叉驗(yàn)證，也可利用眾包保證知識(shí)庫質(zhì)量。所以知識(shí)圖譜成為了讓機(jī)器理解自然語言所需的背景知識(shí)的不二選擇。

▌2.3 知識(shí)圖譜使能可解釋人工智能

知識(shí)圖譜對(duì)于認(rèn)知智能的另一個(gè)重要意義在于：知識(shí)圖譜讓可解釋人工智能成為可能。

“解釋”這件事情一定是跟符號(hào)化知識(shí)圖譜密切相關(guān)的。因?yàn)榻忉尩膶?duì)象是人，人只能理解符號(hào)，沒辦法理解數(shù)值，所以一定要利用符號(hào)知識(shí)開展可解釋人工智能的研究。可解釋性是不能回避符號(hào)知識(shí)的。

我們先來看幾個(gè)解釋的具體例子。比如，我若問鯊魚為什么可怕？你可能解釋說：因?yàn)轷忯~是食肉動(dòng)物，這實(shí)質(zhì)上是用概念在解釋。若問鳥為什么能飛翔？你可能會(huì)解釋因?yàn)樗谐岚颉＿@是用屬性在解釋。若問鹿晗關(guān)曉彤前些日子為什么會(huì)刷屏？你可能會(huì)解釋說因?yàn)殛P(guān)曉彤是鹿晗的女朋友。這是用關(guān)系在解釋。我們?nèi)祟悆A向于利用概念、屬性、關(guān)系這些認(rèn)知的基本元素去解釋現(xiàn)象，解釋事實(shí)。而對(duì)于機(jī)器而言，概念、屬性和關(guān)系都表達(dá)在知識(shí)圖譜里面。因此，解釋離不開知識(shí)圖譜。

▌2.4 知識(shí)引導(dǎo)將成為解決問題的主要方式

知識(shí)圖譜的另一個(gè)重要作用體現(xiàn)在知識(shí)引導(dǎo)將成為解決問題的主要方式。前面已經(jīng)多次提及用戶對(duì)使用統(tǒng)計(jì)模型來解決問題的效果越來越不滿意了，統(tǒng)計(jì)模型的效果已經(jīng)接近“天花板”，要想突破這個(gè)“天花板”，需要知識(shí)引導(dǎo)。

舉個(gè)例子，實(shí)體指代這樣的文本處理難題，沒有知識(shí)單純依賴數(shù)據(jù)是難以取得理想效果的。比如“張三把李四打了，他進(jìn)醫(yī)院了”和“張三把李四打了，他進(jìn)監(jiān)獄了”，人類很容易確定這兩個(gè)不同的“他”的分別指代。因?yàn)槿祟愑兄R(shí)，有關(guān)于打人這個(gè)場(chǎng)景的基本知識(shí)，知道打人的往往要進(jìn)監(jiān)獄，而被打的往往會(huì)進(jìn)醫(yī)院。但是當(dāng)前機(jī)器缺乏這些知識(shí)，所以無法準(zhǔn)確識(shí)別代詞的準(zhǔn)確指代。很多任務(wù)是純粹的基于數(shù)據(jù)驅(qū)動(dòng)的模型所解決不了的，知識(shí)在很多任務(wù)里不可或缺。比較務(wù)實(shí)的做法是將這兩類方法深度融合。

▌2.5 知識(shí)將顯著增加機(jī)器學(xué)習(xí)能力

知識(shí)對(duì)于認(rèn)知智能又一個(gè)很重要的意義就是將顯著增強(qiáng)機(jī)器學(xué)習(xí)的能力。

當(dāng)前的機(jī)器學(xué)習(xí)是一種典型的“機(jī)械式”學(xué)習(xí)方式，與人類的學(xué)習(xí)方式相比顯得比較笨拙。我們的孩童只需要父母告知一兩次：這是貓，那是狗，就能有效識(shí)別或者區(qū)分貓狗。而機(jī)器卻需要數(shù)以萬計(jì)的樣本才能習(xí)得貓狗的特征。

我們中國人學(xué)習(xí)英語，雖然也要若干年才能小有所成，但相機(jī)器對(duì)于語言的學(xué)習(xí)而言要高效的多。機(jī)器學(xué)習(xí)模型落地應(yīng)用中的一個(gè)常見問題是與專家知識(shí)或判斷不符合，這使我們很快陷入進(jìn)退兩難的境地：是相信學(xué)習(xí)模型還是果斷棄之？機(jī)器學(xué)習(xí)與人類學(xué)習(xí)的根本差異可以歸結(jié)為人是有知識(shí)的且能夠有效利用知識(shí)的物種。

我相信，未來機(jī)器學(xué)習(xí)能力的顯著增強(qiáng)也要走上充分利用知識(shí)的道路。符號(hào)知識(shí)對(duì)于機(jī)器學(xué)習(xí)模型的重要作用會(huì)受到越來越多的關(guān)注。這一趨勢(shì)還可以從機(jī)器智能解決問題的兩個(gè)基本模式方面加以論述。

機(jī)器智能的實(shí)現(xiàn)路徑之一是習(xí)得數(shù)據(jù)中的統(tǒng)計(jì)模式，以解決一系列實(shí)際任務(wù)。另一種是專家系統(tǒng)，專家將知識(shí)賦予機(jī)器構(gòu)建專家系統(tǒng)，讓機(jī)器利用專家知識(shí)解決實(shí)際問題。如今，這兩種方法有合流的趨勢(shì)，無論是專家知識(shí)還是通過學(xué)習(xí)模型習(xí)得的知識(shí)，都將顯式地表達(dá)并且沉淀到知識(shí)庫中。再利用知識(shí)增強(qiáng)的機(jī)器學(xué)習(xí)模型解決實(shí)際問題。這種知識(shí)增強(qiáng)下的學(xué)習(xí)模型，可以顯著降低機(jī)器學(xué)習(xí)模型對(duì)于大樣本的依賴，提高學(xué)習(xí)的經(jīng)濟(jì)性；提高機(jī)器學(xué)習(xí)模型對(duì)先驗(yàn)知識(shí)的利用率；提升機(jī)器學(xué)習(xí)模型的決策結(jié)果與先驗(yàn)知識(shí)的一致性。

因此，知識(shí)將成為比數(shù)據(jù)更為重要的資產(chǎn)。前幾年大數(shù)據(jù)時(shí)代到來的時(shí)候，大家都說“得數(shù)據(jù)者得天下”。去年，微軟的沈向洋博士曾經(jīng)說過“懂語言者得天下”。而我曾經(jīng)論述過，機(jī)器要懂語言，背景知識(shí)不可或缺。因此，在這個(gè)意義下，將是“得知識(shí)者得天下”。如果說數(shù)據(jù)是石油，那么知識(shí)就好比是石油的萃取物。如果我們只滿足賣數(shù)據(jù)盈利，那就好比是直接輸出石油在盈利。但是石油的真正價(jià)值蘊(yùn)含于其深加工的萃取物中。石油萃取的過程與知識(shí)加工的過程也極為相像。都有著復(fù)雜流程，都是大規(guī)模系統(tǒng)工程。知識(shí)工程的鼻祖，費(fèi)根鮑姆曾經(jīng)說過的一句話“knowledge is the power inAI”。

三、知識(shí)圖譜的生命周期

圖2. 知識(shí)圖譜的生命周期

知識(shí)圖譜系統(tǒng)的生命周期包含四個(gè)重要環(huán)節(jié)：知識(shí)表示、知識(shí)獲取、知識(shí)管理與知識(shí)應(yīng)用。這四個(gè)環(huán)節(jié)循環(huán)迭代。

知識(shí)應(yīng)用環(huán)節(jié)明確應(yīng)用場(chǎng)景，明確知識(shí)的應(yīng)用方式。

知識(shí)表示定義了領(lǐng)域的基本認(rèn)知框架，明確領(lǐng)域有哪些基本的概念，概念之間有哪些基本的語義關(guān)聯(lián)。比如企業(yè)家與企業(yè)之間的關(guān)系可以是創(chuàng)始人關(guān)系，這是認(rèn)知企業(yè)領(lǐng)域的基本知識(shí)。知識(shí)表示只提供機(jī)器認(rèn)知的基本骨架，還要通過知識(shí)獲取環(huán)節(jié)來充實(shí)大量知識(shí)實(shí)例。比如喬布斯是個(gè)企業(yè)家，蘋果公司是家企業(yè)，喬布斯與蘋果公司就是“企業(yè)家-創(chuàng)始人-企業(yè)”這個(gè)關(guān)系的一個(gè)具體實(shí)例。

知識(shí)實(shí)例獲取完成之后，就是知識(shí)管理。這個(gè)環(huán)節(jié)將知識(shí)加以存儲(chǔ)與索引，并為上層應(yīng)用提供高效的檢索與查詢方式，實(shí)現(xiàn)高效的知識(shí)訪問。

四個(gè)環(huán)節(jié)環(huán)環(huán)相扣，彼此構(gòu)成相鄰環(huán)節(jié)的輸入與輸出。在知識(shí)的具體應(yīng)用過程中，會(huì)不斷得到用戶的反饋，這些反饋會(huì)對(duì)知識(shí)表示、獲取與管理提出新的要求，因此整個(gè)生命周期會(huì)不斷迭代持續(xù)演進(jìn)下去。

▌3.1 知識(shí)表示

在知識(shí)表示方面，常用三元組（主語、謂詞、賓語）表示知識(shí)圖譜。如三元組<七里香，歌曲原唱，周杰倫>表示“七里香這首歌曲的原唱是周杰倫”這一知識(shí)。需要強(qiáng)調(diào)一點(diǎn)，知識(shí)圖譜只能表達(dá)一些簡(jiǎn)單的關(guān)聯(lián)事實(shí)，但很多領(lǐng)域應(yīng)用的需求已經(jīng)遠(yuǎn)遠(yuǎn)超出了三元組所能表達(dá)的簡(jiǎn)單關(guān)聯(lián)事實(shí)，實(shí)際應(yīng)用日益對(duì)于利用更加多元的知識(shí)表示豐富和增強(qiáng)知識(shí)圖譜的語義表達(dá)能力提出了需求。

這一趨勢(shì)首先體現(xiàn)在對(duì)于時(shí)間和空間語義的拓展與表達(dá)方面。

有很多知識(shí)和事實(shí)是有時(shí)間和空間條件的，比如說“美國總統(tǒng)是特朗普”這個(gè)事實(shí)的成立是有時(shí)間條件的，十年前美國的總統(tǒng)不是特朗普，十年之后應(yīng)該也不大可能是特朗普。還有很多事實(shí)是有空間條件的，比如“早餐是燒餅與油條”這件事，在中國是這樣，但是在西方并非如此，西方的早餐可能是咖啡、面包。

從時(shí)空維度拓展知識(shí)表示對(duì)很多特定領(lǐng)域具有較強(qiáng)的現(xiàn)實(shí)意義。比如在位置相關(guān)的應(yīng)用中，如何將POI(Point of Interest)與該P(yáng)OI相關(guān)實(shí)體加以關(guān)聯(lián)，成為當(dāng)下拓展POI語義表示的重要任務(wù)之一。比如將“邯鄲路220號(hào)”（復(fù)旦大學(xué)地址）關(guān)聯(lián)到“復(fù)旦大學(xué)”是十分有意義的。在互聯(lián)網(wǎng)娛樂領(lǐng)域，粉絲們往往不僅僅關(guān)心某個(gè)明星的妻子是誰，可能更關(guān)心明星的前任妻子、前任女友等信息，這些應(yīng)用都對(duì)事實(shí)成立的時(shí)間提出了需求。

第二、增強(qiáng)知識(shí)圖譜的跨媒體語義表示。

當(dāng)前的知識(shí)圖譜主要以文本為主，但是實(shí)際應(yīng)用需要有關(guān)某個(gè)實(shí)體的各種媒體表示方式，包括聲音、圖片、視頻等等。比如對(duì)于實(shí)體“Tesla Model S”，我們需要將其關(guān)聯(lián)到相應(yīng)圖片和視頻。知識(shí)圖譜時(shí)空維度拓展在物理實(shí)現(xiàn)上可以通過定義四元組或者五元組加以實(shí)現(xiàn)。跨媒體表示可以通過定義相關(guān)的屬性加以實(shí)現(xiàn)。知識(shí)圖譜的語義增強(qiáng)總體上而言將是未來一段時(shí)間知識(shí)表示的重要任務(wù)。知識(shí)圖譜作為語義網(wǎng)絡(luò)，側(cè)重于表達(dá)實(shí)體、概念之間的語義關(guān)聯(lián)，還難以表達(dá)復(fù)雜因果關(guān)聯(lián)與復(fù)雜決策過程。

如何利用傳統(tǒng)知識(shí)表示增強(qiáng)知識(shí)圖譜，或者說如何融合知識(shí)圖譜與傳統(tǒng)知識(shí)表示，更充分地滿足實(shí)際應(yīng)用需求，是知識(shí)圖譜領(lǐng)域值得研究的問題之一。在一些實(shí)際應(yīng)用中，研究人員已經(jīng)開始嘗試各種定制的知識(shí)表示，在知識(shí)圖譜基礎(chǔ)上適當(dāng)擴(kuò)展其他知識(shí)表示是一個(gè)值得嘗試的思路。

▌3.2 知識(shí)獲取

圖3.知識(shí)獲取的基本步驟

知識(shí)的獲取是個(gè)系統(tǒng)工程，流程復(fù)雜，內(nèi)涵豐富，涉及到知識(shí)表示、自然語言處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、眾包等一系列技術(shù)。知識(shí)獲取的基本步驟如圖3所示：

第一步是模式（Schema）設(shè)計(jì)。這一步是傳統(tǒng)本體設(shè)計(jì)所要解決的問題。基本目標(biāo)是把認(rèn)知領(lǐng)域的基本框架賦予機(jī)器。在所謂認(rèn)知基本框架中需要指定領(lǐng)域的基本概念，以及概念之間subclassof關(guān)系（比如足球領(lǐng)域需要建立“足球運(yùn)動(dòng)員”是“運(yùn)動(dòng)員”的子類）；需要明確領(lǐng)域的基本屬性；明確屬性的適用概念；明確屬性值的類別或者范圍。比如“效力球隊(duì)”這個(gè)屬性一般是定義在足球運(yùn)動(dòng)員這個(gè)概念上，其合理取值是一個(gè)球隊(duì)。

此外，領(lǐng)域還有大量的約束或規(guī)則，比如對(duì)于屬性是否可以取得多值的約束（比如“獎(jiǎng)項(xiàng)”作為屬性是可以取得多值的），再比如球隊(duì)的“隸屬球員”屬性與球員的“效力球隊(duì)”是一對(duì)互逆屬性。這些元數(shù)據(jù)對(duì)于消除知識(shí)庫不一致、提升知識(shí)庫質(zhì)量具有重要意義。

第二步是明確數(shù)據(jù)來源。在這一步要明確建立領(lǐng)域知識(shí)圖譜的數(shù)據(jù)來源。可能來自互聯(lián)網(wǎng)上的領(lǐng)域百科爬取，可能來自通用百科圖譜的導(dǎo)出，可能來自內(nèi)部業(yè)務(wù)數(shù)據(jù)的轉(zhuǎn)換，可能來自外部業(yè)務(wù)系統(tǒng)的導(dǎo)入。應(yīng)該盡量選擇結(jié)構(gòu)化程度相對(duì)較高、質(zhì)量較好的數(shù)據(jù)源，以盡可能降低知識(shí)獲取代價(jià)。

第三步是詞匯挖掘。人們從事某個(gè)行業(yè)的知識(shí)的學(xué)習(xí)，都是從該行業(yè)的基本詞匯開始的。在傳統(tǒng)圖書情報(bào)學(xué)領(lǐng)域，領(lǐng)域知識(shí)的積累往往是從敘詞表的構(gòu)建開始的。敘詞表里涵蓋的大都是領(lǐng)域的主題詞，及這些詞匯之間的基本語義關(guān)聯(lián)。在這一步我們是要識(shí)別領(lǐng)域的高質(zhì)量詞匯、同義詞、縮寫詞，以及領(lǐng)域的常見情感詞。比如在政治領(lǐng)域，我們需要知道特朗普又被稱為川普，其英文簡(jiǎn)稱為Trump。

第四步是領(lǐng)域?qū)嶓w發(fā)現(xiàn)（或挖掘）。需要指出的是領(lǐng)域詞匯只是識(shí)別出領(lǐng)域中的重要短語和詞匯。但是這些短語未必是一個(gè)領(lǐng)域?qū)嶓w。從領(lǐng)域文本識(shí)別某個(gè)領(lǐng)域常見實(shí)體是理解領(lǐng)域文本和數(shù)據(jù)的關(guān)鍵一步。在實(shí)體識(shí)別后，還需對(duì)實(shí)體進(jìn)行實(shí)體歸類。能否把實(shí)體歸到相應(yīng)的類別（或者說將某個(gè)實(shí)體與領(lǐng)域類別或概念進(jìn)行關(guān)聯(lián)），是實(shí)體概念化的基本目標(biāo)，是理解實(shí)體的關(guān)鍵步驟。比如將特朗普歸類到政治人物、美國總統(tǒng)等類別，對(duì)于理解特朗普的含義具有重要意義。實(shí)體挖掘的另一個(gè)重要任務(wù)是實(shí)體鏈接，也就是將文本里的實(shí)體提及（Mention）鏈接到知識(shí)庫中的相應(yīng)實(shí)體。實(shí)體鏈接是拓展實(shí)體理解，豐富實(shí)體語義表示的關(guān)鍵步驟。

第五步是關(guān)系發(fā)現(xiàn)。關(guān)系發(fā)現(xiàn)，或者知識(shí)庫中的關(guān)系實(shí)例填充，是整個(gè)領(lǐng)域知識(shí)圖譜構(gòu)建的重要步驟。關(guān)系發(fā)現(xiàn)根據(jù)不同的問題模型又可以分為關(guān)系分類、關(guān)系抽取和開放關(guān)系抽取等不同變種。關(guān)系分類旨在將給定的實(shí)體對(duì)分類到某個(gè)已知關(guān)系；關(guān)系抽取旨在從文本中抽取某個(gè)實(shí)體對(duì)的具體關(guān)系；開放關(guān)系抽取（OpenIE）從文本中抽取出實(shí)體對(duì)之間的關(guān)系描述。也可以綜合使用這幾種模型與方法，比如根據(jù)開放關(guān)系抽取得到的關(guān)系描述將實(shí)體對(duì)分類到知識(shí)庫中的已知關(guān)系。

第六步是知識(shí)融合。因?yàn)橹R(shí)抽取來源多樣，不同的來源得到的知識(shí)不盡相同，這就對(duì)知識(shí)融合提出了需求。知識(shí)融合需要完成實(shí)體對(duì)齊、屬性融合、值規(guī)范化。實(shí)體對(duì)齊是識(shí)別不同來源的同一實(shí)體。屬性融合是識(shí)別同一屬性的不同描述。不同來源的數(shù)據(jù)值通常有不同的格式、不同的單位或者不同的描述形式。比如日期有數(shù)十種表達(dá)方式，這些需要規(guī)范化到統(tǒng)一格式。

最后一步是質(zhì)量控制。知識(shí)圖譜的質(zhì)量是構(gòu)建的核心問題。知識(shí)圖譜的質(zhì)量可能存在幾個(gè)基本問題：缺漏、錯(cuò)誤、陳舊。

先談知識(shí)庫的缺漏問題。某種意義上，知識(shí)完備對(duì)于知識(shí)資源建設(shè)而言似乎是個(gè)偽命題，我們總能枚舉出知識(shí)庫中缺漏的知識(shí)。知識(shí)缺漏對(duì)于自動(dòng)化方法構(gòu)建的知識(shí)庫而言尤為嚴(yán)重。但是即便如此，構(gòu)建一個(gè)盡可能全的知識(shí)庫仍是任何一個(gè)知識(shí)工程的首要目標(biāo)。既然自動(dòng)化構(gòu)建無法做到完整，補(bǔ)全也就成為了提升知識(shí)庫質(zhì)量的重要手段。補(bǔ)全可以是基于預(yù)定義規(guī)則（比如一個(gè)人出生地是中國，我們可以推斷其國籍也可能是中國），也可以從外部互聯(lián)網(wǎng)文本數(shù)據(jù)進(jìn)行補(bǔ)充（比如很多百科圖譜沒有魯迅身高的信息，需要從互聯(lián)網(wǎng)文本尋找答案進(jìn)行補(bǔ)充）。

其次是糾錯(cuò)。自動(dòng)化知識(shí)獲取不可避免地會(huì)引入錯(cuò)誤，這就需要糾錯(cuò)。根據(jù)規(guī)則進(jìn)行糾錯(cuò)是基本手段，比如A的妻子是B，但B的老公是C，那么根據(jù)妻子和老公是互逆屬性，我們知道這對(duì)事實(shí)可能有錯(cuò)。知識(shí)圖譜的結(jié)構(gòu)也可以提供一定的信息幫助推斷錯(cuò)誤關(guān)聯(lián)。比如在由概念和實(shí)例構(gòu)成的Taxonomy中，理想情況下應(yīng)該是個(gè)有向無環(huán)圖，如果其中存在環(huán)，那么有可能存在錯(cuò)誤關(guān)聯(lián)。

最后一個(gè)質(zhì)量控制的重要問題是知識(shí)更新。更新是一個(gè)具有重大研究?jī)r(jià)值，卻未得到充分研究的問題。很多領(lǐng)域都有一定的知識(shí)積累。但問題的關(guān)鍵在于這些知識(shí)無法實(shí)時(shí)更新。比如電商的商品知識(shí)圖譜，往往內(nèi)容陳舊，無法滿足用戶的實(shí)時(shí)消費(fèi)需求（比如“戰(zhàn)狼同款飾品”這類與熱點(diǎn)電影相關(guān)的消費(fèi)需求很難在現(xiàn)有知識(shí)庫中涵蓋）。

經(jīng)歷了上述步驟之后得到一個(gè)初步的知識(shí)圖譜。在實(shí)際應(yīng)用中會(huì)得到不少反饋，這些反饋?zhàn)鳛檩斎脒M(jìn)一步指導(dǎo)上述流程的完善，從而形成閉環(huán)。此外，除了上述自動(dòng)化構(gòu)建的閉環(huán)流程，還應(yīng)充分考慮人工的干預(yù)。人工補(bǔ)充很多時(shí)候是行之有效的方法。比如一旦發(fā)現(xiàn)部分知識(shí)缺漏或陳舊，可以通過特定的知識(shí)編輯工具實(shí)現(xiàn)知識(shí)的添加、編輯和修改。也可以利用眾包手段將很多知識(shí)獲取任務(wù)分發(fā)下去。如何利用眾包手段進(jìn)行大規(guī)模知識(shí)獲取，是個(gè)十分有意思的問題，涉及到知識(shí)貢獻(xiàn)的激勵(lì)機(jī)制，我前幾年有個(gè)題為《未來人機(jī)區(qū)分》的報(bào)告，專門討論如何利用知識(shí)問答形式的驗(yàn)證碼來做知識(shí)獲取，可以搜索此文獲取更多信息。

▌3.3 知識(shí)管理

知識(shí)圖譜的管理主要圖譜的存儲(chǔ)、檢索等問題。通常這些問題的解決需要數(shù)據(jù)庫系統(tǒng)的支撐，因而系統(tǒng)的選型也是知識(shí)圖譜管理的一個(gè)重要問題。這里主要討論能用于知識(shí)圖譜管理的數(shù)據(jù)庫系統(tǒng)選型以及知識(shí)圖譜查詢語言。知識(shí)圖譜存儲(chǔ)是個(gè)較為專業(yè)化的問題，此處不再深入討論。

知識(shí)圖譜管理系統(tǒng)的選型。知識(shí)圖譜本質(zhì)上在表達(dá)關(guān)聯(lián)，天然地可以用圖加以建模，因而很多人想到用圖數(shù)據(jù)庫對(duì)領(lǐng)域知識(shí)圖譜加以存儲(chǔ)。圖數(shù)據(jù)庫的確是知識(shí)圖譜存儲(chǔ)選型的重要選擇，但是不是唯一選擇。傳統(tǒng)關(guān)系數(shù)據(jù)庫，近幾年充分發(fā)展的其他類型的NoSQL數(shù)據(jù)庫在很多場(chǎng)景下也是合理選擇。那么數(shù)據(jù)庫的選擇考慮的要素是什么呢？有兩類重要的選型要素：圖譜的規(guī)模以及操作復(fù)雜度。

從圖譜的規(guī)模角度來看，百萬、千萬的節(jié)點(diǎn)和關(guān)系規(guī)模（以及以下規(guī)模）的圖譜對(duì)于圖數(shù)據(jù)庫的需求并不強(qiáng)烈，圖數(shù)據(jù)庫的必要性在中等或者小規(guī)模知識(shí)圖譜上體現(xiàn)并不充分。但是如果圖譜規(guī)模在數(shù)億節(jié)點(diǎn)規(guī)模以上，圖數(shù)據(jù)庫就十分必要了。

從操作復(fù)雜性來看，圖譜上的操作越是復(fù)雜，圖數(shù)據(jù)庫的必要性越是明顯。圖譜上的全局計(jì)算（比如平均最短路徑的計(jì)算），圖譜上的復(fù)雜遍歷，圖譜上的復(fù)雜子圖查詢等等都涉及圖上的多步遍歷。圖上的多步遍歷操作如果是在關(guān)系數(shù)據(jù)庫上實(shí)現(xiàn)需要多個(gè)聯(lián)結(jié)（Join）操作。多個(gè)聯(lián)結(jié)操作的優(yōu)化一直以來是關(guān)系數(shù)據(jù)庫的難題。圖數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)時(shí)針對(duì)多步遍歷做了大量?jī)?yōu)化，能夠?qū)崿F(xiàn)高效圖遍歷操作。

除了上述因素之外，還應(yīng)該充分考慮系統(tǒng)的易用性、普及性與成熟度。總體而言圖數(shù)據(jù)庫還是發(fā)展中的技術(shù)，對(duì)于復(fù)雜圖數(shù)據(jù)管理系統(tǒng)的優(yōu)化也是只有少部分專業(yè)人員才能從事的工作。在數(shù)據(jù)庫選型時(shí)需要充分考慮這些因素。我們實(shí)驗(yàn)室在實(shí)現(xiàn)CN-DBpedia（2000萬實(shí)體、2.2億關(guān)系）在線服務(wù)系統(tǒng)時(shí)先后采用了RelationalDB、Graph DB、MongoDB，最后出于綜合考慮選用的是MongoDB，已經(jīng)穩(wěn)定運(yùn)行了三年，累計(jì)提供10億多次API服務(wù)。

知識(shí)圖譜查詢語言。通常對(duì)于表達(dá)為RDF形式的知識(shí)圖譜，可以使用SPARQL查詢語言。SPARQL語言針對(duì)RDF數(shù)據(jù)定義了大量的算子，對(duì)于推理操作有著很好支撐，因而能夠適應(yīng)領(lǐng)域中的復(fù)雜查詢與復(fù)雜推理。從應(yīng)用角度來看，也可以將知識(shí)圖譜僅僅表達(dá)為無類型的三元組。對(duì)于這種輕量級(jí)的表示，關(guān)系數(shù)據(jù)庫與傳統(tǒng)NoSQL數(shù)據(jù)庫也是較好選擇。那么此時(shí)，SQL語句就是比較好的選擇。SQL十分成熟，語法簡(jiǎn)單，用戶眾多且有著幾十年的成功應(yīng)用基礎(chǔ)。

很多領(lǐng)域圖譜上的查詢是相對(duì)簡(jiǎn)單的，以單步或者兩到三步遍歷居多。此時(shí)，SQL完全能夠勝任。但是不排除有一些特定場(chǎng)景，特別是公共安全、風(fēng)控管理等領(lǐng)域，通常需要進(jìn)行復(fù)雜關(guān)聯(lián)分析，需要較長(zhǎng)路徑的遍歷，需要開展復(fù)雜子圖挖掘，此時(shí)SQL的表達(dá)能力就顯得相對(duì)較弱了。

四、知識(shí)圖譜的發(fā)展現(xiàn)狀及應(yīng)用

▌4.1知識(shí)圖譜的應(yīng)用

知識(shí)圖譜的應(yīng)用場(chǎng)景非常廣泛，除了通用應(yīng)用外，在金融、政府、醫(yī)療等領(lǐng)域也有特殊的應(yīng)用。

圖4. 知識(shí)圖譜的應(yīng)用

通用領(lǐng)域的應(yīng)用主要包括精準(zhǔn)分析、智能搜索、智能問答、智能推薦等。在精準(zhǔn)分析方面，當(dāng)認(rèn)識(shí)到王寶強(qiáng)和寶寶是指同一個(gè)人后，就可以合并“王寶強(qiáng)離婚”和“寶寶離婚”兩個(gè)事件，得到一個(gè)統(tǒng)一的熱點(diǎn)分析。

在智能搜索方面，通過知識(shí)圖譜建立起實(shí)體及其之間的關(guān)系，可提高搜索引擎的理解能力。例如建立代碼知識(shí)圖譜，自動(dòng)理解代碼的上下文信息，如建立起“quicksort”和“快速排序”、“QS”等的等價(jià)關(guān)系，以及“quick sort”是一種排序算法的isA關(guān)系等。這樣一來，當(dāng)用戶搜索“排序算法”時(shí)，能把代碼中包含“quick sort”、“快速排序”的內(nèi)容都搜索出來。實(shí)現(xiàn)代碼的精準(zhǔn)、高效搜索。

在智能問答方面，系統(tǒng)降低了人機(jī)交互的門檻，非常適合成為互聯(lián)網(wǎng)的新入口。相較于傳統(tǒng)的用戶輸入問題，搜索引擎返回網(wǎng)頁的方式，智能問答系統(tǒng)可以直接通往答案。例如復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室推出的“不倒翁問答”，是一個(gè)基于知識(shí)圖譜和互聯(lián)網(wǎng)內(nèi)容作為答案來源的問答系統(tǒng)，能回答各類事實(shí)型問題。系統(tǒng)接收自然語言問句作為輸入，通過深度學(xué)習(xí)的方法，從知識(shí)圖譜和互聯(lián)網(wǎng)中找到相應(yīng)的答案進(jìn)行解答。支持單知識(shí)問題、是否問題、比較問題、枚舉問題、常識(shí)問題以及多知識(shí)問題等。

在智能推薦方面，可基于知識(shí)圖譜構(gòu)建場(chǎng)景，提供基于場(chǎng)景的推薦。例如在電商領(lǐng)域，通過用戶已購產(chǎn)品推斷其購物場(chǎng)景，并推薦其他相關(guān)場(chǎng)景產(chǎn)品成為一個(gè)熱門需求。

金融領(lǐng)域的應(yīng)用主要包括風(fēng)險(xiǎn)控制和智能投顧等。在風(fēng)險(xiǎn)控制方面，通過構(gòu)建工商知識(shí)圖譜，可以將人、公司的信息用可視化的方式清晰的展示出來。一來可以用于人的特征的不一致性檢測(cè)；二來可以進(jìn)行異常節(jié)點(diǎn)分析，如正常借貸人只用一個(gè)手機(jī)號(hào)在一個(gè)金融產(chǎn)品中進(jìn)行借貸，而異常借貸人會(huì)使用多個(gè)手機(jī)號(hào)在多個(gè)不同的金融產(chǎn)品中進(jìn)行借貸；三來很多欺詐團(tuán)伙組織會(huì)通過一系列的復(fù)雜操作來持有公司，利用知識(shí)圖譜的可視化可以發(fā)現(xiàn)其中的潛在風(fēng)險(xiǎn)。

在智能投顧方面，通過對(duì)金融數(shù)據(jù)進(jìn)行結(jié)構(gòu)化提取和智能化分析，根據(jù)客戶自身的理財(cái)需求，實(shí)現(xiàn)自動(dòng)理財(cái)顧問。

政府領(lǐng)域的應(yīng)用主要包括數(shù)據(jù)治理、司法智能輔助審判和智能情報(bào)研判等。在數(shù)據(jù)治理方面，可將所有政務(wù)公開數(shù)據(jù)進(jìn)行融合，構(gòu)建政務(wù)知識(shí)圖譜，為用戶提供統(tǒng)一的政務(wù)數(shù)據(jù)訪問服務(wù)。

在司法智能輔助審判方面，通過建立司法知識(shí)圖譜，建立了一套智能判案輔助機(jī)器人系統(tǒng)。為當(dāng)事人提供專業(yè)的案件咨詢，案件風(fēng)險(xiǎn)評(píng)估，法院服務(wù)和法律援助等。提高簡(jiǎn)單案件的審判效率，減少寶貴的司法資源的浪費(fèi)。

在智能情報(bào)研判方面，主要對(duì)公安情報(bào)數(shù)據(jù)進(jìn)行智能整合，將真實(shí)世界的海量異構(gòu)碎片化數(shù)據(jù)等價(jià)轉(zhuǎn)換為一張唯一的關(guān)系大網(wǎng)，與真實(shí)世界的人事地物組織對(duì)象一一對(duì)應(yīng)，類似于“公安大腦”。構(gòu)建完成后，每個(gè)民警都可以借助這個(gè)“公安大腦”來進(jìn)行情報(bào)分析，準(zhǔn)確做出判斷。

醫(yī)療領(lǐng)域的主要應(yīng)用包括智能輔助問診和導(dǎo)診和醫(yī)藥研發(fā)等。在智能輔助問診和導(dǎo)診方面，通過構(gòu)建醫(yī)療知識(shí)圖譜及相應(yīng)的虛擬助手，實(shí)現(xiàn)對(duì)患者進(jìn)行自動(dòng)問診并生成規(guī)范、詳細(xì)的門診電子病歷。同時(shí)，根據(jù)患者的病歷，自動(dòng)對(duì)其進(jìn)行導(dǎo)診。

在醫(yī)藥研發(fā)方面，傳統(tǒng)藥物研發(fā)需要經(jīng)歷靶點(diǎn)篩選、藥物挖掘、臨床試驗(yàn)、藥物優(yōu)化等階段，耗時(shí)十分巨大。通過從海量醫(yī)學(xué)文獻(xiàn)、論文、專利、臨床試驗(yàn)信息等非結(jié)構(gòu)化數(shù)據(jù)中抽取出可用的信息，構(gòu)建生物知識(shí)圖譜，可加快醫(yī)藥的研發(fā)速度。

五、知識(shí)圖譜面臨的挑戰(zhàn)

知識(shí)圖譜技術(shù)的挑戰(zhàn)主要表現(xiàn)在知識(shí)表示、知識(shí)獲取和知識(shí)應(yīng)用等三個(gè)方面。

在知識(shí)表示層面，越來越多的領(lǐng)域應(yīng)用不僅僅需要關(guān)聯(lián)事實(shí)這種簡(jiǎn)單知識(shí)表示，還要表達(dá)包括邏輯規(guī)則、決策過程在內(nèi)的復(fù)雜知識(shí)；需要同時(shí)表達(dá)靜態(tài)知識(shí)和動(dòng)態(tài)知識(shí)。單單知識(shí)圖譜已經(jīng)不足以解決領(lǐng)域的很多實(shí)際問題。如何去增強(qiáng)知識(shí)圖譜的語義表達(dá)能力，如何綜合使用多種知識(shí)表示來解決實(shí)際應(yīng)用中的復(fù)雜問題是非常重要的研究課題。

在知識(shí)獲取方面，領(lǐng)域知識(shí)圖譜一般樣本很小，如果需要構(gòu)建抽取模型，那就需要基于小樣本構(gòu)建有效的模型。目前基于小樣本的機(jī)器學(xué)習(xí)仍然面臨巨大挑戰(zhàn)。解決這一問題的思路之一就是利用知識(shí)引導(dǎo)機(jī)器學(xué)習(xí)模型的學(xué)習(xí)過程。具體實(shí)現(xiàn)手段已經(jīng)有不少團(tuán)隊(duì)在開展相關(guān)的探索工作，比如利用知識(shí)增強(qiáng)樣本、利用知識(shí)構(gòu)建目標(biāo)函數(shù)的正則項(xiàng)以及利用知識(shí)構(gòu)建優(yōu)化目標(biāo)的約束等等。總體而言，這仍然是個(gè)開放問題需要巨大的研究投入。

在知識(shí)的深度應(yīng)用方面。如何將領(lǐng)域知識(shí)圖譜有效應(yīng)用于各類應(yīng)用場(chǎng)景，特別是推薦、搜索、問答之外的應(yīng)用，包括解釋、推理、決策等方面的應(yīng)用仍然面臨巨大挑戰(zhàn)，仍然存在很多開放性問題。

六、知識(shí)圖譜未來的發(fā)展趨勢(shì)

從2012年發(fā)展至今，知識(shí)圖譜技術(shù)發(fā)生了一系列的變革。從兩個(gè)方面來講，一方面是應(yīng)用場(chǎng)景，另一個(gè)方面就是技術(shù)生態(tài)。隨著應(yīng)用場(chǎng)景和技術(shù)生態(tài)的變化，整個(gè)知識(shí)圖譜面臨著全新的挑戰(zhàn)，以前的技術(shù)手段在應(yīng)對(duì)現(xiàn)在智能化大潮給我們提出的挑戰(zhàn)的時(shí)候，已經(jīng)有些力不從心，所以我們要研發(fā)一些新技術(shù)。

從應(yīng)用的角度來講，知識(shí)圖譜的應(yīng)用趨勢(shì)越來越從通用領(lǐng)域走向行業(yè)領(lǐng)域，現(xiàn)在的局面是通用與行業(yè)應(yīng)用百花齊放，各行各業(yè)都在討論適合自己的知識(shí)圖譜。

今天展示給大家的是我們自己實(shí)驗(yàn)室的知識(shí)圖譜，在通用領(lǐng)域，我們實(shí)驗(yàn)室有CN-DBpedia，Probaseplus。CN-DBpedia是一種通用百科知識(shí)圖譜。通用知識(shí)庫在通用人工智能中扮演著重要的角色，是未來競(jìng)爭(zhēng)的戰(zhàn)略制高點(diǎn)，即掌握了通用人工智能技術(shù)，可以從一個(gè)戰(zhàn)略制高點(diǎn)向下俯沖，這樣收獲領(lǐng)域知識(shí)圖譜的成果是相對(duì)容易的。但是如果只具備領(lǐng)域人工智能的能力，未必可以掌握通用人工智能能力。

雖然領(lǐng)域/行業(yè)人工智能技術(shù)更容易落地，但是從戰(zhàn)略層面上來講，一定要對(duì)通用人工智能予以高度的關(guān)注。領(lǐng)域人工智能在很多領(lǐng)域已經(jīng)落地開花，但領(lǐng)域圖譜的應(yīng)用也不是簡(jiǎn)單的事，還具有很多挑戰(zhàn)性的研究問題，領(lǐng)域知識(shí)庫構(gòu)建的語料往往比較稀疏，比如在某個(gè)領(lǐng)域提到某個(gè)事實(shí)，某類關(guān)系的樣本非常少，這個(gè)時(shí)候利用關(guān)系去構(gòu)建有效的抽取模型就會(huì)變的十分困難，在樣本稀疏的環(huán)境下去做領(lǐng)域知識(shí)圖譜的自動(dòng)化構(gòu)建仍然是件非常困難的事情。

第二個(gè)應(yīng)用場(chǎng)景發(fā)生變化是從搜索延伸至推薦、問答等復(fù)雜任務(wù)。舉個(gè)例子，用知識(shí)圖譜幫助搜索代碼，如果能利用知識(shí)圖譜理解搜索意圖，并返回準(zhǔn)確的代碼，這樣效率將大有提升。用戶搜索輸入關(guān)鍵字，機(jī)器給出答案，還可以為用戶做智能推薦。將來更智能的形式就是直接問答，我們實(shí)驗(yàn)室研發(fā)的“小Cui問答”就是這樣的問答系統(tǒng)。整個(gè)知識(shí)圖譜將來會(huì)在越來越復(fù)雜和多元的場(chǎng)景下發(fā)揮重要的作用。

再進(jìn)一步就是交互方式發(fā)生變化。以前的交互方式更多是基于關(guān)鍵字，現(xiàn)在越來越多的是自然語言的處理，對(duì)話式的處理，像GoogleNow，Apple Siri，Amazon Alexa等等，很多大公司都在研發(fā)自然語言交互的產(chǎn)品，這意味著自然語言交互成為未來人機(jī)交互的主流方式。對(duì)知識(shí)圖譜提出的挑戰(zhàn)就是，對(duì)自然語言的認(rèn)知到了一個(gè)新的高度，需要能夠利用知識(shí)圖譜幫助平臺(tái)和系統(tǒng)更好地理解問答，上下文對(duì)話等等。

進(jìn)而就是從用戶提的問題來看，呈現(xiàn)出從簡(jiǎn)單的陳述類問題到解釋類問題的變化趨勢(shì)。以前用戶喜歡問“what”、“who”、“when”、“where”這樣簡(jiǎn)單陳述性問題，現(xiàn)在越來越多的問“why”、“how”。用戶對(duì)系統(tǒng)智能性的期望越來越高，很多用戶在Google上問why類問題，但是很遺憾，Google還不能進(jìn)行回答，只能回答陳述類問題。隨著“why”、“how”問題越來越多，解釋就變的很重要，可解釋是未來人工智能發(fā)展的核心訴求之一，是人機(jī)互信的前提。

再進(jìn)一步就是，以前在實(shí)體之間找到一些簡(jiǎn)單關(guān)系就行了，比如王寶強(qiáng)的老婆是馬蓉，但現(xiàn)在不滿足于簡(jiǎn)單關(guān)系的揭示，而是希望能夠推理出一些深層關(guān)系，比如王寶強(qiáng)離婚案，為什么王寶強(qiáng)會(huì)請(qǐng)張起淮當(dāng)律師？王寶強(qiáng)和馮小剛是好朋友，馮小剛有個(gè)御用演員叫徐靜蕾，張起淮是徐靜蕾的法律顧問，所以王寶強(qiáng)會(huì)請(qǐng)張起淮當(dāng)律師，這個(gè)就是深層關(guān)系推理。隱式關(guān)系發(fā)現(xiàn)、深層關(guān)系推理將成為智能的主要體現(xiàn)之一。

再從技術(shù)生態(tài)的角度來看，人工智能也發(fā)生了很大的變化。從機(jī)器學(xué)習(xí)來看，雖然深度學(xué)習(xí)發(fā)展非常迅速，并且在樣本數(shù)據(jù)豐富的場(chǎng)景下取得了很好的效果，但是機(jī)器學(xué)習(xí)仍然存在很多問題，小樣本學(xué)習(xí)、無監(jiān)督學(xué)習(xí)手段有限，現(xiàn)有模型難以有效利用大量先驗(yàn)知識(shí)。再從自然語言處理角度來看，雖然自然語言處理在深度學(xué)習(xí)的推動(dòng)下取得了很大的進(jìn)展，但是自然語言處理離實(shí)際應(yīng)用需求還很遠(yuǎn)，還只是在處理階段，遠(yuǎn)遠(yuǎn)談不上理解。從知識(shí)庫本身來看，英文圖譜積累迅速，發(fā)展得相當(dāng)成熟，并且在很多應(yīng)用中發(fā)揮了巨大的作用，但是其他語種的知識(shí)圖譜十分缺乏。

雖然現(xiàn)在知識(shí)圖譜很多，但是大部分都側(cè)重在簡(jiǎn)單事實(shí)，對(duì)于常識(shí)的覆蓋仍然十分有限。很多知識(shí)圖譜都是依賴手工構(gòu)建的，如何從大規(guī)模數(shù)據(jù)里用數(shù)據(jù)挖掘的方法自動(dòng)挖掘出知識(shí)圖譜的手段仍然缺乏。

總體而言，知識(shí)圖譜技術(shù)的落地應(yīng)用前景是光明的，但是也需要充分意識(shí)到知識(shí)圖譜落地的巨大挑戰(zhàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
46845

瀏覽量
237535
知識(shí)圖譜

知識(shí)圖譜

+關(guān)注

關(guān)注
2

文章
132

瀏覽量
7693

原文標(biāo)題：肖仰華談知識(shí)圖譜：知識(shí)將比數(shù)據(jù)更重要，得知識(shí)者得天下

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

知識(shí)圖譜相關(guān)應(yīng)用

智慧風(fēng)控的背后，是知識(shí)圖譜的深度應(yīng)用

發(fā)表于 08-22 14:40

KGB知識(shí)圖譜基于傳統(tǒng)知識(shí)工程的突破分析

知識(shí)圖譜本質(zhì)上是一種大規(guī)模的語義網(wǎng)絡(luò)。從2012年谷歌提出知識(shí)圖譜，知識(shí)圖譜一直在快速發(fā)展，其應(yīng)用也不再局限于“語義網(wǎng)絡(luò)”范疇。現(xiàn)如今的知識(shí)圖譜在實(shí)際應(yīng)用中，主要作為大數(shù)據(jù)時(shí)代的

發(fā)表于 10-22 15:25

KGB知識(shí)圖譜技術(shù)能夠解決哪些行業(yè)痛點(diǎn)？

層面。在知識(shí)表示層面，行業(yè)應(yīng)用領(lǐng)域知識(shí)圖譜的廣度、深度和粒度都和傳統(tǒng)知識(shí)圖譜有差別。從廣度來看，傳統(tǒng)

發(fā)表于 10-30 15:34

知識(shí)圖譜的三種特性評(píng)析

知識(shí)圖譜的應(yīng)用對(duì)技術(shù)本身也提出了高要求，KGB知識(shí)圖譜現(xiàn)在已經(jīng)在保險(xiǎn)行業(yè)，為公司分析上市數(shù)據(jù)等行業(yè)得以廣泛應(yīng)用，知識(shí)圖譜能夠在應(yīng)用中發(fā)揮優(yōu)勢(shì)主要體現(xiàn)在哪里呢?（1）目標(biāo)的動(dòng)態(tài)性：考察知識(shí)圖

發(fā)表于 12-13 13:57

知識(shí)圖譜在推薦系統(tǒng)中可能的應(yīng)用價(jià)值

傳統(tǒng)的推薦系統(tǒng)容易出現(xiàn)稀疏性和冷啟動(dòng)的問題，而知識(shí)圖譜作為一種新興類型的輔助信息，近幾年逐漸引起了研究人員的關(guān)注，本文將向大家介紹知識(shí)圖譜的相關(guān)知識(shí)以及

發(fā)表于 06-06 14:33 ?5730次閱讀

知識(shí)圖譜系列干貨，理論+實(shí)踐

第一個(gè)部分介紹我們?yōu)槭裁葱枰?b class='flag-5'>知識(shí)圖譜、知識(shí)圖譜的相關(guān)概念及其形式化表示；第二個(gè)部分將詳細(xì)介紹語義網(wǎng)絡(luò)、語義網(wǎng)和鏈接數(shù)據(jù)等概念；最后，將結(jié)合實(shí)例對(duì)RDF和RDFS/OWL，這兩種知識(shí)圖譜

發(fā)表于 07-28 09:55 ?1.2w次閱讀

知識(shí)圖譜的數(shù)據(jù)存儲(chǔ)技術(shù)研究

本文需要進(jìn)一步研究知識(shí)圖譜的數(shù)據(jù)存儲(chǔ)。由于知識(shí)圖譜的圖結(jié)構(gòu)特點(diǎn)，使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫存儲(chǔ)大量的關(guān)系表，在做查詢的時(shí)候需要大量的表連接，速度非常慢，所以往往知識(shí)圖譜采用的是圖數(shù)據(jù)庫。

發(fā)表于 09-23 10:21 ?5049次閱讀

一文帶你讀懂知識(shí)圖譜

節(jié)點(diǎn)(Point)和邊(Edge)組成 1.2 每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”，每條邊為實(shí)體與實(shí)體之間的“關(guān)系” 1.3 知識(shí)圖譜是關(guān)系的最有效的表示方式所以，知識(shí)圖譜本質(zhì)上就

發(fā)表于 12-26 10:23 ?3655次閱讀

知識(shí)圖譜劃分的相關(guān)算法及研究

知識(shí)圖譜是人工智能的重要基石，因其包含豐富的圖結(jié)構(gòu)和屬性信息而受到廣泛關(guān)注。知識(shí)圖譜可以精確語義描述現(xiàn)實(shí)世界中的各種實(shí)體及其聯(lián)系，其中頂點(diǎn)表示實(shí)體，邊表示實(shí)體間的聯(lián)系。

發(fā)表于 03-18 10:10 ?9次下載

通用知識(shí)圖譜構(gòu)建技術(shù)的應(yīng)用及發(fā)展趨勢(shì)

構(gòu)建平臺(tái)，需要對(duì)知識(shí)圖譜的構(gòu)建體系進(jìn)行研究，以滿足不同的行業(yè)應(yīng)用需求。文中以知識(shí)圖譜構(gòu)建為主線，首先介紹目前主流的通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜，描述兩者在構(gòu)建過程中的

發(fā)表于 04-14 11:37 ?27次下載

知識(shí)圖譜是NLP的未來嗎？

我的看法：知識(shí)圖譜不是NLP的未來，因?yàn)?b class='flag-5'>知識(shí)圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向中，知識(shí)圖譜是最有可能長(zhǎng)期和NLP互利共生的技術(shù)。

發(fā)表于 04-15 14:36 ?3669次閱讀

<b class='flag-5'>知識(shí)圖譜</b>是NLP的未來嗎？

知識(shí)圖譜是什么，它在安全領(lǐng)域的應(yīng)用分析

知識(shí)圖譜及其在安全領(lǐng)域的應(yīng)用人工智能技術(shù)與咨詢? 本文作者作者：Toky ，由 Seebug Paper 發(fā)布 1. 知識(shí)圖譜是什么？ 1.1 知識(shí)（Knowledge）是什么？ 知識(shí)圖

發(fā)表于 12-04 16:01 ?1782次閱讀

知識(shí)圖譜Knowledge Graph構(gòu)建與應(yīng)用

一、知識(shí)圖譜概論 ? ? ? ? 1.1知識(shí)圖譜的起源和歷史 1.2知識(shí)圖譜的發(fā)展史——從框架、本體論、語義網(wǎng)、鏈接數(shù)據(jù)到知識(shí)圖譜 1.3知識(shí)圖譜

發(fā)表于 09-17 10:12 ?631次閱讀

知識(shí)圖譜：知識(shí)圖譜的典型應(yīng)用

作者：?cooldream2009? 我們構(gòu)建知識(shí)圖譜的目的，在于利用知識(shí)圖譜來做一些事情。有效利用知識(shí)圖譜，就是要考慮知識(shí)圖譜的具備的能力，知識(shí)圖

發(fā)表于 10-18 09:26 ?1863次閱讀

知識(shí)圖譜基礎(chǔ)知識(shí)應(yīng)用和學(xué)術(shù)前沿趨勢(shì)

知識(shí)圖譜（Knowledge Graph）以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系。是融合了認(rèn)知計(jì)算、知識(shí)表示與推理、信息檢索與抽取、自然語言處理、Web技術(shù)、機(jī)器學(xué)習(xí)與大數(shù)據(jù)挖掘等等方向的交叉學(xué)科。人工智能是以

發(fā)表于 01-08 10:57 ?862次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

知識(shí)圖譜是什么？與傳統(tǒng)知識(shí)表示的區(qū)別

評(píng)論

知識(shí)圖譜相關(guān)應(yīng)用

KGB知識(shí)圖譜基于傳統(tǒng)知識(shí)工程的突破分析

KGB知識(shí)圖譜技術(shù)能夠解決哪些行業(yè)痛點(diǎn)？

知識(shí)圖譜的三種特性評(píng)析

知識(shí)圖譜在推薦系統(tǒng)中可能的應(yīng)用價(jià)值

知識(shí)圖譜系列干貨，理論+實(shí)踐

知識(shí)圖譜的數(shù)據(jù)存儲(chǔ)技術(shù)研究

一文帶你讀懂知識(shí)圖譜

知識(shí)圖譜劃分的相關(guān)算法及研究

通用知識(shí)圖譜構(gòu)建技術(shù)的應(yīng)用及發(fā)展趨勢(shì)

知識(shí)圖譜是NLP的未來嗎？

知識(shí)圖譜是什么，它在安全領(lǐng)域的應(yīng)用分析

知識(shí)圖譜Knowledge Graph構(gòu)建與應(yīng)用

知識(shí)圖譜：知識(shí)圖譜的典型應(yīng)用

知識(shí)圖譜基礎(chǔ)知識(shí)應(yīng)用和學(xué)術(shù)前沿趨勢(shì)