導讀:知識圖譜,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。本文主要分析了何為知識圖譜,知識圖譜的現狀及發展。
2012年,Google推出了一款名叫Knowledge Graph(知識圖譜)的產品,該產品從Metaweb衍生而來,主要用于提高搜索引擎質量,改善用戶搜索體驗。
2020年,知識圖譜從一個分支產品成為建立大規模知識的殺手锏應用,在搜索、自然語言處理、智能助手、電子商務等領域發揮著重要作用。
8年時間,隨著大數據時代的到來和人工智能技術的飛速進步,知識圖譜越發顯露出其基礎性和重要性。
那么,到底什么是知識圖譜呢?
知識圖譜,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。
知識圖譜可以將互聯網的信息表達成更接近人類認知世界的形式,同時提供了一種更好的組織、管理和理解互聯網海量信息的能力。知識圖譜給互聯網語義搜索帶來了活力,同時也在智能問答中顯示出強大威力,已經成為互聯網知識驅動的智能應用的基礎設施。知識圖譜與大數據和深度學習一起,成為推動互聯網和人工智能發展的核心驅動力之一。【1】
文字表述看似深奧,實則我們在日常生活中經常感受到知識圖譜技術帶來的便利。
圖1
圖2
比如在百度中搜索劉德華的個人信息,會出現圖1和圖2兩種展示形式,從內容上看,兩者展示的信息差別不大,但圖2看起來就更加直觀。尤其是隨著文本內容的增加,圖2的表現形式的優勢就會更加突出。放到大數據的互聯網平臺,圖2的表達模式顯然更便于處理加工,但是互聯網等數據平臺所搜集的信息多為如圖1所示的碎片式信息,所以把圖1內的文字內容轉換成圖2的過程,就涉及到上面提及的知識圖譜技術。
圖3
再比如圖3,我們經常會看到針對某個人或者某件事關鍵詞的呈現,事實上這種呈現形式也是機器利用知識圖譜技術把網友的評價等碎片化的信息進行整理加工后形成的。
2020年的知識圖譜技術發展現狀
據《2020人工智能中國專利技術分析報告》統計,知識圖譜技術專利申請量整體呈現穩中上升的趨勢。自2012年起,我國知識圖譜技術領域內專利申請增長速度顯著加快,從圖4可以看到,2019年申請量達到巔峰,全年共申請4966件相關專利。據不完全數據統計,2020起始截止到2020年10月底,該領域的專利申請量已達到1942件,知識圖譜技術正成為各權利主體獲取人工智能產業競爭力的有力武器。【2】
圖4:我國知識圖譜領域專利申請量年度變化趨勢(2020年統計數據截止至2020年10月底,受公開滯后影響,統計數據為不完全數據)
為了更好的了解知識圖譜領域專利申請人(或企業)的情況,筆者通過北京市知識產權公共信息服務平臺對知識圖譜領域的專利申請情況進行了檢索,檢索結果如圖5所示,通過檢索發現,在知識圖譜領域,騰訊科技(深圳)有限公司 、北京百度網訊科技有限公司、平安科技(深圳)有限公司、北京明略軟件系統有限公司以及百度在線網絡技術(北京)有限公司分別排名前五。其中,騰訊科技以550件專利量排名第一,百度網訊以346件專利量排名第二,平安科技以182件專利量排名第三,北京明略以110件專利量排名第四,百度以92件專利量排名第五。
圖5 檢索日期:2021年2月22日
同時,筆者也在國家知識產權局專利檢索及分析網站檢索了知識圖譜領域的相關專利,檢索結果如圖6所示,與使用北京信息服務平臺檢索的結果相比,前五名的專利申請人的出入不大,分別為百度網訊、平安科技、騰訊科技、海南大學、北京明略。不過在專利申請量上有些區別,百度網訊以237件專利申請量排名第一,平安科技以136件專利申請量排名第二,騰訊科技以116件專利申請量排名第三,海南大學以64件專利申請量排名第四,北京明略以59件專利申請量排名第五。
圖6 檢索日期:2021年2月22日
從圖7中可以看出,2020年知識圖譜領域專利申請量國內各省市排名中,北京、廣東是主要申請區域,其中,北京以占比31%的專利申請量排名第一,廣東以占比24%的專利申請量排名第二,浙江則以占比11%的專利申請量排名第三。
圖7:2020年知識圖譜領域專利申請國內各省市的占比情況
使用工具:智慧芽專利數據庫 智慧芽英策
從圖8中可以看出,2020年申請的知識圖譜領域的專利的IPC主要集中在G06、H04,其中G06F16以占比21%排名第一,G06K9以占比17%排名第二;G06N3以占比14%排名第三。
圖8:2020年知識圖譜領域專利申請IPC技術分支的占比情況
使用工具:智慧芽專利數據庫,智慧芽英策
從圖9中可以發現,人工智能、知識圖譜、特征向量、機器學習、深度學習等關鍵詞成為2020年知識圖譜領域申請專利中的創新詞云。
圖9:2020年知識圖譜領域專利中的創新詞云
使用工具:智慧芽專利數據庫,智慧芽英策
據中國軟件網不完全統計,我國知識圖譜產品或解決方案主流企業約有38家,在這其中,布局在金融領域的企業約占65%,公共服務與政務領域約占26%,能源與工業領域約占26%,是企業入局最高的三大領域。
圖10:知識圖譜企業在行業應用中的分布情況
中國軟件網整理制圖
從圖10可以發現,許多公司利用知識圖譜技術涉足金融、公共服務與政務、醫療醫藥、能源與工業和商業領域等多個領域,比如騰訊云利用知識圖譜技術發展物聯網,并將其應用于醫療儀器、運輸業車輛GPS等,阿里云利用知識圖譜技術支持電力領域的操作規程等工作,華為云更是利用知識圖譜技術助力油氣的勘探開發,明略科技利用知識圖譜技術在金融、公共服務與政務、能源與工業和商業領域等均有涉足,北京海致網聚信息技術有限公司利用知識圖譜技術實現在公安領域的落地實踐。
那么知識圖譜在實際工作中是如何在不同領域發揮其功用呢?筆者咨詢了明略科技集團知識工程實驗室主任張杰博士,張杰博士曾帶領團隊以“知識圖譜自動構建及行業應用”為題獲得了2020年度第十屆吳文俊人工智能科學技術一等獎。張杰博士表示:
過去幾年,明略科技通過自主研發的知識圖譜平臺和預構建的行業解決方案服務于政府、公安、銀行、保險、證券、軌交、電力、制造、融媒體、食品安全等領域的200多個行業客戶。
在社交媒體輿情分析場景中,基于知識圖譜,可以把用戶產生的評論,與后臺的產品知識庫相對應,便于運營人員對產品更細粒度的特性做用戶輿情走勢分析,隨后把這些結果整合到BI系統,從而實現用戶需求洞察,輔助生產創意內容,實現千人千面的個性化廣告。
在線下零售場景中,首先銷售人員通過佩戴明略的電子工牌,將銷售過程數字化,然后通過語音識別技術將銷售對話轉為文字,再通過自然語言處理技術進行話題分類,計算出話題之間轉移的概率,形成一個話題轉移的知識圖譜,最后通過與金牌銷售員的話題圖譜做比對,可以幫助銷售人員做復盤,分析流單的主要環節,改善話術并提高成單率。我們研發的HAO圖譜系統是目前國際上第一個語音實時生成圖譜的企業級知識圖譜開發工具包。
在金融風控場景中,個人信貸客戶可以通過親友、同事、擔保等關系組成圖譜,對公客戶可以通過股權、擔保、資金關系組成圖譜,我們使用圖表示學習算法將客戶做向量化表示,向量中蘊含了圖譜的結構信息,這個向量可以用于反欺詐模型和信用評分模型。
在工業設備維保場景中,我們可以從傳感器發出的故障信號的時間序列數據中挖掘出故障的主伴生關系,可以從維修工單的非結構化文本中挖掘出因果關系,然后逐漸拼接出檢修知識圖譜,為維修工人提供檢修最佳實踐,應用這套系統后車輛故障率降低約50%,逐步從每日檢修變成每8日檢修,大幅度降低運營故障、減少了人工作業、提高了檢修效率。
知識圖譜前路坦蕩,未來已來
根據統計的數據顯示,目前知識圖譜已經在技術上有了一定發展,并逐步在電子商務、公安、醫療等領域開始落地,那么目前知識圖譜領域的發展情況究竟如何,已經具備了哪些優勢?未來知識圖譜技術發展又將會面對哪些技術挑戰呢?針對這些問題,張杰博士回復說:
知識圖譜的發展得益于技術的逐漸成熟和數字化轉型的歷史趨勢。最近幾年在大數據和人工智能技術飛速發展的背景下,很多傳統行業開展了新一輪的數字化轉型,2020年兩會期間,數字化轉型被寫入政府工作報告。智能化是企業數字化轉型的新方向、新階段。在智能化的過程中,業內普遍認為可以分為三個階段:算力智能、感知智能和認知智能。知識圖譜被認為是從感知智能邁向認知智能的關鍵環節,因此得到了廣泛關注,越來越多的企業和組織開展知識圖譜的建設并結合業務場景開展應用:一種是較為通用的技術型應用,如可視化洞察、信息檢索、推薦系統、任務型問答;另一種是具有行業特色的解決方案型應用,如金融反欺詐、快消品營銷、工業維保等。
知識圖譜的優勢主要體現在以下幾個方面:1)連接企業內部數據和外部的海量數據。知識圖譜對數據類型的定義靈活,并能高效的支持深層次的關聯查詢,拓展企業數據總量的同時提升數據利用效率,釋放出大數據紅利;2)連接大數據技術和人工智能技術。它可以從網絡結構、時間序列、行為對話等新型數據中加工出高階特征,提供給下游的算法工程師,使其更專注在具體的業務模型上;3)連接領域知識和常識知識。它可以對已有的知識體系做融合、補全、推理,提高知識體系的完備性,為流程優化、輔助決策、預測分析等下游應用提供基礎服務。
雖然知識圖譜技術具有廣闊的應用前景,但現階段仍面臨很多技術挑戰:1)構建成本問題。對于結構化數據需要復雜的數據治理工作,對于非結構數據,信息抽取環節需要大量的標注工作;2)推理準確度問題。知識圖譜可以為搜索引擎、推薦引擎帶來準確度提升,但其獨特的應用價值在推理問答,需要解決在領域知識不完備、且數據總量大的情況下進行快速準確的推理;3)形式化表示問題。知識圖譜的價值在應用,應用的難點在于知識推理,知識推理的難點在于知識表示。已有技術成果多集中在事實知識(know-what)上,原理知識(know-why)和技能知識(know-how)的研究缺乏數學基礎和最佳實踐參考。
有些行業的數字化進程啟動較晚,需要先解決數據在線和數據積累的問題,并且文化上重視數字化建設和數字化管理才可能使知識圖譜技術得以應用。未來的改變可能會有以下幾方面:1)隨著5G、物聯網和感知技術的逐級成熟,企業非結構化數據的占比會越來越高,從語音、圖像、視頻的多模態數據中聯合抽取知識的需求會越來越多;2)行業know-how類知識與know-what類知識可以相結合,從而推動人機協同下的智能決策;3)知識密集型行業中的企業越來越重視知識資產,基于知識圖譜技術建設知識中臺,而不僅是管理文檔、管理數據,并以專家經驗加數據驅動的方式做因果關系發現和因果推斷,輔助業務做出決策。
從蒸汽時代到電氣時代,再到21世紀的信息時代,科技的發展推動著時代的進步,而人工智能正成為推動人類進入智能時代的決定性力量。我們期待知識圖譜這一被認為是從感知智能邁向認知智能的關鍵環節的技術在未來有更大、更廣闊的應用與發展空間。
注:
【1】:《產業專利分析報告-人工智能關鍵技術(第68冊)》
-
搜索
+關注
關注
0文章
69瀏覽量
16651 -
人工智能
+關注
關注
1791文章
46859瀏覽量
237564 -
大數據
+關注
關注
64文章
8863瀏覽量
137299 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7694
原文標題:人工智能產業中不可忽略的技術領域之知識圖譜
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論