精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

研究者最近仔細(xì)估算了各種知識(shí)圖譜每創(chuàng)建一條記錄所需要的成本

MqC7_CAAI_1981 ? 來源:lq ? 2019-02-18 16:35 ? 次閱讀

我們知道強(qiáng)大的深度模型需要很多計(jì)算力,那你知道創(chuàng)建一個(gè)知識(shí)圖譜的成本到底是多少嗎?德國 Mannheim 大學(xué)的研究者最近仔細(xì)估算了各種知識(shí)圖譜每創(chuàng)建一條記錄所需要的成本,他們表示對(duì)于大型知識(shí)圖譜,手動(dòng)創(chuàng)建一個(gè)三元組(即一條記錄)的成本在 2 到 6 美元之間,總成本在數(shù)百萬到數(shù)十億美元之間。

知識(shí)圖譜廣泛用于各種領(lǐng)域,它的統(tǒng)計(jì)信息也常被分析。但有一個(gè)問題一直缺乏研究:產(chǎn)出價(jià)格是多少?在此論文中,研究者提出了一種方法預(yù)估知識(shí)圖譜的成本。他們表示手動(dòng)創(chuàng)建一個(gè)三元組(triple)的成本大約在 2 到 6 美元左右,而自動(dòng)創(chuàng)建知識(shí)圖譜的成本要降低 15 到 250 倍(即一個(gè)三元組 1 美分到 15 美分)。

注意其中 15 美分每條的「自動(dòng)化」知識(shí)圖譜還是需要大量人力進(jìn)行數(shù)據(jù)的驗(yàn)證。此外,作者表示成本也應(yīng)該作為知識(shí)圖譜的評(píng)價(jià)標(biāo)準(zhǔn),例如可以使用每個(gè)三元組的成本或其他更優(yōu)的度量方法。

論文:How much is a Triple? Estimating the Cost of Knowledge Graph Creation

論文地址:http://ceur-ws.org/Vol-2180/ISWC_2018_Outrageous_Ideas_paper_10.pdf

估計(jì)知識(shí)圖譜的成本

隨著知識(shí)圖譜的廣泛應(yīng)用,我們?cè)絹碓疥P(guān)注大型知識(shí)圖譜,例如 DBpedia、YAGO 等。我們已經(jīng)有很多方法從各種角度檢查這些大型知識(shí)圖譜,例如大小、覆蓋度和質(zhì)量等。然而這些分析不足的地方在于成本,即創(chuàng)建知識(shí)圖譜的價(jià)格。

人工創(chuàng)建:Cyc 和 Freebase

對(duì)于人工創(chuàng)建的知識(shí)圖譜,我們必須評(píng)估提供這些陳述語句(statement)的工作量,從而估計(jì)平均成本。

Cyc 是最早的通用知識(shí)圖譜之一,同時(shí)它的開發(fā)成本也能公開獲得。在 2017 年的一項(xiàng)會(huì)議中,Cyc 的創(chuàng)建者 Douglas Lenat 表示:構(gòu)建 Cyc 的成本為 1.2 億美元。在同一個(gè) PPT 中,Lenat 表示 Cyc 一共有 21M 斷言(assertion),因此每條陳述語句或斷言需要 5.71 美元。若 1000 人有一年的時(shí)間完成,則每人每 9.5 分鐘需要完成一條斷言。

Freebase 是由志愿者共同完成的,因此其工作量更難判斷。截止至 2011 年 4 月份,創(chuàng)建英文維基百科的估計(jì)時(shí)長為 41M 工時(shí)。同時(shí)維基百科包含 3.6M 的頁面,平均每一個(gè)頁面 36.4 個(gè)句子,因此換算下來每一條語句需要 18.7 分鐘。由于大多數(shù)維基百科條目都是由美國構(gòu)建的,我們可以使用每小時(shí) 7.25 美元的美國聯(lián)邦最低工資作為人工成本估算,因此每一句的成本可以換算為 2.25 美元。借鑒這個(gè)成本,我們可以假設(shè) Freebase 每一條陳述語句的成本也是 2.25 美元。

這比 Cyc 的平均成本低了一半,這種低成本也是合理的,因?yàn)?Cyc 是由人類專家構(gòu)建的,而 Freebase 由非專業(yè)人員創(chuàng)建。總的而言,對(duì)于包含 30 億事實(shí)(fact)的最新版 Freebase,它的總成本約為 67.5 億美元($6.75B)。

自動(dòng)創(chuàng)建: DBpedia、YAGO 和 NELL

評(píng)估自動(dòng)創(chuàng)建知識(shí)圖譜所花費(fèi)成本不同于人工創(chuàng)建知識(shí)圖譜。我們參考了用于創(chuàng)建知識(shí)圖譜的軟件,基于代碼行數(shù)(LOC)來估計(jì)開發(fā)知識(shí)圖譜的成本。我們遵循 [2] 中的分析,即一個(gè)軟件生成項(xiàng)目平均每小時(shí)生產(chǎn) 37 行代碼(LOC)。

DBpedia 主要是基于 DBpedia 提取框架從維基百科 Dump 得到的,它通過映射中心實(shí)體而創(chuàng)建知識(shí)圖譜。DBpedia 兩部分需要 4.9M 和 2.2M LOC,它需要的總開發(fā)成本為 510 萬美元。鑒于英語 DBpedia[11] 共有 400M 陳述語句,每一條成本約為 1.85 美分。相比于人工搭建的知識(shí)圖譜(每一條 2.25 美元),自動(dòng)搭建的要節(jié)省百倍的成本。

YAGO 也是一種知識(shí)圖譜,它將維基百科提取的知識(shí)與 WordNet[7] 相結(jié)合。為了公平比較,它的成本應(yīng)該包含 WordNet 的搭建費(fèi)用。YAGO 代碼庫有 1.6M LOC(包括將信息框映射到本體的規(guī)則),因此它的總體成本為 160 萬美元。此外,WordNet 本身還包含了 117k 個(gè)同義詞集,每一個(gè)包含一條注釋。我們估計(jì)定義一個(gè)同義詞集的成本與構(gòu)建一個(gè)維基百科頁面的成本相近,即最高 1000 萬美元。若 YAGO 有 14 億條陳述語句 [11],那么每一條的成本為 0.83 美分。相比人工搭建,它的成本要節(jié)省 250 倍。

NELL 是一個(gè)學(xué)習(xí)關(guān)系抽取 [8] 模式的系統(tǒng),其核心技術(shù)包含 103k 的 LOC,預(yù)估開發(fā)成本為 10.9 萬美元。此外,該數(shù)據(jù)集每月還需要人工校驗(yàn) 1467 條陳述語句。假設(shè)人工校驗(yàn)一條陳述語句的成本和創(chuàng)建成本一樣,那么總的校驗(yàn)成本為 37.6 萬美元,即通成本為 48.5 美元。因此換算下來,NELL 每條陳述語句的成本為 14.25 美分,即比手動(dòng)搭建便宜 16 倍。

新的評(píng)估標(biāo)準(zhǔn)

把成本作為創(chuàng)建知識(shí)圖譜的一種測量方法也能為其他評(píng)估方法鋪平道路。例如,可以通過成本查驗(yàn)為知識(shí)圖譜補(bǔ)充缺失信息提供新方法 [9]:一個(gè)人一年半開發(fā)知識(shí)圖譜應(yīng)該可以添加 2800 條陳述語句,這應(yīng)該是人力手動(dòng)產(chǎn)出的三元組數(shù)量。

另一個(gè)有趣的思路是開發(fā)成本與數(shù)據(jù)質(zhì)量之間的關(guān)系。在圖 1 中,我們圖像描述了該論文討論的知識(shí)圖譜中每個(gè)三元組成本與錯(cuò)誤率之間的關(guān)系。我們可以看到,高成本創(chuàng)建的三元組準(zhǔn)確率也會(huì)更高,NELL 是個(gè)例外,準(zhǔn)確率與成本之間關(guān)系極差。

每個(gè)三元組成本與錯(cuò)誤率之間的關(guān)系展示圖。

總結(jié)

在這篇論文中,我們大體估計(jì)了創(chuàng)建一個(gè)流行的知識(shí)圖譜所花費(fèi)的成本,這也是當(dāng)前研究忽視的一個(gè)方面。我們量化了自動(dòng)創(chuàng)建知識(shí)圖譜相比于手動(dòng)方法的收益,并提出使用成本定義新型的評(píng)價(jià)標(biāo)準(zhǔn),例如權(quán)衡成本與準(zhǔn)確率。

有研究者反饋,我們也意識(shí)到有很多假設(shè)或估計(jì)在計(jì)算中都存在著問題(例如,我們沒有考慮第三方庫或基礎(chǔ)設(shè)施的成本)。其次,知識(shí)圖譜的來源或數(shù)據(jù)成本當(dāng)前也沒有考慮在內(nèi)。然而,我們相信:知識(shí)圖譜自身帶來的價(jià)值將遠(yuǎn)超過各種構(gòu)建成本的總和。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6892

    瀏覽量

    88827
  • 自動(dòng)化
    +關(guān)注

    關(guān)注

    29

    文章

    5512

    瀏覽量

    79106
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7694

原文標(biāo)題:67 億美金搞個(gè)圖,創(chuàng)建知識(shí)圖譜的成本有多高你知道嗎?

文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    FPGA基礎(chǔ)知識(shí)及設(shè)計(jì)和執(zhí)行FPGA應(yīng)用所需的工具

    本文將首先介紹FPGA的基礎(chǔ)知識(shí),包括FPGA的工作原理以及為什么要使用FPGA等,然后討論設(shè)計(jì)和執(zhí)行FPGA應(yīng)用所需的工具。
    的頭像 發(fā)表于 11-11 11:29 ?285次閱讀
    FPGA基礎(chǔ)<b class='flag-5'>知識(shí)</b>及設(shè)計(jì)和執(zhí)行FPGA應(yīng)用<b class='flag-5'>所需</b>的工具

    三星自主研發(fā)知識(shí)圖譜技術(shù),強(qiáng)化Galaxy AI用戶體驗(yàn)與數(shù)據(jù)安全

    據(jù)外媒11月7日?qǐng)?bào)道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識(shí)圖譜技術(shù),旨在進(jìn)步優(yōu)化Galaxy AI的功能,提升其易用性,并加強(qiáng)用戶數(shù)據(jù)的隱私保護(hù)。
    的頭像 發(fā)表于 11-07 15:19 ?426次閱讀

    行家放話!驍龍8至尊版是一條大冰龍:徹底穩(wěn)了

    10月12日消息,iQOO產(chǎn)品經(jīng)理戈藍(lán)V表示,高通驍龍8至尊版是一條大冰龍,很難想象,過去的好多重載游戲在我這臺(tái)手機(jī)上變成了中輕載,等通子發(fā)布會(huì)后再細(xì)聊。此前博主數(shù)碼閑聊站淺測了高通驍龍8至尊版量產(chǎn)
    的頭像 發(fā)表于 10-17 12:26 ?313次閱讀
    行家放話!驍龍8至尊版是<b class='flag-5'>一條</b>大冰龍:徹底穩(wěn)了

    革新未來智能版圖,神州數(shù)碼榮登IDC生成式AI圖譜

    6月19日,國際權(quán)威市場研究機(jī)構(gòu)IDC正式發(fā)布了《2024年第二季度生成式AI生態(tài)圖譜》,其中,神州數(shù)碼憑借在生成式AI領(lǐng)域的領(lǐng)先布局,以其深度整合算力、模型、知識(shí)與應(yīng)用的核心能力,成功占據(jù)生態(tài)
    的頭像 發(fā)表于 07-29 15:20 ?377次閱讀
    革新未來智能版圖,神州數(shù)碼榮登IDC生成式AI<b class='flag-5'>圖譜</b>

    三星電子將收購英國知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)

    在人工智能技術(shù)日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術(shù)創(chuàng)新實(shí)力。近日,三星正式宣布完成了對(duì)英國領(lǐng)先的人工智能(AI)與知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)Oxford Semantic Technologies的收購,此舉標(biāo)志著三星在提升設(shè)備端AI能力、深化個(gè)性化用戶體驗(yàn)方面邁出了重要
    的頭像 發(fā)表于 07-18 14:46 ?500次閱讀

    遲滯比較器的輸出為一條直線的原因

    ,如果遲滯比較器的輸出為一條直線,這可能是由于多種原因造成的。 遲滯比較器的工作原理 在討論遲滯比較器輸出為一條直線的原因之前,我們首先需要了解其工作原理。遲滯比較器通常由個(gè)運(yùn)算放大
    的頭像 發(fā)表于 07-11 09:36 ?515次閱讀

    知識(shí)圖譜與大模型之間的關(guān)系

    在人工智能的廣闊領(lǐng)域中,知識(shí)圖譜與大模型是兩個(gè)至關(guān)重要的概念,它們各自擁有獨(dú)特的優(yōu)勢和應(yīng)用場景,同時(shí)又相互補(bǔ)充,共同推動(dòng)著人工智能技術(shù)的發(fā)展。本文將從定義、特點(diǎn)、應(yīng)用及相互關(guān)系等方面深入探討知識(shí)圖譜與大模型之間的關(guān)系。
    的頭像 發(fā)表于 07-10 11:39 ?886次閱讀

    名單公布!【書籍評(píng)測活動(dòng)NO.33】做了50年軟件開發(fā),總結(jié)出60經(jīng)驗(yàn)教訓(xùn),一條都太扎心!

    一條經(jīng)驗(yàn)教訓(xùn)都會(huì)簡要闡述個(gè)核心觀點(diǎn),然后就該觀點(diǎn)對(duì)團(tuán)隊(duì)可采取的措施進(jìn)行討論和建議。 當(dāng)你讀完章時(shí),你都有可能發(fā)現(xiàn)其與你息息相關(guān)。
    發(fā)表于 05-17 14:36

    STM8L執(zhí)行一條語句大概需要幾個(gè)時(shí)鐘周期?

    STM8L執(zhí)行一條語句大概需要幾個(gè)時(shí)鐘周期
    發(fā)表于 05-06 06:16

    stm32f103r8t6外部8M晶振,倍頻72M,執(zhí)行一條指令需要多少時(shí)間?

    stm32f103r8t6,外部8M晶振,倍頻72M. 執(zhí)行一條指令需要多少時(shí)間?? int main(void) { 初始化程序。。。。 初始化程序。。。。 while(1) { GPIOA->ODR^=GPIO_Pin_6; } } 用示波器測量時(shí)300ns
    發(fā)表于 04-22 07:16

    利用知識(shí)圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)

    對(duì)于語言模型(LLM)幻覺,知識(shí)圖譜被證明優(yōu)于向量數(shù)據(jù)庫。知識(shí)圖譜提供更準(zhǔn)確、多樣化、有趣、邏輯和致的信息,減少了LLM中出現(xiàn)幻覺的可能性。
    的頭像 發(fā)表于 02-22 14:13 ?1109次閱讀
    利用<b class='flag-5'>知識(shí)圖譜</b>與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)

    UCB_SWAP配置信息共16,寫入一條有效配置后,上一條需寫1使配置無效是為什么?

    影響正確讀取配置信息。 UCB擦寫次數(shù)有限制,不能無限擦除,需要寫滿16配置信息后再擦,上一條配置不設(shè)置無效也可以連續(xù)寫16次,之后進(jìn)行擦除。 而且不寫1當(dāng)前配置無效時(shí),還可以取到上一條
    發(fā)表于 01-24 08:31

    面朝歐洲,邁上“云橋”,走一條無憂絲路

    在云橋上走一條無憂絲路,去到歐羅巴的春天
    的頭像 發(fā)表于 01-10 09:44 ?1322次閱讀
    面朝歐洲,邁上“云橋”,走<b class='flag-5'>一條</b>無憂絲路

    知識(shí)圖譜基礎(chǔ)知識(shí)應(yīng)用和學(xué)術(shù)前沿趨勢

    知識(shí)圖譜(Knowledge Graph)以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系。是融合了認(rèn)知計(jì)算、知識(shí)表示與推理、信息檢索與抽取、自然語言處理、Web技術(shù)、機(jī)器學(xué)習(xí)與大數(shù)據(jù)挖掘等等方向的交叉學(xué)科。人工智能是以傳統(tǒng)符號(hào)派與目前流行的深度神經(jīng)網(wǎng)路為主,如下圖所示,
    的頭像 發(fā)表于 01-08 10:57 ?862次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>基礎(chǔ)<b class='flag-5'>知識(shí)</b>應(yīng)用和學(xué)術(shù)前沿趨勢

    數(shù)據(jù)庫編程大賽:一條SQL計(jì)算撲克牌24點(diǎn)

    參加NineData舉辦的數(shù)據(jù)庫編程大賽,展示你的技術(shù)才華!用一條SQL語句解決撲克牌24點(diǎn)的計(jì)算表達(dá)式。這場比賽面向數(shù)據(jù)庫愛好、開發(fā)、程序員、DBA等,展示你的編程技能,并有機(jī)會(huì)贏得豐厚獎(jiǎng)勵(lì)。歡迎大家來挑戰(zhàn)!
    的頭像 發(fā)表于 12-21 15:24 ?712次閱讀
    數(shù)據(jù)庫編程大賽:<b class='flag-5'>一條</b>SQL計(jì)算撲克牌24點(diǎn)