精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

人工智能使用的數據集多存在性別歧視和種族主義

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-08-08 09:16 ? 次閱讀

編者按:上個月,李飛飛曾推薦斯坦福學者發表在Nature上的一則短文,文章指出現在人工智能使用的數據集多存在性別歧視和種族主義:“醫生”是男性,“護士”是女性,維基百科人物詞條中只有18%是女性,而這些女性的事跡會被頻繁鏈接到男性事跡中。這個問題的解決辦法有兩個,一是規范數據集制作,二是開發納入約束機制的算法。本文介紹的Quicksilver就是其中的第一種方法。

生成示例:Andrej Karpathy

是的,你沒看錯,作為計算機視覺深度學習領域的頂級專家之一,特斯拉人工智能與自動駕駛視覺總監,李飛飛高徒,維基百科沒有收錄Andrej Karpathy本人的詞條。

以下是Quicksilver為它編寫的詞條內容(英語直譯):

Andrej Karpathy是特斯拉研究員1,2,人工智能和深度學習領域的專家3,4。

Andrej Karpathy是加利福尼亞州斯坦福大學的計算機科學博士生,研究方向是用于語言建模的自然語言處理(NLP)和循環神經網絡(RNN)5。他主要在學術界工作,但去年9月,他作為研究科學家加入了特斯拉的人工智能部門OpenAI6。Karpathy的大部分研究都圍繞圖像識別和圖像理解7。他的Reddit用戶名badmephisto,同樣也是他的YouTube賬號名,來自他致力于解決的問題——魔方7。

事跡

如何實現完美自拍,基于200萬張圖像的研究——2015年10月30日 這些是Karpathy在研究中挑選出的頂級自拍圖像,原圖來自網絡。斯坦福大學計算機科學畢業生Andrej Karpathy使用來自網絡的200萬張自拍圖像,訓練了一個人工神經網絡,用來區分哪些是好自拍,哪些是差自拍。他的神經網絡包含1.4億個不同的參數,可以為輸入的數百萬張圖像輸出結果。他得出的結論是:自拍的好壞很大程度上取決于圖像風格,而不僅僅是人的外貌。10

特斯拉聘請深度學習專家Andrej Karpathy領導Autopilot——2017年6月21日 ……(略)

上任兩年后,特斯拉的Autopilot首席執行官辭職——2018年4月26日 ……(略)

引用

A.I. Researchers Leave Elon Musk Lab to Begin Robotics Start-UpNew York Times,2017-11-07

A.I. Researchers Are Making More Than $1 Million, Even at a NonprofitNew York Times,2018-04-19 ……

維基百科的問題

每當我們在Google上搜索著名人物時,維基百科通常是第一個彈出來的頁面。現如今,從查找作業資料的學生,到搜集資料的編輯記者,這個免費的數字百科全書已經成為各個年齡段的首選工具。但近期人們卻發現,維基百科也出現了令人不安的趨勢。

不少人指出,維基百科正顯示出性別歧視,簡而言之,即很多著名女性人物沒有她們的專屬頁面。以Mirian Adelson為例,她是一名多才多藝的醫生,一生發表過上百篇關于生理成癮和治療的研究論文,她在拉斯維加斯經營著一家備受矚目的藥物濫用診所,她也是以色列最大報紙的出版商、著名慈善家。但維基百科并沒有收錄她的詞條(8月4日更新后新增了)。

擁有相同遭遇的還有MIT MechE的部門的新負責人Evelyn Wang,她致力于為沙漠地區居民研究生成飲用水的設備。如果說維基百科在收錄女性詞條上更苛刻,但它其實對看似被“優待”的男性也不完全友好。研究人員統計了30000名計算機科學家,發現維基百科只收錄了其中的15%。

換言之,面對不斷更新的信息,維基百科在時效性和完備性上仍面對重大挑戰。

事實上,除了以上提及的缺漏現象,維基百科在現有詞條維護上也有些力不從心,以華盛頓大學校長Ana Mari Cauce為例。自從特朗普政府宣布啟動延遲兒童入境行動(DACA)以來,Cauce多次聲明華盛頓大學會繼續向移民學生提供各項福利,這在美國產生極大影響,但他的詞條內容卻遲遲沒有更新。

維基百科是學界重要的語料來源之一,但它卻展示出非常嚴重的滯后性和偏見,可想而知,我們不能指望用它來構建合理模型。

Quicksilver如何運作

從自然語言處理角度看,用模型自動生成維基百科風格詞條是可能的。對于這類問題,現在采取的普遍方法是多本文摘要:給定一組包含有關實體信息的參考文檔,生成實體的摘要。

前人的研究

其實早在十年前,Biadsy等人就已經嘗試過生成類似人物介紹,他們提出的算法是對源文本中的相關句子進行排序和剪切,然后再拼湊成最終文本。這樣做的優點是語句十分連貫,因為它們都由人類編寫。但它的局限也很大,就是機器只能組合人類寫過的內容,無法自己創作。

近年來,研究人員開始由上述提取式生成轉向抽象概括,這種技術使用神經語言模型來動態生成文本,缺點是模型為了“連貫性”會生成不少無意義內容。對此,斯坦福大學的See等人提出指針生成器網絡,它可以為抽象模型提供一個信息提取回退的選項,有機結合了提取式和抽象概括式兩種方法。

為了避免從源文本中引用重復內容,See等人提出的指針生成器網絡可以通過指向復制單詞,從固定詞匯表生成單詞,從而糾正提取式摘要的表述

基于上述研究,今年Google AI的Peter Liu團隊在ICLR上展示了一篇論文:Generating WIKIPEDIA by Summarizing Long Sequences。他們先把提取式摘要作為約束輸入文本的第一步,再對輸出文本進行抽樣概括,這樣做形成的文本非常驚艷,它們既保留了人類編寫的流暢性,也出現了大量模型“自創”的表述。

Quicksilver

Quicksilver是美國創業公司Primer開發的一款軟件,它沿用了Google AI的基礎架構,但目的更加簡單實在,就是開發一個可用于構建和維護維基百科等知識庫的系統,而不是將維基百科作為文本摘要算法的學術測試平臺。除了生成連貫文本,Quicksilver還需要能追蹤數據來源,以便最終輸出的任何語句都能指示其引用來源。

簡單來看,它的基本思路就是通過交叉引用維基百科詞條和從學術搜索引擎(文中稱為語義學者)中抽取的作者列表,來檢測其中和詞條人物有關的信息。提取這些信息并進行組合,最后用只包含一個解碼器的抽象概括模塊使輸出文本更連貫。

為了追求時效性,研究人員基于維基數據,制作了一個和seq2seq模型相結合的知識庫。對于了解科學家的生平事跡,使用維基數據的結構數據是一個關鍵突破,它既做到了映射新聞文檔,又可以通過添加遠程監督機制,讓知識庫實現自我更新。

以下是Quicksilver的具體流程:

目前,Quicksilver已經在3萬份科學家數據中經過訓練,并生成了40000余份維基百科風格的人物簡介,其中有多篇已被維基百科收錄。它也重點關照了女性詞條缺失的現象,在2小時內為70名女科學家更新了她們的詞條。

小結

維基百科的受歡迎程度和它對社會造成的影響息息相關,學界呼吁一個更具代表性的數據集,我們也期望一本剔除了不平等思維的百科全書。Quicksilver讓我們看到了用機器學習技術糾正偏見思維的可能性,這項研究不僅有助于把代表性不足的科學家群體置于燈光下,它也成了后期ML研究的一個光輝榜樣。

Quicksilver背后的算法不難理解,但它的設計依然非常復雜。除了學術上的啟示,從工業角度看,這種技術在中文維基百科和國內其他百科的維護上都有用武之地,值得進行嘗試。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4600

    瀏覽量

    92646
  • 人工智能
    +關注

    關注

    1791

    文章

    46866

    瀏覽量

    237589
  • 機器學習
    +關注

    關注

    66

    文章

    8378

    瀏覽量

    132415

原文標題:告別歧視和偏見,用AI自動生成維基百科詞條

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    嵌入式和人工智能究竟是什么關系?

    、連接主義和深度學習等不同的階段。目前,人工智能已經廣泛應用于各種領域,如自然語言處理、計算機視覺、智能推薦等。 嵌入式系統和人工智能在許多方面都
    發表于 11-14 16:39

    人工智能是什么?

    的階段。阻礙前行的因素很多,要攻克的技術難點也很多,但這些問題在人工智能領域的專家來看,技術的積累都只是時間問題,對人工智能技術做更進一步剖析的話,其實就是“算法”+“海量數據”。更通俗一點就是:在
    發表于 09-16 15:40

    那個涉嫌性別歧視被開除的谷歌工程師,到底吐槽了些什么?

    (inclusion),我不否認性別歧視(sexism)的存在,并且我反對刻板印象(stereotype)。如果我們想解決群體比例上的差距(指公司工程師中男女比例與人口中的男女比例的差異),我們需要審視群體分布上的差異
    發表于 08-15 10:36

    數據人工智能發展的重要性

    。APP時代,我們常說中國創業成本達到歷史新低,很不幸,人工智能加大數據,創業成本將會達到歷史新高。 第三是數據量需要非常數據收集是一個
    發表于 10-09 15:26

    解讀人工智能的未來

    而言,我們能夠實現的只是一種狹義的人工智能,它需要由人類精心準備數據然后進行人工訓練。例如,如果要教會AI識別貓的圖片,你需要有一個龐大的照片數據
    發表于 11-14 10:43

    人工智能醫生未來或上線,人工智能醫療市場規模持續增長

    一直到后期的診斷、治療和評估。   不過,就目前的技術限制,在人工智能輸入的數據和其輸出的答案之間,通常存在著無法洞悉的“隱層”,被稱為“黑箱”。“黑箱”存在的后果,就是難以判斷
    發表于 02-24 09:29

    人工智能:超越炒作

    。對于人工智能用例在當前物聯網環境中變為現實,必須滿足三個條件:非常大的真實數據具有重要處理能力的硬件架構和環境開發新的強大算法和人工神經網絡(ANN)以充分利用上述內容很明顯,后兩
    發表于 05-29 10:46

    基于人工智能的傳感器數據協同作用

    各種來源的大量數據,識別各種模式、提供交互式理解和進行智能預測。這種創新發展的一個例子就是將人工智能應用于由傳感器生成的數據,尤其是通過智能
    發表于 07-25 06:20

    只要6秒 AI人工智能只要聽聲音就能描繪你的長相

      你相信嗎?AI人工智慧最近已經進化到,只要花6秒的時間,聽到你的聲音除可以分辨出你的性別、年紀與種族外,甚至可以描繪出你的長相。  這款由麻省理工學院(MIT)所打造出來的AI,研究人員用一個由
    發表于 07-29 15:49

    MIT創造了一種減少AI偏差的方法 AI性別歧視有救

    在社交媒體的應用場景中,人工智能算法模型的偏差導致搜索結果或用戶體驗不佳常常出現,甚至可以說是無法規避,如人們熟知的大數據殺熟等。可以預見,當AI應用到醫療保健、自動駕駛汽車、刑事司法或刑事處理等
    發表于 11-19 10:52 ?1424次閱讀

    那些潛藏在高大上的學術會議背后的種族性別歧視

    假休息日時,Twitter 上卻迎來了人工智能界的“扛把子”Anima Anandkumar 的連篇炮轟。她在其最新的推文中指出 Yann LeCun 存在性別歧視,Moshe
    的頭像 發表于 12-27 10:00 ?3501次閱讀

    IBM打造百萬人臉數據 意圖減少AI偏見與歧視問題

    科技中立,但人制造出來的 AI 卻可能帶有偏見或歧視。AI 偏見情況像是性別歧視種族歧視,例如面部偵測算法在識別白人時的準確率比識別黑人高許多,男性跟女性類別也存在類似問題,讓軟件識
    發表于 02-13 08:47 ?517次閱讀

    人工智能存在種族歧視

    有望借助大家的聲音反抗現有種族格局,大大改變全球多數老齡化人口使用技術的方式。
    發表于 09-10 16:31 ?1380次閱讀

    人工智能存在性別歧視

    谷歌人工智能工具用于標記圖像中的內容,將不再給人們貼性別標簽。
    發表于 02-25 16:35 ?1207次閱讀

    蘋果宣布REJI項目,旨在解決種族主義

    1月14日上午消息,蘋果公司今天宣布“REJI”項目,旨在解決種族主義,幫助消除有色人種面臨的不公正待遇。
    的頭像 發表于 01-14 11:52 ?2368次閱讀