精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟刪除知名數據集 撥開數據隱私的迷霧

lviY_AI_shequ ? 來源:yxw ? 2019-06-26 17:25 ? 次閱讀

微軟在日前刪除了一個名人圖片數據集。這個本為世界上最大的公開人臉識別數據集,現在已經不能通過微軟的渠道訪問。

在這次「靜默」刪除行為背后,又牽扯到了哪些問題呢?

微軟想解決的麻煩:MS Celeb 名人數據集

MS Celeb 1M 數據集,最早是微軟在 2016 年發布,其中共包含了10 萬個名人,近 1000 萬張面部圖片,而這些數據都是從網絡上搜集而來。

從網絡中 100 萬個名人中,根據受歡迎程選出 10 萬個,然后利用搜索引擎,跳出每個人的大約 100 張圖片,就得到了這個龐大的數據集。

MS Celeb 數據集中的 Jobs 圖片,

其中綠色是年輕時代的圖片,紅色是合成圖像

而這個數據集最初是用來服務比賽的。MSR IRC是世界上最高水平的圖像識別賽事之一,MS Celeb 1M 數據集最初就是這個賽事所用。

MS Celeb 1M常被用來做面部識別的訓練。但對于這些圖片均來自網絡,所以也曾受到了質疑。而微軟則表示,是根據「知識共享許可 C.C 協議」,來抓取和獲得這些圖像的。

根據協議,可以將照片重新用于學術研究,(照片中的人物并不一定授權許可,而是版權所有者授權。)但微軟發布數據集后,卻并不能掌管它的使用。英國「金融時報」進行了一項深入調查,結果表明數據被大量的用在了多個企業測試中。

包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在使用這個數據集的情況。

而這就涉及到了數據集使用的一些規范性問題,一位研究人員還指出,這涉及到人臉識別圖像數據集的倫理,起源和個人隱私等問題。

刪除原因:負責該數據集的員工離職?

微軟已經在線上默默地刪除了MS Celeb 1M,并沒有特別的說明。

Github 上數據集的下載頁面已經變成了 404

在金融時報的報道中,微軟表示「該網站主要目的是用于學術,」而刪除它的原因是,「負責運營這個項目的員工離職了,不再與微軟合作,所以進行了刪除?!?/p>

我們都相信肯定有其他原因,可能也有數據集圖片存在的問題。雖然微軟稱數據集均來自于公眾人物的照片。但其中還包括少量非知名人物。這部分人臉照片的所有者,對微軟使用他們的名稱和圖像信息,曾提出過質疑和批評。

還有技術人員推測,微軟可能會因違反歐盟《通用數據保護條例》(GDPR)而刪除數據,該法規于去年生效,旨在建立起數據安全的保護措施。

GDPR對個人信息的保護及其監管

達到了前所未有的高度

但微軟表示,它們沒有涉及到 GDPR 的條款,數據集相關網站退役只是因為,「曾經的競賽已經結束」。

當然,此次微軟移除 MS Celeb 數據集,并不妨礙它在學術研究等途徑的正常使用。那些用于處理數據庫的工具,現在也可正常訪問。

常用公開數據集,也可能有隱私問題

在英國「金融時報」調查之后,還有另外兩個學術單位也刪除了相關的數據集:分別是杜克大學的Duke MTMC 監控數據集,和斯坦福大學的Brainwash 數據集。

關于數據集和隱私問題,這不是第一次進入人們的視野。在今年 1 月底,IBM 發布了百萬級別的無偏見「人臉多樣性」數據集,就曾引發了廣泛的爭議。

雖然 IBM 強調此舉是為減少面部識別中的「偏見」問題,但數據集的來源,人物的是知情度等問題,都引發了不少質疑聲。

有媒體還報道, IBM 表示會按照被攝影者的意愿,刪除數據集里的相關照片,但都只是一面之詞,并沒有實際的行動。

今年 5 月,舊金山曾頒布法令

禁止政府機構使用人臉識別技術

對于數據集的采集和使用規則,還是一個很不太明確的區域,尤其是網絡便利之后,很多機構都能輕易地獲得大量圖片,用于面部識別等用途。

其實,對于數據集涉及的隱私問題,解決方案可以很簡單:關乎到用戶個人隱私信息時,應保證用戶的知情權,確保用戶是否愿意貢獻數據。

但似乎缺少的從來都不是方法,而是意識。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6567

    瀏覽量

    103958
  • 數據采集
    +關注

    關注

    38

    文章

    5912

    瀏覽量

    113521
  • 人臉識別
    +關注

    關注

    76

    文章

    4005

    瀏覽量

    81770
收藏 人收藏

    評論

    相關推薦

    NetApp數據恢復—NetApp存儲WAFL文件系統下誤刪除數據恢復案例

    NetApp某型號存儲,WAFL文件系統。 工作人員誤操作將該NetApp存儲中的重要數據刪除
    的頭像 發表于 10-11 14:17 ?161次閱讀

    康謀分享 | 數據隱私和匿名化:PIPL與GDPR下,如何確保數據合規?(一)

    自動駕駛技術的快速發展伴隨著數據隱私保護的嚴峻挑戰。PIPL和GDPR為自動駕駛數據合規設立了高標準。本篇文章將帶大家深入探討PIPL與GDPR的異同點,期望能夠幫助車企更好地理解并應對數據
    的頭像 發表于 09-29 10:28 ?1355次閱讀
    康謀分享 | <b class='flag-5'>數據</b><b class='flag-5'>隱私</b>和匿名化:PIPL與GDPR下,如何確保<b class='flag-5'>數據</b>合規?(一)

    Oracle數據恢復—Oracle數據庫delete刪除數據恢復方法

    刪除Oracle數據數據一般有以下2種方式:delete、drop或truncate。下面針對這2種刪除oracle數據
    的頭像 發表于 09-11 11:45 ?321次閱讀

    NetApp數據恢復—NetApp存儲誤刪除數據恢復案例

    某公司一臺NetApp存儲,該存儲中有24塊磁盤。 工作人員誤刪除了NetApp存儲中一個文件夾,文件夾中有非常重要的數據。 數據恢復工程師在現場對該存儲進行了初檢。雖然這個文件夾被刪除
    的頭像 發表于 08-12 13:35 ?226次閱讀
    NetApp<b class='flag-5'>數據</b>恢復—NetApp存儲誤<b class='flag-5'>刪除</b>的<b class='flag-5'>數據</b>恢復案例

    Oracle數據恢復—Oracle刪除數據不用怕!這些數據恢復方法了解一下

    相信有很多oracle數據庫用戶都遇到過在操作Oracle數據庫時誤刪除某些重要數據的情況,這個時候如果數據庫沒有備份且
    的頭像 發表于 07-19 16:40 ?465次閱讀

    PyTorch如何訓練自己的數據

    PyTorch是一個廣泛使用的深度學習框架,它以其靈活性、易用性和強大的動態圖特性而聞名。在訓練深度學習模型時,數據是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的數據
    的頭像 發表于 07-02 14:09 ?1332次閱讀

    服務器數據恢復—存儲中卷被刪除后重建如何恢復被刪除卷的數據

    服務器存儲數據恢復環境: 某品牌FlexStorage P5730服務器存儲,存儲中有一組由24塊硬盤組建的RAID5陣列,包括1塊熱備硬盤。 服務器存儲故障: 存儲中的2個卷被刪除,刪除之后重建了一個新卷。需要恢復之
    的頭像 發表于 06-05 11:03 ?604次閱讀

    請問NanoEdge AI數據該如何構建?

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數據的問題,請問我該怎么構建數據?或者生成模型失敗還會有哪些原因?
    發表于 05-28 07:27

    NetApp數據恢復—WAFL文件系統下誤刪除數據數據恢復案例

    某公司NetApp存儲設備,人為誤操作導致NetApp存儲內部分重要數據刪除,該NetApp存儲采用WAFL文件系統,底層是由多塊硬盤組成的raid陣列。
    的頭像 發表于 05-13 10:50 ?342次閱讀

    混亂的汽車隱私數據

    現代汽車正在跟蹤我們的數據,并以共享駕駛員位置和行為的方式實現互聯,但乘員卻無法得知這些數據的用途,也無法得知如何關閉數據收集功能——如果有這項功能的話。為此,加州一家旨在保護人們隱私
    的頭像 發表于 01-29 16:24 ?552次閱讀

    美國防部禁令對電池民間商業合作沒有影響

    國內電池企業在美國本土經營的迷霧正被逐漸撥開。
    的頭像 發表于 01-23 10:54 ?662次閱讀

    自動駕駛領域的數據匯總

    發自動駕駛論文哪少的了數據,今天筆者將為大家推薦一篇最新的綜述,總結了200多個自動駕駛領域的數據,大家堆工作量的時候也可以找一些小眾的數據
    的頭像 發表于 01-19 10:48 ?949次閱讀
    自動駕駛領域的<b class='flag-5'>數據</b><b class='flag-5'>集</b>匯總

    語音數據:探索、挑戰與應用

    隨著人工智能技術的飛速發展,語音識別技術已經滲透到我們生活的方方面面,從智能手機助手到智能家居設備,再到自動駕駛汽車,都離不開這項技術的支持。而在這些技術的背后,語音數據扮演著至關重要的角色。本文
    的頭像 發表于 12-28 13:56 ?517次閱讀

    語音數據:AI語音技術的靈魂

    一、引言 在人工智能領域,語音技術被譽為“未來人機交互的入口”,而語音數據則是AI語音技術的靈魂。本文將深入探討語音數據的重要性、構建方法、面臨的挑戰以及未來的發展趨勢。 二、語音
    的頭像 發表于 12-14 14:33 ?979次閱讀

    大模型數據:力量的源泉,進步的階梯

    一、引言 在? ? 的繁榮發展中,大模型數據的作用日益凸顯。它們如龐大的知識庫,為AI提供了豐富的信息和理解能力。本文將用一種獨特的風格來探討大模型數據的魅力和潛力。 二、大模型
    的頭像 發表于 12-07 17:18 ?642次閱讀