精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Jeff Ullman:機器學習不是數據科學的全部!統計學也不是

智能感知與物聯網技術研究所 ? 來源:智源社區夢佳 ? 作者:Jeff Ullman ? 2021-04-09 10:14 ? 次閱讀

近日,2020年圖靈獎重磅出爐,頒給了哥倫比亞大學計算機科學名譽教授 Alfred Vaino Aho 和斯坦福大學計算機科學名譽教授 Jeffrey David Ullman。

Jeff Ullman 是數據科學領域的巨擘,他的研究興趣包括數據庫理論、數據庫集成、數據挖掘等。在去年撰寫的一篇評論文章中,他用淺顯的語言重新定義了,統計學、數據科學和機器學習之間的交叉點,并破除了其中的誤讀。他認為,盡管機器學習非常重要,但它遠非實現有效數據科學所需的唯一工具。

01Have we missed the boat again?

多年來,數據庫領域有一種言論認為,數據庫系統正在變得無關緊要。

大家似乎持一種絕望的心態。“have we missed the boat-again”這句話,在數據庫社區里似乎司空見慣[8]。

但我想論證,數據庫以及由數據庫研究而產生的技術,對于“數據科學”仍然是必不可少的,特別是在解決科學、商業、醫學等應用領域的重要問題上。

數據庫系統的核心,一直是如何盡最大可能處理最大的數據量,無論是以MB為單位的企業工資單數據、TB為單位的基因組信息,還是PB為單位的的衛星輸出信息。

因此,數據庫的工作就是:研究一切相關數據。

為了論證這一觀點,我主要回答三個問題:

1. 統計真的是數據科學的重要組成部分嗎?

2. 機器學習就是數據科學的全部嗎?

3. 數據科學是否會對社會規范是否構成威脅?

我對這三個問題的回答都是“no”。我將試著依次回答這三個問題。

02數據科學 vs. 統計學:誰是誰的子集?

幾年前,我受邀參加了國家研究委員會(NRC)一個叫做“數據-科學-教育圓桌會議”的小組(詳見 [16])。

這個圓桌不是由 NRC 的計算機科學部門組織的,而是由統計部門組織的。參與者中,統計學家和計算機科學家的數量差不多,加上其他學科的一些人。當時的收獲主要是看統計學家如何思考這個數據的世界及其應用。最明顯的一點是,統計學領域將數據科學視為自己的領域。

公平地講,首先讓我們明確一點,我非常尊重統計學家和他們所做的工作。統計學在現代數據研究中變得越來越重要,包括但不限于機器學習。許多統計學家開始像數據庫界或者更其他計算機科學界那樣,關注計算和數據分析。僅舉一個小例子,我最喜歡的技術之一是局部敏感哈希算法(LSH),這是一個直接來源于數據庫社區的想法。

然而,我在斯坦福大學統計部門的一位同事 Art Owen 向我展示了關鍵步驟——最小哈希(minhashing),這一步驟很大程度上加速了這個過程——這是我們幾年前就應該能夠弄清楚的,但是沒有弄清楚。

然而,我在圓桌會議上的經驗也讓我感覺到,統計界的一些人正在努力將統計定義為數據科學的核心組成部分。相比之下,我更傾向于把高效處理大規模數據的算法和技術視為數據科學的中心。人們普遍認為,數據科學是一門結合了多個領域知識的學科,我對此完全贊同。但這些領域究竟是什么,它們又是如何相互作用的呢?

這個問題如此重要,以至于不同社區紛紛發表維恩圖來證明他們自己在數據科學中的中心地位。最近有一篇文章[10]對這些圖表進行了總結和評論。其他維恩圖表示相關的所有觀點,請查詢維基百科數據科學維恩圖。

2.1康威圖表

由于 Drew Conway的緣故(德魯 · 康威,美國數據科學家,因其對數據科學的維恩圖定義以及將數據科學應用于研究恐怖主義而聞名),統計學家們都習慣使用特定的圖表。這個圖表顯示了三個相互交叉的集合: “黑客技能”、“數學和統計學”和“實質性專業知識”。在圓桌會議上,這個圖表被多次展示,來說明統計學的重要性,我還看到統計學家在其他幾個場合展示同樣的圖表,以解釋他們的領域對數據科學的重要性。我復制了圖1中的圖表,但是我添加了一些點評來解釋圖表中存在誤區之處。(如下圖)

圖1:數據科學的康威維恩圖

事實上,幾乎圖表中的每一個區域在某種程度上都有誤導性。

1、首先,一個小問題: 所謂的“實質性專門知識”一般要統稱為”領域知識”或類似的東西。

2、最嚴重的問題是將計算機科學稱為“黑客技能”。計算機科學給數據科學帶來的遠不止是編寫代碼的能力。我們提供算法、模型和框架,來解決各種各樣的問題。所有這些在處理數據時都是必不可少的。

3、“傳統研究”在圖中顯示為數學/統計與應用的交叉領域。換句話說,在這種形式的研究中,人們只考慮實際應用,而不編寫任何代碼,因此不會影響現實世界。我不知道這是哪來的傳統,但我認為,這可不是數據庫社區的傳統。

4、機器學習在這個圖表中有一個奇怪的位置。它被描述為“黑客”加上數學/統計。這意味著機器學習和實際應用沒有任何關系。實際上,它與應用之間有著千絲萬縷的聯系,這就是為什么今天機器學習的算法如此受重視,不僅在數據庫界,而且在整個計算機科學界都是如此。

5.然后還有 Conway 所說的“危險區域”——通過編寫代碼來解決應用領域中的問題,而不需要統計學家的明智指導。幾乎所有的數據科學都是這樣的。舉一個例子,谷歌和其他郵件服務商在檢測網絡釣魚郵件方面做得很好。有多好?我們真的不知道,即使我們今天可以做一個統計分析,明天也不會奏效,因為這種威脅是不斷變化的。真正的危險是我們本來可以做得更好,卻放任那些騙子騙走可憐蟲們畢生的積蓄。

2.2我的維恩圖

我也提出了自己的維恩圖(圖2) ,我相信它能更好地描述這些領域之間的關系。有計算機科學和各個其他領域的科學,數據科學就位于這些領域交叉的某些地方。機器學習是計算機科學的一個分支——是當前一個非常重要的子領域。機器學習一部分可以用于數據科學,也有很多其他和計算相關的用途。

這當中很多應用現在被認為是“人工智能”,比如無人駕駛汽車或入侵檢測。最后,我認為數學和統計學對于所有的計算機科學都是非常重要的工具,雖然我圖表中所畫的小氣泡并沒有充分展示出它們的重要性。這樣畫是為了強調它們并不真正直接影響領域科學,而是通過在它們的幫助下開發出的軟件來產生影響。

圖2: 計算機科學、機器學習和統計學之間的關系(個人觀點)

2.3最大的區別: 數據庫和統計學價值體系

我所畫的圖中最有爭議的是,數學/統計學并不能直接解決領域的應用。畢竟,康威圖所說的“傳統研究”就是這么做的。但是,盡管應用程序和數學/統計學之間可能存在繞過計算以外的交互,但我認為這種交互很少會從應用層面產生什么實際的好處。

為了說明這種區別,我們來看一下數據科學教育圓桌會議第四次會議的報告[14]。其中討論的一部分集中在美國統計協會舉辦的“黑客馬拉松”上,名為“Datafest”。從表面上看,這個活動就像我們通常看到的計算機科學專業學生參加的黑客馬拉松。競賽團隊將得到一個來自某個應用領域的大數據集,但是在競賽評分方面有很大的不同。評分的焦點不在于是否解決了什么具體的問題,以及解決方案的質量如何。

相反,大獎頒給了“最佳數據可視化、最佳外部數據使用和最佳洞察力”。換句話說,黑客馬拉松上獲獎是因為你做了一些統計學家感興趣的事情,而不是解決了別人的實際問題。我希望讀者能從另一個角度看問題,即目標是服務,而不是自娛自樂。面向計算機科學的 Kaggle 競賽[13]正是如此。

03莫把萬物歸為機器學習

現在,讓我們來看看機器學習的興起是如何影響數據的使用的。毫無疑問,機器學習已經對我們利用數據解決問題的能力產生了巨大的影響。然而,我并不認為機器學習可以完全取代數據庫社區開發的算法。我希望讀者可以考慮三個問題:

1. 許多涉及“大數據”的問題其實并不是真正的機器學習問題;

2. 很多機器學習倡導者會把原本不屬于機器學習的方法歸類到其中;

3. 許多機器學習方法產生的神秘模型不可解釋或不可證明。

3.1 機器學習并非數據科學的全部

我認為,機器學習的一個公平的定義是利用數據創建某種模型的算法,并從中可以得到問題的答案。例如,可以使用機器學習建立垃圾郵件模型,將給定的電子郵件來喂養模型,從而判斷是或不是垃圾郵件。但并非所有有用的解決方案都可以用模型來表示。例如,我們在前面提到了局部敏感哈希數據庫(LSH) ,它是數據庫社區處理數據的一種重要技術。LSH 是一種用于在數據集中查找類似項的技術,使用它就不必查看所有數據對了。在實際應用中,LSH 是一個非常強大的工具,但是它不屬于機器學習模型。

3.2 機器學習倡導者有時把原本不屬于機器學習的方法歸入其中

比如說,聚類,它被定義為機器學習的一個分支,盡管早在機器學習出現之前,聚類就已經被研究過了。梯度下降法是另一個早于機器學習的例子,然而不知何故被普遍認為是一個機器學習的分支。另一個重要的例子是關聯規則(一種常用的無監督學習算法)。關聯規則于1993-1994年由拉凱什 · 阿格拉瓦爾和朋友首創,比幾乎所有的機器學習概念都要早。我甚至記得曾經和一位機器學習的倡導者談起,他提出 LSH“一定是機器學習,因為它真的是一個很好的方法。”但事實上,LSH 就是一個與機器學習毫無關系的大數據算法。

3.3 解釋能力

通常,機器學習算法會得出正確的結論,而這些結論只有通過所展示的模型才能夠解釋。而這種模型往往是如此復雜,以至于對于普通用戶來說毫無意義。更重要的是,這個模型,即便能夠給出正確的診斷,但可能它的推理隱藏在處理一張百萬像素的圖像中。另一方面,有時候,我們有權要求解釋。例如,如果你的保險公司提高了你的保險費率,原因是一些預測汽車事故的模型顯示你的事故發生率提高了,至少你得知道為什么會這樣。

但是,非機器學習方法通常比機器學習模型更可解釋。為了看出區別,以通過關聯規則識別垃圾郵件為例。產生一組“規則”,在這種情況下可以是一組單詞,它們在電子郵件中的出現表明它是垃圾郵件。

您可能認為這些規則就是垃圾郵件的模型,這也就是為什么機器學習倡導者認為關聯規則屬于機器學習。但實際上,用于尋找關聯規則的算法并沒有從數據中“學習”到一個模型。

他們只是簡單地計算包含某些單詞的垃圾郵件的數量,如果這個數量足夠高,他們就宣布一條規則,即包含這些單詞的郵件是垃圾郵件。假如一個規則說,包含{ Nigerian,prince }單詞的電子郵件是垃圾郵件。

相比之下,即使是最簡單的機器學習技術,比如學習每個可能的單詞的(正負)權重,以及在權重總和超過閾值時聲明是垃圾郵件,也比基于關聯規則的解決方案更準確。

但問題是關聯規則方法是可解釋的,而機器學習模型則不能。如果我真的是一個尼日利亞王子,我所有的電子郵件都被關聯規則方法判定為垃圾郵件,那么至少我可以理解其中的原因。而另一方面,如果你問 gmail 為什么它判斷某些東西是垃圾郵件,它通常的回答類似于“它看起來像其他垃圾郵件。”也就是說,gmail在使用的模型告訴你它是垃圾郵件,其余的無可奉告。

04我們不要責怪數據

我們經常會把社會的弊病歸咎于數據。錯誤主要來源于:

1. 人們有意或無意地錯誤使用數據,或

2. 數據忠實地反映了現實問題。

4.1 數據濫用

在數據-科學-教育圓桌會議上,在第五次會議上有一個關于數據倫理的討論[15]。舉例說明,一個城市希望在犯罪高發的地區部署警力。警察們手握逮捕發生地的數據,結果是他們在那些地區確實逮捕了更多的人。但是,逮捕行動并不僅僅反映犯罪的發生,也反映了警察到場進行逮捕行動本身。數據造成了誤區。就是說,歷史原因,警察優先被派往某些地區,數據真實地反映出,在那些地區有更多的人被捕。也許本質上只是因為,在警力不足的地方,逮捕率較低。

數據可能使偏見永久化的另一個常見例子,一家公司在決定晉升時總是歧視婦女。他們希望利用機器學習建立一個AI系統,來處理簡歷,并識別那些與他們成功晉升員工相似的特征。

但數據顯示,女性候選人往往不會成功,機器學習算法便從數據中學習,從而拒絕女性的申請。這些數據再次延續了現有的偏見。但是這些數據并沒有產生偏見,而是人產生了偏見。

4.2 數據反映了一個我們不喜歡的世界

有一種對數據使用的指責是,由數據產生的系統反映了說話者所反對的社會的某些東西。這種誤讀的一個明顯例子涉及 Word2Vec [13] ,這是谷歌幾年前開發的一個系統(后來被BERT所取代) ,該系統將單詞嵌入到高維向量空間中,從而使具有相似意義的單詞具有相近的向量。直觀的想法是看看通常圍繞在單詞 w 周圍的單詞。那么 w 的向量就是與其周圍關聯單詞的方向的加權組合。例如,我們預期「可口可樂」和「百事可樂」有相似的向量,因為人們談論它們的方式大致相同。

當觀察到某些向量方程的規律時,問題就出現了,例如作為向量,

London ? England + France = Paris

也就是說,倫敦和巴黎,作為各自國家的首都和最大的城市,周圍有許多反映這種地位的詞匯。我們預期倫敦周圍會有更多與英格蘭有關的詞匯,所以把它們拿走,代之以與法國有關的詞匯。

這個觀察結果無關緊要,但是其他方程式引起了一些嚴重的爭議,例如,

doctor ? man + woman = nurse

這個方程式,它是在要求“給我找一個像醫生一樣的職業詞匯,但要更傾向于女性。”。大約50% 的醫生是女性,但接近90% 的護士是女性。我們希望醫生和護士這兩個詞是相似的,但是后者更多地出現在「她」這樣的詞附近。所以這個等式是有一定道理的。

這些負面例子真正反映的是,在這個社會中,女性更有可能和護理崗位聯系到一起。我同意,很可能在不遠的將來,情況會變化。但我的觀點是: 不要責怪數據。像 Word2Vec 或者 BERT 這樣的系統,當在一個像維基百科這樣的大型語料庫上訓練時,將會反映出廣大公眾使用的語言,而這種數據的使用又會反映出人們普遍認為是真實的東西,不管我們是否喜歡這個真實。

The Last Word

我希望讀者可以吸收到以下想法:

?數據及其管理仍然是數據科學的本質。

?盡管機器學習非常重要,但它遠非實現有效數據科學所需的唯一工具或想法。

?盡管數據有誤用的情況,但如果數據反映的是世界的本來面目,而不是我們希望的那樣,我們就不應該責怪數據本身。

原文鏈接為:http://sites.computer.org/debull/A20june/p8.pdf

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1791

    文章

    46859

    瀏覽量

    237577
  • 數據庫系統
    +關注

    關注

    0

    文章

    31

    瀏覽量

    9586
  • 機器學習
    +關注

    關注

    66

    文章

    8377

    瀏覽量

    132409

原文標題:圖靈獎得主Jeff Ullman直言:機器學習不是數據科學的全部!統計學也不是

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ADS1110只改變負載電阻的時候,采集到的數據不是線性的,為什么?

    您好,最近在用ADS1110測電流的時候遇到了一些問題,在恒定電壓,只改變負載電阻值的情況下,測到進ADS1110的電壓是線性的,但是IIC采集到的數據不是線性的,不是連續的。m
    發表于 11-22 06:38

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求在不斷增長。NPU作為一種專門為深度學習
    的頭像 發表于 11-15 09:19 ?307次閱讀

    《AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    人工智能在科學研究中的核心技術,包括機器學習、深度學習、神經網絡等。這些技術構成了AI for Science的基石,使得AI能夠處理和分析復雜的
    發表于 10-14 09:16

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    人工智能:科學研究的加速器 第一章清晰地闡述了人工智能作為科學研究工具的強大功能。通過機器學習、深度學習等先進技術,AI能夠處理和分析海量
    發表于 10-14 09:12

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    個重要環節,目標是從給定的時間序列數據中提取出有用的信息和特征,以支持后續的分析和預測任務。 特征工程(Feature Engineering)是將數據轉換為更好地表示潛在問題的特征,從而提高機器
    發表于 08-17 21:12

    機器學習中的數據分割方法

    機器學習中,數據分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習
    的頭像 發表于 07-10 16:10 ?1313次閱讀

    按照這樣學習C語言,成為卷王不是夢!

    一些學習C語言的建議,讓你在學習之路上更加游刃有余,成為C語言的高手。按照這樣學習C語言,成為卷王不是夢要想成為C語言的“卷王”,首先要打好理論基礎。理解C語言的
    的頭像 發表于 07-06 08:04 ?289次閱讀
    按照這樣<b class='flag-5'>學習</b>C語言,成為卷王<b class='flag-5'>不是</b>夢!

    數據分析除了spss還有什么

    Sciences)是一款非常流行的統計分析軟件,但除了SPSS之外,還有許多其他數據分析工具和方法。 引言 數據分析是一個跨學科的領域,涉及到統計學、計算機
    的頭像 發表于 07-05 15:01 ?543次閱讀

    機器學習數據分析中的應用

    隨著大數據時代的到來,數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從
    的頭像 發表于 07-02 11:22 ?544次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據
    的頭像 發表于 06-27 08:27 ?1576次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經典算法與應用

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    設備的運行狀況,生成各種維度的報告。 同時,通過大數據分析和機器學習技術,可以對業務進行預測和預警,從而協助社會和企業進行科學決策、降低成本并創造新的價值。 當今時代,
    發表于 06-25 15:00

    芯海IDE,編譯后突然閃退,后續編譯就都出現不是內部或外部命令,不是可運行的程序,該如何解決

    芯海IDE,編譯后突然閃退,后續編譯就都出現不是內部或外部命令,不是可運行的程序,該如何解決 新建工程的范例編譯出現這個
    發表于 06-15 11:59

    如何系統、科學地自學單片機?

    很多初學者都會面臨這個問題,我想學習單片機、我想學好單片機、我想系統地學習單片機,但是單片機涉及到的學科多且雜根本不是三天兩天就能
    的頭像 發表于 03-28 08:03 ?1001次閱讀
    如何系統、<b class='flag-5'>科學</b>地自學單片機?

    【量子計算機重構未來 | 閱讀體驗】+機器學習的終點是量子計算?

    便對機器的計算能力產生了興趣,雖然不是這個專業的,但是可以抽出閑魚的時間,來了解一下,可以通過學習來掌握一些技能。 目前只有在閑暇之余做一些代碼的工作了。 希望以后能夠用的上。 其次
    發表于 03-10 16:33

    數據挖掘的應用領域,并舉例說明

    數據挖掘(Data Mining)是一種從大量數據中提取出有意義的信息和模式的技術。它結合了數據庫、統計學機器
    的頭像 發表于 02-03 14:19 ?2921次閱讀