近期,來自艾倫人工智能研究所的研究人員對計算機領域中的性別問題做了深入分析。實驗表明,本世紀男性和女性作者數量將不會持平、不同性別作者之間協作率在下降。
性別平等問題似乎一直是個熱議的話題,學術界也是如此。
去年8月,名稱一直飽受爭議的國際頂會NIPS,因在會議中遇到的性騷擾,再次將NIPS推上風口浪尖。
同年11月17日,NIPS官網將會議名稱默默改為NeurIPS。至此,有關該頂會性別歧視、性別平等的問題算是得到了相應的解決。
而近期,一項來自艾倫人工智能研究所(Allen Institute for Artificial Intelligence)的論文對計算機領域中的性別問題做了深入的分析與研究。
論文地址:
https://arxiv.org/pdf/1906.07883.pdf
這項研究對計算機領域近287萬篇文獻(截至2018年)進行了全面的分析,結果表明:
如果按照當前的趨勢發展下去,本世紀男性和女性作者數量將不會持平;
若是按照較為樂觀的預測結果,性別平等預計將在2100年之前實現;
對計算機科學協作趨勢進行分析后表明,不同性別作者之間協作率在下降。
287萬篇計算機論文做實驗數據
研究人員所要試圖解決的問題包括:
論文作者之間的性別平衡如何隨時間而變化?
論文作者的性別將在何時達到平衡狀態?
協同作者之間的性別存在怎樣的關系?
研究人員通過對計算機科學會議和期刊(287萬篇論文)中的文獻原數據進行自動化研究,并利用Semantic Scholar學術搜索引擎中的數據來回答上述這些問題。
數據統計如下所示:
表1Computer Science and Medline語料庫統計
作者列表從所有出版物中提取,并編譯成一個名字列表。研究人員使用Gender API為每個名稱執行性別查找。對于每個名稱,Gender API輸出預測的二進制性別(女性或男性),以及與預測相關的準確性和用于確定的樣本數量。只有首字母可用的作者(少于語料庫中所有作者的0.5%)被排除在分析之外。
(性別應用程序接口(Gender API)是一個大型的在線數據庫,通過將各國公開的政府數據與社交媒體資料鏈接起來,可以獲得已知的姓名和性別關系。)
但此時卻存在一個問題:很多名字都是性別模糊的。因此研究人員使用Gender API返回的準確性來表示每個作者是男性和女性的復合。
例如,第一個名字Matthew被確定為男性,準確率最高為100。這個結果是明確的。然而,Taylor這個名字被確定為女性的正確率僅為55分。
精度用于為每個名稱生成兩個概率(m, f),其中m為關聯作者為男性的概率,f為關聯作者為女性的概率,其中m + f = 1。在本例中,每個姓Matthew的作者將用概率元組(1.0,0.0)表示,每個姓Taylor的作者將用概率元組(0.45,0.55)表示。
本世紀男女性別平衡較為困難,女性協作者呈下降趨勢
通過實驗,計算機科學語料庫中的287萬篇論文產生了824萬個 author-paper units。
作者的趨勢
圖1
如圖1所示,按照目前的增長速度,女性作者的比例預計在2137年左右達到0.45(95%置信區間:[2109,2172])。
圖2
圖2顯示了一段時間內女性和男性作者的數量。隨著時間的推移,作家的總數在增加,女性作家的比例也在增加。
圖3
圖3顯示了對均衡女性作者比例參數α的敏感性分析。該分析顯示了在每個均衡比例中首次達到平等的年份。
當均衡比例被認為有利于女性而非男性(高于0.5)時,達到平衡的年份會更早。即使女性最終將占所有出版物的90%,但按照目前的增長速度,預計到2100年左右將實現男女平等。
協作者趨勢
此處統計的是每年計算機科學中相同和不同性別的協作者人數。
圖4
圖4顯示了自1995年以來相同/不同性別協作者的額外和缺失的數量。在男性和女性中,相同性別的合作作者比預期的要多,而不同性別的合作作者比預期的要少。近年來(與預期數字相比),每年有超過2萬個不同性別的合作項目消失。
通過分析觀察到的與預期的比率,協作者的趨勢還是較為悲觀的。
雖然男性和女性都更有可能與自己性別的作者合作,但在女性作者中,同性偏好的程度正在下降,而在男性作者中卻在上升。
與此同時,不同性別之間的協作差距(O/E < 1.0)也在不斷擴大。盡管近年來有更多的跨性別合作機會(由于在該領域工作的女性科學家的增加),但觀察到的跨性別合作的數量并沒有如預期的那樣增加。
與Medline的比較
Medline語料庫包括1163萬篇論文,可以產生4766萬個author-paper units。
圖5
圖5顯示了Medline語料庫中女性和男性作者的數量。
圖6
圖6顯示了使用ARIMA預測女性作者的預計比例。
2002年Medline語料庫數據中可以觀察到不連續性。這是由于Medline索引記錄中的完整作者姓名是從2002年才開始要求的。
2002年這一比例的下降表明,Medline期刊沒有對作者使用全名,才造成了2002年以前女性作者比例高的假象。
工作總結
研究人員對計算機科學文獻(287萬篇論文)進行了全面分析,以評估作者之間的性別趨勢。
根據最近的趨勢,預計計算機科學中女性作者的比例在本世紀不會達到平等,并且在更現實的假設下,可能需要更長的時間。
研究人員還觀察到跨性別合作的數量低于預期,觀察到的預期比率隨著時間的推移而下降。
計算機科學領域女性科學家的比例增長緩慢,這繼續對進入該領域的女性構成挑戰。并且女性科學家在尋找合作者方面可能比男性科學家面臨更多的挑戰。
研究人員希望,這些發現將激勵該領域的其他人評估他們與這些性別偏見的關系,并考慮改善現狀的方法。
-
計算機
+關注
關注
19文章
7425瀏覽量
87719 -
數據庫
+關注
關注
7文章
3766瀏覽量
64277 -
人工智能
+關注
關注
1791文章
46872瀏覽量
237594
原文標題:287萬篇CS文獻數據分析:性別差距100年難消除,男女搭配協作更累?
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論