精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在社會科學中如何使用數據?

獨愛72H ? 來源:劉林華 ? 作者:電子發燒友 ? 2018-12-27 10:16 ? 次閱讀

隨著計算機、智能手機和其他電子技術的發展,網絡數據急劇增加,進而促使社會科學家發現新問題,或利用新方法解決老問題。經濟學家、政治學家、社會學家可以使用谷歌、推特、臉書、網絡博客等在線數據研究輿情、信息流動、疾病傳播等問題。網絡大數據的使用在社會研究中有三個基本優點 (Johnson and Smith, 2017)。 首先,與傳統問卷數據相比,收集網絡數據花費的時間和經費更少。傳統問卷需要時間和經費培訓調查員并對樣本人群進行提問,但大數據方法避免了上述時間和經費的開銷。第二,大數據具有即時性。時刻更新的大數據提供了第一時間研究突發事件的可能。第三,大數據具有完整性。問卷研究者總是面臨低回饋率、項目無反應 (item non-response) 等問題,但每個人對網絡大數據的貢獻卻逐年增加。雖然網絡大數據有很多優點,社會科學家在使用網絡大數據時需要考慮到其存在的局限性。本文將討論在社會科學中使用網絡數據的挑戰:缺乏代表性、測量誤差、更易出現第一型錯誤。此外,本文還將列舉出缺乏代表性問題的幾種解決辦法,包括通過真實統計數據校準網絡數據、通過雙重差分模型推測數據變化的趨勢、對網絡數據加權、以及將網絡數據視作面板數據。

1. 缺乏代表性

很多學者都指出,網絡數據存在選擇偏差,且研究者不能控制數據的代表性。由于老齡及貧困人口更少接觸互聯網,網絡數據傾向于排除這些人群。例如,Scarborough (2018) 抓取了2017年父親節、母親節期間包含女性主義關鍵詞的推特數據。通過對這些推文進行樸素貝葉斯情感分析(Na?ve Bayes sentimental analysis),作者得出了不同地區推文對女性主義的態度。為了研究推特數據的代表性程度,作者測試了推特情感指數與綜合社會調查(General Social Survey)中性別態度指數的相關性。此外,作者還研究了不同種族、性別、受教育程度的個人的推特情感指數是否可以通過他們的性別態度進行預測。結果表明,針對女性主義的推特情感指數與綜合社會調查中的性別態度指數高度相關。但推特情感指數與性別態度指數的相關性在不同種族和受教育程度的人群中存在差異:非白人人口和受教育程度低的人口使用推特較少,推特情感指數與性別態度指數的相關性也較低。上述結果表示,雖然推特是了解輿論的重要途徑,它對總體人口并不具有代表性。

2. 測量誤差

除代表性問題外,研究者還發現網絡數據存在測量誤差問題。一個經典案例就是谷歌流感趨勢的失效。Lazer等人 (2014) 發現,谷歌搜索中的流感頻率與現實中的流感爆發并不具有相關性。這就表示谷歌搜索熱度也許并不是一種可靠的測量方法。除谷歌搜索外,測量誤差還出現在社交媒體中。例如,通過臉書的“外籍墨西哥人 (Expats Mexico)”分類,研究者可以研究住在美國年滿18周歲的墨西哥移民情況 (Zagheni et al. 2017)。臉書的“外籍人士”并無明確定義,一般基于兩個因素:個人在資料欄填寫的“居住城市”和“故鄉”,及好友的社交網絡結構。作者指出這樣的定義存在潛在的測量誤差:這種定義下的“外籍人士”并不一定出生在國外,且用戶填寫的個人資料未必是真實信息。這樣的測量誤差很難解決。基于此類數據的模型要經常重新校準 (re-calibrate)。

3. 更易出現第一型錯誤

當兩個變量間出現的顯著關系是出于偶然,而非真實存在的關系時,第一型錯誤就發生了 (Barocas and Selbst 2016)。這類問題在研究者把大量變量加入模型時更容易發生:加入的變量越多,越有可能發現出于偶然的顯著關系。鑒于大數據包括大量的數據和變量,相比于傳統的理論主導 (theoretically driven) 的研究方法,研究者在數據主導 (data driven) 的研究方法中更容易出現第一型錯誤 (Boyd and Crawford 2012)。

解決辦法

1. 通過真實統計數據校準

當面對網絡數據缺乏代表性的問題時,研究者可以通過用真實統計數據校準的方法估計研究對象的數值。此方法需要對研究對象數值與他們在網上呈現的數據間的關系,及互聯網滲透 (internet penetration)與社會人口學變量間的關系做出函數假設。例如,Zagheni和Weber (2012) 通過觀察電子郵件的IP地址,研究不同年齡的人口遷出率。他們根據年齡和不同國家的互聯網滲透率建立函數,估計遷出人口的誤差值,再根據歐洲國家的人口統計數據對模型進行校準,通過對誤差的估計,修正最初觀察電子郵件得到的數據,得出真實的遷出人口數量。

但這種方法僅適用于統計數據完善的國家和地區。Zagheni和Weber (2012) 發現,一些非洲國家網民數量少、互聯網滲透率低,且缺乏完善的人口統計數據,此方法并不適用。

2. 雙重差分模型

當缺乏完善的統計數據時,研究者還可以通過雙重差分模型估計變化趨勢 (Zagheni and Weber 2012)。如果社交媒體的用戶呈現出某種相似的變化趨勢,那么研究者就可以比較某個特定群體或地區這段時間的變化與總體用戶變化的區別,從而得到這個群體的相對變化趨勢。

3. 對網絡數據加權

另一個降低缺乏代表性造成的誤差的方法是對網絡數據進行加權。類似社交媒體用戶組成的樣本或總體樣本都可以用來計算網絡數據的權重 (Diaz et al. 2015)。對數據加權便于比較不同用戶群體。例如,女性發送推特的數量總體少于男性,但更熱衷于針對政治問題發送推文。如果我們對女性用戶的數據進行加權,就可以得出更具有代表性的結果。上文提到,非白人和受教育程度低的人群在推特上缺乏代表性。對這些群體加權可以增加他們在推特上的比重,一定程度上提高代表性。

4. 將網絡數據視作面板數據

最后,面對缺乏代表性問題,與其將網絡數據看作總體樣本的代表,我們還可以將其視作面板數據,從而觀察個人或群體在一定時間內的變化。例如,Diaz等 (2015) 觀察了大選期間推特用戶最近一次討論選舉的推文和當天任何一條推文之間的時間差,多數人的時間差在一周左右。但競選辯論當天,研究者發現該時間差有顯著增加,這意味著很多之前并不熱衷于討論競選的用戶在關鍵日期加入了討論。此外,這些面板數據還可以用來研究某些事件發生前后的行為和態度變化,尤其適用于研究對某些群體有特定影響的事件。研究者可以選擇來自不同群體的社交媒體用戶,觀察他們在事件前后的變化,并發現群體間的差異。

結論

本文列舉了在社會科學中使用網絡數據的幾種挑戰:缺乏代表性、測量誤差、更易出現第一型錯誤。本文隨后列舉了缺乏代表性問題的幾種解決辦法,包括通過真實統計數據校準網絡數據、通過雙重差分模型推測數據變化的趨勢、對網絡數據加權、以及將網絡數據視作面板數據。雖然網絡數據為社會科學提供了更多研究資源,研究者在使用網絡數據時要考慮到網絡的特殊性,發現數據的不足,并盡可能縮小網絡數據與現實數據的差異。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據采集
    +關注

    關注

    38

    文章

    5906

    瀏覽量

    113518
  • 大數據
    +關注

    關注

    64

    文章

    8863

    瀏覽量

    137299
收藏 人收藏

    評論

    相關推薦

    CSSCI核心期刊《甘肅社會科學》(增刊)2010年征稿

      CSSCI核心期刊《甘肅社會科學》(增刊)2010年征稿本站常期代理CSSCI核心《江漢論壇》《社會科學研究》《社會科學研究》增刊征稿,現《甘肅社會科學》增刊開始征稿,另
    發表于 03-12 16:07

    [原創]《河北學刊》CSSCI核心編輯部最新征稿消息

    《河北學刊》CSSCI核心編輯部最新征稿消息刊 名: 河北學刊?? Hebei Academic Journal??本刊是河北省社會科學院主辦的一家大型綜合性社會科學學術理論期刊。創刊20多年來,以
    發表于 09-28 16:17

    ▲▲▲《環球市場信息導報》雜志社學術論文征稿啟事hqzw#.com

    :010-86109586010-86852716主管單位:中國社會科學院主辦單位:中國社會科學院文獻信息中心國內統一刊號:CN11-3459/F國際標準刊號:ISSN1005-4901社址:100732北京市建國門內大街5號 官方網
    發表于 08-27 15:36

    《環球市場信息導報》雜志學術論文征稿

    《環球市場信息導報》雜志社學術論文征稿啟示主管單位:中國社會科學院主辦單位:中國社會科學院文獻信息中心國內統一刊號:CN11-3459/F國際標準刊號:ISSN1005-4901社址:100732
    發表于 02-24 16:55

    西電星火杯

    到2005年的第十七屆“星火杯”競賽時,有4300余名大學生提交了1400余件優秀作品參加決賽,作品內容包括科技發明制作、計算機軟件開發設計、自然科學類論文、哲學社會科學社會調查報告和論文等4大類,涉及電子、通信、機械、環保、
    發表于 07-19 14:03

    自然辯證法(研究生)期末考試題庫相關資料分享

    僅供參考,后果概不負責第一講()實際上就是科學與馬克思主義哲學的紐帶和橋梁。這就如同歷史唯物主義是馬克思主義哲學和各門社會科學的中間環節一樣。A:社會學B:哲學C:科技與社會D:自然辯
    發表于 07-12 09:29

    社會進步的基礎是企業

    社會進步的基礎是企業 于光遠院士會見艾雷斯總裁紀行2005年3月26日,我國著名經濟學家、社會科學家、社會活動家、教育家、中科院院
    發表于 06-12 10:37 ?564次閱讀

    人工智能如何發展?擷取部分專家精彩片段,以饗讀者

    北京自然科學界和社會科學界聯席會議高峰論壇北京舉行。 此次論壇以“人工智能:技術理性與社會發展”為主題,匯聚了自然科學
    發表于 03-13 09:00 ?683次閱讀

    人工智能將如何重塑人類社會秩序?

    耶魯大學社會科學與自然科學教授尼古拉斯·克里斯塔基斯(Nicholas Christakis)在即將于4月出版的《大西洋月刊》上撰文稱,人工智能技術不僅會給我們帶來便利,還有可能在悄無聲息間影響人類社會的基本秩序。
    的頭像 發表于 03-12 14:29 ?3695次閱讀

    人工智能浪潮的計算社會科學

    計算社會科學的發展。后工業化時代的復雜社會問題催生了計算社會科學的誕生。正是其所在的大數據時代使“我們的社會開啟了一場可與印刷和互聯網帶來的
    的頭像 發表于 01-15 14:32 ?4608次閱讀

    數據社會科學研究的全數據模式時代到來了嗎?

    首先,海量的在線新聞和谷歌搜索數據雖然是大數據,但對于該項分析研究而言,它不是關于研究對象的“總體數據”。該研究的對象是可能參加投票的英國公民,但這一群體并不都是網民,非網民群體研究
    的頭像 發表于 04-21 17:27 ?3749次閱讀

    介紹正態分布電氣工程的位置

    這稱為正態分布或高斯分布。它遵循熟悉的鐘形曲線形狀,但是使用名稱“正態”或“高斯”而不是“鐘形曲線”非常重要,因為其他類型的分布具有相似的形狀。進行統計分析時,工程,物理科學社會科學
    的頭像 發表于 10-12 15:55 ?4142次閱讀
    介紹正態分布<b class='flag-5'>在</b>電氣工程<b class='flag-5'>中</b>的位置

    同茂線性馬達談2021年國社科基金立項名單

    2021年9月3日-9日,根據《中國社會科學基金管理辦法》的有關規定。
    發表于 10-29 08:12 ?322次閱讀
    同茂線性馬達談2021年<b class='flag-5'>中</b>國社科基金立項名單

    社會計算結合大數據與人工智能算法解決社會問題

    社會計算(social computing)的方法論以社會科學理論為導引,并結合大數據與人工智能算法解決社會問題。本文從大量文獻中提煉出融合大數據
    的頭像 發表于 11-25 11:39 ?1571次閱讀

    soc人工智能的創新應用

    社會計算(Social Computing, SOC)是一個跨學科領域,它結合了社會科學、計算機科學和人工智能,以理解和設計社會互動的技術
    的頭像 發表于 11-10 09:30 ?289次閱讀