精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習數據集,哪里可以獲得這些數據?

8g3K_AI_Thinker ? 來源:未知 ? 作者:李倩 ? 2018-04-27 16:28 ? 次閱讀

深度學習(或生活中的大部分領域)的關鍵是演練。演練各種問題-從圖像處理到語音識別。每個問題都有其獨特的細微差別和方法。

但是,哪里可以獲得這些數據?現今你看到的很多研究論文都使用通常不向公眾開放的專有數據集。而這成為了如果你學習并應用你新掌握的技能的阻礙。

如果你也遇到此問題,我們有解決方案提供給你。我們挑選了一系列公開可用的數據集供各位詳細閱讀。

在本文中,我們列出了一系列高質量的數據集,每個深度學習愛好者都可以應用和改進他們的技能。使用這些數據集將使你成為一名更好的數據科學家,同時你所學到的知識將對你的職業生涯產生無價的幫助-。我們還收錄了具有最新技術(SOTA)結果的論文供你瀏覽并改進你的模型。

▌如何使用這些數據集

首先要做的事-這些數據集的容量相當大!所以請確保你的網絡是高速的、不限流量或有很多流量地下載數據。

有很多種可以使用這些數據集的方式。你可以使用它們來應用各種深度學習技巧。也可以使用它們來磨練你的技能,了解如何識別和構建每個問題,思考獨特的使用案例并展示給所有人你的發現,讓大家都可以看到!

這些數據集分為三類-圖像處理,自然語言處理,以及音頻/語音處理。

讓我們開始更深入的了解!

▌圖像處理

MNIST

MNIST是最受歡迎的深度學習數據集之一。這是一個手寫數字數據集,包含一組60,000個示例的訓練集和一組10,000個示例的測試集。這是一個對于在實際數據中嘗試學習技術和深度識別模式的很好的數據庫,同時嘗試學習如何在數據預處理中花費最少的時間和精力。

大?。?50 MB

記錄數量:分為10個類別的70,000個圖片

SOTA:Dynamic Routing Between Capsules

MS-COCO

COCO是一個規模大且豐富的物體檢測,分割和字幕數據集。它有幾個特點:

物體分割

文中識別

超像素物質分割

330K圖像(> 200K標記)

150萬個物體實例

80個物體類別

91個物質類別

每張圖片5個字幕

250,000有關鍵點的人

大?。?25 GB(壓縮)

記錄數量:330K圖像,80個物體類別,每幅圖像5個字幕,250,000個有關鍵點的人

SOTA:Mask R-CNN

ImageNet

ImageNet是依據WordNet層次結構組織的圖像數據集。WordNet包含大約100,000個短語,ImageNet提供了平均大約1000個圖像來說明每個短語。

大?。?150GB

記錄數量:圖像總數:?1,500,000;每個都有多個邊界框和相應的類標簽

SOTA:Aggregated Residual Transformations for Deep Neural Networks

Open Images Dataset

Open Images是一個包含近900萬個圖像URL的數據集。這些圖像已經用數千個類別的圖像級標簽邊框進行了注釋。該數據集包含9,011,219張圖像的訓練集,41,260張圖像的驗證集以及125,436張圖像的測試集。

大?。?00 GB(壓縮)

記錄數量:9,011,219張超過5k標簽的圖像

SOTA:Resnet 101圖像分類模型(在V2數據上訓練):Model checkpoint,Checkpoint readme,Inference code.

VisualQA

VQA是一個包含有關圖像的開放式問題的數據集。這些問題需要理解是視覺和語言。這個數據集有一些有趣的特點:

265,016張圖片(COCO和抽象場景)

每張圖片至少有3個問題(平均5.4個問題)

每個問題10個基于事實答案

每個問題3個似乎合理(但看起來不正確)的答案

自動評估指標

大?。?5 GB(壓縮)

記錄數量:265,016張圖片,每張圖片至少3個問題,每個問題10個基于事實答案

SOTA:Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

The Street View House Numbers (SVHN)

這是用于開發物體檢測算法的真實世界圖像數據集。這些只需要最少的數據預處理。它與本列表中提到的MNIST數據集類似,但擁有更多標簽數據(超過600,000個圖像)。這些數據是從谷歌街景中查看的房屋號碼中收集的。

大小:2.5 GB

記錄數量:10個課程中的6,30,420張圖片

SOTA:Distributional Smoothing With Virtual Adversarial Training

CIFAR-10

這是另一個圖像分類的數據集。它包含了10個類別的60,000個圖像(每個類在上圖中表示為一行)??偣灿?0,000個訓練圖像和10,000個測試圖像。數據集分為6個部分- 5個培訓批次和1個測試批次。每批有10,000個圖像。

大?。?70 MB

記錄數量:10個類別的60,000張圖片

SOT:ShakeDrop regularization

Fashion-MNIST

Fashion-MNIST包含60,000個訓練圖像和10,000個測試圖像。它是一個類似MNIST的時尚產品數據庫。開發人員認為MNIST已被過度使用,因此他們將其作為MNIST的直接替代品。每張圖片都以灰度顯示,并與10個類別的標簽相關聯。

大小:30 MB

記錄數量:10個類別的70,000張圖片

SOTA:Random Erasing Data Augmentation

▌自然語言處理

IMDB Reviews

這是一個電影愛好者的夢寐以求的數據集。它意味著二元情感分類,并具有比此領域以前的任何數據集更多的數據。除了訓練和測試評估示例之外,還有更多未標記的數據可供使用。包括文本和預處理的詞袋格式。

大?。?0 MB

記錄數量:25,000個高度差異化的電影評論用于訓練,25,000個測試

SOTA:Learning Structured Text Representations

Twenty Newsgroups

顧名思義,該數據集包含有關新聞組的信息。為了選擇這個數據集,從20個不同的新聞組中挑選了1000篇新聞文章。這些文章具有一定特征,如主題行,簽名和引用。

大?。?0 MB

記錄數量:來自20個新聞組的20,000條消息

DOTA:Very Deep Convolutional Networks for Text Classification

Sentiment140

Sentiment140是一個可用于情感分析的數據集。一個流行的數據集,非常適合開始你的NLP旅程。情緒已經從數據中預先移除。最終的數據集具有以下6個特征:

推文的極性

推文的ID

推文的日期

問題

推文的用戶名

推文的文本

大?。?0 MB(壓縮)

記錄數量:160,000條推文

SOTA:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets

WordNet

在上面的ImageNet數據集中提到,WordNet是一個很大的英文同義詞集。 同義詞集是每個都描述了不同的概念的同義詞組。WordNet的結構使其成為NLP非常有用的工具。

大?。?0 MB

記錄數量:117,000個同義詞集通過少量“概念關系”與其他同義詞集相關聯。

SOTA:Wordnets: State of the Art and Perspectives

Yelp Reviews

這是Yelp為了學習目的而發布的一個開源數據集。它包含了由數百萬用戶評論,商業屬性和來自多個大都市地區的超過20萬張照片。這是一個非常常用的全球NLP挑戰數據集。

大小:2.66 GB JSON,2.9 GB SQL和7.5 GB照片(全部壓縮)

記錄數量:5,200,000條評論,174,000條商業屬性,20萬張圖片和11個大都市區

SOTA:Attentive Convolution

The Wikipedia Corpus

這個數據集是維基百科全文的集合。它包含來自400多萬篇文章的將近19億字。使得這個成為強大的NLP數據集的是你可以通過單詞,短語或段落本身的一部分進行搜索。

大?。?0 MB

記錄數量:4,400,000篇文章,19億字

SOTA:Breaking The Softmax Bottelneck: A High-Rank RNN language Model

The Blog Authorship Corpus

這個數據集包含了從blogger.com收集的數千名博主的博客帖子。每個博客都作為一個單獨的文件提供。每個博客至少包含200個常用英語單詞。

大小:300 MB

記錄數量:681,288個帖子,超過1.4億字

SOTA:Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution

Machine Translation of Various Languages

此數據集包含四種歐洲語言的訓練數據。這里的任務是改進當前的翻譯方法。您可以參加以下任何語言組合:

英語-漢語和漢語-英語

英語-捷克語和捷克語-英語

英語-愛沙尼亞語和愛沙尼亞語-英語

英語-芬蘭語和芬蘭語-英語

英語-德語和德語-英語

英語-哈薩克語和哈薩克語-英語

英文-俄文和俄文-英文

英語-土耳其語和土耳其語-英語

大小:?15 GB

記錄數量:約30,000,000個句子及其翻譯

SOTA:Attention Is All You Need

▌音頻/語音處理

Free Spoken Digit Dataset

此列表中的另一個被MNIST啟發而創建的數據集!這是為了解決識別音頻樣本中的口頭數字而創建。這是一個開源數據集,所以希望隨著人們繼續貢獻更多樣本幫助它不斷成長。目前,它包含以下特點:

3個說話者

1500個錄音(每個數字每個說話者讀50個)

英語發音

大?。?0 MB

記錄數量:1500個音頻樣本

SOTA:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

Free Music Archive (FMA)

FMA是一個音樂分析的數據集。數據集包括了完整長度和HQ音頻,預先計算的特征,以及音軌和用戶級元數據。它是一個用于評估MIR中的一些任務的開源數據集。下面是數據集的csv文件列表以及它們包含的內容:

tracks.csv:每首曲目元數據,如ID,標題,藝術家,流派,標簽和播放次數,共106,574首曲目

genres.csv:所有163種風格的ID與他們的名字和起源(用于推斷流派層次和頂級流派)。

features.csv:用librosa提取的常用特征。

echonest.csv:由Echonest(現在的Spotify)提供的為13,129首音軌的子集的音頻功能。

大?。?1000 GB

記錄數量:約100,000軌道

SOTA:Learning to Recognize Musical Genre from Audio

Ballroom

該數據集包含舞池跳舞音頻文件。以真實音頻格式提供了許多舞蹈風格的一些特征摘錄。以下是數據集的一些特點:

實例總數:698

持續時間:約30秒

總持續時間:約20940秒

大小:14GB(壓縮)

記錄數量:約700個音頻樣本

SOTA:A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

Million Song Dataset

Million Song Dataset是免費的一百萬首當代流行音樂曲目的音頻特征和元數據集合。其目的是:

鼓勵對擴大到商業規模的算法進行研究

為評估研究提供參考數據集

作為使用API創建大型數據集的捷徑(例如The Echo Nest)

幫助新研究人員在MIR領域開始工作

數據集的核心是一百萬首歌曲的特征分析和元數據。這個數據集不包含任何音頻,只是派生的功能。示例音頻可以通過使用哥倫比亞大學提供的code從7digital等服務中獲取。

大?。?80 GB

記錄數量:PS - 它的一百萬首歌曲!

SOTA:Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

LibriSpeech

該數據集是大約1000小時的英語演講的大型語料庫。這些數據來自LibriVox項目的有聲讀物。它們已被分割并適當對齊。如果您正在尋找一個起點,請查看在kaldi-asr.org和語言模型上進行了訓練了的已準備好的聲學模型,這些模型適合在http://www.openslr.org/11/進行評測。

大?。?60 GB

記錄數量:1000小時的演講

SOTA:Letter-Based Speech Recognition with Gated ConvNets

VoxCeleb

VoxCeleb是一個大規模演講者識別數據集。它包含了來自YouTube視頻的約1,251位知名人士的約10萬個話語。數據大部分是性別平衡的(男性占55%)。這些名人橫跨不同的口音,職業和年齡。開發和測試集之間沒有重疊。對于獨立和識別哪個超級巨星的音頻來說,這是一個有趣的使用案例。

大?。?50 MB

記錄數量:1,251位名人的100,000條話語

SOTA:VoxCeleb: a large-scale speaker identification dataset

分析Vidhya實踐問題:為了您的練習,我們還提供實際生活問題和數據集讓你可以實際演練。在本節中,我們列舉了在我們DataHack平臺上的深度學習實踐問題。

Twitter Sentiment Analysis

仇恨型演講以種族主義和性別歧視為形式的言論已成為推特上的麻煩事,重要的是將這類推文與其他的分開。在這個實際問題中,我們同時提供正常的和仇恨型推文的推特數據。你作為數據科學家的任務是確定哪些推文是仇恨型推文,哪些不是。

大?。? MB

記錄數量:31,962條推文

Age Detection of Indian Actors

對于任何深度學習愛好者來說,這是一個令人著迷的挑戰。該數據集包含數千個印度演員的圖像,你的任務是確定他們的年齡。所有圖像都是手動選擇,并從視頻幀中剪切的,這使得尺度,姿勢,表情,照度,年齡,分辨率,遮擋和化妝的高度干擾性。

大?。?8 MB(壓縮)

記錄數量:訓練集中的19,906幅圖像和測試集中的6636幅圖像

SOTA:Hands on with Deep Learning – Solution for Age Detection Practice Problem

Urban Sound Classification

這個數據集包含超過8000個來自10個類別的城市聲音摘錄。這個實踐問題是為了在向您介紹常見分類方案中的音頻處理。

大小:訓練集-3 GB(壓縮),測試集- 2 GB(壓縮)

記錄數量:來自10個類別的8732個城市聲音標注的聲音片段(<= 4s)

如果您知道其他開源數據集,可以用來推薦其他人開始他們的深度學習/非結構化數據集之旅,請隨時把它們推薦給我們并附上應該包括這些數據集的原因。

如果原因很好,我會把它們列入清單。我們非常歡迎您在評論區域讓我們知道使用這些數據集的經驗。最后祝大家學習愉快!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像處理
    +關注

    關注

    27

    文章

    1281

    瀏覽量

    56638
  • 深度學習
    +關注

    關注

    73

    文章

    5492

    瀏覽量

    120976
  • 自然語言
    +關注

    關注

    1

    文章

    287

    瀏覽量

    13330

原文標題:資源 | 25個深度學習開源數據集

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    #硬聲創作季 #深度學習 深度學習基礎-1.2.1 數據及其拆分

    數據深度學習
    水管工
    發布于 :2022年10月27日 17:48:02

    計算機視覺/深度學習領域常用數據匯總

    `深度學習領域的“Hello World!”,入門必備!MNIST是一個手寫數字數據庫,它有60000個訓練樣本集和10000個測試樣本集,每個樣本圖像的寬高為28*28。此數據
    發表于 08-29 10:36

    LSM6DSM示例代碼哪里可以獲得

    嗨, 從哪里可以獲得示例代碼以使用LSM6DSM陀螺儀傳感器。 ? 產品頁面中未列出任何內容。 謝謝 Vijesh以上來自于谷歌翻譯以下為原文 Hi, from where can i get
    發表于 09-21 16:57

    影院5.1解碼有開放源碼嗎?請問從哪里可以獲得?

    例如dts5.1和dolby5.1這些解碼有開源嗎?如果有的話請問從哪里可以獲得?
    發表于 10-31 09:34

    哪里可以獲得CYW54907+評估板?

    我在哪里可以買到CYW54 907的EVE板?網站說“即將來臨”——有什么方法可以獲得樣品嗎?無線MCPUS塞浦路斯半導體多謝 以上來自于百度翻譯 以下為原文Where may I obtain
    發表于 11-28 11:17

    哪里可以獲得有關簽證命令SCPI的手冊

    您好,我在哪里可以獲得有關簽證命令(labview)SCPI(如WAV; SOUR; PRE?)的手冊,與DSO 7012B一樣,有任何有用的文檔可以理解這個命令。謝謝 :) 以上來自于谷歌翻譯
    發表于 12-07 16:00

    請問我在哪里可以獲得Discovery固件庫?

    我在哪里可以獲得Discovery固件庫?頁面stm8sfwlib不再存在。壿以上來自于谷歌翻譯以下為原文 Where can I get the Discovery firmware library? The page stm8sfwlib no longer exi
    發表于 06-18 09:45

    哪里可以獲得與Spartan 3E一起使用的ADC代碼?

    哪里可以獲得與Spartan 3E一起使用的ADC代碼?亞倫
    發表于 08-05 09:43

    哪里可以獲得我的機器的主機ID?

    嗨,我改變了我的機器,所以我應該用新的主機ID生成一個新的許可證。您能告訴我如何重新托管我的許可證,從哪里可以獲得我的機器的主機ID。提前謝謝。Suresh anil
    發表于 05-15 08:50

    什么是深度學習?使用FPGA進行深度學習的好處?

    ,即使使用具有一定低位寬的數據,深度學習推理也不會降低最終精度。目前據說8位左右可以提供穩定的準確率,但最新的研究表明,已經出現了即使降低到4位或2位也能
    發表于 02-17 16:56

    哪里可以獲得MK20DX128VFM5的布局指南?

    你好 我在哪里可以獲得 MK20DX128VFM5 的布局指南?謝謝。
    發表于 03-29 06:34

    哪里可以獲得KW45的SDK?

    我在哪里可以獲得 KW45 的 SDK?
    發表于 04-17 07:24

    哪里可以獲得近距離通信設備(SRD)的規范?

    哪里可以獲得近距離通信設備(SRD)的規范? 摘要:雖然近距離通
    發表于 02-22 13:14 ?1690次閱讀

    谷歌為何對深度學習感興趣?

    分類和處理信息的方式。深度學習中的深度意指神經網絡采用分層結構。具備這種結構的數據處理配置被稱作深度神經網絡,相對于其他人工智能技術
    發表于 02-12 07:27 ?1141次閱讀

    如何在Hadoop上運行這些深度學習工作

    典型的深度學習工作流程:數據從各個終端(或其他來源)匯聚到數據湖中。數據科學家可以使用筆記本進行
    的頭像 發表于 01-15 16:29 ?4375次閱讀
    如何在Hadoop上運行<b class='flag-5'>這些</b><b class='flag-5'>深度</b><b class='flag-5'>學習</b>工作