成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能開發者 正文
    發私信給AI研習社-譯站
    發送

    0

    TensorFlow最出色的30個機器學習數據集

    本文作者: AI研習社-譯站 2020-08-11 15:20
    導語:本文將簡單介紹一些TensorFlow中用于機器學習的大型數據集,按照圖像、視頻、音頻和文本分類。

    字幕組雙語原文:TensorFlow最出色的30個機器學習數據集

    英語原文:30 Largest TensorFlow Datasets for Machine Learning

    翻譯:雷鋒字幕組(chenx2ovo

    TensorFlow是由谷歌大腦的研究人員創建、最大的機器學習和數據科學的開源數據庫之一。它是一個端到端平臺,適合完全沒有經驗的初學者和有經驗的數據科學家。TensorFlow庫包括工具、預訓練模型、機器學習教程以及一整套公開數據集。為了幫助你找到所需的訓練數據,本文將簡單介紹一些TensorFlow中用于機器學習的大型數據集。我們將以下數據集的列表分為圖像、視頻、音頻和文本。

    TensorFlow圖像數據集

    1. CelebA:明星臉屬性數據集(CelebA)是最大的公開可用的人臉圖像數據集,其中包含200,000多個名人圖像。

    TensorFlow最出色的30個機器學習數據集

    每個圖像包括5個面部標注和40個二進制屬性標注。

    2. Downsampling Imagenet:該數據集是為密度估計和生成性建模任務而建立的。它包括了130多萬張物體、場景、車輛、人物等圖像。這些圖像有兩種分辨率規格:32×32和64×64。

    3. Lsun—Lsun是一個大規模的圖像數據集,創建該數據集是為了幫助訓練模型進行場景理解。該數據集包含超過900萬張圖像,按場景類別劃分,如臥室、教室和餐廳。

    4. Bigearthnet—Bigearthnet是另一個大規模數據集,它包含來自Sentinel-2衛星的航空圖像。每張圖像覆蓋了1.2公里×1.2公里的一片地面。該數據集中有43個類別不平衡的標簽。 

    5. Places 365—顧名思義,Places 365包含180多萬張不同地方或場景的圖片。其中一些類別包括辦公室、碼頭和別墅。Places 365是用于場景識別任務的最大數據集之一。

    6. Quickdraw位圖—Quickdraw數據集是由Quickdraw玩家社區繪制的圖像集合。它包含500萬張圖紙,跨越345個類別。這個版本的Quickdraw數據集包括28×28的灰度圖像。

    7. SVHN Cropped—街景房號(SVHN)是為訓練數字識別算法,由斯坦福大學建立的TensorFlow數據集。它包含60萬個真實世界的、被裁剪成32×32像素的圖像數據實例。

    8. VGGFace2—最大的人臉圖像數據集之一,VGGFace2包含從谷歌搜索引擎下載的圖像。數據集中的人臉在年齡、姿勢和種族上都有所不同。每個類別平均有362張圖像。

    9. COCO—由谷歌、FAIR、加州理工學院等合作者制作,是世界上最大的標簽圖像數據集之一。它是為物體檢測、分割和圖像字幕任務而建立的。

    TensorFlow最出色的30個機器學習數據集

    通過cocodataset.org

    數據集包含330,000張圖像,其中20萬張有標簽。在所有圖像中,共包含了80個類別的150萬個對象實例。

    10. Open Images Challenge 2019—包含約900萬張圖像,該數據集是網上最大的、標注的圖像數據集之一。這些圖像包含圖像級標簽、對象邊界框和對象分割掩碼,以及他們之間的視覺關系。

    11. Open Images V4—這個數據集是上述Open Images數據集的另一個迭代。V4版本中包含了600個不同物體類別的1460萬個邊界框。這些邊界框是由人類標注者手動繪制的。

    12. AFLW2K3D—該數據集包含2000張面部圖像,均有3D面部真實標注。它的創建是為了評估3D面部標注檢測模型。

    視頻數據集

    13. UCF101—來自中央佛羅里達大學,UCF101是為訓練動作識別模型而建立的視頻數據集。該數據集有101個動作類別的13320個視頻,。

    14. BAIR Robot Pushing—來自伯克利人工智能研究,BAIR Robot Pushing包含44000個機器人推的動作的示例視頻。

    15. Moving MNIST—這個數據集是MNIST基準數據集的一個變體。Moving MNIST包含10,000個視頻。

    每個視頻都顯示了在64×64大小的幀內2個手寫數字的移動過程。

    16. EMNIST—擴展的MNIST數據集,包含了原始MNIST數據集轉換成28 x 28像素大小的圖片。 

    TensorFlow音頻數據集

    17. CREMA-D—為情感識別任務而創建,CREMA-D由語音情感表達組成。 該數據集包含由年齡,種族和性別不同的91位演員表達的7,442個音頻剪輯。

    18. Librispeech—Librispeech是一個簡單的音頻數據集,它包含1000小時的英語語音,這些語音來自LibriVox項目的有聲讀物。它被用于訓練聲學模型和語言模型。

    19. Libritts—這個數據集包含約585小時的英語語音,是在Google Brain團隊成員的協助下準備的。Libritts最初是為Text-to-speech(TTS)研究設計的,但可以用于各種語音識別任務。

    20. TED-LIUM—TED-LIUM是一個包含110多個小時的英語TED演講的數據集。 所有的演講內容都已被轉錄。 

    21. VoxCeleb—VoxCeleb是為演講者識別任務而建立的大型音頻數據集,包含來自1,251位演講者的150,000多個音頻樣本。

    文本數據集

    22. C4(Common Crawl's Web Crawl Corpus)—Common Crawl是一個開放源碼的網頁數據庫。它包含了超過40種語言、跨越7年的數據。

    23. Civil Comments—這個數據集是由來自50個英文新聞網站的180多萬條公眾評論構成的。

    24. IRC Disentanglement—這個TensorFlow數據集包括來自Ubuntu IRC頻道的77000多條評論。每個樣本的元數據包括消息ID和時間戳。

    25. Lm1b—被稱為語言模型基準,這個數據集包含10億個單詞。它最初是為了衡量統計語言建模的進展。

    26. SNLI—斯坦福自然語言推理數據集是一個包含57萬個人類寫作句子對的語料庫。所有的句對都經過人工標注,類別是均衡的。

    27.e-SNLI—這個數據集是上面提到的SNLI的擴展,它包含了原始數據集的57萬個句子對,分類為:包含、矛盾和中性。

    28. MultiNLI—仿照SNLI數據集,MultiNLI包含433,000個句子對,都有尾部信息注釋。

    29. Wiki40b—這個大規模的數據集包括40種不同語言的維基百科文章。這些數據已經被清理,其中的非內容部分以及結構化對象已經被去掉。

    30. Yelp極性評論—這個數據集包含598,000條高度極性的Yelp評論。它們是從2015年Yelp數據集挑戰賽中的數據提取出來的。

    雖然上述數據集是機器學習中最大、最廣泛使用的一些TensorFlow數據集,但TensorFlow庫是龐大的,并在不斷擴展。請訪問TensorFlow網站,了解更多關于該平臺如何幫助您構建自己的模型的信息。


    雷鋒字幕組是由AI愛好者組成的志愿者翻譯團隊;團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT咨詢人、在校師生;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

    了解字幕組請聯系微信:tlacttlact

    轉載請聯系字幕組微信并注明出處:雷鋒字幕組

    雷鋒網雷鋒網

    雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

    TensorFlow最出色的30個機器學習數據集

    分享:
    相關文章

    知情人士

    AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說