數據搜索網站(數據集輕松按需搜索)

楊凈 發自 凹非寺 量子位 報道 | 公眾號 QbitAI每個研究機器學習項目的人,似乎都有這樣的痛苦。那就是從學術網站、GitHub上尋找到合適的數據集。但現在,有這樣一個網站可以幫你搞定,讓AI開發變得更加簡單易行。這個項目名叫BIFROST,一個數據集搜索工具,裡面共有1899個圖像數據集,還專門設置分類,比如Humans、Geospatial、Autonomous Cars等。一鍵搜索,免費獲取,直接鏈接到原始數據庫,幫你快速找到合適的數據集。研究團隊來自新加坡,Reddit上17小時熱度200+。使用說明話不多說,我們就直接來上這個網站來試試~正如剛才所看到的,這個工具是按任務、應用、類別、標簽或格式進行分類。根據「類別」,這個網站共分為18類,比如Humans、Geospatial、Autonomous Cars、Retail、3D等。向左滑動,選擇你需要的類別,一鍵即可出結果,我們以3D為例,然後就呈現這樣的頁面。若以「Humans」為例,界面是醬紫的。我們也看到,這是按照精選進行排序。除此之外,你還可以選擇「最新」、「最多標簽數」、「數據集大小」、「圖片數量最多」這些分類。除瞭「快速檢索」之外,還可以根據開發人員的具體需要來進行搜索。可以選擇這些「限定」:任務類型,標簽格式,最小圖像數量。其中任務類型主要包括,圖像分割,目標檢測、圖像分類、姿態估計、視覺推理、3D重建、視頻分類。標簽格式包括,YOLO、PASCAL、COCO以及Segmentation。數據集以COCO為例,這是一個適用於目標檢測、圖像分割和字幕大型數據集。界面是這樣的:主要分為圖像示例、數據集簡介、特性、類別分佈四個板塊。在簡介部分,可以看到這個數據集的研究團隊、一句話介紹,以及通過CC4.0協議的部分,還直接鏈接到原始數據庫和論文地址。CC4.0協議是一種知識共享許可協議,是一種允許他人分發作品的公共版權許可,還有一種類似的,MIT協議。作者此次選擇的近2000個數據集都通過瞭這兩項協議的。所以網站並不直接管理這些數據集,它隻是一個數據集的「搬運工」。在「類別分佈」這一板塊,首先會提示,沒有標簽、標簽過多的圖像數量。然後根據不同的標簽類別,顯示各自的圖像數量分佈。這個項目的負責人名叫Charles Wong ,來自新加坡,目前是Bifrost的CEO。本科就讀於新加坡科技設計大學,曾參與MIT Global Leadership Program。接下來,他們的工作將主要集中在這幾個方面:將網站中的每一個數據集都進行全面分析改進搜索方式實現用戶上傳和分享自己的數據集生成自己的合成數據集「Why is our data better?」就像在網站上介紹到的那樣,讓你快速、高精度、高準確度地尋找到合適的圖像數據集。感興趣的朋友,可以戳下方鏈接去試試哦~網站地址:https://datasets.bifrost.ai/參考鏈接:https://www.reddit.com/r/MachineLearning/comments/i6fsl6/p_we_built_an_easy_way_to_find_image_datasets/— 完 —量子位 QbitAI · 頭條號簽約關註我們,第一時間獲知前沿科技動態

本文出自快速备案,转载时请注明出处及相应链接。

本文永久链接: https://kuaisubeian.cc/48003.html

kuaisubeian