蜡炬教育:AI程序员如何获取大量的开源数据,用于实践练习

4年前 (2021-04-10)阅读735回复0
被时光没收的纯真
被时光没收的纯真
  • 管理员
  • 发消息
  • 注册排名170
  • 经验值175
  • 级别管理员
  • 主题35
  • 回复0
楼主

  原标题:蜡炬教育:AI程序员如何获取大量的开源数据,用于实践练习

  很多大数据、机器学习、人工智能的初学者都需要大量的数据去进行练习,因为之前从未深度接触过相关领域,很难找到合适的练习数据,今天蜡炬教育的老师就给大家推荐几个开源的数据集网站。

蜡炬教育:AI程序员如何获取大量的开源数据,用于实践练习

  一、比较简单的数据集网站

  Data.gov,这个是美国政府的公开数据网站,包含了来自气候、教育、能源、金融等领域的19万多的数据集。

  data.WorldBank.org,这个是世界银行的开放数据网站,提供了世界发展指数、教育指数等几大类数据集。

  二、大型数据集网站

  Amazon WebServices(AWS)datasets,亚马逊提供完整的安然电子邮件、Google Booksn-gram,NASA NEX,百万歌曲等数据集,你可以在亚马逊平台使用也可以在本地计算机上使用。

  Googledatasets

  谷歌为广大开发者提供了一些数据集作为其Big Query工具的一部分,包括GiHub公共资料库和

  Hacker News的所有故事和评论。

  三、预测建模与机器学习数据集

  UCI MachineLearning Repository

  UCI机器学习库是当下最受欢迎的数据库,其包括了各种各样的数据集。比如空气质量、GPS轨迹等

  大型数据集。

  Kaggle

  Kaggle推出了一个数据收集平台,人们可以自发贡献数据,现在总共有350多个数据集,其中有超过

  200个是特征数据集。

  四、图像分类数据集

  The MNISTDatabase

  当下国内外最热门的图像识别数据库,主要为手写数字。包括6万个示例和1万个示例的测试集。

  Chars74K

  该数据集包括自然图像中的字符识别,包含74,000个图像。

  Frontal FaceImages

  这个数据集主要是是由CMU & MIT收集的正面人脸图像。

  五、文本分类数据集

  Movie ReviewData

  这个数据集网站提供了一席勒电影评论文件,其中标注了用户的总体情绪极性(正面或负面)或主观评

  价和对其主观性地位(主观或客观)或极性的标签

  蜡炬教育授课老师表示,通过以上数据集网站,即使是一个初学者也可以轻松找到需要的练习数据。

0
0
收藏0
回帖

蜡炬教育:AI程序员如何获取大量的开源数据,用于实践练习 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息