所在的位置： html >> html介绍 >> AI从业者都应该知道的实验数据集

AI从业者都应该知道的实验数据集

专业治疗白癜风好的医院 http://pf.39.net/bdfyy/tslf/161224/5153471.html

雷锋网AI科技评论按：数据集对于深度学习模型的重要性不言而喻，然而根据性质、类型、领域的不同，数据集往往散落在不同的资源平台里，急需人们做出整理。fast.ai近期将这些重要的数据集汇总到了一篇文章里，雷锋网AI科技评论把文章编译如下。

少了数据，我们的机器学习和深度学习模型什么也干不了。这么说吧，那些创建了数据集、让我们可以训练模型的人，都是我们的英雄，虽然这些人常常并没有得到足够的感谢。让人庆幸的是，那批最有价值的数据集后来成了「学术基准线」——被研究人员广泛引用，尤其在算法变化的对比上；不少名字则成为圈内外都耳熟能详的名称，如MNIST、CIFAR10以及Imagenet等。

身为fast.ai的一员，我们自觉欠这些数据集的创建者一句真挚的感谢，所以我们决定，通过与AWS合作，把一些最重要的数据集集中整理在一处，数据集自身采用标准格式，存储服务器也是快速的、可靠的（请参阅下方的完整列表与链接）。如果您在研究中使用了这些数据集，我们希望您记得引用原始论文（我们已经在表单中提供引用链接）；如果您将它们用作商业或教育项目的一部分，请考虑添加致谢文及数据集原链接。

我们之所以经常在教学中引用这些数据集，是因为它们就是学生们很有可能遇到的数据类型的绝佳例子，此外，学生可以将自己的工作与引用这些数据集的学术成果进行对比，从而取得进步。此外，我们也会使用KaggleCompetitions数据集，Kaggle的publicleaderboards允许学生在世界最好的数据集里测试自己的模型，不过Kaggle数据集并不会在本次表单中出现。

图像分类领域

1）MNIST

经典的小型（28x28像素）灰度手写数字数据集，开发于20世纪90年代，主要用于测试当时最复杂的模型；到了今日，MNIST数据集更多被视作深度学习的基础教材。fast.ai版本的数据集舍弃了原始的特殊二进制格式，转而采用标准的PNG格式，以便在目前大多数代码库中作为正常的工作流使用；如果您只想使用与原始同样的单输入通道，只需在通道轴中选取单个切片即可。

引文：

转载请注明：http://www.aierlanlan.com/rzfs/2841.html

上一篇文章：全景制作软件哪款好2020全景图片制作软