雷锋网AI科技评论按:数据集对于深度学习模型的重要性不言而喻,然而根据性质、类型、领域的不同,数据集往往散落在不同的资源平台里,急需人们做出整理。fast.ai近期将这些重要的数据集汇总到了一篇文章里,雷锋网AI科技评论把文章编译如下。
少了数据,我们的机器学习和深度学习模型什么也干不了。这么说吧,那些创建了数据集、让我们可以训练模型的人,都是我们的英雄,虽然这些人常常并没有得到足够的感谢。让人庆幸的是,那批最有价值的数据集后来成了「学术基准线」——被研究人员广泛引用,尤其在算法变化的对比上;不少名字则成为圈内外都耳熟能详的名称,如MNIST、CIFAR10以及Imagenet等。
身为fast.ai的一员,我们自觉欠这些数据集的创建者一句真挚的感谢,所以我们决定,通过与AWS合作,把一些最重要的数据集集中整理在一处,数据集自身采用标准格式,存储服务器也是快速的、可靠的(请参阅下方的完整列表与链接)。如果您在研究中使用了这些数据集,我们希望您记得引用原始论文(我们已经在表单中提供引用链接);如果您将它们用作商业或教育项目的一部分,请考虑添加致谢文及数据集原链接。
我们之所以经常在教学中引用这些数据集,是因为它们就是学生们很有可能遇到的数据类型的绝佳例子,此外,学生可以将自己的工作与引用这些数据集的学术成果进行对比,从而取得进步。此外,我们也会使用KaggleCompetitions数据集,Kaggle的publicleaderboards允许学生在世界最好的数据集里测试自己的模型,不过Kaggle数据集并不会在本次表单中出现。
图像分类领域
1)MNIST
经典的小型(28x28像素)灰度手写数字数据集,开发于20世纪90年代,主要用于测试当时最复杂的模型;到了今日,MNIST数据集更多被视作深度学习的基础教材。fast.ai版本的数据集舍弃了原始的特殊二进制格式,转而采用标准的PNG格式,以便在目前大多数代码库中作为正常的工作流使用;如果您只想使用与原始同样的单输入通道,只需在通道轴中选取单个切片即可。
引文: