MNIST是一个入门级的计算机视觉数据集,它包含各种手写数字图片,如图3-7所示。
图3-7 MNIST图片示例
MNIST也包含每一张图片对应的标签,告诉我们这是数字几。比如,图3-7中4张图片的标签分别是5,0,4,1。数据集包括60000个训练数据和10000个测试数据。每一个MNIST数据单元由两部分组成:一张包含手写数字的图片和一个对应的标签。每一张图片包含28×28个像素点,可以把这个数组展开成一个向量,长度是28×28=784。MNIST数据集详解见表3-8。
表3-8 MNIST数据集合详解
MNIST的网址为http://yann.lecun.com/exdb/mnist/ ,如图3-8所示。
图3-8 MNIST官网
也可以使用离线版的MNIST文件,下载链接为:
http://www.iro.umontreal.ca/~lisa/deep/data/mnist/mnist.pkl.gz
文件读取方式为:
import pickle import gzip def load_data(): with gzip.open('./mnist.pkl.gz') as fp: training_data, valid_data, test_data = pickle.load(fp) return training_data, valid_data, test_data