Kaggle Digit Recognizer

ML

问题表述

Digit Recognizer是Kaggle初学者区的一个数字识别问题。问题要求很简单,即图像识别,根据图像识别数字。

数据说明

这个问题的data中,给出了三个文件,分别是sample_submission.csv,test.csv和train.csv。

其中,train.csv和test.csv分别是训练集和测试集。sample_submission.csv用来展示提交格式。

图片由28*28的784个像素点组成,像素值可取0~255,像素值越大,像素点暗。

在训练集中,第一列数据代表了图像的数字,1~784列数据则表示了这个数字的28*28像素图像。每一行数据以以下格式构成图片。

1
2
3
4
5
6
000 001 002 003 ... 026 027
028 029 030 031 ... 054 055
056 057 058 059 ... 082 083
| | | | ... | |
728 729 730 731 ... 754 755
756 757 758 759 ... 782 783

测试集数据共有28000组。

最终,数据提交时,要加首行和排序,格式如下。

1
2
3
4
5
ImageId,Label
1,3
2,7
3,8
(27997 more lines)