这篇评估机器学习模型的报告是源于对这个题目需求的紧迫感。这篇报告最初是发布在Dato的机器学习博客上的六篇系列博文。我是这个博客的编辑,需要每天找些东西来发布。Dato开发了一些机器学习的工具来帮助用户来构建智能的数据产品。在和机器学习社群的交流中,我们经常会发现相互之间对一些术语会有不同的理解。例如,用户会要求交叉验证作为产品的一个特性,而事实上他们是想要超参数的调优,而这一特性我们已经有了。因此我想:“嗯!我应该快速地解释一下这些概念的意思,并告诉大家它们在用户手册里面的哪些章节。”
所以我坐下开始写一篇博文来解释交叉验证、保留部分数据做验证和超参数调优。然而在写完头两段后,我意识到这可能会远远超过一篇博文才能讲清楚的。这三个概念处在机器学习的模型评估的层次体系中的不同层面。交叉验证和保留部分数据做验证是把数据集进行一定的切分来测量模型对于“没见过的”数据的表现。与此不同的是,超参数调优则是模型选择的元过程。但是为什么需要给模型“没见过的”数据?什么是关于超参数调优的这个“元”?为了解释清楚这一切,我需要从最基础的开始。首先我需要从更高层次上解释这些概念,以及他们是怎么组织在一起的。只有在这之后我才能进一步讨论细节。