我觉得其中的一个区别是,使用场景和处理数据的理念不同。
在2015年,开始接触机器学习时,我没有只关注它的算法栈本身,更多关注的是它与统计学在使用上的区别,尤其是在处理分类与回归的问题上,两门学科都能解决,那么难免要问一问为什么他们要解决相同的问题,区别又在哪里?随着阅读大量书籍和机器学习的论文,逐渐理解了两者在处理数据理念上的不同。
在工业界中,被使用最多的一个统计学的分支是参数统计,其假设总体分布已知,需要预测的是条件均值和方差。模型选择与特征选择的指标之一是P值,但要得到准确的P值,有几个重要的假设:残差近似服从正态分布 。残差的方差齐性。残差之间相互独立等条件。如果使用者不去对这些假设进行验证就直接去使用模型,而且在使用过程中又无法做AB Test,那么预测结果的使用就会很危险。
而在机器学习中,不事先假设总体的分布,也不需要对残差做任何假设(自然就没有了P值)。某些算法即存在于机器学习也存在于统计学中,甚至损失函数都相同。但是在模型选择与特征选择时,用验证集替换了P值,就是这一个小的改变,使得机器学习可以在不满足假设条件的数据上进行模型和特征的选择。当然统计学中也有很多方法去处理数据,使之尽可能的满足假设条件,但这需要许多额外的操作、较强的数理统计功底和数据处理经验。因此在数据不满足假设条件时,机器学习降低了使用者的建模难度。机器学习是统计学在应对现代复杂数据时的一个有力补充。
附上吴喜之老师的在其著作中提到的关于P值和统计显著性检验的一些看法,共大家参考。