Young87

SmartCat's Blog

So happy to code my life!

游戏开发交流QQ群号60398951

当前位置:首页 >跨站数据测试

【机器学习】—何为统计学习方法三要素?

阅读之前看这里👉:博主是一名正在学习的学习者(学生),在每个领域我们都应当是学生的心态,也不应该拥有身份标签来限制自己学习的范围,所以博客记录的是在学习和求职过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。
博客地址:天阑之蓝的博客,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。

何为统计学习方法三要素?

在李航《统计学习方法中》提到了统计学习方法的三要素为:模型,策略和算法,那么何为这三要素呢,接下来我们一起来探索吧。

书中对统计学习方法的概括如下:
从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;(前提)
假设要学习的模型属于某个函数的集合,称为假设空间(模型)
应用某个评价准则,从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测;(策略)
最优的选取由算法实现。(算法)

实现统计学习方法的步骤:

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或分析.

01 模型

统计学习首要考虑的问题是学习什么样的模型。在监督学习中,模型就是所有要学习的条件概率密度分布或决策函数。模型的假设空间包含所有可能的条件概率密度分布或决策函数。

  • 假设空间
    监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定意味着学习的范围的确定。

例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。
如下图
在这里插入图片描述
输入变量是许多个点,决策函数是它们的线性函数,那么需要用一个线性函数去拟合这些点,那么这些线性函数所构成的集合就是假设空间,模型包括在假设空间当中。
再如下,分类模型:
在这里插入图片描述
我们要将红色和蓝色的点分开,假设学习一个分类器(如A),那么存在无数个A,也就是无数条线均可以将红色和蓝色的点分开,那么这些分类器(决策函数)的集合就是假设空间

02 策略

有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优模型。统计学习的目标在于从假设空间中选取最优模型。

在《统计学习方法》中,讲述了如何进行策略的设计选取,主要考虑到了损失函数和风险函数。

  • 损失函数
    损失函数表示输出的预测值和真实值之间差异的度量函数。常用的由0-1损失函数,平方损失函数,对数损失函数等。损失函数越小,模型就越好。

损失函数的期望称为风险函数或者期望损失,学习的目标就是选择期望风险最小的模型

模型 f ( X ) f(X) f(X)关于训练数据集的评价损失称为经验风险或者经验损失期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。

根据大数定律,样本容量N趋于无穷时,经验风险趋于期望风险。所以可以采用经验风险估计期望风险。但是,实际上训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略:

  • 经验风险最小化
    在假设空间中、损失函数以及训练数据集确定的情况下,经验风险函数式可以确定。那么按照经验风险最小化求解最优模型就是对经验风险函数式求解最优化问题。
    样本足够大时,经验风险化可以保证良好的学习效果,常用的方法如极大似然估计,当模型是条件概率分布、损失函数是对数损失函数式,经验风险最小化就等价于极大似然估计。
  • 结构风险最小化
    样本容量很小时,可能出现过拟合现象。结构风险最小化等于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或惩罚项。
    结构风险小需要经验风险与模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。比如,贝叶斯估计中的最大厚颜概率估计;当模型式条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验估计。
    那么按照结构风险最小化求解最优模型就是对结构风险函数式求解最优化问题。

这样,监督学习的问题就变成了经验风险或结构风险的最优化问题。这时经验或结构风险函数就是最优化的目标函数。

03 算法

算法是指学习模型的具体计算方法。因为统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法,比如支持向量机中学习的对偶算法等。

参考:李航《统计学习方法》第2版

—————————————————————————————————————————————————
博主码字不易,大家关注点个赞转发再走呗 ,您的三连是激发我创作的源动力^ - ^
在这里插入图片描述

除特别声明,本站所有文章均为原创,如需转载请以超级链接形式注明出处:SmartCat's Blog

上一篇: 自制ST-Link V2.1,带串口,可自动更新固件,含全套资料下载

下一篇: 喵的Unity游戏开发之路 - 搭便车:移动地面

精华推荐