Fork me on GitHub

notes for statistical learning 1

统计学习方法入门学习笔记1

名词解释

  • 统计学习:即统计机器学习,目的是对数据进行预测和分析;以方法为中心,统计学习方法1.构建模型2.应用模型进行预测和分析;系统通过数据及统计方法提高系统性能的机器学习,即是统计学习。
  • 统计学习的前提:同类数据具有一定的统计规律性。
  • 统计学习三要素:模型,策略(模型选择的准则),算法(求解最优模型的方法)。
  • 监督学习:从training data出发,由算法实现最优模型的选取,使它对training data和test data在给定评价准则下有最优的预测(假设两种 data独立同分布)。学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。由人工给出训练集,所以是监督学习
  • 模型f(X):属于由输入空间到输出空间的映射的集合,此集合就是假设空间。模型一般由P(Y|X)或Y=f(X)表示,前者是条件概率分布,后者是决策函数。

    决策函数:非概率模型,类似y=f(x)即Label=f(Features),

    1
    2
    3
    def classify(features):
    # do some logic
    return label
  • 假设空间:假设‘要学习的模型属于某个函数’的集合,是理论上所有可能属性值构成的集合空间,一般有无穷多个。
  • 回归/分类/标注问题:基于输入输出变量的不同类型,对预测任务的三种分类,三者都属监督学习,1.近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯谛回归模型、SVM、adaBoost、贝叶斯网络、神经网络都适合于解决分类问题。2.隐性马尔可夫模型、条件随机场适合解决标注问题。3.最小二乘法适合解决回归问题。分类问题输出值,标记问题输出向量

  • 损失函数**L(Y,f(X))**:使用决策函数的输出与真实值之间不一致(出错)的程度。通常分为:

    • 0-1损失,(非此即彼)
    • 平方损失,(见名知意)
    • 绝对损失,(见名知意)
    • 对数损失,(将多项式转换成log加和的形式)

    损失函数值越小,模型就越好。特点:真实值不可得,故Rexp无法得到
    损失函数的期望(期望风险)Rexp是联合分布P(X,Y)与
    L(Y,f(X))与微元dxdy对空间X和Y的积分,所以欲选最小的Rexp,就需要已知P,而P又是未知的,所以需要学习得到。

  • 经验风险Remp:训练数据集的平均损失Remp =1/N(sigema L(y,f(x))。特点:可以得到,用于估计期望风险Rexp,但因训练样本数量少,需要矫正后再估计。若f(x),L,N已知,则可知Remp。

  • 经验风险最小化:使得Remp最小化的某f(x),就是经验风险最小化模型。一个常见的例子就是极大似然估计(需要较大样本)。若样本量过小易发生过拟合的现象。

  • 过拟合:一味追求提高对训练数据的预测能力,所选模型的复杂度则 往往会比真模型更高。[理解]训练中你的天鹅全是白色的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。课后题硬背全对,考试全不会。学习太彻底(比如训练误差为0),把训练集中的所有特征几乎都习得了,于是机器学到了太多由于噪声带来的假特征。所以需要限制机器学习,使其学习不那么彻底,因此提升识别正确率;并关注选取良好的训练数据。

  • 两种常用的模型选择的方法:正则化与交叉验证。

  • 正则化:结构风险最小化策略的实现,在经验风险上加上一个正则化项,即一个模型复杂度的单调递增函数。正则化的作用是选择经验风险与模型复杂度同时较小的模型。

  • 交叉验证:在数据较不足的情况下,重复地使用数据,将给定数据进行切分组合为训练集与测试集,在此基础上反复训练。有简单交叉验证(一分为二,不等分),S折交叉验证(一分为S,等分,应用较多),留一交叉验证(相当于N折交叉验证,适用数据缺乏情况)等方法。

  • 结构风险:在经验风险上加上表示模型复杂度的正则化项(与模型复杂度正相关)。

  • 结构风险最小化SRM:防止过拟合的应对策略,等价于正则化。

  • 算法:学习模型采用的具体算法。统计学习问题归结为最优化问题,通常最优化问题没有显式的解析解,所以需要用数值计算的方法求解。统计学习有时可以利用已有的最优化算法,有时需要开发独自的最优化算法。

  • 训练误差:采用模型关于训练数据集的平均误差。

  • 测试误差:采用模型关于测试数据集的平均误差。反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念。选取模型时的真实目的是使测试误差达到最小。

  • 泛化能力:学习方法对未知数据的预测能力。使用测试误差来评价。

  • 泛化误差:使用学习模型对未知数据预测的误差。即模型的期望风险。通常以泛化误差上界进行研究。

  • 泛化误差上界性质:样本容量增加时,泛化误差上界趋于0;假设空间容量增加时,模型越难学,泛化误差上界就越大。供参考:正则化、误差上界的证明等

  • 生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,因为模型表示了给定输入X产生输出Y的生成关系。有朴素贝叶斯法和隐马尔可夫模型。[理解]列出Y的概率,由人进行判别。学习收敛速度更快,当样本容量增加时,学到的模型可以更快地收敛于真实模型;当存在隐变量时依旧适用。

  • 隐变量:广义上的隐变量主要就是指“不能被直接观察到,但是对系统的状态和能观察到的输出存在影响的一种东西”。隐变量是什么?

  • 判别方法:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。[理解]机器替人作出选择。直接面对预测,往往学习的准确率更高,由于直接学习所以可以对数据进行各种程度上的抽象,可以简化学习问题。

  • 分类器:监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。一般有学习和分类两个过程。学习过程中,根据已知训练集利用有效学习方法学习一个分类器;在分类过程中,利用学习到的分类器对新的输入实例进行分类。

  • 分类:分类器对新的输入进行输出的预测,即分类;输出称为类。

  • 以关注的类为正类,其他类为负类。

符号 说明
TP 将正类预测为正类
FN 将正类预测为负类
FP 将负类预测为正类
TN 将负类预测为负类
  • 精确率precision:P=TP/(TP+FP),[理解]所有被预测为正类中预测结果正确的比例。
  • 召回率recall:R=TP/(TP+FN),[理解]真实的正类中被正确预测到的比例。
  • F1值:精确率和召回率的调和平均值,2/F1=1/P+1/R,即F1=2TP/(2TP+FP+FN);精确率和召回率都高时,F1值也会高。
  • 标注问题:是结构预测问题的简单形式,输入是一个观测序列,输出是一个标记序列或状态序列,目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。可能的标记个数是有限的,单其组合所称的标记序列的个数是依序列长度呈指数级增长的。常用的有隐马尔可夫模型/条件随机场。举例:自然语言处理中的词性标注。
  • 回归问题:回归用于预测输入变量和输出变量之间的关系,回归问题的学习等价于函数拟合。
-------------The End-------------