“统计学习方法” 札记 I

统计学习包括监督学习, 非监督学习, 半监督学习及强化学习.

统计学习方法的三要素: 模型 (model), 策略 (strategy) 和算法 (algorithm).

统计学习的一般步骤:
(1) 得到一个有限的训练数据集合;
(2) 确定包含所有可能模型的假设空间, 即学习模型的集合;
(3) 确定模型选择的准则, 即学习的策略;
(4) 实现求解最优模型的算法, 即学习的算法;
(5) 通过学习方法选择最优模型;
(6) 利用学习的最优模型对新数据进行预测或分析.

统计学习的三类问题: 根据输入, 输出变量的不同类型, 对预测任务给予不同的名称: 输入变量与输出变量均为连续变量的预测问题称为回归问题; 输出变量为有限个离散变量的预测问题称为分类问题; 输入变量与输出变量均为变量序列的预测问题称为标注问题.

监督学习关于数据的基本假设: 输入和输出的随机变量 \(X\)\(Y\) 是依联合概率分布 \(P(X, Y)\) 独立同分布产生的.

风险函数 (risk function) / 期望损失 (expected loss), 即理论上模型 \(f(X)\) 关于联合分布 \(P(X, Y)\) 的平均意义下的损失:

E_P[L(Y,f(X))]=\int_{\mathcal{X}\times\mathcal{Y}} L(y,f(x))P(x,y)\,dx\,dy

本文在 BY-NC-SA 3.0 版权协议下发布, 转载请注明出自 zhangyuyu.com .

Share this
Share on FacebookTweet about this on TwitterShare on RedditEmail this to someone