本篇笔记总结了最基本,同时也是推导比较容易理解的机器学习中线性模型的部分。
许多非线性模型也是在线性模型的基础上做了结构等方面的补充和引入。
本笔记随学习进度的跟进将持续更新:)
基本形式
主要内容:主要是学得(omega)和b的值,而这是通过衡量f(x)和y之间的关系
衡量标准:性能度量指标“均方误差”,即目的是最小化目标值:((omega^{*}, b^{*})=argminlimits_{(omega, b)}sumlimits_{i=1}limits^{m}(f(x_{i})-y_{i})^2)
而该目标的求解方法即为用途广泛的“最小二乘法”,我们这里不妨设(E(omega, b))为关于(omega)和$ b$的凸函数来保证有最优解:
最小二乘的参数推导:(E(omega, b))对(omega)和(b)进行求导,令偏导为0即可求得 (omega)和(b)的最优解
[frac{partial E(omega, b)}{partial omega } = 2Bigg(omegasum_{i=1}^{m}x^2_i-sum_{i=1}^{m}(y_i-b)x_iBigg) ]
[frac{partial E(omega, b)}{partial b } = 2Bigg(mb-sum_{i=1}^{m}(y_i-omega x_{i})Bigg) ]
得到
[omega=frac{sum_{i=1}^{m} y_i(x_i-overline{x})}{sum_{i=1}^{m}x_i^2-frac{1}{m}big(sum_{i=1}^{m} x_ibig)^2} ]
[b=frac{1}{m}sum_{i=1}^{m}(y_i-omega x_i) ]
至此我们完成了特殊的一维特征(x)的模型参数,遂而构建了开始所描述的模型。
即较为一般的多维特征的数据(x_i),类似的我们也使用最小二乘法,我们的性能度量还是均方误差
首先是要区分(x)和(X)的区别:
我们把(X)看作一个(x)的增广矩阵,包含了(m)行(d+1)列的元素,最后一列置为一保留截距(omega_0)
重点是:(omega^T x_i = x_i^T omega),由于这两个向量均可变为一维的行列向量,所以手算可证得这两个相等
证明后,我们的最小化目标:(hat{omega}^{*}=argminlimits_{hat{omega}}(bf{y}-{bf{Xhat{omega}}})^T(bf{y}-{bf{Xhat{omega}}})) 就比较容易理解了
矩阵作为一个映射,也对其进行凸分析,对其中({omega})求偏导并且令该式(假设为(E_{hat{omega}}))为零得最优解
[frac{partial E_{hat{omega}} }{partial hat{omega} }=2bf{X}^T(Xhat{omega}-y) ]
求导过程自学矩阵计算即可顺利解出
令(bf{X^TX})为满秩或正定矩阵(保证其有唯一的解,即$omega $的唯一存在)模型参数解 (omega^{*}=(bf{X^TX})^{-1}X^Ty)
通过算得的最小二乘估计参数从而构建对应的预测模型
参与评论
手机查看
返回顶部