You are on page 1of 35

从数学到机器学习分类问题

七月在线 寒老师
2016年8月6日

主要内容
n  线性回归与拟合
1.定义与问题引入
2.损失函数,梯度下降
n  从线性回归到分类,逻辑回归
1.线性回归与分类
2.决策边界与逻辑回归
3.梯度下降与最优化
n  多分类,Softmax与LinearSVM
1.多分类问题
2.Hinge Loss与linearSVM
3.交叉熵损失与Softmax
1

regression与线性回归
o  何为线性回归
n  有监督学习 => 学习样本为
n  输出/预测的结果yi为连续值变量
n  需要学习映射
n  假定输入x和输出y之间有线性相关关系

o  测试/预测阶段
n  对于给定的x,预测其输出

2

线性回归 o  思考一个简单的例子 o  你让一个六年级的孩子在不问同学具体体重多少的情况 下,把班上的同学按照体重从轻到重排队。这个孩子会 怎么做呢? o  他有可能会通过观察大家的身高和体格来排队。 3 .

单变量线性回归 面积 价格 (x,平方英尺)   (y,千美元)   2104   460   1416   232   1534   315   852   178   …   …   4 .

线性回归 5 .

6 .

线性回归 8 .

线性回归 o  损失函数(loss function) o  我们要找到最好的权重/参数[ ]= o  怎么去衡量“最好”? o  我们把x到y的映射函数f记作 的函数 o  定义损失函数为: 3 2 1 0 0 1 9 2 3 .

线性回归 o  最小化损失函数(loss function) 3 2 1 0 0 1 2 3 10 .

线性回归 o  最小化损失函数(loss function) 11 .

线性回归 o  梯度下降 o 逐步最小化损失函数的过程 o 如同下山,找准方向(斜率),每次迈进一小步,直至山底 12 .

线性回归 o  梯度下降 o 逐步最小化损失函数的过程 o 如同下山,找准方向(梯度),每次迈进一小步,直至山底 13 .

线性回归 o  梯度下降 o 逐步最小化损失函数的过程 o 如同下山,找准方向(梯度),每次迈进一小步,直至山底 14 .

线性回归 o  梯度下降 o 假如现在有n个特征/变量xj(j=1…n) 15 .

线性回归 o  学习率与梯度下降 16 .

线性回归与分类 o  有时候需要解决分类问题 o 线性回归 + 阈值? 20 .

线性回归与分类 o  不够坚定,受噪声影响大 21 .

线性回归 → 逻辑回归 o  如何从线性回归(输出连续值)→合理的分类? 线性回归+阈值 线性回归 线性回归+sigmoid 22 .

线性回归 → 逻辑回归 o  Sigmoid是一个什么函数? 22 .

分类与逻辑回归 o  判定边界 23 .

逻辑回归 o  线性判定边界 3   若     则     2   1   1   2   3   .

逻辑回归 o  损失函数 28 .

逻辑回归 o  损失函数 o 我们希望是下面这个样子的 29 .

逻辑回归 o  损失函数 If y = 1 If y = 0 0 1 0 1 30 .

逻辑回归 o  损失函数 别忘了正则化项 31 .

逻辑回归 o  梯度下降求最小值 32 .

逻辑回归 o  二分类与多分类 x2 x2 x1 x1 33 .

多分类 33 .

多分类:linearSVM o  损失函数:hinge loss/支持向量机损失 Ø  对于训练集中的第i个样本数据xi Ø  在W下会有一个得分结果向量f(xi.W) Ø  第j类的得分为我们记作f(xi.W)j Ø  则在该样本上的损失我们由下列公式计算得到 33 .

多分类:linearSVM o  损失函数:hinge loss/支持向量机损失 Ø  因为是线性模型,因此可以简化成 Ø  加正则化项 33 .

多分类:Softmax o  损失函数:交叉熵损失(softmax分类器) Ø  对于训练集中的第i个样本数据xi Ø  在W下会有一个得分结果向量fyi Ø  则损失函数记作 或者 实际工程中一般这么算: 33 .

多分类:LinearSVM vs Softmax 33 .

多分类实验与比较 请参见课上示例 33 .

感谢大家! 恳请大家批评指正! .