吴恩达机器学习导论牛顿方法学习笔记

复习

进行了复习。

上节课最重要的三个公式，

$P (y = 1 | x; θ) = h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}$

注意这个地方 $h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}$ 而不是 $h_{θ} (x) = θ^{T} x$ 。

根据变形的损失函数，

$ℓ (θ) = \sum_{i} y^{(i)} \log (h_{θ} (x)) + (1 - y^{(i)}) \log (1 - h_{θ} (x))$

最后推出梯度上升的公式，

$θ_{j} := θ_{j} + α (y^{i} - h_{θ} (x)) x^{(i)}$

牛顿法

$f^{'} (θ^{(0)}) = \frac{f (θ^{(0)})}{θ^{(0)} - θ^{(1)}} = \frac{f (θ^{(0)})}{Δ}$

得到 $Δ = \frac{f (θ^{(0)})}{f^{'} (θ^{(0)})}$ 。因此得到， $θ^{(1)} = θ^{(0)} - \frac{f (θ^{(0)})}{f^{'} (θ^{(0)})}$ 。因此得到， $θ^{(t + 1)} = θ^{(t)} - \frac{f (θ^{(0)})}{f^{'} (θ^{(0)})}$ 。这是一个找 $θ$ 的方法啊，哈哈。

所以，如果我们要 $ℓ (θ) 最小，要求 ℓ^{'} (θ) = 0$ 所以， $θ^{(t + 1)} = θ^{(t)} - \frac{f^{'} (θ^{(0)})}{f^{''} (θ^{(0)})}$ 。

所以没有什么 $α$ ，又少了一个参数！

收敛速度会很快。所以不用梯度下降的原因。也就是说几百个特征向量，十几次迭代就够了。对于 $θ$ 实际上是一个向量，因此 $θ^{(t + 1)} = θ^{(t)} - H^{- 1} \nabla_{θ} ℓ$ 其中 $H^{- 1}$ 是Hessian矩阵， $H^{- 1} = \frac{\partial^{2} ℓ}{\partial θ_{i} \partial θ_{j}}$ 。这里的 $H^{- 1} \in R^{n \times n}$ ， $n$ 是特征数量，因此如果特征数量少的话，一次迭代的时间少。

复习

$P (y | x; θ)$ :

$y \in R : G a u s s i a n \to↓ μ^{2}$
$y \in {0, 1} : B e r n o u l l i \to l o g i s t i c r e g r e s s i o n$

exponential family

这个暂时不重要。

38分钟之前，书签。

广义线性模型GLM

假设

$y | x; θ \sim E x p F a m i l y (η)$
Given $x$ , goal is to output $E [y | x]$ , want $h_{θ} (x) = E [T (y) | x]$ ，大多数时候 $T (y) = y$
$η = θ^{T} X$ ，也就是说 $η_{i} = θ_{i}^{T} X$ ，但是大多数时候 $η$ 是个实数。

$\begin{aligned} h_{θ} (x) & = E (y | x; θ) = P (y = 1 | x; θ) \\ = ϕ \\ = \frac{1}{1 + e^{- η}} \\ = \frac{1}{1 + e^{- θ^{T} x}} \end{aligned}$

这里是想用exponential family，推导logistic regression是适用的。

multinomial distribution, softmax regression

这个是推导。

假设 $y \in {1, . . ., k}$ 。假设参数 $ϕ_{1}, . . ., ϕ_{k}$ 根据二项分布的类似定义，假设: $P (y = i) = ϕ_{i}$ 。这里服从， $ϕ_{1} + \dots + ϕ_{k} = 1$ 定义 $T (1) = [\begin{matrix} 1 \\ 0 \\ ⋮ \\ 0 \end{matrix}], T (2) = [\begin{matrix} 0 \\ 1 \\ ⋮ \\ 0 \end{matrix}], T (k - 1) = [\begin{matrix} 0 \\ 0 \\ ⋮ \\ 1 \end{matrix}], \dots, T (k) = [\begin{matrix} 0 \\ 0 \\ ⋮ \\ 0 \end{matrix}]$

定义一个函数，

$I {T r u e} = 1, I {F a l s e} = 1 \to I {y_{i} = i} = 1$

所以， $T (y)_{i} = I {y = i}$ 。

所以，

$\begin{aligned} P (y) & = ϕ_{1}^{I {y = i}} \cdot ϕ_{2}^{I {y = i}} \dots ϕ_{k}^{I {y = k}} \\ = ϕ_{1}^{I {y = i}} \cdot ϕ_{2}^{I {y = i}} \dots ϕ_{k}^{I {y = k - 1}} \cdot ϕ_{k}^{1 - \sum_{i} I {y = i}} \end{aligned}$

不失去任意性的讨论 $I {y = k}$ ，

最后发现，

这就是softmax函数。 $ϕ_{i} = \frac{e^{θ_{i}^{T} x}}{1 + \sum_{j} θ_{j}^{T} x}$ 和 $ϕ_{k} = \frac{1}{1 + \sum_{j} θ_{j}^{T} x}$ 。所以， $\begin{aligned} ϕ_{1} + \dots ϕ_{k - 1} + ϕ_{k} & = \frac{\sum_{h = 1}^{k - 1} e^{θ_{h}^{T} x}}{1 + \sum_{j} θ_{j}^{T} x} + \frac{1}{1 + \sum_{j} θ_{j}^{T} x} \\ = 1 \end{aligned}$

吴恩达 机器学习导论 牛顿方法 学习笔记

复习

牛顿法

复习

exponential family

广义线性模型GLM

multinomial distribution, softmax regression

吴恩达机器学习导论牛顿方法学习笔记