本文于2020-10-10更新。如发现问题或者有建议，欢迎提交 Issue

$◻$ 整合之前梯度下降的文章。

1 梯度下降和 $β$

这是梯度下降的公式

$J (θ) = \frac{1}{2} \sum (y - {\hat{y}}_{θ})^{2}$

这里的 $y$ 和 $x$ 都是训练集给定的，如果要减小 $J (θ)$ 只能通过不断变动向量 $θ$ 的值，从而得到最小的 $J (θ)$ 。

2 三种梯度下降方式

批量梯度下降法BGD: 全量
随机梯度下降法SGD: 一个
min-batch 小批量梯度下降法MBGD: 若干个

三者的区别在于梯度下降时 $J (θ)$ 使用样本的大小。、

$θ_{j} := θ_{j} 0 - α \frac{\partial}{\partial θ_{j}} J (θ)$

这是每个 $θ_{j}$ 更新的方式。这里以批量梯度下降法BGD的方式，进行推导。

$\begin{aligned} \frac{\partial}{\partial θ_{j}} J (θ) & = \frac{\partial}{\partial θ_{j}} \frac{1}{2} (y - \hat{y})^{2} \\ = \frac{1}{2} \cdot 2 (y - \hat{y}) \cdot \frac{\partial}{\partial θ_{j}} (y - \hat{y}) \\ = (y - \hat{y}) \cdot \frac{\partial}{\partial θ_{j}} (\sum (y_{i} - θ x_{i})) \\ = (y - \hat{y}) \cdot (- x_{i}) \\ = \frac{1}{m} \sum_{i = 1}^{m} (y - \hat{y}) \cdot (- x_{i}) \end{aligned}$

批量梯度下降法BGD: 全量

$θ_{j} := θ_{j} + \frac{1}{m} \sum_{i = 1}^{m} (y_{i} - \hat{y}) \cdot x_{i}$

随机梯度下降法SGD: 一个

$θ_{j} := θ_{j} + (y_{i} - \hat{y}) \cdot x_{i}$

min-batch 小批量梯度下降法MBGD: 若干个

$θ_{j} := θ_{j} + α \cdot \frac{1}{10} \sum_{i = 1}^{i + 9} (y_{i} - \hat{y}) \cdot x_{i}$ # 神经网络的bias的定义

bias其实就是每个方程的截距。

每个节点都有一个bias，一次一共有16个bias。因此到目前为止， $784 \times 16$ 个 $w$ 和 $16$ 个bias。 (3Blue1Brown 2018 a)

这是全部弄下来的bias数量和 $w$ 数量。

于是转化成了线性代数的问题。这个地方对线性代数的解释非常到位(14:26) 。

$α^{(1)} = σ (W α^{(0)} + b)$

这里 $α^{(i)}$ 表示第几层。

Relu其实一点都不简单，关键是为了描述突变，描述 $i n a c t i v e \to a c t i v e$ 。

3 梯度下降一定是按照最陡的方向 (忆臻 2018)

假设，空间点从A点移动到B点。空间两个特征变量 $x_{1}$ 和 $x_{2}$ ， $z = f (x)$ 是损失函数， $x = [x_{1}, x_{2}]$ 。假设 $x \to x + Δ x$ ， $Δ x$ 是移动的向量，那么，

$Δ z = f (x + Δ x) - f (x)$

使用泰勒公式，近似得到，

$\begin{aligned} Δ z & = f (x + Δ x) - f (x) \\ = \nabla f^{T} (x) Δ x \end{aligned}$

$\nabla f^{T} (x)$ 是各种偏导集合的矩阵¹。不理解的话，就当成一阶导数理解吧。并且这句是梯度下降公式中的梯度。注意这里 $\nabla f^{T} (x)$ 和 $Δ x$ 是两个向量， $\nabla f^{T} (x)$ 显然是x点的切线方向， $Δ x$ 是移动向量方向。

要下降最快，就是说， $\begin{aligned} max Δ z & \to max \nabla f^{T} (x) Δ x \\ \to max | | \nabla f^{T} (x) | | \cdot | | Δ x | | \cos (θ) \\ \to max \cos (θ) \\ \to θ = 0 \end{aligned}$

因此当移动方向是切线方向是下降最快的。

4 神经网络的过程 (3Blue1Brown 2018 b)

无隐藏层的神经网络就是一般线性方程。

最形象的图，输入层784个节点，第一层隐藏层16个，相当于每个输入层的节点都跟第一层隐藏层的节点链接。第二个隐藏层16个，输出层10个。因此 $w$ 有 $784 \times 16 + 16 \times 16 + 16 \times 10$ 。

定义好后，梯度下降，找最合适的 $θ$ ，使得损失最小。

这里有13000个 $w$ ，但是都是一个列向量而已，用 $\nabla C (W) = \frac{\partial C}{\partial w}$ 表示。 13000个分力最后会给出一个合力。

最后这张图解释了，虽然在点 $(1, 1)$ 但是明显最快方向为 $(3, 1)$ 也就是说，梯度下降不一定是直线的，会拐弯。因此梯度下降一定是按照最陡的方向(3)。

参考文献

3Blue1Brown. 2018a. “深度学习之神经网络的结构 Part 1.” 2018. https://www.bilibili.com/video/av15532370/.

———. 2018b. “深度学习之神经网络的结构 Part 2.” 2018. https://www.bilibili.com/video/av6731067/.

忆臻. 2018. “为什么梯度的负方向是局部下降最快的方向？.” 2018. http://mp.weixin.qq.com/s/k4VkZG9QYHeXiBiNuWdKnA.

因为导数满足adding和scaling的性质，因此用矩阵来表达。↩

梯度下降 gradient descent 学习笔记

1 梯度下降和 ββ

2 三种梯度下降方式

3 梯度下降一定是按照最陡的方向 (忆臻 2018)

4 神经网络的过程 (3Blue1Brown 2018b)

参考文献

1 梯度下降和 $β$

4 神经网络的过程 (3Blue1Brown 2018 b)