复习
进行了复习。
上节课最重要的三个公式,
P(y=1|x;θ)=hθ(x)=11+e−θTx
注意这个地方hθ(x)=11+e−θTx
而不是hθ(x)=θTx。
根据变形的损失函数,
ℓ(θ)=∑iy(i)log(hθ(x))+(1−y(i))log(1−hθ(x))
最后推出梯度上升的公式,
θj:=θj+α(yi−hθ(x))x(i)
牛顿法

f′(θ(0))=f(θ(0))θ(0)−θ(1)=f(θ(0))Δ
得到Δ=f(θ(0))f′(θ(0))。
因此得到,
θ(1)=θ(0)−f(θ(0))f′(θ(0))
。
因此得到,
θ(t+1)=θ(t)−f(θ(0))f′(θ(0))
。
这是一个找θ的方法啊,哈哈。
所以,如果我们要ℓ(θ)最小,要求ℓ′(θ)=0
所以,
θ(t+1)=θ(t)−f′(θ(0))f′′(θ(0))
。
所以没有什么α,又少了一个参数!
收敛速度会很快。所以不用梯度下降的原因。
也就是说几百个特征向量,十几次迭代就够了。
对于θ实际上是一个向量,因此
θ(t+1)=θ(t)−H−1∇θℓ
其中H−1是Hessian矩阵,H−1=∂2ℓ∂θi∂θj
。
这里的H−1∈Rn×n,n是特征数量,因此如果特征数量少的话,一次迭代的时间少。
复习
P(y|x;θ):
- y∈R:Gaussian→↓μ2
- y∈{0,1}:Bernoulli→logistic regression
exponential family
这个暂时不重要。
38分钟之前,书签。
广义线性模型GLM
假设
- y|x;θ∼ExpFamily(η)
- Given x, goal is to output E[y|x], want hθ(x)=E[T(y)|x],大多数时候T(y)=y
- η=θTX,也就是说
ηi=θTiX,
但是大多数时候η是个实数。
hθ(x)=E(y|x;θ)=P(y=1|x;θ)=ϕ=11+e−η=11+e−θTx
这里是想用exponential family,推导logistic regression是适用的。
multinomial distribution, softmax regression
这个是推导。
假设y∈{1,...,k}。
假设参数ϕ1,...,ϕk
根据二项分布的类似定义,假设:
P(y=i)=ϕi。
这里服从,
ϕ1+⋯+ϕk=1
定义
T(1)=⎡⎢
⎢
⎢
⎢⎣10⋮0⎤⎥
⎥
⎥
⎥⎦,T(2)=⎡⎢
⎢
⎢
⎢⎣01⋮0⎤⎥
⎥
⎥
⎥⎦,T(k−1)=⎡⎢
⎢
⎢
⎢⎣00⋮1⎤⎥
⎥
⎥
⎥⎦,⋯,T(k)=⎡⎢
⎢
⎢
⎢⎣00⋮0⎤⎥
⎥
⎥
⎥⎦
定义一个函数,
I{True}=1,I{False}=1→I{yi=i}=1
所以,
T(y)i=I{y=i}。
所以,
P(y)=ϕI{y=i}1⋅ϕI{y=i}2⋯ϕI{y=k}k=ϕI{y=i}1⋅ϕI{y=i}2⋯ϕI{y=k−1}k⋅ϕ1−∑iI{y=i}k
不失去任意性的讨论I{y=k},
最后发现,
这就是softmax函数。
ϕi=eθTix1+∑jθTjx和
ϕk=11+∑jθTjx。
所以,
ϕ1+⋯ϕk−1+ϕk=∑k−1h=1eθThx1+∑jθTjx+11+∑jθTjx=1