2 min read

吴恩达 机器学习导论 牛顿方法 学习笔记

复习

进行了复习。

上节课最重要的三个公式,

P(y=1|x;θ)=hθ(x)=11+eθTx

注意这个地方hθ(x)=11+eθTx 而不是hθ(x)=θTx

根据变形的损失函数,

(θ)=iy(i)log(hθ(x))+(1y(i))log(1hθ(x))

最后推出梯度上升的公式,

θj:=θj+α(yihθ(x))x(i)

牛顿法

f(θ(0))=f(θ(0))θ(0)θ(1)=f(θ(0))Δ

得到Δ=f(θ(0))f(θ(0))。 因此得到, θ(1)=θ(0)f(θ(0))f(θ(0)) 。 因此得到, θ(t+1)=θ(t)f(θ(0))f(θ(0)) 。 这是一个找θ的方法啊,哈哈。

所以,如果我们要(θ)(θ)=0 所以, θ(t+1)=θ(t)f(θ(0))f(θ(0))

所以没有什么α,又少了一个参数!

收敛速度会很快。所以不用梯度下降的原因。 也就是说几百个特征向量,十几次迭代就够了。 对于θ实际上是一个向量,因此 θ(t+1)=θ(t)H1θ 其中H1是Hessian矩阵,H1=2θiθj 。 这里的H1Rn×nn是特征数量,因此如果特征数量少的话,一次迭代的时间少。

复习

P(y|x;θ):

  • yR:Gaussian→↓μ2
  • y{0,1}:Bernoullilogistic regression

exponential family

这个暂时不重要。

38分钟之前,书签。

广义线性模型GLM

假设

  • y|x;θExpFamily(η)
  • Given x, goal is to output E[y|x], want hθ(x)=E[T(y)|x],大多数时候T(y)=y
  • η=θTX,也就是说 ηi=θiTX, 但是大多数时候η是个实数。

hθ(x)=E(y|x;θ)=P(y=1|x;θ)=ϕ=11+eη=11+eθTx

这里是想用exponential family,推导logistic regression是适用的。

multinomial distribution, softmax regression

这个是推导。

假设y{1,...,k}。 假设参数ϕ1,...,ϕk 根据二项分布的类似定义,假设: P(y=i)=ϕi。 这里服从, ϕ1++ϕk=1 定义 T(1)=[100],T(2)=[010],T(k1)=[001],,T(k)=[000]

定义一个函数,

I{True}=1,I{False}=1I{yi=i}=1

所以, T(y)i=I{y=i}

所以,

P(y)=ϕ1I{y=i}ϕ2I{y=i}ϕkI{y=k}=ϕ1I{y=i}ϕ2I{y=i}ϕkI{y=k1}ϕk1iI{y=i}

不失去任意性的讨论I{y=k}

最后发现,

这就是softmax函数。 ϕi=eθiTx1+jθjTxϕk=11+jθjTx。 所以, ϕ1+ϕk1+ϕk=h=1k1eθhTx1+jθjTx+11+jθjTx=1