理解浅层神经网络

首先介绍一本书，刚看了一点，感觉讲的挺好的,understand deeplearning

单输入单输出可视化

首先考虑一个函数：$\begin{aligned}
y & =\mathrm{f}[x, \boldsymbol{\phi}] \
& =\phi{0}+\phi{1} \mathrm{a}\left[\theta{10}+\theta{11} x\right]+\phi{2} \mathrm{a}\left[\theta{20}+\theta{21} x\right]+\phi{3} \mathrm{a}\left[\theta{30}+\theta{31} x\right] .
\end{aligned}$

如果稍微了解过神经网络算法的就能明白这是一个两层的分类器。

我们假设a[*]是ReLU激活函数，$\mathrm{a}[z]=\operatorname{ReLU}[z]=\left{\begin{array}{ll}
0 & z<0 \
z & z \geq 0
\end{array} .\right.$

我们可以将上面的函数拆解一下并且进行可视化，可视化结果如下：

图a-c是数据只经过一次线性变换未激活之前的，图d-f是经过ReLU函数激活之后的，图g-h是又经过了一次线性变换之后的结果，图j是经过最后全连接层也就是图g-h结果相加。稍加分析就可以知道，由于隐藏单元数量的影响，无论参数怎么变化，最后得到的结果只能有四个区域，每添加一个隐藏单元，就会在结果上添加一个线性区域。实际上，经过普遍逼近原理可以证明，单层的神经网络只要隐藏层足够多可以无限逼近拟合所有函数。