由上图可以看出,随着隐层层数的增多,凸域将可以形成任意的形状,因此可以解决任何复杂的分类问题。实际上,Kolmogorov理论指出:双隐层感知器就足以解决任何复杂的分类问题。
3 神经网络表达力与过拟合
1. 理论上,单隐层神经网络可以逼近任何连续函数(只要隐层的神经元个数足够)
2. 虽然从数学上看多隐层和单隐层表达能力一致,但多隐层的神经网络比单隐层神经网络工程效果好很多
3. 对于一些分类数据(比如CTR预估),3层神经网络效果优于2层神经网络,但如果把层数不断增加(4,5,6层),对最后的结果的帮助没有那么大的跳变
4. 图像数据比较特殊,是一种深层的结构化数据,深层次的卷积神经网络能更充分和准确的把这些层级信息表达出来
5. 提升隐层数量或者隐层神经元个数,神经网络的“容量”会变大,空间表达能力会变强
6. 过多的隐层和神经元结点会带来过拟合问题
7. 不要试图降低神经网络参数量来减缓过拟合,用正则化或者dropout
4 神经网络结构
4.1 网络结构
n个输入;输出m个概率
4.2 传递函数/激活函数
前面每一层输入经过线性变换wx+b后还用到了sigmoid函数,在神经网络的结构中被称为传递函数或者激活函数。
除了sigmoid,还有tanh、relu等别的激活函数。激活函数使线性的结果非线性化。
4.2.1 为什么需要传递函数
简单理解上,如果不加激活函数,无论多少层隐层,最终的结果还是原始输入的线性变化,这样一层隐层就可以达到结果,就没有多层感知器的意义了。
所以每个隐层都会配一个激活函数,提供非线性变化。
4.2.2 介绍两种激活函数
双S函数又被称为tanh函数
5 BP算法
5.1 网络结构
1. 正向传播求损失,反向传播回传误差
2. 根据误差信号修正每层的权重
3. f是激活函数;f(netj)是隐层的输出; f(netk)是输出层的输出O; d是target
5.2 如何反向传播
以三层感知器为例:
结合BP网络结构,误差由输出展开至输入的过程如下:
有了误差E,通过求偏导就可以求得最优的权重。(不要忘记学习率)
BP算法属于δ学习规则类,这类算法常被称为误差的梯度下降算法。 这类算法要求变换函数可导(sigmoid是满足的)
5.3 举例
图中元素:
两个输入;
隐层: b1, w1, w2, w3, w4 (都有初始值)
输出层:b2, w5, w6, w7, w8(赋了初始值)
5.3.1 前向运算 计算误差
求误差对w1的偏导
注意,w1对两个输出的误差都有影响
通过以上过程可以更新所有权重,就可以再次迭代更新了,直到满足条件。
————————————————
本文转自CSDN平台博主:一个人的场域
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/leiting_imecas/article/details/60463897