神经网络——BP算法

2024-05-10

1. 神经网络——BP算法

对于初学者来说，了解了一个算法的重要意义，往往会引起他对算法本身的重视。BP(Back Propagation，后向传播)算法，具有非凡的历史意义和重大的现实意义。
  
 1969年,作为人工神经网络创始人的明斯基(Marrin M insky)和佩珀特(Seymour Papert)合作出版了《感知器》一书,论证了简单的线性感知器功能有限,不能解决如“异或”(XOR )这样的基本问题,而且对多层网络也持悲观态度。这些论点给神经网络研究以沉重的打击,很多科学家纷纷离开这一领域,神经网络的研究走向长达10年的低潮时期。[1]
  
 1974年哈佛大学的Paul Werbos发明BP算法时，正值神经外网络低潮期，并未受到应有的重视。[2]
  
 1983年，加州理工学院的物理学家John Hopfield利用神经网络，在旅行商这个NP完全问题的求解上获得当时最好成绩，引起了轰动[2]。然而,Hopfield的研究成果仍未能指出明斯基等人论点的错误所在,要推动神经网络研究的全面开展必须直接解除对感知器——多层网络算法的疑虑。[1]
  
 真正打破明斯基冰封魔咒的是，David Rumelhart等学者出版的《平行分布处理:认知的微观结构探索》一书。书中完整地提出了BP算法,系统地解决了多层网络中隐单元连接权的学习问题,并在数学上给出了完整的推导。这是神经网络发展史上的里程碑，BP算法迅速走红，掀起了神经网络的第二次高潮。[1,2]
  
  因此，BP算法的历史意义：明确地否定了明斯基等人的错误观点，对神经网络第二次高潮具有决定性意义。 
  
 这一点是说BP算法在神经网络领域中的地位和意义。
  
  BP算法是迄今最成功的神经网络学习算法，现实任务中使用神经网络时，大多是在使用BP算法进行训练[2],包括最近炙手可热的深度学习概念下的卷积神经网络(CNNs)。 
  
  
 BP神经网络是这样一种神经网络模型，它是由一个输入层、一个输出层和一个或多个隐层构成，它的激活函数采用sigmoid函数，采用BP算法训练的多层前馈神经网络。
  
 BP算法全称叫作误差反向传播(error Back Propagation，或者也叫作误差逆传播)算法。其算法基本思想为：在2.1所述的前馈网络中，输入信号经输入层输入，通过隐层计算由输出层输出，输出值与标记值比较，若有误差，将误差反向由输出层向输入层传播，在这个过程中，利用梯度下降算法对神经元权值进行调整。
  
 BP算法中核心的数学工具就是微积分的 链式求导法则 。
  
                                                                                  
 
  
                                          
 
  
                                                                                                                                                                                                                                                  
 BP算法的缺点，首当其冲就是局部极小值问题。
  
 BP算法本质上是梯度下降，而它所要优化的目标函数又非常复杂，这使得BP算法效率低下。
  
  
 [1]、《BP算法的哲学思考》，成素梅、郝中华著
  
 [2]、《机器学习》，周志华著
  
 [3]、 Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现  
  
 2016-05-13 第一次发布
  
 2016-06-04 较大幅度修改，完善推导过程，修改文章名
  
  
 2016-07-23 修改了公式推导中的一个错误，修改了一个表述错误

神经网络——BP算法

2. BP神经网络

 神经网络能很好地解决不同的机器学习问题。神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量。
                                           上图显示了人工神经网络是一个分层模型，逻辑上可以分为三层：
    输入层 ：输入层接收特征向量 x
    输出层 ：输出层产出最终的预测 h
    隐含层 ：隐含层介于输入层与输出层之间，之所以称之为隐含层，是因为当中产生的值并不像输入层使用的样本矩阵 X或者输出层用到的标签矩阵 y 那样直接可见。
   下面引入一些标记法来帮助描述模型：
    !$ a^{(j)}_{i} $ 代表第j层的第i个激活单元。 !$ \theta^{(j)} $ 代表从第 j 层映射到第 j+1 层时的权重的矩阵，例如 !$ \theta^{(1)} $ 代表从第一层映射到第二层的权重的矩阵。其尺寸为：以第 j+1层的激活单元数量为行数，以第 j 层的激活单元数加一为列数的矩阵。例如：上图所示的神经网络中 !$ \theta^{(1)} $ 的尺寸为 3*4。
   对于上图所示的模型，激活单元和输出分别表达为：
    !$ a^{(2)}_{1} = g( \theta^{(1)}_{10}x_0 + \theta^{(1)}_{11}x_1 + \theta^{(1)}_{12}x_2 + \theta^{(1)}_{13}x_3 ) $ 
    !$a^{(2)}_{2} = g( \theta^{(1)}_{20}x_0 + \theta^{(1)}_{21}x_1 + \theta^{(1)}_{22}x_2 + \theta^{(1)}_{23}x_3 ) $ 
    !$a^{(2)}_{3} = g( \theta^{(1)}_{30}x_0 + \theta^{(1)}_{31}x_1 + \theta^{(1)}_{32}x_2 + \theta^{(1)}_{33}x_3 ) $ 
    !$h_{\theta}{(x)} = g( \theta^{(2)}_{10}a^{2}_{0} + \theta^{(2)}_{11}a^{2}_{1} + \theta^{(2)}_{12}a^{2}_{2} + \theta^{(2)}_{13}a^{2}_{3} ) $ 
   下面用向量化的方法以上面的神经网络为例，试着计算第二层的值：
                                           
                                           
    对于多类分类问题来说: 
                                           我们可将神经网络的分类定义为两种情况:二类分类和多类分类。
   二类分类： !$ S_{L} = 0,y = 0,y = 1$ 
   多类分类： !$ S_{L} = k, y_{i} = 1表示分到第i类；(k>2)$ 
                                           在神经网络中，我们可以有很多输出变量，我们的 !$h_{\theta}{(x)} $ 是一个维度为K的向量，并且我们训练集中的因变量也是同样维度的一个向量，因此我们的代价函数会比逻辑回归更加复杂一些，为： !$ h_{\theta}{(x)} \in R^{K}(h_{\theta}{(x)})_{i} = i^{th} output$      
   我们希望通过代价函数来观察算法预测的结果与真实情况的误差有多大，唯一不同的是，对于每一行特征，我们都会给出K个预测，基本上我们可以利用循环，对每一行特征都预测K个不同结果，然后在利用循环在K个预测中选择可能性最高的一个，将其与y中的实际数据进行比较。
   正则化的那一项只是排除了每一层 !$\theta_0$ 后，每一层的  矩阵的和。最里层的循环j循环所有的行（由   +1 层的激活单元数决定），循环i则循环所有的列，由该层（ !$ s_l$ 层）的激活单元数所决定。即： !$h_{\theta}{(x)}$ 与真实值之间的距离为每个样本-每个类输出的加和，对参数进行 regularization 的 bias 项处理所有参数的平方和。
                                           由于神经网络允许多个隐含层，即各层的神经元都会产出预测，因此，就不能直接利用传统回归问题的梯度下降法来最小化 !$J(\theta)$ ，而需要逐层考虑预测误差，并且逐层优化。为此，在多层神经网络中，使用反向传播算法（Backpropagation Algorithm）来优化预测，首先定义各层的预测误差为向量  !$ δ^{(l)} $ 
                                            训练过程： 
                                           当我们对一个较为复杂的模型（例如神经网络）使用梯度下降算法时，可能会存在一些不容易察觉的错误，意味着，虽然代价看上去在不断减小，但最终的结果可能并不是最优解。
   为了避免这样的问题，我们采取一种叫做梯度的数值检验（ Numerical Gradient Checking ）方法。这种方法的思想是通过估计梯度值来检验我们计算的导数值是否真的是我们要求的。
   对梯度的估计采用的方法是在代价函数上沿着切线的方向选择离两个非常近的点然后计算两个点的平均值用以估计梯度。即对于某个特定的   ，我们计算出在 !$\theta - \epsilon$  处和 !$\theta + \epsilon$ 的代价值（是一个非常小的值，通常选取 0.001），然后求两个代价的平均，用以估计在  !$\theta$  处的代价值。
                                           当 !$\theta$ 是一个向量时，我们则需要对偏导数进行检验。因为代价函数的偏导数检验只针对一个参数的改变进行检验，下面是一个只针对 !$\theta_1$ 进行检验的示例：
                                                                                   如果上式成立，则证明网络中BP算法有效，此时关闭梯度校验算法（因为梯度的近似计算效率很慢），继续网络的训练过程。

3. 深入理解BP神经网络

BP神经网络是一种多层的前馈神经网络，其主要的特点是：信号是前向传播的，而误差是反向传播的。具体来说，对于如下的只含一个隐层的神经网络模型：
  
 BP神经网络的过程主要分为两个阶段，第一阶段是信号的前向传播，从输入层经过隐含层，最后到达输出层；第二阶段是误差的反向传播，从输出层到隐含层，最后到输入层，依次调节隐含层到输出层的权重和偏置，输入层到隐含层的权重和偏置。
                                          
 神经网络的基本组成单元是神经元。神经元的通用模型如图所示，其中常用的激活函数有阈值函数、sigmoid函数和双曲正切函数。 
                                          
 神经元的输出为： 
                                          
 神经网络是将多个神经元按一定规则联结在一起而形成的网络，如图 所示。 
                                          
 从图 可以看出，一个神经网络包括输入层、隐含层（中间层）和输出层。输入层神经元个数与输入数据的维数相同，输出层神经元个数与需要拟合的数据个数相同，隐含层神经元个数与层数就需要设计者自己根据一些规则和目标来设定。在深度学习出现之前，隐含层的层数通常为一层，即通常使用的神经网络是3层网络。 
  
 BP网络采用的传递函数是非线性变换函数——Sigmoid函数（又称S函数）。其特点是函数本身及其导数都是连续的，因而在处理上十分方便。为什么要选择这个函数，等下在介绍BP网络的学习算法的时候会进行进一步的介绍。S函数有单极性S型函数和双极性S型函数两种，单极性S型函数定义如下：f(x)=1/1+e−x
  
 其函数曲线如图所示：
                                          
 双极性S型函数：f(x)=1−e−x/1+e−x
  
 
  
                                          
 使用S型激活函数时，输入：
                                          
 输出：
                                          
 输出的导数：
                                          
 使用S型激活函数时，BP网络的输出及其导数图形：
                                          
 根据S激活函数的图形：
  
 net在 -5~0 的时候导数的值为正，且导数的值逐渐增大， 说明此时f(x)在逐渐变大 且 变大的速度越来越快 
  
 net在 0~5  的时候导数的值为正，且导数的值逐渐减小， 说明此时f(x)在逐渐变大 但是 变大的速度越来越慢 
  
 对神经网络进行训练，我们应该尽量将net的值尽量控制在收敛比较快的范围内。
                                                                                                                                                                                                                                                                                                                                                                                                                  
 1.  定义一个BP神经网络的类，设置网络相关参数
                                          
 2.    实例化该神经网络，按下图被构建成一个输出3维，输出1维，带有3个隐藏层（每个隐藏层10个节点）的BP网络；（此处还可以随意扩展输入、输出维度和隐藏层相关系数）
                                          
 3.    初始化BP神经网络的时候，开始初始化各层网络节点的 权重、权重动量、误差初始值
                                          
 4.  引入学习训练数据；4组输入、输出数据迭代5000次
                                          
     5000次中不断向前逐层计算输出的节点数据
                                          
     并同时逐层计算误差反向修改权重值，直到迭代完毕；注意误差函数值必须呈现下降趋势
                                          
 5.  引入数据进行结果预测，将数据带回模型计算得结果；最终可知预测结果趋近于0.7
                                                                                  
 神经网络利用现有的数据找出输入与输出之间得权值关系（近似），然后利用这样的权值关系进行仿真，例如输入一组数据仿真出输出结果，当然你的输入要和训练时采用的数据集在一个范畴之内。例如预报天气：温度 湿度 气压等作为输入 天气情况作为输出利用历史得输入输出关系训练出神经网络，然后利用这样的神经网络输入今天的温度 湿度 气压等 得出即将得天气情况。同理，运用到自动化测试中，使用测试数据反映结果走向，bug数，质量问题等情况也可以做到提前预测的！
  
  附录：

深入理解BP神经网络

4. bp神经网络算法介绍 bp神经网络算法简介

1、BP（Back Propagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层（input）、隐层(hide layer)和输出层(output layer)。
 
 2、BP神经网络算法是在BP神经网络现有算法的基础上提出的，是通过任意选定一组权值，将给定的目标输出直接作为线性方程的代数和来建立线性方程组，解得待求权，不存在传统方法的局部极小及收敛速度慢的问题，且更易理解。

5. 为什么我的BP神经网络的预测输出结果几乎是一样的呢

最大的可能性是没有归一化。具体原因见下：
下面这个是经典的Sigmoid函数的曲线图：

如果不进行归一化，则过大的输入x将会导致Sigmoid函数进入平坦区，全部趋近于1，即最后隐层的输出全部趋同。输出层是个purelin，线性组合后的输出层输出当然也全是几乎相同的了。

使用matlab进行归一化通常使用mapminmax函数，它的用法：
[Y,PS] = mapminmax(X,YMIN,YMAX)——将数据X归一化到区间[YMIN,YMAX]内，YMIN和YMAX为调用mapminmax函数时设置的参数，如果不设置这两个参数，这默认归一化到区间[-1, 1]内。标准化处理后的数据为Y，PS为记录标准化映射的结构体。我们一般归一化到（0,1）区间内。

为什么我的BP神经网络的预测输出结果几乎是一样的呢

6. 如何建立bp神经网络预测模型

建立BP神经网络预测 模型，可按下列步骤进行：
1、提供原始数据
2、训练数据预测数据提取及归一化
3、BP网络训练
4、BP网络预测
5、结果分析
现用一个实际的例子，来预测2015年和2016年某地区的人口数。
已知2009年——2014年某地区人口数分别为3583、4150、5062、4628、5270、5340万人
执行BP_main程序，得到
[ 2015,  5128.631704710423946380615234375]
[ 2016, 5100.5797325642779469490051269531]
代码及图形如下。

7. 在看了案例二中的BP神经网络训练及预测代码后，我开始不明白BP神经网络究竟能做什么了。。。程序最后得到

网络的训练过程与使用过程了两码事。
比如BP应用在分类，网络的训练是指的给你一些样本，同时告诉你这些样本属于哪一类，然后代入网络训练，使得这个网络具备一定的分类能力，训练完成以后再拿一个未知类别的数据通过网络进行分类。这里的训练过程就是先伪随机生成权值，然后把样本输入进去算出每一层的输出，并最终算出来预测输出（输出层的输出），这是正向学习过程；最后通过某种训练算法（最基本的是感知器算法）使得代价（预测输出与实际输出的某范数）函数关于权重最小，这个就是反向传播过程。
您所说的那种不需要预先知道样本类别的网络属于无监督类型的网络，比如自组织竞争神经网络。

在看了案例二中的BP神经网络训练及预测代码后，我开始不明白BP神经网络究竟能做什么了。。。程序最后得到

8. bp神经网络函数中哪个预测性能好

traingdm是带动量的梯度下降法，trainlm是指L-M优化算法，trainscg是指量化共轭梯度法，除此之外还有traingdx、traingda等，都是权值的训练算法。看MATLAB结合神经网络的基础书上都有介绍。tansig和logsig  统称Sigmoid函数，logsig是单极性S函数，tansig是双极性S函数，也叫双曲正切函数，purelin是线性函数，是节点的传输函数。

学习函数和训练函数的区别：学习函数的输出是权值和阈值的增量，训练函数的输出是训练好的网络和训练记录，在训练过程中训练函数不断调用学习函数修正权值和阈值，通过检测设定的训练步数或性能函数计算出的误差小于设定误差，来结束训练。    

下面是几个仿真实验，用了不同的训练函数：
1.创建BP网络的学习函数，训练函数和性能函数都采用default值，分别为learngdm,trainlm和mse时的逼近结果：
由此可见，进过200次训练后，虽然网络的性能还没有为0，但是输出均方误差已经很小了，MSE=6.72804e-0.06,显示的结果也证明P和T之间非线性映射关系的拟合是非常精确的；
2.建立一个学习函数为learnd，训练函数为traingd,和性能函数为msereg的BP网络，来完成拟合任务:
可见，经过200次训练后，网络的输出误差比较大，而且网络误差的收敛速度非常慢。这是由于训练函数traingd为单纯的梯度下降训练函数，训练速度比较慢，而且容易陷入局部最小的情况。结果显示网络精度确实比较差。
3.将训练函数修改为traingdx，该i函数也是梯度下降法训练函数，但是在训练过程中，他的学习速率是可变的
在200次训练后，以msereg函数评价的网络性能为1.04725，已经不是很大,结果显示P和T之间非线性关系的拟合情况不错，网络的性能不错。

神经网络——BP算法

1. 神经网络——BP算法

2. BP神经网络

3. 深入理解BP神经网络

4. bp神经网络算法介绍 bp神经网络算法简介

5. 为什么我的BP神经网络的预测输出结果几乎是一样的呢

6. 如何建立bp神经网络预测 模型

7. 在看了案例二中的BP神经网络训练及预测代码后，我开始不明白BP神经网络究竟能做什么了。。。 程序最后得到

8. bp神经网络函数中哪个预测性能好

6. 如何建立bp神经网络预测模型

7. 在看了案例二中的BP神经网络训练及预测代码后，我开始不明白BP神经网络究竟能做什么了。。。程序最后得到