人工智能深度学习神经网络后面的层被freeze住，会影响前面的层的梯度吗？

神经网络后面的层被freeze住，会影响前面的层的梯度吗？

答案是不会。

假设一个最简单的神经网络，它只有一个输入

x，一个隐藏层神经元

h，和一个输出层神经元

y，均方差损失

L，真实标签

t：

⋅

(

−

)

\begin{gathered} h = w_1 \cdot x \\ y = w_2 \cdot h \\ L=\frac{1}{2}(y-t)^2 \end{gathered}

h=w1⋅xy=w2⋅hL=21(y−t)2

以下分

w_2

w2是否被freeze住，即

w_2

w2.requires_grad是否为True来讨论。

情况1：

w_2

w2.requires_grad为True

这种情况下，

L对

w_1

w1的梯度为：

∂

⋅

∂

⋅

∂

\frac{\partial L}{\partial w 1}=\frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial h} \cdot \frac{\partial h}{\partial w 1}

∂w1∂L=∂y∂L⋅∂h∂y⋅∂w1∂h

∂

(

−

)

−

\frac{\partial L}{\partial y}=\frac{\partial}{\partial y}\left(\frac{1}{2}(y-t)^2\right)=y-t

∂y∂L=∂y∂(21(y−t)2)=y−t

∂

(

⋅

)

\frac{\partial y}{\partial h}=\frac{\partial}{\partial h}\left(w_2 \cdot h\right)=w_2

∂h∂y=∂h∂(w2⋅h)=w2

∂

(

⋅

)

\frac{\partial h}{\partial w_1}=\frac{\partial}{\partial w_1}\left(w_1 \cdot x\right)=x

∂w1∂h=∂w1∂(w1⋅x)=x

因此：

∂

⋅

∂

⋅

∂

(

−

)

⋅

\frac{\partial L}{\partial w 1}=\frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial h} \cdot \frac{\partial h}{\partial w 1} = (y-t) \cdot w_2 \cdot x

∂w1∂L=∂y∂L⋅∂h∂y⋅∂w1∂h=(y−t)⋅w2⋅x

情况2：

w_2

w2.requires_grad为False

这种情况下，

w_2

w2被视为一个常数，此时

L对

w_1

w1的梯度仍然为：

∂

⋅

∂

⋅

∂

(

−

)

⋅

\frac{\partial L}{\partial w 1}=\frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial h} \cdot \frac{\partial h}{\partial w 1} = (y-t) \cdot w_2 \cdot x

∂w1∂L=∂y∂L⋅∂h∂y⋅∂w1∂h=(y−t)⋅w2⋅x

因为无论

w_2

w2是否被freeze住，

∂

(

⋅

)

\frac{\partial y}{\partial h}=\frac{\partial}{\partial h}\left(w_2 \cdot h\right)=w_2

∂h∂y=∂h∂(w2⋅h)=w2这一点是不会变的。

在计算

w_1

w1的梯度时，我们并不需要

w_2

w2的梯度，而是只需要

w_2

w2这个参数值。

精彩链接

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

大家都在看：

人工智能深度学习卷积神经网络机器学习 python 分类神经网络概念--梯度消失和梯度爆炸

梯度消失和梯度爆炸是深度学习中的两个常见问题，尤其是在训练深层神经网络时。它们都与网络权重的梯度有关，这些梯度是通过反向传播算法计算出来的，用于网络权重的更新。下面是对这两个现象的详细解释：梯度消失...

深度学习人工智能 python 神经网络机器学习随机森林梯度下降法原理及基于图像处理的实战

算法原理：梯度下降法是一种常用于优化机器学习模型的迭代优化算法，其核心原理是通过反复调整模型参数以最小化损失函数。这种方法特别适用于求解复杂的非线性问题，例如训练神经网络等。以下是...

人工智能语音识别神经网络第二篇【传奇开心果系列】Python深度学习库技术点案例示例:深度解读深度学习在语音助手方面的应用

传奇开心果博文系列系列博文目录Python深度学习库技术点案例示例系列博文目录前言一、深度学习在语音助手方面的应用介绍二、语音识别示例代码三、语义理解示例代码四、对话生成示例代码五、个性化服...

人工智能深度学习神经网络梯度与神经元参数w、b关系；梯度与导数关系；梯度消失与爆炸

参考：https://blog.csdn.net/weixin_44259490/article/details/90295146 视频：https://www.bilibili.com/video/...

卷积神经网络模型训练精华整理几十个Python数据科学、机器学习、深度学习、神经网络、人工智能方面的核心库以及详细使用实战案例，轻松几行代码训练自己的专有人工智能模型

精华整理几十个Python数据科学、机器学习、深度学习、神经网络、人工智能方面的核心库以及详细使用实战案例，轻松几行代码训练自己的专有人工智能模型。机器学习人工智能的核心，是使计算机具有智能的根本...

gru 深度学习人工智能从零开始：神经网络（1）——神经元和梯度下降

声明：本文章是根据网上资料，加上自己整理和理解而成，仅为记录自己学习的点点滴滴。可能有错误，欢迎大家指正。 1. 神经网络的发展先了解一下神经网络发展的历程。从单层神经网络（感知器）开...

深度学习神经网络人工智能【网络结构设计】11、E-LAN | 通过梯度传输路径来设计网络结构

文章目录一、背景二、方法2.1 网络设计策略2.2 Partial Residual Networks2.3 Cross Stage Partial Networks2.4 Efficient L...

机器学习人工智能深度学习神经网络 Proximal Policy Optimization (PPO) 算法理解：从策略梯度开始

近端策略优化（PPO）算法是OpenAI在2017提出的一种强化学习算法，被认为是目前强化学习领域的SOTA方法，也是适用性最广的算法之一。本文将从PPO算法的基础入手，理解从传统策略梯度算法（例如R...

学习人工智能计算机视觉深度学习 15.1 BP神经网络实现图像压缩——了解神经网络在图像处理方面的应用（matlab程序）

1.简述 BP神经网络现在来说是一种比较成熟的网络模型了,因为神经网络对于数字图像处理的先天优势,特别是在图像压缩方面更具有先天的优势,因此,我这一段时间在研究神经网络的时候同时研究了一下关于BP网络...

深度学习人工智能计算机视觉神经网络语义分割系列11-DAnet（pytorch实现）

发布于CVPR2019，本文将进行DAnet的论文讲解和复现工作。论文部分主要思想 DAnet的思想并没有之前提到的DFAnet那么花里胡哨，需要各种多层次的连接，DAnet的主要思想就是——同时...

夸智网

人工智能深度学习神经网络后面的层被freeze住，会影响前面的层的梯度吗？

科技经验分享 KUKA机器人安全信号的接入方式

java-rocketmq spring boot项目对接阿里云的RocketMq5

发表评论取消回复

夸智网

人工智能 深度学习 神经网络后面的层被freeze住，会影响前面的层的梯度吗？

科技 经验分享 KUKA机器人安全信号的接入方式

java-rocketmq spring boot项目对接阿里云的RocketMq5

相关文章

发表评论取消回复

人工智能深度学习神经网络后面的层被freeze住，会影响前面的层的梯度吗？

科技经验分享 KUKA机器人安全信号的接入方式