论文笔记计算机视觉 YOLOv9来咧！

RjjIiSSe 博客 2024-03-21 66 0

文章目录

论文:主要内容一、提出使用PGI（Programmable Gradient Information，可编程梯度信息）来解决信息瓶颈问题和深度监督机制不适合轻量级神经网络的问题。二、设计了GELAN（Generalized ELAN ，广义ELAN），一个高效、轻量级的神经网络。

效果如下

论文:

https://arxiv.org/html/2402.13616v1arxiv.org/html/2402.13616v1 github代码 GitHub - WongKinYiu/yolov9: Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

主要内容

主要是提出了两点：

一、提出使用PGI（Programmable Gradient Information，可编程梯度信息）来解决信息瓶颈问题和深度监督机制不适合轻量级神经网络的问题。

图中（d）为提出的PGI。PGI主要包括三个组成部分，即（1）主分支，（2）辅助可逆分支，（3）多级辅助信息。其中推理过程仅使用 main 分支，因此不需要任何额外的推理成本。辅助可逆分支（auxiliary reversible branch）处理神经网络深化带来的问题。网络深化会造成信息瓶颈。多级辅助分支（multi-level auxiliary information），旨在处理深度监管导致的误差累积问题。

二、设计了GELAN（Generalized ELAN ，广义ELAN），一个高效、轻量级的神经网络。

图c为提出的GELAN，它结合了CSPNet 和 ELAN 。区别与ELAN，将ELAN仅使用卷积层堆叠的功能推广到可以使用任何计算块的新架构中（即图c中any block）。在yolov9中，gelan被作为block用在了backbone中，关于Gyolov9的backbone以及GELAN运用详细信息见：

效果如下

在精度方面，新方法优于使用大数据集预训练的RT DETR [ 43]，在参数利用率方面也优于基于深度卷积的设计YOLO MS 。 PGI的引入使得轻量级模型和深度模型都能在精度上实现显著的提升。结合PGI和GELAN设计的YOLOv9，展现了很强的竞争力。其出色的设计使得深度模型与YOLOv8相比，参数数量减少了49%，计算量减少了43%，但在MS COCO数据集上仍有0.6%的AP提升。

引用： @article{wang2024yolov9,title={{YOLOv9}: Learning What You Want to Learn Using Programmable Gradient Information},author={Wang, Chien-Yao and Liao, Hong-Yuan Mark},booktitle={arXiv preprint arXiv:2402.13616}, year={2024}} @article{chang2023yolor, title={{YOLOR}-Based Multi-Task Learning}, author={Chang, Hung-Shuo and Wang, Chien-Yao and Wang, Richard Robert and Chou, Gene and Liao, Hong-Yuan Mark}, ournal={arXiv preprint arXiv:2309.16921}, year={2023}}

夸智网

论文笔记计算机视觉 YOLOv9来咧！

tcp/ip 计算机网络协议详解（一）

人工智能深度学习神经网络系列---激活函数

发表评论取消回复

夸智网

论文笔记 计算机视觉 YOLOv9来咧！

tcp/ip 计算机网络协议详解（一）

人工智能 深度学习 神经网络系列---激活函数

相关文章

发表评论取消回复

论文笔记计算机视觉 YOLOv9来咧！

人工智能深度学习神经网络系列---激活函数