人工智能【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（11 月 30 日论文合集）（上）

西瓜皮博客 2024-03-08 1 0

文章目录

一、检测相关(12篇)1.1 PillarNeSt: Embracing Backbone Scaling and Pretraining for Pillar-based 3D Object Detection1.2 BAND-2k: Banding Artifact Noticeable Database for Banding Detection and Quality Assessment1.3 Efficient Decoder for End-to-End Oriented Object Detection in Remote Sensing Images1.4 CLIPC8: Face liveness detection algorithm based on image-text pairs and contrastive learning1.5 An Efficient Illumination Invariant Tiger Detection Framework for Wildlife Surveillance1.6 Weakly-semi-supervised object detection in remotely sensed imagery

一、检测相关(12篇)

1.1 PillarNeSt: Embracing Backbone Scaling and Pretraining for Pillar-based 3D Object Detection

PillarNeST：接受基于支柱的3D对象检测的骨干缩放和预训练

https://arxiv.org/abs/2311.17770

本文展示了基于柱的3D对象检测器的2D骨干缩放和预训练的有效性。基于支柱的方法主要采用随机初始化的2D卷积神经网络（ConvNet）进行特征提取，并且无法享受图像域中骨干缩放和预训练的好处。为了展示点云的放大能力，我们引入了在大规模图像数据集上预训练的密集ConvNet（例如，ImageNet）作为基于柱的检测器的2D主干。根据点云的稀疏性和不规则性等特定特征，基于模型大小自适应地设计ConvNets。配备了预训练的ConvNets，我们提出的基于柱的检测器，称为PillarNeSt，在nuScenes和Argoversev2数据集上的性能大大优于现有的3D对象检测器。我们的代码将在接受后发布。

1.2 BAND-2k: Banding Artifact Noticeable Database for Banding Detection and Quality Assessment

Band-2k：用于带状伪影检测和质量评估的带状伪影显著数据库

https://arxiv.org/abs/2311.17752

带状，也称为阶梯状轮廓，经常出现在由压缩或量化算法处理的图像/视频的平坦区域中。作为不期望的伪影，条带化破坏了原始图像结构，从而降低了用户的体验质量（QoE）。本文系统地研究了条带图像质量评价（IQA）问题，旨在检测图像条带伪影并评价其感知视觉质量。考虑到现有的图像条带数据库只包含有限的内容源和条带生成方法，并且缺乏感知质量标签（即平均意见得分），我们首先建立了迄今为止最大的条带IQA数据库，命名为Banding Noticeable Database（BAND-2k），它由15种压缩和量化方案生成的2，000张条带图像组成。共有23名工作人员参与了主观IQA实验，产生了超过214，000个斑块级条带类标签和44，371个可靠的图像级质量评级。随后，我们开发了一个有效的无参考（NR）条带评价器的条带检测和质量评估，利用频率特性的条带伪影。采用双卷积神经网络同时从高频和低频图学习特征表示，从而增强辨别条带伪影的能力。通过汇集由空间频率滤波器掩蔽的条带化检测图来生成条带化图像的质量分数。实验表明，我们的条带评估器实现了显着的高精度条带检测，也表现出较高的SRCC和PLCC的结果与感知质量标签。这些发现揭示了带状伪影的强度和感知视觉质量之间的强相关性，从而验证了带状质量评估的必要性。

1.3 Efficient Decoder for End-to-End Oriented Object Detection in Remote Sensing Images

面向端到端遥感图像目标检测的高效解码器

https://arxiv.org/abs/2311.17629

遥感图像中的地物实例往往具有多方位、多尺度、密集分布等特点。这些问题给面向端到端的目标检测器带来了挑战，包括多尺度特征对齐和大量查询。为了解决这些限制，我们提出了一个端到端的检测器配备了一个高效的解码器，它采用了两种技术，旋转ROI注意（RRoI注意）和选择性区分（SDQ）。具体而言，RRoI注意力通过交叉注意力机制有效地集中在感兴趣的定向区域上，并对齐多尺度特征。SDQ从中间解码器层收集查询，然后过滤相似的查询以获得不同的查询。SDQ算法可以在不引入冗余初始查询和额外辅助分支的情况下，实现一对一标签分配的优化。在五个数据集上的实验证明了该方法的有效性。值得注意的是，我们的方法在DIOR-R（67.31%mAP），DOTA-v1.5（67.43%mAP）和DOTA-v2.0（53.28%mAP）上实现了最先进的性能。

1.4 CLIPC8: Face liveness detection algorithm based on image-text pairs and contrastive learning

CLIPC8：基于图文对和对比学习的人脸活跃度检测算法

https://arxiv.org/abs/2311.17583

人脸识别技术在金融领域应用广泛，各类活体攻击行为亟待解决。现有的活性检测算法都是在特定的训练数据集上进行训练，并在测试数据集上进行测试，但其在转移到未知数据集时的性能和鲁棒性相对较差。针对这一问题，提出了一种基于图像-文本对和对比学习的人脸活性检测方法，将金融领域的活性攻击问题分为8类，并利用文本信息描述这8类攻击的图像。文本编码器和图像编码器分别用于提取分类描述文本和人脸图像的特征向量表示。通过最大化正样本的相似性和最小化负样本的相似性，该模型学习图像和文本之间的共享表示。所提出的方法能够有效地检测特定场景下的特定活性攻击行为，例如在黑暗环境中发生的行为或涉及篡改身份证照片的行为。此外，它还可以有效地检测传统的活性攻击方法，如打印照片攻击和屏幕翻拍攻击。在NUAA、CASIA-FASD、Replay-Attack、OULU-NPU和MSU-MFSD等5个公开数据集上的人脸活性检测的zero-shot能力也达到了商用算法的水平。在5类测试数据集上对算法的检测能力进行了验证，结果表明，该方法优于商业算法，在多个数据集上的检测率均达到100%。验证了本文提出的将图像-文本对和对比学习引入活性检测任务的有效性和鲁棒性。

1.5 An Efficient Illumination Invariant Tiger Detection Framework for Wildlife Surveillance

一种用于野生动物监测的高效光照不变老虎检测框架

https://arxiv.org/abs/2311.17552

老虎保护需要战略部署多方面的举措，包括保护生态栖息地，反偷猎措施和社区参与老虎种群的可持续增长。随着人工智能的出现，老虎监测可以使用对象检测自动化。本文提出了一种基于EnlightenGAN和YOLOv8的老虎检测光照不变性框架。微调的YOLOv8模型在没有照明增强的情况下实现了61%的mAP得分。光照增强使mAP提高了0.7%。这些方法将ATRW数据集的最新性能提高了约6%至7%。

1.6 Weakly-semi-supervised object detection in remotely sensed imagery

遥感图像弱半监督目标检测

https://arxiv.org/abs/2311.17449

用于检测遥感图像中物体的深度学习可以使新技术用于重要应用，包括减缓气候变化。然而，这些模型通常需要标记有边界框注释的大型数据集，这对于管理来说是昂贵的，从而禁止为新任务和地理区域开发模型。为了应对这一挑战，我们开发了弱半监督对象检测（WSSOD）模型的遥感图像，它可以利用少量的边界框以及大量的点标签，很容易在地理空间数据的规模获得。我们训练WSSOD模型，使用大量的点标记的图像与不同比例的边界框标记的图像在FAIR 1 M和风力涡轮机检测数据集，并证明他们大大优于完全监督模型训练与相同数量的边界框标记的图像在两个数据集。此外，我们发现，使用2- 10倍的边界框标记图像训练的WSSOD模型可以与在完整的边界框标记图像集上训练的完全监督模型相似或优于完全监督模型。我们相信，这种方法可以扩展到其他遥感任务，以减少对边界框标签的依赖，并增加模型的开发，以实现有影响力的应用。

推荐链接

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2024-03-08 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/713427730.html

夸智网

人工智能【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（11 月 30 日论文合集）（上）

音视频人工智能计算机视觉的应用23-OpenAI发布的文本生成视频大模型Sora的原理解密

人工智能深度学习计算机视觉:如何应用神经网络到图像处理任务

发表评论取消回复

夸智网

人工智能 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（11 月 30 日论文合集）（上）

音视频 人工智能 计算机视觉的应用23-OpenAI发布的文本生成视频大模型Sora的原理解密

人工智能 深度学习 计算机视觉:如何应用神经网络到图像处理任务

相关文章

发表评论取消回复

人工智能【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（11 月 30 日论文合集）（上）

音视频人工智能计算机视觉的应用23-OpenAI发布的文本生成视频大模型Sora的原理解密

人工智能深度学习计算机视觉:如何应用神经网络到图像处理任务