深度学习语音识别人工智能自然语言处理神经网络 INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

猎北北博客 2024-06-02 1 0

Abstract & Introduction & Related Work

研究任务自动音频字幕已有方法和相关工作面临挑战创新思路

本文首先提出了一个音频描述的主题模型实验结论发现局部信息和抽象表征的学习对AAC来说比全局信息和时间关系的学习更为关键

提出下面两种语音主题模型：

局部音频主题。(a) 声音事件，可由发声对象实体(“一个男性”)、发出声音的动词(“说话”)、声音的物理属性(“大声”)来描述全局音频主题。(a) 声音场景，如准确的场景位置描述（“市中心”），和抽象的描述（“在远处”）。(b) 高层抽象，包括内容推断（“在一个会议上”），和情感表达（“恼人”）

TRANSFER LEARNING FOR AAC

我们在AT和ASC任务上实验了一个CNN和一个CRNN预训练编码器网络。我们打算探索抽象嵌入（CNN）或时间信息（CRNN）是否对AAC性能有更大的影响

AT 提供详细的音频事件信息，而ASC旨在描绘出环境的特征

AAC Model Architecture

Audio encoder

十层CNN来做audio tagging 五层CRNN来做声音事件检测

Text decoder

隐藏状态h，WE表示word embedding

c_n

cn由embedding sequence跟前一秒的隐藏状态

−

h_{n-1}

hn−1做注意力之后的总和得到

EXPERIMENTAL SETUP

Datasets

AudioSetDCASEClothoAudiocaps

System configuration

RESULTS AND DISCUSSION

实验结果表明局部声音主题比全局信息更重要

CONCLUSION

据观察，局部信息（AT）和抽象嵌入（CNN10）对ACC更为关键。我们希望在未来的工作中探索多任务训练等方法，以更好地解决字幕中的不同主题。主题融合也可以从粗放型转向精细型，例如，分别对声音事件的不同特征、关系、确切的和抽象的声学场景进行建模，同时对高级知识注入抽象

Remark

一个简单清晰又work的框架，用了迁移学习，总体还不错

夸智网