Abstract & Introduction & Related Work

研究任务 自动音频字幕已有方法和相关工作面临挑战创新思路

本文首先提出了一个音频描述的主题模型 实验结论 发现局部信息和抽象表征的学习对AAC来说比全局信息和时间关系的学习更为关键

提出下面两种语音主题模型:

局部音频主题。(a) 声音事件,可由发声对象实体(“一个男性”)、发出声音的动词(“说话”)、声音的物理属性(“大声”)来描述全局音频主题。(a) 声音场景,如准确的场景位置描述(“市中心”),和抽象的描述(“在远处”)。(b) 高层抽象,包括内容推断(“在一个会议上”),和情感表达(“恼人”)

TRANSFER LEARNING FOR AAC

我们在AT和ASC任务上实验了一个CNN和一个CRNN预训练编码器网络。我们打算探索抽象嵌入(CNN)或时间信息(CRNN)是否对AAC性能有更大的影响

AT 提供详细的音频事件信息,而ASC旨在 描绘出环境的特征

AAC Model Architecture

Audio encoder

十层CNN来做audio tagging 五层CRNN来做声音事件检测

Text decoder

隐藏状态h,WE表示word embedding

c

n

c_n

cn​由embedding sequence跟前一秒的隐藏状态

h

n

1

h_{n-1}

hn−1​做注意力之后的总和得到

EXPERIMENTAL SETUP

Datasets

AudioSetDCASEClothoAudiocaps

System configuration

RESULTS AND DISCUSSION

实验结果表明局部声音主题比全局信息更重要

CONCLUSION

据观察,局部信息(AT)和抽象嵌入(CNN10)对ACC更为关键。我们希望在未来的工作中探索多任务训练等方法,以更好地解决字幕中的不同主题。主题融合也可以从粗放型转向精细型,例如,分别对声音事件的不同特征、关系、确切的和抽象的声学场景进行建模,同时对高级知识注入抽象

Remark

一个简单清晰又work的框架,用了迁移学习,总体还不错

相关链接

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。