
网站首页 > 专利信息
本发明公开了一种基于增强式深度残差神经网络的多模态语音情感识别方法,涉及视频流图像处理和语音信号分析等技术领域,解决人机交互的情感识别问题。本发明主要有提取视频(序列数据)与语音的特征表达,包括将语音数据转换为相应的语谱图表达,以及对时序数据进行编码;使用卷积神经网络提取原始数据的情感特征表达用于分类,模型接受多输入并且输入维度不等,提出交叉卷积层对不同模态的数据特征进行融合,模型使用的整体网络结构是增强式深度残差神经网络;模型初始化后,使用语音语谱图、序列视频信息及相应的情感标签训练多分类模型,训练完毕后对未标记的语音和视频进行预测,得到情感预测的概率值,选择概率******值作为该多模态数据的情感类别。本发明在多模态情感识别问题上提高了识别准确率。
联系电话:028-87659663 028-85404682 028-85460925 邮箱:cdjz617@126.com
办公地址:四川省成都市武侯区科华街10号四川大学国家高新技术孵化平台609
成都川大技术转移集团有限公司
蜀ICP备11025552号-1
Copyright © 2007-2011 技术支持:成都网络公司-三以网络