近日,中国科学院软件研究所提出一种以泛化前门准则为基础的干预多模态表示学习方法(IMML),可提升多模态模型在模态不平衡场景下的性能。
在多模态任务中,不同模态对预测结果的贡献往往不平衡,可划分为主模态和辅助模态。现有方法普遍在训练过程中增强辅助模态,以缓解模态贡献不平衡的问题。而此类方法缺乏因果解释,且判别性知识挖掘能力有限。
针对上述问题,研究团队从结构因果模型角度建模多模态表示学习,提出在考虑辅助模态,并捕捉到主模态中判别性知识与真实标签间的因果关系。基于此,团队设计了β—泛化前门校正模块,通过构造非配对模态组合、随机控制不同模态的比例贡献,削弱辅助模态中潜在的噪声干扰。
IMML包含模态判别性知识探索模块,通过构建模态判别性知识网络,为特征维度分配权重,以挖掘对任务真正有用的判别性知识。
团队进一步在多模态数据集上评估IMML的性能。实验结果表明,引入IMML后,在多个评估设置下基准多模态学习方法的性能得到提升。上述结果验证了IMML在提升多模态表征判别能力与噪声鲁棒性方面的有效性。
相关论文被IEEE Transactions on Multimedia录用。
来源:软件研究所
编辑:杨越
审核:雷建树
咨询: 0371-69333566 电话: 132-9090-5061 邮箱: 470363313@qq.com 地址: 河南省郑州市金水区政七街13号2号楼
Copyright 2018-2026 科技新闻网 AII Rights Reserved 科技新闻网版权所有,未经书面授权,不得复制或建立镜像 互联网新闻信息服务许可证《编号: 41120200005》
豫ICP备06011472号-3 网站版本号: v2.2 更新日志 技术支持:全息数字科技