WAP手机版 RSS订阅 加入收藏  设为首页
申博娱乐
当前位置:首页 > 申博娱乐

申博娱乐:音频三模态预训练模型不仅可以实现图像识别

时间:2021/7/9 22:05:39   作者:   来源:   阅读:35   评论:0
内容摘要:记者8日从中国科学院自动化研究所(中国科学院自动化研究所)获悉,该研究所研究团队已成功构建了全球首个图像、文本、音频(视觉-文本-语音)三种模式。最先进的预训练模型将解锁更多的智能美,让人工智能(AI)更接近人类的想象力。目前,现有的多模态预训练模型通常只考虑“图像与文本”或“视频与文本”两种模态,忽略了周围环境中无处...

记者8日从中国科学院自动化研究所(中国科学院自动化研究所)获悉,该研究所研究团队已成功构建了全球首个图像、文本、音频(视觉-文本-语音)三种模式。最先进的预训练模型将解锁更多的智能美,让人工智能(AI)更接近人类的想象力。


目前,现有的多模态预训练模型通常只考虑“图像与文本”或“视频与文本”两种模态,忽略了周围环境中无处不在的语音信息,模型很少同时具有理解和生成。在能力方面,很难同时在生成任务和理解任务中取得良好的表现。


针对这些问题,中国科学院自动化研究所课题组提出了图形、文本、音频三模态预训练模型,该模型将文本、语音、图像、视频等多模态内容结合起来进行学习。该模型由单模态编码器、交叉模态编码器和交叉模态解码器组成。该方法采用基于入门级、模态级和样本级的多层次、多任务三级训练前自监督学习方法。它更加关注图形、文本、声音三模态数据之间的相关性特征和跨模态转换问题,为更广泛、更多样化的下游任务提供基本的模型支持。


该科研团队指出,图形、文本、音频三模态预训练模型不仅可以实现图像识别、语音识别等跨模态理解任务,还可以完成由文本生成图像、由图像生成文本、还有声音生成图像……同时,语音模态的多模态预训练模型的引入可以直接实现三种模态的统一表征,特别是首次实现了“以图发声”和“以图发声”。




相关评论
本站所有站内信息仅供娱乐参考,不作任何商业用途,不以营利为目的,专注分享快乐,欢迎收藏本站!
所有信息均来自:百度一下(申博备用网