分享
又一个牛掰的模型诞生了,照片+音频=动态视频
输入“/”快速插入内容
又一个牛掰的模型诞生了,照片+音频=动态视频
飞书用户3389
2024年4月17日修改
🎁
最近的新技术不断呐,国内的模型技术也开始雄起了!
🥇
这两天阿里发布了一个新型的模型框架:EMO,只需要使用一张照片外加一段音频,就可以直接生成表情丰富且真实的人像视频。
📌
是真的很真实的那种真实哦!
💡
感觉马上就不知道未来的世界到底是真实还是虚拟的了。
📍
只需要上传一张照片然后配上顶级歌手的歌,那你就是“歌王”了呀。
⛱️
不过可惜的是这项技术还没开放体验入口,我们只能先来看看官方的例子了!
🍰
不过迟早的事情。
🥛
好了,话不多说,我们直接开整。
先直接上一段视频:
以上就是上传一张奥黛丽·赫本的肖像图,然后再上传 Samantha Harvey 对歌曲 Perfect 的翻唱版本音频。
然后通过 EMO 框架生成的视频!
感觉真人复活了有么有!相当真实了啊!
然后我们简单说下 EMO 的工作原理:
EMO 主要是通过一个称为 Audio2Video 扩散模型的过程,将音频信号直接转换成视频。它绕过了传统方法中需要的 3D 模型或面部标记,直接从音频中提取信息来生成表情动态和嘴唇同步的视频,从而在不需要复杂预处理的情况下,创造出自然流畅且表情丰富的人像视频。
这种方法提高了视频的真实性和表达力,使得生成的人像视频在视觉上更为逼真和动态自然。
一句话也解释不清,对原理感兴趣的小伙伴可以看下官方的论文:
https://arxiv.org/pdf/2402.17485.pdf
然后我们来看看 EMO 都有哪些功能!
最简单的让肖像唱歌,比如让最近很火的 Sora 中的 AI 女士唱首歌: