又一个牛掰的模型诞生了，照片+音频=动态视频

飞书用户3389

2024年4月17日修改

🎁

最近的新技术不断呐，国内的模型技术也开始雄起了！

🥇

这两天阿里发布了一个新型的模型框架：EMO，只需要使用一张照片外加一段音频，就可以直接生成表情丰富且真实的人像视频。​

📌

是真的很真实的那种真实哦！

💡

感觉马上就不知道未来的世界到底是真实还是虚拟的了。

📍

只需要上传一张照片然后配上顶级歌手的歌，那你就是“歌王”了呀。​

⛱️

不过可惜的是这项技术还没开放体验入口，我们只能先来看看官方的例子了！​

🍰

不过迟早的事情。

🥛

好了，话不多说，我们直接开整。

先直接上一段视频：

以上就是上传一张奥黛丽·赫本的肖像图，然后再上传 Samantha Harvey 对歌曲 Perfect 的翻唱版本音频。​

然后通过 EMO 框架生成的视频！

感觉真人复活了有么有！相当真实了啊！

然后我们简单说下 EMO 的工作原理：

EMO  主要是通过一个称为 Audio2Video 扩散模型的过程，将音频信号直接转换成视频。它绕过了传统方法中需要的 3D 模型或面部标记，直接从音频中提取信息来生成表情动态和嘴唇同步的视频，从而在不需要复杂预处理的情况下，创造出自然流畅且表情丰富的人像视频。​

这种方法提高了视频的真实性和表达力，使得生成的人像视频在视觉上更为逼真和动态自然。​

一句话也解释不清，对原理感兴趣的小伙伴可以看下官方的论文：​

然后我们来看看 EMO 都有哪些功能！

最简单的让肖像唱歌，比如让最近很火的 Sora 中的 AI 女士唱首歌：​

又一个牛掰的模型诞生了，照片+音频=动态视频​