首页 » 99链接平台 » 高启强普法、蒙拉丽莎唱歌样样都会|钛媒体AGI(阿里模型都会视频媒体)

高启强普法、蒙拉丽莎唱歌样样都会|钛媒体AGI(阿里模型都会视频媒体)

南宫静远 2024-11-02 23:43:09 0

扫一扫用手机浏览

文章目录 [+]

钛媒体AGI 获悉,2月28日,阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片-音频-视频模型技术EMO,官方称其为“一种富有表现力的音频驱动的肖像视频生成框架”。

据悉,你只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。
表情非常到位,任意语音、任意语速、任意图像都可以一一对应。

比如,《狂飙》电视剧中“高启强”畅谈罗翔普法;蔡徐坤的一张图片,就能通过其他音频配合“唱出”一首rapper饶舌,连口型都几乎一模一样;甚至前不久OpenAI发布的Sora案例视频里面,一位 AI 生成的带墨镜的日本街头女主角,现在不仅能让她开口说话,而且还能唱出好听的歌曲。

高启强普法、蒙拉丽莎唱歌样样都会|钛媒体AGI(阿里模型都会视频媒体) 99链接平台
(图片来自网络侵删)

B站鬼畜视频即将会被 AI 所取代。

阿里研究团队表示,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入视频的长度生成任意持续时间的视频。

同时,EMO还拥有音频驱动的人像视频生成,表情丰富的动态渲染,多种头部转向姿势支持、增加视频的动态性和真实感,支持多种语言和肖像风格,快速节奏同步,跨演员表现转换等多个特点与功能。

技术层面,阿里研究人员分享称,EMO框架使用 Audio2Video 扩散模型,生成富有表现力的人像视频。

该技术主要包括三个阶段:一是帧编码的初始阶段,ReferenceNet 用于从参考图像和运动帧中提取特征;二是在扩散过程阶段,预训练的音频编码器处理音频嵌入。
面部区域掩模与多帧噪声集成以控制面部图像的生成;三是使用主干网络来促进去噪操作。
在主干网络中,应用了两种形式——参考注意力和音频注意力机制,这些机制分别对于保留角色的身份和调节角色的动作至关重要。
此外,EMO的时间模块用于操纵时间维度,并调整运动速度。

目前,EMO框架上线到GitHub中,相关论文也在arxiv上公开。

GitHub:https://github.com/HumanAIGC/EMO

论文:https://arxiv.org/abs/2402.17485

事实上,过去一年,阿里巴巴在 AI 方面持续发力,包括阿里云推出通义千问、通义万相等多款对标 OpenAI 的 AI 大模型产品,以及基于双流条件扩散模型的真人百变换装技术Outfit Anyone、角色动画模型Animate Anyone等技术,实现多个场景应用。

今年1月26日,阿里推出的Qwen-VL模型实现多次迭代升级,并宣布 Plus 和 Max 两大版本升级,支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了“看”世界的能力。

阿里方面称,相比于开源版本的 Qwen-VL,Plus 和 Max 版本模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准,并大幅超越此前开源模型的最佳水平。

钛媒体AGI了解到,目前阿里内部还在助力研发基于生成式 AI 技术的机器人、数字人以及Agent相关的技术应用。

另外,阿里是目前中国开源模型领域的大科技公司之一,创建并运营着中国 AI 模型开源社区“魔搭”。
“魔搭”社区上线一年以来,模型下载量已突破1亿。
早前阿里还发布了一站式大模型服务平台——阿里云“百炼”。

除了自研 AI 模型技术产品之外,阿里还推动投资一些 AI 大模型公司。

就在今年2月,阿里领投了国内 AI 大模型团队月之暗面(MoonShot AI)10亿美元的新一轮融资,促使该公司估值高达25亿美元,成为中国 AI 初创公司最大的一笔单轮融资。

更早之前,阿里还投资了百川智能、智谱 AI 等多个 AI 产业链公司,持续押注这一轮 AI 热潮。
而其竞争对手腾讯,则在过去一年投资了百川智能、智谱 AI 、MiniMax和光年之外(Light Years Beyond)等公司。

据钛媒体AGI的不完全统计,目前阿里与腾讯已累计投资超过40家与 AI、数字化有关的初创企业。

毫无疑问,OpenAI 目前在美国以及全球其他地区占据行业主导地位,但在中国市场它没有运营。
所以,无论是OpenAI还是微软,均不会成为中国 AI 大模型行业的领导者。

如今,阿里、腾讯等中国科技巨头已经采取行动,通过多种投资方式来支持中国 AI 大模型的早期创业公司,推进中国 AI 大模型发展。

不过,由于二级市场科技股持续下跌,因此整个中国 AI 领域投融资规模却呈现“不温不火”的状态。

研究机构 CB Insight 数据显示,2023 年,中国在 AI 领域的投资约为 232 笔,同比下降 38%,同期融资总额约为20亿美元,比上年减少70%。

高盛预测,到 2025 年,全球 AI 领域的投资额将达到约2000亿美元。

阿里巴巴集团新任CEO吴泳铭曾表示,为了服务好更多的企业和AI开发者,阿里坚持做好两件事:一是提供稳定高效的AI基础服务体系,特别是强大的云计算能力,为全行业训练AI、全社会使用AI打造坚实的基础底座。
二是创建开放繁荣的AI生态。

“在可见的未来,我们生活中所有习以为常的产品形态都会发生变化,会有更智能的下一代产品进入我们的生活。
更多中小企业将通过AI化协同,灵活替代一部分目前只有大企业才能提供的服务。
生产、制造、流通的组织方式和协作方式也会发生根本性变革。
AI助理会无处不在,成为每个人工作、生活、学习中的助手。
每个企业也都会配备AI助手,就像我们今天的智能汽车,辅助驾驶和自动驾驶已经成为标配。
”吴泳铭称。

(本文首发钛媒体App,作者|林志佳)

标签:

相关文章

软件服务外包(外包服务软件提供商企业)

一、软件服务外包的优势成本效益:通过外包,企业可以节省大量的人力、物力和财力,避免在软件开发和维护上投入过多的资源。第三方服务提供...

99链接平台 2025-02-09 阅读1719 评论0