
(北京12日综合电)TikTok背后的科技巨头字节跳动推出了一种人工智能(AI)模型,可将照片和声音片段转换为逼真的视频,引起广泛关注,并突显了中国在AI领域日益增长的能力。
字节跳动团队在一篇论文中表示,字节跳动的OmniHuman-1模型可以创造出人们对话、唱歌和移动的生动视频,其质量“明显优于现有的音频人类视频生成方法”。AI生成的真实人物的图像、视频和音频通常被称为深度造假(Deepfake),这种技术在欺诈案件中越来越突出,也越来越无害地用于娱乐。
ADVERTISEMENT
字节跳动已成为中国最热门的AI公司之一。旗下的豆包目前是国内最受欢迎的面向消费者的AI应用。该公司尚未向公众发布OmniHuman-1,但样本片段已经在网上疯传。
一个值得注意的演示是一段23秒的视频,内容是已故伟大科学家爱因斯坦正发表演讲。TechCrunch的威格斯将这款应用的输出描述为“令人震惊的好”,“可能是迄今为止最逼真的深度假视频”。
该模型突显出,尽管华盛顿努力遏制中国的AI发展,但中国开发商正在取得进展。在此之前,OpenAI扩大了其视频生成工具Sora的发布范围,该工具于去年12月向ChatGPT Plus和Pro用户公开。
在周二发表的技术论文中,字节跳动的林高杰等研究人员详细介绍了一种新的训练策略,该策略结合了不同的文本、音频和运动数据集,建立了更先进的视频生成模型,以解决全球研究人员在扩展此类模型时面临的挑战。
字节跳动表示,其方法改进了传统的视频生成方法,但没有具体指出与之竞争的AI工具。该团队表示,其数据混合方法允许生成具有不同长宽比和身体比例的逼真视频,从脸部特写到全身镜头。
该团队表示,生成的片段具有与音频和自然头部和手势动作相匹配的详细面部表情,有可能解锁更广泛的现实应用。
在公开的样本片段中,一名男子以TED演讲的风格发表演讲,他的手势与嘴唇的动作相匹配,很难与现场录音区分开来。
自2024年2月OpenAI首次预览Sora模型以来,中国科技公司在视频生成方面取得了重大进展。字节跳动凭借其“即梦AI”平台处于领先地位,该平台由其旗舰视频模型PixelDance和Seaweed提供支持,这些模型一直在定期更新,具有新的功能。
去年11月的即梦更新整合了 S2.0 Pro 和 P2.0 Pro 版本的模型。字节跳动当时在一份声明中表示,这些更新使极梦能够制作与用户上传图像一致匹配的短片,让拍摄对象“焕发新生机”。
其他中国科技公司也在这一领域展开竞争,包括字节跳动的竞争对手快手科技推出的可灵大模型(Kling),以及总部位于北京的智谱AI和盛数科技等AI初创企业,以及总部位于上海的MiniMax。



ADVERTISEMENT
热门新闻





百格视频





ADVERTISEMENT