来源:亿百体育真人注册开户 发布时间:2025-05-09 18:53:36
IT之家 5 月 9 日音讯,腾讯混元宣告今日正式推出并开源全新的多模态定制化视频生成东西 Hunyuan Custom。该模型依据混元视频生成大模型(Hunyuan Video)打造,主体共同性作用超越现有的开源计划。
据介绍,Hunyuan Custom 交融了文本、图画、音频、视频等多模态输入生视频的才能,是一款具有高度控制力和生成质量的智能视频创造东西。
腾讯表明,Hunyuan Custom 模型能完成单主体视频生成、多主体视频生成、单主体视频配音、视频部分修正等才能,其生成的视频与用户输入的参阅主体能坚持高度共同。
其间,单主体生成才能现已开源并在混元官网(IT之家附官网地址:)上线,用户都能够在“模型广场-图生视频-参阅生视频”中体会,其他才能将于 5 月内连续对外开源。
有了 HunyuanCustom,用户只需上传一张包括方针人物或物体的图片,并供给一句文本描绘(例如“他正在遛狗”),HunyuanCustom 就能识别出图片中的身份信息,并在彻底不同的动作、服饰与场景中生成连接天然的视频内容。
除了单主体以外,这个才能相同能完成多主体视频的生成,用户更好的供给一张人物和一张物体的相片(比方一包薯片和一名男人的相片),并输入文字描绘(比方“一名男人正在游泳池周围,手里拿着薯片进行展现”),即可能让这两个主体按要求出现在视频里。
此外,HunyuanCustom 不止于图画和文本的合作,还具有强壮的扩展才能。在音频驱动(单主体)形式下,用户都能够上传人物图画并配上音频语音,模型便可生成人物在恣意场景中说话、歌唱或进行其他音视频同步扮演的作用,广泛适用于数字人直播、虚拟客服、教育演示等场景。
在视频驱动形式下,HunyuanCustom 支撑将图片中的人物或物体天然地替换或刺进到恣意视频片段中,进行构思植入或场景扩展,轻轻松松完成视频重构与内容增强。
此前大部分的视频生成模型首要能完成文生视频和图生视频。文生视频每次均依据本文提示词从头生成,很难继续坚持人物和场景的共同性。而图画生成视频模型首要完成的是“让图片动起来”。例如,上传一张人物相片,终究生成的视频一般只能在相片的原始服饰、姿势和场景下做出一些固定表情或动作,服装、布景和姿势简直没办法修正。
但在部分场景下,创造者期望坚持人物共同的情况下,改动人物地点的环境和动作。此前的视频生成模型没办法完成,多模态视频生成模型 HunyuanCustom 则能够很好地满意创造者的需求,经过引进身份增强机制和多模态交融模块,真实的完成了“图画供给身份,文本界说全部”。