Soul创始人张璐团队开源SoulX-FlashHead,以轻量化模型打破实时数字人算力壁垒

在实时数字人技术持续演进的背景下,画质与算力成本之间的矛盾长期存在。高质量画面往往依赖昂贵的算力集群,而面向普通开发者和创作者的方案,则常常需要在表现力上作出妥协。围绕这一行业难题,Soul App创始人张璐团队持续推进技术探索,在真实感、实时性与成本可控之间建立新的平衡。

继此前开源实时数字人生成模型 SoulX-FlashTalk 之后,近日,Soul App AI 团队(Soul AI Lab)再次发布并开源了实时数字人生成模型SoulX-FlashHead。该模型以1.3B参数规模为基础,定位于轻量化与高效率,在消费级硬件条件下实现了工业级实时生成能力,为实时数字人技术提供了新的实现路径。

Soul创始人张璐团队开源SoulX-FlashHead,以轻量化模型打破实时数字人算力壁垒

在单张消费级显卡 RTX 4090 上,SoulX-FlashHead的Lite 版本推理帧率可达 96FPS,占用显存约 6.4G,并支持最高三路并发。这一表现意味着,实时数字人不再局限于高算力机房环境,而是能够运行在更常见的个人工作站甚至游戏级设备上。

在更强调画质表现的 Pro 版本中,SoulX-FlashHead同样给出了兼顾效率与质量的方案。该版本在单张RTX 5090上可实现 16.8FPS的推理速度,通过双卡配置即可达到 25FPS 以上的实时标准。在多项基准测试中,其 FID 与 Lip-sync 指标均达到SOTA,部分结果甚至超过了参数规模更大的模型,解决了“小模型难以兼顾高画质”的行业痛点。

在权威数据集的实测结果中,SoulX-FlashHead的表现进一步验证了这一技术路线的有效性。在高清视频数据集 HDTF 上,Pro 版本取得了 8.31 的 FID 和 103.14 的 FVD 成绩,画面细节与稳定性表现突出;在更贴近真实复杂环境的 VFHQ 数据集中,其 Sync-C 指标达到 5.60,在口型一致性方面明显优于以往相关工作,减少了流式生成中常见的口型偏差问题。

Soul创始人张璐团队开源SoulX-FlashHead,以轻量化模型打破实时数字人算力壁垒

支撑这些表现的,是一系列围绕实时生成场景所设计的核心技术机制。首先,在训练阶段,SoulX-FlashHead引入了双向蒸馏机制(Oracle-Guided Distillation),通过引入具备“先知”角色的教师模型,并以 Ground Truth 作为强约束锚点,帮助模型在长视频生成过程中能够保持人物身份与外观特征的稳定,缓解了实时数字人领域长期存在的“身份漂移”问题。

其次,针对流式生成中音频上下文不足带来的口型抖动现象,SoulX-FlashHead提出了时序音频上下文缓存(TACC)策略。该策略强制要求模型在生成过程中缓存约 8 秒的历史音频特征,用于补偿短音频切片带来的信息缺失,使口型变化更加连贯自然,也让实时生成在启动阶段即可进入稳定状态。

在数据层面,Soul AI Lab 构建了自研的 VividHead 数据集,为模型训练提供高质量底座。该数据集从超过10,000小时的原始素材中,经过切分、关键点检测、唇形一致性评分筛选等多重处理,最终保留了782小时高质量音画数据,为模型学习稳定的人物表征与音画关系提供了更纯净的样本数据。

Soul创始人张璐团队开源SoulX-FlashHead,以轻量化模型打破实时数字人算力壁垒

从产品与应用视角看,此前的 SoulX-FlashTalk具备0.87s亚秒级超低延时、32FPS高帧率与超长视频稳定生成等特征,而 SoulX-FlashHead则进一步将高保真实时数字人能力下沉至更低的算力门槛。通过发布SoulX-FlashHead,Soul创始人张璐团队展示了轻量化模型在实时数字人领域的可行性,也为开发者提供了更易部署、更易集成的技术选项。

免责声明

               

本站转载的文章,版权归原作者所有;旨在传递信息,不代表本站的观点和立场。不对内容真实性负责,仅供用户参考之用,不构成任何投资、使用等行为的建议。如果发现有问题,请联系我们处理。

本站提供的草稿箱预览链接仅用于内容创作者内部测试及协作沟通,不构成正式发布内容。预览链接包含的图文、数据等内容均为未定稿版本,可能存在错误、遗漏或临时性修改,用户不得将其作为决策依据或对外传播。

因预览链接内容不准确、失效或第三方不当使用导致的直接或间接损失(包括但不限于数据错误、商业风险、法律纠纷等),本网站不承担赔偿责任。用户通过预览链接访问第三方资源(如嵌入的图片、外链等),需自行承担相关风险,本网站不对其安全性、合法性负责。

禁止将预览链接用于商业推广、侵权传播或违反公序良俗的行为,违者需自行承担法律责任。如发现预览链接内容涉及侵权或违规,用户应立即停止使用并通过网站指定渠道提交删除请求。

本声明受中华人民共和国法律管辖,争议解决以本网站所在地法院为管辖法院。本网站保留修改免责声明的权利,修改后的声明将同步更新至预览链接页面,用户继续使用即视为接受新条款。

(0)
新消费日报的头像新消费日报
上一篇 1小时前
下一篇 57分钟前

相关推荐