黄牛号贩子跑腿代挂号北京上海南京天津15552009123

沈阳各大医院黄牛挂号电话票号贩子网上预约代挂号,加快住院检查Soul App发布开源模型SoulX-LiveAct:高

03-19 实时新闻

黄牛号贩子跑腿代挂号微信需要挂号联系客服各大医院服务项目!专家挂号,办理住院加快.检查加快,产科建档,指名医生挂号北京,上海,南京,天津.广州,各大医院代挂号

  近日,Soul App AI团队(Soul AI Lab)发布开源模型SoulX-LiveAct。作为新的实时数字人生成方案,SoulX-LiveAct通过 Neighbor Forcing(同扩散步对齐的自回归条件传播)与 ConvKV Memory(KV 记忆压缩),让 AR diffusion 从“能流式”走向“可真正长时稳定地实时流式”。

  现阶段,伴随着AI技术在数字人直播、视频播客、实时互动等场景快速普及,行业应用层对模型的实际需求正在从“能生成”走向“能长期稳定生成”。但在真实落地场景里,数字人生成一直面临一个难题:视频生成一旦拉长到分钟甚至小时级,画面稳定性与一致性会明显下降——常见问题包括身份漂移、细节丢失、画面闪烁,以及实时推理成本随时长上升等。

  如何让数字人视频在流式实时推理下做到小时级甚至无限长度、同时保持身份一致/细节稳定/口型精准?

  此次开源的SoulX-LiveAct能够在 2 张 H100/H200 条件下,达到 20 FPS 的实时流式推理能力,且支持输入图像、音频和指令驱动,生成表情生动、情绪可控、拥有丰富全身动作的实时数字人视频。通过不断开源不同技术路线的模型,Soul AI团队为开源社区及行业提供了差异化的实时数字人方案,覆盖各种硬件条件、不同应用落地的开发者实际需求。

  SoulX-LiveAct 三大亮点

  1) 恒定显存:真正支持无限时长生成

  过去的 AR diffusion 往往依赖 KV cache 记忆历史信息,但缓存会随视频长度线性增长——视频一长,不是爆显存,就是不得不丢历史,稳定性随之崩掉。SoulX-LiveAct 从“条件传播方式”和“历史记忆管理”两个层面解决了这一瓶颈,创新机制使系统既能“带得动”长时历史,又不会因缓存膨胀而拖慢推理,从而在机制上具备小时级甚至更长时长的持续生成能力。

  2) 实时吞吐:2 张 H100/H200 即可 20 FPS 流式推理

  在 512×512 分辨率下,SoulX-LiveAct 仅需 2 张 H100/H200 即可达到 20 FPS 的实时流式推理能力,端到端延迟约 0.94s。同时,单帧计算成本降低到 27.2 TFLOPs / frame,在追求实时的条件下显著减轻算力压力,为线上部署提供更现实的成本方案。

  3) 长时一致:身份稳定 + 细节不“掉件”

  长视频最容易“翻车”的不是第一分钟,而是第十分钟、第三十分钟:常见现象包括脸漂、发型/衣纹漂移、饰品忽隐忽现,甚至口型逐步失配。在报告的长时对比中,基线方法普遍出现不同程度的身份漂移与细节不稳定;而 SoulX-LiveAct 能在更长时间窗口内保持身份一致性与关键细节持续稳定(如配饰与衣物纹理不“掉件”)。

  原理介绍:

  SoulX-LiveAct 面向小时级实时数字人动画的流式生成,整体采用 AR Diffusion(自回归扩散)范式,并围绕“长时一致 + 恒定显存”构建两条核心机制:Neighbor Forcing 与 ConvKV Memory。

  AR Diffusion 主干:按 chunk/帧块自回归生成,每个 chunk 内采用扩散建模细节,chunk 间通过条件上下文承接运动与身份信息,实现流式推理闭环。

  Neighbor Forcing(邻近强制):在自回归链上,不传播“不同扩散步”的状态,而是传播 同扩散步 ttt 下的相邻帧 latent 作为条件,使上下文与当前预测处于同一噪声语义空间(step-aligned),显著降低训练/推理中的分布不一致。

  ConvKV Memory(卷积式 KV 记忆):将历史 attention KV 记忆从“线性增长的 cache”改为“短期精确 + 长期压缩”的组合:

  近期 KV 保留高精度窗口(保证局部一致与细节稳定)

  远期 KV 通过轻量 1D conv 按固定压缩比滚动压缩(例如报告示例 λ=5),把历史信息压缩进固定长度表示,从而实现常量显存推理。

  RoPE Reset(位置对齐):配合 ConvKV Memory 的“压缩+滑动窗口”,通过 RoPE reset 做位置编码对齐,避免长序列位置漂移,强化长时稳定。


沈阳各大医院黄牛挂号电话票号贩子网上预约代挂号,加快住院检查Soul App发布开源模型SoulX-LiveAct:高鲁棒实时交互数字人,双卡低成本流式生成

LiveAct 推理时序 + Memory 结构示意图

  SoulX-LiveAct 的训练目标不是只追求视频质量,而是显式对齐流式推理的长时误差传播,使模型在“越长越不稳”的场景下仍能保持身份与细节稳定。

  Neighbor Forcing 对齐训练分布:训练时强制模型在同扩散步语境下接收来自“相邻帧”的条件 latent,减少 AR 链中跨步噪声空间不一致带来的优化震荡,使模型更好学到稳定的时序承接规则。

  长时一致性导向的自回归训练构造:训练样本按 chunk 方式组织,显式覆盖“连续 chunk 合成 → 误差累积 → 再纠正”的过程,让模型在训练期就暴露并学习处理长时漂移问题,而不是仅在短 clip 上拟合。

需要挂号联系客服 北京上海南京天津西安黄牛号贩子跑腿代挂号


X

截屏,微信识别二维码

微信号:15552009123

(点击微信号复制,添加好友)

  打开微信