软腰BY辣椒椒 京东开源JoyAI-Echo框架,进入长视频生成环球第一梯队
发布日期:2026-06-05 13:04 点击次数:79

尖端新闻记者 杨桂芳软腰BY辣椒椒
6月3日,京东晓谕开源JoyAI-Echo长音视频生成框架。JoyAI-Echo贬责了行业三大痛点:脚色难巩固一致、音色变化难甩手、视频生成速率慢,完结了长视频生成“又快又好”。此外,JoyAI-Echo的“边聊边改”样式,让视频创作从 "静态生成" 酿成 "动态融合"。

JoyAI-Echo在各类视频创作、数字东谈主直播、品牌营销、证明和游戏履行坐蓐等鸿沟有重大的期骗后劲,它的推出,符号着京东在长视频生成鸿沟完结紧要突破,进入环球第一梯队。
四大工夫改进 贬责长视频生成三浩劫题
在AI视频鸿沟,十几秒短视频的生成质料越来越熟谙,但行业头疼的瓶颈依然存在:难以向分钟级长视频突破。AI视频一但拉到这一时长,就会出现以下问题:吞并个脚色,在不同镜头里长得不雷同;言语东谈主的音色忽高忽低以致瞬息变声;生成速率慢到离谱,等几分钟以致半小时智商出结束。
以上问题,告成导致 AI 长视频停留在 "玩物" 阶段,很难确切插足坐蓐、创造价值。JoyAI-Echo 的出现,透澈冲突这个僵局。JoyAI-Echo 有四项工夫改进:
一是跨模态音视频牵记库,让脚色再也不 "变脸"。这亦然JoyAI-Echo 最瑕疵的突破。模子框架内置了一个专诚的牵记库,能在多镜头生成过程中,抓续保存并调用脚色的外不雅特征和言语东谈主音色信息。在长达 5 分钟的视频里,沦陷调教会所〈高h〉视频脚色身份、视觉形象和声息音色王人能保抓高度一致,再也不会出现 "吞并个东谈主演着演着酿成另一个东谈主" 的无语情况。
二是牵记启动后检会,速率告成耕作 7.5 倍。研发团队改进提议了牵记启动后检会经过,聚拢 SFT、跨模态 RLHF 和 Distribution Matching Distillation(DMD)工夫,大幅耕作了生成质料,更完结了惊东谈主的推理加快。
其中,仅 DMD 一项工夫就带来了约 7.5 倍的速率耕作,让长视频生成从 "等半天" 酿成 "秒出片"。
三是加入智能 "导演助理"——Director Agent,让长视频第一次完结 "对话式裁剪"。JoyAI-Echo 不再是 "输入指示词,亚洲日韩一区二区一次性出结束" 的传统器具。用户使用当然语言说需求,它会自动帮你拆分红脚本、脚色、场景和镜头。那里不惬意,告成用对话的面孔告诉它修改,它只从头生成有问题的局部镜头,无谓重跑整条视频,让长视频创作从 "静态生成" 酿成了 "动态融合"。
四是轻量化及时超分,高清输出不卡顿。为特出志专科履行坐蓐的需求,JoyAI-Echo 配套了专诚的及时超分模块,撑抓两档分手率耕作(736×1280 → 1152×1920,736×1280 → 1472×2560)。模块通过单步超分就能生成高分手率视频和缜密化音频,即使在流式蔓延的拘谨下,也能保抓巩固的高清发达。
各项筹办全面朝上行业 “AI 长视频时间"到来
为了客不雅评估 JoyAI-Echo 的性能,研发团队基于 100 个故事、3000 个镜头构建了长音视频生成评测集,从多个维度进行了全面测试。结束清楚,JoyAI-Echo 在跨镜头一致性、视频质料、文本一致性和语音履行准确率等通盘中枢筹办上王人获得了朝上发达,其汉文音履行准确率更是高达0.8646,大幅朝上行业其它同类模子。
在与行业同类模子对比中,用户觉得JoyAI-Echo音频质料偏好的比例为81.7%,指示词投降偏好为80.6%,视觉好意思学偏好为63.6%,IP 一致性偏好为59.4%。
JoyAI-Echo 的推出,意味着AI 视频生成的 "长视频时间"来了。它为虚构故事创作和动漫制作、数字东谈主履行坐蓐和直播、品牌营销视频快速迭代、互动证明课件生成等鸿沟带来了全新可能,将大幅优化行业本钱后果。JoyAI-Echo也预示着将来东谈主类不错像聊天雷同,抓续创作、修改和完善长视频履行,让高一致性、高画质、可交互的视频生成,确切走进每一个履行创作家的责任经过。
京东晓谕,JoyAI-Echo 的代码与权重已一起开源,现在样式页和 GitHub 代码仓库也曾认真上线软腰BY辣椒椒,供开采者和创作家体验。


