昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1

2025-02-20 07:35:05 来源: 证券之星 阅读量:18710   

2月18日,昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1、中国首个SOTA级别基于视频基座模型的表情动作可控算法SkyReels-A1。

开源地址:

4、SkyReels官方地址:skyreels.ai

1. SkyReels-V1:Human-Centric Video Foundation Model,中国首个面向AI短剧创作的开源视频生成模型

SkyReels-V1可实现影视级人物微表情表演生成,支持33种细腻人物表情与400+种自然动作组合,高度还原真人情感表达。正如以下视频所示,SkyReels-V1支持生成大笑、怒吼、惊讶、哭泣等微表情,展现出人物情感丰沛的表演细节。即使有大幅度肢体动作,SkyReels-V1生成的微表情也完美贴合人物肢体表演。

同时,SkyReels-V1为AI视频生成带来了电影级光影美学,基于好莱坞级的高质量影视数据训练,当前SkyReels生成的每一帧画面,在构图、演员站位、相机角度等都具备电影级的质感。无论是单人镜头表演细节,还是多人构图,当前已具备精准的表情控制和高质感画面。

更重要的是,SkyReels-V1不仅支持文生视频、还能支持图生视频,是开源视频生成模型中参数最大的支持图生视频的模型,在同等分辨率下各项指标实现开源SOTA。

图1丨SkyReels-V1文生视频指标对比

能够实现这样的SOTA级别,不仅依赖于昆仑万维SkyReels团队基于自研的高质量数据清洗和人工标注管线,构建了千万级的高质量电影电视剧纪录片数据。更依托团队自研「Human-Centric」的视频理解多模态大模型,大幅提升视频中人物相关的理解能力,尤其是自研人物智能解析系统。

综上所述,得益于扎实的数据工作和先进的人物智能解析系统,SkyReels-V1可以实现:

影视化表情识别体系:11种针对影视戏剧中的人物表情理解,如不屑、不耐烦、无助、厌恶等表情的理解;

人物空间位置感知:基于人体三维重建技术,实现对视频中多人的空间相对关系理解,助力模型生成影视级人物站位;

行为意图理解:构建超过400种行为语义单元,实现对人物行为的精准理解;

表演场景理解:实现人物-服装-场景-剧情的关联分析。

SkyReels-V1不仅是全球极少数开源的视频生成模型,还是围绕人物表演、开源视频生成模型中性能最强的。

在自研推理优化框架「SkyReels-Infer」的加持下,大幅提升推理效率,实现544p分辨率,推理基于单台4090只需80s,还支持分布式多卡并行,支持Context Parallel,CFG Parallel,和 VAE Parallel。此外,采取fp8 quantization以及parameter-level offload,满足低显存用户级显卡运行需求;支持flash attention、SageAttention,模型编译优化等,进一步优化延迟;基于开源diffuser库,提升易用性。

正如下图2所示,在同等RTX4090资源情况下对比,SkyReels-Infer版本比HunyuanVideo官方版本端到端延迟减少58.3%(293.3s vs 464.3s);SkyReels-Infer版本具备更鲁棒的部署策略,支持用户级别显卡1卡-8卡的推理部署。

图2丨推理生成544p视频,使用相同卡数的RTX 4090,SkyReels-Infer版本端到端延迟优于HunyuanVideo官方 58.3%

在同等A800资源情况下对比,SkyReels-Infer版本比HunyuanVideo官方版本端到端延迟减少14.7%~28.2%,SkyReels-Infer版本具备更鲁棒的多卡部署策略。

图3丨推理生成544p视频,SkyReels-Infer版本具备更鲁棒的多卡部署策略,支持8卡部署

2.SkyReels-A1:首个SOTA级别的基于视频基座模型的表情动作可控算法

为了实现更加精准可控的人物视频生成,昆仑万维还开源了SOTA级别的基于视频基座模型的表情动作可控算法SkyReels-A1,对标Runway的Act-One,SkyReels-A1支持视频驱动的电影级表情捕捉,实现高保真微表情还原。能够基于任意人体比例生成高度逼真的人物动态视频,其真实感源自对人物表情变化和情绪的精准模拟、皮肤肌理、身体动作跟随等多维度细节的深度还原。

SkyReels-A1不仅支持侧脸的表情控制生成、还能实现更加逼真的眉眼微表情生成和更大幅度的头部与自然身体动作。SkyReels-A1能够实现更大幅度的人物表情驱动。相比Runway的Act-One,SkyReels-A1可以迁移更复杂的表情动作,生成的人物面部神情可以配合肢体及画面内容实现更栩栩如生的表演。

3.以开源之姿,以破局之势,昆仑万维致力于推动全球AI短剧创作生态繁荣发展

昆仑万维一直坚持开源,推动技术平权。昆仑万维同时将SOTA级别的SkyReels-V1和SkyReels-A1进行开源,是AI短剧行业首例,也是昆仑万维SkyReels回馈行业迈出的一小步,更是促进AI短剧创作和视频生成行业枝繁叶茂的一大步。

我们相信在进行推理优化的升级和可控算法的开源后,它们将为用户带来低成本、可控性更强的AIGC能力。昆仑万维希望通过更多优秀视频生成模型的开源和极致的AI短剧产品能力,为用户带来低成本实现AI短剧创作的可能性、突破行业目前视频生成一致性差的问题,让大众通过自己的电脑生成精细且可控的人物表演。

此次开源的视频大模型,不仅是一次技术突破,有助于缩小全球内容产业的数字鸿沟,更是文化产业生产力的一次革命。未来,短剧与游戏、虚拟现实等领域的跨界发展,将会加速产业融合。AI短剧也有希望从“技术实验”迈向“主流创作”,成为全球文化输出的新载体。

“实现通用人工智能,让每个人更好地塑造和表达自我”是公司的使命,未来,昆仑万维及SkyReels还将开源更多视频生成模型和算法、通用模型,通过开源实现AGI平权,推动AI短剧生态的持续建设和繁荣,促进开源社区、开发生态以及AI行业的发展。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

精选 导读

大摩:苹果产量或超预期增长,预计Q1业绩有“惊喜”

摩根士丹利分析师KatyHuberty指出,苹果本季度iPhone产量可能超预期增长,因为交货周期正在下降到“更正常的水平”。该分析师预计苹...

发布时间: 2021-12-23 17:04
行情   2021-12-23

中金:维持石四药集团跑赢行业评级目标价5.8港元

中金发布研究报告称,维持石四药集团“跑赢行业”评级,保持2021/22年归母净利润预测7.9/11.64亿元不变,目标价5.8港元。报告中称...

发布时间: 2021-12-23 17:03
行情   2021-12-23

实探中装建设元宇宙合作方鸿蒙时代:与华为无关已搬离注册地

12月22日,深交所对中装建设发布关注函,要求说明公司是否存在“楼宇智能大数据信息处理、AI可视化、元宇宙应用、智能建造系统、区块链等技术”...

发布时间: 2021-12-23 17:02
行情   2021-12-23

“疫”线女将:眼里有光心中有爱

“疫”线女将:眼里有光心中有爱题:“疫”线女将:眼里有光心中有爱曾灯光璀璨、游人如织的边陲小城因新冠疫情的再次暴发按下“暂停键”。内蒙古自治...

发布时间: 2021-12-23 16:48
要闻   2021-12-23

联通网络智能运维产品研发招标:华为、中软等11家企业入围

中国联通日前正式公布网络智能运维产品研发招标结果,华为、中软、软通动力、亚信科技等11家企业入围。传统网络故障的被动处理方式,从故障感知到信...

发布时间: 2021-12-23 16:35
酷玩   2021-12-23

热点 推荐

小米12Pro自研智能动态刷新率演示视频公布:支持新技能“滑动变速”,更

今日上午,小米手机官方表示,小米自研智能动态刷新率,是第二代低功耗2K屏幕的创新体验,第一次让小米12Pro拥有了滑动变速的新技能。小米表示...

发布时间: 2021-12-23 16:31
酷玩   2021-12-23

增速惊人!鸿蒙用户量半年突破2.2亿

C114讯12月23日下午消息在今日举办的华为动机旗舰新品发布会上,华为常务董事、消费者BGCEO、智能汽车解决方案BUCEO余承东公布了鸿...

发布时间: 2021-12-23 16:26
酷玩   2021-12-23

用户群聊从线上走到线下他趣成年轻群体社交困境破局者

伴随当下工作和生活节奏越来越紧凑,婚恋、交友等社交需求逐渐成为年轻人的刚性需求。为满足日益提升的社交需求,他趣用户从线上延伸到线下,通过组织...

发布时间: 2021-12-23 14:59
机器人   2021-12-23

京东会展云“云上服贸会”项目入选中国信通院“2021年数字孪生城市典型案

近日,2022中国信通院ICT+深度观察报告会隆重举办,京东会展云技术支持的中国国际服务贸易交易会数字平台项目入选“2021年数字孪生城市典...

发布时间: 2021-12-23 14:56
机器人   2021-12-23

华为Mate9手机推送鸿蒙HarmonyOS2.0.0.140:新增桌面

华为Mate9手机开始推送鸿蒙HarmonyOS2.0.0.140更新。更新包1优化了音量等基础体验,并新增了桌面图标放大功能。更新包2修复...

发布时间: 2021-12-23 14:41
机器人   2021-12-23
bd9