经典人像丝滑切换还是4倍超分辨率级别,细节一亿点多一点,眉毛和发际线轮廓分明。
这就是最近在Twitter上火起来的稳定扩散视频2.0版本。
可以用Real—ESRGAN进行上采样,生成的画面可以达到4倍过分。
要知道,之前稳定扩散生成的图像,如果想要高清,还得手动提高分辨率。
现在是二合一,可以在Google Colab上运行!
食用指南
在Colab上的操作很简单,基本上就是傻瓜式的按照步骤来。
需要注意的是,在这个过程中,令牌登录应该是从个人拥抱脸帐户复制的。
在拉模型之前,记得在抱抱脸上授权,否则会出现403错误。
解决以上问题后,就可以使用稳定扩散生成高清视频了。
生成一个视频,需要给出两个提示,然后设置中间的步数,以及是否需要上采样。
中间步骤越多,生成时间越长,同样,上采样也会在一定程度上延长生成时间。
您也可以直接用代码运行它,并且可以通过修改几个简单的参数来修复它。
除了在线模式,模型还支持本地操作,项目已经在GitHub上开源。
注意Real—ESRGAN的附加安装。
来自腾讯的子算法
稳定扩散的原理是扩散模型利用去噪自编码器的连续应用,逐步生成图像。
一般来说,扩散意味着向图像中重复添加小的随机噪声扩散模型与这一过程相反——从噪声中生成高清晰度图像训练好的神经网络通常是U—net
但由于模型直接在像素空间运行,扩散模型的训练和计算成本非常昂贵。
基于这一背景,稳定扩散主要分两步进行。
首先,使用编码器将图像X压缩成低维潜在空间表示Z..
上下文y,即输入文本提示,用于指导x的去噪。
与时间步长T一起以简单连接和交叉两种方式注入到潜在的空间表征中。
然后在Z的基础上进行扩散和去噪..也就是说,模型不直接在图像上计算,从而减少了训练时间,取得了更好的效果。
再来看超分辨率部分。
采用的方法是腾讯ARC实验室开发的Real—ESRGAN,由ICCV 2021接收。
能有效消除低分辨率图像中的振铃和过冲伪影,
原则上,研究人员引入了更高阶的降解过程来模拟更真实和更全面的降解,其中包含许多重复的经典降解过程,每个过程都有不同的降解超参数:
采用二阶降质,分为模糊,降噪,resize和JPGE压缩。
在训练环节中,使用RRDBNet作为Real—ESRGAN的生成器,对原有的×4 ESRGAN架构进行扩展,以×2和×1的resize缩放因子进行超分辨率放大。
单独使用这种超除算法不是问题。
在GitHub上下载这个模型的可执行文件,可以在Windows/Linux/MacOS下使用,不需要CUDA或者PyTorch的支持。
之后,只需在终端执行以下命令即可使用它:
。/realesrgan—ncnn—vulkan . exe—I input.jpg—o output.png
值得一提的是,Real—ESRGAN的作品王,是图像/视频超分辨率领域的知名学者。
毕业于浙江大学,香港中文大学博士,现为腾讯ARC实验室研究员。
之前登上GitHub热榜榜首的项目GFPGAN也是他的代表作。
还有一点
前两天大谷老师也发布了一组稳定扩散生成的女生肖像,效果很好看。
对了,大家一起完成阅女无数的成就吧。
稳定扩散还能玩出什么新花样你不试试吗
Colab演示:
GitHub地址:
拥抱脸授权:
参考链接: