贵圈
政府都对党
- 注册
- 2014-10-21
- 消息
- 32,833
- 荣誉分数
- 6,360
- 声望点数
- 373
比JPEG更好?研究人员发现稳定扩散可以压缩图像
有损压缩绕过了稳定扩散的文本到图像部分,结果很有趣。
本杰·爱德华兹 —— 昨天 undefined
放大 /这些锯齿状的彩色块正是图像压缩概念的样子。
Benj Edwards / Ars Technica
97有 83 位海报参与,包括故事作者
上周,瑞士软件工程师 Matthias Bühlmann发现,流行的图像合成模型Stable Diffusion可以以比 JPEG 或 WebP 更高的压缩比压缩现有的位图图像,其视觉伪影更少,尽管有一些重要的警告。
延伸阅读
使用稳定扩散,您可能永远不会再相信您在网上看到的内容Stable Diffusion 是一种AI 图像合成模型,通常根据文本描述(称为“提示”)生成图像。人工智能模型通过研究从互联网上提取的数百万张图像来学习这种能力。在训练过程中,模型在图像和相关词之间建立统计关联,对每张图像的关键信息进行更小的表示,并将它们存储为“权重”,这些权重是代表 AI 图像模型所知道的数学值,因此说话。
当稳定扩散分析并将图像“压缩”成权重形式时,它们位于研究人员所谓的“潜在空间”中,这是一种说法,它们作为一种模糊潜力存在,一旦被解码,就可以在图像中实现. 使用 Stable Diffusion 1.4,权重文件大约为 4GB,但它代表了数亿张图像的知识。

放大 /使用稳定扩散压缩图像的示例。
虽然大多数人使用带文本提示的稳定扩散,但 Bühlmann 去掉了文本编码器,而是强制通过稳定扩散的图像编码器过程来处理他的图像,该过程将低精度的 512×512 图像转换为更高精度的 64×64 潜在图像空间表示。此时,图像存在的数据量比原始图像要小得多,但仍可以将其扩展(解码)回 512×512 图像并获得相当好的结果。
在运行测试时,Bühlmann 发现使用稳定扩散压缩的新图像在更高的压缩比(更小的文件大小)下主观上看起来比 JPEG 或 WebP 更好。在一个示例中,他展示了一张美洲驼的照片(最初为 768KB),使用 JPEG 压缩到 5.68KB,使用 WebP 压缩到 5.71KB,使用 Stable Diffusion 压缩到 4.98KB。与以其他格式压缩的图像相比,稳定扩散图像似乎具有更多可分辨的细节和更少的明显压缩伪影。

放大 /使用稳定扩散压缩图像的实验示例。SD 结果在最右边。
马修·布尔曼
然而,Bühlmann 的方法目前有很大的局限性:它不适用于面部或文本,而且在某些情况下,它实际上可以使解码图像中的细节特征产生幻觉,而这些特征在源图像中不存在。(您可能不希望您的图像压缩器在图像中发明不存在的细节。)此外,解码需要 4GB 稳定扩散权重文件和额外的解码时间。
虽然稳定扩散的这种使用是非常规的,并且比实际的解决方案更有趣,但它可能指向图像合成模型未来的新用途。Bühlmann 的代码可以在 Google Colab 上找到,您可以在他关于 Towards AI 的帖子中找到有关他的实验的更多技术细节。