不会记错,何恺明大神关于自监督学习的论文已经很多篇了,这篇侧重于文生图算法里的基础问题,给出一种可以用到文生图里的基础技术,也就是说一些文生图算法可以调用这个框架。
论文中给了大家一个图像生成框架(representation - conditional image Generation, RCG)。它的整套流程是:使用自监督学习来训练图像编码器,从而学习图像的表示。然后,使用扩散模型从表示空间中生成图像。
这属于无条件生成图像。

我看有帖子下面有留言说:无条件生成图像没啥意思,就觉得评论者很短视。局限于现有方法有条件生成图,其效果是会有上限的。
图像生成领域的一个重要趋势:利用海量未标记数据集进行学习。
然而,当前的图像生成模型,仍然严重依赖标记数据集进行训练。
将图像生成从人工标注的约束中解放出来肯定要做的事情。
迈向无条件生成图像是一件特别值得期待的事情。
这种掉头发的工作肯定让大神科学家先来。
这篇何恺明大神新作,也是在距离他将入职麻省理工学院(MIT)非常近的时间段发表的,论文名称Self-conditioned Image Generation via Generating Representations。
按照他在2023年夏天的说法,他将于2024年初入职MIT电气工程与计算机科学系EECS 担任教职,所以,这很可能是他“上岗”第一篇论文成果。
论文中的原文讲得挺好,我翻译了一下:
“计算机视觉进入了一个新时代,从海量未标记数据中学习变得越来越普遍。然而,图像生成模型的训练仍然主要依赖于标记数据集。这背后的原因可能是条件图像生成和无条件图像生成之间存在着巨大的性能差距。我们的论文通过探索自我条件化图像生成来解决这个问题,我们将其定位在条件图像生成和无条件图像生成之间的桥梁。
我们展示了,通过生成以自监督学习(SSL)表示为条件的图像,并利用表示扩散模型在这个表示空间中进行建模和采样,可以有效地缩小性能差距,而且这个性能差距还是长期存在。论文团队相信这种方法有可能将图像生成从人工标注的限制中解放出来,使其能够充分利用大量未标记的数据,甚至泛化到超出人工标注能力范围的模态。”
短短一段话,把论文的方法和贡献都讲清楚了。
在相当长的一段时间内,监督学习在计算机视觉任务中具有优势。利用标签信息来学习图像中的特征,监督学习在各种计算机视觉任务中主要优于无监督学习。这可以算作是论文背景了。
这张图展示了何恺明和MIT合作开发的一种新的图像生成框架,
名叫RCG(Representation Conditioned Diffusion Generative Model,表征条件扩散生成模型)。
RCG是一个自我条件生成框架,由三个组件组成:
组件一,SSL图像编码器:用于将图像转换为表示。
组件二,RDM(表示扩散模型):用于对表示进行建模和采样。
组件三,像素生成器:用于将表示转换为图像。
图3展示了RCG的训练框架。为了训练RDM,在表示中加入标准高斯噪声,并要求网络去噪。
为了训练像素生成器,向标记化的图像添加随机掩码,并要求网络以从同一图像中提取的表示为条件重建缺失的标记。
图4展示了RDM的骨干架构。
具体来说,RCG的工作原理如下:
首先,自监督学习图像编码器将图像转换为表示。
然后,RDM对表示进行建模和采样,生成一个初始表示。
最后,像素生成器将初始表示转换为图像。
RCG的关键创新点在于,它将RDM与像素生成器相结合,形成了一个简单而有效的图像生成框架。RDM的加入使得RCG能够生成更高质量的图像,而像素生成器的加入使得RCG能够生成更逼真的图像。
在ImageNet-1K数据集上,RCG在无条件图像生成任务上取得了新的SOTA结果。
以下是RCG的一些优点:
1.简单:结构非常简单,由三个组件组成,因此易于理解和实现。
2.有效:能够生成高质量和逼真的图像。
3.通用:能够用于无条件图像生成、条件图像生成和风格迁移等任务。
此处肯定要捧一句,应用前景广阔。
第一,图像编码器。
RCG使用预训练的图像编码器将图像分布转换为表示分布,是指将图像中的信息转换为一个低维的表示。
这种表示能够保留图像的关键信息,同时又能够简化图像的复杂性。这种分布的特点是具有两个基本属性:通过表示扩散-融合模型进行建模的简单性,以及指导像素生成的高级语义内容的丰富性。
RCG使用自监督对比学习方法(Moco v3)预训练的图像编码器。Moco v3是一种基于对比学习的图像编码器预训练方法。它能够有效地学习图像中的语义信息。
第二,一个图像生成框架使用自监督来训练扩散模型。
自监督学习使用未标签数据来学习图像中的特征。自监督学习用一种不需要标签信息的任务训练网络来预测相关的伪标签。伪标签是指从未标签数据中生成的标签。
扩散模型本身是一种自回归模型。图像是从噪声图像开始,然后逐渐添加噪声生成的。添加噪声的过程可以视为从先前的输出(即噪声图像)预测下一个输出(即带噪声的图像)的过程。表示扩散模型(RDM)是扩散模型的一个变体,用来生成低维自监督图像表示。
RCG使用表示扩散模型(RDM)从表示空间中进行采样。表示扩散模型有潜力,它可以使图像生成模型充分利用大量未标记的数据,甚至泛化到超出人工标注能力范围的模态。
第三,自我条件化图像生成是指使用条件来生成图像。
MIM是一种有效的自监督学习方法,可以利用掩码图像来学习图像中的表示。自监督学习的进步促使研究人员探索自我条件化图像生成(self-conditioned image generation),可以利用自监督学习来学习图像中的表示。
条件是指在生成图像时使用的信息,条件可以是标签、文本描述或其他形式的信息。无条件就是没有给出信息。
论文提出的“自我条件化图像生成概念”旨在缩小这一差距,成为条件生成和无条件生成之间的连接点。具体做法是:
论文使用一种称为自监督学习表示方法来提取图像的特征,并利用一种称为表示扩散模型的技术在这个表示空间中进行建模和采样,从而生成图像。
作者认为,这种方法具有以下优势:
第一,充分利用未标记数据: 自我条件化图像生成不需要标记数据进行训练,可以充分利用海量未标记数据进行学习。
第二,缩小性能差距:通过使用来自 SSL 的表示作为条件,该方法可以有效缩小条件生成和无条件生成之间的性能差距。
第三扩展生成能力:自我条件化图像生成可以让模型生成超越人类标注能力范围的图像模式。
而且,自我条件化图像生成比无条件生成更加灵活,既保留了无条件生成的随机性,又引入了某种程度的控制,从而提高了生成图像的质量和多样性。
无条件生成图像是指从没有任何条件下生成图像,的确存在一些缺点。
这意味着生成图像的结果是随机的,用户无法控制图像的内容。
例如,如果要生成一张人脸图像,无条件生成图像可能会生成一张任何人脸的图像,而无法保证生成的图像是特定的人脸(男性,女性,小朋友)。
无条件生成图像还可能生成的图像不够多样,生成的图像可能会陷入局部最优,导致生成的图像都很相似。
对比文生图,是一种典型的条件生成图像,控制性强,用户可以通过文本描述来控制生成图像的内容,这使得生成的图像更加符合用户的预期。
自我条件化图像生成可以看作是对无条件生成的改进,它利用自监督学习从数据中提取的表示作为一种条件(隐式信息),引导图像生成过程。
论文中自我条件化图像生成,可以看作是条件图像生成的一种特殊形式,它利用图像本身的特征作为条件来生成新的图像。它在一定程度上保留了无条件生成的随机性和多样性,同时又引入了条件控制,从而缩小了与条件生成的性能差距。
论文也感谢了Mike Rabbat教授给与的讨论和反馈。这位来自麦吉尔大学的副教授,学术休假,也在Facebook AI 研究小组做研究科学家。