文章目录

图像生成Autoregressive(各个击破)Non-Autoregressive(一次到位)一次到位法额外的输入——从一个高维的Normal Distribution作simple得到一个向量常用的图片生成模型VAEFlow-based Generative ModelDiffusion ModelGAN

Diffusion Modeldenoise model里实际内部做的事情如何训练Noise Predictor怎么把文字考虑进来

Stable Diffusion常见的图生文模型组成部分text encoderGeneration ModelDecoder

评估指标FIDCLIP Score

图像生成

机器需要大量的脑补

Autoregressive(各个击破)Non-Autoregressive(一次到位)

直接把图片的像素拉直,当成文字那样处理。 但是这样太耗时

一次到位法

因为每一个像素独立绘制,因此效果不好

额外的输入——从一个高维的Normal Distribution作simple得到一个向量

常用的图片生成模型

VAE

怎么样去找一些成对的训练集?使用Encoder产生。(图中省略了输入文字)

Flow-based Generative Model

因为Encoder必须是Invertible的,因此输出的vector的维度必须和输入的一样。(图上没画好)

Diffusion Model

GAN

只learn decoder没有learn encoder。 Decoder要做的就是调整他自己,让判别器表现得越差越好。

Diffusion Model

这里的Denoise都是同一个model

denoise model里实际内部做的事情

如何训练Noise Predictor

从哪获取训练资料——怎么找到杂屑的ground truth?这是人类自己创造的 加噪音——Forward Process(Diffusion Process)

怎么把文字考虑进来

数据集:LAION-5b 来源论文:Denoising Diffusion Probabilistic Models

Stable Diffusion

现在最好的图像生成模型由三个元件组成: 1、Text Encoder 2、Generation Model(Stable Diffusion或者其他) 3、Decoder 三个元件分开训练再合起来

常见的图生文模型

组成部分

text encoder

encoder对结果影响很大,相对而言diffusion model(这里指那个noise predicter的大小)对结果影响就不大。

Generation Model

杂屑不是加在图片上,而是加在中间产物上

Decoder

训练时不需要labelled data

评估指标

FID

越小越好

CLIP Score

越大越好

好文推荐

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。