人工智能计算机视觉李宏毅机器学习2023|图像生成模型

摸鱼吖博客 2024-03-14 1 0

文章目录

图像生成Autoregressive（各个击破）Non-Autoregressive（一次到位）一次到位法额外的输入——从一个高维的Normal Distribution作simple得到一个向量常用的图片生成模型VAEFlow-based Generative ModelDiffusion ModelGAN

Diffusion Modeldenoise model里实际内部做的事情如何训练Noise Predictor怎么把文字考虑进来

Stable Diffusion常见的图生文模型组成部分text encoderGeneration ModelDecoder

评估指标FIDCLIP Score

图像生成

机器需要大量的脑补

Autoregressive（各个击破）Non-Autoregressive（一次到位）

直接把图片的像素拉直，当成文字那样处理。但是这样太耗时

一次到位法

因为每一个像素独立绘制，因此效果不好

额外的输入——从一个高维的Normal Distribution作simple得到一个向量

常用的图片生成模型

VAE

怎么样去找一些成对的训练集？使用Encoder产生。（图中省略了输入文字）

Flow-based Generative Model

因为Encoder必须是Invertible的，因此输出的vector的维度必须和输入的一样。（图上没画好）

Diffusion Model

GAN

只learn decoder没有learn encoder。 Decoder要做的就是调整他自己，让判别器表现得越差越好。

Diffusion Model

这里的Denoise都是同一个model

denoise model里实际内部做的事情

如何训练Noise Predictor

从哪获取训练资料——怎么找到杂屑的ground truth？这是人类自己创造的加噪音——Forward Process（Diffusion Process）

怎么把文字考虑进来

数据集：LAION-5b 来源论文：Denoising Diffusion Probabilistic Models

Stable Diffusion

现在最好的图像生成模型由三个元件组成： 1、Text Encoder 2、Generation Model（Stable Diffusion或者其他） 3、Decoder 三个元件分开训练再合起来

常见的图生文模型

组成部分

text encoder

encoder对结果影响很大，相对而言diffusion model（这里指那个noise predicter的大小）对结果影响就不大。

Generation Model

杂屑不是加在图片上，而是加在中间产物上

Decoder

训练时不需要labelled data

评估指标

FID

越小越好

CLIP Score

越大越好

好文推荐

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2024-03-14 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/713478956.html

夸智网

人工智能计算机视觉李宏毅机器学习2023|图像生成模型

人工智能基于机器学习的验证码识别平台设计与实现

开发语言 spring boot 真实项目：java调用python传参机器学习-RedHatlinux操作系统环境下

发表评论取消回复

夸智网

人工智能 计算机视觉 李宏毅机器学习2023|图像生成模型

人工智能 基于机器学习的验证码识别平台设计与实现

开发语言 spring boot 真实项目：java调用python传参机器学习-RedHatlinux操作系统环境下

相关文章

发表评论取消回复

人工智能计算机视觉李宏毅机器学习2023|图像生成模型

人工智能基于机器学习的验证码识别平台设计与实现