跳转至

Stable Diffusion

161 个字 预计阅读时间 1 分钟

框架

image-20260311190429051

Text Encoder

文字的 Encoder 对后面的结果影响很大

image-20260311191739585

Generation Model

这里的方法也是一样,首先拿出在训练 Decoder 中的 Encoder,通过照片输出一个中间产物,然后加入噪声得到一个新的中间产物,不断如此。

image-20260311192854838

然后设计一个 Noise Predicter 通过文字 Embedding 和中间产物得到噪声,从而实现 Generation Model 的设计

Decoder

Decoder 的训练不需要文字数据

  • 如果 latent representation( 潜在表示 ) 是一个小图,那 Decoder 只需要训练把小图变为大图的 Decoder

image-20260311192256685

  • 如果不是小图,那就需要训练一个 Auto-encoder.

image-20260311192412902