Skip to content

原始的diffusion是否足够用来进行生成 #62

Open
@RKO-max

Description

@RKO-max

你好,看了你的这项工作,非常了不起!然后我有一个我问题,请问你是否有尝试过没那么强大的模型去生成潜在训练,比如你在这里使用了DiT或者是你改进后的DiT(LightningDiT)),那我想知道普通的diffusion可不可行。就是说对于[32,16,16]这样维度的潜在向量,普通的diffusion就只使用diffuser库的UNet2DModel去预测噪声从而进行数据生成,比如图像生成,在这个任务中就是潜在向量的生成。我将我的图像让你们项目中提供的训练好的VAE进行encode,然后生成潜在向量,然后我用这些潜在向量去训练diffusion,从而生成潜在向量再给这个VAE进行decode,进行重建,不知道效果会不会比起直接生成图像有提升。然后我实践后,发现了以下问题:我是使用encode之后再进行channel-wise归一化的潜在向量进行训练的,然后在进行生成潜在向量的时候,diffusion采样代码如图1,生成出来的数据范围只能卡在-1和1之间,和训练数据(encode之后再进行channel-wise归一化的潜在向量)有些差别,导致生成出来的潜在向量交给VAEdecode的结果如图2,一直解决不了如何变清晰的问题,所以来请教一下。

Image

Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions