Open
Description
你好,看了你的这项工作,非常了不起!然后我有一个我问题,请问你是否有尝试过没那么强大的模型去生成潜在训练,比如你在这里使用了DiT或者是你改进后的DiT(LightningDiT)),那我想知道普通的diffusion可不可行。就是说对于[32,16,16]这样维度的潜在向量,普通的diffusion就只使用diffuser库的UNet2DModel去预测噪声从而进行数据生成,比如图像生成,在这个任务中就是潜在向量的生成。我将我的图像让你们项目中提供的训练好的VAE进行encode,然后生成潜在向量,然后我用这些潜在向量去训练diffusion,从而生成潜在向量再给这个VAE进行decode,进行重建,不知道效果会不会比起直接生成图像有提升。然后我实践后,发现了以下问题:我是使用encode之后再进行channel-wise归一化的潜在向量进行训练的,然后在进行生成潜在向量的时候,diffusion采样代码如图1,生成出来的数据范围只能卡在-1和1之间,和训练数据(encode之后再进行channel-wise归一化的潜在向量)有些差别,导致生成出来的潜在向量交给VAEdecode的结果如图2,一直解决不了如何变清晰的问题,所以来请教一下。
Metadata
Metadata
Assignees
Labels
No labels