Skip to content

关于start_motion_feat的疑问? #42

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
Echo-jyt opened this issue Mar 5, 2025 · 2 comments
Open

关于start_motion_feat的疑问? #42

Echo-jyt opened this issue Mar 5, 2025 · 2 comments

Comments

@Echo-jyt
Copy link

Echo-jyt commented Mar 5, 2025

作者您好,我看代码里的做法是,首先取了一个长度为200帧的motion序列,划分为了前100帧front和后100帧back。front的后25帧和back进行cat进入网络。对于front,你们的做法是利用了一个可学习的特征 $X_{start}$ 一起cat进行网络。我疑问就是,每一次取的200帧motion序列会不一样,这个 $X_{start}$ 怎么会有这么强大的功能能够适用于所有的motion序列。按理说,如果是自回归的训练,应该使用上一次预测出来的结果和当前的噪声进行cat进入网络预测。
不知道我有没有描述清楚我的疑问,希望得到您的回复!

@xuyangcao
Copy link
Collaborator

作者您好,我看代码里的做法是,首先取了一个长度为200帧的motion序列,划分为了前100帧front和后100帧back。front的后25帧和back进行cat进入网络。对于front,你们的做法是利用了一个可学习的特征 X s t a r t 一起cat进行网络。我疑问就是,每一次取的200帧motion序列会不一样,这个 X s t a r t 怎么会有这么强大的功能能够适用于所有的motion序列。按理说,如果是自回归的训练,应该使用上一次预测出来的结果和当前的噪声进行cat进入网络预测。 不知道我有没有描述清楚我的疑问,希望得到您的回复!

您好,扩散过程中,只有第一次迭代才使用可学习的特征,从第二次开始,则使用上一次预测的结果作为输入。

@Echo-jyt
Copy link
Author

Echo-jyt commented Mar 6, 2025

作者您好,我看代码里的做法是,首先取了一个长度为200帧的motion序列,划分为了前100帧front和后100帧back。front的后25帧和back进行cat进入网络。对于front,你们的做法是利用了一个可学习的特征 X s t a r t 一起cat进行网络。我疑问就是,每一次取的200帧motion序列会不一样,这个 X s t a r t 怎么会有这么强大的功能能够适用于所有的motion序列。按理说,如果是自回归的训练,应该使用上一次预测出来的结果和当前的噪声进行cat进入网络预测。 不知道我有没有描述清楚我的疑问,希望得到您的回复!

您好,扩散过程中,只有第一次迭代才使用可学习的特征,从第二次开始,则使用上一次预测的结果作为输入。

我看训练步骤的代码逻辑。貌似是,对于每一个iteration(代码里总共有max_iter个iteration), 总共有两次扩散过程。第一次使用可学习的特征,第二次使用的是上一次的真值,而不是上一次的预测结果。我有两个疑问:

  1. 对于每一个iterattion的第一次扩散过程,都使用可学习的特征,这个可学习的特征为什么会有这么强的适应性。为什么不是依次迭代完一个完整的视频,每一次使用上次的预测结果作为前序输入。
  2. 对于每一个iteration的第二次扩散过程,为何是使用是上一次的真值,而不是上一次预测的结果

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants