关于start_motion_feat的疑问？ #42

Echo-jyt · 2025-03-05T13:29:15Z

作者您好，我看代码里的做法是，首先取了一个长度为200帧的motion序列，划分为了前100帧front和后100帧back。front的后25帧和back进行cat进入网络。对于front，你们的做法是利用了一个可学习的特征 $X_{start}$ 一起cat进行网络。我疑问就是，每一次取的200帧motion序列会不一样，这个 $X_{start}$ 怎么会有这么强大的功能能够适用于所有的motion序列。按理说，如果是自回归的训练，应该使用上一次预测出来的结果和当前的噪声进行cat进入网络预测。
不知道我有没有描述清楚我的疑问，希望得到您的回复！

xuyangcao · 2025-03-06T01:46:27Z

作者您好，我看代码里的做法是，首先取了一个长度为200帧的motion序列，划分为了前100帧front和后100帧back。front的后25帧和back进行cat进入网络。对于front，你们的做法是利用了一个可学习的特征 X s t a r t 一起cat进行网络。我疑问就是，每一次取的200帧motion序列会不一样，这个 X s t a r t 怎么会有这么强大的功能能够适用于所有的motion序列。按理说，如果是自回归的训练，应该使用上一次预测出来的结果和当前的噪声进行cat进入网络预测。不知道我有没有描述清楚我的疑问，希望得到您的回复！

您好，扩散过程中，只有第一次迭代才使用可学习的特征，从第二次开始，则使用上一次预测的结果作为输入。

Echo-jyt · 2025-03-06T03:31:43Z

作者您好，我看代码里的做法是，首先取了一个长度为200帧的motion序列，划分为了前100帧front和后100帧back。front的后25帧和back进行cat进入网络。对于front，你们的做法是利用了一个可学习的特征 X s t a r t 一起cat进行网络。我疑问就是，每一次取的200帧motion序列会不一样，这个 X s t a r t 怎么会有这么强大的功能能够适用于所有的motion序列。按理说，如果是自回归的训练，应该使用上一次预测出来的结果和当前的噪声进行cat进入网络预测。不知道我有没有描述清楚我的疑问，希望得到您的回复！

您好，扩散过程中，只有第一次迭代才使用可学习的特征，从第二次开始，则使用上一次预测的结果作为输入。

我看训练步骤的代码逻辑。貌似是，对于每一个iteration(代码里总共有max_iter个iteration）, 总共有两次扩散过程。第一次使用可学习的特征，第二次使用的是上一次的真值，而不是上一次的预测结果。我有两个疑问：

对于每一个iterattion的第一次扩散过程，都使用可学习的特征，这个可学习的特征为什么会有这么强的适应性。为什么不是依次迭代完一个完整的视频，每一次使用上次的预测结果作为前序输入。
对于每一个iteration的第二次扩散过程，为何是使用是上一次的真值，而不是上一次预测的结果

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于start_motion_feat的疑问？ #42

关于start_motion_feat的疑问？ #42

Echo-jyt commented Mar 5, 2025

xuyangcao commented Mar 6, 2025

Echo-jyt commented Mar 6, 2025

关于start_motion_feat的疑问？ #42

关于start_motion_feat的疑问？ #42

Comments

Echo-jyt commented Mar 5, 2025

xuyangcao commented Mar 6, 2025

Echo-jyt commented Mar 6, 2025