使用firefly 进行 sft ,grad_norm 始终>1 deepseed config gradient_clip 设置auto    max_grad_norm=1.0 max_grad_norm=1.0   使用Firefly 进行预训练,同样的deepseed配置,这样是ok的生效的,但就是sft的grad_norm不生效 pretrain的grad_norm记录 