感谢您出色的工作! 我注意到Inf-DiT推理一张512*512的样本图片平均需要36秒,推理时GPU显存的占用为8GB左右,我的设备上拥有两张显卡,请问如何让这两张显卡一起进行推理工作?我希望能够在双卡的环境中减少推理的时间。 我已经尝试使用torchrun启动多卡推理,但是会报错找不到“sat”模块,这在单卡推理时则不会报错,我不知道是什么引起的问题 希望能得到您的帮助,期待您的回复!