你好! 我最近在预训练模型,用的是0.1B参数的模型, 用的就是minimind的代码,相同数据集的情况下,我想请问,为什么minimind的效果这么好呢?因为作者多次测试,对参数进行了优化吗? 我自己训练了有十几次,没有一次的效果比得上minimind的。