十分感谢大佬的工作!pretraining的时候input都是经过packing的: {"text": "<|im_start|>鉴别一组中文文章的风格和特点,例如官方、口语、文言等。需要提供样例文章才能准确鉴别不同的风格和特点。<|im_end|> <|im_start|>好的,现在帮我查一下今天的天气怎么样?今天的天气依据地区而异。请问你需要我帮你查询哪个地区的天气呢?<|im_end|>"} 但是在training的时候并没有进行attention mask的分块,第二个句子也会attend第一个句子的内容。求问这个是bug还是说在pretraining的时候不重要? 感谢!!