求问pretraining时，是否需要进行input token的packing对应的attention mask的处理

十分感谢大佬的工作！pretraining的时候input都是经过packing的: {"text": "<|im_start|>鉴别一组中文文章的风格和特点，例如官方、口语、文言等。需要提供样例文章才能准确鉴别不同的风格和特点。<|im_end|> <|im_start|>好的，现在帮我查一下今天的天气怎么样?今天的天气依据地区而异。请问你需要我帮你查询哪个地区的天气呢？<|im_end|>"} 但是在training的时候并没有进行attention mask的分块，第二个句子也会attend第一个句子的内容。求问这个是bug还是说在pretraining的时候不重要？ 感谢！！