这是indexloc提供的服务,不要输入任何密码
Skip to content

求问pretraining时,是否需要进行input token的packing对应的attention mask的处理 #459

@molinzhang

Description

@molinzhang

十分感谢大佬的工作!pretraining的时候input都是经过packing的: {"text": "<|im_start|>鉴别一组中文文章的风格和特点,例如官方、口语、文言等。需要提供样例文章才能准确鉴别不同的风格和特点。<|im_end|> <|im_start|>好的,现在帮我查一下今天的天气怎么样?今天的天气依据地区而异。请问你需要我帮你查询哪个地区的天气呢?<|im_end|>"} 但是在training的时候并没有进行attention mask的分块,第二个句子也会attend第一个句子的内容。求问这个是bug还是说在pretraining的时候不重要? 感谢!!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions