Qwen2.5-7B和Qwen2.5-1.5B vocab_size对齐问题 #1164

pipilia · 2025-01-15T15:37:51Z

pipilia
Jan 15, 2025

您好，我希望使用Qwen2.5-7B蒸馏Qwen2.5-1.5B ，但是两者的vocab size不同（152064和151936），这导致两者在计算logits的交叉熵时形状不匹配，请问如何设置才能在读取模型的时候，使两者的vocab以及embedding层对齐呢？

jklj077 · 2025-01-20T11:09:02Z

config.json中的vocab_size是embedding层的大小，实际词表大小用len(tokenizer)，其它都可以直接截断。

0 replies

2catycm · 2025-07-11T11:21:47Z

看到这个issue #29

0 replies

2catycm · 2025-07-11T11:22:47Z

如果我要增加自定义token，那不超过embedding比tokenizer多出来的部分，可以直接只加tokenizer的token，不改embedding

0 replies