添加多图训练和推理过程 #19

xinyanghuang7 · 2024-10-29T16:59:00Z

非常感谢您实现了这个精彩的仓库。

我希望在您的基础上添加一些小功能，共同维护这个仓库，同时也推动我了解和学习多模态大模型的知识。

这次更新添加了在新的数据集上进行多图训练和推理的过程。

主要就是添加了dataloader和修改了模型替换图像标识符的策略。

虽然效果很一般，但我希望能为多图推理训练提供一种思路。

后续也希望和您一起不断完善这个仓库，共同维护和优化。

如果您对我有任何建议，您可以随时联系我，我会给你及时的回复。

update readme

xinyanghuang7 · 2024-10-30T03:37:40Z

训练数据集以及部分文件已放入Huggingface。后续也会持续更新。

jingyaogong · 2024-10-30T09:59:57Z

@xinyanghuang7
谢谢您的贡献，很不错的尝试！！！

由于体量不小，review了一大会儿
花时间debug过了，确认了代码逻辑没有问题
由于model.py, dataset.py, vision_utils.py 代码做了兼容处理，因此完全不会影响以前的全部功能。

现在有几个地方需要确认一下：

1.

注意到 4-sft_multi_vlm.py 和 2-sft_vlm.py 基本一致
是否可以在 2-sft_vlm.py 添加可选 multi 参数配置的方式，放到一个脚本中完成。

（希望简洁轻量，用更小的修改完成更大的功能）
同样的，5-eval_chat_multi.py 新增部分是否也可以放到 3-eval_chat.py。

2.

model.py 的386行开始一小段，做了小修改（无逻辑变化）：

      # 如果此时有图像编码
      if image_encoders is not None:
            vision_proj = self.vision_proj(image_encoders)
            vision_proj = vision_proj.unsqueeze(0) if len(vision_proj.shape) == 3 else vision_proj
            if image_indices is not None:
                # 创建一个新的张量来存储拼接后的结果
                new_h = []
                for i in range(h.size(0)):
                    # i即为current_batch_idx索引
                    img_idx = 0
                    for batch_idx, start_idx, end_idx in image_indices:
                        if batch_idx == i:
                            # 插入vision_proj特征
                            before = h[i][:start_idx, :]
                            after = h[i][end_idx + 1:, :]
                            # 拼接 before, vision_proj, after
                            h[i] = torch.cat((before, vision_proj[i][img_idx], after), dim=0)[:seqlen]
                            img_idx += 1
                    new_h.append(h[i])
                # 将所有拼接后的结果重新堆叠起来
                new_h = torch.stack(new_h, dim=0)  # torch.Size([32, 511, 512])
                return new_h

3.

① readme中有一些冲突标记可能忘记被解决
② eval_multi_images 是否没有添加（如果我没有遗漏的话）

4.

由于PR包含新模型的训练，因此训练过程/数据集/效果评估等我不做新的复现
我会将xinyanghuang7分支和 minimind-v_multi_image 附在说明中。

完成以上后会马上merge此PR，期待进一步交流，谢谢！！！

xinyanghuang7 · 2024-10-30T13:29:29Z

非常感谢您的及时回复以及建议！

multi-images training 1.0目前已经根据您的建议修改了大部分内容，辛苦您再次审阅。

后续会逐步添加预训练的权重和更详细的评估分析。

感谢您的认可！

期待和您以后更多的交流！

jingyaogong

good

添加多图训练和推理过程

jingyaogong and others added 30 commits September 11, 2024 13:55

Create README.md

6c16160

update readme

f54fb7d

Delete LICENSE

6d46a00

Create LICENSE

3ee3ed8

update readme

4b342f2

minimind-v first open source

47a3bb9

update readme

2afe0e0

update readme

1ec5428

update readme

fffb207

update readme

e78fb47

update readme

1ed110d

update readme

f8e868c

update readme

be94af9

update readme

090b0d2

update readme

0c5e77f

update readme

84929ce

update readme

d007f33

update readme

fde4076

update readme

148e580

update readme

ba37b5d

update readme

3cba851

update readme

d618ffe

update readme & requirements

a16c4a9

update readme & requirements

1d650f0

update readme & requirements

ab4aa6d

linux下直接复制命令过去，&会识别为后台运行，然后&之后的命令就会直接执行报错，建议换行

3762f7e

Merge pull request jingyaogong#9 from chuanzhubin/master

4b8cd11

update readme

update readme

af29f48

add multi-images

e31b584

add multi-images

d28564c

xinyanghuang7 added 14 commits October 29, 2024 06:08

使用 Git LFS 跟踪大文件

384b6a2

使用 Git LFS 跟踪大文件

9d8600b

add multi-images

906787a

add multi-images

dd3656d

add multi-image

8508089

add multi-image

502fe28

add multi-img

e828599

add multi-img

ad1aa51

add multi-images

882fc29

add multi-images

4d0fc87

add multi-images

e6bb506

add multi-images

c6b9a78

Resolve merge conflicts

4babe0d

Resolve merge conflicts

2d946a4

xinyanghuang7 added 9 commits October 30, 2024 07:40

multi-images training

2adb3d1

multi-images training

b45247a

multi-images training

ce4736d

multi-images training

6b77361

multi-images training

0859769

multi-images training

2b04fce

multi-images training 1.0

3e55cd2

multi-images training 1.0

9c432ab

multi-images training 1.0

9aea94c

jingyaogong reviewed Oct 31, 2024

View reviewed changes

jingyaogong merged commit bf0730a into jingyaogong:master Oct 31, 2024

jingyaogong mentioned this pull request Dec 5, 2024

请问多图微调数据集中提到的output.json文件应该去哪里下载呢？ #29

Closed

Misaki-Akeno pushed a commit to Misaki-Akeno/minimind-v-vla that referenced this pull request Sep 19, 2025

Merge pull request jingyaogong#19 from xinyanghuang7/hxy

4b28eb3

添加多图训练和推理过程

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

添加多图训练和推理过程 #19

添加多图训练和推理过程 #19

Uh oh!

xinyanghuang7 commented Oct 29, 2024

Uh oh!

xinyanghuang7 commented Oct 30, 2024

Uh oh!

jingyaogong commented Oct 30, 2024 •

edited

Loading

Uh oh!

xinyanghuang7 commented Oct 30, 2024

Uh oh!

jingyaogong left a comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

添加多图训练和推理过程 #19

添加多图训练和推理过程 #19

Uh oh!

Conversation

xinyanghuang7 commented Oct 29, 2024

Uh oh!

xinyanghuang7 commented Oct 30, 2024

Uh oh!

jingyaogong commented Oct 30, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

1.

2.

3.

4.

Uh oh!

xinyanghuang7 commented Oct 30, 2024

Uh oh!

jingyaogong left a comment

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

jingyaogong commented Oct 30, 2024 •

edited

Loading