MiniCPM
MiniCPM-o-2.6是OpenBMB(面壁智能)团队最近开源的多模态大语言模型。以MiniCPM-o-2.6作为基座多模态大模型,通过指令微调的方式实现特定场景下的OCR,是学习多模态LLM微调的入门任务。
本文我们将简要介绍基于 transformers、peft 等框架,使用 MiniCPM-O-2.6 模型在LaTeX_OCR 上进行Lora微调训练,同时使用 SwanLab 监控训练过程与评估模型效果。
- 训练过程:ZeyiLin/minicpm-o-2-6-latexcor
- 代码:Github
- 数据集:LaTeX_OCR
- 模型:MiniCPM-o-2.6
- 在线LaTex公式预览网站:latexlive
- 显存占用:约25GB,建议租A100(40GB显存)进行微调
目录
- 知识点:视觉大模型微调的场景与用法
- SwanLab简介
- 环境配置
- 准备数据集
- 模型下载与加载
- 集成SwanLab
- 开始微调(完整代码)
- 训练结果演示
- 推理LoRA微调后的模型
- 补充
发布评论