MiniCPM

MiniCPM-o-2.6是OpenBMB(面壁智能)团队最近开源的多模态大语言模型。以MiniCPM-o-2.6作为基座多模态大模型,通过指令微调的方式实现特定场景下的OCR,是学习多模态LLM微调的入门任务。

04-1

本文我们将简要介绍基于 transformers、peft 等框架,使用 MiniCPM-O-2.6 模型在LaTeX_OCR 上进行Lora微调训练,同时使用 SwanLab 监控训练过程与评估模型效果。

  • 训练过程:ZeyiLin/minicpm-o-2-6-latexcor
  • 代码:Github​
  • 数据集:LaTeX_OCR
  • 模型:MiniCPM-o-2.6
  • 在线LaTex公式预览网站:latexlive
  • 显存占用:约25GB,建议租A100(40GB显存)进行微调

目录

  • 知识点:视觉大模型微调的场景与用法
  • SwanLab简介
  • 环境配置
  • 准备数据集
  • 模型下载与加载
  • 集成SwanLab
  • 开始微调(完整代码)
  • 训练结果演示
  • 推理LoRA微调后的模型
  • 补充