当前位置: 首页 > news >正文

学习周报二十七

摘要

本周深入研究了多模态文档解析的技术范式与轻量化模型创新。系统梳理了文档解析的三种主流架构:模块化的流水线式(Pipeline)、两阶段式(Layout+VLM)以及端到端式(VLM finetune),并重点分析了轻量级模型MinerU2.5的核心设计。该模型通过“全局布局分析、局部内容识别”的两阶段策略,结合基于Qwen2VL的统一视觉语言模型架构,在参数量仅1.2B的情况下,实现了识别精度与计算效率的有效平衡。

Abstract

This week delved into the technical paradigms of multimodal document parsing and innovations in lightweight models. The three mainstream architectures for document parsing were systematically reviewed: the modular pipeline approach, the two-stage approach (Layout+VLM), and the end-to-end approach (VLM finetune). Particular focus was given to the core design of the lightweight model MinerU2.5. By employing a two-stage strategy of “global layout analysis followed by local content recognition” and leveraging a unified vision-language model architecture based on Qwen2VL, it effectively balances recognition accuracy with computational efficiency despite having only 1.2B parameters.

1、多模态OCR

1.1 文档解析的多模态大模型多种模式

本周学习了解了文档解析的多模态大模型。pipline式、两阶段式和端到端,如下图所示。

pipline:

layout+VLM:

VLM finetune:

1.2 MinerU2.5

MinerU2.5 是专用于文档解析的轻量级(1.2B)视觉语言模型,其核心特点是通过两阶段解析策略平衡识别精度与计算效率:

阶段 I:全局布局(Layout)分析

阶段 II:局部内容识别

相比于上期的PaddleOCR-VL的两阶段,MinerU2.5在两阶段使用的模型都是同一个VLM,通过不同prompt引导目标检测任务、OCR任务。

模型结构上直接使用Qwen2VL的结构。


MinerU2.5 的框架,在第一阶段,MinerU2.5 对下采样后的页面执行快速的全局布局分析。在第二阶段,MinerU2.5 利用布局分析结果从原始高分辨率文档中裁剪出关键区域,并在这些原始分辨率的局部区域内进行细粒度的内容识别(例如,文本、表格和公式识别)。

语言解码器:LLM(Qwen2-Instruct-0.5B),M-RoPE 替换了原始的 1D-RoPE
视觉编码器:使用Qwen2-VL视觉编码器(NaViT-675M)进行初始化
patch merge:为了在效率和性能之间取得平衡,该架构在相邻的 2 × 2 视觉 token 上使用 pixel-unshuffe对聚合后的视觉 token 进行预处理,然后再将其输入大型语言模型。

总结

本周通过对比分析三种文档解析范式和剖析一个具体轻量模型,构建了对多模态OCR技术路线的清晰认知。在技术范式层面,理解了从早期模块化流水线(Pipeline)到引入大模型的两阶段(Layout+VLM),再到追求统一建模的端到端(VLM finetune)的演进逻辑,各自在灵活性、精度与复杂性上存在权衡。

http://www.cnnetsun.cn/news/173089.html

相关文章:

  • 揭秘Open-AutoGLM多手指同步机制:从延迟优化到事件分发的底层逻辑
  • Open-AutoGLM文本生成提速全攻略(内部优化模型首次公开)
  • 从零构建控件识别系统,基于Open-AutoGLM的自动化测试进阶之路
  • 【Open-AutoGLM多指协同操作解密】:揭秘智能自动化中手势交互的核心算法与实现路径
  • 【Open-AutoGLM控件识别核心技术】:揭秘高精度状态识别的5大实现策略
  • Excalidraw支持网络拓扑自动发现
  • 【Open-AutoGLM高效运维必修课】:从入门到精通的5个核心步骤
  • 掌握这4个技巧,轻松实现Open-AutoGLM无缝版本切换
  • Python数据结构(上):字符串、列表、元组
  • Excalidraw图形权限细粒度控制
  • Excalidraw图形导出为React组件
  • HLS用于应用加速
  • 从入门到精通:Open-AutoGLM账号权限管理的8个必知功能模块
  • 我要搞个ai程序操控鼠标,截取屏幕,识别刀路,给ai一个刀路寻找规则的prompt,然后ai自己去按规则顺序点亮刀路
  • JavaScript 数据类型详解:分类、种类、判断方法及深浅差异
  • Excalidraw与Notion集成实践:构建智能笔记系统
  • 永磁同步电机多物理场仿真案例:电磁、谐响应与噪声分析,适合学习
  • gcc-c++-7.3.0 rpm安装方法 Linux麒麟KY10完整步骤
  • Open-AutoGLM迁移学习冷启动难题破解,快速落地NLP任务的密钥方法
  • 开发者福音:Excalidraw支持代码模式直接导出图形
  • 构建以质量为核心的软件开发文化生态
  • 提升生产力:Excalidraw + AI 自动生成系统架构图
  • Open-AutoGLM微调加速实战(稀缺技术文档首次公开)
  • Open-AutoGLM部署性能提升80%的秘密:跨平台适配中的3个致命误区与解决方案
  • Open-AutoGLM本地化部署实战(局域网离线运行全方案)
  • django基于Python的电影票房爬取与可视化系统的设计与实现vue
  • 计算机毕设Java基于智能推荐的车辆交易管理系统 Java技术实现的智能推荐车辆交易管理平台设计 基于Java的车辆交易管理系统与智能推荐功能的融合开发
  • Open-AutoGLM迁移学习应用瓶颈突破(专家级调优策略全公开)
  • 【Open-AutoGLM局域网部署终极指南】:手把手教你从零搭建高效私有化AI推理环境
  • 健身达人微信小程序的设计与实现毕设源码(源码+lw+部署文档+讲解等)