当前位置: 首页 > news >正文

ChartCap:利用大型数据集和新的评估指标抑制图表标题幻觉

概述

该研究旨在确保整合视觉和语言的模型能够生成 “准确且信息丰富的图表说明(标题)”。
现有的图表标题数据集面临两大挑战。

首先,从论文和报告中提取的标题包含无法从图表图像中读取的无关信息。
其次,标题不能充分体现重要的见解,如坐标轴、图例和其他结构、最大值和趋势。

这些问题在模型中造成了 “幻觉”(halucinations),导致了错误的表述。
因此,作者构建了一个新的数据集–ChartCap,该数据集包含 56 万多张真实世界的图表,这些图表具有高质量的标题,对结构元素和重要见解没有过多或过少的表述,也没有无关信息。

我们还提出了一种新的衡量标准–视觉一致性得分,它可以根据生成的标题复制图表,并通过与原始图像进行比较来对其进行评估。
这样就能客观地衡量模型忠实、准确地描述实际图表的能力。

建议的方法

作者设计了一个四阶段自动生成管道来构建 ChartCap 数据集。

首先,只从数百万张图片中提取数据驱动的图表,不包括图表以外的图表(如概念图和示意图)。

然后,使用 GPT-4o 和其他工具识别图表类型和标题。

然后,根据为每种图表类型定义的模式,提取图例、坐标轴、极值和趋势等结构元素和见解。

在这一过程中,GPT-4o 和 Claude 3.5 Sonnet 分工合作,前者负责粗略的趋势识别,后者负责需要数字精确度的处理。

提取结果被编译成半结构化格式,最后转换成自然语言说明。

为了进一步保证质量,还引入了基于周期一致性的验证,即 “根据标题生成 Python 代码,并将重建的图表与原始图像进行比较”,而不是由人工直接检查所有内容。

这不仅简化了人工视觉检查,还能以低成本构建兼具准确性和全面性的大型数据集。

实验

实验将在 ChartCap 上训练的模型与现有的开源模型和商业模型进行了比较。

除了传统的 BLEU 和 ROUGE 外,还使用了建议的视觉一致性得分(VCS)和 OCRScore 作为评估指标。

结果显示,与传统模型相比,使用 ChartCap 微调的模型生成的字幕更准确、更翔实、更不虚假。

其中,Phi3.5-Vision-4B 和 InternVL2.5-8B 等开源模型在使用 ChartCap 进行微调后,甚至超过了商业 Claude 3.5 Sonnet。

它们还在 VisText 和 Chart-to-Text 等其他人工验证数据集上实现了零误差的高准确率,证明了它们的泛化能力。
此外,对人类评分的比较表明,在许多情况下,使用 ChartCap 训练的模型的输出结果比现有的人类撰写的标题更受欢迎。

这表明,ChartCap 比传统数据集更有效,可以为理解和解释真实世界的图表做出重大贡献。

http://www.cnnetsun.cn/news/143861.html

相关文章:

  • Lsyncd排除路径配置终极指南:避开常见陷阱
  • 为什么中国的量化基金不去“收割”美股?揭秘A股成为“量化天堂”的四大惊人原因
  • 告别“从零开始”,百考通源码图纸库,你的项目开发加速器!
  • 构建电商智能决策支持平台
  • Bazel插件生态:3步解决多语言项目构建难题
  • 高端成果与需求端断层如何破局?区域科技创新体系可借助知识产权智能运营平台实现闭环的体系化竞争壁垒。
  • 技术转移机构如何借助生成式AI赋能工具重塑差异化服务优势?
  • 57、SQL 网络与分布式数据库全解析
  • MeshLabelImageColor 读取医学标签图像数据(MetaImage 格式)
  • 61、SQL 中的抽象数据类型与继承机制
  • 69、SQL 的现状与未来:专业数据库与市场趋势洞察
  • 68、专业数据库:低延迟、内存与流处理的应用与发展
  • eRPC数据中心网络高效RPC终极配置指南
  • 零基础玩转Moondream2:智能看图说话神器快速上手指南
  • Hasklig编程字体:用连字技术彻底改变你的代码阅读体验
  • 深度解析 Redisson:不仅仅是 Redis 客户端,更是分布式协作利器
  • Kubernetes可视化管理新体验:告别命令行,拥抱kubeasz Dashboard
  • 实战指南:构建基于Google API的自动化SEO监控系统
  • Recon-ng数据导出终极指南:5分钟掌握情报呈现技巧
  • PostHog容器化部署终极方案:从业务价值到技术实现的高效配置指南
  • Rust Web开发完整教程:realworld-axum-sqlx实战指南
  • Tuya-Local终极指南:如何快速配置本地涂鸦设备实现全屋智能控制
  • 基于SpringBoot的高校科研工作管理系统(源码+lw+部署文档+讲解等)
  • 基于springboot + vue电影院购票管理系统
  • Hasklig字体:为什么它能让你的代码阅读体验提升300%?
  • Neovim LSP配置终极指南:快速搭建现代化开发环境
  • IT-Tools终极指南:Vue 3 + TypeScript打造开发者效率神器
  • Weylus 终极指南:3步将平板变身手绘板
  • WeasyPrint终极指南:从HTML到PDF的完整解决方案
  • 基于java + vue校园外卖系统(源码+数据库+文档)