当前位置: 首页 > news >正文

Biomed-Enriched:具有 LLM 注释的大型生物医学数据集,具有临床和教育价值

概述

本研究以 PubMed Central Open Access(PMC-OA)语料库为基础,提出了一个新的生物医学数据集 Biomed-Enriched,该数据集采用了基于 LLM 的分阶段注释。

虽然 LLM 在各种任务中普遍表现出很高的性能,但在医学和生物医学领域却缺乏专业性和术语准确性。
造成这种情况的原因之一是,训练数据主要来自网络,而专业领域的信息很少。特别是,由于隐私限制,临床数据很难公布,非英语数据也很少。

在本研究中,在 PMC-OA 中的约 1.3 亿个段落中,有 40 万个段落首先使用 Llama-3.1-70B-Instruct 进行了注释,然后将标签提炼成 XLM-RoBERTa-base 并应用于整个语料库。
这样,通过为每个段落分配类型(研究、临床案例、评论等)、领域(临床、生物医学、其他)和教育价值(1-5),就能提取高质量的临床案例和多语言片段。

实验表明,对临床句子进行上采样并根据教育价值进行筛选可提高医学质量保证的性能和学习效率。

建议的方法

拟议的方法 "Biomed-Enriched "具有逐段精确注释和数据过滤的特点。

在数据收集阶段,从 PMC-OA 中提取了约 450 万篇全文文章,删除了非文本元素,还剔除了少于 64 个标记的短句。

然后分两个阶段进行注释。

在第一阶段,使用 Llama-3.1-70B-Instruct 为随机选取的 400 000 个段落分配文本类型(临床病例、研究、综述或其他)、领域分类(临床、生物医学或其他)、教育价值(1-5 分)和语言。

第二步,将得到的注释提炼成 XLM-RoBERTa-base,并对所有段落进行有效分类。根据注释结果,BE-Educational(只保留教育值为 3 或更高的段落)、BE-Clinical(将临床领域的采样率提高 10 倍)、BE-ClinicalCase(增强临床案例)、BE-French(纠正多语言平衡)等。我们还构建了多个数据集衍生物。

我们还创建了 “BE-Prefix”,在段落开头提供注释元数据,并设计了将元信息与上下文关联起来的模型。

实验

在评估实验中,我们使用 OLMo2-7B-stage 1 作为基础模型,并在每个 Biomed-Enriched 派生数据集上训练了 3360 亿个额外标记。

结果与 BE-Base(未经处理的 PMC-OA)以及各种过滤和上采样版本进行了比较。
使用的评估指标包括 MMLU 医疗子集、MedQA、MedMCQA 和 PubMedQA,以及衡量法语适应性的 FrenchMedMCQA,并以零或五次拍摄来衡量性能。

结果显示,采用组合策略的 BE-All 表现最佳,平均得分率为 61.08%,比 BE-Base 提高了 0.67 分。其中,临床向上取样在 MMLU 专业医学中提高了 +4.04 分,教育价值筛选在 MedMCQA 和 PubMedQA 中有稳定的提高。

此外,BE-All 只用了 BE-Base 约三分之一的训练词块就达到了与之相当的性能,这证明了其较高的数据效率。
此外,BE-French 在使用 FrenchMedMCQA 时取得了显著的性能提升,证明了多语言支持的有效性。

http://www.cnnetsun.cn/news/85501.html

相关文章:

  • Linux系统下TensorFlow-GPU环境搭建全指南
  • Jupyter Notebook与cpolar的深度协作——解锁远程开发新体验
  • SMDJ48A单向 TVS瞬态抑制二极管:48V单向瞬态防护核心
  • 基于springboot乡镇医院挂号预约系统
  • PHP大数据处理与人工智能集成实战:构建高并发智能系统-1
  • 4.3POSIXskin的不兼容性
  • 40、Perl与操作系统:Windows环境下的应用与操作
  • 盘点!国内几款特色AI大模型
  • 44、Perl引用的使用与深入探究
  • GPT-SoVITS语音合成与音色克隆实战指南
  • GPT-OSS-20B与Qwen3-14B九维全面对比
  • Docker与本地配置PaddleOCR实战指南
  • 从入门到精通:Agent任务分解终极指南,一篇彻底讲透技术栈与实战!
  • AutoGPT入门指南:安装、使用与案例全解析
  • 27、文本编辑器的复杂性与设计权衡
  • 基于java + vue校园快递物流管理系统(源码+数据库+文档)
  • AI时代工作模式革命:揭秘’人+智能体+机器人’新范式,重构未来职业与教育方向!
  • TOB企业获客软件选型指南:技术架构、核心能力与可信赖度深度剖析
  • 突破Seed-Coder-8B上下文限制的三大策略
  • Gfast 快速开发框架 V3.3.10 版发布
  • 稀土网络指标(2018-2024)
  • vue基于Spring Boot框架自然灾害应急救援捐赠平台_jwwh8v3n
  • 基于springboot和vue的陶瓷销售商城平台的设计与实现_87274i2a(java毕业设计项目源码)
  • 基于springboot和vue的高校晒衣服交流系统 物品收纳空间管理系统_76216q80(java毕业设计项目源码)
  • 巴菲特的投资方法与成功要素
  • 零基础学朴素贝叶斯:从数学原理到Python实现
  • 电商网站解决MIME类型警告的完整方案
  • AI一键搞定SQL Server安装:快马智能配置助手
  • 零基础学会用WebUI构建第一个网页应用
  • 1小时搞定!用WinStep.NTE快速验证Windows应用创意