当前位置: 首页 > news >正文

双重机器学习与公卫研究,这种因果推断新范式论文你见过吗?

源自风暴统计网:一键统计分析与绘图的网站

浙江大学医学院公共卫生学院宋培歌研究员团队在《Child Abuse & Neglect》发表了一项因果推断研究论文。研究思路如下:

  • 采用双重机器学习,量化了不良童年经历(ACE)对流产、抑郁、焦虑及共病(同时发生焦虑和抑郁)的潜在因果效应。

  • 为了检验治疗效果的异质性,进行了亚组和异质性分析。

  • 使用因果森林方法估计条件平均治疗效应(CATE),以捕获ACE效应的个体水平变化。

  • 进行了因果中介分析以评估妊娠流产的中介作用。

用双重机器学习+因果森林+因果中介分析开展公卫研究,值得一学,我们详细解读一下!

双重机器学习开展因果推断

研究旨在探讨不良童年经历对流产、抑郁、焦虑和共病的潜在因果关系,并评估妊娠流产的中介作用。

为了估计与ACE对妊娠流产数量和心理健康结果的因果解释一致的影响,研究者采用了Chernozhukov等人(Chernozhukov等人,2018)提出的双重机器学习(DML)框架。该分析使用R软件包“DoubleML”(Bach等人,2024)进行。

双重机器学习DML

DML是一种因果推断方法,但并非一个单一的算法,而是一个理论框架。

其核心思想是:利用机器学习模型来估计并剔除“滋扰参数”(Nuisance Parameters)的影响,从而使对目标因果参数的估计对滋扰模型的估计误差不敏感。

它将机器学习算法与奈曼正交化(Neyman Orthogonality)和交叉拟合相结合,以减少估计偏差并提高在处理复杂和潜在非线性混淆结构时的稳健性。

通俗来讲,DML可以通过正交化和交叉拟合技术,利用任意机器学习模型来处理高维混杂变量,从而获得稳健的因果效应估计。

研究的主要参数是平均治疗效果(ATE),它量化了ACE对流产、抑郁、焦虑及其合并症的潜在因果影响。

另外,研究者实施了一个五折交叉拟合程序,以确保正交性和最小化过拟合。对包括Lasso、随机森林和XGBoost在内的机器学习算法进行了评估,用于评估滋扰函数,并选择了性能最佳的模型进行主要分析。

结果显示,随机森林模型始终表现出优越的预测性能,通常产生最高的AUC和最低的MSE。因此,我们选择使用随机森林算法从DML框架导出的结果作为我们的主要发现。

每个模型在所有处理变量和结局变量上的out-of-sample AUC和MSE

ACE暴露显著增加流产,以及抑郁、焦虑和共病的概率。

使用随机森林算法从DML中得出的ACE对流产、抑郁、焦虑以及共病的估计ATE

另外,为了评估估计的因果效应的稳健性,将原始随机森林模型的ATEs与使用Lasso和XGBoost算法获得的ATEs进行了比较。

结果显示,ACE与所有四种结果之间关联的方向、幅度和显著性在三种机器学习模型中基本一致。这种跨算法发现的趋同强化了主要结果的稳健性。

比较三种机器学习算法(Random Forest、Lasso、XGBoost)ATE 估计值

处理效应异质性分析

为了检验处理效应的异质性(HTE),研究者按年龄和教育程度进行了亚组分析。

此外,使用因果森林方法估计条件平均治疗效应(CATE),以捕获ACE效应的个体水平变化(Wager & Athey, 2018)。

关于处理效应异质性(HTE)和条件平均治疗效应(CATE)的概念,我们曾写过推文介绍,感兴趣的朋友可以看看。

现在,是该了解 "处理效应异质性"(HTE)的概念与方法的时候了

Out了! 临床研究亚组分析,现在有两个新的概念:HTE、CATE

顶刊论文的亚组分析森林图如何绘制?| 处理效应异质性(HTE)分析方法

异质性分析显示:

  • 对于流产,受教育程度较低的女性的相关性更强。例如,暴露于任何ACE显著增加初等教育组的流产数量,而高学历组的影响较弱且不显著。

  • 对流产次数的影响也集中在45岁以上的女性中,而在≤45岁的女性中无统计学意义。

  • 就心理健康结果而言,受过初等教育的妇女的影响始终更大。

  • 然而,与流产不同的是,对年轻妇女(≤45岁)心理健康的不利影响更为明显。

热力图展示了基于随机森林的双重机器学习模型中,按年龄和教育水平定义的亚组估计的 ATE

因果森林模型证实了所有结果存在显著的个体水平异质性。

在参与者中,有很大比例的流产CATEs呈阳性,这表明对有意义的个体子集而言,风险直接增加。在心理健康方面,CATEs也有很大差异,突出了个体对ACEs的不同易感性。

这些异质性模式在ACE评分和所有ACE亚型中是一致的。

任何不良童年经历对流产次数和心理健康结果影响的个体水平异质性

因果中介分析

为了评估妊娠流产是否在ACEs与心理健康结果之间起中介作用,采用“ mediation ” R包进行因果中介分析(Tingley et al., 2014)。估计了直接和间接效应,以及通过妊娠流产介导的总效应的比例。

研究发现,妊娠流产数与抑郁、焦虑以及共病显著相关,随机森林、Lasso和XGBoost模型的ATE估计值一致。

基于这些结果,以流产次数为中介,对每个结局进行因果中介分析。

在所有结果中,间接中介效应具有统计学意义,但幅度较小。

具体而言,流产的数量只占整个ACE-心理健康关联的一小部分:抑郁为2.37%,抑郁和焦虑共病为2.43%,焦虑占比最大4.96%,但仍然有限。

本研究的一个显著优势在于它使用了先进的因果推理技术,特别是DML框架,来估计ace对流产和心理健康结果的治疗效果。该方法针对高维混杂因素进行灵活调整,从而能够对因果效应进行更稳健的估计,从而细致地了解将早年逆境与日后健康结局联系起来的路径。

因果推断方法现在已然成熟,在越来越卷的科研时代,因果推断可能是破局之道,也是未来的大势所趋,诸位得抓紧学起来了!


最后,在文末给郑老师我们团队打个广告吧,大家不要见怪哈!

欢迎参加郑老师主持的因果推断训练营

http://www.cnnetsun.cn/news/81156.html

相关文章:

  • 关于 windows 批处理文件 echo 中文后显示乱码的问题
  • 基于springboot的旅游线路定制微信小程序_u13nyaer_sf062
  • 让动态代理真正落地:在 Java 与 ABAP 里生成并持久化 Proxy 类的工程化实践
  • 用 SWE2 监听 SAP BOR 事件:以 BUS1178 产品创建为例,实时触发邮件通知与调试技巧
  • CentOS Stream 9入门学习教程,从入门到精通,Linux日志分析工具及应用 —语法详解与实战案例(17)
  • Lazy Loading、 Singleton 与 Bridge:在 JavaScript 和 ABAP 里把对象初始化写得更省、更稳、更易扩展
  • 用 ABAP 模拟 Currying:把参数绑定这件事做到极致
  • 错过这8个R语言函数,你就等于放弃了环境数据的准确性
  • CIKM‘25 | 联盟营销场景下,基于时空动态网络的两阶段传播规模预测
  • 音频格式完全指南:如何为不同场景选择最佳格式
  • DataEase 终极部署指南:从零到一的完整教程
  • 智能开发环境下的 Diagram-as-Code 实践:MCP Mermaid 技术链路拆解
  • 为什么你的多因素分析总被退稿?R语言正确姿势一次性讲清楚
  • Dio HTTP库终极指南:Flutter网络请求完整解决方案
  • 颠覆传统:新一代Vue3文档编辑器的商业价值解析
  • Habitat-Sim轻松上手:告别安装烦恼的完整指南
  • AI在企业人力资源中的应用白皮书2.0
  • DuckDB实战手册:嵌入式OLAP数据库的极速数据处理
  • RomM游戏库管理器的API密钥配置与安全实践指南
  • 实战指南:用Actix Web打造高性能微服务架构
  • 应用瘦身引擎实现容器智能分发:3分钟完成镜像压缩与动态路由
  • FLUX.1 Kontext Dev完整教程:本地部署AI图像编辑的终极方案
  • Flutter 与开源鸿蒙(OpenHarmony)的融合:跨平台开发新纪元
  • 终极指南:如何搭建个人专属音乐流媒体服务器
  • 探索Pts物理引擎:从基础粒子到复杂碰撞的艺术之旅
  • Excel插件教程:《成绩统计排名》和《SchoolTools》
  • DSU加载器深度体验:零门槛玩转安卓多系统的秘密武器
  • 3个关键步骤快速获取Obsidian专业资源:从新手到专家的完整指南
  • 3步搞定复杂量子系统的纠缠度计算:R语言高效实现路径曝光
  • 5分钟上手智能桌面助手:字节跳动UI-TARS开源项目实战指南