当前位置: 首页 > news >正文

多模态模型CLIP详解

论文:Learning Transferable Visual Models From Natural Language Supervision


CLIP的全称是Contrastive Language-Image Pre-training(对比语言-图像预训练)。它是由OpenAI在 2021 年提出的一个多模态人工智能模型。其核心思想是通过学习大量图像及其对应文本描述之间的关系,来理解和连接视觉(图像)与语言(文本)这两个不同的模态。该模型直接使用大量的互联网数据进行预训练,在很多任务表现上达到了SOTA 。

1. CLIP模型概述

传统的监督模型会存在以下的这些缺点:

  • 模型需要用到大量的标注数据,这些标注数据获取通常成本高昂

  • 模型在当前数据集的效果比较好,但对于其他类似的数据集效果并不是很好,即泛化能力较差

  • 传统的图像分类模型无法进行类别拓展,想要保证准确率只能从头开始训练

分类模型是预测图像是否属于某个类别,CLIP采用了完全不同的分类方法:通过对比学习来学习图像与其注释之间的关联。

CLIP 的做法是使用从互联网上抓取的带字幕的图像来创建一个模型,该模型可以预测文本是否与图像匹配。如下图所示:

本质上,CLIP模型通过编码器将图像和文本映射到同一个Embedding空间中,使得匹配的图和文Embedding彼此靠近,而不匹配的图和文Embedding彼此相距较远。这种学习预测事物是否属于同一类或不属于同一类的策略通常被称为“对比学习” (contrastive Learning)

2. 模型训练和使用

如图(1)所示,模型训练

  • 输入图片->图像编码器(vision transformer)->图片特征向量
  • 输入文字->文本编码器(text )->文本特征向量
  • 对两个特征进行线性投射,得到相同维度的特征,并进行L2归一化
  • 通过余弦相似度计算两个特征向量的相似度
  • 计算图像预测文本的损失和文本预测图像的损失,最终取平均作为总损失

如图 (2)、(3) 所示,模型推理

  • 给出一些文本提示词,同时要保证正确
  • 计算每一个文本提示词图片特征相似度
  • 相似度最高的即为正确答案

CLIP训练的伪代码如下图所示:

步骤如下:

  • 提取图像、文本特征
  • 将图像、文本特征与投影矩阵相乘,并进行L2归一化,映射到共享嵌入空间
  • 计算图像和文本之间的缩放余弦相似度
  • 在列方向(axis=0)以及行方向(axis=1)计算交叉熵损失并求平均

3. 应用场景

这里给出一些应用场景,例如

1. 文搜图/图搜文

  • 实现方式:将文本/图像编码为CLIP嵌入向量,通过余弦相似度计算匹配度
  • 应用案例
    • 电商平台:输入“北欧风格沙发”自动展示相关商品图
    • 医疗影像库:用自然语言描述(如“肺部结节CT影像”)检索匹配病例

2. 视觉问答(VQA)

  • 系统架构:CLIP提取图像和问题特征,结合语言模型(如GPT-4)生成答案
  • 示例:输入“图中人物在做什么?”,CLIP匹配图像动作与文本描述生成回答。
http://www.cnnetsun.cn/news/111115.html

相关文章:

  • 5步构建AI永久记忆系统:告别重复对话的智能助手
  • 终极文件预览神器:Peek如何让Windows文件查看体验焕然一新
  • 【Azure CLI量子作业提交日志全解析】:掌握高效调试与监控的5大核心技巧
  • 为什么90%的量子开发者都忽略代码导航配置?一文看懂Q#与Python联动机制
  • 数据驱动,智能化决策-安科瑞能碳管理平台助企业绿色转型
  • NetBox拓扑视图插件终极指南:5分钟构建专业级网络可视化方案
  • 九尾狐AI获客系统架构解析:如何用伪代码实现单场培训1000单转化?
  • 直流微电网仿真手记:从光伏到异步电机的全链路踩坑实录
  • 如何快速掌握Awesomplete:新手必备的完整指南
  • 学习笔记:循环神经网络(RNN)
  • Q#调用Python变量总是失败?90%开发者忽略的2个关键细节
  • ImageOptim跨平台图像优化:macOS全版本兼容实战指南
  • 方达炬〖宣介写书计划〗:《在利润端尊严生活》《在成本端计划生活》
  • 配置丢失不再怕,VSCode量子开发环境备份实战经验分享
  • 深度解密:大模型DPO训练中隐藏的置信度衰减效应与优化策略
  • ConvertX性能优化终极指南:5个快速提升文件转换速度的秘诀
  • 2026直播运营新玩法:购买直播源码+直播系统搭建完成,这样推广实现快速盈利
  • FanControl步进速率深度优化终极指南
  • 终极指南:用lidR快速掌握激光雷达林业分析的10个技巧
  • 【量子计算开发进阶】:为什么顶尖团队都在用VSCode自动生成Q#文档?
  • 技术职业突破的3大实战路径:从执行者到价值创造者的加速转型
  • 【CentOS7】CentOS 7 编译安装 Python 3.11.9
  • 揭秘MS-720 Teams Agent消息机制:5大关键配置让你避开90%的部署陷阱
  • 仅限本周公开:微软资深工程师亲授AZ-500云Agent访问控制秘技(内部培训资料流出)
  • Mac触控条革命:5个必学的BetterTouchTool预设配置技巧
  • 如何在30分钟内完成Docker与Vercel AI SDK的API对接?高效集成秘诀公开
  • 20、设计帧缓冲接口:从基础程序到图形库应用
  • macOS iSCSI启动器完全指南:从安装到实战应用
  • LiteIDE终极指南:2025年Go开发者的免费完整解决方案
  • Docker部署智能Agent常见坑点,99%新手都会忽略的3个关键细节