当前位置: 首页 > news >正文

【舱驾】- 多模态基础知识01

洞察

智舱,智驾,发展到目前,叫的比较欢还属AI座舱,舱驾融合,多模态融合,端到端,VLA等。智驾VLA以及AI座舱的前提基础技术还属于多模态融合技术,AI智能座舱融合的是xMS、语音;智驾VLA多模态融合的是车端感知(雷达,影像,语音,Sensor等)。

命题

最基础的多模融合应该采用什么技术框架?如何做到数据同步,统一链路,统一接口?

解题

1. 采用MediaPipe架构,构建多模态感知-生成一体化

MediaPipe是一款专为各类平台上的高性能、实时感知流程打造的专用框架。

MediaPipe介绍:

MediaPipe Solutions 提供了一套库和工具,可帮助您在应用中快速应用人工智能 (AI) 和机器学习 (ML) 技术。您可以立即将这些解决方案插入到应用中,根据自己的需求进行自定义,并在多个开发平台上使用它们。MediaPipe Solutions 是 MediaPipe 开源项目的一部分,因此您可以进一步自定义解决方案代码,以满足您的应用需求。MediaPipe Solutions 套件包括以下内容:

可用的解决方案

MediaPipe 解决方案可在多个平台上使用。每种解决方案都包含一个或多个模型,您还可以为某些解决方案自定义模型。下表显示了每种受支持的平台可用的解决方案,以及是否可以使用 Model Maker 自定义模型:

解决方案AndroidWebPythoniOS自定义模型
LLM Inference API
对象检测
图片分类
图片分割
交互式分割
手部地标检测
手势识别
图片嵌入
人脸检测
人脸特征点检测
姿势地标检测
图片生成
文本分类
文本嵌入
语言检测器
音频分类

Google原文:https://ai.google.dev/edge/mediapipe/solutions/guide?hl=zh-cn&authuser=2https://ai.google.dev/edge/mediapipe/solutions/guide?hl=zh-cn&authuser=2

Github链接:https://github.com/google-ai-edge/mediapipehttps://github.com/google-ai-edge/mediapipe

第三方介绍:https://awesometop.cn/posts/596ae013c38842d2b27ad189d3ecc988https://awesometop.cn/posts/596ae013c38842d2b27ad189d3ecc988

2. 采用分离方案

影像,音频,文本采用独立的架构,基于系统原生基础框架。

比如:Android系统的Camera子系统,Audio子系统

3. 采用芯片原厂架构

比如NVIDIA, DRIVE OS中间件

4. 多模数据如何融合?

拿智驾为例:当前阶段以特征融合为主,基于融合方案,提高视觉、雷达等多源数据实时协同处理能力。

多模态特征融合引用链接:

https://blog.csdn.net/weixin_43840280/article/details/118070317https://blog.csdn.net/weixin_43840280/article/details/118070317

总结

http://www.cnnetsun.cn/news/90806.html

相关文章:

  • AI元人文构想:人机协作的“未来哪吒”架构
  • Qwen-Image:突破文本渲染与编辑的视觉生成模型
  • 四年累销600万,这就是“海洋速度”
  • Keras与TensorFlow-GPU配置避坑指南
  • Redis + ThinkPHP 实战学习手册(含秒杀场景)
  • 展锐平台:修复使用触控笔主动橡皮擦键功能时, InputDispatcher 发生了致命错误(F 级别),导致 system_server 进程崩溃并重启。
  • EmotiVoice:支持多情感的开源TTS引擎
  • LobeChat能否部署在Netlify?静态站点托管进阶用法
  • 倒计时 5 天!GOBI 2025 全球开源商业创新大会全日程发布,附参会指南!
  • Docker Offload优先级机制详解:90%工程师忽略的关键参数
  • 【Dify高性能视频处理指南】:精准帧率设置提升提取速度300%
  • 为什么你的Tesseract在Dify中处理慢?这5个批量优化关键点必须掌握
  • CDM(充电器件模型)导致芯片失效原因
  • IL-2:调控免疫稳态的“双面因子”
  • 【环境风险评估效能革命】:基于R语言的动态监测系统搭建实录
  • 揭秘Dify中PDF加密与权限验证机制:企业级数据防护必备技能
  • 酒精饮料市场:挑战中寻找机遇 eBest
  • 为什么顶尖数据团队都在用R Shiny做多模态报告?真相令人震惊
  • ChatTTS与GPT-SoVITS语音合成对比分析
  • MySQL Shell 使用方法
  • Docker多阶段构建与精简基础镜像(边缘Agent瘦身必看)
  • PPIO上线阿里Wan 2.6:制作电影级AI视频,对标Sora2
  • 【混合检索的Dify结果融合】:揭秘高效信息聚合背后的黑科技
  • 从零搭建高效音频流水线:Dify 1.7.0切片配置完整教程
  • 大数据ETL中的数据质量提升工具与方法
  • 筑巢引凤 - Ascend C开发环境极速部署与验证全攻略
  • 模型训练中的精度保障:Ascend C算子数值稳定性分析
  • 【金融风险对冲实战指南】:掌握R语言在投资组合风险管理中的7大核心技巧
  • 空间转录组批次校正实战指南(R语言完整代码+案例解析)
  • 计算机毕业设计附项目源码帮做/Java管理系统/springboot网站/深度学习/神经网络算法/yolo图像识别/从选题到部署,一篇搞定!