当前位置: 首页 > news >正文

面向AI的新文件格式Lance挑战传统Parquet

Lance在文件格式竞赛中瞄准Parquet

一款旨在解决广泛使用的Parquet格式局限性的新兴文件格式,正在接受一个开源基金会的采用审查。

Lance的构建基于这样一种理念:Parquet(在多个中心的数据湖中广泛使用)在处理机器学习和AI时已显陈旧,而一种额外的、互补的格式更能满足这些需求。该格式的背后是She,他是用于数据操作和分析的pandas软件库的原始贡献者之一,现在是LanceDB的首席执行官兼联合创始人,该公司支持并开发该格式。

She表示,转折点出现在AI和机器学习开始比传统分析驱动更多数据使用的时候。如今每个人都能利用来自某机构或另一机构的模型,真正的优势在于这些系统能以多快的速度获取数据。

然而,为机器学习推理访问数据所面临的挑战与将其用于分析时不同。“速度要快得多,因为现在很多数据是由模型生成的,每秒有数百个标记的自动数据生成。然后是多样性:现在不再仅仅是数字和时间戳,而是有长文本提示、图像、声波以及(向量)嵌入本身,” She说。

他认为现有的文件格式并非为满足这些需求而设计。She指出:“Parquet非常不适合存储较大的数据类型。如果你有多模态数据,从长文本到嵌入,再到图像和视频,Parquet对这种新型数据完全没有优化。这是因为它的行组以及数据布局的方式。当你尝试写入大规模数据时,会耗尽内存。”

AI还引入了许多新的工作负载,例如向量搜索和检索。She说,Parquet“对于搜索和检索非常糟糕”,因为它需要随机访问,而不像分析那样“读取连续的数据范围”。Lance文件格式2.1版于三月宣布,LanceDB本月早些时候表示其现已稳定。

其作者认为,Lance格式更好地适应了为机器学习和AI存储数据的挑战,因为它包含了文件格式、表格式和二级索引。“数据的布局方式不同,访问模式也发生了变化,因此我们保证了比Parquet更快的扫描速度,同时也保证了真正快速的随机访问,” She说。

Lance于2022年8月开源,该公司正在将其捐赠给一个基金会,预计年底前会发布公告。

Parquet也有自己的表格式合作伙伴。Apache Iceberg、Delta Lake(一个某机构项目)和Apache Hudi都用于将分析引擎带到数据所在处,而无需移动数据。近期有一些举措旨在拉近Iceberg和Delta的距离。

She认为,Lance并非要取代这些格式,而是与它们协同工作。“我们的座右铭是‘Lance用于AI,Iceberg用于BI’。对于分析工作负载,我们仍期望其存储在Iceberg中,但对于AI密集型的使用案例和数据集:搜索、训练和AI推理,我们期望使用Lance,” She说。

不过,正如数据操作平台供应商Coginiti的首席技术官Matthew Mullins所指出的,像Iceberg和Parquet这样的项目拥有发展势头的优势。“Parquet和Iceberg拥有现有地位和广泛支持的优势。Apache Iceberg在经历了十年开发后,真正崛起大约只有两年时间。一个关键因素是某机构和另一机构都全力投入Iceberg,现在每个供应商都支持Apache Iceberg,并且它被列入了每个企业的路线图。LanceDB将有一条漫长的道路,或许会因AI而加速,但它需要更多的社区支持才能成功。”

Iceberg也曾处于起步阶段,直到获得了包括某机构在内的供应商的支持,某机构已将这种表格式整合到其某存储桶中,并在包括某公司和另一公司在内的用户中广泛采用。Lance需要等待,看看它的论点是否能够以同样的方式引起共鸣。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.cnnetsun.cn/news/144205.html

相关文章:

  • FaceFusion能否实现情绪迁移?快乐、悲伤表情自动切换
  • 5分钟搞定:用YOLOv9打造智能家居行为感知系统
  • GODEL:微软开源的目标导向对话AI终极指南
  • 14、Python文件与进程操作全解析
  • 22、Python 在 Windows 上的线程编程全解析
  • Piper开发调试全攻略:告别繁琐安装,拥抱高效迭代
  • 33、服务性能优化技术全解析
  • Vuls并发处理优化:Goroutine调度与并行扫描技术解析
  • 如何用TensorFlow模型库实现零代码AI应用?
  • 终极指南:用Keil Assistant在VS Code中高效开发ARM项目
  • Qwen2-VL-2B-Instruct:如何用20亿参数重新定义多模态AI边界?
  • 破局之道:软件测试流程创新的五大战略支点
  • FaceFusion在互动电影中的角色切换创新玩法
  • 计算机毕设Java基于Java大学生考研服务系统 基于Java的大学生考研服务平台设计与实现 Java技术驱动的大学生考研服务系统开发
  • 视频实时防抖阶段总结-20251218
  • Keploy Serverless测试实践:突破无服务器架构的测试瓶颈
  • 终极快速上手:免费体验uni-app跨平台开发完整教程
  • 全面解析Mender:构建可靠的嵌入式Linux OTA更新方案
  • 彻底告别Reor快捷键冲突:让AI笔记操作得心应手
  • 终极指南:如何用openapi-typescript实现API类型安全
  • FaceFusion能否用于宠物拟人化?猫狗脸部动画生成
  • Sublime Text Markdown Preview插件:5个高效写作技巧让你的文档更专业
  • M3-Agent-Control:重新定义多智能体协作的技术革命
  • 19、数据驱动工作流与 WF RuleSet 实战指南
  • 27、高级托管与Web服务及ASP.NET托管全解析
  • 孤能子视角:人工智能的“安全对齐“与“共享学习“
  • 31、自定义活动开发全解析:从基础到高级应用
  • Libreddit个性化配置终极指南:打造专属Reddit浏览体验
  • 毕业设计项目 yolov8叶片病害检测系统(源码+论文)
  • LiveMCPBench:在大型工具环境中评估 LLM 代理的新基准