当前位置: 首页 > news >正文

高效读取 100 万行 Excel 大文件数据

我先尝试了市面上常见的几套方案:

方法描述性能结果结论
pandas方便但会一次性加载大内存20–40 秒太慢
openpyxl原生解析 xlsx60 秒以上最慢
pyxlsb解析 xlsb 二进制~3min30s可用但不够
CSV(Excel 转 UTF-8)纯文本读取9 秒内最快方案,无可争议

👉 大量资料与 GPT 的技术建议都指向:CSV 是读取速度最快的格式(文本解析远快于 XML / PKG 结构)

但第一次用 CSV 时却发现速度不够快,排查后发现:

❌ 用代码转换 xlsx → csv,非常慢

✅ 用原生 Excel 手动转换为 CSV UTF-8,性能最高 (WPS 转的 CSV 不是 UTF-8,会导致解析异常,不推荐)

最终测试:CSV UTF-8 格式 → 读取 80 万行,仅需 8–9 秒

性能提升超过20 倍


方案一(对比用):XLSB 版本(3.5 分钟)

from pyxlsb import open_workbook def read_xlsb_to_3d_list(file_path, sheet_name, chunk_size=10000): result = [] current_chunk = [] row_count = 0 with open_workbook(file_path) as wb: with wb.get_sheet(sheet_name) as sheet: for i, row in enumerate(sheet.rows(), start=1): if i == 1: continue row_data = [cell.v for cell in row] current_chunk.append(row_data) row_count += 1 if row_count % chunk_size == 0: result.append(current_chunk) current_chunk = [] if current_chunk: result.append(current_chunk) return result

优点:能直接读取 xlsb缺点:速度慢,不适合百万级数据


最终推荐方案:CSV 超高速版本(9 秒内)

性能最佳的做法流程

  1. 用 Excel 手动把.xlsx转为.csv (UTF-8)

  2. 使用下面的纯 Python CSV 流式读取代码

高性能 CSV 方案代码

import csv def read_csv_as_3d_list(csv_path, batch_size=10000, encoding="utf-8"): all_data = [] batches = [] current_batch = [] with open(csv_path, "r", encoding=encoding, newline="") as f: reader = csv.reader(f) next(reader, None) # 跳过表头 for row in reader: all_data.append(row) current_batch.append(row) if len(current_batch) >= batch_size: batches.append(current_batch) current_batch = [] if current_batch: batches.append(current_batch) return [all_data, batches]

实测结果(80 万行)

  • ⏱ 耗时:8–10 秒

  • ✔ 内存占用稳定

  • ✔ 三维结构满足 RPA 使用场景

  • ✔ 影刀流程执行无卡顿


经验总结

  1. 格式比工具更重要:CSV 是绝对的性能王者

XLSX 是压缩包 + XML,需要大量解析成本。

CSV 是纯文本,解析速度是数量级优势。

  1. 不推荐用 WPS 转 CSV

WPS 导出的 CSV 默认编码不是 UTF-8,会导致解析异常。

  1. 大文件一定要流式读取

不要一次性加载 DataFrame,否则内存和 CPU 都会爆。

  1. 每 1 万行切片是最佳折中

可兼顾可视化和后续处理的性能。

http://www.cnnetsun.cn/news/92724.html

相关文章:

  • Access Token 生命周期管理:详细设计 Token 的获取、缓存、续期和过期处理机制
  • 客户群 ID 与业务 ID 映射:设计高性能数据库表结构,实现 ChatID 与内部业务标签的快速关联
  • 代码随想录算法训练营Day48 | 108.冗余连接、109.冗余连接II
  • 微信网页版访问困境突破:3步安装wechat-need-web插件实战指南
  • MFC扩展库BCGControlBar Pro v37.1——支持Visual Studio 2026
  • 知乎专题策划:LobeChat是否真的值得入手?
  • 毕业论文AIGC全线飘红?揭秘5个“去AI化”核心手段,附保姆级工具清单
  • MTKClient:如何快速掌握联发科设备调试的核心技巧?
  • 国内云渲染平台有哪些公司?推荐及分析
  • VisualCppRedist AIO:Windows运行库问题的终极免费解决方案
  • 5分钟学会Bypass Paywalls Clean:终极免费阅读指南
  • 音乐播放器插件系统:如何通过5个关键插件实现真正的个性化体验?
  • 什么是“本地永久云手机”,真正独享的云端体验!
  • VMOS Edge与魔云腾Q1对比评测:谁才是本地永久云手机最优选?
  • HC32L130 MCU 片内 OPA(运算放大器)全解析与应用指南
  • leetcode 763. Partition Labels 划分字母区间-耗时100%
  • 终极指南:猫抓浏览器扩展如何用侧边栏彻底改变你的资源嗅探体验?
  • SC4D40120H-JSM 碳化硅肖特基二极管
  • LobeChat能否对接木星卫星观测?冰下海洋生命可能性探讨
  • 猫抓浏览器扩展:如何用侧边栏让视频资源嗅探变得如此简单
  • LobeChat会话管理机制剖析:精准追踪每一次AI对话
  • Windows右键菜单优化大师:ContextMenuManager深度体验指南
  • 飞书文档批量导出难题:25分钟解决700+文档的终极方案
  • Zipkin 深度解析:核心原理、集成实战与最佳实践
  • Windows右键菜单管理终极指南:让你的桌面操作效率提升300%
  • 驾驶员分心疲劳驾驶打电话打瞌睡喝水检测数据集VOC+YOLO格式8864张12类别
  • 彼得林奇的“长期价值创造“在网络效应企业中的衡量
  • 使用pytorch进行batch_size分批训练,并使用adam+lbfgs算法——波士顿房价预测
  • 如何快速实现Unity游戏多语言支持:新手完整指南
  • [漫画]《软件方法》逃避思考的伪创新舒适区