当前位置: 首页 > news >正文

量化私募急招分布式机器学习平台专家 全职岗位职责: 1.负责规划设计高性能分布式机器学习训练平台的整体架构,支撑大规模数据处 理和模型训练; 2.主导分布式训练相关的技术选型,比如适配业务的并行

量化私募急招分布式机器学习平台专家 全职
岗位职责:
1.负责规划设计高性能分布式机器学习训练平台的整体架构,支撑大规模数据处 理和模型训练;
2.主导分布式训练相关的技术选型,比如适配业务的并行策略、存储方案等;
3.持续分析大规模集群的训练性能,解决数据读取、显存、通信等核心瓶颈,同 时跟踪前沿分布式训练技术,推动平台架构持续演进;
4.对接算法团队,配合算法团队适配不同的机器学习任务,并做针对性的优化。
5.监控系统运行状态,识别潜在风险,建立预防机制以减少故障发生。
职位要求
1.计算机科学、电子工程、软件工程或相关理工科本科及以上学历,5 年以上工 作经验
2.熟悉Python/Golang/C++中至少一种语言,掌握主流深度学习框架(如 PyTorch)
3.熟悉在分布式环境中快速定位故障根源,如网络延迟、节点失效或数据同步问 题,具备日志分析、性能剖析和调试工具使用经验(如 Prometheus、Grafana)
4.熟悉机器学习训练全链路工具(如 Kubernetes+Slurm 混合调度、机器学习平 台)、熟悉分布式训练框架(如 DeepSpeed、Megatron)、掌握 CUDA 性能调优或者 GPU 架构等。
5.有大规模 AI 训练集群(1000+节点)项目的设计、实施管理经验
6.具备金融行业或大型互联网公司 HPC 运维经验
7.具备较强的责任心和团队合作意识、具有良好的学习能力和分析解决问题能力
8.精通分布式队列系统实现原理,有 Slurm/YARN、RAY 等资源管理系统经验者优先

http://www.cnnetsun.cn/news/103440.html

相关文章:

  • B站视频下载完全指南:新手必备的简单三步教程
  • KISS FFT:重新定义轻量级信号处理的工程艺术
  • 6、常见WRT54G第三方固件全解析
  • 3步构建企业级3D抽奖系统:从策划到落地的完整解决方案
  • LDDC:3大平台歌词获取,打造专属音乐体验
  • EmotiVoice是否内置语音质量检测模块?MOS预估功能上线
  • EmotiVoice能否用于外语学习跟读训练?发音准确性评估
  • 从零开始的编程冒险:游戏化学习如何让你爱上写代码
  • NocoDB云原生部署实战:构建企业级低代码数据平台
  • drawio-libs:重新定义专业图表绘制的智能图标生态
  • Vue-CodeMirror6 完整配置与最佳实践指南
  • 基于Springboot3+Vue3微信小程序校园学生兼职系统(包部署+代码指导+万字论文)
  • 终极双语翻译插件完整指南:轻松实现跨语言无障碍阅读
  • 手机端AIDE安卓2进制计算器软件代码
  • NetBox拓扑视图插件终极指南:3分钟实现网络架构可视化
  • RustDesk隐私模式:企业级远程协助的安全革命
  • 如何快速实现Ubuntu全自动部署:终极无人值守安装指南
  • AI绘画控制技术深度解析:ControlNet如何实现精准构图控制
  • 网易云音乐脚本:3大隐藏功能解锁你的音乐自由
  • IDM激活脚本技术深度解析:兼容性重构与性能优化完整指南
  • Minecraft Bedrock启动器技术实现与优化指南
  • MegSpot开源项目完整教程:从入门到精通
  • XposedRimetHelper位置服务功能深度解析:提升钉钉使用体验
  • 深度解锁Windows隐藏功能:ViVeTool GUI使用全攻略
  • 如何快速配置Jellyfin Bangumi插件:新手3分钟上手教程
  • KOReader终极完整指南:免费打造专业级电子书阅读体验
  • VMD-Python分子可视化工具深度解析与实战指南
  • 零基础掌握X-AnyLabeling:GeCO模型目标计数实战全解析
  • Windows界面美化终极指南:DWMBlurGlass实现透明效果全解析
  • 掌握Tianshou:PyTorch强化学习框架从入门到实战