优选专业
职位描述
职位描述
1、核心平台建设:设计和研发支撑大规模分布式训练的基础设施平台,负责GPU集群的资源调度、生命周期管理及作业编排,提升资源利用率和训练效率;
2、稳定性与容错:构建自动故障感知、故障自愈与断点续训(Checkpoint 保存与恢复)机制,保障大规模训练的长稳运行,提升训练有效时间占比(MTBF/MTTR优化);
3、可观测性:建设面向大模型训练的全方位可观测体系,采集和分析硬件(GPU、RoCE/IB网络)、存储及训练框架的性能指标,快速定位慢节点或故障点,实现训练状态透明化;
4、性能优化:结合训练框架(如 Megatron-LM、DeepSpeed)进行内核级优化,优化网络通信拓扑(如 NCCL)及存储I/O流水线,降低训练成本,提升模型训练吞吐;
5、资源效率:设计高效的集群混部和碎片资源利用方案,平衡多租户隔离与资源利用率,支持潮汐调度和弹性训练。
任职要求:
1、编程能力:扎实的编程功底,熟练使用 Python/Go/C++ 中的至少两种,具备高性能网络编程或系统级开发经验,能独立完成大型模块的设计与开发;
2、分布式系统:熟悉 Kubernetes 底层原理及 Operator 开发模式,有自定义调度器、控制器开发经验者优先;熟悉资源调度系统(Yarn/Slurm/K8s)架构及实现;
3、AI基础设施:了解常用AI框架(PyTorch)的分布式训练原理,熟悉 NCCL/RDMA 等通信库;对 GPU 架构(NVIDIA A100/H800等)有较深理解,有 CUDA 开发或性能剖析(Profiling)经验者加分;
4、网络与存储:了解分布式存储(如 Ceph、Lustre、JuiceFS、Alluxio)在大模型训练场景的适配与调优;熟悉高性能网络(RoCE/InfiniBand)原理及常见问题排查;
5、故障排查:具备极强的系统问题排查能力,能处理从内核、驱动、库到应用层的系统性故障,有大型集群稳定性保障经验。
1、核心平台建设:设计和研发支撑大规模分布式训练的基础设施平台,负责GPU集群的资源调度、生命周期管理及作业编排,提升资源利用率和训练效率;
2、稳定性与容错:构建自动故障感知、故障自愈与断点续训(Checkpoint 保存与恢复)机制,保障大规模训练的长稳运行,提升训练有效时间占比(MTBF/MTTR优化);
3、可观测性:建设面向大模型训练的全方位可观测体系,采集和分析硬件(GPU、RoCE/IB网络)、存储及训练框架的性能指标,快速定位慢节点或故障点,实现训练状态透明化;
4、性能优化:结合训练框架(如 Megatron-LM、DeepSpeed)进行内核级优化,优化网络通信拓扑(如 NCCL)及存储I/O流水线,降低训练成本,提升模型训练吞吐;
5、资源效率:设计高效的集群混部和碎片资源利用方案,平衡多租户隔离与资源利用率,支持潮汐调度和弹性训练。
任职要求:
1、编程能力:扎实的编程功底,熟练使用 Python/Go/C++ 中的至少两种,具备高性能网络编程或系统级开发经验,能独立完成大型模块的设计与开发;
2、分布式系统:熟悉 Kubernetes 底层原理及 Operator 开发模式,有自定义调度器、控制器开发经验者优先;熟悉资源调度系统(Yarn/Slurm/K8s)架构及实现;
3、AI基础设施:了解常用AI框架(PyTorch)的分布式训练原理,熟悉 NCCL/RDMA 等通信库;对 GPU 架构(NVIDIA A100/H800等)有较深理解,有 CUDA 开发或性能剖析(Profiling)经验者加分;
4、网络与存储:了解分布式存储(如 Ceph、Lustre、JuiceFS、Alluxio)在大模型训练场景的适配与调优;熟悉高性能网络(RoCE/InfiniBand)原理及常见问题排查;
5、故障排查:具备极强的系统问题排查能力,能处理从内核、驱动、库到应用层的系统性故障,有大型集群稳定性保障经验。
公司简介
快手是领先的内容社区和社交平台,是短视频行业开创者与引领者。快手致力于创造一个温暖和信任的社区,让更多普通人拥有表达和被看见的机会,并由此培育了繁荣与高互动的社区生态,每天有上千万优质内容上传。
VIP·学生版
会员5大特权,免费使用
竞争力分析
免费
AI改简历
免费
简历模版
免费
职业测评
免费
尊贵身份标识
免费
立即开通
智联安全提示
立即举报![]()
用人单位若存在以下违法行为,请您提高警惕,立刻报警或者向平台举报: 1.强迫或者要求您投资入股、购买虚拟货币(如比特币)、转账、汇款等 2.要求您提供担保人、担保金或者以其他名义向您收取财物 3.以招聘名义向您牟取任何不正当利益(财产权益、人身权益) 4.扣押您的身份证件或者其他证件 5.要求您添加微信、QQ进行转账、汇款 6.其他损害您合法权益的行为等



