优选专业
职位描述
工作职责:1.参与建设AI算力云原生平台,提供高性能、高稳定性、高易用性加速计算平台。
2.参与 Kubernetes 调度策略定制与批处理调度器扩展开发,支持AI训练任务的优先级管理、资源抢占、弹性伸缩,适配分布式训练的算力调度需求。
3.优化GPU资源全生命周期管理,包括分配、隔离、监控、容错等,结合业务特征设计智能调度策略,平衡算力供给与成本控制。
4.参与大规模 AI 训练任务故障诊断与自愈体系的设计与实现,基于硬件、通信指标监控和事件分析,设计智能告警与根因定位系统,快速识别任务异常并进行故障隔离。
5.在导师指导下探索业界最新技术方向,参与开源社区实践,提升团队云原生 AI 核心竞争力。
岗位要求:
1. 计算机/人工智能/软件工程等相关专业; 2. 熟悉后端服务开发,熟悉Golang和Python编程语言,有良好的编程规范意识,能独立完成服务接口与交互逻辑开发; 3. 掌握kubernetes基本工作原理,熟悉Volcano、Kubeflow、Argo等相关AI云原生框架者优先;有相关课程设计、项目实践经验者可优先考虑; 4. 有基本的数据检索和分析能力,掌握SQL语法,熟悉时间序列数据库及其查询语言(如PromQL)优先; 5. 对后端开发和分布式系统领域有浓厚兴趣,关注行业技术动态,有持续学习和提升技术能力的意愿; 6. 具有较强的学习能力和问题解决能力,能够快速掌握新技术,独立分析和解决模块开发过程中遇到的问题;
2.参与 Kubernetes 调度策略定制与批处理调度器扩展开发,支持AI训练任务的优先级管理、资源抢占、弹性伸缩,适配分布式训练的算力调度需求。
3.优化GPU资源全生命周期管理,包括分配、隔离、监控、容错等,结合业务特征设计智能调度策略,平衡算力供给与成本控制。
4.参与大规模 AI 训练任务故障诊断与自愈体系的设计与实现,基于硬件、通信指标监控和事件分析,设计智能告警与根因定位系统,快速识别任务异常并进行故障隔离。
5.在导师指导下探索业界最新技术方向,参与开源社区实践,提升团队云原生 AI 核心竞争力。
岗位要求:
1. 计算机/人工智能/软件工程等相关专业; 2. 熟悉后端服务开发,熟悉Golang和Python编程语言,有良好的编程规范意识,能独立完成服务接口与交互逻辑开发; 3. 掌握kubernetes基本工作原理,熟悉Volcano、Kubeflow、Argo等相关AI云原生框架者优先;有相关课程设计、项目实践经验者可优先考虑; 4. 有基本的数据检索和分析能力,掌握SQL语法,熟悉时间序列数据库及其查询语言(如PromQL)优先; 5. 对后端开发和分布式系统领域有浓厚兴趣,关注行业技术动态,有持续学习和提升技术能力的意愿; 6. 具有较强的学习能力和问题解决能力,能够快速掌握新技术,独立分析和解决模块开发过程中遇到的问题;
工作地点
国际传媒港L1栋
公司简介
上海人工智能实验室,作为国际级人工智能新型研究机构,与全球理想主义者并肩前行,共探智能科学的未来。
VIP·学生版
会员5大特权,免费使用
竞争力分析
免费
AI改简历
免费
简历模版
免费
职业测评
免费
尊贵身份标识
免费
立即开通
智联安全提示
立即举报![]()
用人单位若存在以下违法行为,请您提高警惕,立刻报警或者向平台举报: 1.强迫或者要求您投资入股、购买虚拟货币(如比特币)、转账、汇款等 2.要求您提供担保人、担保金或者以其他名义向您收取财物 3.以招聘名义向您牟取任何不正当利益(财产权益、人身权益) 4.扣押您的身份证件或者其他证件 5.要求您添加微信、QQ进行转账、汇款 6.其他损害您合法权益的行为等



