优选专业
职位描述
岗位职责:1、研究基于强化学习的(多模态)大模型后训练理论与算法,解决探索能力弱、稀疏奖励、奖励hacking、训练不稳定、训练效率低等问题,提升算法的性能与采样效率。
2、面向大模型安全问题,探索强化学习驱动的大模型内生安全演化机制,构建多维度安全评价指标体系,实现安全能力的自适应演化。
3、紧跟强化学习前沿动向,开展强化学习前沿理论与算法研究,探索大模型强化学习高价值场景。
任职要求:1、博士学历,计算机科学 / 人工智能 / 应用数学等相关专业;
2、在强化学习、人工智能方面有扎实的研究基础与成果,熟悉(多模态)大模型、AI安全、智能体等前沿方向;
3. 具备良好的数学建模与代码实现能力,精通 Python,熟悉 PyTorch/TensorFlow 等AI框架。
4、具有良好的沟通协作能力,工作积极主动,能够与团队融洽合作,一起探索新技术,推进技术进步。
加分项:
1、具有优秀的理论算法基础,在NeurIPS、ICLR、ICML等顶级会议/期刊上发表论文者优先;
2、具有优秀的代码能力,曾在编程竞赛中取得优异成绩者优先
3、熟悉大模型强化学习训练框架(例如VERL、OpenRLHF、TRL)
2、面向大模型安全问题,探索强化学习驱动的大模型内生安全演化机制,构建多维度安全评价指标体系,实现安全能力的自适应演化。
3、紧跟强化学习前沿动向,开展强化学习前沿理论与算法研究,探索大模型强化学习高价值场景。
任职要求:1、博士学历,计算机科学 / 人工智能 / 应用数学等相关专业;
2、在强化学习、人工智能方面有扎实的研究基础与成果,熟悉(多模态)大模型、AI安全、智能体等前沿方向;
3. 具备良好的数学建模与代码实现能力,精通 Python,熟悉 PyTorch/TensorFlow 等AI框架。
4、具有良好的沟通协作能力,工作积极主动,能够与团队融洽合作,一起探索新技术,推进技术进步。
加分项:
1、具有优秀的理论算法基础,在NeurIPS、ICLR、ICML等顶级会议/期刊上发表论文者优先;
2、具有优秀的代码能力,曾在编程竞赛中取得优异成绩者优先
3、熟悉大模型强化学习训练框架(例如VERL、OpenRLHF、TRL)
公司简介
上海人工智能实验室,作为国际级人工智能新型研究机构,与全球理想主义者并肩前行,共探智能科学的未来。
VIP·学生版
会员5大特权,免费使用
竞争力分析
免费
AI改简历
免费
简历模版
免费
职业测评
免费
尊贵身份标识
免费
立即开通
智联安全提示
立即举报![]()
用人单位若存在以下违法行为,请您提高警惕,立刻报警或者向平台举报: 1.强迫或者要求您投资入股、购买虚拟货币(如比特币)、转账、汇款等 2.要求您提供担保人、担保金或者以其他名义向您收取财物 3.以招聘名义向您牟取任何不正当利益(财产权益、人身权益) 4.扣押您的身份证件或者其他证件 5.要求您添加微信、QQ进行转账、汇款 6.其他损害您合法权益的行为等



