实习职位特点
总实习月数:4个月
周实习天数:4天
其他说明:可转正
职位描述
职位描述:开展下一代大模型基础架构的前沿研究工作,专注于探索混合专家(MoE)、高效注意力机制(Efficient Attention)、扩散语言模型(Diffusion LLM)等核心架构创新。通过从根本上重塑模型的计算范式,旨在突破现有Transformer架构在性能、效率和可扩展性上的瓶颈,为通用人工智能的发展构建更强大的基石。
1. 开展大语言及多模态大模型的新一代骨干网络架构研究,包括但不限于混合专家、高效注意力机制(如线性/稀疏注意力)以及扩散语言模型等架构的探索与设计。
2. 负责新型模型架构及核心组件的代码实现、性能优化与验证,确保新架构在训练和推理中的高效性、稳定性与可扩展性。
3. 关注和学习NeurIPS、ICML、ICLR等最新前沿研究,参与学术讨论和撰写学术论文,在国际顶级期刊或会议上发表研究成果。
职位要求:1. 博士学历或研究成果突出的硕士,计算机科学、人工智能、软件工程或相关专业。
2. 熟练Python编程,具备从零复现和优化复杂模型架构的扎实工程能力,有高性能算子实现经验者优先。
3. 对Transformer架构有深刻理解,熟悉MoE、各类Attention变体等前沿技术;对OpenAI、Qwen、DeepSeek等主流大模型的架构有深入了解,有相关顶会论文或核心开源项目贡献者优先。
4. 具备优秀的科学批判思维和团队合作精神,拥有较强的自主学习和问题解决能力,能够独立设计并执行创新性的研究想法。
1. 开展大语言及多模态大模型的新一代骨干网络架构研究,包括但不限于混合专家、高效注意力机制(如线性/稀疏注意力)以及扩散语言模型等架构的探索与设计。
2. 负责新型模型架构及核心组件的代码实现、性能优化与验证,确保新架构在训练和推理中的高效性、稳定性与可扩展性。
3. 关注和学习NeurIPS、ICML、ICLR等最新前沿研究,参与学术讨论和撰写学术论文,在国际顶级期刊或会议上发表研究成果。
职位要求:1. 博士学历或研究成果突出的硕士,计算机科学、人工智能、软件工程或相关专业。
2. 熟练Python编程,具备从零复现和优化复杂模型架构的扎实工程能力,有高性能算子实现经验者优先。
3. 对Transformer架构有深刻理解,熟悉MoE、各类Attention变体等前沿技术;对OpenAI、Qwen、DeepSeek等主流大模型的架构有深入了解,有相关顶会论文或核心开源项目贡献者优先。
4. 具备优秀的科学批判思维和团队合作精神,拥有较强的自主学习和问题解决能力,能够独立设计并执行创新性的研究想法。
公司简介
上海人工智能实验室,作为国际级人工智能新型研究机构,与全球理想主义者并肩前行,共探智能科学的未来。
VIP·学生版
会员8大特权,免费使用
职业测评
免费
新发岗推荐
免费
竞争力分析
免费
AI改简历
免费
简历模版
免费
AI模拟面试
免费
1V1 HR导师
免费
尊贵身份标识
免费
立即开通
智联安全提示
立即举报![]()
用人单位若存在以下违法行为,请您提高警惕,立刻报警或者向平台举报: 1.强迫或者要求您投资入股、购买虚拟货币(如比特币)、转账、汇款等 2.要求您提供担保人、担保金或者以其他名义向您收取财物 3.以招聘名义向您牟取任何不正当利益(财产权益、人身权益) 4.扣押您的身份证件或者其他证件 5.要求您添加微信、QQ进行转账、汇款 6.其他损害您合法权益的行为等



