2026-03-13 更新
收藏
微信扫码分享

Model Serving开发工程师 面议

杭州在校/应届本科校园若干

立即投递

优选专业

计算机类

职位描述

职位描述
1、负责大模型推理服务平台的架构设计与核心模块开发,实现 Serverless Model 与 GPU 池化技术,通过模型实例的秒级启停和显存复用,显著降低推理成本;
2、研发弹性高效推理引擎(Scaling-efficient Engine),集成显存池管理、分布式 KV Cache 传输、主机内存预取、模型权重格式转换、CUDA Graph 缓存等关键技术,实现模型权重的快速换入换出和推理实例的秒级启动;
3、负责大模型推理服务平台与批量推理平台的架构设计与核心模块开发,支持离线批量推理、定时任务、高吞吐异步推理等场景,实现任务级与请求级资源的统一调度与管理;
4、设计并实现分布式KV缓存池,用于高效存储与复用推理过程中的 KV Cache,支持跨节点、跨模型的 KV Cache 共享与传输,显著降低重复计算开销,提升 Prefix Cache 命中率与推理吞吐。
任职要求:
1、本科及以上学历,计算机相关专业优先;
2、熟悉至少一种编程语言(如 Golang、Java、Python 等),具备扎实的系统编程与性能调优能力,具备VibeCoding编程认知;
3、掌握 Kubernetes、Docker 等云原生技术,对 Serverless 架构与 GPU 资源调度有深入理解,有大规模在线服务系统开发经验者优先;
4、熟悉 PyTorch、TensorFlow 等机器学习框架,掌握 vLLM、TensorRT-LLM、FasterTransformer、SGLang 等推理引擎中的至少一种,有实际性能优化经验;
5、熟悉 GPU 架构与 CUDA 编程基础,了解显存管理、Kernel 优化、CUDA Graph 等技术,有大模型推理加速经验者优先;
6、具备优秀的分析问题和解决问题的能力,对 AI Infra 技术有热情,能主动跟踪前沿技术并落地实践。

公司简介

快手是领先的内容社区和社交平台,是短视频行业开创者与引领者。快手致力于创造一个温暖和信任的社区,让更多普通人拥有表达和被看见的机会,并由此培育了繁荣与高互动的社区生态,每天有上千万优质内容上传。

VIP·学生版

会员5大特权,免费使用

竞争力分析

免费

AI改简历

免费

简历模版

免费

职业测评

免费

尊贵身份标识

免费

立即开通

智联安全提示

立即举报

用人单位若存在以下违法行为,请您提高警惕,立刻报警或者向平台举报: 1.强迫或者要求您投资入股、购买虚拟货币(如比特币)、转账、汇款等 2.要求您提供担保人、担保金或者以其他名义向您收取财物 3.以招聘名义向您牟取任何不正当利益(财产权益、人身权益) 4.扣押您的身份证件或者其他证件 5.要求您添加微信、QQ进行转账、汇款 6.其他损害您合法权益的行为等

查看全部

北京达佳互联信息技术有限公司

所属行业:互联网

企业规模:10000人以上

企业性质:上市公司

查看企业详情