职位描述
职位描述: 作为运维工程师,你将负责智算中心的日常维护与监控工作,确保系统的稳定、高效运行。你需要及时发现并解决系统故障,持续优化系统性能,并为其他技术团队提供支持。岗位职责:•负责智算中心的日常运维工作,包括系统监控、故障排查和性能优化•使用集群管理工具和监控工具(如Kubernetes、Prometheus)确保系统高效运行•与开发和硬件团队合作,持续改进系统运维流程,提升系统稳定性和响应速度•负责系统的安全管理,定期更新和维护系统软件•根据需要撰写运维文档,确保团队成员了解系统运维情况职位要求:•具备计算机科学、信息技术或相关领域的学位•熟悉常用的运维工具和系统管理方法,有集群管理经验者优先•具备Linux系统、网络管理和存储系统的运维经验•优秀的故障排查能力和问题解决能力•具备较强的责任心和团队合作精神公司简介: 上海丽蟾科技作为NVIDIA中国首批NCP,致力于成为行业的领导者。我们管理团队由来自全球500强IT企业的资深专家组成,具备深厚的行业经验和全球视野。 我们正在打造一个先进的智算平台,为客户提供业界优质的NCP服务,涵盖智算中心的规划、部署、运营及AI人才培养等全方位解决方案。 我们高度重视创新与学习,专注于引领未来科技发展。 我们诚邀有志于GPU、IB、AI等前沿技术的年轻人才加入,尤其欢迎有志于在AI领域发展的学生,不限专业,只要你具备强烈的学习热情和坚定的承诺,上海丽蟾科技将为你提供广阔的发展平台,与我们共同推动技术变革,走向全球。
企业介绍
上海信弘(ZENTEK)是 NVIDIA 公司在中国的精英级合作伙伴。信弘是一家致力于构建“产业赋能”创新资源体系的高科技企业。我们专注于数据中心级计算加速解决方案,提供人工智能、数字孪生领域数字化转型服务的公司。我们为教科研、高科技、设计、互联网、金融等客户提供基于 GPU 架构的软硬件产品专业服务。从咨询规划、测试选型、到部署实施并提供后续的运营维护。总部位于上海徐汇区,在北京、深圳、成都、重庆和美国设有分支机构。