高级Linux HPC系统管理员
现在申请 ”日期:2021年7月24日
地点:康宁,纽约,美国,14831
公司:康宁
征用号码:46191
康宁是世界领先的材料科学创新者之一。超过160年,康宁已经应用了无与伦比的专业知识特种玻璃,陶瓷和光学物理学开发创造新兴产业并转变人们生活的产品。
在康宁时,我们的增长是通过对创新的承诺来推动的。我们通过持续投资研发,是物质和流程创新的独特组合,以及与客户密切合作,解决艰难的技术挑战。由于我们的技术领导和研发环境,我们是一家四次国家技术奖金,吸引并使世界上最好的科学思想。这一人才管道为您的触手带来了改变生活的创新,超过160年。
范围/立场的目的:
作为科学计算团队的成员,您将领导并参与系统,软件和流程的部署,管理和优化,以支持康宁科研高性能计算环境。您将与其他HPC系统工程师和管理员密切合作,并使用康纳的建模和机器学习界进行识别和提供能够满足建模和科学计算目标的解决方案和技术支持。
角色和职责:
•配置,安装,维护和升级HPC集群(计算,存储和网络)以及支持研究计算环境的应用程序
•在项目监视,调度和资源管理,配置管理和备份等领域的项目中引导和协作,以增强功能的项目。
•建议和实施现有HPC系统管理工具和流程的改进
•诊断,隔离和解决复杂的应用和系统技术问题
•提供技术专长,以提高HPC集群性能和弹性
•开发脚本和自动化,以提高运营服务和服务质量
•构建,安装和支持科学软件(商业和开源)
•支持计算,存储和网络技术评估和评估
•导师和列车不太经验丰富的HPC运营团队成员
•开发,实现和文档系统架构,新功能和操作标准
•为用户社区提供支持和培训
•开发并维护建模社区的技术文件
•与硬件和软件供应商和康宁的全球采购管理团队互动,以执行购买,续订和服务合同。
•建立促进合作和伙伴关系以推动技术社区更好的服务的关系
教育要求
•学士学位(B.A / B.S)。在计算机科学,工程或相关的学习课程,或等同于教育和相关经验的组合
工作经验
•在大型分布式计算环境中至少7年的Linux(Rhel,CentOS)系统管理经验
•优先考虑提供用于科学研究的Linux HPC集群的支持。
必要的技能
•广泛了解基础架构技术,包括服务器,存储,网络,数据库。和虚拟化
•配置,管理和优化大型Linux集群和服务器的体验
•配置,管理和优化分布式和并行文件系统,如Lustr,GPF,NFS,Ceph等分布式和并行文件系统。
•熟悉高性能网络,如Infiniband,以及网络管理
•使用Python,Bash,Perl的强大脚本/编程功能
•广泛了解CentOS,RedHat,Ubuntu和Visior维护,升级和调整Linux内核的经验
•安装和使用系统配置管理和编排器的经验,如木偶,Ansible,Chef,Cobbler
•系统管理的安装和配置经验,监控/警报工具(例如Ganglia,Nagios,Prometheus,Zabbix)
•体验从源头和排除汇编问题的源头和能力的构建应用程序。
•显示量化,分析和解决复杂系统问题的能力,确定根本原因,以及开发预防措施
•展示了执行复杂性能分析的能力,包括系统进程,I / O子系统,网络和其他相关组件。
•能够在团队中独立工作以及协作,包括领导中等复杂的项目或小型项目团队的能力
•与客户,团队成员和管理互动的优秀书面和口头沟通技巧
•积极主动和创新,能够预见并防止潜在问题
•组织和时间管理技能,卓越的后续行动和管理多个优先级的能力
•热情提供优质的客户服务
期望的技能
•为HPC工作负载进行集成系统或设计解决方案
•体验安装,配置和维护作业管理工具(如PBS,Slurm,MoAb,扭矩等)
•使用分析器和调试器进行性能基准测试,以建议改进可扩展性和性能。
•经验配置,安装和故障排除MPI和OpenMP首选。
•管理虚拟化平台的体验(VMware,KVM,Sopirt)
•了解奇点和Kubernetes等集装箱化平台和技术•具有配置和管理的高性能网络(如Infiniband或Omni-Path)的经验。
•使用大楼和公共云技术(AWS,Azure,GCP),OpenStack体验
我们禁止基于种族,颜色,性别,年龄,宗教,国家来源,性取向,性别认同或表达,残疾,退伍军人状态或任何其他法律保护地位的歧视。
我们将确保残疾人提供合理的住宿,以参加就业申请或访谈过程,以执行必要的工作职能,并获得其他福利和雇佣权限。请联系我们才能要求住宿。
最近的主要市场:康宁