分享这份工作

数据工程师

现在申请:

日期:2022年12月18日

地点:上海,中国,200031

公司:康宁

申请编号:57670

康宁是全球材料科学领域的领先创新者之一。160多年来,康宁运用其在特种玻璃、陶瓷和光学物理领域无与伦比的专业知识,开发出了创造了新产业并改变了人们生活的产品。

康宁的成功得益于对研发的持续投入、材料和工艺创新的独特结合,以及与客户的密切合作,以解决严峻的技术挑战。

全球信息技术(IT)职能部门负责协调IT和业务战略,利用IT投资,优化端到端业务流程和相关信息集成技术。通过这些努力,IT通过IT支持的流程帮助提高康宁业务的竞争地位。IT部门还以经济高效的方式为康宁全球提供信息技术应用、基础设施和项目服务。

概述

平台数据工程师将是与领域专家、应用程序开发人员、控制工程师、数据工程师和数据科学家合作的数据开发活动的关键。他们的主要职责是开发产品化、可靠和仪器化的数据摄取管道,将来自整个公司多个流程和运营数据存储的入站数据转移到内部部署和基于云的数据湖。这些管道将需要数据验证和数据分析自动化,以及版本控制和CI/CD,以确保支持我们高级分析项目的入站数据流的持续弹性和可维护性。这些系统需要是可靠的、环境不可知的,并且可以跨内部部署和云计算环境进行移植。

责任

作为高级分析平台的数据工程师,你的主要职责是:

•使用Apache Spark、Deltalake、Delta Engine、Hive和其他相关技术栈,设计和实现产品化、可移植、模块化、仪器化、CI/CD自动化和高性能数据输入管道的实践模式,利用结构化流技术,以非结构化、半结构化和结构化形式处理批处理和流处理数据

•确保使用这些模式构建的数据摄取管道可靠地验证和分析入站数据,识别异常或其他意外数据条件,并能够在需要时由操作人员触发适当的补救行动

•与公司内外的数据源领域专家合作,了解数据的价值交付潜力,并协作大规模地收集、获取和准备数据

•确保使用这些模式构建的管道在架构上和操作上与由核心平台开发同行设计的数据上下文化、功能工程、出站数据工程和生产推理管道集成

•交付并展示概念实现的证明,解释您为设计选择的关键技术,以及为持续开发和生命周期管理推荐的实践模式。这些努力的目标受众遍及康宁有限公司,包括项目利益相关者、数据科学家、过程专家、其他核心软件工程团队成员以及对在自己的项目中利用您的代码感兴趣的相关技术实践社区

•与其他开发人员一起使用敏捷开发实践,以自动化构建、集成、部署和监控摄取、丰富和ML管道为目标,不断改进开发方法

•利用您的专业知识和影响力,帮助建立上述实践模式,并鼓励整个公司的软件和数据工程团队采用它们

•与相关的实践社区合作制定组件路线图,并作为值得信赖的代码提交者,与公司其他开发团队一起进行内部采购工作

教育经历

计算机科学专业优先考虑,但至少要有计算机科学、工程、数学或相关技术学科的学士学位。

•至少5年的编程熟练程度,至少一种现代JVM语言(如Java, Kotlin, Scala)和至少一种其他高级编程语言,如Python

•5年以上开发大型分布式系统和多层应用程序的全栈经验

熟练掌握敏捷软件开发和持续集成+持续部署方法以及支持工具,如Git (Gitlab), Jira, Terraform, New Relic

熟练掌握传统关系和多语言持久化技术

•5年以上大数据工程经验,为数据仓库、内部部署和云数据环境开发和维护ETL和ELT管道

•必须有5年以上使用SQL和DDL的生产经验,5年以内也可以

•3年以上高级Apache Spark api经验(Scala, PySpark, SparkSQL),并对Apache Spark架构有很强的技术熟练度

•3年以上在Apache Spark平台上开发批处理,微批处理和流摄取管道,利用低级RDD api和高级api (SparkContext, DataFrames, DataSets, GraphFrames, Spark SQL)。

•熟练掌握Spark核心架构,包括物理计划、udf、作业管理、资源管理、S3、parquet和Delta Lake架构、结构化流实践

•3年以上AWS开发运营经验,必须具备AWS S3和EC2、数据迁移服务(DMS)、RDS、EMR、RedShi0ft、Lambda、DynamoDB、CloudWatch、CloudTrail等平台服务

•具有与内部采购项目合作的经验,作为可信赖的提交者和贡献者

较强的技术协作和沟通能力

•坚定不移地致力于编码最佳实践和代码审查的强烈支持者

•文化偏向于持续学习,分享最佳实践,鼓励和提升经验不足的同事学习

•成功地与用户、其他技术团队和高级管理层沟通,收集需求,描述数据建模决策和数据工程策略

附加技术资格

熟练掌握函数式编程方法,并在分布式系统中适当使用

熟练掌握数据管理基础知识和数据存储原理

熟练掌握AWS基础计算服务,包括S3和EC2、ECS和EKS、IAM和CloudWatch

•具备全栈应用开发经验(前端、后端、微服务)

熟练使用Ceph, Kubernetes和Docker

o熟悉以下工具和技术实践:o Oracle, Microsoft SQL Server, SSIS, SSRS o已建立的企业ETL和集成工具,包括Informatica, Mulesoft o已建立的开源数据集成和DAG工具,包括NiFi, Streamsets, Airflow o制造业企业常用的数据源和集成解决方案,包括Pi Integrator, Maximo报告和分析工具,包括PowerBI, Tableau, SAS JMP

•良好的人际关系建立能力

•在高度矩阵式的环境中成功工作。

•在复杂多变的环境中,有很强的行动倾向,并能取得成果。

优秀的分析和决策能力。

•必须对成功充满热情。

•必须表现出愿意付出额外的努力,承担需要完成的事情,并保持积极的态度,以适应变化。

•有较强的领导能力,优秀的口头和书面沟通能力,有发展和销售想法的能力。英语(可操作,有进一步发展的潜力)vs技术背景