高级站点可靠性工程师

贝克休斯

  • 孟买,马哈拉施特拉邦
高级站点可靠性工程师
招聘日期:2022年10月26日

工作描述

作为高级站点可靠性工程师,您将负责

  • 开发自动化解决方案,在潜在问题导致服务中断之前预测和处理潜在问题
  • 监督和调整监控和警报系统
  • 在整个工程组织中识别潜在的过程改进
  • 定义并推动系统的架构增强,以减少潜在的故障点
  • 为进入生产环境的变更提供影响评估和缓解计划
  • 建立性能基线、容量阈值、关联事件并定义监视/警报标准
  • 为更多的初级队友提供技术指导和指导
  • 确保正常运行时间SLA 99.17和响应SLA
  • 配置工具/系统以持续和主动地监控基础设施
  • 建立和改进支持工作流程和工具
  • 提供反馈,以便在应用程序中构建支持工具和特性
  • 跟踪客户版本和最新版本
  • 确保从App arch, Infra arch, security SME收到的架构指南得到执行和遵循。
  • 在设计、开发和实施标准和能力方面应用技术和操作最佳实践,以实现高可用性、可扩展和可靠的基础设施。
  • 与应用程序支持中心一起在特定的更改窗口中计划并执行已批准的基础设施/应用程序更改。
  • 协调由贝克休斯员工和供应商组成的全天候支持团队。指导和培训,并支持高复杂性的任务

资格与经验

  • 熟悉大型集群管理系统(Mesos, Kubernetes)
  • 能够编写可重复任务的脚本(Go, Ruby, Python, Bash, powershell)
  • 有开发云原生应用程序的经验(高可用性)
  • 能够深入了解任何级别的现代互联网服务(调度程序,容器,Linux内核,缓存,对象存储,分布式文件系统,RDBMS, NoSQL等)。
  • 熟悉网络故障排除(tcp转储、路由、代理、防火墙、负载平衡器等)
  • 能够排除故障和调试应用程序(web)
  • 精通配置管理系统(Chef, Terraform, Ansible, Puppet, Salt)
  • 具备配置、定制和扩展监控工具(Sensu、Grafana、Prometheus、Graphite、Splunk等)的经验
  • 在公共云(AWS、GCP或Azure)上部署和管理基础架构的经验
  • 有Azure或AWS运营经验(监控和支持)
  • 有实施运营流程的经验,如用户管理,备份管理。、灾难恢复、GDPR、监控或其他数据保护指南
  • 有支持和提供基于微服务的应用程序技术支持的经验
  • 具有不同环境(私有云/公共云)中基础设施故障排除的实际经验
  • 有实施运营流程的经验,如用户管理,备份管理。、灾难恢复、GDPR、监控或其他数据保护指南
  • 有支持和提供基于微服务的应用程序技术支持的经验
  • 具有不同环境(私有云/公共云)中基础设施故障排除的实际经验
  • 具有容器化技术(Docker, Kubernetes)的经验。
  • 具有各种IPS/IDS, WAF,威胁检测系统实现,SIEM,白名单和DLP技术的工作经验
  • 有建立基于物联网的应用基础设施和接口的经验,如MQTT, AMQP

位置:-

  • 孟买,马哈拉施特拉邦。

公司概述:

贝克休斯(纽约证券交易所代码:BKR)是一家为全球能源和工业客户提供解决方案的能源技术公司。基于一个世纪的经验,我们在120多个国家开展业务,我们的创新技术和服务正在推动能源向前发展,使其对人类和地球更安全、更清洁、更高效。访问我们的网站bakerhughes.com

订阅新闻信函
滚动
Baidu
map