工作描述
作为高级站点可靠性工程师,您将负责
- 开发自动化解决方案,在潜在问题导致服务中断之前预测和处理潜在问题
- 监督和调整监控和警报系统
- 在整个工程组织中识别潜在的过程改进
- 定义并推动系统的架构增强,以减少潜在的故障点
- 为进入生产环境的变更提供影响评估和缓解计划
- 建立性能基线、容量阈值、关联事件并定义监视/警报标准
- 为更多的初级队友提供技术指导和指导
- 确保正常运行时间SLA 99.17和响应SLA
- 配置工具/系统以持续和主动地监控基础设施
- 建立和改进支持工作流程和工具
- 提供反馈,以便在应用程序中构建支持工具和特性
- 跟踪客户版本和最新版本
- 确保从App arch, Infra arch, security SME收到的架构指南得到执行和遵循。
- 在设计、开发和实施标准和能力方面应用技术和操作最佳实践,以实现高可用性、可扩展和可靠的基础设施。
- 与应用程序支持中心一起在特定的更改窗口中计划并执行已批准的基础设施/应用程序更改。
- 协调由贝克休斯员工和供应商组成的全天候支持团队。指导和培训,并支持高复杂性的任务
资格与经验