Buscamos en Itera México un/a *Senior Observability Engineer* con experiencia en herramientas de monitoreo y observabilidad, capaz de apoyar en la evaluación, operación, optimización y evolución de una plataforma de observabilidad empresarial.
La persona ideal deberá contar con experiencia en monitoreo de infraestructura, aplicaciones, logs, métricas, trazabilidad, dashboards y alertamiento, preferentemente con conocimiento en alguna herramienta de observabilidad como: *Datadog, Dynatrace, New Relic, Splunk Observability, Grafana, Prometheus, AppDynamics, Elastic Observability*, entre otras.
Perfil requerido
Experiencia senior en observabilidad, monitoreo o plataformas de operación tecnológica.- Mínimo 3 años de experiencia en implementación, administración u operación de herramientas de observabilidad.
- Conocimiento práctico en monitoreo de infraestructura, aplicaciones, servicios, logs, métricas, APM, trazabilidad y dashboards.
- Experiencia con al menos una herramienta de observabilidad, por ejemplo:
- Datadog
- Dynatrace
- New Relic
- Splunk Observability
- Grafana / Prometheus
- AppDynamics
- Elastic Observability
- CloudWatch / Azure Monitor
- Deseable experiencia o interés en aprender Datadog.
- Experiencia integrando soluciones de observabilidad con ambientes cloud, preferentemente AWS y/o Azure.
- Conocimiento en monitoreo de contenedores, Kubernetes, microservicios o aplicaciones enterprise.
- Conocimiento de mejores prácticas SRE, DevOps, monitoreo, alertamiento y gestión de incidentes.
- Capacidad de análisis, troubleshooting y documentación técnica.
- Habilidad para trabajar con equipos de infraestructura, desarrollo, operaciones, seguridad y arquitectura.
Conocimientos técnicos deseables
Observabilidad end-to-end: métricas, logs, trazas y eventos.- APM y distributed tracing.
- Monitoreo de infraestructura cloud y on-premise.
- Monitoreo de aplicaciones enterprise y microservicios.
- Gestión y tuning de alertas.
- Creación de dashboards ejecutivos, técnicos y operativos.
- Integración con herramientas ITSM/DevOps como Jira, ServiceNow, Azure DevOps o similares.
- Automatización con scripts, APIs, Terraform u otras herramientas IaC.
- Conceptos de SLI, SLO, SLA, error budgets y prácticas SRE.
- Análisis de capacidad, disponibilidad, performance y costos asociados a observabilidad.