Ubicación: Av. Hidalgo #2404, Colonia Obispado (Torre TOP) Monterrey, Nuevo León, México.
Esquema: híbrido – 3 días en oficina / 2 días remoto)
Idioma indispensable: Inglés conversacional fluido (hablado y escrito)
Sobre la posición
En NOV estamos buscando un/a Site Reliability Engineer (SRE) para fortalecer la confiabilidad, observabilidad y estabilidad de nuestras plataformas críticas.
Este rol es ideal para alguien que disfruta trabajar cerca de producción, resolver incidentes complejos, automatizar procesos y mejorar continuamente la forma en que operan los sistemas. Tendrás la oportunidad de colaborar con equipos de desarrollo, arquitectura y plataforma para impulsar mejoras reales en disponibilidad, rendimiento y resiliencia.
Lo que harás
- Dar seguimiento a sistemas productivos para asegurar disponibilidad, rendimiento y estabilidad.
- Participar activamente en la atención de incidentes, troubleshooting y análisis de causa raíz.
- Diseñar y mejorar alertas, health checks y mecanismos de remediación automática.
- Impulsar mejoras de observabilidad con métricas, logs y trazas.
- Colaborar con equipos de desarrollo para optimizar arquitectura, throughput y latencia.
- Apoyar el mantenimiento y la mejora de pipelines de CI/CD.
- Trabajar con automatización e infraestructura como código para estandarizar despliegues y operaciones.
Analizar tendencias y oportunidades de mejora en entornos distribuidos y de alta criticidad.
-
Lo que buscamos
- +5 años de experiencia en SRE , DevOps, Platform Engineering o Infraestructura.
- Experiencia práctica operando Kubernetes en producción .
- Experiencia en entornos cloud, preferentemente Azure, AWS o GCP .
- Conocimiento sólido en observabilidad, monitoreo y telemetría.
- Experiencia en incident management, root cause analysis y soporte a producción.
- Manejo de scripting y automatización con Python, Bash o PowerShell .
- Experiencia construyendo y manteniendo pipelines de CI/CD.
- Capacidad para resolver problemas en sistemas distribuidos.
Inglés fluido, hablado y escrito, para colaborar con equipos globales.
-
Sería un plus si además tienes
- Experiencia con AKKA.NET o frameworks de actores.
- Conocimiento en PostgreSQL : tuning, optimización y mantenimiento.
- Experiencia con Terraform o herramientas similares de Infrastructure as Code.
- Manejo de herramientas como Datadog, Prometheus, Grafana, OpenTelemetry, ELK o Phobos .
Experiencia en aplicaciones cloud-native de alta disponibilidad.
-
Lo que ofrecemos
- Contrato permanente desde el día 1 con NOV Shared Services de México.
- Esquema híbrido : lunes, miércoles y viernes en oficina; martes y jueves remoto.
- Horario fijo de 7:00 a 16:00 hrs .
- Seguro de gastos médicos menores, mayores y funerarios.
- Seguro de vida.
- Vales de despensa
- 30 días de aguinaldo.
- 12 días de vacaciones el primer año.
- 25% de prima vacacional.
Pago quincenal
-
¿Por qué unirte a NOV?
Tendrás impacto directo en la confiabilidad y el desempeño de plataformas críticas utilizadas globalmente, trabajando con tecnologías modernas de cloud, Kubernetes, observabilidad y automatización, mientras contribuyes a la evolución de las prácticas de Site Reliability Engineering dentro de una organización internacional.