El empleo que estás tratando de ver ya expiró. Realiza una nueva búsqueda para encontrar empleos vigentes.

INCIDENT MANAGER

Nova Solutions -
Ciudad de México, CDMX

Información del empleo

Hace 6 días

Cualificaciones

Microsoft Windows Server
Kotlin
Oracle
Node.js
Gestión de incidentes
Kubernetes
WebSphere
DevOps
Microsoft SQL Server
MongoDB
Weblogic
Java
SOAP
Docker
JavaScript
PostgreSQL
RabbitMQ
Experiencia en construcción
Linux
Apache
Kafka
Swift
Liderazgo
Experiencia en operaciones bancarias
Negociación
NGINX
Gestión de identidades y accesos

Descripción completa del empleo

Objetivo del puesto

Responsable de la gestión integral de incidentes productivos que impacten los canales digitales bancarios (Web, Mobile, APIs y servicios transaccionales), garantizando la rápida restauración de los servicios mediante la coordinación efectiva de equipos técnicos internos y proveedores externos.

Lidera el proceso de atención, seguimiento, escalamiento, diagnóstico y comunicación de incidentes críticos, estableciendo mecanismos de monitoreo, gobierno operativo y mejora continua para minimizar el impacto al negocio y a los clientes finales.

Responsabilidades principales

Gestión de Incidentes

Liderar la atención de incidentes productivos de severidad crítica, alta y media.
Coordinar war rooms técnicos para análisis y resolución de incidentes.
Ejecutar procesos de clasificación, priorización y escalamiento de incidentes.
Gestionar incidentes bajo marcos ITIL.
Asegurar el cumplimiento de SLAs y OLAs establecidos.
Coordinar acciones de recuperación y restauración de servicios.
Mantener actualizada la información de incidentes en herramientas de gestión.

Coordinación Multidisciplinaria

Coordinar especialistas de:
- Desarrollo Backend.
- Desarrollo Mobile (iOS y Android).
- Desarrollo Frontend.
- Arquitectura de Soluciones.
- Infraestructura.
- Redes y Comunicaciones.
- Bases de Datos.
- Middleware.
- Seguridad.
- Cloud y DevOps.
- Proveedores externos.
Gestionar escalaciones técnicas y ejecutivas.
Coordinar ventanas de mantenimiento relacionadas con incidentes.

Comunicación Ejecutiva

Generar reportes ejecutivos para dirección y stakeholders.
Comunicar impacto, avance, riesgos y ETA de recuperación.
Preparar informes post-mortem y análisis causa raíz (RCA).
Facilitar reuniones de seguimiento con áreas de negocio y tecnología.

Mejora Continua

Identificar tendencias y patrones recurrentes de incidentes.
Proponer acciones preventivas y correctivas.
Participar en Problem Management.
Definir y mejorar procedimientos operativos.
Colaborar en la construcción de runbooks y playbooks operativos.

Actividades principales

Monitoreo y seguimiento de incidentes productivos.
Convocatoria y coordinación de mesas de crisis.
Análisis inicial de impacto y criticidad.
Seguimiento puntual de actividades de remediación.
Coordinación de despliegues de emergencia.
Gestión de comunicación con áreas de negocio.
Elaboración de reportes diarios, semanales y mensuales.
Seguimiento de compromisos derivados de incidentes.
Participación en revisiones de disponibilidad y capacidad.
Supervisión de cumplimiento de procesos de gestión de cambios relacionados con incidentes.

Conocimientos técnicos requeridos

Arquitectura de aplicaciones

Arquitecturas distribuidas.
Microservicios.
Arquitecturas orientadas a eventos.
Sistemas de alta disponibilidad.
Sistemas de misión crítica.
Integraciones bancarias.

APIs y Middleware

REST, SOAP.
OpenAPI / Swagger.
API Gateway.
Kong.
Apigee.

Desarrollo

Java.
Spring Boot.
Node.js (deseable).
Kotlin (deseable).
Swift (deseable).

No se requiere desarrollo activo, pero sí capacidad para interpretar logs, trazas y arquitectura de aplicaciones.

Infraestructura

Linux.
Windows Server.
Kubernetes.
OpenShift.
Docker.
WebSphere.
WebLogic.
JBoss / WildFly.
Nginx.
Apache HTTP Server.

Bases de datos

Oracle.
SQL Server.
PostgreSQL.
MongoDB.

Capacidad para interpretar bloqueos, conexiones, tiempos de respuesta y problemas de rendimiento.

Observabilidad y Monitoreo

Dynatrace.
AppDynamics.
Datadog.
Splunk.
ELK.
Grafana.
Prometheus.

Mensajería

Kafka.
IBM MQ.
RabbitMQ.

Seguridad Bancaria

OAuth 2.0.
OpenID Connect.
JWT.
Keycloak.
Auth0.
IAM.
HSM.
Certificados digitales.
TLS/SSL.

Experiencia requerida

5+ años en soporte productivo, operaciones TI o gestión de incidentes.
2+ años coordinando incidentes críticos o de alta severidad.
Experiencia en banca digital, medios de pago, fintech o sistemas transaccionales de alta disponibilidad.
Experiencia trabajando con equipos multidisciplinarios y proveedores externos.

Habilidades clave

Liderazgo bajo presión.
Comunicación ejecutiva.
Pensamiento analítico.
Gestión de crisis.
Negociación y escalamiento.
Organización y seguimiento.
Toma de decisiones basada en impacto y riesgo.
Capacidad para coordinar múltiples equipos simultáneamente.