Responsable de la gestión integral de incidentes productivos que impacten los canales digitales bancarios (Web, Mobile, APIs y servicios transaccionales), garantizando la rápida restauración de los servicios mediante la coordinación efectiva de equipos técnicos internos y proveedores externos.
Lidera el proceso de atención, seguimiento, escalamiento, diagnóstico y comunicación de incidentes críticos, estableciendo mecanismos de monitoreo, gobierno operativo y mejora continua para minimizar el impacto al negocio y a los clientes finales.
Responsabilidades principales
Liderar la atención de incidentes productivos de severidad crítica, alta y media.
Coordinar war rooms técnicos para análisis y resolución de incidentes.
Ejecutar procesos de clasificación, priorización y escalamiento de incidentes.
Gestionar incidentes bajo marcos ITIL.
Asegurar el cumplimiento de SLAs y OLAs establecidos.
Coordinar acciones de recuperación y restauración de servicios.
Mantener actualizada la información de incidentes en herramientas de gestión.
Coordinar especialistas de:
Gestionar escalaciones técnicas y ejecutivas.
Coordinar ventanas de mantenimiento relacionadas con incidentes.
Generar reportes ejecutivos para dirección y stakeholders.
Comunicar impacto, avance, riesgos y ETA de recuperación.
Preparar informes post-mortem y análisis causa raíz (RCA).
Facilitar reuniones de seguimiento con áreas de negocio y tecnología.
Identificar tendencias y patrones recurrentes de incidentes.
Proponer acciones preventivas y correctivas.
Participar en Problem Management.
Definir y mejorar procedimientos operativos.
Colaborar en la construcción de runbooks y playbooks operativos.
Actividades principales
Monitoreo y seguimiento de incidentes productivos.
Convocatoria y coordinación de mesas de crisis.
Análisis inicial de impacto y criticidad.
Seguimiento puntual de actividades de remediación.
Coordinación de despliegues de emergencia.
Gestión de comunicación con áreas de negocio.
Elaboración de reportes diarios, semanales y mensuales.
Seguimiento de compromisos derivados de incidentes.
Participación en revisiones de disponibilidad y capacidad.
Supervisión de cumplimiento de procesos de gestión de cambios relacionados con incidentes.
Conocimientos técnicos requeridos
Arquitecturas distribuidas.
Microservicios.
Arquitecturas orientadas a eventos.
Sistemas de alta disponibilidad.
Sistemas de misión crítica.
Integraciones bancarias.
REST, SOAP.
OpenAPI / Swagger.
API Gateway.
Kong.
Apigee.
Java.
Spring Boot.
Node.js (deseable).
Kotlin (deseable).
Swift (deseable).
No se requiere desarrollo activo, pero sí capacidad para interpretar logs, trazas y arquitectura de aplicaciones.
Linux.
Windows Server.
Kubernetes.
OpenShift.
Docker.
WebSphere.
WebLogic.
JBoss / WildFly.
Nginx.
Apache HTTP Server.
Oracle.
SQL Server.
PostgreSQL.
MongoDB.
Capacidad para interpretar bloqueos, conexiones, tiempos de respuesta y problemas de rendimiento.
Dynatrace.
AppDynamics.
Datadog.
Splunk.
ELK.
Grafana.
Prometheus.
OAuth 2.0.
OpenID Connect.
JWT.
Keycloak.
Auth0.
IAM.
HSM.
Certificados digitales.
TLS/SSL.
Experiencia requerida
5+ años en soporte productivo, operaciones TI o gestión de incidentes.
2+ años coordinando incidentes críticos o de alta severidad.
Experiencia en banca digital, medios de pago, fintech o sistemas transaccionales de alta disponibilidad.
Experiencia trabajando con equipos multidisciplinarios y proveedores externos.
Habilidades clave
Liderazgo bajo presión.
Comunicación ejecutiva.
Pensamiento analítico.
Gestión de crisis.
Negociación y escalamiento.
Organización y seguimiento.
Toma de decisiones basada en impacto y riesgo.
Capacidad para coordinar múltiples equipos simultáneamente.