CR1 San Pedro DataCenter - Core to Aggregation Failure / Fallo en conexión de Core a Agregación
Incident Report for RackNation
Resolved
This incident has been resolved.
Posted Apr 26, 2023 - 19:17 CST
Monitoring
At 12:30 pm CST-6, we identified a failure on one of the main line cards of our Core Switch in CR1 DataCenter San Pedro, this caused a disruption with half of the uplinks that connect our aggregation core to the distribution switches in the Data Center, forcing our traffic to go over the secondary device with traffic disruption to customers.

We rebooted the failed line-card to regain connectivity; we have checked with our vendor, and we have been informed that this event is related to a false positive in the current version on which some messages are treated as CRITICAL instead of NOTIFICATIONS causing ports to be shut down by the protection of the device.

Currently, we are planning with our team to schedule a maintenance window to upgrade our devices to the recommended version by Juniper to avoid this to happen again.

We regret the situation, rest assured we are working to solve this in 100%.

=== SPANISH BELOW ===

A las 12:30 pm CST-6, identificamos una falla en una de las tarjetas principales de nuestro Core Switch en CR1 DataCenter San Pedro, esto causó una interrupción con la mitad de los enlaces que conectan nuestro switch de agregación con los switches de distribución en el Centro de datos, obligando a nuestro tráfico a pasar por el dispositivo secundario con interrupción del tráfico para los clientes.

Para solventar, hemos reiniciado el linecard para recuperar la conectividad de los puertos afectados; adicionalmente, hemos consultado con nuestro proveedor y nos han informado que este evento está relacionado con un falso positivo en la versión actual en el que algunos mensajes se tratan como CRÍTICOS en lugar de NOTIFICACIONES, lo que hace que la protección del dispositivo apague los puertos por prevención del equipo.

Actualmente, estamos planeando con nuestro equipo programar una ventana de mantenimiento para actualizar nuestros dispositivos a la versión recomendada por Juniper para evitar que esto vuelva a suceder.

Lamentamos la situación ocurrida, estamos trabajando para solventar en un 100% el problema.
Posted Apr 26, 2023 - 13:13 CST
This incident affected: Edge Routing CR1 DataCenter.