Se ha informado de manera un tanto misteriosa que los empleados de FB no pudieron corregir una configuración incorrecta del enrutador (BGP) de manera oportuna
porque "las personas que trataban de averiguar cuál era este problema ni siquiera podían entrar físicamente al edificio" para averiguar qué había salido mal.
También se menciona que "el cierre significó que los anuncios no se publicaron durante más de seis horas en sus plataformas".
Puede que FB no quiera decir más por vergüenza o algo así, pero suena como una historia bastante extraña. ¿Existe alguna evidencia que corrobore que la falta de acceso físico fue el culpable de la interrupción prolongada?
Del informe de Facebook sobre el apagón :
...estas instalaciones están diseñadas con altos niveles de seguridad física y del sistema en mente. Es difícil acceder a ellos y, una vez que está adentro, el hardware y los enrutadores están diseñados para que sea difícil modificarlos, incluso cuando tiene acceso físico a ellos. Por lo tanto, tomó más tiempo activar los protocolos de acceso seguro necesarios para que las personas estuvieran en el sitio y pudieran trabajar en los servidores.
Esto no desglosa el tiempo que les tomó ingresar al edificio en comparación con el tiempo que les llevó modificar el hardware y los enrutadores. No es demasiado difícil imaginar cómo esta distinción podría perderse y atribuirse únicamente a no poder ingresar al edificio.
Sabemos que entrar al edificio prolongó la interrupción hasta cierto punto, aunque, por lo que sabemos, podría haber sido solo unos minutos.
Como dice la respuesta de Robb Watts, Facebook ha reconocido que esto era parte del problema , por lo que sabemos que la afirmación es cierta. ("... tomó más tiempo activar los protocolos de acceso seguro necesarios para que las personas estuvieran en el sitio y pudieran trabajar en los servidores".) La comunicación personal de fuentes no identificadas a un reportero técnico acreditado específicamente afirmó que el acceso a la tarjeta estaba caído, aunque Facebook no nos está dando ese nivel de detalle.
Esa respuesta es la única necesaria para abordar el reclamo inmediato.
Esta respuesta analiza algunos mecanismos propuestos de por qué esto podría haber sido el caso, dado el contexto más amplio de la interrupción. (Considérelo como un complemento: si la pregunta original era "¿Por qué murió JFK?" y la respuesta estrictamente correcta es "Le dispararon", esta respuesta explica cómo eso resulta en la muerte).
Al momento de escribir este artículo, Facebook no ha brindado más detalles; sin embargo, muchas publicaciones en redes sociales diferentes han explorado mecanismos sobre cómo un problema de red podría impedir el acceso al edificio, a saber, que los sistemas electrónicos que autorizan el acceso también se vieron afectados por la interrupción.
Partes externas como CloudFlare , una importante empresa de facilitación de redes no relacionada con Facebook, originalmente se dieron cuenta del problema debido a la falta de registros de DNS . DNS es el sistema de búsqueda que convierte entre nombres de recursos memorables, como sitios web, y las direcciones numéricas reales que actualmente proporcionan el recurso. Las primeras especulaciones sugirieron que con el DNS inactivo, Facebook tampoco podría acceder a sus propios sistemas, incluido el sistema de directorio del servidor LDAP que rastrearía qué empleados pueden acceder a qué instalaciones.
Sin embargo, el informe de Facebook sobre la interrupción indica que el orden de los eventos fue un poco diferente. Una operación de mantenimiento de rutina (que salió mal) apagó accidentalmente las principales conexiones de red internas ("columna vertebral") entre los centros de datos de Facebook. Como resultado, ninguno de los sistemas internos de Facebook podía comunicarse. Los servidores DNS internos de Facebook, las máquinas que le dicen al tráfico cómo llegar a Facebook, también perdieron la conectividad con los centros de datos. Ahora, esos sistemas están diseñados para funcionar solo si creen que pueden proporcionar datos confiables: si pierden la conexión con los servidores reales de Facebook, no pueden hacer su trabajo de decirles a otros dónde encontrar los recursos de Facebook. Entonces le dicen a todo Internet que deje de preguntarles, usando algo llamado Protocolo de puerta de enlace fronteriza.o BGP (un sistema que ayuda a las máquinas de red a mapear las mejores formas de enviar tráfico de un lado a otro).
Esencialmente, en ese momento, todos los servidores DNS de Facebook se enfermaron a la vez, y nadie pudo encontrar Facebook nunca más. Pero esto no era estrictamente un problema de DNS, ni siquiera estrictamente de BGP, como se dieron cuenta los observadores cuidadosos poco después (aunque el problema de BGP a DNS causó daños por salpicadura a todo Internet en forma de tráfico de DNS elevado). Las conexiones entre los balanceadores de carga de los servicios de Facebook (que dirigen el tráfico desde el exterior a ubicaciones específicas dentro de las redes de Facebook) y la Internet más amplia aún funcionaban en algunos casos. La causa raíz fue que Facebook había destruido su propia red interna.
Independientemente del mecanismo exacto, el impacto en el acceso físico sería una interrupción de la comunicación entre los lectores de cerraduras de las puertas, que obtienen un código de identificación de la credencial de un empleado, y el sistema de directorio que confirma a qué identificaciones de empleados se supone que tienen acceso. qué instalación. Originalmente dije que esto se debía al problema de DNS (lo que significa que los lectores de puertas ya no podían encontrar la ubicación del servidor LDAP), pero la mejor práctica es hacer que los servidores de directorio sean accesibles solo en redes privadas (o privadas virtuales), no en Internet. (ver también aquí y probablemente más referencias de las que tengo tiempo de rastrear). Es más probable que el servidor de directorio que otorga acceso se haya conectado a través de la misma conexión de red troncal interna que se cayó al principio.
En cualquier caso, hay una anulación física para esto, con una llave anticuada. Pero no entregas una copia de esa llave a todos los que tienen acceso al edificio; pueden hacer copias, tendrías que recuperarlas cuando cambiaran sus funciones, etc., etc. En cambio, hay un pequeño equipo de seguridad con anula el acceso físico. Sin embargo, en la medida en que el equipo de ingeniería utilice productos internos de Facebook (por ejemplo, Messenger) para la comunicación, estos también se habrían visto afectados por la interrupción; y habría habido demoras en encontrar otra información de contacto debido a que el directorio no estaba disponible.
Nuevamente, esta es una reconstrucción del mecanismo a través del cual se habría producido el acceso físico. No lo sabremos con certeza hasta que Facebook publique una autopsia más específica, pero mi objetivo es demostrar la plausibilidad de las afirmaciones informadas en función de las circunstancias circundantes.
daniel r hicks
Efervescencia
Aarón Lavers
gordon davisson
Juan Bollinger
Efervescencia
Kevin