¿Podrá el centro de datos de Utah de la NSA manejar y procesar cinco zettabytes de datos?

La afirmación que quiero que se examine es

El Centro de Datos de Utah de la NSA podrá manejar y procesar cinco zettabytes de datos.

Creo que "zettabytes" es demasiado grande. Incluso un Exabyte podría ser demasiado para almacenar (ni siquiera hablar de la posibilidad de procesar tal cantidad de datos).

Fuentes

El Centro de Datos de Utah, también conocido como el Centro de Datos de la Iniciativa Nacional de Ciberseguridad Integral de la Comunidad de Inteligencia, es una instalación de almacenamiento de datos para la Comunidad de Inteligencia de los Estados Unidos que está diseñada para almacenar cantidades extremadamente grandes de datos.

Fuente: Wikipedia

La Agencia de Seguridad Nacional está construyendo un centro de datos que potencialmente podría contener yottabytes de datos.

Fuente: cnet.co.uk

El poder estimado de esos recursos informáticos en Utah es tan masivo que requiere el uso de una unidad de espacio de almacenamiento poco conocida: el zettabyte . Cisco cuantifica un zettabyte como la cantidad de datos que llenarían 250 mil millones de DVD. [...] El Centro de datos de Utah de la NSA podrá manejar y procesar cinco zettabytes de datos, según William Binney, ex director técnico de la NSA convertido en denunciante. El cálculo de Binney es una estimación. Una portavoz de la NSA dice que la capacidad real de datos del centro es clasificada.

Fuente: npr.org

Space(1 DVD) = 4.7 GB
Space(250 * 10^9 DVDs) = 250*10^9*4.7 GB = 1175 EB = 1.175 ZB

Como esos números coinciden aproximadamente, supongo que no es un simple error tipográfico en npr.org.

Pero 1 YB = 1000 ZB, entonces esto no coincide.

Además: el dispositivo de almacenamiento más grande que pude encontrar en Amazon con esta búsqueda fue Quantum StorNext AEL500 Archive por $143,918.20. Puede almacenar 399 TB. Esto significa399 TB / $143,918.20 = $0.36 per GigaByte

Entonces, para 5 ZBnecesitaríamos (5 * 10^21 Byte) / (399 * 10^12 Byte) = 1.253*10^7. Eso significaría que tendría que pagar alrededor de $143,918.20*1.253*10^7 = $1.803 trillion (US dollars). Pero:

El Cuerpo de Ingenieros del Ejército de EE. UU. inició esta semana la construcción de un nuevo centro de inteligencia cibernética de la Agencia de Seguridad Nacional en Utah. Ubicada en Camp Williams, 25 millas al sur de Salt Lake City, la instalación de $1.2 mil millones, conocida oficialmente como el Centro de datos de Utah, será responsable de recopilar y agregar los datos de inteligencia entrantes.

Fuente: defencesystems.com

Estimados

Incluso después de buscar un dispositivo con la relación dólar por gigabyte más baja, no encontré nada más barato que $0.05/GB. Esto significa que podrías bajar a 250 mil millones de dólares estadounidenses, que todavía es demasiado.

Aún más problemático podría ser el consumo de energía.

Preguntas que podrían llevar a una respuesta

¿Cometí algún error? ¿Podría esto eventualmente ser cierto (¿Qué está de moda en la ciencia sobre el almacenamiento de datos?) ¿Qué capacidad tienen las grandes empresas como Google / Facebook / Dropbox? ¿Cuánto puede almacenar Wikipedia (especialmente los bienes comunes)?

Sistemas de almacenamiento

Proporcione hasta 900 PB de almacenamiento automatizado de bajo costo

Biblioteca de cintas IBM System Storage TS3500

Problemas de esta pregunta

  • Pensé que "manejar y procesar" significaría que tienen que almacenar esta cantidad de información, pero la fuente no dice eso.
  • No está claro qué significa exactamente "manejar y procesar". Debe mencionarse especialmente el rendimiento.
No hay ningún reclamo significativo aquí. “proceso” requiere una medida de rendimiento , no de volumen. "procesar X bytes" no tiene sentido, "procesar X bytes por segundo " tendría sentido. Tal vez la pregunta era si el centro puede almacenar tantos datos en lugar de procesarlos. Si es así, esa es una afirmación fundamentalmente diferente: el procesamiento no implica almacenamiento, y el almacenamiento solo implica procesamiento de manera intangible.
Ah, sí, esto podría ser 'interesante', en caso de que no uses "zettabytes" todos los días: xkcd.com/992
En sus cálculos de precios faltan 1) el hecho de que la NSA claramente compraría a granel, lo que probablemente reduciría el precio por unidad y 2) la tecnología disponible para el público en general, en cualquier rango de precios, casi con certeza no es la igual que la tecnología disponible para una agencia gubernamental de autorización de máxima seguridad .
@Shadur "la tecnología disponible para el público en general, en cualquier rango de precios, casi con seguridad no es la misma que la tecnología disponible para una agencia gubernamental de autorización de máxima seguridad". - ¿Por qué piensas eso?
@martinthoma gps.gov/systems/gps/performance/accuracy sería el ejemplo más rápido, pero se reduce a que, por lo general, puede confiar en los gobiernos y las agencias militares para mantener sus juguetes más brillantes cerca de su pecho y no dejar que los civiles jugar con ellos hasta que tengan algo mejor para ellos.
@Shadur Creo que hay una gran diferencia. Los satélites no son utilizados por muchos consumidores y no son producidos por muchas organizaciones. En cambio, la urgencia de almacenar grandes cantidades de datos la tienen muchas empresas. El GPS fue desarrollado por el Departamento de Defensa y solo existen alternativas de Rusia, la UE y China. Conseguir algo utilizable para la navegación global es increíblemente caro. Pero muchas empresas desarrollan soluciones de almacenamiento. El desarrollo de soluciones utilizables es comparativamente simple y barato. Por lo tanto, no creo que haya tecnologías de almacenamiento disponibles para la NSA que no estén disponibles para el público (rico)

Respuestas (4)

Esta respuesta es altamente especulativa ya que la NSA no ha dado ninguna indicación sobre la capacidad de la instalación. Además, esta es una pregunta muy difícil de digerir porque no tenemos indicios de la cantidad de datos que realmente buscan almacenar.

Para examinar la primera afirmación de que procesan hasta cinco zettabytes de datos, esto parece plausible. Sabemos que el Gran Colisionador de Hadrones (LHC) genera un petabyte de datos por segundo y almacena veinticinco petabytes de datos por año 1 . Usando algunas matemáticas simples,

1 zettabyte = 1,048,576 petabytes
1,048,576 seconds = 12.1363 days

1 zettabyte every 12.1363 days 
or about 30 zettabytes of data a year

De acuerdo con el pronóstico de Cisco , el mundo está en camino de tener 1,4 zettabytes de tráfico IP global por año para fines de 2017. Por lo tanto, cualquiera que esté involucrado en el procesamiento de esos datos necesitaría tener capacidad de procesamiento de zettabytes y dado que el LHC ya tiene podemos concluir que es probable que una agencia como la NSA diseñe eso en el sistema. Además, eso solo incluye el tráfico IP y otras comunicaciones de voz y datos que viajan a través de otros sistemas.

Con respecto al almacenamiento de datos, el número común parece ser cinco zettabytes, por lo que lo examinaremos. La capacidad para el sistema de almacenamiento de exabytes ya existe comercialmente. IBM fabrica la biblioteca de cintas System Storage TS3500 que ofrece hasta 2,7 exabytes de datos, específicamente,

Hasta 180 PB comprimidos con 3592 cartuchos de capacidad extendida por biblioteca, hasta 2,7 EB comprimidos por complejo

El espacio físico de un solo marco es de 70,9 pulgadas de alto × 30,8 pulgadas de ancho × 47,7 pulgadas de profundidad (1800 mm × 782 mm × 1212 mm) o un espacio de alrededor de 10,2 pies cuadrados. (0,9 m2), lo que lo coloca en el rango de la mayoría de las dimensiones de rack de 42U . Para alcanzar los 2,7 exabytes completos, se necesitan 15 bibliotecas, cada una de las cuales necesitaría 16 marcos, lo que nos da 2448 pies cuadrados (227,4 metros cuadrados). La cantidad de espacio adicional necesario debido al flujo de aire y al acceso al sistema es bastante compleja , por lo que si se excluye de la ecuación,

2.7 exabytes per complex with a footprint of 2,448 sq.ft.
1 zettabyte = 1024 exabytes
1024 / 2.7 = 379.2 systems, so say 380 systems
380 * 2,448 sq.ft = 930,240 sq.ft per zettabyte

Esto nos da alrededor de 4,651,200 pies cuadrados. (432.110,62 m2) por la cifra de 5 zettabytes normalmente dada. Incluso el almacenamiento de un solo zettabyte utilizando los sistemas parece estar fuera de los límites de 100 000 pies cuadrados. para las salas de datos que tendrá el Centro de datos de Utah y mucho menos los 1 a 1,5 millones de pies cuadrados. tamaño dado para el conjunto como un todo.

Basado en esto, las afirmaciones de que almacenará cinco zettabytes de datos son dudosas; sin embargo, estos cálculos se basan en un sistema disponible comercialmente, por lo que es posible que tengan una huella más pequeña para lo que están usando. Sin embargo, dicho esto, incluso el almacenamiento de un solo zettabyte es probablemente un tramo extremo dado lo que hay en el mercado comercial. Sin embargo, en 2010, IBM Research anunció un nuevo récord en almacenamiento en cinta con una capacidad potencial de 35 terabytes de almacenamiento sin comprimir por cartucho. La oferta actual de gama alta de IBM es el cartucho de cinta 3592 que almacena hasta 4 terabytes.

La biblioteca de cintas TS3500 antes mencionada tiene capacidad para 225.000 cartuchos de cinta, por lo que si cada uno de los cartuchos tuviera una capacidad de 35 terabytes, el almacenamiento complejo total de TS3500 sería de aproximadamente 7,51 exabytes de almacenamiento. Si aplicamos estos valores actualizados a los cálculos anteriores,

7.51 exabytes per complex with a footprint of 2,448 sq.ft.
1 zettabyte = 1024 exabytes
1024 / 7.51 = 136.4 systems, so say 137 systems
137 * 2,448 sq.ft = 335,376 sq.ft per zettabyte

Entonces, incluso con eso, las salas de datos aún son demasiado pequeñas para almacenar un solo zettabyte, aunque ahora estamos en el rango en el que el complejo en su conjunto podría ser capaz de almacenar uno o dos zettabytes en condiciones ideales.

Por supuesto, requiere el uso de almacenamiento de datos en cinta, que es muy lento ; sin embargo, sin saber exactamente qué está haciendo la NSA con los datos, no podemos especular si les preocupan las velocidades de acceso o no. Además, las técnicas de indexación de metadatos significan que los datos sin procesar pueden no ser necesarios para la mayoría de los procesamientos, por lo que la latencia relacionada con el almacenamiento en cinta puede no ser una preocupación para la NSA. Ya sabemos que tienen bases de datos de metadatos a gran escala, por lo que es muy probable que utilicen dichas técnicas para trabajar con datos de cinta .

En resumen, las afirmaciones sobre la cantidad de datos que podrían almacenarse y procesarse actualmente son inverosímiles dado el tamaño de la instalación y el estado actual de la técnica y los sistemas comercialmente disponibles. Sin embargo, la afirmación de que podrían estar procesando cinco zettabytes de datos es plausible dada la gran cantidad de tráfico de datos que existe en el mundo y no sabemos cómo están procesando los datos. Si utilizan el examen de curiosidad seguido del descarte de datos no interesantes como el LHC, entonces es posible y sus requisitos reales de almacenamiento de datos también se reducirían.


  1. En el caso del LHC, descartan la mayoría de los datos como "poco interesantes" en lugar de almacenarlos.
  2. Incluso si las salas de datos tienen solo 100,000 pies cuadrados. todavía debería haber espacio suficiente, aunque podría ser menos probable dado que no conocemos la configuración de los edificios.
Incluso si descartan los datos como poco interesantes, todavía los están "manejando y procesando".
El complejo de Utah puede tener 1 millón de pies cuadrados, pero se dice que 900,000 pies cuadrados. de eso son edificios administrativos y de apoyo, mientras que solo 100,000 pies cuadrados. son centros de datos reales
Además, el ejemplo del LHC es simplemente incorrecto. Generan esa cantidad de datos a partir de experimentos, pero no afirman que los datos de los experimentos se procesen en tiempo real.
@vartec, el caso de uso para esta instalación sería realizar un análisis en tiempo real de los datos a medida que ingresan, luego archivar los datos para su posterior recuperación. Ejecutarán Hadoop y demás en las cosas que aspiran hoy, pero solo se accederá a los datos del mes pasado si deciden que sospechas y quieres echar un vistazo más de cerca a tu historial de actividad. Todo es solo almacenar capas en caché :)
También parece que no interpretó correctamente la capacidad/dimensiones de la biblioteca de cintas. 16 cuadros es una biblioteca, no todo el complejo. El complejo completo de 2.7 EB son 15 bibliotecas de 16 marcos cada una.
@rob: lo hiciste. Calculando la capacidad de procesamiento del CERN como si estuvieran procesando datos en tiempo real. ellos no home.web.cern.ch/about/informática
Ok, me retracto de mi anterior comentario negativo. De hecho, es -1 por un error de 15 veces en el tamaño de la biblioteca de cintas y una completa incomprensión del rendimiento del centro de datos del CERN.
@vartec Buena captura de los tamaños complejos, actualicé la respuesta y las conclusiones en consecuencia.
@vartec El uso de LHC todavía parece válido, ya que parte del problema que tiene la gente con zettabytes es si se genera esa cantidad de datos en el mundo.
@rob: lo que pasa con el LHC es que los experimentos duran fracciones de segundo, pero los resultados se analizan en el CERN durante meses. Por lo tanto, pueden capturar una ráfaga de datos, pero no están cerca de un rendimiento sostenido de tales proporciones.
@vartec Eso entra en conflicto con lo que CREN dice que hace - home.web.cern.ch/about/updates/2013/04/… - en resumen, filtran los datos que salen de los detectores y descartan la mayor parte. Luego hay un segundo pase que descarta aún más datos. Después de eso, envían los datos "interesantes" para el análisis que lleva más tiempo. Personalmente, no me sorprendería demasiado si la configuración de la NSA es similar a lo que está haciendo el CERN para los datos del LHC.
@rob: si ignoraran los datos, ¿por qué almacenar zettabytes de ellos?
@vartec ¿La NSA o el LHC? Por lo que puedo decir, el CERN solo almacena petabytes de datos anualmente y nadie ha probado definitivamente que la NSA almacene los cinco zettabytes que la gente afirmó. Podrían ser capaces de almacenar un zettabyte en Utah (probablemente especularía que están entre una combinación de cinta, compresión, deduplicación, etc.) pero cinco zettabytes parecen estar fuera del estado actual del arte dada la cantidad de metros cuadrados.
El área de superficie de la instalación no es toda la historia. Usando múltiples pisos, sótanos, etc., se puede multiplicar fácilmente. Entonces, si tienen 100,000 pies cuadrados. superficie de depósito, y almacén en 3 plantas y 2 sótanos, ya son medio millón de metros cuadrados.
@jwenting Lo sé, pero como no veo que revelen ese tipo de información, no veo cómo se podría tener en cuenta esa confiabilidad. Personalmente, me sorprendería si no hubiera varios subniveles en las salas de datos.
@rob: ¿cuál sería el punto de tener subniveles si está construyendo en un área remota donde la tierra es barata? Su presupuesto es de 1200 millones de dólares, no de 1200 millones de dólares.
@vartec Pues engaño. Entiendo tu punto, y no estoy del todo de acuerdo con Rob sobre la probabilidad, pero es concebible. Tenga en cuenta que durante la Guerra Fría, hubo varios casos de diseño de bases de tal manera, de modo que incluso si el otro lado tuviera imágenes satelitales, realmente no sabrían todo sobre (o la escala de, incluso) la instalación.
@ hunter2 Supongo que depende de cómo defina los subniveles. Dados los edificios, me sorprendería si no hubiera al menos un sótano para infraestructura, pero la pregunta es cuántos hay debajo.
@rob, estoy de acuerdo en que es probable "al menos un sótano para la infraestructura", y que es posible "múltiples subniveles para las salas de datos". Pensé que querías decir que considerarías esto último no solo posible sino probable ("sorprendete si no hubiera múltiples subniveles")... meh, semántica

Hay varias afirmaciones sobre la capacidad de almacenamiento de datos extremadamente grande en Utah, como " El centro de datos de Utah de la NSA podrá manejar y procesar cinco zettabytes de datos " .

Muchos de ellos provienen de estimaciones erróneas de William Binney (exdirector técnico de la NSA), según NPR: http://www.npr.org/2013/06/10/190160772/amid-data-controversy-nsa-builds- su-mayor-granja-de-datos

El Centro de Datos de Utah de la NSA podrá manejar y procesar cinco zettabytes de datos, según William Binney , exdirector técnico de la NSA convertido en denunciante. El cálculo de Binney es una estimación . Una portavoz de la NSA dice que la capacidad real de datos del centro es clasificada.

Aquí está la fotocopia completa de la declaración de Binney para el CASO NO. CV-08-04373-JSW, del 28 de septiembre de 2012: https://www.eff.org/sites/default/files/filenode/binneydeclaration.pdf - página 4 líneas 18-26:

18   11. A futher notable development has been the NSA's public announcement in October 
19  2009 that it was building a massive, $1.2 billion digital storage facility in Ft. Williams, Utah.
20  According to some reports, the Utah facility will eventually have a data storage capacity measured 
21  in yottabytes (10**24 bytes). Even if the Utah facility were to have no more than the amount of data
22  storage that is presently commercially available, then one would expect the data storage to be in the
23  range of multiples of ten exebytes (10**18 bytes). See www.cleversafe.com. (According to 
24  Cleversafe, its ten exebyte storage solution fills no more than tho hundred square feet).

Forbes revisó sus estimaciones y encontró un gran error en cuánto espacio necesitará la solución de Cleversafe para 10 exabytes: http://www.forbes.com/sites/kashmirhill/2013/07/24/blueprints-of-nsa-data-center- en-utah-sugiere-su-capacidad-de-almacenamiento-es-menos-impresionante-de-lo-pensado/

Los planos del centro de datos ridículamente caro de la NSA en Utah sugieren que contiene menos información de lo que se pensaba, 24/7/2013

Binney le dio la estimación de 5 zettabytes a NPR y también la incluyó en una declaración jurada presentada en Jewel vs. NSA...

Su estimación se basa en la suposición de que la instalación podría ofrecer equipos como el desarrollado por Cleversafe. La compañía dice que tiene un sistema de almacenamiento de datos de 10 exabytes que involucra centros de datos portátiles con 21 racks cada uno.

Binney interpretó esto en el sentido de que 21 racks podían contener 10 exabytes y asumió un tamaño de rack eficiente de 4 pies cuadrados,...

leyó mal los materiales de marketing de Cleversafe . De hecho, dicen que 560 centros de datos portátiles de 21 racks cada uno (o 11 760 racks) pueden contener 10 exabytes. ...

Chris Gladwin, fundador de Cleversafe, dice que en enero de 2012, 10 exabytes de sistema de almacenamiento habrían necesitado "alrededor de 2 millones de pies cuadrados".

Entonces, el discurso de marketing de Cleversafe lleva al ex director técnico de la NSA a estimaciones muy equivocadas.

Depende de la interpretación de lo que realmente significa manejar y procesar cinco zettabytes de datos :

  1. tener 5ZB fácilmente disponible para el procesamiento en línea?
  2. ¿Tener 5ZB en el archivo fuera de línea, mientras que solo tiene metadatos disponibles para el procesamiento en línea?
  3. ¿Tener 5ZB de tráfico entrante, descargar la mayor parte, almacenar y procesar solo cosas interesantes?

Almacenamiento en linea

Si va a construir algo tan grande como el centro de datos de la NSA, en lugar de comprar hardware fácilmente disponible, puede optar por compilaciones personalizadas utilizando los estándares de la industria de big data.

Open Compute Storage de Facebook especifica el almacenamiento Open Vault , que está diseñado para albergar 30 unidades de disco duro de 3,5" en una caja de 2U. Lo que con las unidades de disco duro actualmente disponibles significaría una densidad de 120 TB por 2U.

Puede colocar 21 de estos en un rack estándar de 42U de altura y 19" , lo que significa que tendría 2520 TB por rack.

Cada bastidor tiene una base de aproximadamente 0,62 m². Si se añade un espacio libre muy mínimo, 1 m² por rack sería una estimación muy baja.

Eso suponiendo que estaría dispuesto a tener máquinas personalizadas para su centro de datos. De lo contrario, es hardware estándar. Por ejemplo , Dell PowerVault MD1200 configurado con 12 unidades SATA de 4 TB cuesta $ 11,254.21; Eso, por supuesto, es el precio minorista, en el que los pedidos al por mayor obtienen grandes descuentos. Del mismo modo, podría obtener un servidor en la nube como PowerEdge C6145 , que también puede equiparse con 12 unidades SATA de 4 TB. No proporcionan los precios en línea, pero si no recuerdo mal, ese tipo de configuración costaría alrededor de $ 15-20K.

Los dos anteriores le dan una densidad de 48 TB por 2U. Lo que significa 1004TB por rack.

Se informa que el centro de datos de NSA Utah tiene 10 000 m² dedicados a servidores (100 000 m² incluidos los edificios administrativos y de apoyo). Entonces, realmente, una estimación muy alta sería que teóricamente podrían exprimir 25 EB de almacenamiento en la nube allí. Eso es sólo el 0,5% de 5ZB.

Almacenamiento fuera de línea

Si está pensando en archivar datos sin conexión, puede utilizar bibliotecas de cintas. Por lo general, no se usa en Big Data, pero, de nuevo, la NSA no es una empresa típica de Big Data.

El problema es que, incluso con la biblioteca de cintas IBM System Storage TS3500 de mayor densidad , puede almacenar 180 PB por biblioteca, que tiene un espacio de al menos 15 m². Lo que significa que se necesitarían alrededor de 420 000 m² solo para las bibliotecas de cintas. Se estima que todo el complejo NSA Utah tiene "1 millón o 1,5 millones de pies cuadrados" (93 000 m²-149 000 m²), pero también se ha dicho que tiene "100 000 pies cuadrados (9300 m²) de espacio de centro de datos y más de 900 000 pies cuadrados (83,600m²) de soporte técnico y espacio administrativo" ( fuente). El propósito de los edificios puede mantenerse en secreto o ser intencionalmente engañoso, las dimensiones externas no pueden. Claramente, no hay forma de exprimir 5ZB de archivo de cinta allí, incluso si los edificios que se dice que son administrativos en realidad están destinados al archivo de cinta.

metadatos

Entonces, supongamos que incluso si logra archivar de alguna manera 5ZB de datos sin procesar, como calculé anteriormente, incluso si usara todo el espacio de su centro de datos para el procesamiento en línea, eso significaría que está almacenando solo 5KB de metadatos por cada 1 MB de datos. Si bien para los archivos multimedia parece más que suficiente, realmente dudo que pueda lograr una proporción cercana a esa para correos electrónicos, chats, mensajes de texto, tweets, etc. Por supuesto, es posible que filtren información que no les interese y no almacenen metadatos relacionados. a esa información. Pero en ese caso, no tiene sentido archivar esa información fuera de línea, porque no tiene una ruta de acceso, no tiene metadatos que la apunten, ni puede extraer los datos que están archivados en cintas.

Rendimiento

Asumiendo que son 5ZB por año, es un rendimiento sostenido de 570 PB por día o 160 TB por segundo. Dejando de lado el poder de cómputo necesario para procesar eso, la pregunta es cómo se transportarían esos datos allí. La infraestructura de Internet actual no está preparada para ese tipo de tráfico. Tres de los mayores puntos de intercambio de Internet se encuentran en Europa y tienen un rendimiento máximo de 2,2 TBps, 2,1 TBps y 1,6 TBps, respectivamente. EE. UU. va muy por detrás con los principales intercambios solo de EE. UU. que tienen solo 0,28 TBps y 0,25 TBps, otro, Equinix tiene un total de 1,4 TBps en 12 países en 4 continentes. En otras palabras, es completamente inviable enviar 5ZB por año a un centro de datos, especialmente en una ubicación tan remota. Como puede ver, tampoco es necesario, incluso si desea procesar todo el tráfico de Internet.

Conclusión

  1. tener 5ZB fácilmente disponible para el procesamiento en línea?
    físicamente imposible
  2. ¿Tener 5ZB en el archivo fuera de línea, mientras que solo tiene metadatos disponibles para el procesamiento en línea? No es posible con la tecnología actual y los tamaños de los edificios según lo informado
  3. ¿Tener 5ZB de tráfico entrante, descargar la mayor parte, almacenar y procesar solo cosas interesantes? Independientemente del procesamiento, simplemente no es posible tener esa cantidad de tráfico entrante

HighScalability.com tiene una publicación de invitado "PRISM: The Amazingly Low Cost Of Using BigData To Know More About You In Under A Minute" del fundador/CTO de BugSense, Jon Vlachogiannis, y director de infraestructura de BugSense Panagiotis Papadomitsos.

Calculan el almacenamiento necesario como 3.75EB.

DATOS

Facebook: 500 TB/día * 30 = 1,5 PT/mes ( fuente )

Twitter: 8 TB/día * 30 = 240 TB/mes 8 TB/día ( fuente )

Correo electrónico/Otra información: 193PT/mes Google dice 24 PB por día (2008). Cinco años después, supongamos que esto es 8 veces más grande = 192 PB. Ahora, la información real del usuario es 1/3 = 64 PT/día ( fuente )

Tráfico móvil/intercambios de máquina a máquina/vehículos, etc.: 4000 TB por día = 117 PB/mes ( fuente )

Datos totales =~312 PB mes

Costos de hardware

Los precios a continuación corresponden al alquiler de servidores listos para usar de centros de datos comerciales de alta gama (considerando que los datos se almacenarán en una arquitectura de sistema de archivos distribuido como HDFS). Este es el peor de los casos que no incluye los posibles descuentos por alquilar un volumen tan alto de hardware y tráfico o adquirir el hardware antes mencionado (lo que implica una mayor inversión inicial pero menores costos recurrentes). La configuración de hardware utilizada para calcular los costos en este estudio de caso se compone de un chasis de 2U, dos procesadores Intel Hexacore, 16 GB de RAM, 30 TB de espacio utilizable combinado con redundancia a nivel de hardware (RAID5).

Necesitaremos unos 20 000 servidores, colocados en 320 bastidores de 46U. El coste del hardware del servidor se calcula en unos 7,5 millones de euros al mes (incluidos los servidores para los servicios auxiliares). El coste de los racks, la electricidad y el tráfico se calcula en unos 0,5 millones de euros al mes (incluidos los dispositivos auxiliares y el equipo de red).

Coste total de hardware al año para 3,75 EB de almacenamiento de datos: 168 M€


Y comparación con Facebook:

No es ningún secreto que Facebook almacena una gran cantidad de datos: 100 petabytes ( fuente )

Esto supone que conocemos la tecnología de almacenamiento que estaría disponible para la NSA.
@Sancho: ¿por qué nosotros no? cualquier cosa experimental sería a) ridículamente costosa b) tendría que fabricarse completamente en los EE. UU. c) por agencias gubernamentales. A menos que estés pensando en alguna tecnología alienígena de Rosewell...
cualquier cosa experimental sería a) ridículamente costosa b) tendría que fabricarse completamente en los EE. UU. c) por agencias gubernamentales. Sí, esto es en lo que estoy pensando, no en extraterrestres.
@Sancho: aunque WD y Seagate son empresas estadounidenses, tienen accionistas extranjeros y los HDD no se fabrican en EE. UU. Entonces, ¿podrían crear en secreto HDD con una capacidad cientos de veces mayor en secreto solo para la NSA? ¿O tal vez IBM creó cintas especiales de mayor capacidad solo para la NSA? ¿Alguna empresa estaría dispuesta a sacrificar su negocio para complacer a la NSA y mantener el producto asesino del mercado?
Entonces, ¿podrían crear en secreto HDD con una capacidad cientos de veces mayor en secreto solo para la NSA? No sé. ¿O tal vez IBM creó cintas especiales de mayor capacidad solo para la NSA? Quizás. ¿Alguna empresa estaría dispuesta a sacrificar su negocio para complacer a la NSA y mantener el producto asesino del mercado? No sé.
Hay una manera de dar sentido y estar de acuerdo con el reclamo en el OP: 1) Hay cinco zettabytes de datos en el mundo, que la NSA debe procesar; 2) La NSA lo hará desde/utilizando su nueva instalación de procesamiento de datos. Esos "160 TB por segundo" de procesamiento que menciona, por ejemplo, podrían estar (y supongo que lo está) distribuidos en todo el mundo, a menudo ubicados junto con los conmutadores de red o troncales que ejecutan el tráfico. Y ese centro de datos podría ser un/el centro de operaciones, almacenamiento, control y back-end para ese procesamiento (distribuido).
@ChrisW: aunque podría imaginar que el gobierno del Reino Unido. permitiría algo así, no veo forma de que los alemanes o los holandeses lo acepten. Y además, la empresa que opera el intercambio tendría que aceptarlo.
@vartec Los federales están vinculados a conmutadores dentro de los propios EE. UU. Y leí que Cheltenham vigila el tráfico a través de satélites. Las empresas operadoras instalarán las puertas traseras de vigilancia que requieran los gobiernos nacionales. De todos modos, asumo que así es como funciona algo, más o menos: no tiene tanto sentido, para mí, enrutar todo el tráfico sin procesar a través de Utah.
@ChrisW: La NSA puede intimidar fácilmente a las empresas estadounidenses para que cumplan, eso es bastante obvio. No creo que sean tan efectivos en el caso de una empresa extranjera en suelo extranjero, fuera del Reino Unido. GCHQ coopera estrechamente con la NSA, eso lamentablemente es un hecho.
Tomando Alemania y Holanda, por ejemplo, existe tráfico entre Amsterdam y Berlín. O la NSA puede acceder a ese tráfico de alguna manera, en cuyo caso ese tráfico es parte del supuesto conjunto de datos que se procesará, o no puede acceder a él en absoluto (en cuyo caso no es relevante para la pregunta). Ahora, restringiendo el experimento Gedanken al conjunto de todos los datos/tráfico al que la NSA tiene acceso, es plausible que parte/gran parte/la mayor parte de su procesamiento/filtrado se realice en la 'periferia' (de su red), en o cerca de donde estén sus 'grifos' (en la red pública).
Supongo que todos los gobiernos nacionales están monitoreando sus propias redes telefónicas de alguna manera: por ejemplo, hace un tiempo fue de interés periodístico que India quería un mejor acceso de vigilancia a los mensajes generados por los dispositivos Blackberry. Por lo tanto, espero que la mayoría de las empresas operativas tengan accesos y almacenamiento de datos de vigilancia requeridos legalmente. Cuánto de todos esos datos a los que puede acceder la NSA es (parte de) la pregunta.
Informes como En 2008, los estadounidenses consumieron... 3,6 zettabytes y 10 845 billones de palabras, lo que corresponde a 100 500 palabras y 34 gigabytes para una persona promedio en un día promedio. sugiera que los "cinco zettabytes de datos" citados en el OP podrían ser una forma corta/descuidada de decir "el conjunto completo de datos de la NSA".
"Entonces, ¿podrían crear en secreto discos duros con una capacidad cientos de veces mayor en secreto solo para la NSA?" Northrop produjo en secreto bombarderos furtivos solo para la USAF, cazas furtivos Lockheed, hay una historia muy larga de compañías que producen cosas en secreto solo para una agencia gubernamental en su país de origen que podrían haber comercializado comercialmente si no estuviera clasificado lo suficientemente alto como para no permitir eso.
@jwenting: los aviones de combate no son exactamente bienes de consumo, además, mientras que la tecnología furtiva, que no tiene una aplicación civil, se mantuvo en secreto, otras tecnologías, como por ejemplo, el vuelo por cable digital, no lo fueron.
@ChrisW: si se filtrara en una ubicación periférica, eso significaría que no se maneja ni almacena en las instalaciones de Utah, que es de lo que se trata la pregunta.
El principio de @vartec es el mismo. Y muchas de esas cosas se mantuvieron en secreto durante un tiempo. siendo utilizado en aplicaciones militares durante años o, a veces, décadas antes de ser lanzado al público en general.
@ChrisW: la forma en que la cifra de 3.6ZB es un poco ridícula. P.ej. 200 personas viendo una película en el cine se cuentan como equivalentes de consumo en video Full HD sin comprimir. Además, jugar videojuegos se considera aún más extremo, como si fuera un video sin comprimir grabado en resolución nativa (lo que significa que alguien que juega en la pantalla Retina se cuenta como si consumiera un video sin comprimir de 2880 × 1800 a 60 Hz)
@jwentig: ¿puede dar un solo ejemplo de tecnología informática o de telecomunicaciones que se haya mantenido en secreto en los últimos 30 o 40 años?
@vartec Ese es un reclamo separado, para una pregunta separada.
@jwenting: también, si está pensando en tecnologías experimentales como en aviones furtivos, el costo acumulado de B-2 es de $ 2 mil millones por unidad. Todo el centro de datos de la NSA en Utah, incluida la construcción, el personal, etc., tiene un presupuesto de 1200 millones de dólares.

Según los cálculos aproximados realizados por Brewster Kahle, que conoce el almacenamiento de Internet Archive, se necesitan alrededor de 270 petabytes (y $27 millones) para almacenar todas las llamadas telefónicas de EE. UU. durante un año. Por lo tanto, estos números pueden estar más en el orden de magnitud de las expectativas del centro de datos de Utah a corto plazo. http://blog.archive.org/2013/06/15/cost-to-store-all-us-phonecalls-made-in-a-year-in-cloud-storage-so-it-could-be- extraído de datos/