La afirmación que quiero que se examine es
El Centro de Datos de Utah de la NSA podrá manejar y procesar cinco zettabytes de datos.
Creo que "zettabytes" es demasiado grande. Incluso un Exabyte podría ser demasiado para almacenar (ni siquiera hablar de la posibilidad de procesar tal cantidad de datos).
El Centro de Datos de Utah, también conocido como el Centro de Datos de la Iniciativa Nacional de Ciberseguridad Integral de la Comunidad de Inteligencia, es una instalación de almacenamiento de datos para la Comunidad de Inteligencia de los Estados Unidos que está diseñada para almacenar cantidades extremadamente grandes de datos.
Fuente: Wikipedia
La Agencia de Seguridad Nacional está construyendo un centro de datos que potencialmente podría contener yottabytes de datos.
Fuente: cnet.co.uk
El poder estimado de esos recursos informáticos en Utah es tan masivo que requiere el uso de una unidad de espacio de almacenamiento poco conocida: el zettabyte . Cisco cuantifica un zettabyte como la cantidad de datos que llenarían 250 mil millones de DVD. [...] El Centro de datos de Utah de la NSA podrá manejar y procesar cinco zettabytes de datos, según William Binney, ex director técnico de la NSA convertido en denunciante. El cálculo de Binney es una estimación. Una portavoz de la NSA dice que la capacidad real de datos del centro es clasificada.
Fuente: npr.org
Space(1 DVD) = 4.7 GB
Space(250 * 10^9 DVDs) = 250*10^9*4.7 GB = 1175 EB = 1.175 ZB
Como esos números coinciden aproximadamente, supongo que no es un simple error tipográfico en npr.org.
Pero 1 YB = 1000 ZB, entonces esto no coincide.
Además: el dispositivo de almacenamiento más grande que pude encontrar en Amazon con esta búsqueda fue Quantum StorNext AEL500 Archive por $143,918.20. Puede almacenar 399 TB. Esto significa399 TB / $143,918.20 = $0.36 per GigaByte
Entonces, para 5 ZB
necesitaríamos (5 * 10^21 Byte) / (399 * 10^12 Byte) = 1.253*10^7
. Eso significaría que tendría que pagar alrededor de $143,918.20*1.253*10^7 = $1.803 trillion (US dollars)
. Pero:
El Cuerpo de Ingenieros del Ejército de EE. UU. inició esta semana la construcción de un nuevo centro de inteligencia cibernética de la Agencia de Seguridad Nacional en Utah. Ubicada en Camp Williams, 25 millas al sur de Salt Lake City, la instalación de $1.2 mil millones, conocida oficialmente como el Centro de datos de Utah, será responsable de recopilar y agregar los datos de inteligencia entrantes.
Fuente: defencesystems.com
Incluso después de buscar un dispositivo con la relación dólar por gigabyte más baja, no encontré nada más barato que $0.05/GB. Esto significa que podrías bajar a 250 mil millones de dólares estadounidenses, que todavía es demasiado.
Aún más problemático podría ser el consumo de energía.
¿Cometí algún error? ¿Podría esto eventualmente ser cierto (¿Qué está de moda en la ciencia sobre el almacenamiento de datos?) ¿Qué capacidad tienen las grandes empresas como Google / Facebook / Dropbox? ¿Cuánto puede almacenar Wikipedia (especialmente los bienes comunes)?
Proporcione hasta 900 PB de almacenamiento automatizado de bajo costo
Biblioteca de cintas IBM System Storage TS3500
Esta respuesta es altamente especulativa ya que la NSA no ha dado ninguna indicación sobre la capacidad de la instalación. Además, esta es una pregunta muy difícil de digerir porque no tenemos indicios de la cantidad de datos que realmente buscan almacenar.
Para examinar la primera afirmación de que procesan hasta cinco zettabytes de datos, esto parece plausible. Sabemos que el Gran Colisionador de Hadrones (LHC) genera un petabyte de datos por segundo y almacena veinticinco petabytes de datos por año 1 . Usando algunas matemáticas simples,
1 zettabyte = 1,048,576 petabytes
1,048,576 seconds = 12.1363 days
1 zettabyte every 12.1363 days
or about 30 zettabytes of data a year
De acuerdo con el pronóstico de Cisco , el mundo está en camino de tener 1,4 zettabytes de tráfico IP global por año para fines de 2017. Por lo tanto, cualquiera que esté involucrado en el procesamiento de esos datos necesitaría tener capacidad de procesamiento de zettabytes y dado que el LHC ya tiene podemos concluir que es probable que una agencia como la NSA diseñe eso en el sistema. Además, eso solo incluye el tráfico IP y otras comunicaciones de voz y datos que viajan a través de otros sistemas.
Con respecto al almacenamiento de datos, el número común parece ser cinco zettabytes, por lo que lo examinaremos. La capacidad para el sistema de almacenamiento de exabytes ya existe comercialmente. IBM fabrica la biblioteca de cintas System Storage TS3500 que ofrece hasta 2,7 exabytes de datos, específicamente,
Hasta 180 PB comprimidos con 3592 cartuchos de capacidad extendida por biblioteca, hasta 2,7 EB comprimidos por complejo
El espacio físico de un solo marco es de 70,9 pulgadas de alto × 30,8 pulgadas de ancho × 47,7 pulgadas de profundidad (1800 mm × 782 mm × 1212 mm) o un espacio de alrededor de 10,2 pies cuadrados. (0,9 m2), lo que lo coloca en el rango de la mayoría de las dimensiones de rack de 42U . Para alcanzar los 2,7 exabytes completos, se necesitan 15 bibliotecas, cada una de las cuales necesitaría 16 marcos, lo que nos da 2448 pies cuadrados (227,4 metros cuadrados). La cantidad de espacio adicional necesario debido al flujo de aire y al acceso al sistema es bastante compleja , por lo que si se excluye de la ecuación,
2.7 exabytes per complex with a footprint of 2,448 sq.ft.
1 zettabyte = 1024 exabytes
1024 / 2.7 = 379.2 systems, so say 380 systems
380 * 2,448 sq.ft = 930,240 sq.ft per zettabyte
Esto nos da alrededor de 4,651,200 pies cuadrados. (432.110,62 m2) por la cifra de 5 zettabytes normalmente dada. Incluso el almacenamiento de un solo zettabyte utilizando los sistemas parece estar fuera de los límites de 100 000 pies cuadrados. para las salas de datos que tendrá el Centro de datos de Utah y mucho menos los 1 a 1,5 millones de pies cuadrados. tamaño dado para el conjunto como un todo.
Basado en esto, las afirmaciones de que almacenará cinco zettabytes de datos son dudosas; sin embargo, estos cálculos se basan en un sistema disponible comercialmente, por lo que es posible que tengan una huella más pequeña para lo que están usando. Sin embargo, dicho esto, incluso el almacenamiento de un solo zettabyte es probablemente un tramo extremo dado lo que hay en el mercado comercial. Sin embargo, en 2010, IBM Research anunció un nuevo récord en almacenamiento en cinta con una capacidad potencial de 35 terabytes de almacenamiento sin comprimir por cartucho. La oferta actual de gama alta de IBM es el cartucho de cinta 3592 que almacena hasta 4 terabytes.
La biblioteca de cintas TS3500 antes mencionada tiene capacidad para 225.000 cartuchos de cinta, por lo que si cada uno de los cartuchos tuviera una capacidad de 35 terabytes, el almacenamiento complejo total de TS3500 sería de aproximadamente 7,51 exabytes de almacenamiento. Si aplicamos estos valores actualizados a los cálculos anteriores,
7.51 exabytes per complex with a footprint of 2,448 sq.ft.
1 zettabyte = 1024 exabytes
1024 / 7.51 = 136.4 systems, so say 137 systems
137 * 2,448 sq.ft = 335,376 sq.ft per zettabyte
Entonces, incluso con eso, las salas de datos aún son demasiado pequeñas para almacenar un solo zettabyte, aunque ahora estamos en el rango en el que el complejo en su conjunto podría ser capaz de almacenar uno o dos zettabytes en condiciones ideales.
Por supuesto, requiere el uso de almacenamiento de datos en cinta, que es muy lento ; sin embargo, sin saber exactamente qué está haciendo la NSA con los datos, no podemos especular si les preocupan las velocidades de acceso o no. Además, las técnicas de indexación de metadatos significan que los datos sin procesar pueden no ser necesarios para la mayoría de los procesamientos, por lo que la latencia relacionada con el almacenamiento en cinta puede no ser una preocupación para la NSA. Ya sabemos que tienen bases de datos de metadatos a gran escala, por lo que es muy probable que utilicen dichas técnicas para trabajar con datos de cinta .
En resumen, las afirmaciones sobre la cantidad de datos que podrían almacenarse y procesarse actualmente son inverosímiles dado el tamaño de la instalación y el estado actual de la técnica y los sistemas comercialmente disponibles. Sin embargo, la afirmación de que podrían estar procesando cinco zettabytes de datos es plausible dada la gran cantidad de tráfico de datos que existe en el mundo y no sabemos cómo están procesando los datos. Si utilizan el examen de curiosidad seguido del descarte de datos no interesantes como el LHC, entonces es posible y sus requisitos reales de almacenamiento de datos también se reducirían.
Hay varias afirmaciones sobre la capacidad de almacenamiento de datos extremadamente grande en Utah, como " El centro de datos de Utah de la NSA podrá manejar y procesar cinco zettabytes de datos " .
Muchos de ellos provienen de estimaciones erróneas de William Binney (exdirector técnico de la NSA), según NPR: http://www.npr.org/2013/06/10/190160772/amid-data-controversy-nsa-builds- su-mayor-granja-de-datos
El Centro de Datos de Utah de la NSA podrá manejar y procesar cinco zettabytes de datos, según William Binney , exdirector técnico de la NSA convertido en denunciante. El cálculo de Binney es una estimación . Una portavoz de la NSA dice que la capacidad real de datos del centro es clasificada.
Aquí está la fotocopia completa de la declaración de Binney para el CASO NO. CV-08-04373-JSW, del 28 de septiembre de 2012: https://www.eff.org/sites/default/files/filenode/binneydeclaration.pdf - página 4 líneas 18-26:
18 11. A futher notable development has been the NSA's public announcement in October
19 2009 that it was building a massive, $1.2 billion digital storage facility in Ft. Williams, Utah.
20 According to some reports, the Utah facility will eventually have a data storage capacity measured
21 in yottabytes (10**24 bytes). Even if the Utah facility were to have no more than the amount of data
22 storage that is presently commercially available, then one would expect the data storage to be in the
23 range of multiples of ten exebytes (10**18 bytes). See www.cleversafe.com. (According to
24 Cleversafe, its ten exebyte storage solution fills no more than tho hundred square feet).
Forbes revisó sus estimaciones y encontró un gran error en cuánto espacio necesitará la solución de Cleversafe para 10 exabytes: http://www.forbes.com/sites/kashmirhill/2013/07/24/blueprints-of-nsa-data-center- en-utah-sugiere-su-capacidad-de-almacenamiento-es-menos-impresionante-de-lo-pensado/
Los planos del centro de datos ridículamente caro de la NSA en Utah sugieren que contiene menos información de lo que se pensaba, 24/7/2013
Binney le dio la estimación de 5 zettabytes a NPR y también la incluyó en una declaración jurada presentada en Jewel vs. NSA...
Su estimación se basa en la suposición de que la instalación podría ofrecer equipos como el desarrollado por Cleversafe. La compañía dice que tiene un sistema de almacenamiento de datos de 10 exabytes que involucra centros de datos portátiles con 21 racks cada uno.
Binney interpretó esto en el sentido de que 21 racks podían contener 10 exabytes y asumió un tamaño de rack eficiente de 4 pies cuadrados,...
leyó mal los materiales de marketing de Cleversafe . De hecho, dicen que 560 centros de datos portátiles de 21 racks cada uno (o 11 760 racks) pueden contener 10 exabytes. ...
Chris Gladwin, fundador de Cleversafe, dice que en enero de 2012, 10 exabytes de sistema de almacenamiento habrían necesitado "alrededor de 2 millones de pies cuadrados".
Entonces, el discurso de marketing de Cleversafe lleva al ex director técnico de la NSA a estimaciones muy equivocadas.
Depende de la interpretación de lo que realmente significa manejar y procesar cinco zettabytes de datos :
Si va a construir algo tan grande como el centro de datos de la NSA, en lugar de comprar hardware fácilmente disponible, puede optar por compilaciones personalizadas utilizando los estándares de la industria de big data.
Open Compute Storage de Facebook especifica el almacenamiento Open Vault , que está diseñado para albergar 30 unidades de disco duro de 3,5" en una caja de 2U. Lo que con las unidades de disco duro actualmente disponibles significaría una densidad de 120 TB por 2U.
Puede colocar 21 de estos en un rack estándar de 42U de altura y 19" , lo que significa que tendría 2520 TB por rack.
Cada bastidor tiene una base de aproximadamente 0,62 m². Si se añade un espacio libre muy mínimo, 1 m² por rack sería una estimación muy baja.
Eso suponiendo que estaría dispuesto a tener máquinas personalizadas para su centro de datos. De lo contrario, es hardware estándar. Por ejemplo , Dell PowerVault MD1200 configurado con 12 unidades SATA de 4 TB cuesta $ 11,254.21; Eso, por supuesto, es el precio minorista, en el que los pedidos al por mayor obtienen grandes descuentos. Del mismo modo, podría obtener un servidor en la nube como PowerEdge C6145 , que también puede equiparse con 12 unidades SATA de 4 TB. No proporcionan los precios en línea, pero si no recuerdo mal, ese tipo de configuración costaría alrededor de $ 15-20K.
Los dos anteriores le dan una densidad de 48 TB por 2U. Lo que significa 1004TB por rack.
Se informa que el centro de datos de NSA Utah tiene 10 000 m² dedicados a servidores (100 000 m² incluidos los edificios administrativos y de apoyo). Entonces, realmente, una estimación muy alta sería que teóricamente podrían exprimir 25 EB de almacenamiento en la nube allí. Eso es sólo el 0,5% de 5ZB.
Si está pensando en archivar datos sin conexión, puede utilizar bibliotecas de cintas. Por lo general, no se usa en Big Data, pero, de nuevo, la NSA no es una empresa típica de Big Data.
El problema es que, incluso con la biblioteca de cintas IBM System Storage TS3500 de mayor densidad , puede almacenar 180 PB por biblioteca, que tiene un espacio de al menos 15 m². Lo que significa que se necesitarían alrededor de 420 000 m² solo para las bibliotecas de cintas. Se estima que todo el complejo NSA Utah tiene "1 millón o 1,5 millones de pies cuadrados" (93 000 m²-149 000 m²), pero también se ha dicho que tiene "100 000 pies cuadrados (9300 m²) de espacio de centro de datos y más de 900 000 pies cuadrados (83,600m²) de soporte técnico y espacio administrativo" ( fuente). El propósito de los edificios puede mantenerse en secreto o ser intencionalmente engañoso, las dimensiones externas no pueden. Claramente, no hay forma de exprimir 5ZB de archivo de cinta allí, incluso si los edificios que se dice que son administrativos en realidad están destinados al archivo de cinta.
Entonces, supongamos que incluso si logra archivar de alguna manera 5ZB de datos sin procesar, como calculé anteriormente, incluso si usara todo el espacio de su centro de datos para el procesamiento en línea, eso significaría que está almacenando solo 5KB de metadatos por cada 1 MB de datos. Si bien para los archivos multimedia parece más que suficiente, realmente dudo que pueda lograr una proporción cercana a esa para correos electrónicos, chats, mensajes de texto, tweets, etc. Por supuesto, es posible que filtren información que no les interese y no almacenen metadatos relacionados. a esa información. Pero en ese caso, no tiene sentido archivar esa información fuera de línea, porque no tiene una ruta de acceso, no tiene metadatos que la apunten, ni puede extraer los datos que están archivados en cintas.
Asumiendo que son 5ZB por año, es un rendimiento sostenido de 570 PB por día o 160 TB por segundo. Dejando de lado el poder de cómputo necesario para procesar eso, la pregunta es cómo se transportarían esos datos allí. La infraestructura de Internet actual no está preparada para ese tipo de tráfico. Tres de los mayores puntos de intercambio de Internet se encuentran en Europa y tienen un rendimiento máximo de 2,2 TBps, 2,1 TBps y 1,6 TBps, respectivamente. EE. UU. va muy por detrás con los principales intercambios solo de EE. UU. que tienen solo 0,28 TBps y 0,25 TBps, otro, Equinix tiene un total de 1,4 TBps en 12 países en 4 continentes. En otras palabras, es completamente inviable enviar 5ZB por año a un centro de datos, especialmente en una ubicación tan remota. Como puede ver, tampoco es necesario, incluso si desea procesar todo el tráfico de Internet.
HighScalability.com tiene una publicación de invitado "PRISM: The Amazingly Low Cost Of Using BigData To Know More About You In Under A Minute" del fundador/CTO de BugSense, Jon Vlachogiannis, y director de infraestructura de BugSense Panagiotis Papadomitsos.
Calculan el almacenamiento necesario como 3.75EB.
DATOS
Facebook: 500 TB/día * 30 = 1,5 PT/mes ( fuente )
Twitter: 8 TB/día * 30 = 240 TB/mes 8 TB/día ( fuente )
Correo electrónico/Otra información: 193PT/mes Google dice 24 PB por día (2008). Cinco años después, supongamos que esto es 8 veces más grande = 192 PB. Ahora, la información real del usuario es 1/3 = 64 PT/día ( fuente )
Tráfico móvil/intercambios de máquina a máquina/vehículos, etc.: 4000 TB por día = 117 PB/mes ( fuente )
Datos totales =~312 PB mes
Costos de hardware
Los precios a continuación corresponden al alquiler de servidores listos para usar de centros de datos comerciales de alta gama (considerando que los datos se almacenarán en una arquitectura de sistema de archivos distribuido como HDFS). Este es el peor de los casos que no incluye los posibles descuentos por alquilar un volumen tan alto de hardware y tráfico o adquirir el hardware antes mencionado (lo que implica una mayor inversión inicial pero menores costos recurrentes). La configuración de hardware utilizada para calcular los costos en este estudio de caso se compone de un chasis de 2U, dos procesadores Intel Hexacore, 16 GB de RAM, 30 TB de espacio utilizable combinado con redundancia a nivel de hardware (RAID5).
Necesitaremos unos 20 000 servidores, colocados en 320 bastidores de 46U. El coste del hardware del servidor se calcula en unos 7,5 millones de euros al mes (incluidos los servidores para los servicios auxiliares). El coste de los racks, la electricidad y el tráfico se calcula en unos 0,5 millones de euros al mes (incluidos los dispositivos auxiliares y el equipo de red).
Coste total de hardware al año para 3,75 EB de almacenamiento de datos: 168 M€
Y comparación con Facebook:
No es ningún secreto que Facebook almacena una gran cantidad de datos: 100 petabytes ( fuente )
Según los cálculos aproximados realizados por Brewster Kahle, que conoce el almacenamiento de Internet Archive, se necesitan alrededor de 270 petabytes (y $27 millones) para almacenar todas las llamadas telefónicas de EE. UU. durante un año. Por lo tanto, estos números pueden estar más en el orden de magnitud de las expectativas del centro de datos de Utah a corto plazo. http://blog.archive.org/2013/06/15/cost-to-store-all-us-phonecalls-made-in-a-year-in-cloud-storage-so-it-could-be- extraído de datos/
Konrad Rodolfo
cazador2
Shadur
Martín Tomas
Shadur
Martín Tomas