Archivar documentos digitales para un uso a largo plazo [cerrado]

¿Cómo puedo estar seguro de que podremos leer un documento .docx en aproximadamente 100 años? Tengo una gran colección de documentos en mi disco duro (incluyendo cartas, cv y otras cosas). Quiero que sean legibles y accesibles para un futuro próximo (10 años), pero si es posible, ¡hasta 100 años!

¿Qué formato sería recomendable?

¡Bienvenido a Lifehacks! Desafortunadamente, esto no es realmente sobre el tema aquí. Podrías probar Superusuario.

Respuestas (4)

Hay 3 aspectos en esto:

  1. los datos sobreviven;
  2. existe software para leer los datos; y
  3. existe hardware para ejecutar el software.

Para asegurarse de que los datos sobrevivan, cópielos varias veces, en varias cosas (unidad USB, DVD, nube, etc.). Ejecute un programa de comparación de archivos como diff para comprobar que el proceso de copiado funcionó correctamente. Los soportes se degradan con el tiempo, por lo que periódicamente se crean nuevas copias.

Para asegurarse de que exista el software, utilice formatos estándar como PDF. Cada vez que cambie su computadora, asegúrese de que todavía puede abrir y leer los archivos. Si no puede, hable con la persona que produjo el software anterior para que se ejecute en la computadora nueva. Dependiendo de cuán diferentes sean los sistemas antiguo y nuevo, esto podría ser costoso. Sin embargo, esto también se ocupa de garantizar que exista hardware para ejecutar el software.

Guardo todos mis archivos como archivos PDF con copias de seguridad de txt. Ambos formatos están disponibles en Mac/Windows/Linux, y los archivos txt están preparados para el futuro (aunque los pdf son más ordenados).

Cuando se trata de compatibilidad, cuanto más simple, mejor. Me gustaría ofrecer dos sugerencias.

  1. Guarde sus documentos como texto sin formato. Formatos como *.docx de MS Word o *.pdf de Adobe, agregan formato y mucha información adicional en lugar de simplemente almacenar las letras que componen el documento. Así es como obtiene texto centrado, tablas, fuentes diferentes, negrita/cursiva/subrayado, etc. Los archivos de texto simple solo almacenan los códigos ASCII (numéricos) para todos los caracteres en sus documentos: todas las letras, números, símbolos visibles, espacios. y saltos de línea. Si está usando una PC, los archivos de este formato comúnmente usan *.txt y se pueden ver en la aplicación Bloc de notas.

  2. Almacene sus documentos como imágenes de mapa de bits. Esto tomará MUCHO espacio, pero es increíblemente simple y universal. Las imágenes de mapa de bits son simplemente grandes cuadrículas de números. Cada punto de la cuadrícula contiene un número del 0 al 255, que representa el color de ese píxel en la imagen final. Entonces, la idea es "tomar una foto" de sus documentos de texto y guardarla en formato de mapa de bits. (Tenga en cuenta que esta idea no es práctica a corto plazo en absoluto. Los archivos serán enormes y no podrá buscar texto en ellos. Sin embargo, en cien años, si una computadora encuentra un archivo de imagen de mapa de bits, Apostaría todo el dinero que tengo a que la computadora tendrá un programa que pueda mostrarlo).

Yo no confiaría en PDF. Es un formato complejo que parece simple solo porque Adobe creó un software de lectura para múltiples sistemas operativos. (Otras empresas ahora han creado software de lectura). Sería prudente guardar múltiples formatos de cada archivo. Un formato debe ser texto sin formato. No hay formato, aparte de espacios, tabulaciones y retornos. La segunda parte es la forma física. El buen papel se ha mantenido durante cientos de años. Pero la NASA tiene almacenes de cintas de las primeras misiones lunares y ningún lector, ni siquiera las especificaciones para un lector. El USB estándar está a punto de desaparecer. Las computadoras no vienen con unidades de disquete y las unidades de CD/DVD son raras. Espero que las unidades de memoria USB estándar se puedan usar durante otros 10 años, como máximo. No hay forma de almacenar información digital que no requiera monitoreo para asegurarse de que aún es válida. Si el medio se vuelve obsoleto, se puede copiar a algo nuevo. Por cierto, este es un tema de interés para los bibliotecarios.

PDF es un formato abierto: la especificación está disponible y cualquiera puede crear un lector de PDF desde cero. También se está diseñando y comercializando como un formato de almacenamiento a largo plazo (especialmente la variante PDF/A). Eso lo convierte en un buen candidato para el almacenamiento a largo plazo. en.wikipedia.org/wiki/PDF/A
Me gusta la filosofía del W3C de separar el contenido de la presentación: el texto y la estructura más básica del documento están en un archivo (HTML), mientras que todas las cosas sofisticadas están en otro (CSS). Y por "largo plazo" estoy pensando en cientos de años. Más simple es mejor. Además, el archivo de texto será muy pequeño y puede ir junto con el PDF.