Páginas arrastradas más grandes que el documento de origen

Tengo un trabajo académico de 35 páginas foo.pdfcreado con LaTeX. El documento completo ocupa 950 KB.

Quiero extraer las figuras y tablas al final del documento en un archivo separado, así que abro el documento en Vista previa y arrastro las páginas que necesito al escritorio. Esto crea un nuevo archivo, foo (dragged).pdfque es de 2,2 MB.

¿Cómo pueden las últimas 10 páginas de un documento de 35 páginas ser 2,4 veces más grandes que el documento original? ¿OSX está agregando muchos metadatos a estas páginas? Considero esto una curiosidad más que un problema, pero aún así...

Respuestas (2)

Mac OS no optimiza los archivos PDF de la forma en que lo hacen normalmente Acrobat u otras aplicaciones de generación de PDF. También puede ser que cuando arrastra la página al escritorio esté creando un PDF que en realidad es solo un envoltorio para una imagen de mapa de bits.

Puede intentar usar "Exportar como..." haciendo clic con el botón derecho en una miniatura de una página y ver si eso da como resultado archivos más pequeños. Otra opción sería eliminar todas las páginas que no desea conservar y luego guardar el archivo.

Aquí hay un hilo decente sobre cómo optimizar el tamaño de los archivos PDF en Mac OS. https://discusiones.apple.com/thread/3213814?start=0&tstart=0

Los archivos PDF son archivos de texto con algunos campos binarios, por lo que debería poder abrir los dos archivos en un editor de texto (o usar more / vi / grep ) para inspeccionar cada uno. Una herramienta de comparación de archivos también puede ayudarlo a discernir si Preview está recodificando los activos de una manera subóptima.

Automator también tiene algunas herramientas de procesamiento de PDF que incluyen compresión, compresión de imágenes y renderización de páginas como imágenes. Intentaría exportar el PDF resultante desde Vista previa y seleccionar el filtro Quartz de "reducir tamaño de archivo" para ver si eso podría reducir el tamaño.

Puede ver varias preguntas relacionadas donde otros han notado este efecto donde la configuración estándar aumenta el tamaño de algunos tipos de contenido.

Como posdata, un documento de 35 páginas en formato ascii con un peso de 950 K es bastante eficiente, pero también un orden de magnitud más grande que algunos textos básicos que están en el rango de 60 páginas, incluso con ilustraciones en cada página.

Tomemos, por ejemplo, este libro del Proyecto Gutenberg - El gato y el ratón de Hartwell James y John R. Neill

  • Las versiones de texto sin formato (UTF-8) y HTML están en el rango de 70 kB
  • La versión ePub es un elegante 45 kB sin imágenes, pero aumenta a 2,8 MB con imágenes.

Si tomo la versión HTML y la inspecciono en Safari, está claro que los 75 kB son solo el archivo principal de texto/HTML y no todas las imágenes incluidas. Imprimiendo esa página en PDF usando Safari (que usa el mismo motor de renderizado que Vista previa): obtengo un archivo de 3,7 MB que se puede comprimir con el filtro de tamaño de archivo de reducción de cuarzo a 2,2 MB.

Esperamos que estos ejemplos lo ayuden a decidir si generar todas las versiones de sus archivos en LaTeX o vivir con las bibliotecas para la generación de PDF en OS X.