¿Cómo deberíamos pasar de Stack Exchange Q/A a PDF publicable con la menor molestia?

En otro sitio, estamos hablando de tomar parte de nuestro contenido (sobre un tema en particular) y volver a empaquetarlo como un PDF imprimible. (El caso de uso principal es el papel). Esto no sería un volcado directo de las publicaciones originales; a veces desea editar algunos para una audiencia diferente, los enlaces no funcionan, etc. Actualmente estamos pensando en usar metaposts para facilitar esta edición (para que podamos compartir esa parte del trabajo).

Mi pregunta es: ¿cuál es la mejor manera de pasar de esas publicaciones al producto final, conservando la mayor cantidad de formato posible para que no tengamos que volver a hacerlo? Uno podría trabajar con Markdown (¿hay traductores para eso a otros formatos?), o con el HTML generado (la página web real). O uno podría cortar/pegar en su herramienta de creación de documentos favorita, lo que suena como una elección desafortunada porque requiere mucha mano de obra y el formato no seguiría. Una consideración adicional es que parte de nuestro contenido está en hebreo (por lo que no es ASCII).

Me doy cuenta de que me estoy acercando peligrosamente a "demasiado localizado", pero parece que las mismas técnicas que se usan para wikis y blogs también podrían aplicarse aquí.

::se rasca la cabeza:: ¿Por qué hacer una pregunta de codificación a los escritores? ¿Por qué no desbordamiento de pila?
@LaurenIpsum, no sé si "escribir XSLT (o lo que sea) para transformar la fuente" es realmente el mejor enfoque en comparación con un proceso más manual: análisis de costo/beneficio, flexibilidad, etc. ¿consideraciones? Parecía estar en línea con una pregunta que teníamos sobre la publicación de libros electrónicos, así que pensé en probar aquí primero.
Hmm, no habría hecho la conexión con un libro electrónico, pero tienes razón; hay una cierta lógica en ello.
Entonces, si lo sigo, ¿está buscando una manera de conservar cursiva/negrita/otro formato en papel sin involucrar a un ser humano? ¿Habrá un pase de revisión/edición?
@NeilFein, sí y sí. La idea es ensamblar una versión publicable de las preguntas y respuestas (editadas, enlaces eliminados o convertidos en explicaciones, lo que sea que haga que el contenido funcione en papel), y luego tomar esas gotas de información y... hacerles algo. Nuestra esperanza es que una vez que hagamos eso, la única edición adicional que sería necesaria sería arreglar los artefactos de formato como los saltos de página incorrectos.
Esto NO es una recomendación, pero ebookglue.com es un ejemplo de una herramienta en línea que demuestra que lo que desea hacer puede automatizarse. Véase también el Creador de libros de Wikipedia .

Respuestas (2)

Hemos aprendido a través de la experimentación que una versión lo suficientemente nueva de Microsoft Word (probamos con 2010) admite cortar y pegar con conservación de formato de las publicaciones de Stack Exchange. Elaboramos algunas pautas de formato para darle forma al contenido (por ejemplo, desvincular, ya que esto es para papel). Esto todavía implica cortar y pegar manualmente desde el navegador en algún otro programa (por ejemplo, Word), pero resulta que no necesitamos extraer el HTML fuente o Markdown para trabajar después de todo, por lo que para un proyecto pequeño podemos vivir con eso.

Si solo desea convertir un puñado de páginas en PDF, puede hacerlo en Microsoft Word y probablemente estará bien.

Si desea convertir una gran cantidad de páginas web en archivos PDF y desea preservar su comestibilidad y eliminar información innecesaria, le sugiero encarecidamente lo siguiente:

Exporte la página web con la información de origen como HTML. Abra la página guardada en Adobe Dreamweaver (o similar) y realice todos los cambios en el texto y el diseño de la página en HTML y luego guarde el nuevo contenido nuevamente como HTML. Cuando se hayan realizado todos los cambios finales, cree el PDF a partir del HTML en Adobe Acrobat (o similar).

¿Por qué esto y no Word? Dos razones.

Primero, encuentro que Word tiende a estropearse cuando cortas y pegas desde la web. Las cosas tienden a fluir incorrectamente y desenredarlo tiende a ser bastante frustrante. Su experiencia puede variar.

Dos, si desea pensar en el futuro y eventualmente crear un ePub o un libro Kindle o lo que sea, he encontrado en mis experiencias que obtiene mejores resultados cuando crea su libro electrónico desde HTML en lugar de MS Word o incluso archivos PDF.

Si quiere pensar en el futuro, es mejor manejar su producto una vez a través de la edición de HTML que manejarlo dos veces a través de Word.