Todo el texto en el sitio web

¿Tenemos un programa que toma todo el texto en un sitio web? Quería saber porque quiero ver un sitio web completo en texto y cambiarlo un poco.

¿Quiere decir el texto legible real o una representación de texto de una página web (HTML)?
También quiere decir todo el texto en una página web o, como se le preguntó, todo el texto en un sitio (que si el sitio fuera Stack Exchange equivaldría a millones de páginas).
Estoy preguntando acerca de todo el texto en un sitio. ¿Crees que Pandoc hará eso?
@MrPublic Estoy pensando en una representación de texto de un sitio web. ¿Sabes algo que tomará todo el texto en el sitio web?
@SteveBarnes ¿Conoce un programa que toma todo el texto de un sitio?
Sí, un rastreador web como scrapy puede rastrear el sitio solicitando todo el contenido.
¿Tomará todo el texto y lo mostrará en una página/archivo?
@SteveBarnes No sé qué hacer en scrapy. ¿Me mostrarás lo que haría antes de obtener todo el texto en el sitio web?
@user6779864: Hay un buen recorrido en doc.scrapy.org/en/latest/intro/tutorial.html
@SteveBarnes ¿Dónde muestran dónde llevar todo el texto en el sitio web? no lo veo
@SteveBarnes ¿Lo viste en scrapy?
@user6779864 - doc.scrapy.org/en/latest/intro/tutorial.html guarda todo el contenido de las páginas (como html), en la primera sección de la araña y demuestra cómo usar el shell scrapy para obtener el texto de una página.
¿Toma todo o cada texto en un sitio web o solo una página?
@SteveBarnes...
@SteveBarnes ¿Viste o entendiste la pregunta que te mostré?
@user6779864 - Sí: ¿INTENTÓ seguir el recorrido que le muestra exactamente cómo hacer lo que está pidiendo?
@SteveBarnes Oh, ya veo. No hice nada ni me puse nervioso porque no vi nada acerca de tomar todo el texto en el sitio web. Pero voy a ver lo que hace.

Respuestas (1)

Pandoc : "un convertidor de documentos universal" debería estar en el kit de herramientas de casi todos.

Es:

  • Gratis, gratis y de código abierto
  • Casi invaluable

Con él puedes convertir de un formato a otro, incluso de páginas web en línea a texto sin formato.

Para un ejemplo:

pandoc https://en.wikipedia.org/wiki/Pandoc -f html -t plain -o soq.txt

Le está pidiendo a pandoc que descargue la página hmtl sobre sí mismo de Wikipedia y la convierta en texto sin formato que se envíe a un archivo llamado soq.txt. El resultado es el siguiente:

PANDOC

De Wikipedia, la enciclopedia libre

Saltar a: navegación, búsqueda

Pandoc Autor(es) original(es) John MacFarlane Versión inicial 10 de agosto de 2006 (hace 10 años) (2006-08-10) Versión estable 1.19 / 1 de diciembre de 2016 (hace 3 meses) (2016-12-01)

Repositorio github.com/jgm/pandoc Estado de desarrollo Activo Escrito en Haskell Sistema operativo Similar a Unix, OS X, Windows Licencia GNU GPLv2 Sitio web pandoc.org - []Portal de software libre

PANDOC es un convertidor de documentos de software gratuito y de código abierto, ampliamente utilizado como herramienta de escritura (especialmente por académicos) 1 [3][4] y como base para los flujos de trabajo de publicación.[5][6][7] Fue creado originalmente por John MacFarlane, profesor de filosofía en la Universidad de California, Berkeley.[8]

Contenido

  • 1 Formatos de archivo compatibles
  • 2 Integración con gestores de referencia
  • 3 Referencias
  • 4 Enlaces externos

Formatos de archivo compatibles[editar]

El formato de archivo más compatible de Pandoc es una versión extendida de Markdown, pero también puede leer muchas otras formas de lenguaje de marcado ligero, HTML, ReStructuredText, LaTeX, OPML, Org-mode, DocBook y Office Open XML (Microsoft Word .docx) .

Se puede usar para crear archivos en muchos más formatos, incluidos Office Open XML, OpenDocument, HTML, marcado Wiki, InDesign ICML, presentaciones de diapositivas basadas en web,[9] libros electrónicos,[10] OPML y varios formatos TeX (a través de los cuales puede producir un PDF). Tiene soporte incorporado para convertir ecuaciones matemáticas LaTeX a MathML y ​​MathJax, entre otros formatos.

Los complementos para formatos personalizados también se pueden escribir en Lua, que se ha utilizado para crear una herramienta de exportación para Journal Article Tag Suite.[11]

Integración con gestores de referencia[editar]

Un módulo incluido, pandoc-citeproc, permite que el programa use datos del software de gestión de referencias como BibTeX, EndNote, Mendeley o Papers. Tiene la capacidad de integrarse directamente con Zotero.[12] La información se transforma automáticamente en una cita en varios estilos (como APA, Chicago o MLA) utilizando una implementación del Citation Style Language. Esto permite que el programa sirva como una alternativa más simple a LaTeX para producir escritura académica.[13]

Referencias[editar]

  1. ^ Mullen, Lincoln (2012-02-23). "Pandoc convierte todos sus documentos (de texto)". La crónica de los blogs de educación superior: ProfHacker . Consultado el 27 de junio de 2014. 

  2. ^ McDaniel, W. Caleb (2012-09-28). "Por qué (y cómo) escribí mi libro académico en texto sin formato". W. Caleb McDaniel en la Universidad de Rice . Consultado el 27 de junio de 2014. 

  3. ^ Healy, Kieran (2014-01-23). "Texto sin formato, Papeles, Pandoc". Consultado el 27 de junio de 2014. 

  4. ^ Ovadia, Steven (2014). "Markdown para bibliotecarios y académicos". Bibliotecario de Ciencias Sociales y del Comportamiento . 33 (2): 120–124. doi:10.1080/01639269.2014.904696. ISSN 0163-9269. 

  5. ^ Hasta, Kaitlyn; Cobertizo Simas; Velma Larkai (2014-04-14). "The Flying Narwhal: flujo de trabajo de revista pequeña". Publicación @ SFU . Consultado el 27 de junio de 2014. 

  6. ^ Maxwell, Juan (2013-11-01). "Creación de flujos de trabajo de publicación con Pandoc y Git". Publicación @ SFU . Consultado el 27 de junio de 2014. 

  7. ^ Maxwell, Juan (2014-02-26). "Sobre Pandoc". eBound Canadá: Taller de producción digital, Vancouver, BC. Consultado el 27 de junio de 2014. 

  8. ^ "John MacFarlane". Departamento de Filosofía . Universidad de California, Berkeley. Consultado el 25 de julio de 2014. 

  9. ^ Véase como ejemplo MacFarlane, John (2014-05-17). "Pandoc para los hackers de Haskell". BayHac 2014, Mountain View, CA. Consultado el 27 de junio de 2014. El archivo fuente está escrito en Markdown.

  10. ^ Mullen, Lincoln (2012-03-20). "Haz tus propios libros electrónicos con Pandoc". La crónica de los blogs de educación superior: ProfHacker . Consultado el 27 de junio de 2014. 

  11. ^ Fenner, Martín (2013-12-12). "De Markdown a JATS XML en un solo paso". Charlatán . Consultado el 27 de junio de 2014. 

  12. ^ Hetzner, Erik (2014-06-25). "zotxt". Consultado el 27 de junio de 2014. 

  13. ^ Tenen, Dennis; Subvención Wythoff (2014-03-19). "Autoría sostenible en texto sin formato usando Pandoc y Markdown". El historiador de la programación . Consultado el 27 de junio de 2014. 

Enlaces externos[editar]

  • Página web oficial
  • PanDoc y Wikiversidad – PanDocElectron

[]

Obtenido de " https://en.wikipedia.org/w/index.php?title=Pandoc&oldid=756329870 "

Categorías: - Software 2006 - Software libre programado en Haskell - Herramientas de comunicación técnica - Software de flujo de trabajo

Categorías ocultas: - Sitio web oficial diferente en Wikidata y Wikipedia

Menú de Navegación

herramientas personales

  • Sin iniciar sesión

Hablar

Contribuciones

Crear una cuenta

Log in

Espacios de nombres

  • Artículo

    Hablar

variantes

Puntos de vista

  • Leer

Editar

View history

Más

Buscar

Navegación

  • Pagina principal

Contenido

Contenido destacado

Eventos actuales

Artículo aleatorio

Donar a Wikipedia

Wikipedia store

Interacción

  • Ayuda

Acerca de Wikipedia

portal de la comunidad

Cambios recientes

Contact page

Herramientas

  • Que enlaces aqui

Cambios relacionados

Subir archivo

páginas especiales

Enlace Permanente

Información de la página

Elemento de wikidata

Cite this page

Imprimir/exportar

  • crear un libro

Descargar como PDF

Printable version

Idiomas

  • Alemán
  • ingles
  • francés
  • Русский
  • 中文

Editar enlaces

  • Esta página fue modificada por última vez el 23 de diciembre de 2016 a las 14:17.

    El texto está disponible bajo la licencia Creative Commons Attribution-ShareAlike; se pueden aplicar términos adicionales. Al usar este sitio, usted acepta los Términos de uso y la Política de privacidad. Wikipedia® es una marca registrada de Wikimedia Foundation, Inc., una organización sin fines de lucro.

 

Política de privacidad

Acerca de Wikipedia

Descargos de responsabilidad

Contacto Wikipedia

Desarrolladores

Declaración de cookies

Mobile view

 

[Fundación Wikimedia]

[Powered by MediaWiki]