Herramienta para extraer texto de HTML

Question

Tomás Weller

Tener un sitio web, me gustaría extraer contenido de él. Hasta ahora he estado usando Regex en Notepad++, pero

He leído sobre las posibles respuestas 1 , 2 , 3 y 4 , pero todas se reducen a Python+Scrapy o JSoup.

Estoy buscando una herramienta para no programadores que
permite al usuario seleccionar elementos visualmente (no necesariamente en HTML renderizado, también podría estar en fuente HTML)
construye una lista de "XPaths" (o similar, la comprensión de XML XPath está disponible)
más tarde puede volver a ejecutar la extracción sin GUI en un trabajo programado

Otros requerimientos

Igor Savinkin · Answer 1

herramienta para no programadores

construye una lista de "XPaths"

Requisitos casi contradictorios, pero aún así algunos software de raspado prominentes son buenos en ambos. Vea la lista de ellos:

Capturador de contenido : vuelva a ejecutar un proyecto como un agente de raspado independiente.
CloudScrape - volver a ejecutar a través de API
Rascador de helio : programe a través del Programador de tareas de Windows
Screen Scraper : programe a través del Programador de tareas de Windows
Extractor de contenido web : programe a través del Programador de tareas de Windows

Bienvenido a Recomendaciones de software. Una de las reglas aquí es que debe tener experiencia con las herramientas que sugiere. Otra regla es que debe mencionar cómo el software cumple con los requisitos. ¿Todos ellos proporcionan un lenguaje similar a XPath y proporcionan una herramienta de línea de comandos para volver a ejecutar la extracción?
Las listas de respuestas sin una descripción detallada del producto generalmente están mal vistas. Es posible que desee consultar ¿Qué se requiere para que una respuesta sea de alta calidad?
CloudScrape es un servicio web, no una aplicación. "Todo en la nube"
@Thomas, cierto; sin embargo, coincide con todos los demás criterios...