Herramienta para extraer texto de HTML

Tener un sitio web, me gustaría extraer contenido de él. Hasta ahora he estado usando Regex en Notepad++, pero

  1. todos sabemos que no debemos usar Regex para analizar HTML
  2. debido a un rediseño del sitio web, obtener el Regex correcto es casi imposible

He leído sobre las posibles respuestas 1 , 2 , 3 y 4 , pero todas se reducen a Python+Scrapy o JSoup.

  1. Estoy buscando una herramienta para no programadores que
  2. permite al usuario seleccionar elementos visualmente (no necesariamente en HTML renderizado, también podría estar en fuente HTML)
  3. construye una lista de "XPaths" (o similar, la comprensión de XML XPath está disponible)
  4. más tarde puede volver a ejecutar la extracción sin GUI en un trabajo programado

Otros requerimientos

  1. Windows o Ubuntu
  2. la solución comercial está bien

Respuestas (1)

herramienta para no programadores

construye una lista de "XPaths"

Requisitos casi contradictorios, pero aún así algunos software de raspado prominentes son buenos en ambos. Vea la lista de ellos:

Sus breves descripciones .

Bienvenido a Recomendaciones de software. Una de las reglas aquí es que debe tener experiencia con las herramientas que sugiere. Otra regla es que debe mencionar cómo el software cumple con los requisitos. ¿Todos ellos proporcionan un lenguaje similar a XPath y proporcionan una herramienta de línea de comandos para volver a ejecutar la extracción?
Las listas de respuestas sin una descripción detallada del producto generalmente están mal vistas. Es posible que desee consultar ¿Qué se requiere para que una respuesta sea de alta calidad?
@Thomas, he actualizado de acuerdo con tu comentario.
CloudScrape es un servicio web, no una aplicación. "Todo en la nube"
@Thomas, cierto; sin embargo, coincide con todos los demás criterios...