libre, automático, basado en la nube, webscraper?

Hace años, utilicé el módulo Fetch Page de Yahoo Pipes para convertir algunos sitios web actualizados regularmente en canales RSS. Entonces podría usar el resto de sus herramientas para hacer lo que quiera con él.

Recientemente me encontré con un sitio web de audio que se actualiza regularmente y me gustaría crear un feed de podcast a partir de él. Mi primer paso será construir un raspador automático en línea que generará mi feed y luego, con suerte, solo importarlo.

¿Puede sugerir una herramienta actual que me permita raspar un sitio 1) automáticamente 2) y crear un feed que pueda 3) manipular y modificar para obtener un feed de podcast?

He hecho cosas como esta con RSS en el pasado, pero nunca hemos podcasts, así que si hay algún obstáculo que no estoy considerando, me gustaría saberlo.

Respuestas (1)

"Gratis" o "basado en la nube" - elija uno :-)

La ejecución de servicios alojados cuesta dinero, por lo que la mayoría de los servicios en la nube, si no todos, ofrecen solo una prueba limitada o un plan gratuito muy limitado. Dicho esto, aquí hay una buena lista .

Y aquí está mi lista personal de herramientas de automatización web y de raspado web autohospedadas que he usado en el pasado con mucho éxito:

Herramientas con grabadora (fácil de usar, pero de ejecución lenta, buena para el raspado de bajo volumen con sitios que cambian a menudo):

  • Navegador iMacros
  • Navegador Kantu

Web Scripting frameworks (más complejo, pero rápido, bueno para la extracción de datos de alto volumen)

  • Scrapy
  • Hermosa sopa
Gracias por las sugerencias, pero creo que he revisado todo eso, y no creo que satisfaga mis necesidades. Estoy contento con el raspado poco frecuente o lento, y tampoco tiene que ser súper expresivo. Este es un trabajo relativamente simple, y solo debería haber una herramienta existente, lista para usar y de libre acceso adecuada para ello. Creo que Yahoo! Las tuberías habrían funcionado bien, por ejemplo. Hay muchos servicios gratuitos y basados ​​en la nube de todo tipo (Gmail, Yahoo! Maps, DuckDuckGo, etc.), por lo que estoy esperando que alguien pueda sugerir uno que satisfaga mis necesidades aquí.