Hace años, utilicé el módulo Fetch Page de Yahoo Pipes para convertir algunos sitios web actualizados regularmente en canales RSS. Entonces podría usar el resto de sus herramientas para hacer lo que quiera con él.
Recientemente me encontré con un sitio web de audio que se actualiza regularmente y me gustaría crear un feed de podcast a partir de él. Mi primer paso será construir un raspador automático en línea que generará mi feed y luego, con suerte, solo importarlo.
¿Puede sugerir una herramienta actual que me permita raspar un sitio 1) automáticamente 2) y crear un feed que pueda 3) manipular y modificar para obtener un feed de podcast?
He hecho cosas como esta con RSS en el pasado, pero nunca hemos podcasts, así que si hay algún obstáculo que no estoy considerando, me gustaría saberlo.
"Gratis" o "basado en la nube" - elija uno :-)
La ejecución de servicios alojados cuesta dinero, por lo que la mayoría de los servicios en la nube, si no todos, ofrecen solo una prueba limitada o un plan gratuito muy limitado. Dicho esto, aquí hay una buena lista .
Y aquí está mi lista personal de herramientas de automatización web y de raspado web autohospedadas que he usado en el pasado con mucho éxito:
Herramientas con grabadora (fácil de usar, pero de ejecución lenta, buena para el raspado de bajo volumen con sitios que cambian a menudo):
Web Scripting frameworks (más complejo, pero rápido, bueno para la extracción de datos de alto volumen)
Jason Hemann