Herramienta de raspado web para raspar una página dinámica basada en el día actual

Necesito raspar la página web de un teatro para saber si se han abierto las reservas para la próxima semana. Estoy planeando escribir un raspador si la página tiene el elemento HTML requerido para el próximo viernes según la fecha actual.

Por ejemplo, si la fecha actual es del 4 al 9 de junio, debería raspar la página https://www.spicinemas.in/chennai/show-times/10-06-2016?seats=2

Básicamente, la fecha en la URL será el próximo viernes, ya que es la fecha de lanzamiento.

Para películas específicas, me gusta almacenar el nombre y su fecha de lanzamiento en la base de datos para que tome casos especiales para ellas.

¿Qué herramienta sería óptima y tomaría menos tiempo? Necesito escribir esto para varios sitios web de Movieplex y cada uno tiene un mecanismo diferente para verificar si la reserva se ha abierto.

¿ PhantomJS es adecuado para esto? Por favor recomiende.

¿La herramienta debe estar escrita en Java o Python, o también están bien otros lenguajes de programación?
Está bien si hay otros idiomas. Aparte de Java, tengo que aprender e implementar. No creo que el idioma sea la principal barrera aquí en la implementación.

Respuestas (2)

Si la página es html directa (no basada en flash ni en consultas), debería poder hacer esto muy rápido y simplemente usando las bibliotecas Requests y Beautiful Soup de python .

Lo mejor es que puede probarlo rápidamente usando python o iPython de forma interactiva.

Además de la respuesta de Steve aquí, puede consultar la biblioteca lxml de Python, que es una biblioteca de raspado básico en Python.

Como bibliotecas como Scrapy y Beautiful Soup se escriben como contenedores sobre lxml, es más rápido que ellos y que la mayoría de los raspadores basados ​​en Python.