Herramienta de raspado web para raspar una página dinámica basada en el día actual

Question

Herramienta de raspado web para raspar una página dinámica basada en el día actual

html
raspado
Software

babú

Necesito raspar la página web de un teatro para saber si se han abierto las reservas para la próxima semana. Estoy planeando escribir un raspador si la página tiene el elemento HTML requerido para el próximo viernes según la fecha actual.

Por ejemplo, si la fecha actual es del 4 al 9 de junio, debería raspar la página https://www.spicinemas.in/chennai/show-times/10-06-2016?seats=2

Básicamente, la fecha en la URL será el próximo viernes, ya que es la fecha de lanzamiento.

Para películas específicas, me gusta almacenar el nombre y su fecha de lanzamiento en la base de datos para que tome casos especiales para ellas.

¿Qué herramienta sería óptima y tomaría menos tiempo? Necesito escribir esto para varios sitios web de Movieplex y cada uno tiene un mecanismo diferente para verificar si la reserva se ha abierto.

¿ PhantomJS es adecuado para esto? Por favor recomiende.

unor

¿La herramienta debe estar escrita en Java o Python, o también están bien otros lenguajes de programación?

babú

Está bien si hay otros idiomas. Aparte de Java, tengo que aprender e implementar. No creo que el idioma sea la principal barrera aquí en la implementación.

Respuestas (2)

Herramienta de raspado web para raspar una página dinámica basada en el día actual

¿La herramienta debe estar escrita en Java o Python, o también están bien otros lenguajes de programación?
Está bien si hay otros idiomas. Aparte de Java, tengo que aprender e implementar. No creo que el idioma sea la principal barrera aquí en la implementación.

steve barnes · Answer 1

Si la página es html directa (no basada en flash ni en consultas), debería poder hacer esto muy rápido y simplemente usando las bibliotecas Requests y Beautiful Soup de python .

Lo mejor es que puede probarlo rápidamente usando python o iPython de forma interactiva.

amanecer33 · Answer 2

Además de la respuesta de Steve aquí, puede consultar la biblioteca lxml de Python, que es una biblioteca de raspado básico en Python.

Como bibliotecas como Scrapy y Beautiful Soup se escriben como contenedores sobre lxml, es más rápido que ellos y que la mayoría de los raspadores basados en Python.

Herramienta de raspado web para raspar una página dinámica basada en el día actual

babú

unor

babú

Respuestas (2)

steve barnes

amanecer33

Rastreador web que le permite especificar la profundidad de los dominios vinculados

Herramienta para extraer texto de HTML

¿Biblioteca de Python para raspado web complejo?

¿Cuáles son las mejores opciones disponibles para el scraping de HTML? [cerrado]

Automatice la descarga de la versión MP3 de un programa desde un RSS basado en suscripción

Motor de plantillas que genera HTML en Python 3

GoJS - Diagrama de enrutamiento gratuito HTML framework alternativo

Copiar contenido de página web en Safari a HTML

Safari muestra un color incorrecto según el medidor de color digital

Herramientas para encontrar contenido incrustado roto