Mi objetivo es interactuar con un sitio web (Portfolio123.com) y descargar los resultados del estudio financiero.
Acceder al contenido significa iniciar sesión, luego hacer clic en los botones y/o completar formularios. Algunos de estos botones se cargan usando 'body onload'. El HTML resultante a menudo contiene un enlace a un archivo de Excel descargable que se genera específicamente para el usuario que ha iniciado sesión.
Por lo tanto algunos de los requisitos son:
Algunas opciones preliminares que se me han ocurrido hasta ahora:
¿Alguno de estos funciona?
Es muy fácil cuando usas dryscrape python . En una PC con Ubuntu, la instalación es la siguiente:
# apt-get install qt5-default libqt5webkit5-dev build-essential \
python-lxml python-pip xvfb
Uso de la siguiente manera:
Import dryscrape as d
Import time #for refreshing or waiting for page
d.start_xvfb() #for using this in linux without Xserver
br = d.Session() #creating new session
br.visit('<Any Url>') #for open the page
Input = br.at_xpath('//*[@name="email"]') #for find input
Input.set('<input value>')
Input.form().submit() #for submit
time.sleep(5) #wait for page load
Esto funciona bien en Android.
Selenium puede hacer cualquier cosa que el usuario pueda hacer en un navegador, de forma cruzada. Es el estándar W3C para la automatización del navegador, y aprender Selenium es una buena habilidad para su carrera (más allá de este proyecto de raspado web).
Es ampliamente utilizado para la automatización de pruebas de aplicaciones basadas en web.
ChaimG
izzy
Mawg dice que reincorpore a Monica
ChaimG