Escáner de URL para encontrar enlaces en Google

¿Alguien puede recomendar un software para buscar enlaces en Google y otros motores de búsqueda?

Por ejemplo, especificaría una expresión regular para un enlace y el software se ejecutaría según un cronograma. Luego, le enviará por correo electrónico la lista de páginas que contienen las URL que encontró.

Especialmente me interesa encontrar enlaces similares a los siguientes:

https://www.youtube.com/watch?v=J6vIS8jb6Fs

donde la URL antes de = siempre es la misma, seguida de una identificación única.

Es probable que reciba un correo electrónico GRANDE , si no especifica más. ¿Puedes codificar? Si es así, puedo sugerir un enfoque
@Mawg Claro que puedo codificar, el problema es que la API de Google está obsoleta... El correo electrónico no va a ser grande en mi caso, no incluyo todos los videos de YouTube, esto es solo un ejemplo. Mi empresa tiene una aplicación y la gente publica enlaces en línea de vez en cuando, necesitamos detectarlos.
¿Qué pasa con Pyton y scrapy.org (o sopa hermosa)? El problema es que tendrá que buscar páginas repetidamente hasta que tenga todos los resultados, pero eso es solo cuestión de agregar &start=Xa la URL.
@Mawg el problema es que no sé dónde la gente publicaría estos hipervínculos. Es decir, es un proceso de dos etapas: 1) Buscar coincidencias en el motor de búsqueda 2) Eliminar páginas de los resultados y encontrar los enlaces en la página para confirmar que está allí.
¿Ha considerado rastrear a los visitantes y ver de dónde proviene el tráfico? Google Analytics sería una forma de hacer esto...
@ rovr138 ¡Es un muy buen grito! Idealmente, por supuesto, lo sabría ANTES de que lleguen al sitio web. Esta es una parte de la solución de prevención de fraude que estoy buscando en realidad. Algunos usuarios publican enlaces abiertamente en Internet y algunas personas poco fiables los utilizan indebidamente.

Respuestas (1)

Dado que la API de Google ya no existe, ¿quizás podría probar con otro motor de búsqueda?

La API de DuckDuckGo podría ayudar, pero podría no...

Nuestra API de respuesta instantánea le brinda acceso gratuito a muchas de nuestras respuestas instantáneas, como: resúmenes de temas, categorías, eliminación de ambigüedades y redirecciones !bang.

Sin embargo, esta API no incluye todos nuestros enlaces .

Es decir, no es una API completa de resultados de búsqueda ni una forma de obtener resultados de DuckDuckGo en sus aplicaciones más allá de nuestras respuestas instantáneas.

Debido a la forma en que generamos nuestros resultados de búsqueda, lamentablemente no tenemos los derechos para sindicar completamente nuestros resultados. Por la misma razón, no podemos permitirnos enmarcar nuestros resultados sin nuestra marca.

.

La API de Bing parece más prometedora

Lleve la búsqueda inteligente a sus aplicaciones y aproveche la capacidad de combinar miles de millones de páginas web, imágenes, videos y noticias con una sola llamada a la API.

PERO , vea el precio y decida si está dispuesto a pagar.

.

¿Qué hay de Yahoo! (como estaba; ¿qué pasará ahora que ha sido comprado?)

Ups,

suspenderemos la API de búsqueda JSON de BOSS el 31 de marzo de 2016.

¿Echa un vistazo a otros motores de búsqueda?

¿O buscar otras API que puedan ser útiles? Por ejemplo, en Programmable Web , que tiene miles .

La solución actual utiliza la API de Bing (que no parece devolver todos los resultados que obtenemos con la búsqueda manual de Google). Además, se usa lo siguiente en lugar de la API de búsqueda web de Google googleapis.com/customsearch/v1 pero tampoco arroja resultados satisfactorios...
Todo lo que se me ocurre usando una combinación de sitios
O codificando tu propia araña
Seguramente mi rastreador no vencería a Bing, por no hablar de Google. Sin embargo, gracias por sus sugerencias, tal vez la pregunta no tenga una respuesta real en este momento. Necesito otro gigante de búsqueda con API :)
Defina "ritmo": ¿ser más rápido o más eficiente? Lo dudo. Haz lo que quieras que haga, eso depende de ti. ¿Qué te detiene?
No tengo centros de datos como Google o Microsoft con toneladas de capacidad de almacenamiento y procesamiento. Puede que tenga SUERTE para encontrar algunos resultados, pero mis posibilidades son muy escasas. Lamentablemente, no estamos a principios de los 90. Mi rastreador sería un millón de veces más lento para indexar la web.
De acuerdo, pero podrías hacerlo. Solo tienes que manejar una página a la vez y descartar las que no te convienen. ¿Contratar el poder de procesamiento de AWS o Google tal vez? Es eso o resultados incompletos. Solo tu puedes decidir