Visión artificial de código abierto lista para usar para saber si una imagen muestra un perro/coche/etc.

Tengo un millón de imágenes y necesito categorizarlas con palabras clave.

Ejemplo: una imagen de un perro conduciendo un coche cerca de la Torre Eiffel obtendría las palabras clave "perro", "coche" y "torre Eiffel".

Requisitos:

  • No requiere programación. Simplemente instale un paquete y se puede usar directamente a través de la línea de comandos o la API HTTP.
  • No es necesario "entrenarlo", el software ya incluye los resultados del entrenamiento.
  • Se ejecuta en Linux, Mac o Windows.
  • 100 % de código abierto (los datos de capacitación y el software de capacitación no tienen que ser de código abierto, pero el software final, incluidos los datos resultantes de la capacitación, debe ser de código abierto)
  • Los objetos a reconocer son objetos frecuentemente vistos por humanos ( perro ), tipos de paisajes ( bosque ), lugares famosos ( Torre Eiffel ). Cuantos más mejor, bonificación por incluir también otro tipo de conceptos como personajes famosos ( Nelson Mandela ).
  • Superbonificación si las palabras clave son objetos de Wikidata ( perro → https://www.wikidata.org/wiki/Q144 )
  • Bonificación por proporcionar una probabilidad con cada palabra clave (97% de posibilidades de que esta imagen muestre un perro)

Respuestas (1)

En el sitio de Tensorflow Github hay modelos preentrenados , algunos de los cuales se basan en colecciones de imágenes. Creo que investigando un poco encontrarás más.

Aquí hay uno disponible como modelo de NodeJS: MobileNet : clasifica imágenes con etiquetas de la base de datos de ImageNet .

`npm i @tensorflow-models/mobilenet`

Aunque no lo he usado personalmente. Hace un tiempo, en un Meetup, vi una charla de otra persona que usaba modelos preentrenados con Python.