Tengo un enorme archivo CSV que contiene puntos GPS de hoteles en varias ciudades. Muestra:
CITY | HOTEL | LATITUDE | LONGITUDE
Chicago | Bellevue | 41.826 | -87.689
Chicago | SuperMt | 41.924 | -87.703
Chicago | Starhotel | 44.903 | -93.215
Chicago | BestW | 41.743 | -87.641
Tokyo | CityStay | 30.212 | 128.435
¿Hay algún programa que pueda detectar valores atípicos ? Por ejemplo, la latitud/longitud de Starhotel es claramente incorrecta, lo que lo coloca a cientos de kilómetros de distancia de los otros hoteles de la misma ciudad.
Requisitos:
sqrt(latitudeDelta²+longitudeDelta²)
es mejor que nada, ya que los polacos no tienen muchos hoteles.Objetivo final: detectar errores probables para enviarlos a revisores humanos. No se necesita 100% de precisión.
En primer lugar, es posible que desee dividir su conjunto de datos en ciudades. Esto probablemente dará mejores resultados que mantener todo junto.
Entonces la herramienta de elección probablemente sea ELKI :
También puede consultar el trabajo de los autores sobre la personalización de la detección de valores atípicos. Esto puede ser necesario si desea procesar todos los 300k a la vez y usar las columnas de ciudad y hotel también. (¡La mayoría de los métodos están diseñados para datos numéricos!) Según mi interpretación de este modelo, es posible que desee definir el contexto como hoteles en la misma ciudad y luego comparar las densidades.
Schubert, E., Zimek, A. y Kriegel, HP (2014).
Reconsideración de la detección de valores atípicos locales: una visión generalizada de la localidad con aplicaciones para la detección de valores atípicos espaciales, de video y de red.
Minería de datos y descubrimiento de conocimientos, 28(1), 190-237.
hmm... pensando en su problema, este también puede ser relevante, detectando valores atípicos en accidentes automovilísticos y datos de medición de radiactividad:
Schubert, E., Zimek, A. y Kriegel, HP (2014).
Detección de valores atípicos generalizados con estimaciones flexibles de la densidad del núcleo.
En Actas de la 14ª Conferencia Internacional SIAM sobre Minería de Datos (SDM), Filadelfia, PA.
Supongo que ambos se hicieron usando ELKI, ya que son los mismos autores...
Aquí se explica cómo usar ELKI para realizar la detección de valores atípicos:
Run task
botón y deberías obtener esto:
Chenmunka
Nicolás Raúl