Detección de valores atípicos en archivo CSV de latitud/longitud

Question

Detección de valores atípicos en archivo CSV de latitud/longitud

Software
análisis de los datos
inteligencia de negocios

Nicolás Raúl

Tengo un enorme archivo CSV que contiene puntos GPS de hoteles en varias ciudades. Muestra:

CITY    | HOTEL     | LATITUDE | LONGITUDE
Chicago | Bellevue  | 41.826   | -87.689
Chicago | SuperMt   | 41.924   | -87.703
Chicago | Starhotel | 44.903   | -93.215
Chicago | BestW     | 41.743   | -87.641
Tokyo   | CityStay  | 30.212   | 128.435

¿Hay algún programa que pueda detectar valores atípicos ? Por ejemplo, la latitud/longitud de Starhotel es claramente incorrecta, lo que lo coloca a cientos de kilómetros de distancia de los otros hoteles de la misma ciudad.

Requisitos:

Los valores atípicos deben detectarse en relación con la dispersión del grupo principal, por ejemplo, los hoteles en "California" estarán bastante separados, mientras que los hoteles en "East Village" estarán todos muy cerca unos de otros. Entonces, "valor atípico" es relativo a la dispersión de todo el grupo.
Gratis, idealmente de código abierto
Rápido de configurar
Funciona con un archivo CSV de 300 000 líneas y 100 MB, o su archivo RDF u OSM equivalente
Cualquier sistema operativo. Idealmente línea de comandos. Herramienta en línea/API OK si puede manejar la carga.
La longitud se vuelve menos significativa cerca de los polos norte y sur. Sin embargo , calcular la distancia de una manera ingenua sqrt(latitudeDelta²+longitudeDelta²)es mejor que nada, ya que los polacos no tienen muchos hoteles.

Objetivo final: detectar errores probables para enviarlos a revisores humanos. No se necesita 100% de precisión.

Chenmunka

¿Ha intentado filtrar el archivo a través de gpsvisualizer.com y usar la opción "Descartar valores atípicos"? Sé que es una herramienta en línea, no realmente lo que buscas.

Nicolás Raúl

@Chenmunka: Tendría que dividir el archivo para cada ciudad (decenas de miles) y enviarlos individualmente, no es muy conveniente :-/ Parece que no tienen una API y probablemente me banearían si lo intentara...

Respuestas (1)

Detección de valores atípicos en archivo CSV de latitud/longitud

¿Ha intentado filtrar el archivo a través de gpsvisualizer.com y usar la opción "Descartar valores atípicos"? Sé que es una herramienta en línea, no realmente lo que buscas.
@Chenmunka: Tendría que dividir el archivo para cada ciudad (decenas de miles) y enviarlos individualmente, no es muy conveniente :-/ Parece que no tienen una API y probablemente me banearían si lo intentara...

Ha QUIT--Anony-Mousse · Answer 1

En primer lugar, es posible que desee dividir su conjunto de datos en ciudades. Esto probablemente dará mejores resultados que mantener todo junto.

Entonces la herramienta de elección probablemente sea ELKI :

Contiene montones, montones de algoritmos para la detección de valores atípicos. En particular, tiene el Local Outlier Factor (wikipedia) , que trata exactamente de capturar las diferencias locales en densidad
Soporta distancia geodésica, con diferentes modelos terrestres.
Puede usar índices R-tree para la aceleración, por lo que 300k no es un problema (pero aún puede querer dividir el conjunto de datos en ciudades para obtener mejores resultados; y sin eso, un hotel titulado "Chicago" pero con coordenadas en California todavía parecen ser normales a partir de las coordenadas). Yo mismo ya he usado conjuntos de datos multidimensionales de 100k; y he visto al autor usar 23 millones de tweets en agrupaciones...
De código abierto, escrito en Java.

También puede consultar el trabajo de los autores sobre la personalización de la detección de valores atípicos. Esto puede ser necesario si desea procesar todos los 300k a la vez y usar las columnas de ciudad y hotel también. (¡La mayoría de los métodos están diseñados para datos numéricos!) Según mi interpretación de este modelo, es posible que desee definir el contexto como hoteles en la misma ciudad y luego comparar las densidades.

Schubert, E., Zimek, A. y Kriegel, HP (2014).
Reconsideración de la detección de valores atípicos locales: una visión generalizada de la localidad con aplicaciones para la detección de valores atípicos espaciales, de video y de red.
Minería de datos y descubrimiento de conocimientos, 28(1), 190-237.

hmm... pensando en su problema, este también puede ser relevante, detectando valores atípicos en accidentes automovilísticos y datos de medición de radiactividad:

Schubert, E., Zimek, A. y Kriegel, HP (2014).
Detección de valores atípicos generalizados con estimaciones flexibles de la densidad del núcleo.
En Actas de la 14ª Conferencia Internacional SIAM sobre Minería de Datos (SDM), Filadelfia, PA.

Supongo que ambos se hicieron usando ELKI, ya que son los mismos autores...

Aquí se explica cómo usar ELKI para realizar la detección de valores atípicos:

Separe sus datos en un archivo CSV de latitud y longitud por ciudad.
Descarga el ELKI JAR y ábrelo
Configure los parámetros así:

Parámetros ELKI

Presiona el Run taskbotón y deberías obtener esto:

gráfico ELKI

Detección de valores atípicos en archivo CSV de latitud/longitud

Nicolás Raúl

Chenmunka

Nicolás Raúl

Respuestas (1)

Ha QUIT--Anony-Mousse

Necesita un conjunto de informes, datos semidispares, pequeña curva de aprendizaje, entrega basada en la web

Software de BI no basado en Windows que se puede conectar fácilmente a MongoDB

Herramienta intuitiva para filtrar múltiples archivos CSV o múltiples columnas en un archivo CSV con solicitudes IF complejas

Alternativa de Linux a la tabla dinámica de Excel

Software para analizar el contenido del sitio web y hacer análisis

Servidor OLAP para usuarios de Excel

Software de entrada de datos controlados de código abierto

Necesito un software de BI para gestionar mi empresa y las sucursales de la empresa

Programa para convertir MP3 a (pseudo) datos analógicos XY

Software de análisis de datos que se conecta a excel