Jag har en enorm CSV-fil som innehåller GPS-punkter för hotell i olika städer. Exempel:
CITY | HOTELL | LATITUDE | LONGITUDEChicago | Bellevue | 41,826 | -87.689Chicago | SuperMt | 41,924 | -87.703Chicago | Starhotel | 44.903 | -93,215Chicago | BestW | 41,743 | -87.641Tokyo | CityStay | 30.212 | 128.435
Finns det ett program som kan upptäcka outliers? Starhotels latitud / longitud är till exempel helt klart fel och placerar det hundratals kilometer från andra hotell i samma stad.
Krav:
- Avvikare bör upptäckas i förhållande till spridningen av huvudklustret, till exempel kommer hotell i "Kalifornien" att vara ganska långt ifrån varandra, medan hotell i "East Village" kommer att vara mycket nära varandra. Så "outlier" är relativt spridningen för hela gruppen.
- Gratis, helst öppen källkod
- Snabb att konfigurera
- Fungerar med 300 000 rader 100 MB CSV eller motsvarande RDF- eller OSM-fil
- Alla operativsystem. Helst kommandorad. Onlineverktyg / API OK om det klarar belastningen.
- Longitud blir mindre betydande nära syd- / nordpolen. Att beräkna avståndet på ett naivt sätt
sqrt (latitudeDelta² + longitudeDelta²)
är dock bättre än ingenting, eftersom polackerna inte har många hotell.
Slutmål: fånga upp troliga fel för att skicka dem till mänskliga granskare. 100% noggrannhet behövs inte.