Adattisztítás
A Wikipédiából, a szabad lexikonból.
Az adattisztítás a statisztikai adatfeldolgozás bevezető lépéseinek egyike.
Az adattisztítás során
- felmérjük a hibákat
- ellenőrizzük az adatfájl szerkezeti épségét
- felmérjük a hiányzó értékeket
- felmérjük az adatközlési és adatbeviteli hibákat
- megvizsgáljuk az egyes változók eloszlását
- az eloszlások szélein elhelyezkedő extrém értékeket ellenőrizzük
- felmérjük, hogy az eloszlások megfelelnek-e az előzetes elvárásainknak, vannak-e nem várt sűrűsödések, ritkulások egyes értéktartományokban (pl. durva kerekítés vagy eltérő mértékegység használata az adatszolgáltatók egy részénél)
- megvizsgáljuk, hogy a változók közötti triviális összefüggések teljesülnek-e (pl. vizsgálat dátuma ≥ születés dátuma)
- megvizsgáljuk az egyes változók eloszlását
- a hibásnak tűnő adatokat felülvizsgáljuk, javítjuk.


Based on work by