Čištění dat je klíčový krok při zavádění nových systémů nebo přechodu z jednoho systému na druhý. Běžně je potřeba poročistit kontakty, aktuální i historické zakázky nebo třeba data z dotazníku se zaměstnanci nebo zákazníky. Čištění vyžaduje postupy a dovednosti, které by měl mít dnes v podstatě každý. Ať už přecházíte na nový nástroj nebo potřebujete sjednotit data z různých zdrojů, tento článek vám pomůže na nic nezapomenout, vyhnete se běžným chybám a budete mít během zpracování pořádek.
1. Evidence dat a souborů
Základem úspěchu je mít perfektní přehled o všech datech, se kterými pracujete:
- Pojmenujte zdrojové tabulky jasně a srozumitelně, podle stejného klíče.
- Ukládejte všechny zdrojové tabulky a evidujte změny. Tip: Vytvořte si v Asaně nebo jiném nástroj, kde řídíte práci, úkol s podúkoly pro jednotlivé kroky čištění dat a postupně je odškrtávejte.
- Při destruktivních akcích – nevratné mazání nebo jiné úpravy – vždy dělejte zálohy (nespoléhejte na zálohy nástrojů – sice existují, ale vlastní záloha bývá rychlejší):
- Vytvářejte nové verze tabulek s datem a časem v názvu (např.
export_kontakty_crm-240329_1325
). - Při úpravě sloupců můžete sloupec zkopírovat – původní data zachovejte a pracujte s kopií. Opět to vyžaduje systematický přístup k pojmenování sloupců.
- Vytvářejte nové verze tabulek s datem a časem v názvu (např.
2. Kontrola dat
Před samotným čištěním je důležité data důkladně zkontrolovat:
- Při spojování tabulek kontrolujte počty řádků. Sedí s původním zdrojem?
- Hledejte extrémy a anomálie, především u číselných hodnot.
- Porovnávejte exportovaná data s údaji ve zdrojové aplikaci (např. počet kontaktů v CRM vs. CSV).
- Udělejte si přehled o entitách v tabulkách a zvažte, zda je potřeba je rozdělit do samostatných tabulek. – Vyjasněte si, které sloupce musí mít povinně hodnoty a které mohou být prázdné. Nastavte si pravidla pro situace, kdy v "povinných" sloupcích chybí hodnoty (budete řádky ignorovat, je potřeba někoho upozornit, doplnit data).
3. Čištění dat
Tohle jsou typické řinnosti, které budete při práci s daty dělat:
- Práce s textem: rozdělování, spojování a nahrazování textu
- Formátování datumů
- Deduplikace
- Standardizace formátů a čištění kategorizací (využijte princip MECE)
- Validace dat: kontrola chybějících a nesprávných hodnot
Vezmeme je jednu po druhé.
Práce s textem
- Naučte se ovládat textové funkce vašeho nástroje (např. left, right, len, find).
- Pro sjednocování výběrů (single/multi select) je skvělý Airtable.
- Pro složitější pravidla použijte regulární výrazy (regex). Testujte je na Regex101 a pamatujte, že různé nástroje mohou používat mírně odlišné verze.
Formátování datumů
- Pamatujte, že datumy jsou často uloženy jako text.
- Každý nástroj má své funkce pro parsování a formátování datumů. Nebojte se využít AI pro pomoc s komplexními převody.
Deduplikace
- Pro mazání identických záznamů je vhodný Google Sheets.
- Pro spojování podobných záznamů a výběr zachovaných informací použijte Airtable.
Standardizace a kategorizace
- Sjednoťte formáty telefonních čísel, adres apod.
- Využívejte veřejné číselníky pro obecné informace (např. seznam obcí nebo zemí).
- Sjednoťte práci s velkými a malými písmeny.
- Převeďte hodnoty na jednotné měrné jednotky (např. Kč vs. tisíce Kč, hodiny vs. dny).
Validace dat
- U chybějících hodnot se dohodněte na postupu: ignorovat, doplnit nebo použít průměr/medián.
- Kontrolujte logiku dat (např. věk nemůže být záporný).
- Využijte služby třetích stran pro validaci e-mailů nebo firemních údajů (např. ARES).
4. Formáty a objem dat
- CSV je bezpečnější formát než Excel, protože nehrozí nechtěná interpretace dat.
- Objem dat je klíčový parametr pro určení náročnosti projektu. Velké objemy dat přinášejí více anomálií a mohou vyžadovat specializované nástroje.
- Pro menší objemy (do 50 000 záznamů) jsou vhodné nástroje jako Airtable nebo Google Sheets.
- Pro větší objemy zvažte použití CSV editorů nebo SQL databází (SQLite, MySQL, PostgreSQL, BigQuery).
Čištění dat může být náročný proces, ale s správným přístupem a nástroji ho zvládnete efektivně. Pamatujte, že investice do kvalitního čištění dat se vám mnohonásobně vrátí v podobě přesnějších analýz a lepších rozhodnutí.