Jak na čištění dat

Vytvořeno: 29. 07. 2024 | Aktualizováno: 29. 07. 2022

Čištění dat je klíčový krok při zavádění nových systémů nebo přechodu z jednoho systému na druhý. Běžně je potřeba poročistit kontakty, aktuální i historické zakázky nebo třeba data z dotazníku se zaměstnanci nebo zákazníky. Čištění vyžaduje postupy a dovednosti, které by měl mít dnes v podstatě každý. Ať už přecházíte na nový nástroj nebo potřebujete sjednotit data z různých zdrojů, tento článek vám pomůže na nic nezapomenout, vyhnete se běžným chybám a budete mít během zpracování pořádek.

1. Evidence dat a souborů

Základem úspěchu je mít perfektní přehled o všech datech, se kterými pracujete:

  • Pojmenujte zdrojové tabulky jasně a srozumitelně, podle stejného klíče.
  • Ukládejte všechny zdrojové tabulky a evidujte změny. Tip: Vytvořte si v Asaně nebo jiném nástroj, kde řídíte práci, úkol s podúkoly pro jednotlivé kroky čištění dat a postupně je odškrtávejte.
  • Při destruktivních akcích – nevratné mazání nebo jiné úpravy – vždy dělejte zálohy (nespoléhejte na zálohy nástrojů – sice existují, ale vlastní záloha bývá rychlejší):
    • Vytvářejte nové verze tabulek s datem a časem v názvu (např. export_kontakty_crm-240329_1325).
    • Při úpravě sloupců můžete sloupec zkopírovat – původní data zachovejte a pracujte s kopií. Opět to vyžaduje systematický přístup k pojmenování sloupců.

2. Kontrola dat

Před samotným čištěním je důležité data důkladně zkontrolovat:

  • Při spojování tabulek kontrolujte počty řádků. Sedí s původním zdrojem?
  • Hledejte extrémy a anomálie, především u číselných hodnot.
  • Porovnávejte exportovaná data s údaji ve zdrojové aplikaci (např. počet kontaktů v CRM vs. CSV).
  • Udělejte si přehled o entitách v tabulkách a zvažte, zda je potřeba je rozdělit do samostatných tabulek. – Vyjasněte si, které sloupce musí mít povinně hodnoty a které mohou být prázdné. Nastavte si pravidla pro situace, kdy v "povinných" sloupcích chybí hodnoty (budete řádky ignorovat, je potřeba někoho upozornit, doplnit data).

3. Čištění dat

Tohle jsou typické řinnosti, které budete při práci s daty dělat:

  1. Práce s textem: rozdělování, spojování a nahrazování textu
  2. Formátování datumů
  3. Deduplikace
  4. Standardizace formátů a čištění kategorizací (využijte princip MECE)
  5. Validace dat: kontrola chybějících a nesprávných hodnot

Vezmeme je jednu po druhé.

Práce s textem

  • Naučte se ovládat textové funkce vašeho nástroje (např. left, right, len, find).
  • Pro sjednocování výběrů (single/multi select) je skvělý Airtable.
  • Pro složitější pravidla použijte regulární výrazy (regex). Testujte je na Regex101 a pamatujte, že různé nástroje mohou používat mírně odlišné verze.

Formátování datumů

  • Pamatujte, že datumy jsou často uloženy jako text.
  • Každý nástroj má své funkce pro parsování a formátování datumů. Nebojte se využít AI pro pomoc s komplexními převody.

Deduplikace

  • Pro mazání identických záznamů je vhodný Google Sheets.
  • Pro spojování podobných záznamů a výběr zachovaných informací použijte Airtable.

Standardizace a kategorizace

  • Sjednoťte formáty telefonních čísel, adres apod.
  • Využívejte veřejné číselníky pro obecné informace (např. seznam obcí nebo zemí).
  • Sjednoťte práci s velkými a malými písmeny.
  • Převeďte hodnoty na jednotné měrné jednotky (např. Kč vs. tisíce Kč, hodiny vs. dny).

Validace dat

  • U chybějících hodnot se dohodněte na postupu: ignorovat, doplnit nebo použít průměr/medián.
  • Kontrolujte logiku dat (např. věk nemůže být záporný).
  • Využijte služby třetích stran pro validaci e-mailů nebo firemních údajů (např. ARES).

4. Formáty a objem dat

  • CSV je bezpečnější formát než Excel, protože nehrozí nechtěná interpretace dat.
  • Objem dat je klíčový parametr pro určení náročnosti projektu. Velké objemy dat přinášejí více anomálií a mohou vyžadovat specializované nástroje.
  • Pro menší objemy (do 50 000 záznamů) jsou vhodné nástroje jako Airtable nebo Google Sheets.
  • Pro větší objemy zvažte použití CSV editorů nebo SQL databází (SQLite, MySQL, PostgreSQL, BigQuery).

Čištění dat může být náročný proces, ale s správným přístupem a nástroji ho zvládnete efektivně. Pamatujte, že investice do kvalitního čištění dat se vám mnohonásobně vrátí v podobě přesnějších analýz a lepších rozhodnutí.

Přidejte se do byznys komunity!

Přidejte se do byznys komunity a získejte přístup k novinkám, tipům a trikům a pravidelným webinářům, které jinde nezískáte.

Snímek obrazovky fóra Workflow.ooo