Jak na čištění dat

Vytvořeno: 01. 11. 2025 | Aktualizováno: 03. 04. 2026

Čištění dat je klíčový krok při zavádění nových systémů nebo přechodu z jednoho systému na druhý. Běžně je potřeba poročistit kontakty, aktuální i historické zakázky nebo třeba data z dotazníku se zaměstnanci nebo zákazníky. Čištění vyžaduje postupy a dovednosti, které by měl mít dnes v podstatě každý.

Ať už přecházíte na nový nástroj nebo potřebujete sjednotit data z různých zdrojů, tento článek vám pomůže na nic nezapomenout, vyhnete se běžným chybám a budete mít během zpracování pořádek.

1. Evidence dat a souborů

Základem úspěchu je mít perfektní přehled o všech datech, se kterými pracujete:

  • Pojmenujte zdrojové tabulky jasně a srozumitelně, podle stejného klíče.
  • Ukládejte všechny zdrojové tabulky a evidujte změny. Tip: Vytvořte si v Asaně nebo jiném nástroj, kde řídíte práci, úkol s podúkoly pro jednotlivé kroky čištění dat a postupně je odškrtávejte.
  • Při destruktivních akcích – nevratné mazání nebo jiné úpravy – vždy dělejte zálohy (nespoléhejte na zálohy nástrojů – sice existují, ale vlastní záloha bývá rychlejší):
    • Vytvářejte nové verze tabulek s datem a časem v názvu (např. `export_kontakty_crm-240329_1325`).
    • Při úpravě sloupců můžete sloupec zkopírovat – původní data zachovejte a pracujte s kopií. Opět to vyžaduje systematický přístup k pojmenování sloupců.

2. Kontrola dat

Před samotným čištěním je důležité data důkladně zkontrolovat:

  • Při spojování tabulek kontrolujte počty řádků. Sedí s původním zdrojem?
  • Hledejte extrémy a anomálie, především u číselných hodnot.
  • Porovnávejte exportovaná data s údaji ve zdrojové aplikaci (např. počet kontaktů v CRM vs. CSV).
  • Udělejte si přehled o entitách v tabulkách a zvažte, zda je potřeba je rozdělit do samostatných tabulek.

3. Čištění dat

Tohle jsou typické činnosti, které budete při práci s daty dělat:

  1. Práce s textem: rozdělování, spojování a nahrazování textu
  2. Formátování datumů
  3. Deduplikace
  4. Standardizace formátů a čištění kategorizací (využijte princip MECE)
  5. Validace dat: kontrola chybějících a nesprávných hodnot

Vezmeme je jednu po druhé.

Práce s textem

  • Naučte se ovládat textové funkce vašeho nástroje (např. left, right, len, find).
  • Pro sjednocování výběrů (single/multi select) je skvělý Airtable.
  • Pro složitější pravidla použijte regulární výrazy (regex). Testujte je na Regex101 a pamatujte, že různé nástroje mohou používat mírně odlišné verze.

Formátování datumů

  • Pamatujte, že datumy jsou často uloženy jako text.
  • Každý nástroj má své funkce pro parsování a formátování datumů. Nebojte se využít AI pro pomoc s komplexními převody.

Deduplikace

  • Pro mazání identických záznamů je vhodný Google Sheets.
  • Pro spojování podobných záznamů a výběr zachovaných informací použijte Airtable.

Standardizace a kategorizace

  • Sjednoťte formáty telefonních čísel, adres apod.
  • Využívejte veřejné číselníky pro obecné informace (např. seznam obcí nebo zemí).
  • Sjednoťte práci s velkými a malými písmeny.
  • Převeďte hodnoty na jednotné měrné jednotky (např. Kč vs. tisíce Kč, hodiny vs. dny).

Validace dat

  • U chybějících hodnot se dohodněte na postupu: ignorovat, doplnit nebo použít průměr/medián.
  • Kontrolujte logiku dat (např. věk nemůže být záporný).
  • Využijte služby třetích stran pro validaci e-mailů nebo firemních údajů (např. ARES).

4. Formáty a objem dat

  • CSV je bezpečnější formát než Excel, protože nehrozí nechtěná interpretace dat.
  • Objem dat je klíčový parametr pro určení náročnosti projektu. Velké objemy dat přinášejí více anomálií a mohou vyžadovat specializované nástroje.
  • Pro menší objemy (do 50 000 záznamů) jsou vhodné nástroje jako Airtable nebo Google Sheets.
  • Pro větší objemy zvažte použití CSV editorů nebo SQL databází (SQLite, MySQL, PostgreSQL, BigQuery).

Čištění dat může být náročný proces, ale se správným přístupem a nástroji ho zvládnete efektivně. Pamatujte, že investice do kvalitního čištění dat se vám mnohonásobně vrátí v podobě přesnějších analýz a lepších rozhodnutí.

Workflow © 2026