Rozbehli ste kampaň, no 15 % e-mailov sa vám nepodarilo doručiť. Nesedí vám stav zásob alebo faktúry odchádzajú na nesprávne adresy. Podobné problémy zo začiatku nie sú výrazné. Avšak časom sa môžu nakopiť a ich riešenie vás bude stáť veľa energie a financií. Preto je potrebné im predchádzať.
Prečo k nekvalite dochádza?
Vo veľkých podnikoch informačné a iné systémy obsluhuje viacero ľudí. Pracovníci sa navyše striedajú v rôznych zmenách a každý z nich môže mať pri vkladaní údajov iné návyky.
Netreba zabúdať ani na ľudský faktor. Ak sú zamestnanci pod tlakom, robia preklepy alebo ich pozornosť nie je dostatočná.
Časom dáta zastarávajú, pretože reálny svet sa stále mení. Ak sa z nejakého dôvodu nevenuje dostatok pozornosti ich aktualizácii, mnohé budú časom chybné, a to môže mať až finančné následky.
Rizikovou činnosťou je aj prechod na iný systém. Často sa pri tom uplatňuje prístup ‚prenesme všetko, vytriedime to neskôr‘. Takto si však do nového, moderného systému prenesiete len starý neporiadok
Ako spoznáte stav vašich záznamov?
Na odhalenie problémov nie je nevyhnutný komplikovaný audit. Existuje niekoľko jednoduchých metrík, ktoré vám to pomôžu vyhodnotiť. Potom sa rozhodnete, či sa do riešenia problému pustíte sami alebo to zveríte odborníkom na čistenie dát.
Podľa medzinárodne uznávaných štandardov (ako je napr. DAMA DMBOK či ISO 25012) sa kvalita dát posudzuje podľa týchto dimenzií:
- Úplnosť (Completeness): Vyjadruje, do akej miery sú požadované položky vyplnené. Najjednoduchší spôsob jej výpočtu je vypočítať podiel vyplnených hodnôt a očakávaného počtu položiek. Napríklad ak má spoločnosť registračnú tabuľku s 1000 zákazníkmi a e-mailové pole je vypísané len pri 800 z nich, úplnosť je 80 %. Čím bližšie je výsledok k 100 %, tým menej kritických údajov chýba. Nízka úplnosť odhalí chýbajúce kontakty alebo nevyplnené kľúčové atribúty. E-mailové kampane potom zlyhávajú.
- Presnosť (Accuracy): Určuje, či údaje verne odrážajú realitu. Inak povedané, aké percento hodnôt zodpovedá skutočnosti. Najčastejšie sa overuje porovnaním s dôveryhodným referenčným zdrojom (oficiálnym registrom alebo predpokladaným pravdivým stavom). Ak je záznam o dátume narodenia, adrese či cene produktu chybný, presnosť takéhoto poľa klesá.
- Konzistentnosť (Consistency): Kontroluje, či sú hodnoty
rovnaké naprieč rôznymi systémami alebo tabuľkami. Ak vaše záznamy
neobsahujú protirečenia – napríklad rodné číslo zákazníka má všade rovnaký formát a hodnotu – sú
konzistentné.
Konzistentnosť sa meria počtom porušených pravidiel jednotného zápisu. Podniky si často definujú pravidlá (externý kód musí byť v rovnakom tvare v CRM aj v ERP) a hľadajú porušenia. Vysoká konzistentnosť znamená, že údaje sú jednotné vo všetkých systémoch a zdrojoch. Naopak, nekonzistentné dáta (rôzne verzie adresy v marketingovej a finančnej databáze) vedú k rozporom a zbytočnej práci. - Aktuálnosť (Timeliness): Táto metrika hovorí, či sú údaje dostatočne „čerstvé" na ich použitie. Môže sa merať tým, kedy bola položka naposledy aktualizovaná v porovnaní s požadovanou periodicitou.
- Jedinečnosť (Uniqueness): Jedinečnosť zaisťuje, že žiadna entita nie je v databáze zaznamenaná dvakrát. Inými slovami, neexistujú duplicitné položky s rovnakým identifikátorom. Vyjadruje pomer unikátnych dát k celkovému počtu dát (spravidla v percentách). V praxi sa zisťuje napríklad počet opakujúcich sa rodných čísel alebo e-mailových adries. Ak má firma vo firemnom katalógu 100 zákazníkov, ale niektorí figurujú dvakrát, jedinečnosť klesá. Nízke percento jedinečných záznamov signalizuje potrebu odstrániť duplicitné položky, pretože tie vedú k neefektívnej komunikácii (dvakrát poslané e-maily) a narušujú analytiku (opakovanie rovnakého klienta v štatistikách). Opačne, vysoká jedinečnosť (blízka 100 %) naznačuje, že súbory kontaktov či produktov sú očistené od nadbytočných kópií.
- Platnosť (Validita/Správnosť): Kontrola dodržiavania formátov a pravidiel. Metrika zisťuje, do akej miery hodnota zodpovedá očakávaniam (e-mail má správnu syntaktickú podobu, číslo telefónu obsahuje potrebný počet číslic, dátumy sú v povolenom rozmedzí). Platnosť znamená, že zadané hodnoty dodržiavajú definované formáty a obmedzenia. Ak používate kód skladu v tvare ABC-123 a záznam nespĺňa tento tvar, je neplatný.
Aj technologickí lídri, ako napríklad spoločnosť SAP uvádzajú, že dimenzie poskytujú „štruktúrovaný spôsob hodnotenia, či sú údaje vhodné na použitie".
Kontrolný zoznam: Ako zistiť, či sú vaše firemné dáta kvalitné
Pravidelné kontroly kvality (audit) odhaľujú chyby v dátach. Nasledujúci kontrolný zoznam vám s tým dokáže pomôcť.
Kľúčové kroky pre hodnotenie kvality
1. Inventarizujte dátové zdroje a kontext: Aké systémy (CRM, ERP, marketingové kampane, tabuľky) používate? Určte to, čo je pre vás najdôležitejšie (kontaktné údaje, fakturačné informácie, ceny produktov a pod.).
2. Definujte príslušné KPI: Stanovte si merateľné ciele pre jednotlivé dimenzie kvality. Cieľom môže byť ≥95 % vyplnených povinných polí (úplnosť) a ≥99 % unikátnych položiek (jedinečnosť).
3. Skontrolujte úplnosť a presnosť: Úplnosť overíte spočítaním prázdnych povinných polí. Ak evidujete 1000 zákazníkov, vyhodnoťte, pri koľkých chýba e-mail alebo telefón. Overte, či hodnoty zodpovedajú realite. Typický rozdiel medzi validitou a presnosťou: vek 250 rokov (formátovo platný, no fakticky nemožný). Vysoký podiel chybných položiek (nesprávne dátumy narodenia či sumy) znižuje dôveryhodnosť analýz.
4. Skontrolujte konzistentnosť a platnosť: Porovnajte záznamy u rovnakého zákazníka v rôznych databázach – ak CRM uvádza inú adresu či formát rodného čísla ako finančný systém, ide o problém. Platnosť (validita) zase vyhodnotíte podľa definovaných formátov a pravidiel. Skontrolujte, či e-maily obsahujú znak „@“, či telefónne čísla majú správny počet číslic atď... Takéto syntaktické validácie pomáhajú zachytiť neplatné položky skôr, ako sa dostanú do reportov.
5. Skontrolujte aktuálnosť: Porovnajte termín poslednej aktualizácie s požadovanou periódou. Napríklad kontaktné údaje by sa mali obnovovať ihneď pri zmene, skladové stavy denne a ceny produktu podľa aktualizácií.
6. Použite nástroje na vyhodnotenie kvality. Proces manuálnej kontroly môže byť prácny. K dispozícii sú jednoduché aj pokročilejšie nástroje: využite filtre a kontingenčné tabuľky v Exceli alebo SQL dopyty na spočítanie chýbajúcich hodnôt či duplicít.
Pre sofistikovanejšie čistenie možno použiť open-source riešenia.
- OpenRefine je bezplatný nástroj na prácu s neštruktúrovanými dátami (umožňuje hromadné čistenie, transformácie, zlučovanie podobných hodnôt).
- Knižnice v Pythone (Great Expectations, Pandas)
- Softvér (Soda, Ataccama) dokáže automatizovať kontroly kvality podľa vami definovaných pravidiel.
Menším firmám na tieto účely často stačí Excel.
7. Vyhodnoťte výsledky a zaveďte opatrenia. Porovnajte dosiahnuté hodnoty s nastavenými KPI. Ak je kvalita pod očakávaním, pripravte plán nápravy: očistenie databázy (doplnenie chýbajúcich údajov, odstránenie duplicít) a zlepšenie procesov zberu dát.