Dáta pre data-mining

Objavovanie znalostí s využitím techník data-miningu je vhodným nástrojom podporujúcim riešenia celej rady zložitých problémov.
Fundamentálny otázka pri každom projekte využívajúcom data-mining je dostupnosť a kvalita dát. Dnešné algoritmy sú dostatočne vyvinuté, aby dokázali vytvárať nad dátami spoľahlivé modely, ktoré následne slúžia pre predikciu alebo klasifikáciu ďalších prípadov. Pre algoritmy je to jednoduchá úloha, takmer nad akýmikoľvek dátami vytvoria optimálny model. Optimálny z pohľadu štatistiky. Otázkou však ostáva, či je vhodný aj pre riešenie pôvodnej úlohy a či výsledky naozaj poslúžia tak, ako očakávame. Rozhodujúcim faktorom sú dáta.
.
Dáta áno, ale nie hocijaké
.
Požiadaviek na dáta je hneď viacero. Mali by byť obsahovať dostatočný počet atribútov súvisiacich so zadaním. Kvalita týchto atribútov by mala byť čím najlepšia – bez spoľahlivých základných údajov nie je možné vytvoriť spoľahlivú predikciu.
.
Musia obsahovať presne špecifikovaný cieľ úlohy. To je spravidla jeden atribút, v ktorom nesmú byť chyby a ktorý by mal priamo ovplyvňovať naše obchodné ciele. Klasifikujeme alebo predikujeme práve hodnoty tohto cieľového atribútu a preto mu je potrebné venovať zvláštnu pozornosť.
.
Dát musí byť dostatok aj z pohľadu počtu pozorovaní, teda riadkov v našej databáze. A ideálne by mala byť k dispozícii aj dlhšia história pozorovaní – od niekoľkých mesiacov po niekoľko rokov dozadu. To platí pri riešení väčšiny bežných úloh v oblastiach ako sú marketing, riadenie rizika, logistiky a podobne.
.
Ani dátový sklad nestačí
.
Existencia dátového skladu v organizácii dáva dobré predpoklady preto, aby boli tieto požiadavky na dáta splnené. Dátové sklady však majú
jeden problém. Dáta bývajú modelované s použitím dimenzií a ukladané v hviezdicových schémach. Problémom tohto spôsobu reprezentácie dát je, že algoritmy data-miningu s ním nie sú schopné priamo pracovať.
.
Dimenzný model, faktová tabuľka a dimenzie
.
Data-mining algoritmy pracujú s množinami dát, ktoré sú uložené v plochej tabuľke (flat-table). V podstate sa vyžaduje, aby boli všetky atribúty viazané priamo k vybranému typu objektu (napr. zákazník) a uložené na jednom riadku. Pokiaľ faktová tabuľka obsahuje kľúče, aby šetrila miesto a udržiavala poriadok v databáze, plochá tabuľka vygenerovaná z faktovej tabuľky by mala obsahovať priamo hodnoty, ktoré sú zrozumiteľné pre človeka. Tento prístup pomôže pri tvorbe modelov, avšak najviac sa jeho výhody ukážu pri skúmaní znalostí, ktoré sa nám z dát podarilo naučiť a extrahovať. Je veľký rozdiel, ak čítame pravidlo, že zákazníci s interným kódom 83 z mesta 17 vo vekovej skupine 4 sú najlepšia cieľová skupina pre predaj kreditných kariet, alebo rovno vidíme, že sú to študenti z Prešova, ktorí využívajú študentský preukaz aj ako platobnú kartu.
.
ID   Hodnota1 Hodnota2 Hodnota3
1      Fero            Košice      15
2      Marek         Trnava       21
3      Miro            Zvolen       40
.
Príklad – plochá tabuľka, zvykne obsahovať stovky atribútov.
.
Transformácia do plochej tabuľky má svoje úskalia. Plochá tabuľka nie je efektívny formát pre uchovávanie veľkého objemu dát. Ak by boli všetky dáta v plochých tabuľkách, vznikli by problémy s konzistenciou dát, databáza by zaberala priveľa miesta a bola veľmi pomalá. Pre data-mining je to však nevyhnutné.
.
Je v tom ešte jeden trik. V hviezdicových schémach sa s ohľadom na úsporu priestoru neukladá všetko, čo sa dá odvodiť zo základných dát. Ak je to potrebné, dá sa to vypočítať. Teraz je to vrelo odporúčané. Nový pohľad na základné dáta môže pomôcť algoritmom vytvoriť brilantnejšie modely a následne výrazne zlepšiť obchodné výsledky.
.
Tak áno, či nie?
.
Námaha vynaložená na vytvorenie tejto štruktúry sa vráti v podobe kvalitných modelov vytvorenými nad vhodnými dátami. Správnou prípravou dát sa vyrieši drvivá väčšina problémov a nástrah, ktoré objavovanie znalostí obnáša. A iná cesta ani nie je. Bola by ohromná škoda ukladať dáta v databázach, budovať dátové sklady a neurobiť ten posledný krok k tomu, aby tieto nástroje ukázali hodnotu, ktorú nepochybne ukrývajú.
.
Znalosti v dátach sú. Dostať ich von a správne použiť býva v úspešných firmách kľúčom k získaniu konkurenčnej výhody. Ale to je už iný príbeh.

Tags: ,

Leave a Reply