Proč je data mining tak důležitý - Vývoj software a webových aplikací

Vývoj software a webových aplikací

Proč je data mining tak důležitý

OBSAH

  1. Úvod
  2. Trocha historie data miningu
  3. Proces získávání poznatků, KDD
  4. Data mining je vědecké bádání
  5. Data mining pro marketing
  6. Data mining a průzkum trhu
  7. Vizualizace dat a komunikace; data, jak jste je nikdy neviděli
  8. Závěr

 

 

Úvod

Výraz „data mining“ byl jistou dobu velmi populární termín v oblasti informatiky, přitahoval pozornost po celém světě a postupně nalézal větší rozšíření i v praxi. Je tedy čas mluvit o data miningu jasně a důkladně. Před tím, než budu pokračovat, je vhodné uvést definici výrazu „data mining“:

Data mining je proces objevování vzorců ve velkém množství dat, protínající také oblasti strojového učení, statistik a databázových systémů.

Nemyslete si, že jde o extrakci dat jako takovou, spíše jde o získávání vzorců a znalostí z velkého množství dat. Stejně tak si nemyslete, že data mining je sám o sobě vědou nebo technologií.

Můžeme rozšířit definici procesu data miningu a dodat, že je zaměřena na vyhledávání informací, které nejsou předem známé a které mohou být převedeny na činnosti, nejen komerční, za účelem získání výhody.

I přesto, že se jedná o oblíbený výraz z posledních let, data mining není něco, co by se zrodilo před deseti nebo dvaceti lety, ale má hluboké kořeny v informatice. Abychom tento proces dobře vysvětlili, je proto vhodné uvést některé znalosti o jeho původu a vývoji až do současnosti.

 

 

Trocha historie data miningu

Jak již bylo řečeno, data mining není nedávný proces, ale vznikl mnohem dříve, i když ve zcela jiné formě a s jinými metodami, než je znám dnes. Je také třeba zvážit vzájemný vztah mezi technologiemi v oblasti databázových systémů a data miningem, protože databáze poskytly mimořádný nástroj pro správu velkého množství dat, což usnadňuje některé operace, které ještě před desítkami let vyžadovaly velkou pracovní sílu.

Po tomto úvodu se přesuňme na stručnou časovou linii:

1960: Začíná sběr dat na počítačových zařízeních, nejprve databáze s hierarchickými nebo relačními modely.

1970: Prosazuje se relační databázový model a vyvíjí se první relační DBMS (Data Base Managing System), vzájemný vztah mezi různými sbírkami dat se tímto zjednodušuje.

1980: Relační DBMS se rozšiřují a prosazují se v komerčním světě a stávají se velkou realitou v prostředí informatiky i mimo něj.

1994: Začíná vývoj datových skladů (Data Warehouse) a poté se začíná vyvíjet data mining moderním způsobem, tedy jako proces, který protíná oblasti strojového učení, statistiky a správy databází (nebo datových skladů).

2011: Data mining dosahuje dnešní podoby známé i v komerčním světě a umožňuje vytvořit prediktivní modely a/nebo nabízí spolehlivou podporu rozhodování.

Z této malé časové linie je zřejmé, že větší dostupnost dat, větší a levnější výpočetní síla a pokrok ve znalostech přinesly evoluci data miningu a obecně procesu získávání znalostí z databází.

To ale neznamená, že se proces od minulosti úplně změnil, ale spíše se mnohonásobně zlepšil, ve skutečnosti je možné nahromadit dostatečné množství znalostí pro realizaci prediktivních modelů.

 

 

Proces získávání poznatků, KDD

Před chvílí jsem zmínil „proces získávání poznatků“, KDD neboli Knowledge Discovery Databases. Doslovný význam je snadno pochopitelný, ale jeho formalizace nemusí být tak bezprostřední, především pokud jde o zavedení takového procesu do praxe. Existuje mnoho způsobů, jak získat data z databáze v závislosti na kontextu, ale můžete se vždy odvolat na obecné pravidlo s názvem KDD.

Níže je uveden graf shrnující hlavní složky procesu KDD.

 

Tento proces popisuje výběr, přípravu, transformaci, data mining a nakonec vyhodnocení dat za účelem získání poznatků a jejich úspěšnému využití v rozhodovacích procesech.

Jak je zřejmé, během cesty, která vede od dat k poznání, dochází k významnému snížení objemu informací, ale zároveň ke zvýšení jejich hodnoty, proto je na začátku potřeba vybrat hrubá data z obrovských sbírek (tzv. big data), často všeobecná, po data miningu se získají vzorce informací užitečných pro účely procesu KDD.

Je také velmi důležité zvážit moderní data mining, který vlastně předpokládá široké využití nástrojů a technologií vhodných k automatizaci nebo polo-automatizaci procesu.

 

 

Data mining je vědecké bádání

Po tom, co jsme získali patřičné znalosti o data miningu se můžeme ptát: v jakých oblastech ho lze využít?

Správnou odpovědí by bylo téměř vše, také kvůli všeobecné povaze takového procesu. Přesto v tomto článku budeme posuzovat pouze některé oblasti a jednou z nich je vědecký výzkum.

Může data mining skutečně pomoci vědeckému výzkumu? Odpověď zní: Bezpochyby ano. Potenciál tohoto nástroje umožňuje objevit nové vzájemné vztahy mezi různými jevy a následně mít pod kontrolou eventuální nepředvídané reakce nebo jednoduše přidat nové aspekty do samotného výzkumu.

Jedním z pozoruhodných využití data miningu v oblasti výzkumu je nalezení vzájemného vztahu mezi sekvencemi DNA a náchylností k nemoci, lépe řečeno lze určit, zda jsou v lidském DNA geny zodpovědné za nějakou nemoc a identifikovat je.

Dalším využitím ve výzkumu je zlepšení geografického znázornění, které umožňuje vizualizaci prostoru jako souboru komplexních objektů a vztahů mezi nimi, například neeuklidovských vzdáleností, směrů atd.

Toto je jen několik příkladů a představují jen malou část procesu běžnějšího, než byste si mysleli, který najde uplatnění téměř ve všech oblastech vědy.

Z tohoto důvodu není vůbec žádné překvapení, že data mining vstoupil také do světa obchodu s obrovským rozšířením.

 

 

Data mining pro marketing

Data mining, jak jsme právě viděli, zaujmul velmi důležité místo ve vědeckém výzkumu, avšak není to jediná oblast, ve které se tento proces využívá. Jednou z oblastí, kde našel uplatnění, je marketing.

Pravděpodobně jsme všichni, alespoň jednou, toužili umět předvídat budoucnost, pokud šlo o učinění nějakého rozhodnutí a v oblasti marketingu se často očekává, že učiněné rozhodnutí dokáže oslovit co největší množství lidí a promění je na zákazníky.

Dobře, data mining to nedělá. Není jako věštkyně, která Vám dá absolutní jistotu nebo zázračné výsledky. Je to nástroj, který Vám umožní získat lepší znalosti v dané oblasti a v případě marketingu také Vaše potencionální zákazníky a nejen to.

Díky tomuto procesu je možné zlepšit klastrování zákazníků tím, že odhalíme skupiny spojené s provedenými nákupy, sociálními a demografickými charakteristikami a lépe tak rozčleníme dané kupující.

Můžete objevit vzorce, které vedou zákazníky k tomu, aby se odklonili od dané značky, a zjistit tak příčiny těchto odklonů a následně vypracovat strategie, jak nejlépe zabránit tomuto fenoménu.

Neméně důležitá je možnost odhalit, které zboží nebo služby se obvykle kupují společně a umožní tak vypracovat vhodnou marketingovou strategii, která přiměje zákazníka ke koupi.

S regresní analýzou je možné získat řadu indikátorů, které Vám pomohou pochopit, co se pravděpodobně stane, úpravou některých parametrů marketingové strategie a získáním výsledku, který se blíží realitě.

Neméně odhalující je možnost nalézt eventuální anomálie či neshody právě díky získaným vzorcům, vlastně detekcí anomálií, jedné konkrétní technice data miningu, díky které jsou identifikovány možné lidské chyby způsobené zaměstnanci nebo jinými.

Díky data miningu je tudíž možné zlepšit vlastní marketingovou strategii o 360° a získat vynikající podporu při rozhodování.

 

 

Data mining a průzkum trhu

Data mining je ze své podstaty zaměřen na objevování předem neznámých vzorců, je tedy skvělým nástrojem, když chcete vyhledat pohyb zájmů v oblasti daného cílového trhu.

Výsledky tohoto procesu proto mohou být využity na vytvoření datového skladu ke zjednodušení aplikování získaných informací v tržních strategiích.

Například, díky data miningu je možné poznat neznámé chování zákazníků ve velkých komerčních řetězcích, identifikovat produkty, které zákazníci kupují dohromady a přiblížit tak obě oddělení, abyste zlepšili nákup.

Samozřejmě jsou data o průzkumu trhu spojeny také s geografickými faktory, zvyky amerického občana se významně liší od toho evropského, proto je důležité definovat kontext analýzy data miningu a odhalit tak chování zákazníků.

To může také zahrnovat časové měřítko, které identifikuje i opakující se události, jako jsou státní nebo regionální svátky, které přinášejí zvýšení poptávky určitého zboží a můžeme tak zabránit tomu, aby během těchto oken došlo k vyprodání těchto produktů.

 

 

Vizualizace dat a komunikace; data, jak jste je nikdy neviděli

Všichni jsme měli nějaké problémy s matematikou, dříve či později jsme se střetli s nějakým problémem, který nám způsobil pěkné bolení hlavy. A pro některé je matematika ještě dnes nesrozumitelným uměním.

A přesto je základem pro mnoho odvětví a základní součástí data miningu. A tedy vzorců, které to vracejí a můžeme je tak používat. Takové vzorce mohou být zastoupeny různými způsoby, a právě tady se setkává věda s uměním.

Infografika se stává stále běžnější a rozšířenější, představuje jednoduchou a okamžitou metodu, jak efektivně a účinně sdělovat informace, také pokud mluvíme o datech, nebo o velkých datech (big data), jak se v posledních letech stále častěji stává.

Pokud je tedy přirozené věnovat tolik pozornosti procesu data miningu, nemělo by se zapomínat, že tyto vzorce čtou a hodnotí lidi. Najít nejlepší způsob, jak je prezentovat, usnadňuje jejich nahlédnutí a využití pro účely rozhodování KDD.

Kromě toho, vizualizace dat se zabývá i souvislou komunikací různorodých dat, které spolu zjevně nesouvisí, což usnadňuje pochopení vzorců i lidem, kteří nežijí v dané realitě.

A to může být užitečné také v oblasti marketingu, protože i výsledky dané firmy se mohou stát materiálem pro komunikaci se zákazníky a je důležité zvolit si vizuální přístup, díky kterým se tato data stanou zajímavá a atraktivní.

Čísla snadno přitahují zájem lidí, ale obecně je tato pozornost krátkodobá. Prostřednictvím vizuálního přístupu je tedy zpráva udána v grafu.

Umění prezentovat čísla v grafu není tedy pouze otázkou praktičnosti, ale může také pomoci komunikovat Vaši značku.

 

 

Závěr

Data mining je v dnešní době proces většinou automatizovaný nebo polo-automatizovaný, který se dobře slučuje s řešeními tipu CRM a ERP, schopný poskytnout data potřebná k objevení nových užitečných informací.

Jeho přínos v rozhodovací fázi může být značný, i pokud jde jednoduše o průběh Vašeho podnikání. Nemělo by tedy nikoho překvapit, že svět businessu pohltil tuto metodologii a učinil ji tak nedílnou součástí rozhodovacích procesů ve společnostech různých rozměrů.

 

Autor: Antonio Di Giorgio