Princíp učenia s učiteľom spočíva v tom, že algoritmu poskytneme označené údaje (labelled data) a umožníme mu samostatne objaviť vzťahy medzi premennými. Ale ako to funguje v praxi?
Lineárna regresia
Predstavme si, že máme zoznam lodí, pri ktorých poznáme dve premenné: ich dĺžku a cenu. Načrtnime graf, kde na osi x znázorníme dĺžku a na osi y cenu. Potom pridáme náš súbor údajov: každý bod predstavuje jednu loď.
Čo si všimnete? Rozptyl bodov sa približne podobá diagonále. To znamená, že môžeme nakresliť čiaru najlepšieho prispôsobenia (line of best fit), ktorá prechádza stredom všetkých bodov. V štatistike tento postup nazývame lineárna regresia.
V našom prípade ide o jednoduchú afinnú funkciu, typu f(x) = ax + b. Pomocou tejto funkcie môžeme predpovedať y (cenu) na základe hodnoty x (dĺžky). Napríklad, ak chcete odhadnúť cenu 25-metrového člna, stačí nájsť zodpovedajúcu hodnotu x a výsledok je na svete!
Ak však rozptyl bodov zodpovedá nelineárnemu modelu, bude potrebné prispôsobiť typ funkcie, aby sme získali optimálny model. Úlohou algoritmu je nájsť parametre funkcie, ktoré ponúknu najlepší prediktívny model a minimalizujú chyby. Tento prístup je nenahraditeľný, ak do hry vstupuje viac ako 2 premenné, napríklad v prípade odporúčania produktov, kde je potrebné analyzovať veľké množstvo premenných.
Dve hlavné aplikácie: regresia a klasifikácia
Príklad s člnmi predstavuje problém regresie, ktorá skúma vzťah medzi premennými s cieľom predpovedať hodnoty nových, spojitých premenných. Tieto premenné môžu nadobúdať nekonečný počet hodnôt v danom intervale.
Čo však v prípade diskrétnych premenných – teda premenných, ktoré môžu nadobúdať iba konečný počet hodnôt, napríklad skóre od 1 do 10? Vtedy hovoríme o klasifikácii.
Príklad binárnej klasifikácie
Predstavte si zoznam e-mailov obsahujúci spam. Najskôr zmeníme dve kvalitatívne premenné na kvantitatívne: 1 pre spam a 0 pre ne-spam. Potom definujeme osi x a y – napríklad počet gramatických chýb na osi x a počet opakovaní na osi y. Nakoniec vykreslíme rozptylový graf: krížiky predstavujú spam, kruhy ne-spam.
Čo vidíme? Dve triedy (klastry), ktoré odhaľujú koreláciu medzi premennými x a y. Zjednodušene povedané, e-maily obsahujúce veľa chýb a opakovaní majú vysokú pravdepodobnosť, že sú spam. Body rozptýlené medzi dvoma skupinami však nie sú jednoznačne zaradené do žiadnej kategórie – budú si vyžadovať podrobnejšiu analýzu.
Zhrnutie
Pamätajte, že vývoj dokonalých algoritmov nie je všetko. Najskôr musíte vybrať model, ktorý najlepšie vyhovuje vašim potrebám, a potom algoritmu poskytnúť dostatočné množstvo správne označených a kvalitných údajov.