Strojové učení z rychlíku

Strojové učení
z rychlíku
Devel.cz 2013

Michal Illich

Dnešní menu
● Co to je a k čemu vůbec?
● Obecný princip strojového učení
● Neuronové sítě
● Rozhodovací stromy a lesy

Klasické problémy
● Rozpoznávání obrazu
OCR vizuální klasifikace self driving cars

● Rozpoznávání řeči
voice dial voice search siri

● Inteligentní agenti
roboti autonomní systémy

O tomhle tahle přednáška nebude...

Kde se používá na webu - II

Kde se používá na webu - III

Je jen pro velké?
● Ano i ne.

● víceméně všechny velké firmy jej používají
● potřebuje dost dat

● pomůže skoro na všech projektech
● není to tak složité, jak to vypadá

Kdy použít strojové učení?
1. Máte víc dat, než zvládne zanalyzovat člověk.
to je u navštěvovaných webů skoro vždy...

2. Jste schopni definovat a změřit cíl.
víc objednávek víc prokliků méně odchodů víc konverzí
víc dat přesnější predikce žádané věci na skladě ...

3. Jste v konkurenčním prostředí.
strojové učení není zázrak, „jen“ vám dá náskok

Dvě základní použití
supervidovaného strojového učení

● Předpovídá (číslo)
CTR reklamy Hodnocení filmu Relevanci …

● Třídí (kategorie)
Spam/ham Rubrika Téma Pohlaví Věk ...

Kde je to „učení“
Data rozdělíte na (minimálně) 2 hromádky:

● Trénovací
Na nich se strojové učení „učí“.
To jest hledá vztahy a vytvoří si z nich „model“.
● Testovací
Na nich ověřujeme, jak dobře model funguje.
Tedy zda jsou ty „znalosti“ přenositelné na nová data.

Deep learning
● Klasické neuronové sítě ze 70. let
trénují jen přes „backpropagation“
neumí dobře natrénovat >2 hidden vrstvy
● Convolutional networks
ručně navržená topologie sítí, výborná na rozpoznávání obrazu
● 2006+ Hinton a další – deep learning
umí po vrstvách trénovat velmi hluboké sítě
dokáží využít i neoznačkovaná vstupní data (pre-training)
RBM, stacked autoencoders a další algoritmy

NN jsou univerzální
● Nejenom na rozpoznávání obrazu

● Na vstupu libovolné pole čísel
všechna data jde převést na čísla...

● Na výstupu opět pole čísel
může být jeden výstup: predikce
nebo mnoho výstupů označující kategorie

Kde začít – dobré knihovny:
● FANN (C)
http://leenissen.dk/fann/wp/

● cuda-convnet (C++, GPU)
http://code.google.com/p/cuda-convnet/

● Theano (Python, GPU)
http://deeplearning.net/software/theano/

Rozhodovací stromy (a lesy)
● jiná technika strojového učení
● není tak cool jako neuronové sítě
● ale má i výhody:
– rychleji se učí
– není potřeba upravovat vstupní data
– model je pochopitelný pro člověka

Trénovací data (zjednodušená)

Od stromu k lesům
● takových stromů si uděláme třeba 100
● jejich výsledky zprůměrujeme
● boosting: větší váhu přikládáme datům, u
kterých se předchozí stromy spletly

I rozhodovací lesy jsou univerzální
● na vstupu libovolná data
není potřeba normalizovat či převádět texty na čísla
● rychlé a s dobrou přesností
● použitelné na mnoho problémů
i na fulltext

Kde začít – dobré knihovny:
● gbm (R)
http://cran.r-project.org/web/packages/gbm/

● Weka (Java)
http://www.cs.waikato.ac.nz/ml/weka/

● Scikit-learn (Python)
http://scikit-learn.org/

Na co nezbyl čas
● SVM (support vector machines)
rychlé, přesné
ideálně na klasifikaci, z číselných vstupů
● CRF / HMM
značkování textů, named entity recognition
● Naive Bayes, lineární regrese
základní statistické techniky
jednoduché, ale dost dobré na spoustu úloh

Díky!

michal@illich.cz

@michalillich

PS: Přijímáme: C, Python, PHP

www.doporucim.cz/mobile/DEVELMICHAL

Zdroje ilustračních obrázků:
http://www.cs.toronto.edu/~kriz/cifar.html
http://code.google.com/p/cuda-convnet/
http://cl.naist.jp/~kevinduh/notes/duh12deeplearn.pdf
http://www.positscience.com/media-gallery/detail/161/94

+ pozadí koupené ve fotobance

Strojové učení z rychlíku

Recommended

Recommended

More Related Content

Similar to Strojové učení z rychlíku

Similar to Strojové učení z rychlíku (20)

Strojové učení z rychlíku