Metode ansamblu Ensemble learning. Ruxandra Stoean

Similar documents
STRUCTURI DE DATE. Compresia datelor

Combinarea tabelelor SAS

The Decameron Of Giovanni Boccaccio - Limpidsoft the decameron of giovanni boccaccio by giovanni boccaccio trans. john payne styled bylimpidsoft

FAST FLEXIBLE FRIENDLY

1. Noua procedura pentru biletele Zug zum Flug la rezervarea pachetelor

BRAN BOOTCAMP BE FIT!

Fig Trapezul exterior este y 1, iar cel interior y 3.

Ghid practic pentru stabilirea categoriei unei întreprinderi

Laborator 2. Crearea unei interfete MatLab cu ajutorul functiilor uicontrol si uimenu.

Structura sistemelor de operare

Specificatii Grau Panificatie-UE Futures

SISTEME DE OPERARE

KIT DE MASURARE NIVEL DE SEMNAL IN RETELE CATV

Fundamente ale inteligentei computationale

CASA si BANCA. Modulele de CASA si BANCA sunt asemanatoare, de aceea prezentarea lor va fi facuta in comun. 1. Primul submodul de Casa / Banca

(Valoarea Pasului de Tranzactionare = 1 leu)

De ce sa optimizezi procesul de comanda?

2. Dispersii. Ozon (O 3): Viteza si directia vantului:

Inginerie software seminar 1. ISS - Seminar Multimi, structuri, sisteme, modelare

2.1. Sectiunea administrator Sectiunea profil...5

Predicting Flight Delays Using Data Mining Techniques

Modul Retineri.

MANUAL DE UTILIZARE 6935IN Banda de alergat insportline Mystral

Noul sistem de sine de ghidaj pentru o precizie maxima!!!

12 Specii de rechini

geographianapocensis.acad-cluj.ro

AGENTIA DE TURISM KUSADASI KUSADASI SEDIU CENTRAL B-dul Iancu de Hunedoara, nr 36, etaj 1, sector 1 Telefon: ; Fax:

AIRAC AIP SUPPLEMENT 01/16. WORK in progress at BACĂU/George Enescu airport Phase I

Lucrarea de laborator nr. 11 Globalizarea si localizarea aplicatiilor.net

Anexe. Clasele de asigurare

Este potrivita pentru imprimarea cu: plastisoli, Braille, solder mask peelable, imprimari in relief pe diferite substraturi.

World Robot Olympiad 2016 Categoria Standard Standard I Primar Descrierea probei, reguli si punctaj. Clean Road to School

UTILIZAREA PRODUSELOR BENDER LA NAVE

Tokyo : Ce e super sa vizitezi!

Aplicatie de vanzare pentru restaurante

Buton de alarmare manuala

SISTEME AVANSATE DE ASIGURARE SI ACCES CONTROL IN ZONE CU NECESITATI RIDICATE DE SECURITATE

tom Programmer Manual de utilizare - versiune software

Corfu (din București)

TOURIST ATTRACTION OF CULTURAL HERITAGE IN THE OLTENIA S SUBCARPATHIANS AND ITS TOURISTIC EXPLOITATION. EFFICIENCY STRATEGIES FOR LOCAL TOURISM

Royal Caribbean International

Procedura de rezolvare a reclamatiilor si contestatiilor

EXCURSII OPTIONALE EMIRATELE ARABE UNITE

STUDIES REGARDING THE SUSTAINABLE DEVELOPMENT OF RURAL TOURISM AND AGRI- TOURISM IN THE VATRA DORNEI MICROZONE, SUCEAVA COUNTY

Big Data In Airport Operations

Primul document elaborat abordeaza subiectul Briefului de la client catre agentie considerat unanim a fi primul pas catre o campanie buna.

Pagina de autentificare:

CAP.I DESCRIEREA STRUCTURALA A UNUI SISTEM DE CALCUL

Manual. Proiectare imbinari otel

Implicatiile Teoriei Haosului in stiinta economica

MANUAL DE UTILIZARE CIEL SIMPLU

STUDIU PRIVIND OPTIMIZAREA OPERATIILOR DE STRUNJIRE PRIN SIMULARE CAM CU VISUALTURN

CARTE TEHNICA. Instructiuni de instalare, functionare PENTRU REGULATORUL CLIMATIC EV 70

Hello Point: Curte spațioasă cu foișor și grătar!

GSM Gate Control Telecomanda GSM pentru porti si bariere electrice

Optimizing process of check-in and security check at airport terminals

Summi triumphum. & bc. w w w Ó w w & b 2. Qui. w w w Ó. w w. w w. Ó œ. Let us recount with praise the triumph of the highest King, 1.

AIRAC AIP SUPPLEMENT 09/15. Work in progress at IA I/Ia i Airport

Pasul 1. Realizati-va designul dorit. Acesta poate contine fotografii sau imagini vectoriale.

Routing Information Protocol

RADIOAMATORII VOLUNTARI IN SITUATII DE URGENTA

AE Economic Interferences

Regasiti in cele ce urmeaza ultimele update-uri in materie de produs si operational la touroperatorii din grupul Neckermann/Thomas Cook.

AIRAC AIP SUPPLEMENT 02/17 WORK in progress at BAC U/George Enescu airport Phase II

Abordarea familiei pentru obtinerea consimtamantului scris in vederea donarii de organe

CS229: AUTUMN Application of Machine Learning Algorithms to Predict Flight Arrival Delays

Austria. Lista oferte hoteluri Viena,

Cuprins. Despre Banca Transilvania pag. 2

INTERVIU Iordan Gheorghe BARBULESCU Cred ca in 30 de ani Uniunea Europeana va fi o federatie

Usa rotativa TOURNIKET MANUAL DE UTILIZARE GENERAL. 1 Manual de utilizare

Atennea Air. The most comprehensive ERP software for operating & financial management of your airline

Ghid orientativ privind dispozitiile Regulamentului UE 2016/679 (GDPR)

"Free at Last" Cage-based Living Geometry

Folie PVC pentru amenajarea de iazuri, lacuri sau helestee

ICAO Implementation Tools. Antonin Combes Jessica Díaz de León

Art PRESOSTAT ELECTRONIC

PROGRAMME For the information visit to the European Commission of:

Ghid rapid de utilizare SelfAWB

AIRAC AIP SUPPLEMENT 01/17 Work in progress at BUCURE TI / Henri Coand Airport

LISTA. states in published (2012). study of 692, (2009). (2009). a prestressed. to Mode

Scalable Runtime Support for Data-Intensive Applications on the Single-Chip Cloud Computer

Bulgaria Statiunea Nisipurile de Aur Optional transport cu autocar Preturile sunt in EURO / persoana / noapte

Context european si implicatii la nivel regional si national Factori cheie de dezvoltarea a industriei ITC in regiune

DOWNLOAD OR READ : TITANIC NAMES A COMPLETE LIST OF PASSENGERS AND CREW ON THE FATEFUL VOYAGE PDF EBOOK EPUB MOBI

Sistem de informare si ierarhizare pentru imbunatatirea dezvoltarii regionale. Sistem general de diseminare

Seasonal Adjustment with the R packages x12 and x12gui

Don t Sit on the Fence

Ghid Operational pentru Mentenanta HW IBM

Modelul O I D al unei organizatii

Izoeritroliza neonatala

ATPCO. Intended positioning on the market

Tourist Trails. Hiking trails:

AIRAC AIP SUPPLEMENT 01/14. Work in progress at ORADEA/Oradea airport Phase I

Tel: Fax: Sos. Bucure ti-ploie ti Nr RO , Sector 1 Bucure ti, Romania

Predicting flight routes with a Deep Neural Network in the operational Air Traffic Flow and Capacity Management system

A comme amitié (Deuxième partie) (pp Studio HIGHER) Saying what people seem to be like and why GRAMMAR: Irregular verbs in the PRESENT TENSE

SISTEME DE INCENDIU CONVENTIONALE

Thomas Tallis Mass for 4 voices

UNIVERSITATEA TEHNICA GH. ASACHI - IASI DIRECTIA FINANCIAR CONTABILA SERVICIUL CONTABILITATE BIROUL M.M.F.O.I. PROCEDURA DE LUCRU

Cod de proiectare. Evaluarea actiunii zapezii asupra constructiilor

Transcription:

Metode ansamblu Ensemble learning Ruxandra Stoean rstoean@inf.ucv.ro http://inf.ucv.ro/~rstoean

Bibliografie Breiman, L., Bagging Predictors, Machine Learning, vol. 24, issue 2, pp. 123-140, 1996 http://www.cs.utsa.edu/~bylander/cs6243/bagging-boosting.pdf Freund, Y. and Schapire, R.E., Experiments with a new boosting algorithm, Proceedings of the Thirteenth International Conference on Machine Learning, 148 156,Morgan Kaufmann, 1996 Breiman, L., Random Forests, Machine Learning 45(1), 5-32, 2001. Dianne Cook, Deborah F. Swayne, Graphics for Data Analysis. Interactive and Dynamic With R and Ggobi, Springer, 2007

Invatare ansamblu Se antreneaza mai multi clasificatori de baza si se combina predictiile acestora. Modul de aplicatie al clasificatorilor poate avea loc la mai multe niveluri. Abordari clasice: Bagging Boosting Random forests

Bagging Este prescurtarea de la Bootstrap AGGregatING. Se imparte multimea de m date de antrenament in b parti (bags). Fiecare submultime are tot m elemente. Datele din fiecare submultime sunt selectate aleator cu inlocuire. Clasificatorul de baza ales se antreneaza pe fiecare submultime. Cele b modele construite voteaza iesirea pentru datele noi de test: Media iesirilor celor b modele - pentru regresie Clasa cu cele mai multe aparitii in predictiile celor b modele - pentru clasificare Exemplele neselectate (out-of-bag) se utilizeaza pentru a estima eroarea de generalizare.

Pachetul R ipred Clasificatorul de baza este un arbore de decizie (bagged tree). Este folosit in acest sens pachetul rpart. Daca iesirea este vazuta drept factor, se are in vedere clasificarea. Daca este numerica, se trateaza regresia. Parametrul nbagg specifica numarul de replicatii dorit default 25. Parametrul coob=true specifica dorinta de a calcula o estimare a erorii de generalizare (out-of-bag estimation )

Exemplu 1/2 library(ipred) # pachetul pentru functia bagging library(mlbench) # pachetul pentru Breast Cancer library(e1071) # pachetul pentru matricea de confuzie data(breastcancer) dat <- BreastCancer classcolumn <- 11 # se imparte multimea de date o data in training si test testindex <- sample(index, trunc(length(index)/4)) testset <- dat[testindex, ] trainset <- dat[-testindex, ]

Exemplu 2/2 # se aplica bagging pe multimea de antrenament # se doreste si estimarea erorii de predictie bg <- bagging(class ~., data = trainset, coob=true) print(bg) bg.pred <- predict(bg, testset[, -classcolumn]) contab <- table(pred = bg.pred, true = testset[, classcolumn]) accuracy <- classagreement(contab)$diag print(accuracy)

Rezultat

Boosting: Adaboost ADAptive BOOSTing Are ca scop marirea acuratetii pentru un clasificator. Se aplica clasificatorul de baza in mod repetat. Fiecare data de antrenament (din cele m) are atasata o pondere initial toate egale cu 1/m. La fiecare pas, datele clasificate gresit primesc pondere mai mare. Modelul rezultat la fiecare pas primeste un vot ponderat dupa acuratetea sa de predictie Ponderea e data de masura clasificarilor sale gresite pe multimea de antrenament.

Pachetul R ada Implementeaza din nou un arbore de decizie ca si clasificator de baza (boosted tree) folosind tot pachetul rpart. Parametrul iter specifica numarul de iteratii dorit. Functia plot ofera posibilitatea vizualizarii: Erorii de clasificare la fiecare iteratie a algoritmului de boosting Eroarea poate fi calculata atat pentru multimea de training cat si pentru cea de test Masurii de concordanta (agreement) kappa dintre clasificarea prognozata si cea reala la fiecare iteratie de boosting pentru ambele multimi

Exemplu 1/2 library(ada) library(mlbench) library(e1071) data(breastcancer) dat <- BreastCancer classcolumn <- 11 testindex <- sample(index, trunc(length(index)/4)) testset <- dat[testindex, ] trainset <- dat[-testindex, ]

Exemplu 2/2 boost <- ada(class~., data = trainset, iter=20) summary(boost) # adaugam multimea de test boost=addtest(boost, testset[, -classcolumn], testset[, classcolumn]) # graficul erorii de clasificare per iteratie plot(boost,true,true) boost.pred <- predict(boost, testset[, -classcolumn]) contab <- table(pred = boost.pred, true = testset[, classcolumn]) accuracy <- classagreement(contab)$diag print(accuracy)

Rezultate

Plot

Random forests Este o metoda ansamblu ce combina mai multi arbori de decizie. Fiecare arbore este generat prin extragerea aleatoare (cu inlocuire) a Atributelor Inregistrarilor (bagging) Pentru fiecare arbore exista automat O multime de antrenare (in-bag) O multime de masurare a erorii de generalizare (out-of-bag) Clasa unui exemplu nou se stabileste prin vot pentru clasificare si prin medie pentru regresie.

Pachetul randomforest Parametri: ntree numarul de arbori; implicit egal cu 500 mtry numarul de atribute alese aleator Metoda nu poate manevra datele lipsa. In apelarea metodei se poate folosi na.action = na.omit pentru a omite datele lipsa. Output: Estimarea erorii de generalizare out-of-bag (OOB) estimate Matricea de confuzie Importanta atributelor

Exemplu 1/2 library(randomforest) library(mlbench) library(e1071) data(breastcancer) dat <- BreastCancer classcolumn <- 11 noclass <- 2 testindex <- sample(index, trunc(length(index)/4)) testset <- dat[testindex, ] trainset <- dat[-testindex, ]

Exemplu 2/2 rf <- randomforest(class ~., data = trainset, importance=true, mtry = 4, na.action = na.omit) print(rf) rf.pred <- predict(rf, testset[, -classcolumn]) contab <- table(pred = rf.pred, true = testset[, classcolumn]) accuracy <- classagreement(contab)$diag print(accuracy) #importanta variabilelor, bazata pe masura Gini nocolumn <- noclass+2 order(rf$importance[,nocolumn], decreasing=t)

Exercitii Aplicati bagging, boosting si random forests din R pentru problema Pima Indians Diabetes [1]. [1] https://archive.ics.uci.edu/ml/datasets/pima+indians+diabetes