STABLA ODLUČIVANJA. Jelena Jovanovic. Web:

Similar documents
Klasterizacija. NIKOLA MILIKIĆ URL:

Priprema podataka. NIKOLA MILIKIĆ URL:

Biznis scenario: sekcije pk * id_sekcije * naziv. projekti pk * id_projekta * naziv ꓳ profesor fk * id_sekcije

AMRES eduroam update, CAT alat za kreiranje instalera za korisničke uređaje. Marko Eremija Sastanak administratora, Beograd,

Podešavanje za eduroam ios

SIMPLE PAST TENSE (prosto prošlo vreme) Građenje prostog prošlog vremena zavisi od toga da li je glagol koji ga gradi pravilan ili nepravilan.

CJENIK APLIKACIJE CERAMIC PRO PROIZVODA STAKLO PLASTIKA AUTO LAK KOŽA I TEKSTIL ALU FELGE SVJETLA

Struktura indeksa: B-stablo. ls/swd/btree/btree.html

Ulazne promenljive se nazivaju argumenti ili fiktivni parametri. Potprogram se poziva u okviru programa, kada se pri pozivu navode stvarni parametri.

GUI Layout Manager-i. Bojan Tomić Branislav Vidojević

Mašinsko učenje Uvod. Bojan Furlan УНИВЕРЗИТЕТ У БЕОГРАДУ ЕЛЕКТРОТЕХНИЧКИ ФАКУЛТЕТ

TRENING I RAZVOJ VEŽBE 4 JELENA ANĐELKOVIĆ LABROVIĆ

TRAJANJE AKCIJE ILI PRETHODNOG ISTEKA ZALIHA ZELENI ALAT

BENCHMARKING HOSTELA

Eduroam O Eduroam servisu edu roam Uputstvo za podešavanje Eduroam konekcije NAPOMENA: Microsoft Windows XP Change advanced settings

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

IZDAVANJE SERTIFIKATA NA WINDOWS 10 PLATFORMI

ENR 1.4 OPIS I KLASIFIKACIJA VAZDUŠNOG PROSTORA U KOME SE PRUŽAJU ATS USLUGE ENR 1.4 ATS AIRSPACE CLASSIFICATION AND DESCRIPTION

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

SAS On Demand. Video: Upute za registraciju:

Nejednakosti s faktorijelima

4. Stabla odlučivanja

MINISTRY OF THE SEA, TRANSPORT AND INFRASTRUCTURE

Idejno rješenje: Dubrovnik Vizualni identitet kandidature Dubrovnika za Europsku prijestolnicu kulture 2020.

KAPACITET USB GB. Laserska gravura. po jednoj strani. Digitalna štampa, pun kolor, po jednoj strani USB GB 8 GB 16 GB.

Otpremanje video snimka na YouTube

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

Uvod u relacione baze podataka

Poboljšanje tačnosti klasifikacije algoritama za induktivno učenje pravila primenom metoda prethodnog učenja

CJENOVNIK KABLOVSKA TV DIGITALNA TV INTERNET USLUGE

1.7 Predstavljanje negativnih brojeva u binarnom sistemu

UNIVERZITET U BEOGRADU RUDARSKO GEOLOŠKI FAKULTET DEPARTMAN ZA HIDROGEOLOGIJU ZBORNIK RADOVA. ZLATIBOR maj godine

Primena algoritma stabla odlučivanja u prepoznavanju ponašanja i zdravstvenih rizika kod starijih osoba

MAŠINSKO UČENJE. JELENA JOVANOVIĆ Web:

RANI BOOKING TURSKA LJETO 2017

DANI BRANIMIRA GUŠICA - novi prilozi poznavanju prirodoslovlja otoka Mljeta. Hotel ODISEJ, POMENA, otok Mljet, listopad 2010.

WWF. Jahorina

TEHNIKA I INFORMATIKA U OBRAZOVANJU

PROJEKTNI PRORAČUN 1

Port Community System

STRUČNA PRAKSA B-PRO TEMA 13

POSEBNA POGLAVLJA INDUSTRIJSKOG TRANSPORTA I SKLADIŠNIH SISTEMA

Korak X1 X2 X3 F O U R T W START {0,1}

Windows Easy Transfer

Bušilice nove generacije. ImpactDrill

СТРУКТУРА СТАНДАРДА СИСТЕМАМЕНАЏМЕНТАКВАЛИТЕТОМ

MODEL OBJEKTI - VEZE KONCEPTI MODELA METODOLOGIJA MODELIRANJA

Testiranje koda - JUnit. Bojan Tomić

Vrednovanje postupka semantičke segmentacije temeljenog na slučajnim šumama

KAKO GA TVORIMO? Tvorimo ga tako, da glagol postavimo v preteklik (past simple): 1. GLAGOL BITI - WAS / WERE TRDILNA OBLIKA:

ULOGA STABLA ODLUKE U VREDNOVANJU INVESTICIONIH PROJEKATA USING DECISION TREES FOR INVESTMENT PROJECT EVALUATING

INSTALIRANJE SOFTVERSKOG SISTEMA SURVEY

3.2. Prikazati podatke o svim proizvodima, koji se proizvode u Zrenjaninu.

POSTUPAK OPTIMIZIRANJA IZBORA OGLASA NA TEMELJU STABALA ODLUČIVANJA

WELLNESS & SPA YOUR SERENITY IS OUR PRIORITY. VAŠ MIR JE NAŠ PRIORITET!

Sveučilište Jurja Dobrile u Puli Fakultet ekonomije i turizma «Dr. Mijo Mirković» SARA NIKOLAŠEVIĆ METODE I PROGRAMI ZA RUDARENJE PODATAKA

CRNA GORA

Univerzitet u Beogradu Fakultet organizacionih nauka Miloš Milić

KOMPARATIVNA ANALIZA PREDIKTIVNIH TEHNIKA RUDARENJA PODATAKA

1. Instalacija programske podrške

KONFIGURACIJA MODEMA. ZyXEL Prestige 660RU

Press clipping: World Tobacco Growers Day Macedonia

Donosnost zavarovanj v omejeni izdaji

Tema 2: Uvod u sisteme za podršku odlučivanju (VEŽBE)

24th International FIG Congress

Upute za korištenje makronaredbi gml2dwg i gml2dgn

Skalabilni klaster algoritmi Seminarski rad iz Istraživanja podataka

JEDINSTVENI PORTAL POREZNE UPRAVE. Priručnik za instalaciju Google Chrome dodatka. (Opera preglednik)

Mindomo online aplikacija za izradu umnih mapa

Trening: Obzor financijsko izvještavanje i osnovne ugovorne obveze

DEFINISANJE TURISTIČKE TRAŽNJE

MRS MRSLab08 Metodologija Razvoja Softvera Vežba 08

Tutorijal za Štefice za upload slika na forum.

Primjena genetskog programiranja na problem klasifikacije podataka

Bear management in Croatia

PRESENT SIMPLE TENSE

Pregled metodologija:

KABUPLAST, AGROPLAST, AGROSIL 2500

Commissioned by Paul and Joyce Riedesel in honor of their 45th wedding anniversary. Lux. œ œ œ - œ - œ œ œ œ œ œ œ œ œ œ. œ œ œ œ œ œ œ œ œ.

Paralelna implementacija metode nadziranog učenja

OTAL Pumpa za pretakanje tečnosti

EKSPLORATIVNA ANALIZA PODATAKA IZ SUSTAVA ZA ISPORUKU OGLASA

NIS PETROL. Uputstvo za deaktiviranje/aktiviranje stranice Veleprodajnog cenovnika na sajtu NIS Petrol-a

THE PERFORMANCE OF THE SERBIAN HOTEL INDUSTRY

Advertising on the Web

Univerzitet u Beogradu Matematički fakultet. Mašina pravila ekspertski sistem dokazivanja zasnovan na pravilima. master rad

Algoritamski aspekti razvoja i implementacije Web pretraživača

KVANTIFIKOVANJE VEROVATNOĆE DIFOLTA PREDUZEĆA U SRBIJI I RAZVOJ INTERNOG KREDITNOG REJTINGA ZA POTREBE BANKE

Materijali za pripremu usmenog ispita Predmet: Procesi razvoja softvera

MRS. MRSLab03 Metodologija Razvoja Softvera Vežba 03 LAB Dijagram aktivnosti

- Vežba 1 (dodatan materijal) - Kreiranje Web šablona (template) pomoću softvera Adobe Photoshop CS

Dežurni nastavnik: Ispit traje 3 sata, prvih sat vremena nije dozvoljeno napuštanje ispita. Upotreba literature nije dozvoljena.

ECONOMIC EVALUATION OF TOBACCO VARIETIES OF TOBACCO TYPE PRILEP EKONOMSKO OCJENIVANJE SORTE DUHANA TIPA PRILEP

Direktan link ka kursu:

Automatske Maske za zavarivanje. Stella, black carbon. chain and skull. clown. blue carbon

Iskustva video konferencija u školskim projektima

Giovanni Gabrieli (c ) Ego dixi, Domine. à 7. Transcribed and edited by Lewis Jones

Prepoznavanje spam SMS poruka. Sažetak

FORECASTING OF VEGETABLE PRODUCTION IN REPUBLIC OF SRPSKA PREDVIĐANJE RAZVOJA POVRTARSTVA U REPUBLICI SRPSKOJ

CAME-LISTA USKLAĐENOSTI SA PART M CAME-PART M COMPLIANCE LIST

Transcription:

STABLA ODLUČIVANJA Jelena Jovanovic Email: jeljov@gmail.com Web: http://jelenajovanovic.net

2 Zahvalnica: Ovi slajdovi su bazirani na materijalima pripremljenim za kurs Applied Modern Statistical Learning Techniques (link), kao i na poglavlju 8 knjige Introduction to Statistical Learning (link)

Primer: Klasifikacija igrača bejzbola 3 Potrebno je klasifikovati igrače bejzbola na one koji su jako dobro plaćeni i one koji to nisu (WellPaid), na osnovu broja ostvarenih poena u prethodnoj godini (Hits) i broja godina koje je igrač proveo u glavnoj ligi (Years)

4 Primer: Klasifikacija igrača bejzbola Stablo odlučivanja ukazuje da su dobro plaćeni oni igrači koji su ostvarili bar 122 pogotka u prethodnoj godini i koji bar 5.5 godina igraju u glavnoj ligi Verovatnoća da je igrač sa opisanim karakteristikama dobro plaćen je 0.71 Ti igrači čine 23% svih igrača za koje su nam raspoloživi podaci (skup za trening)

Drugi način za vizuelizaciju stabla odlučivanja 5 R 1 R 3 R 2

6 Osnovna ideja klasifikacionih stabala Podela prostora atributa kojima su objekti opisani u više različitih i međusobno nepreklopljenih regiona R 1, R 2,, R n prostor atributa je p-dimenzionalni prostor koga čine moguće vrednosti p atributa (x 1,x 2,,x p ) kojima su dati objekti opisani Za novi objekat X, određuje se pripadnost jednom od regiona R 1 R n na osnovu vrednosti atributa (x 1,x 2,,x p ) kojima je X opisan Klasa novog objekta će biti ona klasa koja dominira (majority class) u regionu R j u koji je X svrstan

7 Podela prostora atributa Podela prostora atributa na regione R j je iterativni proces koji se sastoji od: izbora atributa x i koji će biti osnova za podelu izbora vrednosti atributa x i koja će poslužiti kao granična vrednost

8 Podela prostora atributa Za prvu podelu, u datom primeru, izabran je atribut Hits, i vrednost 122 Hits = 122

9 Podela prostora atributa Prva podela: Hits = 122 Ukoliko je Hits > 122, sledeća podela je na atributu Years: Years= 5.5

10 Podela prostora atributa Prva podela: Hits = 122 Ako je Hits > 122, sledeća podela: 122 R 3 Years = 5.5 R 1 5.5 R 2

11 Podela prostora atributa Pitanja koja se prirodno nameću: Kako i gde izvršiti podelu? drugim rečima, kako kreiramo regione R 1, R 2,,R n? Kako odrediti klasu instanci u svakom od regiona R 1,..,R n?

12 Kako odrediti klasu instanci u regionima R 1 R k? Jednostavno, koristeći princip većinske klase (majority class): svakom regionu R j, pridružiti klasu kojoj pripada većina instanci iz skupa za trening koja je svrstana u region R j U datom primeru, u regionu R1, 89% instanci čine igrači koji nisu visoko plaćeni => svaki novi igrač koji bude svrstan u region R1 biće klasifikovan kao igrač koji nije vrhunski plaćen

13 Kako i gde izvršiti podelu?

14 Kako i gde izvršiti podelu? Pristup koji se primenjuje da bi se identifikovali regioni koji minimizuju grešku pri klasifikaciji zasniva se na rekurzivnoj, binarnoj podeli (recursive binary splitting) prostora atributa Osnovne karakteristike ovog pristupa: top-down pristup greedy pristup

15 Rekurzivna, binarna podela prostora atributa Top-down pristup kreće od vrha stabla, gde sve (trening) instance pripadaju jednoj (zajedničkoj) regiji, a zatim sukcesivno deli prostor atributa na regione Greedy pristup pri svakom koraku, najbolja podela se određuje na osnovu stanja u tom koraku, odnosno, ne uzima se u obzir šta će biti u narednim koracima, tj koja bi to podela mogla dovesti do boljih rezultata u nekom narednom koraku

16 Rekurzivna, binarna podela Algoritam razmatra svaki atribut x j (j=1,p) i svaku tačku podele s j za taj atribut, i bira onu kombinaciju koja će podeliti prostor atributa u dva regiona {X x j > s j } i {X x j < s j } tako da se minimizuje greška klasifikacije

17 Kako i gde izvršiti podelu? Osim greške pri klasifikaciji (Classification Error Rate), kao kriterijumi za podelu prostora atributa, često se koriste i: Gini index Cross-entropy

18 Gini index

19 Cross-entropy

20 Orezivanje stabla (Tree pruning) Velika klasifikaciona stabla, tj. stabla sa velikim brojem terminalnih čvorova (listova), imaju tendenciju over-fitting-a (tj. prevelikog uklapanja sa trening podacima) Ovaj problem se može rešiti orezivanjem stabla, odnosno odsecanjem nekih terminalnih čvorova Kako ćemo znati na koji način i u kojoj meri treba da orežemo stablo? Preporuka je primenom kros validacije (cross validation) utvrditi koje podstablo daje najmanju grešku pri klasifikaciji

21 Orezivanje stabla kroz kros validaciju U primeru klasifikacije igrača bejzbola, kros validacija pokazuje da se najmanja greška klasifikacije postiže u slučaju stabla veličine 3 (tj. stabla sa 3 terminalna čvora)

22 Orezivanje stabla kroz kros validaciju Grafikon potvrđuje da veličina stabla utvrđena kros validacijom (n=3), vodi smanjenju greške i na trening i na test setu, ali nešto bolji rezultat na test setu (Δ=0.03) se postiže za n=6 To pokazuje da je krosvalidacija dobar orijentir, ali ne garantuje izbor najboljeg podstabla

23 Prednosti i nedostaci stabala odlučivanja Prednosti: Mogu se grafički predstaviti i jednostavno interpretirati Mogu se primeniti kako na klasifikacione, tako i regresivne probleme Mogu se primeniti i u slučaju da atributi imaju nedostajuće vrednosti Nedostaci: Daju slabije rezultate (manje tačne predikcije) nego drugi pristupi nadgledanog m. učenja