Klasterizacija. NIKOLA MILIKIĆ URL:

Similar documents
Priprema podataka. NIKOLA MILIKIĆ URL:

STABLA ODLUČIVANJA. Jelena Jovanovic. Web:

Podešavanje za eduroam ios

Biznis scenario: sekcije pk * id_sekcije * naziv. projekti pk * id_projekta * naziv ꓳ profesor fk * id_sekcije

IZDAVANJE SERTIFIKATA NA WINDOWS 10 PLATFORMI

Eduroam O Eduroam servisu edu roam Uputstvo za podešavanje Eduroam konekcije NAPOMENA: Microsoft Windows XP Change advanced settings

AMRES eduroam update, CAT alat za kreiranje instalera za korisničke uređaje. Marko Eremija Sastanak administratora, Beograd,

Ulazne promenljive se nazivaju argumenti ili fiktivni parametri. Potprogram se poziva u okviru programa, kada se pri pozivu navode stvarni parametri.

CJENIK APLIKACIJE CERAMIC PRO PROIZVODA STAKLO PLASTIKA AUTO LAK KOŽA I TEKSTIL ALU FELGE SVJETLA

Mašinsko učenje Uvod. Bojan Furlan УНИВЕРЗИТЕТ У БЕОГРАДУ ЕЛЕКТРОТЕХНИЧКИ ФАКУЛТЕТ

SAS On Demand. Video: Upute za registraciju:

TRAJANJE AKCIJE ILI PRETHODNOG ISTEKA ZALIHA ZELENI ALAT

SIMPLE PAST TENSE (prosto prošlo vreme) Građenje prostog prošlog vremena zavisi od toga da li je glagol koji ga gradi pravilan ili nepravilan.

Nejednakosti s faktorijelima

FILOGENETSKA ANALIZA

Skalabilni klaster algoritmi Seminarski rad iz Istraživanja podataka

Uvod u relacione baze podataka

Bušilice nove generacije. ImpactDrill

GUI Layout Manager-i. Bojan Tomić Branislav Vidojević

BENCHMARKING HOSTELA

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

PROJEKTNI PRORAČUN 1

1. Instalacija programske podrške

Upute za korištenje makronaredbi gml2dwg i gml2dgn

Port Community System

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

1. MODEL (Ulaz / Zadržavanje / Stanje)

Otpremanje video snimka na YouTube

TRENING I RAZVOJ VEŽBE 4 JELENA ANĐELKOVIĆ LABROVIĆ

MINISTRY OF THE SEA, TRANSPORT AND INFRASTRUCTURE

CJENOVNIK KABLOVSKA TV DIGITALNA TV INTERNET USLUGE

OSNOVNE PREMISE ANALIZE GRUPISANJA THE BASIC PREMISES OF GROUPING ANALYSIS

MAŠINSKO UČENJE. JELENA JOVANOVIĆ Web:

NIS PETROL. Uputstvo za deaktiviranje/aktiviranje stranice Veleprodajnog cenovnika na sajtu NIS Petrol-a

Klasifikacija objekata na slici korištenjem superviziranog učenja

KAPACITET USB GB. Laserska gravura. po jednoj strani. Digitalna štampa, pun kolor, po jednoj strani USB GB 8 GB 16 GB.

Poboljšanje tačnosti klasifikacije algoritama za induktivno učenje pravila primenom metoda prethodnog učenja

ENR 1.4 OPIS I KLASIFIKACIJA VAZDUŠNOG PROSTORA U KOME SE PRUŽAJU ATS USLUGE ENR 1.4 ATS AIRSPACE CLASSIFICATION AND DESCRIPTION

KAKO GA TVORIMO? Tvorimo ga tako, da glagol postavimo v preteklik (past simple): 1. GLAGOL BITI - WAS / WERE TRDILNA OBLIKA:

Sveučilište Jurja Dobrile u Puli Fakultet ekonomije i turizma «Dr. Mijo Mirković» SARA NIKOLAŠEVIĆ METODE I PROGRAMI ZA RUDARENJE PODATAKA

KVANTIFIKOVANJE VEROVATNOĆE DIFOLTA PREDUZEĆA U SRBIJI I RAZVOJ INTERNOG KREDITNOG REJTINGA ZA POTREBE BANKE

Windows Easy Transfer

Struktura indeksa: B-stablo. ls/swd/btree/btree.html

Pokretanje (startovanje) programa Microsoft Word

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

RANI BOOKING TURSKA LJETO 2017

4. Stabla odlučivanja

- Vežba 1 (dodatan materijal) - Kreiranje Web šablona (template) pomoću softvera Adobe Photoshop CS

Advertising on the Web

Trening: Obzor financijsko izvještavanje i osnovne ugovorne obveze

Pravljenje Screenshota. 1. Korak

RUTIRANJE U BEŽIČNIM MREŽAMA BAZIRANO NA KLASTERIZACIJI PRIMENOM VEŠTAČKIH NEURALNIH MREŽA

INSTALIRANJE SOFTVERSKOG SISTEMA SURVEY

Automatske Maske za zavarivanje. Stella, black carbon. chain and skull. clown. blue carbon

Algoritamski aspekti razvoja i implementacije Web pretraživača

TEHNO SISTEM d.o.o. PRODUCT CATALOGUE KATALOG PROIZVODA TOPLOSKUPLJAJUĆI KABLOVSKI PRIBOR HEAT-SHRINKABLE CABLE ACCESSORIES

MRS MRSLab08 Metodologija Razvoja Softvera Vežba 08

Posmatrani i objekti posmatraci

Tutorijal za Štefice za upload slika na forum.

1.7 Predstavljanje negativnih brojeva u binarnom sistemu

SVEUČILIŠTE U ZAGREBU FAKULTET STROJARSTVA I BRODOGRADNJE DIPLOMSKI RAD VIKTORIJA IVANDIĆ. Zagreb, godina 2016.

KOMPARATIVNA ANALIZA PREDIKTIVNIH TEHNIKA RUDARENJA PODATAKA

STRUČNA PRAKSA B-PRO TEMA 13

fontool alat za klasifikaciju i generisanje računarskih fontova

Idejno rješenje: Dubrovnik Vizualni identitet kandidature Dubrovnika za Europsku prijestolnicu kulture 2020.

Data mining za produženje životnog vijeka wireless senzorske mreže pomoću novel klastering metoda

Testiranje koda - JUnit. Bojan Tomić

NEURO-FAZI PRISTUP PRI PROCENI BROJA POST EXPRESS POŠILJAKA

VEŽBA 4 TOOLS - RAD SA ALATIMA

Korak X1 X2 X3 F O U R T W START {0,1}

Tema 2: Uvod u sisteme za podršku odlučivanju (VEŽBE)

WWF. Jahorina

THE PERFORMANCE OF THE SERBIAN HOTEL INDUSTRY

DEFINISANJE TURISTIČKE TRAŽNJE

CRNA GORA

CILJ UEFA PRO EDUKACIJE

DANI BRANIMIRA GUŠICA - novi prilozi poznavanju prirodoslovlja otoka Mljeta. Hotel ODISEJ, POMENA, otok Mljet, listopad 2010.

IZDAVAČ / Publisher Sveučilište u Zadru / University of Zadar Mihovila Pavlinovića 1, Zadar, Hrvatska

KONFIGURACIJA MODEMA. ZyXEL Prestige 660RU

Croatian Automobile Club: Contribution to road safety in the Republic of Croatia

OTAL Pumpa za pretakanje tečnosti

СТРУКТУРА СТАНДАРДА СИСТЕМАМЕНАЏМЕНТАКВАЛИТЕТОМ

MODEL ZA SELEKCIJU POSLOVNIH PROCESA I METODOLOGIJA NJIHOVOG POBOLJŠANJA

Predicting Flight Delays Using Data Mining Techniques

MODEL OBJEKTI - VEZE KONCEPTI MODELA METODOLOGIJA MODELIRANJA

Clustering radar tracks to evaluate efficiency indicators Roland Winkler Annette Temme, Christoph Bösel, Rudolf Kruse

SEMANTIČKO OZNAČAVANJE TRAJEKTORIJA MOBILNIH OBJEKATA SEMANTIC ANNOTATION OF MOBILE OBJECT TRAJECTORIES

AUTODESK INVENTOR SKRIPTA. Uradio: Prof. Saša Ilić

Realizacija detektora lica na osnovu Viola-Jones algoritma

Struktura i organizacija baza podataka

1. Multivarijaciona statistička analiza 1

WELLNESS & SPA YOUR SERENITY IS OUR PRIORITY. VAŠ MIR JE NAŠ PRIORITET!

Vrednovanje postupka semantičke segmentacije temeljenog na slučajnim šumama

KABUPLAST, AGROPLAST, AGROSIL 2500

n1 C82561EC215A6E31807CEEDF3B3BD25E

ЗАВРШНИ (BACHELOR) РАД

24th International FIG Congress

IMPLEMENTACIJA PODLOGE ZA SARADNJU KROKI ALATA SA ALATIMA ZA UML MODELOVANJE OPŠTE NAMENE

Bear management in Croatia

Donosnost zavarovanj v omejeni izdaji

Transcription:

Klasterizacija NIKOLA MILIKIĆ EMAIL: nikola.milikic@fon.bg.ac.rs URL: http://nikola.milikic.info

Klasterizacija Klasterizacija (eng. Clustering) spada u grupu tehnika nenadgledanog učenja i omogućava grupisanje instanci u grupe, gde unapred ne znamo koje su sve grupe moguće. Grupe u koje se instance dele se nazivaju klasteri. Kao rezultat klasterizacije svakoj instanci je dodeljen novi atribut koji predstavlja klaster kojoj pripada. Može se reći da je klasterovanje uspešno ukoliko su dobijeni klasteri smisleni i ukoliko se mogu imenovati.

K-Means Koraci: 1) Inicijalni izbor težišta klastera, slučajnim izborom težišta se biraju iz skupa instanci za trening, tj. K instanci za trening se nasumično izabere i proglasi za težišta 2) Ponoviti: 1) Grupisanje po klasterima: za svaku instancu iz skupa za trening, i = 1,m, identifikovati najbliže težište i dodeliti instancu klasteru kome to težište pripada 2) Pomeranje težišta: za svaki klaster izračunati novo težište uzimajući prosek instanci koje su dodeljene tom klasteru dok algoritam ne konvergira ili broj iteracija <= max

K-Means algoritam u Weka-i FishersIrisDataset.arff

Odabir algoritma za klasterovanje Prelazimo na tab Cluster Biramo algoritam SimpleKMeans

Podešavanje parametara numclusters broj željenih klastera; postavljamo na 3 jer imamo tri vrste displaystddevs ako je true, onda će se ispisati vrednosti standardne devijacije

Pokretanje procesa klasterovanja Vršimo klasterovanje nad učitanim podacima Ignorišemo Species atribut

Rezultat klasterovanja Centroidi svakog klastera i njihove standardne devijacije Broj instanci u svakom klasteru

Evaluacija rezultata Selektujemo atribut sa kojim želimo da poredimo rezultate U kojim klasterima su smeštene koje klase Imena klasa koje su dodeljene klasterima

Vizuelizacija klastera Desni klik Vizuelna reprezentacija klastera

Procena uspešnosti klasterovanja Within cluster sum of squared error (suma kvadrata greške unutar klastera) daje procenu kvaliteta dobijenih klastera Računa se kao suma kvadrata razlika između vrednosti atributa svake instance i vrednosti centroida u datom atributu Vrednosti centroida po svim atributima

Kako proceniti dobar broj klastera? 60 50 40 30 20 10 0 Greška Greška Klasteri Greška 1 55.6 55.6 12.1 7 Mala je razlika u greški u odnosu na prethodnu tačku 5.5 5 4.8 4.7 4.2 4.1 3.6 1 2 3 4 5 6 7 8 9 10 11 12 1.7 0.6 2 12.1 3 7.0 4 5.5 5 5.0 6 4.8 7 4.7 8 4.2 9 4.1 10 3.6 20 1.7 50 0.6

Korišćenje klastera za klasifikaciju Odabiramo kao vrstu Filter-a AddCluster Postavimo da klasa nije selektovana

Korišćenje klastera za klasifikaciju Biramo SimpleKMeans kao algoritam za klasterovanje Ignorišemo atribut broj 5 (Species) prilikom klasterovanja

Korišćenje klastera za klasifikaciju Nakon primene filtera (Apply) dodat je novi atribut pod nazivom cluster

Korišćenje klastera za klasifikaciju Opciono: možemo ukloniti ovaj atribut pre nego što kreiramo model za klasifikaciju

Korišćenje klastera za klasifikaciju Koristimo NaiveBayes klasifikator Klasifikujemo prema atributu cluster Matrica konfuzije za klasifikovane instance

Expectation Maximization (EM) Probabilistička klasterizacija - instance ne pripadaju jednom i samo jednom klasteru, već svaka instanca sa određenom verovatnoćom pripada svakom od klastera Sastoji se iz dva koraka: E (expectation) korak u ovom koraku podrazumevamo da znamo vrednosti parametara modela i na osnovu njih, za svaku instancu, računamo verovatnoću pripadanja svakom od klastera M (maximization) korak na osnovu datih instanci, računamo (ponovo) vrednosti parametara modela; maksimizacija se odnosi na usklađivanje (parametara) modela sa datim podacima

Expectation Maximization (EM) Postupak prilikom klasterovanja: 1) Inicijalno, definisati broj klastera (k) i nasumice izabrati vrednosti parametara modela (μ i,σ i, p i, i=1,k) 2) Za date vrednosti parametara, za svaku instancu iz dataset-a, izračunati verovatnoću pripadanja svakom od klastera 3) Na osnovu verovatnoća pripadnosti klasterima (instanci iz dataseta), odrediti nove vrednosti parametara modela Iterativno ponavljati korake 2) i 3) dok vrednosti parametara ne počnu da konvergiraju.

Korišćenje EM algoritma Biramo EM algoritam

Neuzimanje u obzir klase Izuzimamo atribut Species Selektovanje atributa koji neće biti korišćeni prilikom klasterovanja

Preporuke i zahvalnice Weka Tutorials and Assignments @ The Technology Forge Link: http://www.technologyforge.net/wekatutorials/ Witten, Ian H., Eibe Frank, and Mark A. Hall. Data Mining: Practical Machine Learning Tools and Techniques: Practical Machine Learning Tools and Techniques. Elsevier, 2011.

(Anonimni) upitnik za vaše kritike, komentare, predloge: http://goo.gl/cqdp3i

Pitanja? NIKOLA MILIKIĆ EMAIL: nikola.milikic@fon.bg.ac.rs URL: http://nikola.milikic.info