Priprema podataka. NIKOLA MILIKIĆ URL:

Similar documents
Klasterizacija. NIKOLA MILIKIĆ URL:

Biznis scenario: sekcije pk * id_sekcije * naziv. projekti pk * id_projekta * naziv ꓳ profesor fk * id_sekcije

STABLA ODLUČIVANJA. Jelena Jovanovic. Web:

Podešavanje za eduroam ios

Uvod u relacione baze podataka

AMRES eduroam update, CAT alat za kreiranje instalera za korisničke uređaje. Marko Eremija Sastanak administratora, Beograd,

SIMPLE PAST TENSE (prosto prošlo vreme) Građenje prostog prošlog vremena zavisi od toga da li je glagol koji ga gradi pravilan ili nepravilan.

GUI Layout Manager-i. Bojan Tomić Branislav Vidojević

Ulazne promenljive se nazivaju argumenti ili fiktivni parametri. Potprogram se poziva u okviru programa, kada se pri pozivu navode stvarni parametri.

CJENIK APLIKACIJE CERAMIC PRO PROIZVODA STAKLO PLASTIKA AUTO LAK KOŽA I TEKSTIL ALU FELGE SVJETLA

KAPACITET USB GB. Laserska gravura. po jednoj strani. Digitalna štampa, pun kolor, po jednoj strani USB GB 8 GB 16 GB.

Poboljšanje tačnosti klasifikacije algoritama za induktivno učenje pravila primenom metoda prethodnog učenja

Struktura indeksa: B-stablo. ls/swd/btree/btree.html

Nejednakosti s faktorijelima

TRAJANJE AKCIJE ILI PRETHODNOG ISTEKA ZALIHA ZELENI ALAT

Mašinsko učenje Uvod. Bojan Furlan УНИВЕРЗИТЕТ У БЕОГРАДУ ЕЛЕКТРОТЕХНИЧКИ ФАКУЛТЕТ

CJENOVNIK KABLOVSKA TV DIGITALNA TV INTERNET USLUGE

Upute za korištenje makronaredbi gml2dwg i gml2dgn

MAŠINSKO UČENJE. JELENA JOVANOVIĆ Web:

Bušilice nove generacije. ImpactDrill

Otpremanje video snimka na YouTube

1.7 Predstavljanje negativnih brojeva u binarnom sistemu

ENR 1.4 OPIS I KLASIFIKACIJA VAZDUŠNOG PROSTORA U KOME SE PRUŽAJU ATS USLUGE ENR 1.4 ATS AIRSPACE CLASSIFICATION AND DESCRIPTION

TRENING I RAZVOJ VEŽBE 4 JELENA ANĐELKOVIĆ LABROVIĆ

BENCHMARKING HOSTELA

Port Community System

SAS On Demand. Video: Upute za registraciju:

Eduroam O Eduroam servisu edu roam Uputstvo za podešavanje Eduroam konekcije NAPOMENA: Microsoft Windows XP Change advanced settings

IZDAVANJE SERTIFIKATA NA WINDOWS 10 PLATFORMI

MODEL OBJEKTI - VEZE KONCEPTI MODELA METODOLOGIJA MODELIRANJA

Testiranje koda - JUnit. Bojan Tomić

- Vežba 1 (dodatan materijal) - Kreiranje Web šablona (template) pomoću softvera Adobe Photoshop CS

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

MRS MRSLab08 Metodologija Razvoja Softvera Vežba 08

MINISTRY OF THE SEA, TRANSPORT AND INFRASTRUCTURE

WWF. Jahorina

POSEBNA POGLAVLJA INDUSTRIJSKOG TRANSPORTA I SKLADIŠNIH SISTEMA

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

Windows Easy Transfer

NIS PETROL. Uputstvo za deaktiviranje/aktiviranje stranice Veleprodajnog cenovnika na sajtu NIS Petrol-a

PROJEKTNI PRORAČUN 1

KAKO GA TVORIMO? Tvorimo ga tako, da glagol postavimo v preteklik (past simple): 1. GLAGOL BITI - WAS / WERE TRDILNA OBLIKA:

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

Tutorijal za Štefice za upload slika na forum.

KONFIGURACIJA MODEMA. ZyXEL Prestige 660RU

1. Instalacija programske podrške

UNIVERZITET U BEOGRADU RUDARSKO GEOLOŠKI FAKULTET DEPARTMAN ZA HIDROGEOLOGIJU ZBORNIK RADOVA. ZLATIBOR maj godine

OBJEKTNO ORIJENTISANO PROGRAMIRANJE

Donosnost zavarovanj v omejeni izdaji

Trening: Obzor financijsko izvještavanje i osnovne ugovorne obveze

RAZVOJ SISTEMA ZA PROCENU I ODABIR DIREKTNIH DOBAVLJAČA U AUTOMOBILSKOJ INDUSTRIJI

1. MODEL (Ulaz / Zadržavanje / Stanje)

Ali kako znati koja maksimalna plata pripada kojem sektoru? GROUP BY in SELECT Obično se uključuje GROUP BY kolona u SELECT listi.

KOMPARATIVNA ANALIZA PREDIKTIVNIH TEHNIKA RUDARENJA PODATAKA

Mindomo online aplikacija za izradu umnih mapa

Primena istraživanja podataka za otkrivanje obrazaca u oblasti kulinarskih recepata

Advertising on the Web

IMPLEMENTACIJA PODLOGE ZA SARADNJU KROKI ALATA SA ALATIMA ZA UML MODELOVANJE OPŠTE NAMENE

RANI BOOKING TURSKA LJETO 2017

Primena tehnika veštačke inteligencije u prepoznavanju oblika na slikama

STRUČNA PRAKSA B-PRO TEMA 13

MRS MRSLab09 Metodologija Razvoja Softvera Vežba 09

Idejno rješenje: Dubrovnik Vizualni identitet kandidature Dubrovnika za Europsku prijestolnicu kulture 2020.

IZRADA TEHNIČKE DOKUMENTACIJE

Fizičko projektovanje baza podataka. Ivana Tanasijevic, Matematički fakultet, Beograd

Upotreba selektora. June 04

Primena algoritma stabla odlučivanja u prepoznavanju ponašanja i zdravstvenih rizika kod starijih osoba

Struktura i organizacija baza podataka

Global formulas. Page1. Video filmed with GeneXus X Evolution 2

RAZVOJ NGA MREŽA U CRNOJ GORI

EKSPLORATIVNA ANALIZA PODATAKA IZ SUSTAVA ZA ISPORUKU OGLASA

Dežurni nastavnik: Ispit traje 3 sata, prvih sat vremena nije dozvoljeno napuštanje ispita. Upotreba literature nije dozvoljena.

CAME-LISTA USKLAĐENOSTI SA PART M CAME-PART M COMPLIANCE LIST

Članci/Papers. Prednosti i nedostaci onlajn-istraživanja. Marina Petrović UVOD

Da bi se napravio izvještaj u Accessu potrebno je na izborniku Create odabrati karticu naredbi Reports.

INSTALIRANJE SOFTVERSKOG SISTEMA SURVEY

MODEL ZA SELEKCIJU POSLOVNIH PROCESA I METODOLOGIJA NJIHOVOG POBOLJŠANJA

Programiranje kroz aplikacije. Subprocedure Opseg promenljivih Excel VBA objektni model

MRS. MRSLab03 Metodologija Razvoja Softvera Vežba 03 LAB Dijagram aktivnosti

CRNA GORA / MONTENEGRO ZAVOD ZA STATISTIKU / STATISTICAL OFFICE S A O P Š T E NJ E / STATEMENT Broj / No 76 Podgorica, god.

Kvalitativni model višekriterijumskog odlučivanja DEX

TEHNO SISTEM d.o.o. PRODUCT CATALOGUE KATALOG PROIZVODA TOPLOSKUPLJAJUĆI KABLOVSKI PRIBOR HEAT-SHRINKABLE CABLE ACCESSORIES

POSTUPAK OPTIMIZIRANJA IZBORA OGLASA NA TEMELJU STABALA ODLUČIVANJA

Algoritamski aspekti razvoja i implementacije Web pretraživača

Univerzitet u Beogradu Fakultet organizacionih nauka Miloš Milić

Pravljenje Screenshota. 1. Korak

Specification Details: Coded Dash Number M28803/1 -MC PART LISTINGS MANUFACTURER'S DESIGNATION OR TYPE NUMBER TEST OR QUALIFICATION REFERENCE

Tema 2: Uvod u sisteme za podršku odlučivanju (VEŽBE)

CRNA GORA

3.2. Prikazati podatke o svim proizvodima, koji se proizvode u Zrenjaninu.

1. Multivarijaciona statistička analiza 1

Sveučilište Jurja Dobrile u Puli Fakultet ekonomije i turizma «Dr. Mijo Mirković» SARA NIKOLAŠEVIĆ METODE I PROGRAMI ZA RUDARENJE PODATAKA

TEHNIKA I INFORMATIKA U OBRAZOVANJU

Kreativne metode znanstvenog rada u metodi konačnih elemenata

STRUKTURNO KABLIRANJE

Serbian Mesopotamia in the South of the Great Hungarian (Pannonian) Plain. Tisza Tisa. Danube Dunav Duna V O J V O D I N A. Sava

KABUPLAST, AGROPLAST, AGROSIL 2500

24th International FIG Congress

PREFERENCE DRIVEN SHOPPING DISPLAY ALGORITHM TN AND AS MODELS

IMPLEMENTACIJA TEHNIKA ZA POVEĆANJE BROJA PODRŽANIH KONKURENTNIH KORISNIKA VEB SAJTA

Transcription:

Priprema podataka NIKOLA MILIKIĆ EMAIL: nikola.milikic@fon.bg.ac.rs URL: http://nikola.milikic.info

Normalizacija Normalizacija je svođenje vrednosti na neki opseg (obično 0-1) FishersIrisDataset.arff

Standardizacija Standardizacija je svođenje srednje vrednosti na 0, a standardne devijacije na vrednost 1 FishersIrisDataset.arff

Diskretizacija atributa Diskretizacija je proces transformacije numeričkih podataka u nominalne tako što se numeričke vrednosti smeštaju u odgovarajuće grupe kojih ima konačan broj. Najčešći pristupi diskretizacije su: Nenadgledani pristupi: Jednake širine opsega (Equal-width binning) Jednaka pojavljivanja u opsezima (Equal-frequency binning) Nadgledani pristup uzima u obzir klase

Jednake širine opsega Jednake širine opsega (eng. Equal-width binning) deli opseg mogućih vrednosti na N podopsega iste širine. širina = (maks. vrednost min. vrednost) / N Primer: Ako je opseg posmatranih vrednosti između 0 100, možemo kreirati 5 podopsega na sledeći način: Širina = (100 0) / 5 = 20 Opsezi su: [0-20], (20-40], (40-60], (60-80], (80-100] Obično se prvi i poslednji opsezi proširuju kako bi uključili vrednosti van opsega.

Jednaka pojavljivanja u opsezima Jednaka pojavljivanja u opsezima (eng. Equal-frequency ili equal-height binning) deli opseg mogućih vrednosti na N podopsega gde svaki podopseg sadrži isti broj instanci. Primer: Pretpostavimo da želimo da smestimo u 5 podopsega vrednosti: 5, 7, 12, 35, 65, 82, 84, 88, 90, 95 Podopsege ćemo podeliti tako što će svaki sadržati po dve instance: 5, 7, 12, 35, 65, 82, 84, 88, 90, 95

Diskretizacija u Weka-i Atributi se diskretizuju tako što se nad njihovim vrednostima primeni odgovarajući Filter. Na Preprocess tabu se bira opcija Choose -> Filter i u folderu filters/unsupervised/ attribute se odabira filter Discretize. FishersIrisDataset.arff

Diskretizacija u Weka-i Po defaultu se primenjuje Diskretizacija sa jednakim širinama opsega. attributeindices - vrednost first-last označava da diskretizjemo sve atribute. Mogu se navesti i redni brojevi atributa bins - željeni broj opsega useequalfrequency true ako se koristi diskretizacija sa jednakim pojavljivanjima u opsezima, false ako se koristi Diskretizacija sa jednakim širinama opsega

Diskretizacija u Weka-i Pritiskom na Apply se primenjuje odabrani filter Dobijeni podopsezi vrednosti

Podaci pre i posle diskretizacije Podaci pre diskretizacije Podaci nakon diskretizacije

Nadgledana diskretizacija Šta ako sve instance u jednom binu pripadaju jednoj klasi, a sve instance drugog bina pripadaju drugoj klasi osim prvog koji pripada prvoj klasi? Nadgledana diskretizacija uzima u obzir i klasu

Nadgledana diskretizacija Jedan od pristupa je koristiti entropiju U primeru weather.numeric.arff, kod atributa temperature 64 65 68 69 70 71 72 75 80 81 83 85 yes no yes yes yes no no yes no yes yes no yes yes 4 yes, 1 no 5 yes, 4 no entropy = 0.934 bits Uzima se razdelnik sa najmanjom entropijom (najvećom informacionom dobiti) 64 65 68 69 70 71 72 75 80 81 83 85 yes no yes yes yes no no yes no yes yes no yes yes

Nadgledana diskretizacija u Weka-i weather.numeric.arff Problem je što prilikom nadgledane diskretizacije koristimo podatke iz celog dataset-a, pa samim tim i test podatke nad kojima ćemo posle vršiti testiranje performansi klasifikatora

meta>filteredclassifier

Selekcija atributa Selekcija atributa (eng. Attribute Selection ili Feature Selection) je proces odabira podskupa relevantnih atributa koji će se koristiti. Primenjuje se u slučajevima kada se u datasetu nalaze atributi koji su redundantni ili nerelevantni. Redundanti atributi su oni koji ne pružaju nikakve dodatne informacije u odnosu na već selektovane atribute. Nerelevantni atributi su oni koji ne pružaju nikakve informacije u datom kontekstu.

Prednosti primene selekcije atributa Suvišni atributi mogu degradirati performanse modela. Prednosti selekcije atributa: Poboljšava čitljivost modela time što se model sastoji samo iz relevantnih atributa Kraće vreme treniranja Povećana generalizacija time što smanjuje mogućnosti za overfitting Najbolji način za selekciju atributa je ručno ukoliko se dobro poznaje problem koji se rešava. I automatizovani pristupi selekcije daju dobre rezultate.

Pristupi selekcije atributa Postoje dva pristupa: Filter metoda koriste se procene na osnovu generalnih svojstava podataka Wrapper metoda podskupovi atributa se evaluiraju primenom algoritma mašinskog učenja koji će se koristiti nad skupom podataka. Naziv Wrapper se koristi iz razloga što je algoritam učenja zapakovan u samom procesu selekcije. Biće odabran onaj podskup atributa za koje dati algoritam učenja daje najbolje rezultate.

Primer selekcije atributa census90-income.arff

Primer selekcije atributa Želimo da primenimo selekciju atributa

Primer selekcije atributa Kao vrstu evaluatora biramo ClassifierSubsetEval

Primer selekcije atributa Biramo NaiveBayes klasifikator

Primer selekcije atributa Pošto su neki atributi numerički, potrebno ih je diskretizovati

Primer selekcije atributa Kao metodu pretraživanja biramo BestFirst

Primer selekcije atributa Filter je podešen i može biti primenjen nad atributima

Primer selekcije atributa Broj atributa je redukovan na 7

Metod pretrage kod selekcije atributa Exhaustive search (512 podskupova atributa) Best First: Forward, Backward, Bi-directional searchtermination atribut određuje koliko podskupova koji ne poboljšavaju performanse testirati pre nego što prekine pretragu

Preporuke i zahvalnice Weka Tutorials and Assignments @ The Technology Forge Link: http://www.technologyforge.net/wekatutorials/ "Data Mining with Weka" and "More Data Mining with Weka": MOOCs from the University of Waikato. A self-paced session of "Data Mining with Weka" runs until 23 October June 2015. Link: https://www.youtube.com/user/wekamooc/

(Anonimni) upitnik za vaše kritike, komentare, predloge: http://goo.gl/cqdp3i

Pitanja? NIKOLA MILIKIĆ EMAIL: nikola.milikic@fon.bg.ac.rs URL: http://nikola.milikic.info