Metode opisivanja skupa podataka

Similar documents
Prosječna mjesečna isplaćena neto plaća po zaposlenome u pravnim osobama Republike Hrvatske za srpanj iznosila je kuna.

Opis podataka. Katedra za istraživanja u biomedicini i zdravstvu

Biznis scenario: sekcije pk * id_sekcije * naziv. projekti pk * id_projekta * naziv ꓳ profesor fk * id_sekcije

SIMPLE PAST TENSE (prosto prošlo vreme) Građenje prostog prošlog vremena zavisi od toga da li je glagol koji ga gradi pravilan ili nepravilan.

BENCHMARKING HOSTELA

IZDAVANJE SERTIFIKATA NA WINDOWS 10 PLATFORMI

CJENIK APLIKACIJE CERAMIC PRO PROIZVODA STAKLO PLASTIKA AUTO LAK KOŽA I TEKSTIL ALU FELGE SVJETLA

PROJEKTNI PRORAČUN 1

Podešavanje za eduroam ios

Uvod u relacione baze podataka

SAS On Demand. Video: Upute za registraciju:

Struktura indeksa: B-stablo. ls/swd/btree/btree.html

TRAJANJE AKCIJE ILI PRETHODNOG ISTEKA ZALIHA ZELENI ALAT

AMRES eduroam update, CAT alat za kreiranje instalera za korisničke uređaje. Marko Eremija Sastanak administratora, Beograd,

Ulazne promenljive se nazivaju argumenti ili fiktivni parametri. Potprogram se poziva u okviru programa, kada se pri pozivu navode stvarni parametri.

Nejednakosti s faktorijelima

Poslovna statistika za stručne studije

Pojam i razvoj statistike. Statistika trostruki sadržaj. Skup se određuje: Vrste obilježja. Predmet i način statističkog istraživanja

Eduroam O Eduroam servisu edu roam Uputstvo za podešavanje Eduroam konekcije NAPOMENA: Microsoft Windows XP Change advanced settings

KAPACITET USB GB. Laserska gravura. po jednoj strani. Digitalna štampa, pun kolor, po jednoj strani USB GB 8 GB 16 GB.

GUI Layout Manager-i. Bojan Tomić Branislav Vidojević

Idejno rješenje: Dubrovnik Vizualni identitet kandidature Dubrovnika za Europsku prijestolnicu kulture 2020.

RANI BOOKING TURSKA LJETO 2017

Otpremanje video snimka na YouTube

ECONOMIC EVALUATION OF TOBACCO VARIETIES OF TOBACCO TYPE PRILEP EKONOMSKO OCJENIVANJE SORTE DUHANA TIPA PRILEP

ANALIZA PRIKUPLJENIH PODATAKA O KVALITETU ZRAKA NA PODRUČJU OPĆINE LUKAVAC ( ZA PERIOD OD DO GOD.)

Port Community System

SVEUČILIŠTE U ZAGREBU FAKULTET STROJARSTVA I BRODOGRADNJE DIPLOMSKI RAD. Andrej Razumić. Zagreb, 2018.

Statistika u psihologiji

ANALIZA PRIMJENE KOGENERACIJE SA ORGANSKIM RANKINOVIM CIKLUSOM NA BIOMASU U BOLNICAMA

WELLNESS & SPA YOUR SERENITY IS OUR PRIORITY. VAŠ MIR JE NAŠ PRIORITET!

1. Instalacija programske podrške

Modelling Transport Demands in Maritime Passenger Traffic Modeliranje potražnje prijevoza u putničkom pomorskom prometu

CRNA GORA

EKSPLORATIVNA ANALIZA PODATAKA IZ SUSTAVA ZA ISPORUKU OGLASA

CJENOVNIK KABLOVSKA TV DIGITALNA TV INTERNET USLUGE

MINISTRY OF THE SEA, TRANSPORT AND INFRASTRUCTURE

KONFIGURACIJA MODEMA. ZyXEL Prestige 660RU

Trening: Obzor financijsko izvještavanje i osnovne ugovorne obveze

Programiranje za internet zimski semestar 2013/2014. Java kroz primjere (skripta je u fazi izradi)

Tutorijal za Štefice za upload slika na forum.

Bear management in Croatia

NIS PETROL. Uputstvo za deaktiviranje/aktiviranje stranice Veleprodajnog cenovnika na sajtu NIS Petrol-a

LLL Seminari u okviru TEMPUS projekta

JEDINSTVENI PORTAL POREZNE UPRAVE. Priručnik za instalaciju Google Chrome dodatka. (Opera preglednik)

DANI BRANIMIRA GUŠICA - novi prilozi poznavanju prirodoslovlja otoka Mljeta. Hotel ODISEJ, POMENA, otok Mljet, listopad 2010.

VREDNOVANJE SUSTAVA E-UČENJA METODOM EKSPERIMENTA

Klasterizacija. NIKOLA MILIKIĆ URL:

ENR 1.4 OPIS I KLASIFIKACIJA VAZDUŠNOG PROSTORA U KOME SE PRUŽAJU ATS USLUGE ENR 1.4 ATS AIRSPACE CLASSIFICATION AND DESCRIPTION

Naredba je uputa računalu za obavljanje određene operacije.

Windows Easy Transfer

STABLA ODLUČIVANJA. Jelena Jovanovic. Web:

int[] brojilo; // polje cjelih brojeva double[] vrijednosti; // polje realnih brojeva

Korak X1 X2 X3 F O U R T W START {0,1}

GLEDANOST TELEVIZIJSKIH PROGRAMA PROSINAC Konzumacija TV-a u prosincu godine

5. Asocijacijska pravila

STRUČNA PRAKSA B-PRO TEMA 13

Analiza rada medicinske opreme i djelatnosti (kolovoz srpanj 2015.) doc. dr. sc. Dragan Korolija-Marinić, prof. v.š. dr. med.

Advertising on the Web

Bušilice nove generacije. ImpactDrill

Ciljevi. Poslije kompletiranja ove lekcije trebalo bi se moći:

TEHNO SISTEM d.o.o. PRODUCT CATALOGUE KATALOG PROIZVODA TOPLOSKUPLJAJUĆI KABLOVSKI PRIBOR HEAT-SHRINKABLE CABLE ACCESSORIES

KAKO GA TVORIMO? Tvorimo ga tako, da glagol postavimo v preteklik (past simple): 1. GLAGOL BITI - WAS / WERE TRDILNA OBLIKA:

IZDAVAČ / Publisher Sveučilište u Zadru / University of Zadar Mihovila Pavlinovića 1, Zadar, Hrvatska

Da bi se napravio izvještaj u Accessu potrebno je na izborniku Create odabrati karticu naredbi Reports.

TRENING I RAZVOJ VEŽBE 4 JELENA ANĐELKOVIĆ LABROVIĆ

Izbor iz neparametrijskih testova

SVEUČILIŠTE U ZAGREBU FAKULTET KEMIJSKOG INŽENJERSTVA I TEHNOLOGIJE SVEUČILIŠNI PREDDIPLOMSKI STUDIJ

Donosnost zavarovanj v omejeni izdaji

Estimation of Household Waste in the Republic of Serbia using R software

SVEUČILIŠTE U RIJECI EKONOMSKI FAKULTET

UNIVERZITET U BEOGRADU RUDARSKO GEOLOŠKI FAKULTET DEPARTMAN ZA HIDROGEOLOGIJU ZBORNIK RADOVA. ZLATIBOR maj godine

USPOREDNA ANALIZA POKAZATELJA TURISTIČKE DJELATNOSTI U SPLITSKO- DALMATINSKOJ ŽUPANIJI PREMA POPISIMA STANOVNIŠTVA I 2011.

Name: Date: Period: Samples and Populations Investigation 1.1: Comparing Wait Times

UPITI (Queries) U MICROSOFT ACCESSU XP

Introduction to Business Statistics I Homework # 2

INDEKSIRANI ČASOPISI NA UNIVERZITETU U SARAJEVU

THE PERFORMANCE OF THE SERBIAN HOTEL INDUSTRY

Possibility of Increasing Volume, Structure of Production and use of Domestic Wheat Seed in Agriculture of the Republic of Srpska

RJEŠAVANJE BUGARSKOG SOLITERA

IZRADA TEHNIČKE DOKUMENTACIJE

KOMPARATIVNA ANALIZA PREDIKTIVNIH TEHNIKA RUDARENJA PODATAKA

TEHNIĈKO VELEUĈILIŠTE U ZAGREBU ELEKTROTEHNIĈKI ODJEL Prof.dr.sc.KREŠIMIR MEŠTROVIĆ POUZDANOST VISOKONAPONSKIH PREKIDAĈA

EKONOMSKA KOMISIJA UJEDINJENIH NARODA ZA EUROPU. Drugi dio. Priručnik za prikazivanje statistike

SADRŽAJ. Besplatna registracija. Odabir platforme za trgovanje. Čime želimo trgovati? Trgovanje

Commissioned by Paul and Joyce Riedesel in honor of their 45th wedding anniversary. Lux. œ œ œ - œ - œ œ œ œ œ œ œ œ œ œ. œ œ œ œ œ œ œ œ œ.

DEFINISANJE TURISTIČKE TRAŽNJE

OTVARANJE BAZE PODATAKA I IZRADA TABLICE U MICROSOFT ACCESS-u

Permanent Expert Group for Navigation

The Seychelles National Meteorological Services. Mahé Seychelles

24th International FIG Congress

СТРУКТУРА СТАНДАРДА СИСТЕМАМЕНАЏМЕНТАКВАЛИТЕТОМ

Third International Scientific Symposium "Agrosym Jahorina 2012"

DEUS CARITAS EST SATB Choir, Soloist, Organ. œ œ. œœœœœ. œ œœœ œ œ œ

Halina, Hesus. (Advent) œ N œ œ œ. œ œ œ œ œ. œ. œ œ œ œ. œ œ. C F G7sus4. œ. # œ œ J œ œ œ J. œ œ. J œ. # œ. # œ œ œ

PREDAVANJE 4: SADRŽAJ, PROCES i VRSTE ISTRAŽIVANJA

ST 507 Practice Exam 1

Utjecaj sociodemografskih obilježja na percepcije studenata o zdravlju i prehrani

Big Data: kako smo došli do Velikih podataka i kamo nas oni vode

PRESENT SIMPLE TENSE

Transcription:

Statistika, Prehrambeno-tehnološki fakultet 1 Metode opisivanja skupa podataka Metode opisivanja kvalitativnih podataka Kvalitativne varijable primaju vrijednosti koje su razvrstane u kategorije. Mjere kojima opisujemo zastupljenost jedne kategorije u uzorku su frekvencija kategorije i relativna frekvencija kategorije. Frekvencija kategorije je broj izmjerenih vrijednosti varijable koje pripadaju danoj kategoriji. Ako s i označimo kategoriju od interesa, njenu frekvenciju označavamo s f i. Relativna frekvencija kategorije je broj izmjerenih vrijednosti varijable koje pripadaju danoj kategoriji podijeljen s ukupnim brojem izmjerenih vrijednosti za ispitivanu varijablu. Ako s n označimo broj izmjerenih vrijednosti za ispitivanu varijablu, relativnu frekvenciju i-te kategorije računamo kao f i n. Primjer 1: hormon.sta U bazi podataka hormon.sta odredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalitativnima. Rješenje: Statistics Basic Statistics/Tables Frequency Tables Choose variables Summary Primjer 2: nalaz.sta U bazi podataka nalaz.sta odredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalitativnima. Grafički način prikazivanja frekvencija i relativnih frekvencija kategorija kvalitativnih varijabli može biti: histogram frekvencija histogram relativnih frekvencija kružni dijagram (pita, pie chart)

Statistika, Prehrambeno-tehnološki fakultet 2 Primjer 3: hormon.sta Za podatke iz baze hormon.sta nacrtajte histogram frekvencija i relativnih frekvencija te kružni dijagram svih kategorija za varijable koje smatrate kvalitativnima. Rješenje: Histogram frekvencija: Statistics Basic Statistics/Tables Frequency Tables Choose variables Histograms Histogram relativnih frekvencija: Graphs Histograms Choose variables Advanced Pod "Y axis" uključiti "%" OK Kružni dijagram (pita): Graphs 2D Graphs Pie Charts (opcija Pie Chart - Counts) Choose variables Advanced Pie Legend - Text and Percent OK Primjer 4: nalaz.sta Za podatke iz baze nalaz.sta nacrtajte histogram frekvencija i relativnih frekvencija svih kategorija za varijable koje smatrate kvalitativnima. Primjer 5: zdravlje.sta Za podatke kvalitativnog tipa sadržane u bazi podataka zdravlje.sta napravite sljedeće grafičke prikaze i analize: nacrtajte histogram frekvencija i relativnih frekvencija za podatke sadržane u varijablama spol i zdravlje, nacrtajte histogram frekvencija i relativnih frekvencija za podatke sadržane u varijabli zdravlje posebno za kategoriju ispitanika ženskog spola, a posebno za kategoriju ispitanika muškog spola, nacrtajte zajednički histogram frekvencija i relativnih frekvencija svih podataka sadržanih u varijabli zdravlje kategoriziran prema spolu ispitanika, nacrtajte kružni dijagram relativnih frekvencija za podatke sadržane u varijablama spol i zdravlje, nacrtajte kružni dijagram relativnih frekvencija za podatke sadržane u varijabli zdravlje posebno za kategoriju ispitanika ženskog spola, a posebno za kategoriju ispitanika muškog spola.

Statistika, Prehrambeno-tehnološki fakultet 3 Primjer 6: TV-program.sta Za podatke kvalitativnog tipa sadržane u bazi podataka TV-program.sta napravite sljedeće grafičke prikaze i analize: nacrtajte histogram frekvencija i relativnih frekvencija za podatke sadržane u varijablama spol i HRT1, nacrtajte histogram frekvencija i relativnih frekvencija za podatke sadržane u varijabli HRT1 posebno za kategoriju ispitanika ženskog spola, a posebno za kategoriju ispitanika muškog spola, nacrtajte zajednički histogram frekvencija i relativnih frekvencija svih podataka sadržanih u varijabli HRT1 kategoriziran prema spolu ispitanika, nacrtajte kružni dijagram relativnih frekvencija za podatke sadržane u varijablama spol i NovaTV, nacrtajte kružni dijagram relativnih frekvencija za podatke sadržane u varijabli NovaTV posebno za kategoriju ispitanika ženskog spola, a posebno za kategoriju ispitanika muškog spola.

Statistika, Prehrambeno-tehnološki fakultet 4 Metode opisivanja kvantitativnih podataka Kvantitativni podaci mogu ili biti razvrstani u kategorije ili ne. Primjer 7: hormon.sta anketa.sta Proučite kvantitativne podatke u bazama hormon.sta i anketa.sta. Koje varijable kvantitativnog karaktera su mjerene kao kategorijalne, a koje ne? Rješenje: hormon.sta - niti jedna kvantitativna varijabla nije kategorizirana anketa.sta - kategorijalne varijable su: Br-kol, Položeno, Prisutnost- P, Prisutnost-V, Redovitost-P, Redovitost-V. Ako su kvantitativne varijable dane kategorijalno, možemo u opisu mjerenih vrijednosti za te varijable ponovo primijeniti frekvencije (odnosno relativne frekvencije) pojedine kategorije i histograme. Primjer 8: hormon.sta Odredite tablicu frekvencija i histogram za jednu od varijabli iz baze anketa.sta po izboru. Rješenje: Tablica frekvencija: Statistics Basic Statistics/Tables Frequency Tables Choose variables Summary Histogram frekvencija: Statistics Basic Statistics/Tables Frequency Tables Choose variables Histograms Ako numeričke varijable nisu dane kategorijalno, za prikazivanje skupa izmjerenih vrijednosti neće nam puno pomoći frekvencije i histogrami rađeni na osnovu svake pojedine izmjerene vrijednosti. Primjer 9: hormon.sta Zašto? Otvorite bazu podataka hormon.sta i odredite tablicu frekvencija i histogram neke od kvantitativnih varijabli tako da za kategorije uzmete sve međusobno različite izmjerene vrijednosti. Rješenje: Zbog prevelikog broja različitih izmjerenih vrijednosti broj kategorija je prevelik i rezultat analize najčešće ne daje željene informacije. Zato pribjegavamo drugim metodama kategoriziranja kvantitativnih varijabli.

Statistika, Prehrambeno-tehnološki fakultet 5 Postupak razvrstavanja kvantitativnih podataka u kategorije Najčešće skup svih mjerenih vrijednosti (ili nešto veći skup koji sadrži skup svih mjerenih vrijednosti ali je jednostavniji za podijeliti na jednake dijelove) podijelimo na disjunktne intervale jednake duljine. Nije nužno da intervali budu jednake duljine. Nema striktnog pravila po kojemu bi trebalo definirati intervale niti njihov broj, ali je jasno da ih ne smije biti niti previše niti premalo da bi cijeli postupak imao smisla i služio svrsi (a to je u ovom času prikazivanje skupa mjerenih vrijednosti). Primjer 10: hormon.sta Iskoristite podatke iz baze hormon.sta. Mijenjajte broj intervala na koji dijelite skup vrijednosti. Proučavajte što se događa i pribilježite vaš zaključak. Numeričke karakteristike skupa kvantitativnih podataka Karakteristika kvantitativnih podataka je da među njima postoji uređaj. Na osnovu te činjenice možemo definirati numeričke karakteristike koje imaju logičnu interpretaciju i mogu se iskoristiti u cilju prikazivanja skupa mjerenih vrijednosti. Numeričke karakteristike za mjerenje centralne tendencije Aritmetička sredina Aritmetička sredina niza izmjerenih vrijednosti x 1, x 2,..., x n definirana je izrazom: x = 1 n x i n Aritmetička sredina je numerička karakteristika koja spada u mjere centralne tendencije, tj. mjeri "srednju vrijednost" podataka. medijan Da bismo razumjeli i odredili medijan potrebno je prvo poredati izmjerene vrijednosti po veličini (u rastućem ili padajućem poretku). medijan je također jedna mjera centralne tendencije kao i aritmetička sredina, a ima značenje vrijednosti koja se nalazi na sredinjoj poziciji niza podataka kada je on uređen po veličini, tj. baram pola podataka je manje ili jednako medijanu, a istovremeno je barem pola podataka veće ili jednako od medijana. i=1

Statistika, Prehrambeno-tehnološki fakultet 6 Način njegovog izračuna ovisi o tome da li imamo paran ili neparan broj izmjerenih vrijednosti za varijablu. Ukoliko imamo neparan broj izmjerenih vrijednosti, onda postoji vrijednost koja je na srednjoj poziciji u uređenom skupu, pa nju definiramo kao median. Primjer 11: Neka su izmjerene vrijednosti jedne varijable sljedeće: 1,2,5,6,5,1,2,7,2,2,3. Prvo ove vrijednosti poredamo po veličini: 1,1,2,2,2,2,3,5,5,6,7. Obzirom da ih ima sve skupa 11, vrijednost medijana je vrijednost koja je na šestoj poziciji u tako dobivenom nizu, tj. broj 2. Ukoliko imamo paran broj izmjerenih vrijednosti onda ne postoji podatak koji je na srednjoj poziciji jer srednju poziciju "zauzimaju" dva podatka. Median se tada definira kao polovina između ta dva podatka. Primjer 12: Neka su izmjerene vrijednosti jedne varijable sljedeće: 1,2,5,6,5,1,2,7,2,2,3,3. Mod Prvo ove vrijednosti poredamo po veličini: 1,1,2,2,2,2,3,3,5,5,6,7. Obzirom da ima 12 podataka, "sredinu" čine 6. i 7. podatak, tj. vrijednosti 2 i 3. Za medijan ovog skupa podataka uzimamo sredinu ta dva broja, tj. medijan je (2 + 3)/2 = 2.5. Mod je vrijednost iz niza izmjerenih vrijednosti kojoj pripada najveća frekvencija, tj. izmjerena je najviše puta. Mod ne mora biti jedinstven. Primjer 13: Neka su izmjerene vrijednosti jedne varijable sljedeće: 1,2,5,6,5,1,2,7,2,2,3,3. Vidimo da je vrijednost 2 izmjerena najviše puta (4 puta) pa je 2 mod ovog skupa podataka. Numeričke karakteristike za mjerenje raspršenosti Raspon Raspon je mjera koja pokazuje koliko su podaci raspršeni, tj. to je jedna od mjera raspršenja podataka. Definiran je kao razlika između najveće i najmanje vrijednosti u skupu. Primjer 14: Neka su izmjerene vrijednosti jedne varijable sljedeće: 1,2,5,6,5,1,2,7,2,2,3,3. Vidimo da je vrijednost 1 najmanja, a 7 najveća izmjerena vrijednost. Raspon je 7 1 = 6.

Statistika, Prehrambeno-tehnološki fakultet 7 Varijanca i standardna devijacija Varijanca i standardna devijacija također spadaju u grupu mjera raspršenja podataka. One karakteriziraju raspršenje podataka oko aritmetičke sredine. Varijanca niza izmjerenih vrijednosti x 1, x 2,..., x n definirana je izrazom: s 2 = 1 n (x i x) 2 n i=1 Standardna devijacija je kvadratni korijen varijance, tj. s = s 2 = 1 n (x i x) n 2. Kutijasti dijagram Kutijastim dijagramom (box plot) grafički prikazujemo numeričke karakteristike skupa izmjerenih vrijednosti kvantitativne varijable. Najčešći i najkorisniji su kutijasti dijagrami na osnovi medijana i kvartila (opisna definicija: kvartili su vrijednosti koje skup podataka dijele na četiri dijela: četvrtina podataka je manja ili jednaka donjem kvartilu, a tri četvrtine podataka veće ili jednako od donjeg kvartila, polovina podataka je manja ili jednaka medijanu, a polovina podataka veća ili jednaka od medijana, tri četvrtine podataka je manje ili jednako gornjem kvartilu, a četvrtina podataka veća ili jednaka gornjem kvartilu. Primjer 15: Neka su izmjerene vrijednosti jedne varijable sljedeće: 1,2,5,6,5,1,2,7,2,2,3. Prvo ove vrijednosti poredamo po veličini: 1,1,2,2,2,2,3,5,5,6,7. i=1 Razlikujemo donji kvartil, medijan i gornji kvartil: Donji kvartil - 2; Medijan - 2; Gornji kvartil - 5. Primjer 16: Neka su izmjerene vrijednosti jedne varijable sljedeće: 1,2,5,6,5,1,2,7,2,2,3,3. Prvo ove vrijednosti poredamo po veličini: 1,1,2,2,2,2,3,3,5,5,6,7. Donji kvartil - 2;

Statistika, Prehrambeno-tehnološki fakultet 8 Medijan - 2.5; Gornji kvartil - 5. Primjer 17: anketa.sta Iskoristite bazu podataka anketa.sta i odredite numeričke karakteristike nekoliko varijabli po Vašem izboru. Također prikažite te vrijednosti kutijastim dijagramom te ga proanalizirajte. Rješenje: Deskriptivna statistika: Statistics Basic Statistics/Tables Descriptive Statistics Choose variables Advanced (uključiti željene numeričke karakteristike) Summary Kutijasti dijagram: Statistics Basic Statistics/Tables Descriptive Statistics Choose variables Box & whisker Plot for all variables Detekcija stršećih vrijednosti 1 Podatak koji je značajno veći ili manji u odnosu na druge podatke vezane uz isto slučajno obilježje (u kontekstu baze podataka govorimo o podatku koji je značajno veći ili manji od ostalih podataka u varijabli koja predstavlja slučajno obilježje) nazivamo stršeći podatak ili outlier. Pojavljivanje stršećih podataka najčešće je vezano uz jedan od sljedećih razloga: podatak je ili netočno izmjeren ili krivo unesen u bazu podataka, podatak dolazi iz druge populacije (ne iz populacije koju promatramo u kontekstu problema kojeg proučavamo), podatak je točno izmjeren i unesen u bazu, ali predstavlja rijetku pojavu u populaciji. Vrlo korisna grafička metoda za detekciju stršećih podataka je kutijasti dijagram na bazi medijana - u programskom paketu Statistica kutijasti dijagrami osjetljivi na stršeće vrijednosti crtaju se odabirom opcije Means with Error Plots iz izbornika Graphs.

Statistika, Prehrambeno-tehnološki fakultet 9 Primjer 18: zdravlje.sta zdravlje-sv.sta a) Nacrtajte i proanalizirajte kutijasti dijagram na bazi medijana za podatke sadržane u varijabli godine u bazi podataka zdravlje.sta. b) Među podacima u varijabli godine u bazi podataka zdravlje.sta nalazi se jedna stršeća vrijednost. Pokušajte ju identificirati crtanjem kutijastog dijagrama osjetljivog i neosjetljivog na stršeće vrijednosti. Što se događa s numeričkim karakteristikama podataka u varijabli godine nakon zanemarivanja identificirane stršeće vrijednosti. Primjer 19: glukoza-sv.sta Napravite deskriptivnu statistiku podataka sadržanih u varijabli koncentracija glukoze. Grafičkom metodom odredite stršeću vrijednost u ovom skupu podataka. Možete li se složiti s tvrdnjom da je identificirani podatak zaista stršeća vrijednost ili ipak sumnjate u dobiveni rezultat? Obrazložite svoj odgovor. Grafičkom metodom dentificirajte stršeće vrijednosti među podacima u varijabli dob osobe. Što se događa s numeričkim karakteristikama podataka nakon zanemarivanja identificirane stršeće vrijednosti.

Statistika, Prehrambeno-tehnološki fakultet 10 Empirijska distribucija slučajnog obilježja Proučavamo slučajno obilježje koje je u bazi podataka predstavljeno podacima organiziranima u jednu varijablu. Zanima nas raspodjela (distribucija) kategorija koje u toj varijabli mogu biti eksplicitne (u slučaju kvalitativne ili kategorijalne kvantitativne varijable) ili je nekategoriziranu kvantitativnu varijablu potrebno kategorizirati prema nekom prikladnom kriteriju. Empirijska distribucija slučajnog obilježja koje je u bazi podataka predstavljeno varijablom sa konačno mnogo kategorija {x 1, x 2,..., x k } zapisujemo u obliku tablice: ( ) x 1 x 2... x k X = n 1 n n 2 n k n ; n 1 + n 2 +... + n k = n. n... Pregledan grafički način za prikazivanje empirijske distribucije je histogram relativnih frekvencija. Primjer 20: U prodajnu ponudu jedne trgovine uveden je novi proizvod. Nakon nekog vremena vlasnika zanima sviđa li se kupcima taj proizvod ili ne, pa je provedeno ispitivanje slučajnog uzorka kupaca. Pri tome je provedeno sljedeće kodiranje odgovora: ne sviđa mi se: 1 ; niti mi se sviđa, niti mi se ne sviđa: 0 ; sviđa mi se: 1. Bilježeći odgovore na ovaj način, ispitivanjem 50 kupaca dobiven je niz nula, jedinica i minus jedinica koji preglednije bilježimo pomoću frekvencija: x i 1 0 1 n i 24 11 15. Sastavite empirijsku distribuciju i prikažite je histogramom. X = ( -1 0 1 0.48 0.22 0.3 ) Primjer 21: carsold.sta Promatramo broj prodanih automobila dnevno jednog auto salona za proteklih 100 dana. Podaci su dani u bazi carsold.sta. Analizom tih podataka mogu se donijeti izvjesni zaključi o budućoj prodaji što će pomoći managerima u donošenju poslovnih odluka.

Statistika, Prehrambeno-tehnološki fakultet 11 Nacrtajte histogram frekvencija i relativnih frekvencija te kružni dijagram. Odredite empirijsku distribuciju. ( ) 9 10 11 12 13 14 15 16 17 X = 0.07 0.15 0.08 0.11 0.12 0.09 0.11 0.13 0.14 Uz pretpostavku da empirijska distribucija u potpunosti odgovara stvarnoj distribuciji prodaje odgovorite na sljedeća pitanja: Koliko iznosi prosječna dnevna prodaja, a koliko je maksimalno odsupanje od prosjeka? (Rješenje: 13.26, 4.26) Procijenite vjerojatnost da će ova auto kuća prodati više od 13 automobila dnevno? (Rješenje: 0.47) Procijenite vjerojatnost da bude prodano između 9 i 12 automobila dnevno? (Rješenje: 0.23) Primjer 22: training.sta Broj treninga koje treba provesti prije no što studenti savladaju jedan složeni kompjutorski program kreće se u rasponu od jednog do pet. Proizvođači programa odlučili su prikupiti podatke koji pokazuju koliko je treninga bilo potrebno svakom pojedinom ispitaniku da bi savladao program. Podaci su dani u bazi training.sta. Odredite empirijsku distribuciju broja provedenih treninga do savladavanja programa. ( ) 1 2 3 4 5 X = 0.1 0.26 0.4 0.14 0.1 Koliko je prosječan broj provedenih treninga? (Rješenje: 2.88) Nacrtajte histogram frekvencija i relativnih frekvencija te kružni dijagram. Ako proizvođači tog programa žele osigurati dabarem 76% studenata savlada program, koji je minimalan broj treninga koji trebaju provesti? (Rješenje: 3)

Statistika, Prehrambeno-tehnološki fakultet 12 Primjer 23: coffee.sta Broj gostiju koji dnevno dolaze na kavu u "Sunrise Coffee Shop" nalazi se u bazi podataka coffee.sta. Odredite empirijsku distribuciju i prikažite je histogramom. ( ) 45 46... 67 X = 0.057 0.0143... 0.0143 Ako vjerojatnost da će dnevno biti najmanje 56 gostiju iznosi više od 0.5 vlasnik kafića planira zaposliti još jednog konobara. Ako odluči vjerovati da je empirijska distribucija broja gostiju iz navedenog ispitivanja identična stvarnoj distribuciji broja gostiju, treba li mu još jedan konobar ili ne? (Rješenje: treba, vjerojatnost je 0.53) Kolika je u tom slučaju vjerojatnost da će kafić posjetiti izmedu 50 i 54 osoba dnevno? (Rješenje: 0.085714) Primjer 24: prihod.sta Raspolažemo podacima o prihodu od prodaje za 153 poduzeća u Hrvatskoj. Nacrtajte histogram i izračunajte očekivanje i standardnu devijaciju empirijske distribucije. (Rješenje: 742 398.4, 525 905.9) Koji je najčešći prijavljeni prihod za ispitana poduzeća? 999 999) (Rješenje: Kolika je procijenjena vjerojatnost da će prihod biti 1200000 i veći, a kolika da će prihod biti izmedu 300000 i 700000 eura? (Rješenje: 0.196078, 0.078432) Primjer 25: mba.sta Vijeće jednog MBA studija ima zadatak odrediti graničnu vrijednost za primanje studenata na MBA studij koristeći GMAT test (Graduate Management Admission Test). Vijeće predlaže da se odabere takva granična vrijednost koja će odobriti upis za 25% prijavljenih studenata sa najboljim rezultatima na GMAT testu. Koja bi to vrijednost bila? (Rješenje: 523) Jedan od profesora predaže da se primi 1/3 studenata. Koliko bi u tom slučaju trebala iznosti granična vrijednost? (Rješenje: 506) Nacrtajte histogram frekvencija i relativnih frekvencija te kružni dijagram.

Statistika, Prehrambeno-tehnološki fakultet 13 Primjer 26: dob-poduz.sta Raspolažemo podacima o dobi 200 poduzetnika u Hrvatskoj. Zanima nas prosječna starost poduzetnika kao i standardna devijacija. (Rješenje: 42.605, 8.994078). Također, raspolažemo informacijom da je u SAD-u 50% poduzetnika mlađe od 35 godina, pa nas zanima kakva je situacija u Hrvatskoj. (Rješenje: 0.19) Kolika je proporcija poduzetnika koji imaju između 46 i 60 godina? (Rješenje: 0.275) Nacrtajte histogram frekvencija i relativnih frekvencija te kružni dijagram. Primjer 27: Za podatke iz baza carsold.sta, training.sta, coffee.sta, prihod.sta, mba.sta, dob-poduz.sta odredite: broj podataka, aritmetičku sredinu, standardnu devijaciju, maksimum, minimum, mod, medijan, te donji i gornji kvartil. Valid N Mean medijan Mod Min Max LQ UQ StDev carsold.sta 100 13.26 13 10 9 17 11 16 2.62 training.sta 50 2.88 3 3 1 5 2 3 1.099 coffee.sta 70 54.57 56 58 45 67 52 58 4.79 prihod.sta 153 742 398.4 999 999.0 999 999.0 1000 2 000 000 150 000 1 000 000 525 905.9 mba.sta 100 475.28 471.5 multiple 288 672 426 522 76.26152 dob-poduz.sta 200 42.605 42.5 multiple 23 64 37 49 8.994078