Opis podataka Katedra za istraživanja u biomedicini i zdravstvu
Opis kvantitativnih (brojčanih) podataka? Mjere srednje vrijednosti (centralne tendencije) Mjere raspršenja
Mjere srednje vrijednosti (centralne tendencije) Kojoj vrijednosti teže moji podatci?
Mjere raspršenja (varijabilnosti) Koliko su moji podatci različiti?
Mjere srednje vrijednosti (centralne tendencije) Aritmetička sredina (prosječna vrijednost) Medijan Mod
Aritmetička sredina, x Koristi se isključivo za kvantitativne (brojčane) podatke - intervalne i omjerne varijable Izračuna se tako da se zbroje sve vrijednosti jedne varijable u uzorku i taj broj se podijeli s brojem mjerenja. Primjer: Porođajne mase beba su: 3, 4, 2, 3 i 3 kg Ukupni zbroj 3+4+2+3+4= 15 kg Broj mjerenja (beba) = 5 Aritmetička sredina (prosječna vrijednost) = 15/ 5 = 3 kg
Medijan, M d 1. Koristi se uvijek za ordinalne podatke, te 2. za brojčane podatke kada su asimetrično raspodijeljeni Aritmetička sredina
Medijan, M d Kada se sve vrijednosti varijable poredaju po veličini, srednji broj po položaju je medijan Dijeli donjih 50% podataka od gornjih 50%. Primjer: Broj prethodnih trudnoća je 3,6,2,5,7. Koliki je medijan? Poredaj brojeve po veličini: 2,3,5,6,7 Srednji broj je 5 Medijan je 5
Medijan, M d Medijan za paran broj ispitanika Primjer: Odredi medijan za broj prethodnih trudnoća u slijedećih šest ispitanica: 2,7,1,6,6,3 Poredaj brojeve po veličini: 1,2,3,6,6,7 Srednji brojevi su: 3 i 6 Medijan je ( 3+ 6) 2 = 4,5
Mod, M o Koristi se uglavnom za nominalne podatke, rjeđe za ordinalne i brojčane podatke Vrijednost (broj) koji se pojavljuje najveći broj puta u uzorku Primjer: Podatci o 2,2,2,4,5,6,7,7,7,7,8 7 je broj koji se pojavljuje najučestalije (najveći broj puta) Mod je 7
Mjere srednje vrijednosti na primjeru
Mjere raspršenja (varijabilnosti) Raspon Interkvartilni raspon Varijanca Standardna devijacija
Raspon, R Koristi se kao mjera raspršenja uz medijan ili mod Razlika najviše i najniže vrijednosti u podatcima R=max podatak -min podatak Greške pri mjerenju utječu na njega
Raspon, R u literaturi RAD: Merewood A et al. Vitamin D status among 4-month-old infants in New England: a prospective cohort study. J Hum Lact. 2012. 28:159-66 CILJ: Odrediti prediktore nedostatka vitamina D, 25(OH)D u skupini dojenčadi starih 4 mjeseca, testiranih nakon poroda. REZULTATI: At 4 months, 11.9% of the 177 infants were vitamin D deficient compared to 37.5% at birth (25(OH)D <20 ng/ml). Median 25(OH)D was 35.2 ng/ml (range, 5.0-100.8).
Interkvartilni raspon umjesto raspona kada imamo veliki uzorak
podatci za n ispitanika Varijanca, s 2 Koristi se kao mjera raspršenja uz aritmetičku sredinu s 2-1 Prosječno kvadratno odstupanje podataka od aritmetičke sredine Rijetko se koristi jer se izražava u mjernim jedinicama 2 pa je praktično tumačenje problematično npr. ovisno o tome što mjerimo: ng 2 /ml 2, g 2 /danu 2,
Standardna devijacija, s (SD) Standardna devijacija uvijek uz aritmetičku sredinu! s = ( x 1 x) 2 + ( x 2 2 x) +... + ( x n 1 n x) 2 Korijen iz varijance => Prosječno odstupanje podataka od aritmetičke sredine Mjerne jedinice iste kao i u aritmetičke sredine: ng/ml, g/danu
Važnost normalne razdiobe, aritmetičke sredine i standardne devijacije u statistici x
Važnost normalne razdiobe, aritmetičke sredine i standardne devijacije u statistici x Izmjerene su težine N=812 novorođenčadi. Izračunali smo da je aritmetička sredina 3624 g, a s (SD) 464 g. Razdioba težina je prikazana grafički (plavi histogram). 68% novorođenčadi ima težinu od 3624-464=3160 g do 3624+464=4088 g 95% novorođenčadi ima težinu od 3624-2*464=2696 g do 3624+2*464=4552 g
Mjere raspršenja vrijednosti na primjeru IQR
Opis podataka u literaturi - postoji li značajna razlika u regeneraciji jetre između vremena T1 i T2? Functional elements associated with hepatic regeneration in living donors after right hepatic lobectomy. Twelve donors were studied at baseline; eight retested at (mean±sd) 11±3 days(t1), 10 at 91±9 days(t2), and 10 at 185±17 days(t3) after donation. Regeneration rates (ml liver per kg body weight per day) were 0.60±0.22 from baseline to T1, 0.05±0.02 from T1 to T2, 0.01±0.01 from T2 to T3 by CT, 0.54±0.20, 0.04±0.01 and 0.01±0.02 by SPECT. At T3, liver volume was 84±7% of baseline by CT and 92±13% by SPECT. 0.60 ± 0.22 => 0.60-0.22= 0.38 0.60+0.22= 0.82 Najveći dio podataka u vremenu T1 nalazi se u rasponu od 0.38 do 0.82 ml jetre/kg tijela po danu Najveći dio podataka u vremenu T2 nalazi se u rasponu od 0.03 do 0.07 ml jetre/kg tijela po danu
Zašto se opisna statistika koristi? 1. Opis uzorka usporedba s populacijskim parametrima 2. Opis uzorka u ograncima RCT usporedba s populacijskim parametrima kvaliteta randomizacije 3. Procjena razdiobe podataka (odabir statističkog testa)
U tablici je (prema navodima autora) opisan reprezentativan uzorak hrvatske populacije. Slažete li se s tvrdnjom?
Je li u slijedećoj studiji rađenoj na ženama s PCOS sindromom randomizacija uspješno provedena? Unilateralna N=49 Bilateralna N=47 Varijable Aritmetička sredina±sd /medijan (IQR) MD (95% CI)* Dob [godine] 29.3±3.31 29.3±3.05 0.08 (-1.23, 1.38) BMI [kg/m2] 25.1±1.94 25.0±2.10 0.02 (-0.81, 0.85) FSH [IU/L] 5.5±1.19 5.1±1.15 0.38 (-0.09, 0.86) LH [IU/L] 13.0±2.64 12.3±3.50 0.68 (-0.58, 1.95) Prosječna vrijednost ukupnog V [cm 3 ] 11.3±1.79 11.4±2.74-0.13 (-1.08, 0.82) Prosječna vrijednost AFC 15.0±2.37 14.8±3.20 0.21 (-0.94, 1.37) A [nmol/l] 15.2±4.62 11.9±4.18 3.13 (1.34, 4.93) ǂ SHBG [nmol/l] 35.0±9.32 39.0±10.45-4.02 (-8.07, 0.03) Prolactin [µg/l] 294.0±96.27 284.4±78.08 9.78 (-26.20, 45.77) AMH [ng/ml] 5.9 (2.7) 6.5 (3.6) -0.7 (-1.6, 0.1) Klinički neznačajno T [nmol/l] 2.7 (0.6) 3.0 (1.1) -0.2 (-0.5, -0.1) ǂ DHESO4 [μmol/l] 7.8 (4.3) 7 (2.7) 0.4 (-0.6, 1.5) FAI 7.8 (1.4) 8.0 (3.3) -0.4 (-1.4, 0.2)
Razdioba brojčanih podataka Opis preko mjera srednje vrijednosti i raspršenja ili Grafičkim prikazom (histogram)
Razdioba brojčanih podataka Opis preko mjera srednje vrijednosti i raspršenja ili Grafičkim prikazom (histogram)
Grafički prikaz razdiobe brojčanih podataka - histogram Ispitanici su podijeljeni prema veličini tumora u kategorije jednako širokih intervala 0-1, 1-2, 8-9 cm Pobrojeno je koliko ispitanika ima u pojedinoj kategoriji Broj ispitanika po kategoriji je prikazan grafički.
Histogram Razdioba veličine tumora u 13 bolesnika Srednja vrijednost veličine tumora u ovoj skupini je 3-4 cm (3 bolesnika) Veličina tumora je raspršena od >0 do 9 cm Najveći dio tumora ima veličinu od 1 do 6 cm (9 bolesnika) Računanjem iz aritmetičke sredine i SD 3.77-2.25=1.52 3.77+2.25=6.02
Oblik histograma Krivulja normalne (Gaussove) razdiobe
Oblik histograma
Laž s prosječnom plaćom
Važnost normalne razdiobe, aritmetičke sredine i standardne devijacije u statistici x
Opis kvalitativnih (nominalnih, ordinalnih) podataka Kvalitativne varijable vrijednost tih varijabli je kategorija: Spol (muško/žensko) Stupanj tumora (mali/ srednji/ veliki) Stupanj opeklina (1/ II/ III) Kvalitativne varijable pobrojavamo!
Opis kvalitativnih podataka Nakon provedenoga istraživanja ispunili ste slijedeći obrazac za unos podataka Što možete reći o razdiobi spola u vašem ispitivanju? SPOL muško žensko žensko žensko muško žensko žensko žensko muško žensko žensko žensko muško žensko žensko žensko muško EEG nalaz patološki uredan uredan patološki patološki uredan uredan uredan patološki uredan uredan uredan patološki uredan uredan uredan uredan apsolutna učestalost N žena =12 N muškaraca =5 Je li vaše istraživanje dobro izbalansirano s obzirom na spol? relativna učestalost Postotak žena=12*100/17=71% Postotak mušk=5*100/17=29%
Zapamti! Apsolutna učestalost ili apsolutna frekvencija 3 bolesnika u uzorku od 10 Relativna učestalost ili relativna frekvencija 3/10=30% bolesnika Postotak 30% = Proporcija 0.3
Dvije varijable? Povezanost varijabli
Opis kvalitativnih podataka - 2 varijable Tablica frekvencija (2X2) EKG nalaza prema spolu ispitanika SPOL EEG nalaz patološki uredan Ukupno muško 4 1 5 žensko 1 11 12 Ukupno 5 12 17 Tablice frekvencija (ili tablice kontigencija) s više varijabli služe: 1.prikazu odnosa između odabranih varijabli (SPOL i EKG nalaz) ili 2.kao podloga za primjenu statističkog testa koji ispituje postoji li povezanost između tih varijabli.
Opis kvalitativnih podataka - 2 varijable Tablica 1. Broj (%) ispitanika prema EKG nalazu u odnosu na spol Spol Patološki (n=5) Uredan (n=12) Ukupno (n=17) muškarci žene 4 (80) 1 (8) 5 1 (20) 11 (92) 12 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% patološki uredan muškarci žene Slika 1. Razdioba ispitanika prema EKG nalazu u odnosu na spol
Opis kvalitativnih podataka 2 varijable patološki uredan muškarci žene Slika. Razdioba ispitanika prema EKG nalazu u odnosu na spol
Opis kvantitativnih (brojčanih) podataka za 2 varijable? npr. interesira nas povezanost duljine bubrega s porastom životne dobi djece Za svako dijete imamo podatke za dvije varijable (obilježja) Dob djeteta [dani] Duljina bubrega [mm]
TOČKASTI GRAF Duljina bubrega [mmi] Starost djeteta [dani] Na x osi je dob (dani)- NEOVISNA VARIJABLA, a na y je duljina bubrega (mm)-ovisna VARIJABLA.
Hvala na pozornosti! Pitanja?