Nova i stara ajtem analiza poređenje

PSIHOLOGIJA, 2001, 1-2, 83-110 UDK 159.9.072.59 Nova i stara ajtem analiza poređenje STANISLAV FAJGELJ BRANISLAV KOSANOVIĆ Odeljenje za psihologiju, Filozofski fakultet, Novi Sad Osnovni cilj ovog rada je da poboljša informisanost o teoriji stavskog odgovora (IRT). U tu svrhu komparirane su dve ajtem analize: jedna koja je bazirana na klasičnom psihometrijskom modelu i druga koja je bazirana na modelu teorija stavskog odgovora. Za izračunavanje pokazatelja korišćeni su SPSS makro RTT9G i program za Rašovu ajtem analizu BIGSTEPS. Na podacima sa dva testa: EPQ90-skala N i subtest A iz DAT serije demonstrirano je da su ocene pouzdanosti na nivou celog testa slične kod dva modela ajtem analize. Međutim, na nivou ajtema, pokazatelji kvaliteta ajtema vrlo su se razlikovali. Ukupan utisak je da je Rašova ajtem analiza nudila znatno više podataka za ocenjivanje kako ispitanika, tako i ajtema. Ključne reči: psihometrija, IRT modeli, ajtem analiza, Rašov model, teorija pravog skora. Danas se često kaže da su u opticaju dve psihometrijske tradicije. Prva je tradicija skoriranja, a druga tradicija skaliranja. Prvu je započeo svojom celovitom teorijom merenja još 1904. godine Spirman (Spearman 1904) i danas se obično naziva klasičnom teorijom testa (Classical Test Theory CTT) ili teorijom pravog skora. Međutim, ono što mnogi smatraju presudnim u tom nazivu je sam pojam "skora". U okviru te tradicije su testni skorovi predstavljeni zbirom tačnih odgovora na stavke (u testovima sposobnosti), ili zbirom afirmativnih odgovora (u testovima ličnosti). Upravo zbog toga se ta tradicija naziva tradicijom skoriranja (RMT, 1995). 83

S. Fajgelj, B. Kosanović Nasuprot njoj, a počev od radova L. L. Terstona 1925, ( prema Embretson i Reise, 2000), teče tradicija skaliranja koja se zasniva na ideji da se objekti (ispitanici) poređaju po stepenu prisustva osobine i da se, ako je ikako moguće, njihov poredak kvantifikuje, tj. da im se dodeli broj. Prva tradicija se od inicijalnog modela paralelnih testova razvila u model uzorkovanja iz domena koji je imao dve glavne operacionalizacije: image teoriju Gutmana (Guttman, 1953) i teoriju generalizabilnosti Kronbaha (Cronbach et al, 1963), Shavelson i Webb, 1991). Druga tradicija se pred Drugi svetski rat prilično povukla sa scene i nije praktično bila dostupna psihološkoj praksi sve donedavno. Njen povratak na scenu je počeo radovima Lorda (Lord, 1952), Birnbauma (Birnbaum, 1968) i posebno Raša (Rash, 1960) u obliku takozvane teorije stavskog odgovora (IRT Item Response Theory, van der Linden i Hambleton, 1997). Ove su dve tradicije po shvatanjima glavnih zastupnika potpuno različite, ali se objektivno mogu utvrditi i značajne sličnosti. Interes psihometrije kao discipline nalaže da se sličnosti i razlike objektivno evaluiraju kako se ne bi desio najnepovoljniji ishod prenebregavanje stvarnih kvaliteta oba učesnika. Tako, na primer, procena nivoa crte kod ispitanika, bilo da se ona zove skor ili mera, u psihometriji se i dalje konzekventno deli na "pravi" i "pogrešni" deo. Prosto je teško drukčije konceptualizirati različite izvore individualnih razlika osim na prave i pogrešne. Zatim, od Fišera pa nadalje, demonstrirano je da je ukupni skor dobijen prostim sabiranjem dovoljan i nužan statistik (Linacre, 1996; van der Linden, 1996). Obema tradicijama, ako ništa drugo, zajedničko je i to što su podvrgnute kritikama i preispitivanjima (npr. pojam pouzdanosti, fitovanje IRT modela i sl.) Dakle, izgleda da je psihometrijskim modelima merenja suđeno da budu rođeni slični. Međutim, te sličnosti izlaze na svetlo dana tek nakon epistemološke analize. Praktično, kad psiholog pogleda rezultate jedne i druge ajtem analize teško da će uočiti bilo kakvu sličnost. S obzirom da je ajtem analiza osnovna psihometrijska alatka za određivanje mernih svojstava stavki i testa, razumljivo je što svaki model merenja, kao prvo, nastoji da formuliše svoja merna svojstva i način njihovog izračunavanja i, kao drugo, da se merna svojstva ne mogu protumačiti bez poznavanja odgovarajućeg modela. Ovaj rad ima za cilj da u domaćoj psihološkoj javnosti doprinese popularnosti IRT modela. Cilj je operacionalizovan (a time mu je određen i domet) na jedan od najboljih mogućih načina komparativnom analizom dva modela ajtem analize. Poređenje će obuhvatiti klasičnu ajtem analizu i ajtem analizu po modelu Džordža Raša. Potrebno je skrenuti pažnju na to da je korišćenje termina klasičan krajnje relativno. Neki modeli koji pripadaju tradiciji skoriranja su nastali posle nekih IRT modela. Obično se korišćenje ovog termina pravda time što je Spirman prvi počeo. 84

Nova i stara ajtem analiza poređenje Metod Klasična ajtem analiza u ovom radu predstavljena je modifikovanim makroom RTT9G (Knežević i Momirović, 1996). Ovaj makro sadrži veliki broj pokazatelja metrijskih karakteristika stavki i testa baziranih prvenstveno na klasičnom i Guttmanovom imaž modelu (Momirović, Wolf, Popović, 1999). Makro je pisan u makro jeziku statističkog paketa SPSS i statističkom meta-jeziku Matrix iz istog paketa 1. Sredstvo za Rašovu ajtem analizu bio je program BIGSTEPS.EXE autora Rajta i Linekra (Wright, 1996) koji su jedni od vodećih proponenata Rašovog modela i zastupnici stava da je taj model više od podvrste IRT modela. Program je danas besplatno dostupan na http://www.winsteps.com/bigsteps.htm. Postoji sve više specijalizovanih programa za IRT ajtem analizu, ali su oni na Internetu dostupni jedino u obliku tzv. demo-verzija (sa krajnje ograničenim brojem ajtema i ispitanika). Podaci Uzorak ispitanika čine studenti psihologije dve uzastopne generacije: 1999/2000 i 2000/2001. Oni su odgovarali na jednu bateriju testova u okviru vežbi iz predmeta psihometrija na drugoj godini studija. Od nepoznatog ukupnog broja studenata u te dve godine, evidentirano je oko 180 koji su prisustvovali vežbama i predavanjima. Od toga je jedan manji broj (njih oko 167) učestvovao u testiranjima, ali ne uvek i ne na svim testovima. U komparaciji koja je predmet ovog rada učestvovalo je oko 120 studenata (tačan broj videti u prikazu rezultata). Proporcionalno tradiciji studija psihologije, dominantnu većinu uzorka čine žene. Lako je pretpostaviti da je postojao neki sistematski faktor koji je uticao na to koji će studenti, pa dakle i koliko njih, učestvovati u testiranju (nazovimo ga motivacijom). Prema tome, uzorak ispitanika nikako nije reprezentativan za opštu populaciju, ali mi ne vidimo da bi to moglo imati uticaja na rezultate komparacije modela ajtem analize. Postoji jedan drugi činilac na koji smo pokušali da obratimo pažnju tokom analize: prva generacija je prošla prijemni ispit, a druga nije. Iz primenjenih baterija izdvojili smo za potrebe ovog rada krajnje slučajno dva testa, tačnije subtesta. To su subtest shvatanja apstraktnih odnosa iz serije DAT (DAT, 1970 subtest DAT-A), i skala N iz Ajzenkovog testa EPQ-90 (Lojk, 1979). Nije postojao nikakav poseban razlog zašto su izabrana ova dva 1 Makro rtt9g dostupan je kod svih spomenutih autora, ili na http://www.cpijm.org.yu/stanef.htm. 85

S. Fajgelj, B. Kosanović osim da jedan bude iz domena merenja maksimalne delatnosti, a drugi iz domena merenja tipične delatnosti. Rezultate prve generacije studenata unosila je "na magnetni medijum" osoba za koju se može smatrati da se time profesionalno bavi (u okviru norme od 8000 zakova na sat), a druga generacija studenata unosila je svoje podatke sama svojeručno. Tokom analize obratili smo pažnju i na ovu "facetu" podataka. Terminologija i pokazatelji Klasični model Najčešći pokazatelj pouzdanosti koji se danas koristi je Kronbahova alfa. Iako je Kronbah autor teorije generalizabilnosti, nema ništa sa tom teorijom, nego je striktno bazirana na klasičnom modelu ukupnog skora i paralelnih testova (Zumbo, 1999, Momirović, Wolf i Popović, 1999). α = m m m 2 σ i i= 1 1 2 1 σ (1) Osim, u radu će biti prikazan i Gutman-Nnajsvanderov koeficijent pouzdanosti koji pripada porodici tzv. donjih granica pouzdanosti (kako je to definisao Gutman), a računa se u Harisovom prostoru. Ovaj prostor razapinju imaž delovi varijabli, reskalirani na univerzalnu metriku postupkom koga je predložio Haris. Shodno tome, ovako definisana pouzdanost je na "suprotnom kraju" od (naj)klasičnijeg modela po tome što stavke testa tretira kao uzorak svih mogućih stavki koje mere domen ponašanja uslovljen delovanjem neke varijable. S obzirom da se, po imaž teoriji, u Harisovom prostoru nalaze samo delovi zajedničke varijanse ajtema (bez grešaka i specifiteta), u praksi je uvek veći od. Ako je U 2 = (diag R -1 ) -1 dijagonalna matrica varijansi greške, onda su kovarijanse imaž varijabli u Harisovom prostoru jednake Q = U -1 RU -1 (R je matrica korelacija). Prva glavna komponenta ove matrice je h = Qw, gde je w prvi svojstveni vektor matrice Q, a varijansu te komponente označićemo sa. Onda će biti prosto: = 1 -. (2) Oba ova koeficijenta odnose se na testni skor u celini. Makro RTT9G daje i niz pokazatelja za stavke. Mi smo se opredelili za sledeće pokazatelje: 86

Nova i stara ajtem analiza poređenje normalizirane Kajzer-Mejer-Olkinov koeficijente reprezentativnosti koji se u listinzima statističkih paketa često nazivaju MSA (Measure of Sampling Adequacy), a ovde ih označavamo sa MSA, koeficijente determinacije (SMC Squared Multiple Correlation) koji su zapravo imaž varijanse varijabli i služe kao procena pouzdanosti čestice, označeni sa relijab, kovarijanse (faktorska opterećenja) imaž varijabli sa njihovom prvom glavnom komponentom, ovde u funkciji pokazatelja homogenosti čestica, označeni sa homog, korelacije (standardizovana faktorska opterećenja) imaž varijabli reskaliranih na Harisovu metriku sa njihovom prvom glavnom komponentom, ovde u funkciji procene faktorske valjanosti, označeni sa Haris i, na kraju, koeficijente korelacije ajtem-total kao pozatelje interne valjanosti stavki, označeni sa Burt. Rašov model Model danskog matematičara Raša ne sadrži dva parametra na koja su mnogi psiholozi navikli: diskriminativnost i pogađanje. Zato se obično naziva jednoparametarskim IRT modelom. Međutim, njegova logička i matematička elegancija ga čine veoma razumljivim, prihvatljivim, a u numeričko-matematičkom pogledu (relativno) lako izračunljivim. Za potrebe ovog rada nije važno da li je opravdano deliti oduševljenje sa zastupnicima Rašovog modela, već je važno to što se radi o pravom predstavniku tradicije skaliranja i prema tome pravom oponentu tradiciji skoriranja. Osnovna formula Rašovog modela za računanje mere n-tog ispitanika na i-tom ajtemu (i obratno) je p ni ln 1 p ni = B n D, (3) i a formula za računanje verovatnoće da će ispitanik odgovoriti sa "da" je p ni (Bn Di ) e =, (4) (Bn Di ) 1 + e gde je B n mera crte ispitanika, a D i mera težine ajtema. Kao i svi IRT modeli, ovaj model ravnopravno tretira merne agente (stavke, testove) i merene objekte (ispitanike). I jedni i drugi dele potpuno iste, a komplementarne pokazatelje. 87

S. Fajgelj, B. Kosanović kao Standardna greška merenja ispitanika n na stavki i se u Rašovom modelu definiše 1 σ e ni =. 5) P (1 P ) ni Prosečna standardna greška merenja ( e ) iz dobijenih podataka se računa kao root mean square standardnih grešaka za sve ispitanike ili za sve stavke. Obično se označava sa RMSE. Interval poverenja (preciznost) uobičajeno se definiše kao raspon od dve ili tri ove standardne greške. Prava ili korigovana (adjusted) standardna devijacija svih mera računa se kao: (prava ili korigovana SD) 2 = (dobijena SD) 2 RMSE 2, odnosno ni a 2 = 2 - e 2 (6) Separacioni odnos ili separacija računa se kao: (prava SD) / RMSE, odnosno G r σ tt a = = (7) 1 rtt σ e Separaciona pouzdanost ili prosto pouzdanost se računa kao R tt = G 2 / (1+G 2 ) = (prava SD) 2 /(dobijena SD) 2 i ekvivalentna je pouzdanosti izračunatoj kao, KR-20, SB,. 2 σ a 2 2 G r tt = 2 = (8) 1 + G σ Kao što je rečeno, ovi pokazatelji se računaju kako za ajteme, tako i za ispitanike. Sve veličine, a posebno mere ispitanika izražene su u logitima (log-odds unit). Jedan logit odgovara verovatnoći "tačnih" odgovora od 73%. Dakle, ako je ispitanik na 100- ajtemskom testu tačno odgovorio na 73 stavke, njegova mera će biti 1. Ukoliko je tačno odgovorio na 27 stavki, dobiće meru -1. Raspon mera od -5 do 5 obuhvata približno raspon 0-100%. Nula logita je na 50% tačnih. Skala u logitima je intervalna i aditivna, tj. zadovoljava drugi Kembelov zakon merenja. Što je standardna greška merenja manja, a r tt veći, to će preciznost pojedinačnih merenja biti veća, odnosno, pravi rezultat ispitanika biće bliže dobijenom skoru. U daljem tumačenju, to znači da će mogućnost razlikovanja ispitanika po pravom skoru biti veća. Upravo taj način razmišljanja je usvojen u Rašovom konceptu separacione pouzdanosti. 88

Nova i stara ajtem analiza poređenje Po tom konceptu, separacija je broj statistički različitih stratuma u postignuću koje test može da identifikuje u uzorku. To se može vizuelno predstaviti lociranjem distribucije grešaka u svakom stratumu. Separacija jednaka 2 podrazumeva da se datim testom mogu konzistentno identifikovati samo 2 nivoa postignuća u uzorcima koji su slični onome koji je testiran. Broj razdvojivih stratuma egzaktno se može izračunati kao: (4G+1)/3. Funkcionalni opseg mera je oko 4 prave SD (u logitima). Ovaj broj povećavamo za 1 radi uključivanja grešaka u dobijenim merama. Smatraćemo da značajna razlika između dve mere iznosi 3 RMSE (standardne greške). U tom slučaju će izraz (4 Prave SD + RMSE)/(3 RMSE) = (4G+1)/3 predstavljati broj značajno različitih nivoa mera u funkcionalnom opsegu. Ako je separacija manja ili jednaka 1, onda svi ispitanici spadaju u jednu grupu i ne mogu se razlikovati. Može se izračunati i kolika minimalna veličina grupe (uzorka, stratuma) mora biti da bi se za dobijenu pouzdanost mogla postići neka željena separacija kao: (veličina grupe) = G z 2 /G 2 gde je G z zadata separacija. Posebno poglavlje zaslužuju pokazatelji fitovanja modela. Naime, pošto su IRT modelski pristup merenju, onda one podrazumevaju i proceduru ocene uspešnosti modeliranja. Za to se koristi izvorni engleski izraz fit, jer je teško prevodiv, a postao je uobičajen u matematičkom žargonu. U literaturi se stalno nalaze novi pokazatelji fitovanja, ili modifikovane verzije postojećih. Pošto su za izračunavanje svih parametara IRT modela potrebne vrlo sofisticirane numeričke metode, praktično je nemogućno izračunavanje nekih drugih (eventualno boljih ili novijih) pokazatelja, osim onih koje nude konkretni IRT programi. Program BIGSTEPS računa dva glavna pokazatelja misfita (pogrešnog fitovanja): infit i outfit. U svojoj osnovi, misfit je razlika između dobijenih verovatnoća i onih koje su izračunate na osnovu modela, tj. predstavlja ono što se uobičajeno naziva rezidualima. Infit je srednje kvadratno odstupanje ponderisano sa informativnošću. Osetljiv je na nepravilne unutrašnje sklopove, odnosno na neočekivane odgovore na ajteme koji su blizu nivoa ispitanikove crte/sposobnosti. Outfit je srednje kvadratno odstupanje, osetljiv na neočekivane i retke ekstreme, tj. na neočekivano ponašanje ispitanika na ajtemima koji su daleko od ispitanikovog nivoa crte/sposobnosti. Oba ova pokazatelja prikazuju se u "sirovom" i standaradizovanom vidu: srednji kvadrat sa prosečnom vrednošću 1, označen sa Mnsq i srednji kvadrat standardizovan tako da mu AS i SD budu približno 0 i 1, označen sa Zstd. Oba misfita mogu biti ili prigušeni ili šumni. Prigušeni su ako je vrednost Mnsq<0,7 ili Zstd<-2, a šumni ako je Mnsq>1,3, odnosno Zstd>2. 89

S. Fajgelj, B. Kosanović Ako je infit prigušen, onda se radi o redundantnom ajtemu, o teškom ajtemu koji se nalazi na kraju testa pa do njega stignu samo najbolji ispitanici, a ako je reč o ispitaniku, onda je to ispitanik koji prečesto bira srednje kategorije, spor je, uspavan, oprezan, konformističan itd. Ako je infit šuman, onda se radi o lošem ajtemu, pristrasnom ajtemu (DIF), prečestom biranju ekstremnih kategorija, greškama u unosu, specifičnom ispitaniku itd. Ako je outfit prigušen, možda se radi o lošem ajtemu (sa drukčijim sadržajem), preteranom biranju srednjih kategorija, greškama u unosu itd. Ako je outfit šuman, možda se radi ispitaniku koji je nagađao, prepisivao, ili koji previše žuri, greškama u obradi i unosu, prečestom biranju ekstremnih kategorija itd. Sve u svemu, poreklo misfita nije lako utvrditi. Postoje kratke preporuke za interpretaciju misfita koje su prikazane tabelarno i uzimaju u obzir vrstu misfita (infitoutfit, prigušen-šuman), njihovu interakciju, kao i facetu na koju se odnose: ispitanik, ajtem, procenjivač itd. Opšta preporuka pri interpretaciji misfita je da njegove uzroke treba tražiti u neočekivanim, parcijalnim (idiosinkretskim) korelacijama sa drugim varijablama. Program BIGSTEPS nudi detaljni prikaz tačaka gde je došlo do misfita, odnosno prikazuje odgovore koji su najviše neočekivani, kod kojih ispitanika i kod kojih ajtema su se javili i iznos odstupanja od očekivanja. Pokazatelji za poređenje Kad se radi o klasičnoj ajtem analizi, konkretno outputu iz makroa RTT9G, svaki psiholog odmah će uočiti da se svi koeficijenti (kako za test u celini, tako i za stavke) međusobno znatno razlikuju, ponekad drastično. Biće posebno zbunjujuće što su ponekad koeficijenti deklarisani kao "donje granice" viši od nekih drugih koeficijenata. Dotičnom psihologu biće od male pomoći što su te razlike logična posledica različitih pretpostavki, odnosno modela pod kojima su koeficijenti izračunati. Kao što je malopre rečeno, pretpostavlja se da će svi koeficijenti koji su bazirani na faktorskom modelu (komponentni, Gutmanov, Harisov) biti viši od klasičnih "sumacionih" koeficijenata, jer su ovi prvi obavili jedan deo posla na eliminisanju pogrešne varijanse. Međutim, kao što je ugrađeni nedostatak teorije pravog skora što je uvek tačna, odnosno ne poseduje proceduru pomoću koje bi se odredio tačan iznos prave i pogrešne varijanse, tako je i problem celokupne tradicije skoriranja u tome što nema proceduru za procenu koliko je koji od njenih modela prikladan. Upravo to, prikladnost modela podacima, koja se obično naziva fitovanjem, je pravi fetiš-izraz u IRT modelima, koji su modeli sui generis, jer predstavljaju modelski pristup merenju (Embretson, 1996; Embretson i Reise, 2000). Mi smo usvojili jednu strategiju koja, ma koliko arbitrarna, ima jaku potporu u modernim psihometrijskim razmišljanjima. Radi se o datametriji i meta- 90

Nova i stara ajtem analiza poređenje analizi (Thompson i Vacha-Haase, 2000 i Schafer, 1999), koje donekle prate liniju rezonovanja Kronbahove teorije generalizabilnosti i nalaze veličine i pojmove koji su generalizabilni preko većeg broja istraživanja, publikacija, nalaza i sl. Analogni postupak primenjen je u ovom radu: napravljeni su jedinstveni kompoziti od ponuđenih pokazatelja, kako bi se ajtemi jednostavno mogli upoređivati međusobno i između dve ajtem analize, a kompatibilnost kompozita i drugih pokazatelja je iskazana korelacijama. Kako je to urađeno? Po svakom od 5 odabranih pokazatelja iz klasične ajtem analize, ajtemi su rangirani tako da je ajtem sa najvećim koeficijentom dobio rang 1. Zatim su izračunati prosečan rang (kao aritmetička sredina, označena sa AS) i standardna devijacija svih 5 rangova za svaku stavku (označena sa SD). Standardna devijacija rangova treba aproksimativno da ukaže na "problematičnost" ajtema, ili modela. Naime, neki ajtemi imaju vrlo približan rang na svim pokazateljima, a kod nekih se rangovi vrlo razlikuju. Ovaj kompozitni pokazatelj je, po našem mišljenju, ono bitno što se iz RTT9G makroa može iskoristiti za ocenu kvaliteta ajtema. U Rašovoj ajtem analizi računali smo kompozitni pokazatelj kvaliteta ajtema iz pokazatelja misfita. Za svaki ajtem smo računali odstupanje sva 4 pokazatelja (infitoutfit, Mnsq-Zstd) od njihovog proseka (prikazanog u dnu tabele). Zatim smo za svaki ajtem izračunali prosečno odstupanje (označeno kao AS), kao jednostavan relativni indikator misfita dotičnog ajtema. Međutim, misfit nije jedini relevantan podataka u IRT modelima koji ukazuje na kvalitet ajtema. Jedan od udarnih pokazatelja je egzaktna standardna greška merenja, koja je dovela do jednog od "novih pravila merenja": najtačniji su srednje teški ajtemi (Embretson, 1996). Pored toga, program BIGSTEPS prikazuje i point-biserijalni koeficijent korelacije koji se računa koristeći varijanse iz jednačina 5 i 6. U Rašovom modelu na ovaj koeficijent ne gleda se rado, jer je on predstavnik druge psihometrijske tradicije, ali ćemo ga mi ipak iskoristiti za poređenje. Naravno, izrada spomenutih kompozitnih pokazatelja nije podržana nikakvom psihometrijskom teorijom, što znači da se ne radi o opšte prihvaćenim pokazateljima kvaliteta ajtema. Takođe, nivo metastatističke analize je ovde elementaran i moguće je zamisliti primenu daleko većeg broja statističkih tehnika za komparaciju podataka. Skala EPQ - N Klasična ajtem analiza (RTT9G) Pouzdanost testa: Kronbahova = 0.8352 Gutman-Najsvanderov = 0.8952 91

S. Fajgelj, B. Kosanović Tabela 1.1. Merna svojstva ajtema po klasičnom modelu Ajtem AS SD MSA relijab homog Harris Burt EPQ34 1,2 0,45 0,884 0,546 0,6761 0,766 0,681 EPQ41 2,2 0,45 0,871 0,526 0,6365 0,725 0,634 EPQ31 3,4 2,19 0,817 0,573 0,6275 0,722 0,618 EPQ72 4,8 0,45 0,831 0,443 0,5466 0,6 0,6 EPQ38 5,4 2,61 0,764 0,517 0,5666 0,648 0,585 EPQ75 7,0 4,12 8705 0,33 0,4792 0,533 0,548 EPQ58 7,8 1,48 0,827 0,366 0,4598 0,502 0,527 EPQ3 8,6 3,65 0,707 0,423 0,4616 0,51 0,526 EPQ19 9,2 1,10 0,76 0,379 0,4586 0,501 0,521 EPQ77 9,4 0,89 0,787 0,376 0,4379 0,475 0,519 EPQ7 11,6 1,34 0,749 0,339 0,4174 0,464 0,493 EPQ15 12,8 0,84 0,758 0,331 0,4074 0,461 0,443 EPQ27 13,0 2,45 0,765 0,327 0,3795 0,422 0,442 EPQ23 13,8 6,02 0,849 0,263 0,3535 0,379 0,446 EPQ80 14,4 1,67 0,703 0,324 0,373 0,414 0,45 EPQ62 15,4 2,51 0,686 0,338 0,3592 0,401 0,417 EPQ12 16,0 2,24 0,76 0,302 0,3401 0,365 0,417 EPQ88 17,0 5,79 0,607 0,392 0,2709 0,286 0,36 EPQ54 18,0 0,71 0,7 0,267 0,3035 0,342 3346 EPQ68 20,4 0,55 0,623 0,243 0,2432 0,264 0,321 EPQ84 20,4 1,82 0,693 0,264 0,2043 0,215 0,29 EPQ47 21,4 1,14 0,622 0,22 0,2366 0,272 0,274 EPQ66 22,8 0,45 0,541 0,222 0,1535 0,158 0,248 Napomena: oznake kolona su objašnjene ranije u tekstu Iz Tabele 1.1. vidi se da su svi koeficijenti relativno visoki, a posebno MSA. Interkorelacije između koeficijenata se kreću od 0,589 do 0,999, pri čemu je ova najviša između homogenosti i Harisove valjanosti, jer su to praktično dve iste stvari (korelacije sa prvom glavnom komponentom). Rašova (IRT) ajtem analiza (BIGSTEPS) Tabele 1.2. i 1.3., koje se nazivaju rezimeima, prikazaćemo u originalnom obliku. U literaturi vrlo se često nalaze prikazane upravo na takav način. Kod EPQ ćemo, da bismo olakšali posao čitaocu, prevesti oznake pokazatelja. 92

Nova i stara ajtem analiza poređenje Tabela 1.2. Rezime 116 (ne-ekstremnih) studenata Sirovi N Mera Realna Infit Outfit skor greška MNSQ ZSTD MNSQ ZSTD A.S. 10.1 22.8 -.31.56.99 -.1 1.09 -.1 S.D. 4.9.5 1.31.13.26 1.0.98 1.0 MAX. 22.0 23.0 3.63 1.20 1.95 2.8 8.90 4.6 MIN. 1.0 20.0-3.76.46.58-2.4.15-1.9 Realni RMSE.58 kor.sd 1.18 Separacija 2.04 Pouzdanost studenata.81 Model RMSE.55 kor.sd 1.19 Separacija 2.16 Pouzdanost studenata.82 S.E. aritmetičke sredine studenata.12 Sa 2 ekstremna studenta = 118 Student A.S. -.38 S.D. 1.41 Realni RMSE.60 kor.sd 1.27 Separacija 2.11 Pouzdanost studenata.82 Model RMSE.58 kor.sd 1.28 Separacija 2.22 Pouzdanost studenata.83 Minimalni ekstrem. skor: 2 studenta Ispuštenih odgovora: 50 studenata Validnih odgovora: 99.3% Tabela 1.3. Rezime 23 merena ajtema Sirovi N Mera Realna Infit Outfit skor greška MNSQ ZSTD MNSQ ZSTD A.S. 51.1 115.1 0.00.24.99 -.2 1.09.1 S.D. 21.5 1.2 1.17.04.16 1.6.33 1.4 MAX. 99.0 116.0 2.66.37 1.40 3.8 1.85 3.1 MIN. 10.0 112.0-2.64.21.72-3.1.62-2.6 Realni RMSE.25 kor.sd 1.14 Separacija 4.65 Pouzdanost ajtema.96 Model RMSE.24 kor.sd 1.14 Separacija 4.79 Pouzdanost ajtema.96 S.E. aritmetičke sredine ajtema.25 Iz tabela 1.2. i 1.3. vidi se da ispitnici imaju nižu prosečnu meru od ajtema, što znači da je stepen prisustva crte neurotizma kod izmerenih studenata niži nego što je sadržan u stavkama EPQ. Analogno interpretaciji klasičnih metrijskih karakteristika testa, distribucija Rašovih mera kod studenata je pozitivno asimetrična, tj. ima više niskih rezultata. Međutim, pouzdanost ajtema je primetno viša nego ispitanika (0,96 u odnosu na 0,82). To je verovatno posledica toga što se radi o psihometrijski stabilnom i proverenom testu, koji je, međutim, zadat selekcioniranom uzorku (o greškama unosa podataka kasnije će biti reči). U Tabeli 1.2. vidi se da dva studenta imaju minimalni ekstremni skor (konkretno, nemaju nijedan "da" odgovor), što po IRT modelima znači da imaju neizračunljivu stan- 93

S. Fajgelj, B. Kosanović dardnu grešku merenja. Nulti i perfektni skorovi po IRT zahtevaju beskonačno niske, odnosno visoke mere. Zato se pouzdanost i separacija posebno prikazuju kada se ekstremni ispitanici (ili ajtemi) uključe u proračun, a koeficijenti pouzdanosti se samo procenjuju. U tabelama 1.2. i 1.3. postoje dve vrste standardnih grešaka: realna i modelska. Realna je najgori, a modelska najbolji slučaj, odnosno prva uključuje i misfit modela, a druga ne. Nepovoljan znak za fitovanje modela je ako su ove dve vrednosti (i pouzdanosti izračunate iz njih) značajno različite. I konačno, pouzdanost (studenata) izračunata po Rašovom modelu je nešto niža od pouzdanosti izračunate na klasičan način. Taj nalaz se stabilno javlja u praksi i rezultat je toga što se u IRT modelima odbacuju ekstremni skorovi koji neopravdano naduvavaju procenu pouzdanosti u klasičnom modelu. Osim toga, procena "prave varijanse" (jednačina 6) u IRT modelima konzervativnija je jer isključuje varijansu misfita modela. Uopšte uzev, u našem slučaju, kako klasična pouzdanost ( ) tako i Rašova pouzdanost vrlo su bliske pouzdanostima navedenim u priručniku (Lojk, 1979). Tabela 1.4. Merna svojstva ajtema po Rašovom modelu Ajtem AS Skor Rašova REALS r pbis Infit Infit Outfit Outfit Rang Razlika mera E Mnsq Zstd Mnsq Zstd RTT9G EPQ7 0.06 36.75 0.23.40 0.99-0.1 1.02 0.1 11-10.00 EPQ62 0.09 23 1.50 0.26.34 1.02 0.1 0.95-0.2 16-14.00 EPQ88 0.14 98-2.64 0.3.27 1.02 0.1 1.15 0.3 18-15.00 EPQ80 0.14 52 -.06 0.22.39 1.04 0.4 1.02 0.1 15-11.00 EPQ77 0.18 37.69 0.23.40 1.01 0.1 0.9-0.5 10-5.00 EPQ15 0.20 44.34 0.22.38 1.04 0.4 1.06 0.3 12-6.00 EPQ27 0.24 30 1.08 0.24.37 0.98-0.2 1.15 0.6 13-6.00 EPQ58 0.31 59 -.39 0.22.44 0.97-0.3 1.12 0.8 7 1.00 EPQ3 0.34 59 -.36 0.21.46 0.96-0.4 0.89-0.8 8 1.00 EPQ23 0.39 86-1.69 0.24.31 1 0 1.35 1.2 14-4.00 EPQ19 0.42 57 -.29 0.22.47 0.93-0.8 0.89-0.7 9 2.00 EPQ12 0.47 70 -.87 0.22.33 1.03 0.3 1.25 1.3 17-5.00 EPQ54 0.61 10 2.66 0.37 0.23 1.09 0.4 1.85 1.1 19-6.00 EPQ84 0.66 99-2.58 0.31.17 1.11 0.6 1.64 1.3 21-7.00 EPQ38 0.71 45.30 0.22.51 0.87-1.3 0.8-1.2 5 10.00 EPQ72 0.79 68 -.80 0.22.51 0.86-1.6 0.8-1.2 4 12.00 EPQ68 0.84 39.57 0.25.25 1.22 1.9 1.22 1 20-3.00 EPQ41 1.04 40.54 0.22.59 0.77-2.4 0.76-1.3 2 16.00 EPQ31 1.25 38.57 0.23.60 0.77-2.4 0.64-2 3 16.00 EPQ75 1.46 43.27 0.22.64 0.72-3 0.65-2.2 6 14.00 EPQ47 1.53 40.54 0.25.16 1.28 2.5 1.64 2.7 22-1.00 EPQ34 1.59 47.17 0.22.64 0.73-3.1 0.62-2.6 1 21.00 EPQ66 1.97 56 -.31 0.26.11 1.4 3.8 1.57 3.1 23 0.00 A.S. 51..00.24 0.99 -.2 1.09.1 S.D. 21. 1.17.04.16 1.6.33 1.4 Napomena: Skor je uobičajeni zbir "da" odgovora r pbis je u osnovi point-biserijalni koeficijent korelacije ajtem-total, izračunat na osnovu podataka iz modela. 94

Nova i stara ajtem analiza poređenje Iz Tabele 1.4. vidi se da ajtemi nemaju značajan misfit. To je u direktnoj vezi sa zadovoljavajućom pouzdanošću kako studenata, tako i ajtema (tabele 1.2. i 1.3.), a u celini govori da primenjeni model merenja (Rašov IRT model) odgovara podacima. Pošto cilj ovog rada nije provera i restandardizacija testa, nego demonstracija mogućnosti IRT ajtem analize, iskoristićemo ono malo misfita koji imamo. Ajtemi 31, 75 i 34 imaju prigušen outfit i infit. Iz Tabele 1.5. vidimo da su prva dva ajtema imala jedan neočekivan "da" odgovor jednog te istog ispitanika koji je srednji po nivou neurotičnosti. Dakle, moglo bi se raditi prosto o greški unosa, ili o nepažnji ispitanika. Nasuprot tome, moglo bi se razmišljati i o redundantnosti tih ajtema, tj. o mogućnosti da sva tri mere istu stvar raznim rečima (to bi ovde moglo imati osnova jer se u sva tri slučaja pita nešto u smislu "da li ste nervozna osoba"). Ajtemi 47 i 66 imaju šuman outfit i infit. Iz Tabele 1.5. vidi se da su na njima ispitanici sa niskom neurotičnošću neočekivano često odgovarali sa "da", a da istovremeno oba ajtema imaju par suprotnih neočekivanih odgovora: odgovora "ne" od visokih ispitanika. Ajtem 66 glasi "Da li vodite puno računa o svom spoljašnjem izgledu", a ajtem 47 "Da li ste zabrinuti za svoje zdravlje". Formalno teorijski to znači da pretpostavke Rašovog modela (sadržane u jednačinama 3 i 4) nisu prikladne za ove ajteme. U praksi, istraživač-psiholog bi mogao razmišljati o tome da ova dva ajtema, kada se primene na uzorku mladih obrazovanih žena, ne mere najbolje neurotičnost, ili mere i nešto drugo. Tabela 1.5. "MOST UNEXPECTED RESPONSES" AJTEM MEASURE STUDEN 111 11 11 1 1 1 1 1111 1111 111 11 64303 218546542 366154282 29105752109635431 541805 58983313487126296412148135856336947966659096444628 high-------------------------------------------------- 88 EPQ88-2.64 I...0...00.00... 84 EPQ84-2.58 C...00...0.0.0..0..0... 23 EPQ23-1.69 E..0...0...000..0... 12 EPQ12 -.87 F..00.0.0...00... 72 EPQ72 -.80 e...0.0...... 58 EPQ58 -.39 J...0...0..0...1 3 EPQ3 -.36 h...1.1... 66 EPQ66 -.31 D 0...0.0........1...1..1. 19 EPQ19 -.29 g..0... 80 EPQ80 -.06 L.0...1.11... 75 EPQ75.27 a......1... 38 EPQ38.30 f...1...1... 15 EPQ15.34 K...1...1.1..1.1... 41 EPQ41.54 d...1...1... 47 EPQ47.54 B 0...11...11...111..1.. 31 EPQ31.57 c......1... 68 EPQ68.57 G...1...1.1...1... 77 EPQ77.69 i...1..1...1... 7 EPQ7.75 k...1...1... 27 EPQ27 1.08 H...1..1...1...1.. 62 EPQ62 1.50 j... 1.11.1...1... 54 EPQ54 2.66 A...1...1...1.. -----------------------------------------------low 61113311854114191661542825191157111196311116111811 54303 214876562 341214813 25603652106665431 541605 898 13 12 2 6 8 3 9479 5909 444 28 95

S. Fajgelj, B. Kosanović Tabela 1.5. jedan je od izvora podataka za analizu misfita. Pokazuje ajteme sa najneočekivanijim odgovorima. Ajtemi su sređeni po "težini" (parametar D i iz jednačina 3 i 4), koja u ovom slučaju odražava učestanost odgovora "da". U zaglavlju tabele prikazani su studenti koji su dali te neočekivane odgovore, sortirani po meri neurotizma, od "visokih" do "niskih" (s leva na desno). Uočava se jasna strukturacija da glavni izvor misfita potiče od toga što neki "visoki" studenti odgovaraju sa "ne" na "lake" stavke, a "niski" studenti sa "da" na "teške" stavke. Na primer, jedan od 3 najmanje neurotična studenta (student 158), odgovorio je da se "ponekad bez razloga oseća bespomoćno i umorno" (ajtem 58). Izuzetak su nekoliko srednjih ajtema koji imaju i neočekivane "da" i neočekivane "ne" odgovore, a među njima je najuočljiviji ajtem 66 (njegov slučaj raspravljen je uz Tabelu 1.4.). Razlike klasične i Rašove ajtem analize u oceni kvaliteta stavki U Tabeli 1.4. je, u poslednje dve kolone, dat rang koji su stavke dobile po klasičnoj ajtem analizi (iz Tabele 1.1.) i razlika u odnosu na rang dobijen u Rašovoj analizi. Stavke su u Tabeli 1.4. sortirane po "kvalitetu", odnosno odsustvu misfita. Negativna razlika rangova ukazuje da je stavka dobra u Rašovoj, a loša u klasičnoj ajtem analizi, a stavke sa pozitivnom razlikom su bolje prošle u klasičnoj analizi. Vidljivo je da su razlike velike. Spirmanova rang-korelacija između dva rangiranja je -0,124. Otprilike pola ajtema ima dvocifrenu razliku, sa tendencijom da budu kažnjeni ekstremi. Kao da se dve ajtem analize iz dve psihometrijske tradicije većinom ne slažu baš u pogledu toga šta je dobar, a šta loš ajtem. Izuzetak je ajtem 66 oko koga su se obe ajtem analize usaglasile da je najlošiji. Nasuprot njemu, oko ajtema 34 postoji upravo tužno neslaganje. Radi se o pitanju "Da li ste često zabrinuti" koji je u Rašovom modelu imao skoro najveći misfit (prigušen), prosečnu meru od 0,17 logita (odgovori da-ne su podeljeni skoro 50-50%), visok r pbis i nijedan visoko neočekivan odgovor. Na osnovu našeg izbora pokazatelja iz makroa RTT9G ovaj je ajtem bio najbolji. Naravno, misfit ajtema 34 je na samoj granici prigušenosti i na osnovu misfita, uzimajući u obzir mali i selekcioniran uzorak, ne bismo imali pravo da loše sudimo o ajtemu. To nije cilj ovog rada, ali ako bismo hteli da razmišljamo, mogli bismo pretpostaviti da je zabrinutost postojala kao stanje, a ne kao crta (na primer, prva generacija studenata izgubila je praktično ceo letnji semestar zbog bombardovanja SRJ od strane NATO). Pošto poređenje dve ajtem analize na osnovu kompozitnih pokazatelja sugeriše da ne postoje sličnosti, pogledajmo korelacije između svih pokazatelja koji su u oba modela relevantni za procenu kvaliteta ajtema. 96

Nova i stara ajtem analiza poređenje Tabela 1.5a. Interkorelacije pokazatelja kvaliteta stavki AS Rašova Real SE r pbis AS SD misfita mera Rtt9g Rtt9g AS misfita 1,000,066 -,020,074 -,047 -,277 Rašova mera,066 1,000,049,164 -,123 -,480 Real SE -,020,049 1,000 -,620,590,048 r pbis,074,164 -,620 1,000 -,961,005 AS Rtt9g -,047 -,123,590 -,961 1,000,046 SD Rtt9g -,277 -,480,048,005,046 1,000 Meta-statistička Tabela 1.5a. kazuje da su kompozitni pokazatelji 5 koeficijenata iz RTT9G makroa (AS RTT9G) i r pbis iz Rašove analize redundatni jer je njihova korelacija 0,96 (predznak odbacujemo). Predstavnici Rašovog modela imaju, očigledno, pravo kada kažu da r pbis pripada klasičnoj tradiciji. S druge strane, korisnik Rašove ajtem analize izgleda da nema potrebe za klasičnim pokazateljima, jer sve to dobija sa ovim nusproduktom. Nije zanemarljiva ni korelacije standardne greške merenja (njene gornje granice, otuda "real") sa AS RTT9G. O poreklu ostalih korelacija čitalac može sam da razmišlja. Razlika između poduzoraka U opisu uzorka ispitanika rečeno je da se dve obuhvaćene generacije studenata razlikuju po dva aspekta: a) prva je imala prijemni, a druga nije i b) podatke za prvu je unosio profesionalac, a za drugu su unosili sami studenti. Ove razlike, naravno, nisu od značaja za ovaj tekst, ali su bile pogodne za demonstraciju još jedne mogućnosti IRT ajtem analize. Radi se, zapravo, o dve psihometrijske teme kojima je preplavljena savremena pedagoška i psihološka literatura jednačenju testova i diferencijalnom ponašanju ajtema. Obe oblasti su poznate od ranije i u obema su razvijena rešenja u okviru klasične psihometrijske tradicije. Kod jednačenja testova (test equating, Wright, 1996, Smith i Kramer, 1992) radi se o tome da za dva ispitanika dobijemo isti skor/meru bez obzira kojim testom ih ispitujemo. U klasičnoj tradiciji se to rešava jednakim normama, npr. percentilnim, ali se pokazalo da su jednaki percentili daleko od jednake crte. Ujednačavanje skorova na različitim testovima postala je obavezna disciplina sa razvojem računarskog adaptivnog testiranja (Computer Adaptive Testing CAT) i banki ajtema. Danas se smatra da je dobro jednačenje testova nemoguće postići bez primene IRT modela. Druga oblast, diferencijalno ponašanje ajtema (Differential Item Functioning DIF) bavi se problemom različitog ponašanja ajtema u različitim grupama ispitanika (Huang i Church, 1997, Teresi, 2000). Pri tome se ne misli na slučaj kada se grupe razlikuju po nivou crte koja se meri, nego kada se grupe razlikuju po nekim drugim varijablama, a delovanje tih varijabli ima uticaj na odgovaranje na ajteme. Na primer, kada se tokom administracije testa znanja iz matematike u jednom razredu dozvoli korišćenje kalkulatora, a u drugom ne. 97

S. Fajgelj, B. Kosanović Postoje posebni programi koji se bave ovom problematikom, a BIGSTEPS raspolaže tehnikom tzv. sidrenja koja služi za ujednačavanje merne skale i, posredno, komparacije uzoraka ispitanika i ajtema. Mogu se sidriti (anchoring) kako ispitanici, tako i ajtemi, ali i jedni i drugi istovremeno. Mi smo usidrili studente prve generacije (1999/2000) na taj način što smo ih odvojeno podvrgli Rašovoj ajtem analizi i njihove mere sačuvali. Zatim smo izvršili ajtem analizu na ukupnom uzorku, tako što smo zadali mere studenata iz prve generacije kao fiksne (sidra). Model je, dakle, mogao da ima slobodu proračuna samo za studente druge generacije, pa su i svi proračuni za ajteme varirali samo u okviru te generacije. Kada bi naša dva poduzorka bila različita u bilo kom pogledu, to bi se očitovalo u razlikama aritmetičkih sredina, grešaka, misfita itd. Ništa od toga nije utvrđeno, kao što se vidi iz tabela 1.6., 1.7. i 1.8. Promene u svim pokazateljima su minimalne, što govori o tome da prijemni ispit i način unosa podataka u računar nisu imali uticaja na visinu izmerene crte neurotičnosti (naravno, nisu delovali ni drugi eventualni izvori razlika, ili su delovali balansirajuće). Tabela 1.6. "SUMMARY OF 118 MEASURED STUDENS (Usidrena generacija 1999/2000)" RAW COUNT MEASUR REAL INFIT OUTFIT SCORE E ERROR MNSQ ZSTD MNSQ ZST D MEA 10.0 22.8 -.42.60 1.00 -.1 1.11 -.1 N S.D. 5.1.5 1.49.21.29 1.0 1.05 1.0 MAX. 22.0 23.0 3.80 1.72 1.98 2.8 9.48 4.7 MIN..0 20.0-4.94.46.06-2.5.02-1.9 REAL RMSE.63 ADJ.SD 1.35 SEPARATION 2.13 STUDEN RELIABILITY.82 MODEL RMSE.60 ADJ.SD 1.36 SEPARATION 2.26 STUDEN RELIABILITY.84 S.E. OF STUDEN MEAN.14 LACKING RESPONSES: 50 STUDENS VALID RESPONSES: 99.3% Tabela 1.7. "SUMMARY OF 23 MEASURED AJTEMS" RAW COUNT MEASUR REAL INFIT OUTFIT SCORE E ERROR MNSQ ZSTD MNSQ ZST D MEA 51.1 117.1 -.02.25 1.01 -.1 1.11.1 N S.D. 21.5 1.2 1.19.04.17 1.6.35 1.1 MAX. 99.0 118.0 2.69.38 1.43 4.0 1.92 2.5 MIN. 10.0 114.0-2.70.22.73-3.0.61-1.9 98

Nova i stara ajtem analiza poređenje REAL RMSE.25 ADJ.SD 1.16 SEPARATION 4.67 AJTEM RELIABILITY.96 MODEL RMSE.24 ADJ.SD 1.16 SEPARATION 4.83 AJTEM RELIABILITY.96 S.E. OF AJTEM MEAN.25 DELETED: 67 AJTEMS Tabela 1.8. "MOST UNEXPECTED RESPONSES (Usidrena generacija 1999/2000) " AJTEM MEASURE STUDEN 111 11 111 1 1 1 1111 1111 11111 64303 218546524 366154282 2105279635210 5431854105 58983313487122696412148135863396666947965909644428 high-------------------------------------------------- 88 EPQ88-2.70 I...0...00.00...0... 84 EPQ84-2.64 C...00...0.0.0..0... 23 EPQ23-1.74 E..0...0...000..0... 12 EPQ12 -.90 F..00.0.0...00... 72 EPQ72 -.83 e...0.0...... 58 EPQ58 -.41 H...0...0..0...1 3 EPQ3 -.38 h...1.1... 66 EPQ66 -.33 D 0...0.0...0.........1...1.1. 19 EPQ19 -.31 g..0... 80 EPQ80 -.08 L.0...0...1...11... 75 EPQ75.26 a......1.1... 38 EPQ38.29 f...1.1... 15 EPQ15.33 K...1...1...1..1.1... 41 EPQ41.53 d...1...1.. 47 EPQ47.53 B 00...1111..1...111... 31 EPQ31.57 c......1... 68 EPQ68.56 G...0...11.1...1...1... 77 EPQ77.69 i...1...1... 7 EPQ7.74 k...1... 27 EPQ27 1.08 J...1...1.1...1... 62 EPQ62 1.51 j... 1.11.1...1... 54 EPQ54 2.69 A...111...1...1...1... -----------------------------------------------low 61113311854111491661542825111527963111161111811111 54303 214876526 341214813 2603966665210 5431654105 898 13 122 6 8 3 9479 5909 44428 Test DAT-A Klasična ajtem analiza (RTT9G) Pouzdanost testa: Kronbahova = 0.8191 Gutman-Najsvanderov = 0.9301 99

S. Fajgelj, B. Kosanović Tabela 2.1. Merna svojstva ajtema po klasičnom modelu AS SD MSA relijab homog Harris Burt DATA39 4,2 3,90 0,6395 0,671 0,5207 0,6015 0,488 DATA27 4,8 3,90 0,7173 0,595 0,5164 0,5433 0,5537 DATA44 5,0 4,30 0,6394 0,622 0,5522 0,5977 0,482 DATA46 5,6 5,94 0,6816 0,5669 0,5494 0,5828 0,5129 DATA48 6,4 1,82 0,6879 0,5974 0,4861 0,4945 0,4768 DATA35 6,6 4,34,06737 0,5768 0,5203 0,5662 0,4868 DATA38 9,8 8,04 0,581 0,721 0,4727 0,5422 0,426 DATA9 10,4 10,26 0,752 0,505 0,4550 0,4675 0,471 DATA18 11,8 2,86 0,67 0,597 0,3785 0,4166 0,418 DATA34 12,6 3,91 0,611 0,569 0,4078 0,4252 0,448 DATA26 13,2 3,42 0,606 0,59 0,4065 0,4235 0,427 DATA43 13,6 6,50 0,657 0,517 0,4166 0,428 0,399 DATA25 14,0 5,15 0,589 0,554 0,4102 0,4246 4391 DATA20 14,4 11,82 0,517 0,758 0,3742 0,466 0,411 DATA41 17,0 13,73 0,69 0,422 0,3942 0,4088 0,41 DATA30 17,0 8,22 0,625 0,644 0,3216 0,3865 0,33 DATA21 17,6 3,58 0,63 0,566 0,3513 0,3637 0,403 DATA32 18,0 8,86 0,677 0,48 0,3681 0,3847 0,389 DATA45 19,0 6,56 0,628 0,499 0,3874 0,4057 0,374 DATA31 20,2 2,77 0,577 0,562 0,3378 0,3715 0,389 DATA42 20,8 9,88 0,645 0,451 0,3588 0,3774 0,38 DATA7 22,8 8,70 0,569 0,6 0,2335 0,2595 3372 DATA36 24,0 4,69 0,529 0,54 0,3230 0,3803 0,306 DATA23 24,8 1,92 0,583 0,512 0,2723 0,306 0,337 DATA12 25,0 3,32 0,523 0,519 0,2864 0,2666 0,343 DATA5 26,4 8,65 0,632 0,515 0,2244 0,2095 0,328 DATA28 27,0 8,37 0,513 0,448 0,3437 0,3693 0,367 DATA40 27,6 4,10 0,531 0,468 0,3201 0,3393 0,314 DATA3 30,0 6,78 0,545 0,55 0,2191 0,208 0,257 DATA10 30,8 13,52 0,494 0,601 0,1762 0,2152 0,248 DATA33 31,0 5,83 0,532 0,419 0,2345 0,2324 0,315 DATA22 32,2 7,92 0,521 0,388 0,2629 0,2621 0,286 DATA13 33,6 6,66 0,407 0,479 0,2407 0,2411 0,26 DATA8 34,0 10,58 0,586 0,376 0,2322 0,2528 0,234 DATA16 34,6 12,97 0,393 0,584 0,2049 0,2013 0,235 DATA11 35,0 16,64 0,403 0,616 0,1395 0,1522 2468 DATA17 35,6 5,94 0,513 0,514 0,1850 0,2004 0,221 DATA50 36,6 4,93 0,471 0,401 0,2143 0,2254 0,262 DATA15 37,2 4,97 0,496 0,5 0,1837 0,1706 2341 DATA49 37,2 7,98 0,445 0,363 0,2282 0,2275 0,279 DATA19 38,2 9,78 0,353 0,519 0,1758 0,1772 0,242 DATA2 38,8 13,31 0,614 0,465 0,0394 0,032 0,115 DATA1 39,0 0,71 0,464 0,438 0,1802 0,186 0,237 DATA47 40,8 6,38 0,518 0,458 0,1114 0,1031 0,137 DATA37 43,6 3,21 0,383 0,412 0,1546 0,1709 0,186 DATA4 43,6 8,38 0,511 0,477-0,0587-0,06 0,05 DATA24 44,0 1,73 0,397 0,402 0,1477 0,1379 0,192 DATA29 45,6 3,21 0,457 0,359 0,0816 0,083 0,141 DATA14 46,6 2,07 0,428 0,384 0,0176 0,038 0,07 DATA6 47,4 2,70 0,411 0,4-0,0200 0 0,03 Napomena: oznake kolona su objašnjene ranije u tekstu 100

Nova i stara ajtem analiza poređenje Iz Tabele 2.1. vidi se da neki ajtemi imaju zadovoljavajuće pokazatelje, a neki ne. Nema ajtema sa vrlo visokim koeficijentima, ali ih zato ima sa negativnim (istina, sasvim malim). Sve skupa, iz stavskih pokazatelja se ne može osloniti na pouzdanost testa izračunatu u koeficijentima za ceo test. Zadovoljavajuća i pouzdanost potiče očigledno iz osobine klasičnog modela da nagrađuje duge testove što više ajtema, pouzdanost je veća. Međutim, niski stavski pokazatelji nam govore da nešto sa podacima ipak nije u redu. Jedino što u raspoloživim rezultatima makroa RTT9G nema ničega što bi nam ukazalo na put objašnjenja. Interkorelacije koeficijenata se kreću od 0,353 do 0,992, gde je najveća korelacija, logično, između homogenosti i Harisove valjanosti (koji su praktično ista stvar). Rašova (IRT) ajtem analiza (BIGSTEPS) Tabela 2.2. "SUMMARY OF 122 MEASURED (NON-EXTREME) STUDENS" MEA N RAW COUNT MEASUR REAL INFIT OUTFIT SCORE E ERROR MNSQ ZSTD MNS ZSTD Q 38.3 46.0 2.16.52.99.0.95 -.1 S.D. 6.0 4.9.93.14.19.7.52.8 MAX. 48.0 50.0 4.07 1.11 1.51 2.6 3.66 2.5 MIN. 20.0 31.0 -.45.34.54-1.5.11-1.5 REAL RMSE.53 ADJ.SD.76 SEPARATION 1.42 STUDEN RELIABILITY.67 MODEL RMSE.52 ADJ.SD.77 SEPARATION 1.48 STUDEN RELIABILITY.69 S.E. OF STUDEN MEAN.08 WITH 2 EXTREME STUDENS = 124 STUDENS MEAN 2.21 S.D..99 REAL RMSE.56 ADJ.SD.81 SEPARATION 1.45 STUDEN RELIABILITY.68 MODEL RMSE.55 ADJ.SD.82 SEPARATION 1.50 STUDEN RELIABILITY.69 MAXIMUM EXTREME SCORE: 2 STUDENS LACKING RESPONSES: 43 STUDENS VALID RESPONSES: 92.1% 101

S. Fajgelj, B. Kosanović MEA N Tabela 2.3. "SUMMARY OF 50 MEASURED AJTEMS" RAW COUNT MEASUR REAL INFIT OUTFIT SCORE E ERROR MNSQ ZSTD MNS ZSTD Q 93.4 112.4.00.36 1.00.0.97 -.1 S.D. 25.5 12.7 1.39.14.09.7.37 1.0 MAX. 120.0 122.0 3.56.72 1.35 3.6 1.89 3.2 MIN. 20.0 81.0-2.34.20.85-1.0.29-1.4 REAL RMSE.38 ADJ.SD 1.34 SEPARATION 3.51 AJTEM RELIABILITY.93 MODEL RMSE.38 ADJ.SD 1.34 SEPARATION 3.56 AJTEM RELIABILITY.93 S.E. OF AJTEM MEAN.20 Iz tabela 2.2. i 2.3. vidi se da ja pouzdanost (studenata) upadljivo niža nego pouzdanost izračunata po klasičnom modelu. Separacija je manja od 2, što znači da mere studenata na DAT-A subtestu ne omogućavaju da pouzdano razdvojimo ni dve grupe; npr. niske i visoke. Pouzdanost ajtema, međutim, sasvim je zadovoljavajuća. S obzirom da nema mnogo studenata sa nultim ili savršenim skorovima (samo 2 maksimalna), možemo da zaključimo da se niska pouzdanost studenata može objasniti jedino velikim misfitom u okviru ispitanika. Takođe vidimo da je mera studenata 2,16, što znači da je DAT-A lak za studente psihologije i da su oni većinu zadataka rešili. Klasična pouzdanost ( ) je bliska, a Rašova pouzdanost znatno manja od pouzdanosti koja je navedena u priručniku, ali poređenje nije korektno jer je pouzdanost u priručniku računata kao stabilnost, odnosno kao test-retest korelacija. Tabela 2.4. predstavlja pregled mernih karakteristika ajtema DAT-A. U ajtemima nema velikog misfita, što znamo već iz Tabele 2.3 gde je pouzdanost ajtema 0,93. Poslednje dve kolone, jednako kao u Tabeli 1.4., daju poređenje dve ajtem analize. Razlike u rangovima su opet velike, a Spirmenova korelacija je -0,06. To znači da na osnovu ova dva pokazatelja ne postoje sličnosti ocene kvaliteta ajtema po klasičnoj i Rašovoj ajtem analizi. Treba se osloniti prvenstveno na informaciju da se klasični i IRT model razlikuju po tome što prvi ocenjuje samo pouzdanost ispitanika, a drugi i ispitanika i ajtema. IRT model pokazuje da postoji značajna razlika u pouzdanosti, tačnije odsustvo pouzdanosti ispitanika, uz visoku pouzdanost ajtema. Razlike u proceni kvaliteta ajtema verovatno potiču iz kombinacije različitog ugla gledanja kod ova dva pristupa i svojstava podataka. 102

Nova i stara ajtem analiza poređenje Tabela 2.4. Merna svojstva ajtema po Rašovom modelu Ajtem A.S. Skor Rašova Real r pbis Infit Infit Outfit Outfit AS SD Rang Razlika mera SE Mnsq Zstd Mnsq Zstd Rtt9g Rtt9g Rtt9g data36 0,02 106 -.23.27.26 1 0,1 0,98 0,0 24,0 4,69 23-22 data21 0,04 92.60.23.31 1 0,2 1,00 0,0 17,6 3,58 17-15 data45 0,04 65 1.77.20.36 1 0,1 1,01 0,1 19,0 6,56 19-16 data50 0,06 20 3.85.26.22 1 0,1 1,05 0,2 36,6 4,93 38-34 data11 0,07 118-1.54.43.14 1 0,1 1,10 0,2 35,0 16,64 36-31 data13 0,08 111 -.64.31.21 1 0,2 0,96-0,1 33,6 6,66 33-27 data23 0,11 113 -.84.33.25 1-0,1 0,95-0,1 24,8 1,92 24-17 data30 0,15 112 -.74.32.26 1-0,1 1,12 0,3 17,0 8,22 16-8 data1 0,16 117-1.37.40.19 1 0,0 0,81-0,3 39,0 0,71 43-34 data32 0,19 96.39.23.34 1 0,0 0,90-0,5 18,0 8,86 18-8 data40 0,21 106 -.23.27.30 1-0,2 1,13 0,4 27,6 4,10 28-17 data19 0,23 108 -.46.30.17 1,1 0,3 1,18 0,5 38,2 9,78 41-29 data26 0,24 104 -.09.26.36 0,9-0,5 0,95-0,2 13,2 3,42 11 2 data42 0,24 54 2.12.20.39 1-0,6 1,02 0,2 20,8 9,88 21-7 data5 0,25 114 -.96.34.24 1,00 0,0 0,75-0,6 26,4 8,65 26-11 data6 0,27 121-2.28.61 -.02 1,1 0,1 1,54 0,5 47,4 2,70 50-34 data49 0,28 28 3.36.24.23 1,1 0,7 1,08 0,4 37,2 7,98 39-22 data10 0,28 122-2.71.72.14 1,00 0,0 0,53-0,5 30,8 13,52 30-12 data34 0,29 82 1.07.21.39 1-0,5 0,94-0,4 12,6 3,91 10 9 data12 0,29 116-1.22.38.28 1-0,2 0,75-0,5 25,0 3,32 25-5 data22 0,32 115-1.08.36.25 1-0,1 0,71-0,7 32,2 7,92 32-11 data17 0,33 110 -.64.32.15 1,1 0,4 1,28 0,7 35,6 5,94 37-15 data41 0,34 54 2.21.20.38 1-0,4 0,93-0,7 17,0 13,73 15 8 data25 0,35 84.98.21.38 1-0,3 0,88-0,8 14,0 5,15 13 11 data28 0,36 109 -.46.29.33 1-0,3 0,77-0,7 27,0 8,37 27-2 data16 0,36 122-2.71.72.17 1 0,0 0,41-0,7 34,6 12,97 35-9 data3 0,37 102.04.26.18 1,10 0,6 1,20 0,7 30,0 6,78 29-2 data8 0,37 122-2.71.72.19 1 0,0 0,37-0,7 34,0 10,58 34-6 data31 0,37 113 -.84.33.29 0,9-0,2 1,36 0,8 20,2 2,77 20 9 data7 0,37 120-1.98.52.21 1 0,0 0,47-0,8 22,8 8,70 22 8 data43 0,39 59 1.97.20.40 1-0,5 0,92-0,8 13,6 6,50 12 19 data9 0,50 96.39.23.42 0,9-0,7 0,83-0,9 10,4 10,26 8 24 data39 0,53 77 1.28.21.44 0,9-0,9 0,89-0,9 4,2 3,90 1 32 data20 0,54 117-1.37.40.33 0,9-0,3 0,48-1,1 14,4 11,82 14 20 data18 0,55 120-1.98.52.32 0,90-0,2 0,34-1,1 11,8 2,86 9 26 data15 0,57 99.23.26.18 1,1 0,9 1,28 1,1 37,2 4,97 40-4 data24 0,67 101.11.26.15 1,1 0,9 1,39 1,4 44,0 1,73 47-10 data38 0,71 97.24.24.45 0,9-0,9 0,70-1,4 9,8 8,04 7 31 data33 0,73 58 2.03.21.26 1,1 1,5 1,14 1,3 31,0 5,83 31 8 data14 0,77 116-1.22.40 -.02 1,1 0,4 2,09 1,6 46,6 2,07 49-9 data29 0,78 115-1.08.37.07 1,1 0,2 2,20 1,8 45,6 3,21 48-7 data35 0,79 85.94.21.47 0,9-1,2 0,79-1,5 6,6 4,34 6 36 data44 0,84 79 1.20.21.46 0,9-1,3 0,80-1,6 5,0 4,30 3 40 data46 0,84 81 1.11.21.51 0,9-1,8 0,85-1,1 5,6 5,94 4 40 data2 0,89 116-1.22.39.02 1,1 0,3 2,39 1,9 38,8 13,31 42 3 data48 0,90 61 1.93.20.47 0,9-1,9 0,88-1,3 6,4 1,82 5 41 data4 0,93 119-1.74.49 -.08 1,10 0,2 2,77 1,8 43,6 8,38 45 2 data27 0,95 100.17.24.52 0,8-1,4 0,63-1,7 4,8 3,90 2 46 data37 1,02 51 2.29.22.17 1,2 1,9 1,24 1,9 43,6 3,21 46 3 data47 1,45 57 2.03.22.12 1,2 2,6 1,32 2,8 40,8 6,38 44 6 A.S. 95..00.32 1.00-1,0 104,00 0,0 S.D. 26. 1.57.14.08 8,0 48,00 10,0 Napomena: Skor je uobičajeni zbir tačnih odgovora, r pbis je kao u Tabeli 1.4. 103

S. Fajgelj, B. Kosanović Tabela 2.4a. Interkorelacije pokazatelja kvaliteta stavki AS misfita Rašova mera Real SE r pbis AS Rtt9g SD Rtt9g AS misfita 1,000,158 -,133 -,025,009 -,145 Rašova mera,158 1,000 -,825,467 -,273 -,202 Real SE -,133 -,825 1,000 -,559,410,324 r pbis -,025,467 -,559 1,000 -,923 -,117 AS Rtt9g,009 -,273,410 -,923 1,000,057 SD Rtt9g -,145 -,202,324 -,117,057 1000 Meta-statistika, prikazana u Tabeli 2.4a. govori da postoje sličnosti i razlike u odnosu na skalu EPQ-N. Korelacija r pbis i kompozita kvaliteta iz modela RTT9G i dalje je vrlo visoka. Sve u svemu, sada se može zaključiti da nijedan misfit posebno, niti neki izvedeni zbirni pokazatelj nisu pogodni za opšte rangiranje ajtema po kvalitetu. Možda je na to uticala činjenica da nijedan test u ovom radu nije imao mnogo ajtema sa visokim misfitom. Osim toga, misfit u IRT modelima više je "individualni" pokazatelj, baziran na odstupanjima pojedinačnih odgovora od modelskog predviđanja. Zato i njegova prvenstvena namena nije globalna. Pokazalo se da r pbis i standardna greška merenja pružaju bolju osnovu za rangiranje i za komparaciju sa drugim modelima. DAT-A je neverbalni test i teško je uočiti mehanizme koji bi ukazali na to koji ajtemi su problematični. Treba imati u vidu da uzorak čine uglavnom žene. Taj podatak treba kombinovati sa jednim ovlaš učinjenim zapažanjem da neki ajtemi koji su teški i imaju misfit sadrže mehanizam uočavanja broja elemenata, za razliku od drugih kod kojih se mora uočiti prostorni raspored, oblik i sl. Dakle, problem je u ovom trenutku potpuno sagledan. Pouzdanost ispitanika je niska, a iz stavskih pokazatelja ne može se zaključiti zbog čega je niska. Zato ćemo ovde priložiti tabelu koja sadrži grafički prikaz misfita kod studenata. 104