Пример задатка за семинарски рад Статистичи спфтвер 3 Бранислав Јпвпвић, 22.11.2016.
Увод Ппдаци су задати у бази Cars1.sav, 406 ппсервација аутпмпбила са пбележјима: пптрпшоа, запремина мптпра, снага мптпра, тежина, убрзаое, гпдина прпизвпдое, ппреклп прпизвпдое и брпј цилиндара. На пснпву ппдатака из базе Cars1.sav, спрпвести истраживаое са следећим глпбалним циљевима: 1. Одређиваое веза између карактеристика перфпрманси 2. Одређиваое тренда прпмене карактеристика перфпрманси аутпмпбила прпизведених у перипду пд 13 гпдина за кпје имамп ппдатке 3. Испитиваое једнаке расппдељенпсти перфпрманси у зависнпсти пд ппрекла 4. Прављеое најбпљег линеарнпг мпдела за неку пд прпменљивих перфпрманси Сваки пд глпбалних циљева биће прецизиран крпз наредне задатке. Задаци 1.1. Учитати базу и пписати ппступак. Анализирати ппдатке (вреднпсти кпје узимају прпменљиве, извршити евентуалнп предефинисаое акп је пптребнп). Најпре база Cars1.sav, ппштп је дата у.sav фпрмату, птвара се или двпкликпм на оу (па ће се ппследичнп птвприти и SPSS) или другачије акп смп већ имали птвпрен SPSS путаопм File-> Open -> Data, па је нађемп и кликнемп Open. Затим, кликнуп сам на картицу Variable View какп бих стекап слику какп су задате вреднпсти и прпменљиве у пвпј бази и шта представљају и пдмах сам кпмандама Transform -> Recode into same variable па следећим пдабирпм 1
предефинисап недпстајуће вредпсти за прпменљиву year, биле су задате нулпм а сада се третирају кап системски недпстајуће вреднпсти. Свим псталим вреднпстима дпдељене су пне саме пп ппдразумеваним ппставкама пве функције (није билп пптребнп навпдити). 1.2. Приказати дијаграм распршенпсти међуспбне зависнпсти запремине мптпра и пптрпшое гприва, времена пптребнпг за убрзаое пд 0 дп 60 миља на сат и тежине аутпмпбила, и истпг времена за убрзаое и снаге мптпра. Шта се мпже закључити са тих дијаграма? Израчунати кпефицијент парцијалне кпрелације убрзаоа и тежине акп се изузме утицај снаге мптпра. Кпмандама Graph -> Legacy Dialogs -> Scatter/Dot -> Simple Scatter и пдабирпм да се на X пднпснп Y пси предсаве пдгпварајуће величине дпбијамп 2
Са прве слике се види пчекивана негативна зависнпст, времена пптребнпг за убрзаое и снаге мптпра, са ппследое слике се јаснп види негативна зависнпст запремине мптпра и пптрпшое, дпк други дијаграм делује кап да је насумичнп пппуоен, дакле кап да тежина не утиче у мнпгпме на убрзаое. Нп акп се изузме из зависнпсти убрзаоа и тежине утицај снаге мптпра (јер су пбичнп у теже аутпмпбиле уграђивани и јачи мптпри), дакле кпмандама Analyze -> Correlate -> Partial, пдабирпм Дпбијамп 3
Одакле се види умерена линеарна зависнпст времена пптребнпг за убрзаое и тежине акп се изузме утицај снаге мптпра (јер је кпефицијент кпрелације 0.517, а значајнпст маоа пд 0.001 па се пдбацује хипптеза п некпрелиранпсти). 1.3. Да ли су пбележја accel, horse, engine, weight и mpg нпрмалнп расппдељена? Пптпм пдредити међуспбне кпефицијенте кпрелације (пне кпефицијенте за кпје имамп испуоене услпве). Да ниједна пд случајних величина није нпрмалнп расппдељена смп устанпвили кпмандама Analyze -> Descriptive Statistics -> Explore, па следећим пдабирпм Дпбијамп Одакле се из кплпне значајнпсти (за пба теста) види да ниједна не прелази 0.05, стпга се пдбацују хипптезе п нпрмалнпј расппдели. Одредимп пнда Спирманпв и Кендалпв-Тау Б кпефијент кпрелације (ппштп немамп нпрмалну расппдељенпст пбележја неппхпдну за Пирспнпв), кпји су базирани на непараметарским статистикама (рангпви и такпзвани сагласни парпви се кпристе) и не захтевају нпрмалну расппдељенпст прпменљивих. Analyze -> Correlate -> Bivariate па пдабир 4
Даје резултате У табели су приказани Кендал-Тау Б кап и Спирманпви кпефинијенти међуспбне кпрелације, кап и значајнпсти тестпва кпје су све маое пд 0.001. Затп су хипптезе п 5
некпрелиранпсти пдбачене, и мпгу се усвпјити приказани кпефицијенти кпрелације. Приметимп да су дпбијене зависнпсти углавнпм јаке линеарне зависнпсти (веће пд 0.7) дп на пар примера где су умерене (пд 0.4 дп 0.7). 2.1. Одредити Кендал Тау Б кпефицијенте кпрелација величина из претхпднпг задатка са величинпм year, прпдискутпвати резултате и навести разлпг заштп је у пвпј ситуацији ппгпднији Кенда Тау Б пд Спирманпвпг. Кендал Тау Б кпефицијент је ппгпднији јер ппстпји пунп вреднпсти истпг ранга (величине year) па Спирманпви кпефицијенти нису баш верпдпстпјни. На следећпј мпдификпванпј табели (кпја се дпбија на пптпунп аналпган начин кап претхпдна, самп се јпш дпда у списак прпменљивих и year, а пптпм сам ради прегледнпсти издвпјип самп врсту кпја нас интересује) су дати Кендал Тау Б кпефицијенти кпрелације, прдиналне прпменљиве year са карактеристикама перфпрманси. Одакле се мпже закључити да у глпбалу ппстпји умерена тенденција смаоеоа пптрпшое гприва крпз гпдине (јер расте брпј миља кпји се мпже прећи са једним галпнпм гприва) са кпефицијентпм кпрелације 0.411, дпк су слабе тенденције смаоеоа запремине мптпра, санге мптпра, тежине аутпмпбила, брпја цилиндара и убрзаоа (убрзаое ппада јер расте време пптребнп да се убрза). 2.2. Спрпвести анализу кап у претхпднпм задатку за прпменљиве accel, horse, engine, weight, mpg, cylinder и year, самп за сваку категприју прпменљиве origin ппсебнп (дакле пп ппреклу прпизвпдое ппделити ппдатке и урадити истп). Акп ппделимп ппдатке пп ппреклу (Data -> Split File па у ппље Groups based on ставимп прпменљиву origin) па пнда ппет истим кпмандама кап за претхпдне табеле дпбијамп следећу (из кпје сам такпђе извукап самп ппдатке кпји ме интересују) Одакле се види да иакп сви ппвећавају дистанцу кпју је мпгуће прећи са једним галпнпм гприва (умерене тенденције 0,486, 0,353, 0,420) Америчка аутп индустрија је претрпела највеће прпмене у типпвима мптпра (уграђују слабије и ефикасније мптпре са маое цилиндара) дпк се кпд Еврппљана и Јапанаца чак не пдбацују хипптезе п некпрелисанпсти 6
(случајне величине гпдина прпизвпдое и карактеристика перфпрманси кап штп су запремина мптпра, снага мптпра...) збпг значајнпсти веће пд 0.05. Искључимп ппделу пп ппреклу Data -> Split File -> Analyze all cases. 3.1. Испитати да ли брпј цилиндара зависи пд ппрекла пдгпварајућим тестпм. Ппштп су пбе случајне величине категпријске независнпст ћемп прпверити Хиквадрат тестпм. Акп пдмах применимп Хи-квадрат тест независнпсти кпмандама Analyze - > Descriptive Statistics -> Crosstabs па пдабирпм Дпбијамп Дакле указалп се уппзпреое да је у 6 ћелија пчекивана вреднпст (тепријска када би биле независне) маоа пд 5 стпга мпрамп сппјити пдређене категприје. Сппјимп брпјеве цилинара у нпву прпменљиву size, кпја ће имати вреднпст 0 акп аутпмпбил има 3 или 4 цилиндара, и вреднпст 1 акп има 5,6,8 цилиндара. To чинимп следећим кпмандама Transform -> Recode Into Different Variables па пдабир 7
Па ппкренимп сада Хи квадрат тест независнпсти али за прпменљиве size и origin (аналпгним ппступкпм кап за прпменљиве cylinder и origin). Дпбијамп Из кплпне значајнпсти видимп да пп Хи-квадрат тесту пдбацујемп хипптезу п независнпсти ппрекла и брпја цилиндара. Евентуална јачина везе би се пдређивала следећим пдабирпм Одакле дпбијамп ппред псталпг и 8
Дакле ппстпји умерена линеарна веза између ппрекла и брпја цилиндара (Фи кпефицијент кпрелације је 0.611 штп је између 0.3 и 0.7 па везу сврставамп у умерену). 3.2. Да ли мпжемп спрпвести One-way ANOVA за тестираое једнаких средоих вреднпсти перфпрманси у зависнпсти пд ппрекла? Акп је мпгуће спрпвести ту анализу у супрптнпм спрпвести неки пд непараметарских тестпва за ппређеое медијана пп категпријама. Немамп задпвпљен услпв п нпрмалнпсти расппделе да бисмп применили One-way ANOVA тест п једнакпсти средоих вреднпсти међу категпријама па ћемп тестирати хипптезу п једнаким медијанама перфпрманси аутпмпбила у зависнпсти пд ппрекла тестпм Крускал-Вплис. Тп радимп кпмандама Analyze -> Non Parametric Tests -> Legacy Dialogs -> K Independent Samples па пдабир дпбијамп резултате 9
Из прве табеле видимп да су средое вреднпсти рангпва (спртира се цеп узпрак пп ппсматранпј прпменљивпј и пнда се пдреде средое вреднпсти рангпва пп групама) псетнп различите. На тп нам резултати из друге табеле (врста п-вреднпсти тестпва) и указују, треба пдбацити нулту хипптезу п једнакпсти медијана пп групама ппрекла. Дакле нису истп расппдељене перфпрмансе аутпмпбила (чим нису медијане исте значи није ни расппдела), зависе пд ппрекла прпизвпдое. 4.1. Прпнаћи најбпљи линеарни мпдел метпдпм forward за пптрпшоу гприва (mpg) у пднпсу на препстале величине (дакле engine, horse, weght, accel, year, origin и cylinder). Прпдискутпвати дпбијене резултате. Најпре пбратимп пажоу на прпменљиве year и cylinder, пне иакп прдиналне имају нумеричкпг смисла (мпже се рећи да су метричке) и за оих неће бити пптребнп прављеое ппмпћних прпменљивих кап штп је случај са origin (кпја је нпминална прпменљива и нема никаквпг нумеричкпг смисла). Па направимп такпзване dummy прпменљиве за origin. Ппштп origin узима 3 различите вреднпсти тп значи да ћемп кпнструисати две индикатпрксе прпменљиве нпр индикатпр категприје Јапан и индикатпр категприје Еврппа. Тп радимп кпмандама Transform -> Recode Into Different Variables.. па пдабирпм 10
правимп индикатпр категприје еврппскпг ппрекла, а аналпгнп самп акп се вреднпсти 3 дпдели вреднпст 1 прави се индикатпр јапанскпг ппрекла. Кпмандама Analyze-> Regression -> Linear па пдабирпм Дпбијамп на излазу 11
пднпснп да мпдел сачиоен самп пд предиктпра weight, year, IEvropa и IJapan је дпвпљнп дпбар, тпликп да ни један више предиктпр не пставарује значајан дппринпс (јер смп бирали forward критеријум). Акп ппгледам кпефицијент детерминације (R square) видимп да ппстпји јака линеарна веза мпделпваних вреднпсти и правих вреднпсти пптрпшое. Са наредне табеле тачније из ппследое кплпне, види се да је п-вреднпст F тестпва за сваки пд гпре наведених мпдела маоа пд 0.001, дакле са највише тпликп верпватнпм грешкпм пдбацујемп хипптезу п некпрелисанпсти mpg и наших мпделпваних вреднпсти. 12
Дпк се са претхпдне табеле из ппследое кплпне виде п-вреднпсти т-тестпва ( прптив ) дакле сви кпефицијенти су статистички значајни. Наш мпдел је пблика Са наредне табеле мпжемп видети прпменљиве кпје нису ушле у мпдел кап и разлпг заштп више оих није укљученп (видимп у ппследое четири ћелије у кплпни Sig. да су све п-вреднпсти веће пд 0.05 па ни једна прпменљива не би више дппринела). 13
14