Читать книгу Intelligentsuse psühholoogia - René Mõttus - Страница 2

I TEEMA: VAJALIKUD EELTEADMISED
KORRELATSIOON
René Mõttus, Jüri Allik

Оглавление

MIKS ON TARVIS TUNDA KORRELATSIOONI MÕISTET?

Korrelatsioon on mõiste, mille sisu tundmata on võimatu mõista intelligentsuse kohta tehtud uuringuid. Peaaegu kõikidele intelligentsust puudutavatele olulistele küsimustele pakutavad lahendused keerlevad ühel või teisel moel korrelatsiooni ümber. Näiteks on üks olulisemaid küsimusi intelligentsuse uurimise ajaloos olnud see, millistest osadest intelligentsus koosneb. Seda probleemi püütakse enamasti lahendada eeldatavalt erisuguseid võimeid mõõtvate testide tulemuste korrelatsioone analüüsides. Või võtame niisuguse küsimuse: kas ja mida intelligentsus inimese elus määrab? Ka sellele küsimusele vastuse saamiseks arvutatakse korrelatsioone, näiteks intelligentsustestide tulemuste ning keskmise koolihinde, sissetuleku, vererõhu või eluea pikkuse vahel. Samuti küsitakse tihti, millest inimeste erinevused intelligentsuses tulenevad? Ka siin arvutavad uurijad vastuse saamiseks korrelatsioone, sedapuhku näiteks erineva sugulusastmega inimeste testitulemuste vahel. Seega saab üsna kindlalt öelda, et kui intelligentsus ise on intelligentsuseteemalises uurimistöös peategelane, siis korrelatsiooni täita on kõige kaalukama kõrvalosatäitja roll. Umbes nagu Mäe Andres ja Oru Pearu, aga palju soojemates suhetes.

Korrelatsioon iseloomustab statistilist sõltuvust kahe või enama juhusliku muutuja vahel. Juhuslikul muutujal ei ole ühte fikseeritud väärtust, vaid see võib omandada erinevaid väärtusi, mida iseloomustab nende esinemistõenäosus. Kui ühe muutuja väärtuste esinemistõenäosus ei sõltu teise muutuja väärtuste esinemissagedusest, siis on need kaks muutujat teineteisest statistiliselt sõltumatud. Kui ühe muutuja väärtusi on võimalik ennustada teise muutuja väärtuste põhjal, siis öeldakse, et need kaks muutujat on korreleeritud. Kõige lihtsam korrelatsioon on lineaarne: kui ühe muutuja suurus kasvab, siis kasvab või kahaneb ka teise muutuja suurus mingi arv korda.

Muidugi oleks väär arvata, et korrelatsioon on oluline üksnes intelligentsuse uurimisel. Tegemist on ühe äärmiselt laialt rakendatava viisiga nähtuste seoste kirjeldamiseks. Peale sotsiaalteaduste on korrelatsioonil oluline roll näiteks majandusteaduses, bioloogias ja isegi keemias. Korrelatsiooni tasub lähemalt tunda selgi põhjusel, et selle aluseks olev idee, arvutamine ja tõlgendamine on tegelikult väga lihtsad.

Kes tunneb, et ta on korrelatsiooni nime kandva nähtusega piisavalt hästi tuttav, võib muidugi käesoleva peatüki vahele jätta. Neile aga, kes korrelatsioonist väga palju ei tea, soovitame käesolevat peatükki lugeda. Päris kindlasti tuleks põhjalikult lugeda esimest kahte suuremat alaosa, mis kirjeldavad korrelatsiooni leidmise ja tõlgendamise üldiseid põhimõtteid.

Teaduse eesmärk on leida invariante

Teaduse üks peamisi funktsioone on avastada invariantsusi ehk korrapärasid, mis avalduvad kõigis mõeldavates olukordades. See, et kõigi planeetide orbiidid on ühe kujuga või et gaasilise aine ühes ruumalaühikus on võrdne arv aineosakesi, kõneleb millestki muutumatust ehk invariantsest, mis jääb samaks kõigis võimalikes olukordades. Paljusid seoseid looduses või inimese loodud asjade vahel saab kirjeldada lineaarsete teisenduste abil. Oletame, et meil on mingi jälgitav suurus Y, mis saab avalduda mingi teise suuruse X kaudu valemiga Y = a0 + a1X, kus a0 ja a1 on teatud muutumatud numbrid. Sellisel juhul võib ütelda, et meil on tegemist invariandiga, mis ei sõltu sellest, kas seda jälgida suuruse X või suuruse Y vahendusel. Tõepoolest, toodud valem näitab, et üks kahest tunnusest on liigne, kuna selle väärtused on üheselt taastatavad teise tunnuse väärtuse põhjal. Korrelatsioon ongi selliste invariantide avastamise vahend, mis kokkuvõttes lubab kahandada liiasust. Palja silmaga on invariante tihti keeruline märgata. Näiteks inimkäitumise uurijad seisavad korraga silmitsi väga suure hulga tunnustega ning sellest informatsioonidžunglist väärtuslike teadmiste väljasõelumine käib ilma tunnuste eelneva korrastamiseta üle jõu. Inimmõistus ei suuda haarata korraga juba nelja-viit tunnust, kõnelemata sadadest või tuhandetest. See sunnib näiteks sotsiolooge ja psühholooge kasutama küsimustikke, milles on sadu ja mõnikord isegi tuhandeid küsimusi. Küsimused mõõdavad korraga paljusid spetsiifilisi tunnuseid ning korrelatsiooni kasutades nende seoseid kirjeldades on võimalik hea õnne korral hulk liigseid tunnuseid kõrvale heita ning seeläbi oluliselt piirata silmaspidamist vajavate tunnuste arvu.

KORRELATSIOONI LEIDMISE LOOGIKA

Pearsoni korrelatsioon

Kõige levinum on briti matemaatiku Karl Pearsoni (1857–1936) nime järgi tuntud korrelatsioonikordaja. Kui pole täpsustatud, millise korrelatsioonikordajaga on tegemist, siis on see suure tõenäoususega just Pearsoni korrelatsioonikordaja, mida tähistatakse kas rxy või lihtalt r. Järgnevalt vaatame, kuidas seda arvutatakse.


Karl Pearson (1857–1936)


Dispersioon

Tuleb alustada hajuvuse ehk dispersiooni mõistest. Mingi arvuliselt väljendatud tunnuse hajuvus kirjeldab seda, kui suurel määral selle üksikud väärtused hälbivad keskmisest väärtusest. Kui meil on näiteks seitse inimest, kes on järjestatud pikkuse järgi ritta, siis saame keskmise inimese suhtes hinnata, kui palju erinevad temast kasvult pikemad ja lühemad inimesed (vt joonis 1).


JOONIS 1. Seitse erineva pikkuse ja kehakaaluga inimest.


Kui me liidame kõigi seitsme inimese pikkused ja jagame seitsmega, siis saame selle inimeste rühma keskmise pikkuse. Me valisime selle näite niimoodi, et pikkuste keskmine langeks kokku joonisel 1 rea keskel seisva inimese kasvuga (D), kuigi mitte alati ei pea tunnuste mediaan (väärtus, millest väiksemaid ja suuremaid on arvureas võrdne arv) ja keskmine kokku langema, sest üksikud tugevasti hälbivad väärtused võivad nihutada keskmise väärtuse tunnuse otspunktide poole.

Teades keskmist pikkust, on lihtne defineerida ka hajuvust: selle saame, kui liidame kokku kõigi üksikväärtuste hälbed keskmisest. Kui kõik sellesse rühma kuuluvad inimesed oleksid ühepikkused, siis kellegi pikkus ei erineks keskmisest pikkusest ja järelikult puuduks pikkusel igasugune hajuvus. Täpsemalt öeldes arvutatakse hajuvus (variance) s² selliselt, et liidetakse kokku kõigi selle rühma inimeste hälvete ruudud:


kus yi on i-nda objekti väärtus (nt ühe inimese pikkus), n – objektide (indiviidide) arv valimis ja ȳ – valimi keskväärtus. Hälvete tõstmine ruutu kaotab ära negatiivsed väärtused. Selle pärast ei ole võimalikud hajuvuse negatiivsed väärtused.

Kuid nagu joonisel 1 on näha, erinevad inimesed peale pikkuse ka kehakaalu poolest. Sarnaselt meie igapäevakogemustele ütleb see pilt, et üldjuhul on lühemate inimeste kehakaal väiksem ja pikematel suurem. Kuid mitte alati. Võime jätkata mängu ja kujutada ette, et meil on teada ka joonisel 1 kujutatud inimeste kehakaalud, mis on toodud tabelis 1.


TABEL 1. Joonisel 1 esitatud inimeste pikkus ja kehakaal


Kovariatsioon

Niisiis, üldiselt kaldub kehakaal muutuma koos pikkusega, kuid see koosmuutus ei ole alati ühesugune. Näiteks inimene A on kõige lühem, kuid kaalub rohkem kui B või C. Samuti kaalub kõige pikem inimene g vähem kui temast lühem, kuid kogukam F. Seega, ehkki seos on ilmne, ei saa me pikkuse põhjal ideaalse täpsusega ennustada, kui palju keegi kaalub. Teisisõnu, võime ütelda, et koosmuutus ehk kovariatsioon pikkuse ja kaalu vahel on olemas, kuid see ei ole täiuslik.

Kovariatsioon Covxy muutujate x ja y vahel on defineeritud järgmiselt:


Seega näitab kovariatsioon kahe muutuja koosmuutust: kas ühe muutuja kasvuga teine muutuja kasvab või kahaneb.

Kõige mugavam on kahe tunnuse koosmuutust vaadata pildil, sest inimese silm on küllalt hea koosmuutuste avastaja. Joonisel 2 on horisontaalteljele kantud seitsme inimese kaal ja vertikaalteljele nende pikkus.


JOONIS 2. Koosmuutuvus.


Pildil oleva joone kohta ei ütle me hetkel midagi, kuid võime anda vihje. Kui prooviksime joonistada silma järgi pildile ühe sirge, millele kõik punktid Ast kuni Gni oleksid maksimaalselt lähedal, siis oleks selle joone asukoht pildil üsna sarnane joonistatuga.

Koosmuutuse arvutamine

Nagu eespool toodud valemist näha, tuleb kahe tunnuse kovariatsiooni leidmiseks mõlema tunnuse hajuvuste valemid n-ö kokku sulatada. Oluline on tähele panna, et kahe tunnuse väärtused peavad olema paarides. Pikkuse ja kehakaalu näites on üheks paariks ühe kindla inimese pikkus ja kehakaal. Vastavalt ülaltoodud valemile tuleb kovariatsiooni leidmiseks kummagi muutuja üksikväärtused lahutada keskmisest ja üksteisega läbi korrutada. Tuleks hoolega tähele panna, et hälbeid ei võeta siin ruutu, sest ka negatiivsed väärtused on informatiivsed. Saadud korrutised liidetakse ning jagatakse läbi paaride arvuga (eelnevas näites inimeste arvuga, kelle mõõtude põhjal pikkuse ja kehakaalu seost arvutatakse). Toome aga appi ka päris numbrid.

1. Keskmine pikkus on 1,78 m ja kehakaal 71,14 kg.

2. Kodanike A kuni G pikkuste hälbed keskmisest on seega vastavalt –0,26, –0,18, –0,10, 0,00, 0,08, 0,16 ja 0,31 ning kehakaalude hälbed vastavalt –17,14, –22,14, –21,14, –4,14, –1,14, 38,86 ja 26,86.

Kui need hälbed paarides läbi korrutada, saame tulemusteks vastavalt 4,46, 3,99, 2,11, 0,00, –0,09, 6,22 ja 8,33. Hälvete korrutisi kokku liites saame summaks 25,01. Et kovariatsioon on võrdne hälvete korrutise aritmeetilise keskmisega, siis jagame saadud summa inimeste arvuga ning saame 25,01/7 = 3,57. Seda numbrit nimetataksegi kovariatsioonikordajaks.

Miks me nii tegime? Selle arvutuskäigu aluseks olev idee on tegelikult äärmiselt lihtne. Kui tunnuse üksikuid väärtusi võrreldakse keskmisega, siis keskmisest väikesemad väärtused saavad negatiivse märgi ning suuremad positiivse märgi, kusjuures mida suurem on erinevus keskmisest, seda suurem on ka hälve ühes või teises suunas. Kovariatsiooni arvutamise käigus moodustame kahe tunnuse väärtustest paarid – meie näites iga inimese kohta pikkus ja kehakaal – ning vaatame kummagi paariliikme hälbeid korraga. Kui ühe tunnuse väärtuse muutumine on mingil määral seotud teise tunnuse väärtuste muutumisega, siis peaksid hälbed olema märgi mõttes süstemaatiliselt kas sarnased (kui tunnuste väärtused muutuvad samas suunas ehk ühe suurenedes suureneb ka teine) või erinevad (kui tunnuste väärtused liiguvad eri suundades – ühe vähenedes teine suureneb). Samuti peaksid need suhtelise suuruse mõttes olema sarnased.

Oma näites näeme, et viiel juhul seitsmest käib keskmisest lühem pikkus koos keskmisest madalama kehakaaluga (A, B ja C), suurem pikkus aga suurema kehakaaluga (F ja G). Lühikeste ja kergete inimeste puhul (A, B ja C) on mõlema tunnuse väärtuste hälbed keskmisest negatiivse suunas ning suhteliselt suured. Nende hälvete korrutamine annab meile kaks suhteliselt suurt positiivset väärtust. Sama juhtub pikkade ja suure kehakaaluga inimeste puhul (F ja G). Nende tunnustepaaride puhul kehtib eeldatav seos hästi ja need paarid kasvatavad tublisti kovariatsioonikordaja väärtust. Samas näeme, et ühe inimese puhul (E) on seos vastupidine: kehakaalu hälve on negatiivne (kaal on alla keskmise), aga pikkuse hälve on positiivne (pikkus on üle keskmise). Kui inimesed A, B, C, F ja G kasvatasid kovariatsioonikordaja lugeja väärtust, siis E hoopis kahandab seda, sest tema puhul leitud hälvete korrutamine annab meile negatiivse numbri. Viimane mees valimis (D), mõjutab aga kovariatsioonikordaja lugeja väärtust üsna vähe (õigupoolest üldse mitte), sest nii tema kehakaal kui pikkus on lähedal keskmisele ja tema puhul leitud hälvete korrutis seega olematu.

Kovariatsioonikordaja lõplik väärtus sõltub sellest, kui palju on korrelatsiooni kasvu panustanud paare ning kui tugevasti nad panustavad võrreldes nende paaridega, kes kordaja väärtust kahandavad või üldse eriti ei mõjuta. Meie näites andsid viis paari panuse kovariatsioonikordaja kasvu, üks paar kahandas seda ning üks ei mõjutanud peaaegu üldse. Seega oli panustajaid kõige rohkem, mistõttu kovariatsioonikordaja tuli nullist tublisti suurem.

Samas võime ette kujutada ka niisugust olukorda, kus tunnuste vahel on vastupidine seos: ühe vähenedes teine hoopis süstemaatiliselt suureneb. Kui me vaatame näiteks päikesepaiste ning sademete hulga seost päevade kaupa, siis tõenäoliselt näeme, et mida rohkem ühel päeval sajab, seda vähem kipub sel päeval olema päikesevalgust. Niisuguste seoste puhul on kovariatsioonikordaja arvutamise loogika samasugune, ainus erinevus on selles, et hälvete märgid on süstemaatiliselt vastupidised ning nende korrutised seetõttu negatiivsed. See tähendab, et mida tugevam on tunnuste vastupidine seos, seda väikesem nullist on vastav kovariatsioonikordaja.

Muidugi mõista ei ole enamik tunnuseid, mille vahel oleks põhimõtteliselt võimalik korrelatsiooni arvutada, üldse süstemaatiliselt seotud. Näiteks võib arvata, et meeste puhul ei ole juuste pikkus vähimalgi määral seotud kehakaaluga. Kui me juuste pikkuse ja kehakaalu korral kordaksime sarnast arvutuskäiku, nagu eespool pikkuse ja kehakaalu puhul, siis ilmselt leiaksime, et tekiks üsna võrdselt negatiivseid ja positiivseid hälvete korrutisi ning nende keskmine oleks seega nullilähedane. Muide, mehi ja naisi koos vaadates me ilmselt siiski leiaksime süstemaatilise seose: mida lühemad juuksed, seda suurem kehakaal. Põhjus on selles, et naistel kalduvad olema pikemad juuksed ning väikesem kehakaal kui meestel.

Kovariatsioonikordaja on üpris informatiivne arv, sest näitab ära nii seose tugevuse (mida suurem on kordaja, seda tugevam seos) kui suuna (positiivne number tähendab tunnuste vahel samapidist, negatiivne number vastupidist seost). Siiski on selle numbriga seotud ka üks probleem. Nimelt nõuab kovariatsioonikordaja sisukas tõlgendamine lisainformatsiooni, sest selle muutlikkuse piirid ei ole standardsed – kovariatsioonikordaja minimaalne ja maksimaalne väärtus sõltuvad selle aluseks olnud tunnuste hajuvustest. Kovariatsioonikordaja maksimaalseks väärtuseks on kahe tunnuse standardhälvete (ruutjuur hajuvusest) korrutis ning minimaalseks väärtuseks seesama korrutis miinusmärgiga. See tähendab, et minimaalsed ja maksimaalsed väärtused on erisuguste lähteandmete puhul väga erinevad, mistõttu kovariatsioonikordaja tugevusele hinnangu andmine on mõnevõrra tülikas. Hoopis meeldivam oleks, kui tunnuste seoseid kirjeldavaid arve saaks väljendada mingil standardsel skaalal, mille otspunktid on kõigile teada ja alati samad. Nii oleks võimalik tunnuste seoste suunda ja tugevust mõista ilma igasuguse lisainformatsioonita, samuti oleks võimalik erinevate tunnustepaaride puhul leitud seoseid otseselt võrrelda.

Õnneks on siin lahendus väga lihtne. Kui kovariatsioonikordaja võimalikud piirid on seotud selle arvutamise aluseks olnud tunnuste standardhälvete korrutisega, siis pole ju midagi lihtsamat, kui kovariatsioonikordaja sellesama standardhälvete korrutisega läbi jagada. Niisugune samm annakski meile soovitud standardse skaala, sest see jagatis saab varieeruda üksnes vahemikus –1…1. Kui kovariatsioonikordaja on võrdne oma minimaalse võimaliku väärtusega, siis jagamistehte tulemusena omandab see väärtuse –1. Kui kovariatsioonikordaja väärtus on aga maksimaalne, siis jagamise tulemusena saab selle väärtuseks 1. Kui kovariatsioonikordaja oli 0, siis jagamistehe selle väärtust mõistagi ei muuda. Sellist kovariatsioonikordaja viimist standardsele skaalale nimetatakse standardiseerimiseks ning see viibki meid lõpuks sinna, kuhu me jõuda tahtsime – korrelatsioonikordajani. Just standardiseeritud kovariatsioonikordaja ongi Pearsoni korrelatsioon, mida tihti tähistatakse väikese r-tähega.

Vaatame veel kord eelnevat näidet, et leida pikkuse ja kehakaalu korrelatsioon. Kõigepealt arvutame pikkuse ja kehakaalu standardhälbed (0,20 ja 24,09) ning seejärel jagame kovariatsioonikordaja standardhälvete korrutisega, r = 3,57/(0,2 × 24,09) = 0,74. Saame veel kord öelda, et uuritavate inimeste puhul valitseb pikkuse ja kehakaalu vahel ootuspäraselt positiivne korrelatsioon: mida pikem on inimene, seda suurem kaldub olema ka tema kehakaal.

Tegelikult tuleb siinkohal teha üks täpsustus: sellisel moel leitud korrelatsioon sobib tõepoolest hästi vaadeldud andmetes olnud tunnuste seose kirjeldamiseks. Enamasti aga soovitakse ühes andmestikus leitud seoste põhjal teha järeldusi suurema hulga inimeste (nt populatsiooni) kohta. Selleks asendatakse eeltoodud valemites tunnusepaaride (ehk inimeste) arv vabadusastmete arvuga. Selle mõiste sisu täpsemalt lahti seletamata võtame teadmiseks, et korrelatsiooni arvutamisel on vabadusastmete arv võrdne väärtusega, mille saame, lahutades paaride arvust (n) ühe (seega n – 1). Mida suurem on korrelatsiooni arvutamise aluseks olnud tunnusepaaride arv, seda vähem paaride arvu vabadusastmete arvuga asendamine tulemust mõjutab. Teisisõnu, seda lähemal on meie valimilt leitud seos eeldatavasti populatsioonis kehtivale seosele. See on igati arukas eeldus, sest mida suurem on valim, seda suurema tõenäosusega esindab see populatsiooni.

Soovides eelnevas näites leitud korrelatsioonikordajat üldistada populatsioonile, asendame kovariatsiooni valemis paaride arvu vabadusastmete arvuga ning saame populatsioonile üldistatud korrelatsiooniks r = 0,87. Et meie valim oli väga väike, siis on populatsioonikorrelatsioon tunduvalt suurem kui meie valimil leitu, suurema valimi puhul poleks aga niivõrd suurt hüpet tulnud.

Järgnevalt on toodud korrelatsiooni arvutamise valem lõplikul kujul:


Ülaltoodud valemis tähistab rxy muutujate x ja y korrelatsiooni, n – tunnusepaaride arvu (nt inimeste arvu valimis), i = 1, 2, … n, ẍ ja ȳ vastavalt muutujate x ja y keskmisi, ning sx ja sy vastavalt muutujate x ja y standardhälbeid.

Korrelatsiooni kaks omadust

Lineaarsete seoste korral on ühe tunnuse väärtus prognoositav teise tunnuse väärtusest sirgjooneliselt: ühe tunnuse muutudes X ühiku võrra muutub teine tunnus a0+a1X, kusjuures a0 ja a1on konstandid. Tegelikkuses on tunnuste seosed mõnikord teistsugused. Näiteks võib ühe tunnuse väärtuse suurenedes teise tunnuse väärtus kasvada eksponentsiaalselt ehk järjest suurema kiirusega või logaritmiliselt ehk järjest väikesema kiirusega. Viimase olukorra lihtsustatud näitena võime vaadelda laste vanuse ning teadmiste kasvu seost: esimese paari eluaastaga kasvab lapse teadmiste ja oskuste hulk tohutu kiirusega (iga aastaga palju kordi), hiljem aga suureneb teadmiste hulk järjest tagasihoidlikuma tempoga (nt on vähe usutav, et 17aastasel oleks poole rohkem verbaalseid oskusi ja teadmisi kui 16aastasel, võrreldes 1aastast vastsündinuga on see aga mõeldav). Selliseid seoseid ei pruugi korrelatsioonikordaja kõige täpsemini kirjeldada. Muidugi on võimalik tunnuseid enne korrelatsiooni arvutamist sobival moel kohandada (nt astendada) ning seeläbi seosed lineaarseks muuta, ent siis on seda tarvis ka tõlgendamisel eraldi silmas pidada.

Teiseks, korrelatsioon ei muutu, kui tunnuseid lineaarselt teisendada. Näites liites ühe tunnuse kõikidele väärtustele 6 ning korrutades selle summa läbi 82ga jääb korrelatsioon ikka samasuguseks kui enne. Põhjus on siin selles, et hajuvuse muutumisele vaatamata tunnuse üksikväärtuste suhteline paiknemine keskväärtuse suhtes selliste teisenduste tulemusena ei muutu. Kovariatsioonikordaja väärtus küll muutub, ent korrelatsiooniks teisendamise käigus see standardiseeritakse ning nii pole muutunud keskmisel ja standardhälbel enam mingit tähendust. Niisuguse asjaolu praktiline tähendus on see, et ei pea muretsema skaalade pärast, millel uuritavad tunnused paiknevad. Meie eelnevas näites võiksime teisendada pikkuse vabalt meetritest sentimeetriteks, korrelatsioonikordaja väärtus sellest ei muutuks.

Vahekokkuvõte

Eelnevat kokku võttes võib öelda, et korrelatsioon (r) on üks lihtsamaid ja universaalsemaid tunnuste lineaarsete seoste väljendamise viise. See kirjeldab kahe paarikaupa vaadeldava tunnuse koosmuutumist, näidates ära nii tunnuste seose suuna kui tugevuse. Korrelatsiooni võlu on selles, et see hindab seost standardsel skaalal, varieerudes vahemikus –1…1. Korrelatsioonikordaja r on 1 siis, kui tunnuste vahel on üksühene samapidine seos, –1 siis, kui tunnuste vahel on üksühene vastupidine seos, ning 0 siis, kui ühe tunnuse väärtuse põhjal pole võimalik ennustada teise tunnuse väärtust. Tegelikult on aga nii, et sotsiaal- ja käitumisteadustes ei leita peaaegu kunagi korrelatsioone, mille absoluutväärtus oleks 1. Isegi 0,90 ringis olevat absoluutväärtust tuleb ette üliharva. Kas see tähendab, et saadud tulemustel on harva mingi tähendus? Hoopiski mitte. Järgmises alaosas vaatame lähemalt mõningaid põhimõtteid, kuidas korrelatsiooni tugevust enda jaoks lahti mõtestada.

KORRELATSIOONI TÕLGENDAMINE

Paljud statistikakursused ja – õpikud annavad lugejale kaasa Jacob Coheni õpetussõnad (Cohen, 1988), mis ütleb, et korrelatsioonid, mis on suuremad kui 0,50, on tugevad, vahemikus 0,30–0,50 mõõdukad, vahemikus 0,10–0,30 väikesed ja alla 0,10 tühised või triviaalsed. Lugedes aga sotsioloogide, psühholoogide ja teiste sotsiaalteadlaste tekste, võib leida, et ühe jaoks on korrelatsioon 0,30 nõrk, teise jaoks keskmine ja mõne jaoks isegi kõrgeim, mis antud uurimisküsimuse kontekstis üldse olla saab. Näiteks psühholoog Walter Mischel ennustas aastaid tagasi (muide ekslikult!), et ükski isiksuse skoor ei saa olla seotud mingi välise kriteeriumiga tugevama korrelatsiooniga kui 0,30. Seega oleks iga korrelatsioon, mis on 0,30 lähedal või üle selle, väga tugev.

Korrelatsiooni tugevust või nõrkust ei määra tema arvuline suurus, vaid sisuline tõlgendus ja kontekst, milles seda vaadeldakse. Erinevates olukordades ja erisuguse tõlgenduse korral võib üks ja seesama korrelatsioon olla tõepoolest nii nõrk, mõõdukas kui ka tugev. Seega tuleb Coheni tugevuseskaalat võtta vaid väga ligikaudse orientiirina, mis võib abiks olla siis, kui puuduvad igasugused teised taustandmed, mis võiksid aidata saadud korrelatsiooni tugevust hinnata.

Hinnang korrelatsioonile

Niisiis, ühele ja samale korrelatsioonikordaja numbrilisele väärtusele on võimalik anda üsna erinevaid hinnanguid. Ühes olukorras võib korrelatsioon absoluutväärtusega 0,80 tunduda nõrk, mõnes teises olukorras aga võib ka korrelatsioonikordaja 0,30 teadlased rõõmust rõkkama panna. Tundub veider? Tegelikult mitte: korrelatsiooni väärtuse sisulisel hindamisel tuleb lähtuda kontekstist. Ilma tausta arvestamata polegi korrelatsioonikordajast palju kasu.

Näiteks üks tegur, mis mõjutab korrelatsiooni suurusele antavat hinnangut, on uuritavate nähtuste iseloom. Kui näiteks inimesed sooritavad kaks pikka ja põhjalikku intelligentsustesti, on igati põhjendatud ootus, et kahe testi tulemuste korrelatsiooni väärtus oleks kõrge. Eeldatavasti peaksid need kaks testi ju mõõtma ühte ja sama asja. Samuti võiks intelligentsustesti skoor olla tugevas korrelatsioonis ülikoolikandidaatide valikul kasutatava akadeemilise võimekuse testiga – seegi mõõdab inimeste teadmisi ja võimeid, ehkki pisut kitsamas tähenduses. Intelligentsustesti skoori ja sissetuleku seost uurides võiksime aga olla rahul ka korrelatsioonikordaja tunduvalt madalama väärtusega ning pidada sedagi sisulises mõttes tugevaks. Intelligentsus ja sissetulek ei ole ju kaugelt üks ja seesama asi. Ehkki intelligentsuse tase on sissetulekuga tõenäoliselt üsnagi tugevas korrelatsioonis (vt peatükki „Intelligentsus ja edukus”), mõjutavad sissetulekut ootuspäraselt veel mitmed muud, intelligentsuse tasemest täiesti sõltumatud tegurid. Veelgi nõrgema korrelatsiooniga peaksime aga tõenäoliselt leppima siis, kui uuriksime mõne spetsiifilise ajuparameetri – näiteks mõne ajukoes oleva keemilise ühendi hulga – seost inimeste sissetulekuga. Need kaks nähtust on olemuslikult teineteisest väga erinevad. Samas võib ka statistiliselt väike seos kahe sedalaadi tunnuse vahel olla teadlastele äärmiselt informatiivne: teades keemilise ühendi funktsiooni ajus, võime edasi oletada selle rolli inimese käitumise kujundamisel ning niiviisi sammhaaval liikudes saamegi lõpuks mõista mõningaid põhjusi, mis teevad ühe inimese rikkamaks kui teise.

Seega saab öelda, et mida lähemal on teoreetilises mõttes uuritavad nähtused üksteisele, seda suurem on lootus leida nende vahel tugevat korrelatsiooni. Samal ajal võib väikeses korrektsioonikordajas väljenduv seos olla teinekord sisulises mõttes informatiivsemgi kui tugev korrelatsioon. Kedagi ei üllata kahe sarnase testi vahel olev tugev korrelatsioon, küll aga võib sügava tähendusega olla näiteks mõne spetsiifilise ajuparameetri nõrk seos sissetuleku või abikaasa haridustasemega.

Mõõtmiste täpsus ja hajuvus

Teine oluline tegur on mõõtmiste täpsus. Igasuguste mõõtmistega kaasnevad ebatäpsused: mõnes täppisteaduses võib mõõtmisvea osakaal olla päris väike, psühholoogias – samuti paljudes muudes valdkondades, näiteks bioloogias või meditsiinis – on see aga mõnevõrra suurem. Ebatäpsused rikuvad mõõtmistulemusi ning seavad piirid ka sellele, kui tugevas korrelatsioonis võivad mõõdetud tunnused olla üksteisega või mingite muude tunnustega. Mida suurem on mõõtmiste ebatäpsus (juhuslik mõõtmisviga), seda väikesemad saavad olla ka tunnustevahelised seosed. Seda tuleb silmas pidada ka korrelatsiooni tugevuse sisulisel tõlgendamisel. Kui näiteks võetakse kaks psühholoogilist testi, mille reliaabluskoefitsiendid on 0,60 ja 0,70, ning uuritakse nende tulemuste vahelist korrelatsiooni, siis selle maksimaalne väärtus on 0,65 (miks, loe lähemalt peatükist „Mis on intelligentsus?”). Järelikult ei viita 0,65 lähedane korrelatsioon sellisel juhul mitte üksnes tugevale, vaid lausa täiuslikule tunnustevahelisele seosele.

Korrelatsioonikordaja suurust mõjutab ka tunnuste hajuvus. Kui ühe või mõlema tunnuse hajuvus on väike, ei saa ka nende korrelatsioon olla suur. Tagasihoidliku hajuvuse korral on tunnustes lihtsalt vähe informatsiooni. Näiteks võib oletada, et akadeemikute vahel on erinevused intelligentsuses palju väikesemad kui ühiskonnas tervikuna. Seetõttu on akadeemikute puhul intelligentsuse ja sissetuleku vahel oletatavasti palju nõrgem seos kui ühiskonnas tervikuna: kui akadeemikud erinevadki märkimisvääreselt oma sissetulekute poolest, siis on see paljuski tingitud mingitest intelligentsusega mitteseotud teguritest. Samas võib antud juhul intelligentsuse ja sissetuleku väike korrelatsioon osutuda sisuliselt siiski väga huvitavaks: isegi intellektuaalselt nii elitaarses grupis, nagu on akadeemikud, annab kõige väikesemgi eelis võimetes kohe ka palganumbris tunda – järelikult avaldab intelligentsuse tase tõesti igas mõeldavas olukorras mõju meie majanduslikule edukusele.

Usaldusväärsus – vahest on tegemist juhusliku seosega?

Ehkki korrelatsioonikordaja sisuliseks mõistmiseks on vajalik mingi hulk taustateadmisi, on olemas ka mõned puhtformaalsed viisid korrelatsioonikordajale hinnangu andmiseks. Üheks neist on korrelatsiooni usaldusväärsus. Kui teadlased arvutavad kahe muutuja korrelatsiooni, siis enamasti kontrollivad nad kõigepealt, kas saadud korrelatsioon on statistiliselt usaldusväärne. Ka täiesti suvalistest, näiteks täringute viskamise teel saadud numbritest moodustunud tulpade vahel korrelatsiooni arvutades saame suure tõenäosusega nullist mõnevõrra erineva korrelatsioonikordaja, eriti siis, kui tunnusepaaride arv ei ole eriti suur. Mingisuguse tugevusega korrelatsiooni võime seega saada puhtjuhuslikult, ilma et tunnuste vahel oleks tegelikult vähimatki seost. Nii võib juhtuda ka teaduses, et kahe muutuja vahel leitakse küll nullist suurem korrelatsioon, aga nende tegelik seos puudub – saadud korrelatsioon tekkis lihtsalt pimeda juhuse tahtel.

Eksijärelduste vältimiseks tuleb iga korrelatsioonikordaja puhul seega esmalt hinnata, kui suur on sellise väärtuse puhtjuhusliku tekkimise tõenäosus (tavaliselt tähistatakse p). Eelnevalt otsustatakse, kui suurt juhusliku tekkimise tõenäosust endale lubatakse. Et korrelatsiooni juhusliku tekkimise tõenäosus ei ole peaaegu kunagi päris olematu, siis tuleb lihtsalt kokku leppida mingis piiris, millest alates peetakse juhuslikkuse võimalust juba liiga väikeseks (tähistatakse α) ning loetakse seos usaldusväärseks (ehk tunnistatakse, et kahe tunnuse korrelatsioon vastab mingile väärtusele, mis on kindlasti suurem kui 0). Sotsiaalteadustes on selleks piiriks sageli valitud 5 %, kuid näiteks geneetikas võib see olla – ja tihti ongi – 0,00000001 % (sest korraga arvutatakse väga palju korrelatsioone ning 5 % kriteeriumi korral oleks iga 20. korrelatsioon juba puhtjuhuslikult „usaldusväärne”). Kui teadlased leiavad, et nende arvutatud korrelatsiooni puhtjuhusliku tekkimise tõenäosus on väiksem kui nende taluvuspiir (p < α), siis loevad nad seose statistiliselt usaldusväärseks, vastasel juhul aga mitte.

Selleks, kuidas ühe või teise korrelatsioonikordaja väärtuse puhul määrata selle puhtjuhusliku tekkimise tõenäosus, kasutatakse kindlaid valemeid. Need valemid siinkohal täpsemalt lahti kirjutama jättes võib öelda vaid seda, et p väärtus sõltub lisaks korrektsioonikordaja väärtusele veel väga tugevasti korrelatsiooni arvutamise aluseks olnud tunnusepaaride arvust (nt inimeste arvust grupis, mille põhjal seos leiti). Eelnevas näites saadud korrelatsioon 0,87 leiti seitsmel inimesel, mis annab selle puhtjuhuslikult tekkimise tõenäosuseks umbes 1,1 %. Olnuks valim suurem, võinuks sama suurusega korrelatsiooni puhtjuhusliku tekkimise tõenäosus olla tuhandeid kordi väikesem. Veelgi väikesema arvu paaride korral olnuks aga ka nii suur korrelatsioon nagu 0,87 statistiliselt ebausaldusväärne ning seetõttu tõlgendatamatu.

Üldine reegel on selline, et kui korrelatsioonikordaja on statistiliselt ebausaldusväärne, siis selle edasise tõlgendamisega ei tegelda. Samas on kindlasti tarvis rõhutada, et korrelatsioonikordaja statistiline usaldusväärsus ehk selle puhtjuhuslikult tekkimise tõenäosus (p) ei anna iseenesest mitte mingit informatsiooni seose tugevuse kohta, ehkki mõnikord eksikombel nii arvatakse. Seda just põhjusel, et korrelatsiooni usaldusväärsus sõltub lisaks seose tugevusele väga tugevasti ka selle arvutamiseks kasutatud valimi suurusest. Väga suurte valimite puhul võivad ka üliväga nõrgad seosed olla statistiliselt usaldusväärsed.

Determinatsioonikordaja ja tavakeelne mõjusuurus

Seose tugevuse väljendamiseks kasutatakse tihti determinatsioonikordajat. Determinatsioonikordaja on korrelatsioonikordaja ruutu võetuna ning tähistab proportsiooni, mille võrra ühe muutuja hajuvus kattub teise muutuja hajuvusega. Näiteks intelligentsustesti skoori ja sissetuleku vahel arvutatud korrelatsioonikordaja 0,50 puhul on determinatsioonikordaja 0,502 = 0,25 ehk protsentide mõõtkavas 25 %. Teisisõnu tähendab see, et inimeste erinevused intelligentsustestide tulemustes kirjeldavad ka veerandi nende sissetulekuerinevustest, samal ajal kui ülejäänud kolmveerand viimase hajuvusest jääb muude tegurite kirjeldada.

Ühe vähetuntud, aga käepärase viisi korrelatsioonikordaja sisuliseks tõlgendamiseks on pakkunud William Dunlap (1994). Ta nimetab seda tavakeelseks mõjusuuruse statistikuks (TMS). TMS saadakse nii, et arvutatakse korrelatsioonikordaja hüperboolne siinus, jagatakse see π-ga (umbes 3,14) ning liidetakse saadud jagatisele 0,50. Seda numbrit saab väljendada ka protsentide mõõtkavas, korrutades selle sajaga. Niisugune arvutuskäik ei ole väga läbipaistev, aga tulemust on äärmiselt lihtne interpreteerida. Näiteks meie korrelatsioonikordaja r = 0,87 puhul saame TMSi väärtuseks 0,98 / 3,14 + 0,50 = 0,81 (81 %). Niisugune TMSi väärtus tähendab, et kui me võtame juhuslikult kaks inimest, kes erinevad pikkuse poolest, siis 81%lise tõenäosusega on neist pikem ka suurema kehakaaluga. Kui pikkuse ja kehakaalu vahel poleks mingit korrelatsiooni, saaksime juhuslike inimpaaride puhul õige ennustuse teha üksnes 50%l juhtudest. Tegelikult on meie andmestikus 86%l võimalikest juhuslikest inimpaaridest pikem inimene ka suurema kehakaaluga, aga niivõrd väikese valimi puhul on selline erinevus andestatav.

Korrelatsiooni informatsiooniline tõlgendus

Korrelatsioon on mõõt, mis näitab, kui palju üks tunnus sisaldab endas informatsiooni mingi teise tunnuse kohta. Tuleme tagasi meie konstrueeritud näite juurde pikkuse ja kaalu seose kohta. Oletame, et mingil põhjusel on andmed kaalu kohta kaduma läinud ja me teame vaid inimeste pikkusi. Küsimus on nüüd selles, kui suure täpsusega saame pikkuse põhjal taastada puuduva kaalu. Selge, et seda pole võimalik teha täpselt, sest korrelatsioon on ühest väiksem. Toodud näite puhul r = 0,87 annab väärtuseks 0,76, mis tähendab, et 76 % kaalu andmetest on taastatavad pikkuse põhjal. Võrdluseks – kui korrelatsioon üldse puuduks ja r = 0, siis poleks ühe tunnuse põhjal mitte kuidagi võimalik ennustada, millised võiksid olla teise tunnuse väärtused.

Seos ei kehti tingimata kõigile inimestele

Viimaks on sobilik veel kord märkida, et korrelatiivsed seosed väljendavad trende ning ei üldistu automaatselt kõigile uurivatele. Käitumisteaduste kirjeldada olevaid seoseid ei saa kunagi väljendada korrelatsioonikordajaga maksimaalväärtusena. Seega ei kehti inimgrupi tasemel avalduv seos kindlasti kõigi inimeste puhul. Seda nägime juba eespool. Sellest tuleneb paratamatult ka vastupidine järeldus: kui üksiku inimese puhul mingi seos ei kehti, ei tähenda see kaugeltki, et selline seos ei võiks kehtida üldiselt. Niisugune asjaolu väärib eraldi rõhutamist, sest mõnikord naeruvääristatakse teadlaste avastatud seoseid just nii, et viidatakse üksikjuhtumitele, mille puhul see seos ei kehti. Tegelikult ei peegeldu seosetrend vältimatult igas üksikjuhtumis.

Korrelatsioon ja põhjuslikkus

Nähes kahe nähtuse koosesinemist, on lihtne hakata mõtlema, et nende vahel on mingi põhjuslik seos (cum hoc ergo propter hoc). Tihti võib tunduda ilmsena ka see, kumb nähtustest on põhjus ja kumb tagajärg. Tegelikult aga ei ole nähtuste koosesinemist ja – varieerumist kirjeldava korrelatsioonikordaja põhjal kuidagi võimalik teha põhjuslikke järeldusi. Näiteks võime märgata, et nutikamad inimesed on kõrgema haridustasemega ja selle põhjal teha järelduse, et koolis käimine muudab inimesed targemaks. Esmapilgul näib see tõesti väga mõistlik oletus. Lähemal vaatlemisel võib aga selguda, et välistada ei saa ka vastupidist võimalust. Võib-olla suudavad loomu poolest nutikamad inimesed lihtsalt koolis kauem vastu pidada. Arvestada tuleb veel kolmandagi võimaliku seletusega: ka väga tugeva korrelatsiooni olemasolu ei välista võimalust, et nähtuste vahel ei ole tegelikult mingit põhjuslikku seost. Näiteks võime olla üsna kindlad, et inimeste saapanumber on tugevas korrelatsioonis nende küünarvarre pikkusega. Niisugune seos ei tähenda aga kindlasti, et suurem saapanumber kasvatab inimestele pikemad käed või vastupidi, pikkade küünarvartega inimestel tuleb endale tahes-tahtmata lõpuks suured saapad muretseda. Tegelikult oleme lihtsalt jätnud tähelepanuta ühe teise muutuja, inimese keha üldise pikkuse, mis mõjutab nii küünarvarte kui jalalabade pikkust. Niisiis, kahe tunnuse korrelatsiooni võib põhjustada ka mingi kolmas, n-ö peidus olev muutuja. On täiesti arusaadav ja andestatav, et me oma igapäevastes hinnangutes kaldume tegema sedalaadi vigu, omistades nähtavatele seostele mingi põhjusliku tähenduse. Paraku kiputakse sama viga tegema mõnikord ka teaduslikes seletustes.

KORRELATSIOON GEOMEETRILISELT KUJUTATUNA

Korrelatsioonil on väga ilus geomeetriline – maamõõtjalik – interpretatsioon, mis aitab korrelatsiooni olemust selgemalt ette kujutada ja mis peamine, vältida vigu selle mõistmisel. Korrelatsiooni tõlgendamiseks on kasulik mõelda uuritavatest tunnustest kui vektoritest.

Kõik lugejad peaksid mäletama kooliõpiku ühte kõige lühemat definitsiooni, et vektor on suunatud sirglõik. Seega on vektor lõik, millel on suund ja pikkus. Kui me aga vaatame korraga kahte vektorit, siis muutub oluliseks ka nendevaheline nurk. Just see nurk ongi korrelatsiooni mõttes huvitav. Joonisel 3 on kujutatud vektorid erinevate omavaheliste nurkade (φ) korral. Kui kaks vektorit näitavad ühte suunda (nendevaheline nurk on väike või olematu), siis on lihtne mõelda, et need osutavad millelegi sarnasele (A). Kui kaks vektorit näitavad vastupidisesse suunda, siis on ilmne, et need viitatavad vastandlikele nähtustele (B). Kui vektorid aga ristuvad (nende vahel on täisnurk), siis näitavad need täiesti erinevaid ja üksteisest sõltumatuid asju (C).


JOONIS 3. Korrelatsioonid kui vektorid.


Tunnuste vektoritena kujutamine ei paku aga mitte üksnes seose visualiseerimise võimalust, vaid ka reaalse võimaluse korrelatsioonikordaja arvutamiseks. Nimelt on kahe vektori vaheline nurk ümber arvutatav nende sisuks olevate tunnuste korrelatsiooniks. Lihtsustatult öeldes on korrelatsioonikordaja võrdne nurga koosinusega.

Vaatleme kahte vektorit – a = (0, 1, 2, 3, 4) ja b = (0, 1, 2, 3, 4). Just kahte analoogset vektorit on kujutatud joonisel 3 vasakpoolses lahtris, ehkki ilma numbriteta. Pole keeruline märgata, et need on identsed muutujad, seega on mõistlik eeldada, et nende korrelatsioon on maksimaalne ehk 1. Vektoritevahelise nurga koosinuse arvutamiseks jagatakse vektorite skalaarkorrutis vektorite pikkuste korrutisega. Numbritega lahti kirjutatult tähendab see: koosinus (φ) = (0×0 + 1×1 + 2×2 + 3×3 + 4×4) / (02 + 12 + 22 + 32 + 42)½ × (02 + 12 + 22 + 32 + 42)½ = 1. Koosinusele 1 vastab nullkraadine nurk ehk just see, mis on joonise 3 vasakpoolses lahtris – kaks ühesuunalist vektorit. Kui me muudame ühe vektoritest vastassuunaliseks (korrutame läbi väärtusega –1, vt joonise 3 keskmist lahtrit), siis sama valemit kasutades saame korrelatsiooniks ootuspäraselt koosinus (φ) = –1. Kui ajame aga ühe vektoritest juhuslikult sassi, näiteks a = (1, 4, 0, 3, 2), siis peaksime saama absoluutväärtuselt oluliselt väikesema korrelatsiooni. Tõepoolest, eelnevat valemit kasutades saame sassiaetud vektori a korral vektorite a ja b vahelise nurga koosinuseks ehk tunnustevaheliseks korrelatsiooniks koosinus (φ) = 0,1. See koosinuse väärtus vastab 84˚sele nurgale, mis on üsna lähedal täisnurgale.

Lihtsustatud oli eelmises lõigus kirjutatu seepärast, et jättis mainimata ühe olulise eelduse: et vektoritevahelise nurga koosinus oleks võrdne nende aluseks olevate tunnuste korrelatsiooniga, peavad kahe vektori keskmised ja standardhälbed olema võrdeliselt seotud (kas päris võrdsed või erinedes mingi numbri võrra, mis on sama nii keskmistel kui standardhälvetel). Eelnevalt oli juttu sellest, et korrelatsiooni väärtus ei muutu, kui tunnuseid lineaarselt teisendada (nt korrutada läbi mingi konstandiga või liita mingi konstant). See tähendab, et kui me näiteks algse vektori a igale punktile liidame väärtuse 5 [a = (5, 6, 7, 8, 9)], siis korrelatsioon vektoriga b = (0, 1, 2, 3, 4) sellest ei muutu. Küll aga muutub vektoritevahelise nurga koosinus: eeltoodud valemit kasutades näeme, et koosinus (φ) = 0,91. See tähendab, et vektoritevaheline nurk on tundlik vektorite lineaarsete teisenduste suhtes. Seetõttu tuleks enne tunnustest moodustunud vektorite vahelise koosinuse arvutamist tunnused näiteks standardiseerida (viia kujule, kus nende keskmised ja standardhälbed on võrdsed). Muide, sisuliselt tehakse ju sedasama ka kovariatsioonist lähtuval viisil korrelatsioonikordajat arvutades (kovariatsioonikordajat hajuvuste korrutisega jagades). Mõnikord küll eelistatakse arvutada korrelatsioone standardiseerimata andmetelt, aga sellisel juhul pole tegu lineaarseid seoseid otsiva seosemudeliga.

Korrelatsiooni vektoritevahelise nurgana kujutamine on õpetlik veel ühes mõttes. Nimelt võimaldab see käepärasel moel hinnata, kui suured peavad kolme tunnuse korral olema kahe tunnuse korrelatsioonid selleks, et oleks võimalik automaatselt pidada nullist suuremaks ka kolmandat korrelatsiooni. Teisisõnu, see võimaldab hinnata, kui suured võivad olla vektorite a ja b ning vektorite b ja c korrelatsioonid selleks, et vektorite a ja c vaheline korrelatsioon ei oleks tingimata nullist suurem (joonis 4).

Korrelatsiooni mittetransitiivsusel on praktiline tähendus. Kujutume näiteks ette olukorda, et meil on kaks intelligentsustesti, SuperIQ ja MegaIQ, mille tulemuste korrelatsioon on 0,86. Sellisele korrelatsioonile vastab vektoritevaheline nurk umbes 32˚. See on igati korralik ja ootuspärane kahe sõltumatu võimekustesti korrelatsioon. Paljud ütleksid lausa, et need testid annavad intelligentsust mõõtes peaaegu identsed tulemused. Intelligentsustestide tüüpiline võimekus ennustada inimese toimetulekut tööl või koolis on korrelatsiooni keeles umbes 0,50 ning teadlased näitavad, et ka SuperIQ tulemus korreleerub koolihinnete keskmisega r = 0,50. Sellele vastab vektoritevaheline nurk umbes 59˚. Kuna SuperIQ ja MegaIQ tulemused olid väga tugevas korrelatsioonis, siis tahaksime kohe järeldada, et küllap ka MegaIQ suudaks ennustada samade laste koolihindeid. Paraku aga pole see oletus vältimatult tõene, sest MegaIQ korrelatsioon võib olla isegi nullilähedaselt negatiivne (32 + 59 = 91˚ nurga koosinus on –0,02). Niisiis, ühe testiga leitud seoseid pole tihti võimalik teise mõõtevahendiga leitud seostele üle kanda.

JOONIS 4. Korrelatsioonid r = 0 ja r = 0,71


Et vektorite a ja c korrelatsioon oleks 0, peab nende vahel olema täisnurk. Nii see joonisel 4 ongi. Poolitame vektorite a ja c vahelise nurga vektoriga b. Nii vektorite a ja b kui vektorite b ja c vaheline nurk on nüüd 45˚. On tähelepanuväärne, et sellisele nurgale vastava koosinuse väärtus on 0,71. Lahti seletatuna tähendab see, et vektorite a ja b ning vektorite b ja c korrelatsioonid võivad olla korraga väärtusega kuni 0,71, ilma et sellest tingimata järelduks, et ka vektorite a ja c korrelatsioon on suurem kui 0. Muide, kuna korrelatsiooni r = 0,71 ruut ehk determinatsioonikordaja on 0,50, siis tuletub siit lihtne reegel: alles siis, kui muutujatepaarides ab ja bc olevate korrelatsioonide ruutude summa ületab 1, tähendab see automaatselt, et ka muutujatepaaris ac oleva korrelatsiooni absoluutväärtus ületab 0. Tasub kohe märkida, et korrelatsioonid väärtusega 0,71 väljendavad sotsiaalteaduste kontekstis tihti vägagi tugevaid seoseid. See tähendab, et enamasti pole formaalselt võimalik erinevates muutujatekombinatsioonides leitud korrelatsioone üksteisele üldistada – peenemas keeles öelduna pole korrelatsioonikordajad enamasti transitiivsed.

Loodetavasti andis käesolev peatükk lugejale ülevaate korrelatsiooni, inimeste erinevusi uuriva psühholoogia põhikangelase kohta – kuidas see number leitakse ja kuidas seda tõlgendada ning mida see number suudab ja mida ei suuda kirjeldada. Korrelatsioon on universaalne ja käepärane viis tunnuste seosete kirjeldamiseks.

Intelligentsuse psühholoogia

Подняться наверх