ÄO ja lantun leikkaaminen

Lantun leikkaaminen on helpompaa terävällä kuin tylsällä veitsellä. Veitsien välillä on toki muitakin eroja kuin terävyys: Leipäveitsi uppoaa lanttuun keittiöveistä laiskemmin. Tästä huolimatta terävyys on kaikille veitsille yhteinen ominaisuus, joka kertoo niiden kyvystä leikata asioita.

Harmillisesti terävyyden määrittely ei ole helppoa. Helpoin tapa arvioida veitsen terävyyttä onkin testata sitä leikkaamalla jotain, esimerkiksi lanttua. Lantunleikkaus ei ole testinä täydellinen, mutta korreloi terävyyden kanssa luotettavasti.

Alun veitsivertauksessa puhutaan tietenkin älykkyydestä ja ÄO-testaamisesta. Älykkyydestä tuntuu vallitsevan epämääräinen kulttuurillinen konsensus, kokoelma yleisiä mielipiteitä, joiden alkuperä ja tarkka sisältö on usein haltijoilleenkin epäselvä. Aihe on tabu, josta ei mielellään puhuta.

Tätä epäselvää konsensusta ja tabua vastaan käy Tiede-lehden jutussa Äly ennustaa elämän haastateltu Markus Jokela. Juttu kertoo miten ihmiset suhtautuvat älykkyystutkimukseen laajalti skeptisesti.

Jokelan kritiikki muistuttaa tieteentekijälle tyypillistä hellyyttävää närkästystä oman tieteenalansa löysään kritiikkiin: Suurin osa ihmisistä vastustaa ÄO-testaamista aivan väärin perustein!

Juttu ei ota kuitenkaan juurikaan kantaa mielenkiintoisempaan kysymykseen: Miksi ihmiset laajalti vastustavat tieteellistä näkemystä älykkyydestä? Avaamalla tyypillisimpiä vastalauseita erimielisyydestä piirtyy kuitenkin tarkka kuva.

Älykkyystestit ovat epäluotettavia

Tilastotieteessä testin luotettavuus on määritelty kahden erillisen testikerran välisenä korrelaationa: vastaava testi teetetään samoilla henkilöillä kahdesti, ja näiden testien tuloksia vertaillaan. Jos tulos riippuu suuresti koekerrasta, testi on epäluotettava.

ÄO-testeille tämä korrelaatiokerroin on noin 0,83, joka vastaa noin ±7 pisteen keskimääräistä vaihtelua testin ilmoittamassa älykkyysosamäärässä. Luku perustuu laajaan meta-analyysiin, josta suurin osa tämän jutun tieteellisistä älykkyysväitteistä on peräisin.

Visuaalisesti tätä korrelaatiota avataan kuvaajassa hieman alempana. Vertailun vuoksi esimerkiksi Diletantin aikaisemmin parjaamassa MBTI-persoonallisuustestissä vastaava korrelaatio on noin 0,73 yksittäisille piirteille, mutta huomattavasti matalampi piirteistä yhdistellylle persoonallisuustyypille.

Tällä määritelmällä ÄO-testien luotettavuus on hyvä, ja kyseessä onkin yksi luotettavimmista psykometrian suureista. Tilastotieteilijän mielestä aihe lienee taputeltu. Käytännön luotettavuus riippuu kuitenkin sovelluskohteesta.

Esimerkiksi Mensan jäseneksi voi liittyä kuka tahansa, joka joka saavuttaa älykkyystestissä yli 130 pistettä, paremman tuloksen kuin 98% väestöstä. Rajan läheisyydessä vaihtelulla on suuri vaikutus. Oheisessa kuvaajassa on simuloitu 1000 satunnaista pistettä samalla 0,83 korrelaatiolla. Tilastollisesti vain puolet 130 pisteen rajan ylittäneistä toistaisi suorituksensa toisella koekerralla: nämä on korostettu kuvaan sinisellä. Punaisella ja keltaisella on merkitty joukot, jotka ylittävän pisterajan vain toisella koekerroista satunnaisuuden vuoksi.

Havainnollinen mallinnettu korrelaatio kahden älykkyystestin välillä, korrelaatiokerroin r = 0,83.

Onko testi siis luotettava? Testillä valittu joukko on kuitenkin molempien testikertojen huippupäätä, mutta yksilön näkökulmasta satunnaisuus on julma. Maallikon suussa luotettavuus ei kuitenkaan tarkoita pelkkää toistettavuutta, vaan ennemmin testin kykyä mitata älykkyyttä.

Älykkyystestit eivät mittaa yleisälykkyyttä, vaan jotain muuta

Kenties yleisin kritiikki ÄO-testaamiselle on, että aidon älykkyyden sijaan testi mittaisi virkeyttä, harjaantuneisuutta kuviopäättelyyn, koevastaustaitoa tai jotain muuta kokoelmaa ominaisuuksia, joihin älykkyyttä ei voi supistaa. Älykkyys ei tarkoita vain hyvin nukuttua yötä ja terveellistä treeniruokavaliota ennen tenttiä.

Yleisesti psykometristen testien kykyä mitata väitettyä ominaisuutta kutsutaan validiteetiksi, ja tätä arvioidaan tutkimalla testin ennustuskykyä. Seurantatutkimuksissa lapsuuden älykkyysosamäärän onkin todettu ennustavan esimerkiksi kouluttautumista, tulotasoa ja eliniänodotetta paremmin kuin kouluarvosanat tai vanhempien tulot. ÄO-testit vaikuttavat siis mittaavan ainakin jotain laaja-alaisesti hyödyllistä ominaisuutta.

Onkin semanttinen kysymys, onko kuviopäättelytestien kanssa korreloiva yleishyödyllinen henkinen ominaisuus älykkyyttä – mutta tärkeä! Ei ole yhdentekevää mille piirteiden kimpulle älykkyyden nimi annetaan. Abstraktin kuviopäättelyn käyttäminen älykkyyden mittana epäsuorasti määrittelee älykkyyden kuviopäättelykyvyksi. Tämä kuulostaa järjettömältä: Eihän älykkyyttä voi tiivistää kuviopäättelyyn!

Mutta suurissa tilasto-otoksissa voi. Ihmistoiminnan ennustaminen on narulla työntämistä, korrelaatioketjujen rakentelua: Älykkyystestien oletetaan korreloivan yleisälykkyyden kanssa, jonka voisi olettaa korreloivan menestyksen kanssa, jonka voisi olettaa korreloivan tulotason kanssa. Jokaisella askeleella ja oletuksella yhteys heikkenee, mutta ei katoa.

Aiemmin mainitun lapsuuden älykkyysosamäärän ja tulotason väliseksi korrelaatioksi on seurantatutkimuksissa arvioitu 0,23. Tämä on ihmissilmällä ja -intuitiolla täysin näkymätön korrelaatio:

Havainnollinen mallinnettu korrelaatio älykkyysosamäärän ja normalisoidun tulotason välillä, korrelaatiokerroin r = 0,23.

Varsinkin tulevaisuuden ennustaminen on vaikeaa, joten korrelaatio onkin tieteellisesti merkittävä löydös. Tilastollisesti vaikutus ymmärretään, ja sen pohjalta voidaan tehdä arvokasta tutkimusta.

Maallikon näkökulmasta kyseessä on kuitenkin pelkkää kohinaa: Älykkyydellä ei voi luotettavasti ennustaa juuri mitään. Heikot ilmiöt tulevat aidosti näkyviin vasta tuhansien ihmisten otoksissa, kaukana yksilöiden ulottumattomissa.

Yleisälykkyys on turha mittari, koska ihmisillä on erilaisia älykkyyksiä

Myös älykkyyden moninaisuus on tyypillinen vastaus älykkyystestaukselle: Älykkyys jakautuu moneen eri osa-alueeseen, ja yleisälykkyyttä tärkeämpää on osa-aluekohtainen osaaminen.

Varsinaista tieteellistä tukea useimmille moniälykkyysteorille on kuitenkin varsin rajallisesti: Suurin osa raflaavista jaotteluista perustuu lähinnä mutuiluun, ja henkisten kykyjen rajautuminen osa-alueiksi on lopulta huonosti tunnettua: On epäselvää mitä alueita voi ylipäätään erottaa omikseen ja mitkä näistä osa-alueista olisivat “älykkyyttä”.

Kyseessä on kuitenkin taas tilastollinen ilmiö: Ulottuvuuksien lisääminen monimutkaistaa mittaamista ja vaatii suurempaa otoskokoa. Moniulotteisen älykkyyden tutkiminen on siis monin verroin vaikeampaa kuin yksiulotteisen. Vaikeudella on kaksi suoraa vaikutusta: Mallille on vaikeampi tuottaa tieteellistä tukea, ja mallin käyttäminen muussa tutkimuksessa on vähemmän houkuttelevaa.

Edelleen, keskimäärin kaikki mitattavat älylliset kyvykkyydet korreloivat keskenään: Kielellisesti taitava henkilö on keskimäärin lahjakkaampi myös matemaattisesti. Tämä havainto on aikanaan johtanut koko yleisälykkyyden käsitteen luomiseen.

Tällöin tilastonäkökulmasta riittääkin yhden osa-alueen mittaaminen: Koska kuviopäättely korreloi kaikkien muiden testien kanssa, ei muita testejä kannata edes teettää. Niidenkin tuloksen voi ennustaa kuviopäättelykokeesta, joka on vaikka ihmissuhdesoppaa helpompi tehdä. Yksilötasolla tämä ei tietenkään päde.

On myös arvokasta että useat eri tutkijat käyttävät samoja tai vastaavia testejä: Tällöin tulokset ovat laajalti keskenään vertailukelpoisia.

Tilastotietelijän näkökulmasta yleisälykkyys on siis monimutkaisempia vaihtoehtojaan parempi teoria, pragmaattisesti todempi teoria. Kätevyydestään huolimatta teorialla on kuitenkin myös varjopuolensa väärin käytettynä.

Älykkyystutkimus on eugeniikkaa

Älykkyystutkimusta voi kritisoida myös eettisin perustein: Argumenttina tällöin on vastaava tieteen moralistinen kritiikki, jota Janne Kivivuoren Paha tieto, jota Diletantti taannoin käsitteli, käsitteli. Luonnontieteellinen ihmistutkimus ja evoluutiopsykologia olivatkin kirjan esimerkkejä pahaksi tituleeratusta tiedosta.

Moralistinen kritiikki onkin näennäisen helppo kuitata toteamalla tieteellisten tulosten olevan itsessään arvoneutraaleja, kuten Jokela jutussa tekeekin:
“Tutkimustulokset eivät kuitenkaan määrää mitään tiettyä politiikkaa vaan osoittavat tosiasioiden puitteet erilaisille yhteiskunnallisille päätöksille.”

Älykkyystutkimuksen käyttämä malli älykkyyden periytyvyydestä ja muuttumattomuudesta sopii kuitenkin erinomaisesti yhteen esimerkiksi “rotutieteen” kanssa. Älykkyystutkimuksella onkin pitkä yhteinen historia eugeniikan ja rasismin kanssa. Tässä mielessä älykkyystutkimus onkin vain nykypäivän frenologiaa. Tarkoitushakuisen “rotutieteilijän” näkökulmasta teorian tieteellinen paikkansapitävyys on toissijainen, mutta hyödyllinen ominaisuus.

ÄO-mittausten absoluuttisessa mielessä heikkoihin vaikutuksiin onkin helppo aiheuttaa tilastoharhaa syrjimällä toisia testattavia – vahingossa tai tahallaan. Tämä voi synnyttää voimistuvan syrjinnän kierteen, jossa syrjinnän virallistamista perustellaan heikoilla älykkyystuloksilla, jotka johtuvat rakenteellisesta syrjinnästä.

Nämä kannat ja keskustelut lienevät myös lopulta syy tabuun: Älykkyyskeskustelusta harvoin tulee kenellekään hyvä mieli. Älykkyyden tieteellinen malli ei ole lopulta mieltä nostattava, ja arkinen malli on epämääräisyydessään epähyödyllinen.

Puurot ja mallit sekaisin

Älykkyystutkimus olettaa tietyn yleisen älykkyyden mallin, ja mittaa älykkyyttä tämän puitteissa. Toimiva malli onkin ehdoton edellytys tieteen tekemiselle. Hyvä malli ei kuitenkaan välttämättä kuvaa todellisuutta.

Vaikka fysiikassa mallin ja todellisuuden välinen ero on ilmeinen: Elektronit eivät esimerkiksi oikeasti kierrä piirissä kehää atomiytimen ympärillä, mutta silti Bohrin atomimalli on hyödyllinen.

Esimerkki vastaavasta hyödyllisestä olettamasta älykkyystutkimuksessa on älykkyyden pysyvyys, joka ajoin nostetaan tutkimuksen tulokseksi. Pysyvyys on kuitenkin myös lähtöoletus: ÄO-testien hyvyyttä arvioidaan niiden pysyvyyden mukaan, koska määritelmällisesti “luotettava” testi antaa saman tuloksen eri testikerroilla. Testit ovat siis luotettavia koska ne antavat saman tuloksen joka kerralla, ja älykkyys on pysyvää koska luotettava ÄO-testi antaa saman tuloksen joka kerralla. Kyseessä vaikuttaisi olevan kehäpäätelmä.

Tilastollisen tarkastelun kannalta yleisen älykkyyden pysyvimpien ulottuvuuksien mittaaminen on kuitenkin hyödyllistä. Pysyvyyden olettamuksen valossa voidaan tarkastella mielenkiintoisia muutoksia: Miten vaikka stressi, aliravitsemus, lyijymyrkytys tai koulutus vaikuttavat älyn kehitykseen. Ilman ÄO-testien tulosten tilastollista pysyvyyttä näiden tutkiminen olisi mahdotonta. Silti on vaarallista antaa mallin määrittää todellisuutta.

Kiinni tylsästä päästä

Yksilötasolla terävyystestailu onkin turhaa: tällöin älykkyyden heikot korrelaatiot hukkuvat ihmisyyden kohinaan. Ihmiset ovat erilaisia lukemattomilla eri tavoilla, joiden redusoiminen yhteen mittariin on hyvin hyödyllistä, mutta ei kovin kuvaavaa.

Tilastollisella tasolla ÄO on näppärä vertailukelpoinen suure: Massoissa tilastoharhat supistuvat ja kohina keskiarvoistuu. Tällöin voidaan havaita ihmissilmälle näkymättömiä, mutta silti merkittäviä ilmiöitä.

Maallikolle ja tilastotieteilijälle toimivatkin erilaiset älykkyyden mallit: Tilastotieteilijän näkökulmasta älykkyys todellakin on pysyväistä ja merkittävää, tämä on tutkimuksen kannalta hyödyllinen ja toimiva tapa ymmärtää älykkyyttä. Sama ei päde maallikolle, joka ei henkilökohtaisesti tunne laajaa edustavaa tilastollista otosta ihmisiä. Tieteellisen teorian paikkansapitävyys ei ulotu tässä tapauksessa arkeen.

Pahiten alun veitsivertaus kompastuu välinearvoon: Toisin kuin veitset, ihmiset eivät ole työkaluja. Tieteelliset teoriat sen sijaan ovat työkaluja, ja tilastollinen ÄO-testaus onkin skalpelli: Terävä veitsi, jolla on kapea sovellusala, jonka ulkopuolella se on hyödytön. Skalpellilla ei leikkaa lanttua.