VOOZH about

URL: https://dev.to/kovoliver/miert-mukodik-a-korrelacio-5cib

⇱ Miért működik a korreláció? - DEV Community


Ebben a rövid cikkben egy egyszerűnek tűnő, ámbár a színfalak mögött mélyebb gondolkodást igénylő fogalomról fogok beszélni, ami rendkívül alapvető a statisztikában, az adatelemzésben, de akár a programozás világában is. Ez a fogalom nem más, mint a korreláció.

A korreláció egy standardizált statisztikai mutató, amely megadja két úgynevezett mennyiségi ismérv közötti kapcsolat szorosságot. Mindjárt egy példával is rávilágítanék a problémára. Van két adatsorunk, a termékek ára, és az eladási számok. Szeretnénk tudni, hogy termékek ára befolyásolja-e az eladási volument. Ebben a kontextusban a termékek ára a független, az eladási volumen pedig a függő változó. Az elnevezések logikusak, hiszen a független változó értékétől függ a függő változó értéke.

Három mutatót kell először kiszámolnunk ahhoz, hogy megkapjuk a korrelációt:

  • a függő változó szórását
  • a független változó szórását
  • és a kovarianciát a két változó között

Ha esetleg nem ismernéd a szórás fogalmát, a szórás megmondja, hogy az egyes értékek átlagosan mennyire térnek el a sokasági átlagtól. (Egészen pontosan az átlagtól való eltérések négyzetes átlaga.) A kovariancia a változók együttmozgását méri tehát azt, hogy a két adatsor értékei mennyire változnak együtt.

A két adatsor legyen a következő:

Termék ára (független változó) (Ft): 1, 2, 3, 4, 5

Eladási volumen (függő változó) (db): 2, 4, 6, 8, 10

Átlagár: 3 Ft

Átlag eladási volumen: 6 db

A szórás képlete a következő:

A kovariancia pedig:

Szórások kiszámítása

Termék árának szórása

Termék eladási volumenének szórása

Kovariancia kiszámítása


Intuitív megfigyelés

Az adatok nyilván ebben a speciális esetben függvényszerűen követik egymást. Az látható, hogy a kovariancia kiszámításánál lényegében keresztbe szorozzuk az átlagtól való eltéréseket. Mivel az értékek számszorosai egymásnak, ezért a mondhatjuk, hogy az átlagtól való eltérést, és az átlagtól való eltérés számszorosát szorozzuk össze. Így tehát a variancia számszorosát fogjuk megkapni.

Ha a függő és független változók értékei számszorosai egymásnak, akkor ugyanez lesz igaz szórásokra is. Az alább képletekkel is levezettem ezt az összefüggést. Így tehát, ha függvényszerű a kapcsolat a független és függő változó között, akkor a korrelációnak mindenképpen egynek, vagy mínusz egynek kell lennie, hiszen az a kovariancia és a szórások szorzatának hányadosa. (Azt ne felejtsük el, hogy a szóban forgó Peason-féle korrelációs együttható alapvetően lineáris kapcsolatot mér. Nem lineáris kapcsolat esetében másképpen szükséges számolni.)


A korrelációs együttható kiszámítása

A korrelációs együttható képlete a következő:

Amint látod, egyszerűen csak le kell osztani a kovarianciát, a szórások szorzatával. Az így kalkulált érték egy és mínusz egy között alakulhat.

Végkövetkeztetés

Kimondhatjuk, hogyha függő változó értékei függvényszerű kapcsolatban állnak a független változó értékeivel, akkor a korreláció csak egy és mínusz egy lehet. Minden más esetben a kettő érték közötti számot fogunk kapni. Ezért működik jól ez az egyszerűnek tűnő, ámbár rendkívül hatékony mutató.