TR | RU | KK | BE | EN |

Коефіцієнт кореляції Пірсона


Коефіцієнт кореляції Пірсона (позначають «r») — в статистиці, показник кореляції (лінійної залежності) між двома змінними X та Y, який набуває значень від −1 до +1 включно. Він широко використовується в науці для вимірювання ступеня лінійної залежності між двома змінними. Показник був розроблений Карлом Пірсоном (Karl Pearson) зі схожої ідеї, представленої Френсісом Гальтоном в 1880-х рр.

Зміст

  • 1 Визначення
  • 2 Інтерпретація
    • 2.1 Значущість кореляції
    • 2.2 Відстань Пірсона
  • 3 Коефіцієнт кореляції Пірсона і метод найменших квадратів
  • 4 Обчислення зваженої кореляції
  • 5 Примітки
  • 6 Див. також

Визначення

Коефіцієнт кореляції Пірсона між двома змінними дорівнює коваріації двох змінних, або сумі добутків відхилень, поділеній на добуток їх стандартних відхилень. Нехай, є дві вибірки x m = ( x 1 , ⋯ , x m ) , {\displaystyle x^{m}=\left(x_{1},\cdots ,x_{m}\right),\;} y m = ( y 1 , ⋯ , y m ) ; {\displaystyle y^{m}=\left(y_{1},\cdots ,y_{m}\right);} Коефіцієнт кореляції Пірсона розраховують за формулою:

r x y = ∑ i = 1 m ( x i − x ¯ ) ( y i − y ¯ ) ∑ i = 1 m ( x i − x ¯ ) 2 ∑ i = 1 m ( y i − y ¯ ) 2 = c o v ( x , y ) s x 2 s y 2 , {\displaystyle r_{xy}={\frac {\sum _{i=1}^{m}\left(x_{i}-{\bar {x}}\right)\left(y_{i}-{\bar {y}}\right)}{\sqrt {\sum _{i=1}^{m}\left(x_{i}-{\bar {x}}\right)^{2}\sum _{i=1}^{m}\left(y_{i}-{\bar {y}}\right)^{2}}}}={\frac {cov(x,y)}{\sqrt {s_{x}^{2}s_{y}^{2}}}},}

де x ¯ , {\displaystyle {\bar {x}},} y ¯ {\displaystyle {\bar {y}}}  — вибіркові середні x m {\displaystyle x^{m}} і y m , {\displaystyle y^{m},} s x 2 , {\displaystyle s_{x}^{2},} s y 2 {\displaystyle s_{y}^{2}}  — вибіркові дисперсії, r x y ∈ [ − 1 , 1 ] {\displaystyle r_{xy}\in \left} .

Інтерпретація

Коефіцієнт кореляції набуває значень від −1 до 1. Значення +1 означає, що залежність між X та Y є лінійною, і всі точки функції лежать на прямій, яка відображає зростання Y при зростанні X. Значення −1 означає, що всі точки лежать на прямій, яка відображає зменшення Y при зростанні X. Якщо коефіцієнт кореляції Пірсона = 0, то лінійної кореляції між змінними немає.

Значущість кореляції

Кореляція Негативна Позитивна
Відсутня −0.09 до 0.0 0.0 до 0.09
Низька −0.3 до −0.1 0.1 до 0.3
Середня −0.5 до −0.3 0.3 до 0.5
Висока −1.0 до −0.5 0.5 до 1.0

Різні автори пропонують різні підходи до інтерпретації значення коефіцієнта кореляції. В той же час, всі критерії є певною мірою умовними, і не повинні трактуватися надто прискіпливо. Інтерпретація кореляції залежить від контексту та мети. Наприклад, показник кореляції 0.9 може бути дуже низьким у випадку дослідження законів фізики з використанням високоякісного обладнання, проте може трактуватися як дуже високий в гуманітарних науках, де існує вплив багатьох інших факторів.

Відстань Пірсона

Показник відстані для двох змінних, відомий як «відстань Пірсона», може бути обчислений з коефіцієнта кореляції як:

d X , Y = 1 − ρ X , Y . {\displaystyle d_{X,Y}=1-\rho _{X,Y}.}

З огляду на те, що коефіцієнт кореляції Пірсона набуває лежить в множині , відстань Пірсона може дорівнювати .

Коефіцієнт кореляції Пірсона і метод найменших квадратів

Квадрат коефіцієнта кореляції, що є коефіцієнтом детермінації, обчислює частку варіативності змінної Y, яка пояснюється зміною X в простій лінійній регресії. Загальна варіація показників Y i {\displaystyle Y_{i}} відносно їх середнього значення може бути представлена наступним чином:

∑ i ( Y i − Y ¯ ) 2 = ∑ i ( Y i − Y ^ i ) 2 + ∑ i ( Y ^ i − Y ¯ ) 2 {\displaystyle \sum _{i}(Y_{i}-{\bar {Y}})^{2}=\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}+\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}} ,

де Y ^ i {\displaystyle {\hat {Y}}_{i}} є середньозваженими значеннями регресії. Застосувавши математичні перетворення, отримаємо:

1 = ∑ i ( Y i − Y ^ i ) 2 ∑ i ( Y i − Y ¯ ) 2 + ∑ i ( Y ^ i − Y ¯ ) 2 ∑ i ( Y i − Y ¯ ) 2 . {\displaystyle 1={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}+{\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}.}

Два доданки зверху показують частку варіативності Y, яка пояснюється зміною X (справа) і ту, яка не пояснюється зміною X (зліва).

Далі, ми застосуємо умову методу найменших квадратів, за якою значення коваріації між Y ^ i {\displaystyle {\hat {Y}}_{i}} і Y i − Y ^ i {\displaystyle Y_{i}-{\hat {Y}}_{i}} дорівнює нулю. Таким чином, рівняння кореляції між спостережними та середньозваженими значеннями регресії можуть бути записані так:

r ( Y , Y ^ ) = ∑ i ( Y i − Y ¯ ) ( Y ^ i − Y ¯ ) ∑ i ( Y i − Y ¯ ) 2 ⋅ ∑ i ( Y ^ i − Y ¯ ) 2 = ∑ i ( Y i − Y ^ i + Y ^ i − Y ¯ ) ( Y ^ i − Y ¯ ) ∑ i ( Y i − Y ¯ ) 2 ⋅ ∑ i ( Y ^ i − Y ¯ ) 2 = ∑ i [ ( Y i − Y ^ i ) ( Y ^ i − Y ¯ ) + ( Y ^ i − Y ¯ ) 2 ] ∑ i ( Y i − Y ¯ ) 2 ⋅ ∑ i ( Y ^ i − Y ¯ ) 2 = ∑ i ( Y ^ i − Y ¯ ) 2 ∑ i ( Y i − Y ¯ ) 2 ⋅ ∑ i ( Y ^ i − Y ¯ ) 2 = ∑ i ( Y ^ i − Y ¯ ) 2 ∑ i ( Y i − Y ¯ ) 2 . {\displaystyle {\begin{aligned}r(Y,{\hat {Y}})&={\frac {\sum _{i}(Y_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i}+{\hat {Y}}_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\frac {\sum _{i}}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\sqrt {\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}}.\end{aligned}}}

Звідси

r ( Y , Y ^ ) 2 = ∑ i ( Y ^ i − Y ¯ ) 2 ∑ i ( Y i − Y ¯ ) 2 {\displaystyle r(Y,{\hat {Y}})^{2}={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}}

Це рівняння показує частку варіативності Y, яка є лінійною функцією X.

Обчислення зваженої кореляції

Проведені спостереження мають різні ступені важливості, які можуть бути виражені через вектор ваги w. Для обчислення кореляції між векторами x та y з використанням вектора ваги w (для будь-якого n),

  • Зважена середня:
m ⁡ ( x ; w ) = ∑ i w i x i ∑ i w i . {\displaystyle \operatorname {m} (x;w)={\sum _{i}w_{i}x_{i} \over \sum _{i}w_{i}}.}
  • Зважена коваріація:
cov ⁡ ( x , y ; w ) = ∑ i w i ( x i − m ⁡ ( x ; w ) ) ( y i − m ⁡ ( y ; w ) ) ∑ i w i . {\displaystyle \operatorname {cov} (x,y;w)={\sum _{i}w_{i}(x_{i}-\operatorname {m} (x;w))(y_{i}-\operatorname {m} (y;w)) \over \sum _{i}w_{i}}.}
  • Зважена кореляція:
corr ⁡ ( x , y ; w ) = cov ⁡ ( x , y ; w ) cov ⁡ ( x , x ; w ) cov ⁡ ( y , y ; w ) . {\displaystyle \operatorname {corr} (x,y;w)={\operatorname {cov} (x,y;w) \over {\sqrt {\operatorname {cov} (x,x;w)\operatorname {cov} (y,y;w)}}}.}

Примітки

  1. ↑ J. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1):59-66, February 1988.
  2. ↑ Stigler, Stephen M. (1989). Francis Galton's Account of the Invention of Correlation. Statistical Science 4 (2). с. 73–79. doi:10.1214/ss/1177012580. JSTOR 2245329. 
  3. ↑ A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1, Wydawnictwo Niezalezne: 5-21, December 2010, ISBN 978-83-915272-9-0
  4. а б Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
  5. ↑ Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN 1-4020-8879-5
  6. ↑ http://sci.tech-archive.net/Archive/sci.stat.math/2006-02/msg00171.html
  7. ↑ A MATLAB Toolbox for computing Weighted Correlation Coefficients

Див. також

Портал «Математика»
  • Часовий ряд


Це незавершена стаття з математики.
Ви можете допомогти проекту, виправивши або дописавши її.


Коефіцієнт кореляції Пірсона Інформацію Про

Коефіцієнт кореляції Пірсона


  • user icon

    Коефіцієнт кореляції Пірсона beatiful post thanks!

    29.10.2014


Коефіцієнт кореляції Пірсона
Коефіцієнт кореляції Пірсона
Коефіцієнт кореляції Пірсона Ви переглядаєте суб єкт.
Коефіцієнт кореляції Пірсона що, Коефіцієнт кореляції Пірсона хто, Коефіцієнт кореляції Пірсона опис

There are excerpts from wikipedia on this article and video

Випадкові Статті

Ophidion scrippsae

Ophidion scrippsae

Ophidion scrippsae — вид риб родини Ошибневих Ophidiidae Поширений у східній Пацифіці від Пойнт...
Комар Володимир Степанович

Комар Володимир Степанович

Медіафайли у Вікісховищі У Вікіпедії є статті про інших людей з прізвищем Комар Володимир Ст...
1 липня

1 липня

1 липня — 182-ий день року (183-ий в високосні роки) в григоріанському календарі. До кінця року...
Хачеріді Євген Григорович

Хачеріді Євген Григорович

* Ігри та голи за професіональні клуби враховуються лише в національному чемпіонаті. Інформацію поно...