TR | RU | KK | BE | EN |

Лінійна регресія

лінійна регресія
У статистиці лінійна регресія — це метод моделювання залежності між скаляром y та векторною (у загальному випадку) змінною X. У випадку, якщо змінна X також є скаляром, регресію називають простою.

При використанні лінійної регресії взаємозв'язок між даними моделюється за допомогою лінійних функцій, а невідомі параметри моделі оцінюються за вхідними даними. Подібно до інших методів регресійного аналізу лінійна регресія повертає розподіл умовної імовірності y в залежності від X, а не розподіл спільної імовірності y та X, що стосується області мультиваріативного аналізу.

При розрахунках параметрів моделі лінійної регресії як правило застосовується метод найменших квадратів, але також можуть бути використані інші методи. Так само метод найменших квадратів може бути використаний і для нелінійних моделей. Тому МНК та лінійна регресія хоч і є тісно пов'язаними, але не є синонімами.

Зміст

  • 1 Означення
    • 1.1 Класична модель лінійної регресії
    • 1.2 Узагальнена модель лінійної регресії
  • 2 Методи оцінювання
  • 3 Див. також
  • 4 Література

Означення

Загалом лінійна регресійна модель визначається у виді:

y = β 0 + β 1 x 1 + … + β K x K + u , {\displaystyle y=\beta _{0}+\beta _{1}x_{1}+\ldots +\beta _{K}x_{K}+u,} де y {\displaystyle y\,}  — залежна пояснювана змінна, ( x 1 , x 2 , … , x K ) {\displaystyle (x_{1},x_{2},\ldots ,x_{K})}  — незалежні пояснювальні змінні, u {\displaystyle u\,}  — випадкова похибка, розподіл якої в загальному випадку залежить від незалежних змінних але математичне сподівання якої рівне нулю.

Відповідно згідно з цією моделлю математичне очікування залежної змінної є лінійною функцією незалежних змінних:

E ( y ) = β 0 + β 1 x 1 + … + β K x K + u . {\displaystyle \mathbb {E} (y)=\beta _{0}+\beta _{1}x_{1}+\ldots +\beta _{K}x_{K}+u.}

Вектор параметрів ( β 0 , β 1 , … , β K ) {\displaystyle (\beta _{0},\beta _{1},\ldots ,\beta _{K})} є невідомим і задача лінійної регресії полягає у оцінці цих параметрів на основі деяких експериментальних значень y {\displaystyle y\,} і ( x 1 , x 2 , … , x K ) . {\displaystyle (x_{1},x_{2},\ldots ,x_{K}).} Тобто для деяких n експериментів є відомі значення { y i , x i 1 , … , x i p } i = 1 n {\displaystyle \{y_{i},\,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}} незалежних змінних і відповідне їм значення залежної змінної.

Згідно з визначенням моделі для кожного експериментального випадку залежність між змінними визначається формулами:

y i = β 0 + β 1 x 1 , i + … + β K x K , i + u i , {\displaystyle y_{i}=\beta _{0}+\beta _{1}x_{1,i}+\ldots +\beta _{K}x_{K,i}+u_{i},}

або у матричних позначеннях y = X β + u , {\displaystyle y=X\beta +u,\,}

де: y = ( y 1 y 2 ⋮ y n ) , X = ( x 1 ′ x 2 ′ ⋮ x n ′ ) = ( 1 x 11 ⋯ x 1 K 1 x 21 ⋯ x 2 K ⋮ ⋱ ⋮ 1 x n 1 ⋯ x n K ) , β = ( β 0 β 1 ⋮ β K ) , u = ( u 1 u 2 ⋮ u n ) . {\displaystyle y={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}},\quad X={\begin{pmatrix}x'_{1}\\x'_{2}\\\vdots \\x'_{n}\end{pmatrix}}={\begin{pmatrix}1&x_{11}&\cdots &x_{1K}\\1&x_{21}&\cdots &x_{2K}\\\vdots &\ddots &\vdots \\1&x_{n1}&\cdots &x_{nK}\end{pmatrix}},\quad \beta ={\begin{pmatrix}\beta _{0}\\\beta _{1}\\\vdots \\\beta _{K}\end{pmatrix}},\quad u={\begin{pmatrix}u_{1}\\u_{2}\\\vdots \\u_{n}\end{pmatrix}}.}

На основі цих даних потрібно оцінити значення параметрів ( β 0 , β 1 , … , β K ) , {\displaystyle (\beta _{0},\beta _{1},\ldots ,\beta _{K}),} а також розподіл випадкової величини u . {\displaystyle u\,.} Зважаючи на характеристики досліджуваних змінних можуть додаватися різні додаткові специфікації моделі і застосовуватися різні методи оцінки параметрів. Серед найпоширеніших специфікацій лінійних моделей є класична модель лінійної регресії і узагальнена модель лінійної регресії.

Класична модель лінійної регресії

Згідно з класичною моделлю додатково вводяться такі вимоги щодо специфікації моделі і відомих експериментальних даних:

  • ∀ i ≠ j E ( u i u j | x i ) = 0 {\displaystyle \forall i\neq j\quad \mathbb {E} (u_{i}u_{j}|x_{i})=0} (відсутність кореляції залишків)
  • ∀ i E ( u i 2 | x i ) = σ 2 {\displaystyle \forall i\quad \mathbb {E} (u_{i}^{2}|x_{i})=\sigma ^{2}} (гомоскедастичність)
попередні дві властивості можна також записати в матричних позначеннях V ( u | X ) = σ 2 I n , {\displaystyle \mathbb {V} (u|X)=\sigma ^{2}I_{n},} де In — одинична матриця розмірності n.
  • Ранг матриці X рівний K+1.
  • Усі елементи матриці X є невипадковими.

Часто додається також умова нормальності випадкових відхилень, яка дозволяє провести значно ширший аналіз оцінок параметрів та їх значимості, хоча і не є обов'язковою для можливості використання наприклад методу найменших квадратів:

  • u i | x i ∼ N ( 0 , σ 2 ) . {\displaystyle u_{i}|x_{i}\sim {\mathcal {N}}(0,\sigma ^{2}).}

Для асимптотичних властивостей оцінок додатково вимагається виконання деяких додаткових умов на матрицю X коли її розмірність прямує до безмежності. Однією з таких умов може бути існування границі при прямуванні розмірності до безмежності:

  • lim n → ∞ λ − ( X ′ X ) = ∞ , {\displaystyle \lim _{n\to \infty }\lambda _{-}(X'X)=\infty ,} де λ − {\displaystyle \lambda _{-}} позначає найменше власне значення матриці.

Узагальнена модель лінійної регресії

Умови гомоскедастичності та відсутності кореляції між випадковими залишками у моделі часто не виконуються на практиці. Якщо замість цих двох умов у визначенні моделі взяти загальнішу умову:

V ( u | X ) = σ 2 W , {\displaystyle \mathbb {V} (u|X)=\sigma ^{2}W,} де W {\displaystyle W\,}  — відома додатноозначена матриця, то одержана модель називається узагальненою моделлю лінійної регресії.

Оскільки для кожної додатноозначеної матриці W {\displaystyle W\,} існує матриця N , {\displaystyle N\,,} така що W − 1 = N N , {\displaystyle W^{-1}=NN,} то модель:

N y = N X β + N u , {\displaystyle Ny=NX\beta +Nu,\,}

вже буде класичною моделлю лінійної регресії.

Методи оцінювання

В залежності від об'єктів, що досліджуються за допомогою лінійної регресії та конкретних цілей дослідження можуть використовуватися різні методи оцінки невідомих параметрів. Найпопулярнішим є звичайний метод найменших квадратів. Він приймає за оцінку параметра значення, що мінімізують суму квадратів залишків по всіх спостереженнях:

β ^ = a r g m i n β ∑ i = 1 n | y i − β 0 − ∑ j = 1 K X i j β j | 2 = a r g m i n β ∥ y − X β ∥ 2 . {\displaystyle {\hat {\beta }}={\underset {\beta }{\operatorname {arg\,min} }}\,\sum _{i=1}^{n}\left|y_{i}-\beta _{0}-\sum _{j=1}^{K}X_{ij}\beta _{j}\right|^{2}={\underset {\beta }{\operatorname {arg\,min} }}\,{\big \|}y-X\beta {\big \|}^{2}.}

Метод найменших квадратів можна застосувати у будь-яких задачах, якщо лише ранг матриці X рівний кількості її стовпців. Також цей метод дає простий аналітичний вираз для оцінки параметрів:

β ^ = ( X ′ X ) − 1 X ′ y . {\displaystyle {\hat {\beta }}=(X'X)^{-1}X'y.}

У випадку класичної моделі лінійної регресії оцінка методу найменших квадратів є незміщеною, змістовною і найкращою лінійною незміщеною оцінкою (детальніше про ці статистичні властивості у статті метод найменших квадратів).

У випадку коли деякі з умов класичної лінійної регресії не виконуються метод найменших квадратів може не бути оптимальним. Так для узагальненої моделі лінійної регресії де V ( u | X ) = σ 2 W , {\displaystyle \mathbb {V} (u|X)=\sigma ^{2}W,} найкращою лінійною незміщеною оцінкою є оцінка, що одержується так званим узагальненим методом найменших квадратів:

β ^ = ( X ′ W − 1 X ) − 1 X ′ W − 1 y . {\displaystyle {\hat {\beta }}=(X'W^{-1}X)^{-1}X'W^{-1}y.}

Узагальнений метод найменших квадратів теж одержується мінімізацією деякої норми вектора відхилень:

β ^ = a r g m i n β ( y − X β ) ′ W − 1 ( y − X β ) . {\displaystyle {\hat {\beta }}={\underset {\beta }{\operatorname {arg\,min} }}(y-X\beta )^{'}W^{-1}(y-X\beta ).}

Серед інших методів оцінювання:

  • Метод найменших модулів, що знаходить мінімум суми не квадратів відхилень, а їх абсолютних значень:
β ^ = a r g m i n β ∑ i = 1 n | y i − β 0 − ∑ j = 1 K X i j β j | . {\displaystyle {\hat {\beta }}={\underset {\beta }{\operatorname {arg\,min} }}\,\sum _{i=1}^{n}\left|y_{i}-\beta _{0}-\sum _{j=1}^{K}X_{ij}\beta _{j}\right|.} Цей метод є найкращим в сенсі максимальної вірогідності у випадку коли відхилення мають розподіл Лапласа. Метод найменших модулів є значно менш чутливим до викидів значень, ніж метод найменших квадратів, проте він може мати більш ніж один розв'язок і для нього не існує простої формули визначення оцінки.
  • Метод максимальної вірогідності. Використовується коли відомі всі розподіли відхилень для всіх спостережень. При класичній і узагальненій моделях лінійної регресії з умовою нормальності відхилень приводить до того ж результату, що і метод найменших квадратів і узагальнений метод найменших квадратів відповідно.
  • Ортогональна регресія. Застосовується у випадках коли в значення пояснюючих змінних теж можуть містити випадкові складові і при оцінці враховуються можливі відхилення по всіх змінних.

Див. також

  • Регресійний аналіз
  • Метод найменших квадратів

Література

  • Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики: Учебник для вузов. — М.: ЮНИТИ, 1998. — 1022 с.
  • Карташов М. В. Імовірність, процеси, статистика — Київ, ВПЦ Київський університет, 2007.
  • С. Р. Рао, Линейные статистические методы и их применения / Пер. с англ. — М.: Наука,1968
  • Rao, C. Radhakrishna; Toutenburg, Shalabh, Heumann (2008). Linear Models and Generalizations (3rd ed.). Berlin: Springer. ISBN 978-3-540-74226-5.

лінійна регресія


Лінійна регресія Інформацію Про

Лінійна регресія


  • user icon

    Лінійна регресія beatiful post thanks!

    29.10.2014


Лінійна регресія
Лінійна регресія
Лінійна регресія Ви переглядаєте суб єкт.
Лінійна регресія що, Лінійна регресія хто, Лінійна регресія опис

There are excerpts from wikipedia on this article and video

Випадкові Статті

Дамар (місто)

Дамар (місто)

Координати 14°33′00″ пн. ш. 44°24′06″ сх. д. / 14.55000° пн. ш. 44.4...
Порту-Тромбетас

Порту-Тромбетас

Порту-Тромбетас — гігінтське латеритне родовище гібситових бокситів в Бразилії. Характеристика ...
Зимова Універсіада 2017

Зимова Універсіада 2017

Зимова Універсіада 2017 — XXVIІI зимова Універсіада, що проходила з 29 січня по 8 лютого 2017 р...
Сістеля

Сістеля

Сістеля (кат. Cistella) - муніципалітет, розташований в Автономній області Каталонія, в Іспанії. Зна...