TR | RU | KK | BE | EN |

Робастність у статистиці


Зміст

  • 1 Вступ
  • 2 Поняття робастності
  • 3 Основні підходи
  • 4 Групування даних як метод робастной статистики
  • 5 Підхід, заснований на функції впливу
    • 5.1 Уведення
    • 5.2 Основні поняття
    • 5.3 М-оцінки
    • 5.4 Процедура оцінювання параметрів
  • 6 Див. також

Вступ

Якщо в параметричних постановках на дані накладаються занадто тверді вимоги — їх функції розподілу повинні належати визначеному параметричному сімейству, то в непараметричних, навпаки, зайво слабкі — потрібно лише, щоб функції розподілу були неперервними. При цьому ігнорується апріорна інформація про те, який є «приблизний вид» розподілу. Апріорі можна чекати, що обчислення цього «приблизного виду» поліпшить показники якості статистичних процедур. Розвитком цієї ідеї є теорія стійкості (робастности) статистичних процедур, у якій передбачається, що розподіл вихідних даних мало відрізняється від деякого параметричного сімейства. З 60-х років цю теорію розробляли П.Хубер, Ф.Хампель і багато хто інші. З монографій російською мовою, що трактують про робастності і стійкість статистичних процедур, найранішою і найзагальнішою була книга, що випливає — монографія. Окремими випадками реалізації ідеї робастності (стійкості) статистичних процедур є розглянуті нижче статистика об'єктів нечислової природи та інтервальна статистика.

Існує велика розмаїтість моделей робастності в залежності від того, які саме відхилення від заданого параметричного сімейства допускаються. Найпопулярнішою виявилася модель викидів, у якій вихідна вибірка «засмічується» малим числом «викидів», що мають принципово інший розподіл. Однак ця модель представляється «тупиковою», оскільки в більшості випадків великі викиди або неможливі через обмеженість шкали приладу, або від них можна позбутися, застосовуючи лише статистики, побудовані по центральній частині варіаційного ряду. Крім того, у подібних моделях звичайно вважається відомої частота засмічення, що в сполученні зі сказаним вище робить їх малопридатними для практичного використання. Перспективнішою представляється модель Ю. Н. Благовіщенського, у якій відстань між розподілом кожного елемента вибірки і базовим розподілом не перевершує заданої малої величини.

Робастність у статистиці надає підходи, спрямовані на зниження впливу викидів і інших відхилень у досліджуваній величині від моделей, використовуваних у класичних методах статистики. На практиці наявність у вибірках навіть невеликого числа різких викидів може призвести до того, що значення, одержувані в результаті, можуть перестати нести в собі який-небудь зміст. Для того, щоб уникнути подібних неприємностей, необхідно якимось образом знизити вплив «поганих» спостережень, або зовсім виключити їх. Однак виникає питання: «Як відрізнити „погане“ спостереження від „гарного“?» Навіть найпростіший з підходів — суб'єктивний (заснований на внутрішніх відчуттях статистика) — може принести значну користь, однак для відбраковування все-таки переважніше застосовувати методи, що мають у своїй основі деякі строгі математичні обґрунтування, а не тільки інтуїтивні припущення дослідника. Цей процес являє собою дуже нетривіальну задачу для статистика і визначає собою один з напрямків статистичної науки.

Поняття робастності

Під робастністю в статистиці розуміють нечутливість до різних відхилень і неоднородностям у вибірці, зв'язаним з тими чи іншими, у загальному випадку невідомими, причинами. Це можуть бути помилки детектора, що реєструє спостереження, чиїсь сумлінні чи не дуже спроби «підігнати» вибірку до того, як вона потрапить до статистики, помилки оформлення, неочікувані помилки та багато чого іншого. Наприклад, найбільш робастною оцінкою параметра зрушення закону розподілу є медіана, що на інтуїтивному рівні цілком очевидно (для строгого доказу варто скористатися тим, що медіана є усіченою М-оцінкою). Крім безпосередньо «бракованих» спостережень також може бути присутньою деяка кількість спостережень, що підкоряються іншому розподілу. Через умовність законів розподілів, а це не більш, ніж моделі опису, сама по собі вибірка може містити деякі розбіжності з ідеалом.

Проте, параметричний підхід настільки вжився, довівши свою простоту і доцільність, що безглуздо від нього відмовлятися. Тому і виникла необхідність пристосувати старі моделі до нових задач.

Варто окремо підкреслити і не забувати, що відбраковані спостереження мають потребу в окреміїй більш пильній увазі. Спостереження, що здаються «поганими» для однієї гіпотези, можуть цілком відповідати інший. Нарешті, аж ніяк не завжди спостереження, що різко виділяються, є «браком». Одне таке спостереження для генної інженерії, приміром, коштує мільйонів інших, що мало відрізняються одне від одного.

Основні підходи

Для того, щоб обмежити вплив неоднорідностей, або ж зовсім його виключити, існує безліч різних підходів. Серед них виділяються два основних напрямки:

  • Згрупувати дані, не відбраковуючи окремі спостереження, у такий спосіб значно знизивши можливість псування вибірки окремими випадами. Після чого з достатнім ступенем упевненості користатися класичними методами статистики.
  • Відслідковувати викиди безпосередньо в процесі аналізу. Наприклад, для визначення параметрів закону розподілу використовувати ітераційну процедуру з усіченими чи th- зниженими M-оцінками.

Групування даних як метод робастной статистики

За допомогою групування вибірки можна різко знизити вплив окремих спостережень, не відкидаючи їх. Розбивка на інтервали не представляє особливих труднощів і дає дуже відчутний результат. Існує три найбільш розповсюджені способи розбивки:

  • Розбивка на інтервали рівної довжини. Найбільш простий і тому розповсюджений спосіб.
  • Розбивка на інтервали рівної імовірності, також називане рівночастотним групуванням, що відбиває практичну реалізацію цього методу. У результаті такого групування вибірки здійснюється максимізація величини інформаційної ентропії ∑ − P i ln ⁡ P i {\displaystyle \sum {-P_{i}}\ln {P_{i}}} , де P i = ∫ x i − 1 x i f ( x ) d x {\displaystyle P_{i}=\int \limits _{x_{i-1}}^{x_{i}}f(x)\,\mathrm {d} x\!} і досягається найбільша асимптотична потужність критерію згоди χ 2 {\displaystyle \chi ^{2}} , або критерію відношення правдоподібності.
  • Розбивка на асимптотично оптимальні інтервали. При такій розбивці мінімізуються втрати інформації в результаті групування, тобто максимізується фишеровська інформація ∑ ( ∂ ln ⁡ P i ∂ θ ) 2 P i {\displaystyle \sum \left({\frac {\partial \ln P_{i}}{\partial \theta }}\right)^{2}P_{i}\!} , де θ {\displaystyle \theta \!}  — оцінюваний параметр закону. Для багатьох законів розподілу удалося одержати інваріантні щодо параметрів межі інтервалів, і були складені відповідні таблиці. Така розбивка дозволяє максимізувати потужність критерію.

Підхід, заснований на функції впливу

Уведення

У даному розділі розглядаються аспекти, що стосуються оцінювання параметрів закону розподілу по «засміченій» вибірці з використанням підходу, запропонованого Хампелем. Для того, щоб вивчити вплив окремо узятого спостереження на оцінку (розглянуту статистику) того чи іншого параметра закону розподілу Хампелем уводиться так називана функція впливу (influence function), що являє собою ні що інше, як похідну цієї статистики.

Основні поняття

Уведемо функціонал T {\displaystyle T\!} , як функцію від деякої вибірки X = ( X 1 … X n ) ∈ X {\displaystyle X=(X_{1}\ldots X_{n})\in \mathbb {X} \!} з розподілу F {\displaystyle F\!} c параметром θ ∈ Θ {\displaystyle \theta \in \Theta \!} (воно ж F θ {\displaystyle F_{\theta }\!} ). T {\displaystyle T\!} залежить від X : F θ {\displaystyle X:F_{\theta }\!} . Значить T {\displaystyle T\!} є функцією від закону F {\displaystyle F\!} і від параметра θ {\displaystyle \theta \!} . Нехай T {\displaystyle T\!} також задовольняє деяким умовам заможності і регулярності:

T ( F ) = θ , ∫ T d F = 0. {\displaystyle T(F)=\theta ,\quad \int T\,\mathrm {d} F=0.\!}

Визначимо похідну цього функціонала T {\displaystyle T\!} у точці з розподілом F {\displaystyle F\!} у такий спосіб:

∃ a : lim t → 0 T ( ( 1 − t ) F + t G ) − T ( F ) t := ∫ a d G , {\displaystyle \exists \,a:\quad \lim _{t\to 0}{\frac {T((1-t)F+tG)-T(F)}{t}}:=\int a\,\mathrm {d} G,\!}

де a {\displaystyle a\!}  — деяка функція, зміст якої проясниться на наступному кроці, а G {\displaystyle G\!}  — деякий закон розподілу, відмінний від F {\displaystyle F\!} .

Підставимо Δ x {\displaystyle \Delta _{x}\!} , що приписує одиничну масу події X = x {\displaystyle X=x\!} , замість G {\displaystyle G\!} , у результаті чого від інтеграла в правій частині вираження залишиться тільки a ( x ) {\displaystyle a(x)\!} , і перепишемо результат, що вийшов, у наступному виді:

I F = lim t → 0 T ( ( 1 − t ) F + t Δ x ) − T ( F ) t {\displaystyle IF=\lim _{t\to 0}{\frac {T((1-t)F+t\Delta _{x})-T(F)}{t}}\!}

Цю функцію і називають функцією впливу.

Щоб пояснити зміст уведеного поняття підставимо 1 n {\displaystyle {\frac {1}{n}}\!} замість t {\displaystyle t\!} , замінивши межу. У результаті вираження F t , x = ( 1 − t ) F + t Δ x {\displaystyle F_{t,x}=(1-t)F+t\Delta _{x}\!} перетвориться в F 1 n , x = ( n − 1 ) F + Δ x n {\displaystyle F_{{\frac {1}{n}},x}={\frac {(n-1)F+\Delta _{x}}{n}}\!} , що відповідає ситуації, коли у вибірку, що складається з ( n − 1 ) {\displaystyle (n-1)\!} спостереження, що підкоряються розподілу F {\displaystyle F\!} , додають ще одне нове. У такий спосіб I F {\displaystyle IF\!} відслідковує реакцію використовуваного функціонала T {\displaystyle T\!} на внесене додавання, показуючи вплив від внеску окремого спостереження x {\displaystyle x\!} на оцінку по всій сукупності даних.

Для характеристики впливу окремих спостережень також уводять поняття чутливості до великої помилки γ {\displaystyle \gamma }  :

γ = sup x ∈ X | I F ( x ) | {\displaystyle \gamma =\sup _{x\in \mathbb {X} }|IF(x)|}

Якщо функція впливу обмежена, то відповідну оцінку називають B(бэ)-робастной.

М-оцінки

Найбільш ефективними і широко використовуваними оцінками параметрів законів розподілів є оцінки максимальної правдоподібності (ОМП), що визначаються однією з наступних умов:

∑ i ln ⁡ P i → max θ ∈ Θ , ∑ i ∂ ln ⁡ P i ∂ θ = 0 , ∑ i P i ′ P i = 0 {\displaystyle \sum _{i}\ln P_{i}\to \max _{\theta \in \Theta },\qquad \sum _{i}{\frac {\partial \ln P_{i}}{\partial \theta }}=0,\qquad \sum _{i}{\frac {P_{i}'}{P_{i}}}=0\!}

де у випадку негрупованої вибірки P i = f ( x i , θ ) {\displaystyle P_{i}=f(x_{i},\theta )\!} , а у випадку групованої — P i = ( ∫ x i − 1 x i f ( x , θ ) d x ) n i {\displaystyle P_{i}=\left(\int \limits _{x_{i-1}}^{x_{i}}f(x,\theta )\,\mathrm {d} x\right)^{n_{i}}\!}

М-оцінки — є деяке узагальнення ОМП. Вони визначаються аналогічно одним зі співвідношень:

∑ i = 1 N ρ ( x i , θ ) → max θ ∈ Θ , ∑ i = 1 N ϕ ( x i , θ ) = 0 {\displaystyle \sum _{i=1}^{N}\rho (x_{i},\theta )\to \max _{\theta \in \Theta },\qquad \sum _{i=1}^{N}\phi (x_{i},\theta )=0\!}

Якщо накласти умову регулярності в підстановці F t , x = ( 1 − t ) F + t Δ x {\displaystyle F_{t,x}=(1-t)F+t\Delta _{x}\!} і продиференціювать його по t {\displaystyle t\!} у 0:

0 = ∂ ∂ t ∫ ϕ ( x , T ( F t , x ) ) d F t , x {\displaystyle 0={\frac {\partial }{\partial {t}}}\int \phi (x,T(F_{t,x}))\,\mathrm {d} F_{t,x}\!} 0 = ∫ ∂ ϕ ( x , T ( F t , x ) ) ∂ θ I F d F t , x + ∫ ϕ ( x , T ( F t , x ) ) d ∂ ( ( 1 − t ) F + t Δ x ) ∂ t {\displaystyle 0=\int {\frac {\partial \phi (x,T(F_{t,x}))}{\partial \theta }}IF\,\mathrm {d} F_{t,x}+\int \phi (x,T(F_{t,x}))\,\mathrm {d} {\frac {\partial ((1-t)F+t\Delta _{x})}{\partial t}}\!}


:: 0 = I F ∫ ∂ ϕ ( x , T ( F t , x ) ) ∂ θ d F t , x + ϕ ( x , T ( F t , x ) ) {\displaystyle 0=IF\int {\frac {\partial \phi (x,T(F_{t,x}))}{\partial \theta }}\,\mathrm {d} F_{t,x}+\phi (x,T(F_{t,x}))\!}

те не представляє великої праці одержати вираження функції впливу для M-оцінок: I F = − ϕ ( x ) ∫ ϕ θ ′ ( x ) d F {\displaystyle IF={\frac {-\phi (x)}{\int \phi '_{\theta }(x)\,\mathrm {d} F}}\!}

Зазначений вираз дозволяє зробити висновок про те, що M-оцінки еквівалентні з точністю до ненульового множника-константи.

Нескладно перевірити, що для ОМП стандартного нормального закону розподілу N ( 0 , 1 ) {\displaystyle {\mathcal {N}}(0,1)\!} функції впливу I F {\displaystyle IF\!} параметра зрушення і параметра масштабу виглядають відповідно:

I F = x , I F = 1 2 x 2 − 1 2 {\displaystyle IF=x,\quad IF={\frac {1}{2}}\;x^{2}-{\frac {1}{2}}\!}

Ці функції необмежені, а це значить, що ОМП не є робастной у термінах B-робастности.

Для того, щоб це виправити, M-оцінки штучно обмежують, а значить і обмежують її I F {\displaystyle IF\!} (див. вираження I F {\displaystyle IF\!} для M-оцінок), установлюючи верхній бар'єр на вплив різко виділяються (далеко віддалених від передбачуваних значень параметрів) спостережень. Робиться це введенням так званих усічених M-оцінок, обумовлених вираженням:

ϕ b ( z ) = { ϕ ( b ) , b < z ϕ ( z ) , − b < z ⩽ b ϕ ( − b ) , z ⩽ − b {\displaystyle \phi _{b}(z)=\left\{{\begin{array}{lr}\phi (b),&b<z\\\phi (z),&-b<z\leqslant b\\\phi (-b),&z\leqslant -b\end{array}}\right.\!}

де z = x − θ S {\displaystyle z={\frac {x-\theta }{S}}} , θ {\displaystyle \theta \!} і S {\displaystyle S\!}  — оцінки параметрів зрушення і масштабу відповідно.

Серед усічених M-оцінок оптимальними з погляду B-робастности є усічені ОМП.

Процедура оцінювання параметрів

Щоб вирішити рівняння ∑ i = 1 N ϕ ( x i , θ ) = 0 {\displaystyle \sum _{i=1}^{N}\phi (x_{i},\theta )=0\!} необхідно скористатися яким-небудь чисельним методом. Для цього знадобиться вибрати початкові наближення. Нульовим параметром зрушення звичайно служить медіана, параметром масштабу — значення, кратне медіані відхилень від медіани.

Наприклад, якщо необхідно оцінити параметр зрушення, скажемо, нормального закону розподілу, можна скористатися методом Ньютона чисельного перебування коренів рівняння. У результаті вся процедура перебування параметра зводиться до ітеративного обчислення вираження:

θ k + 1 = θ k − ∑ i = 1 N ϕ ( x i , θ k ) ∑ i = 1 N ϕ θ ′ ( x i , θ k ) = θ k − ∑ i = 1 N ϕ ( ( x i − θ k ) / S ) ∑ i = 1 N ϕ θ ′ ( ( x i − θ k ) / S ) = θ k + S ∑ i = 1 N ϕ ( z ) ∑ i = 1 N ϕ z ′ ( z ) {\displaystyle \theta _{k+1}=\theta _{k}-{\frac {\sum _{i=1}^{N}\phi (x_{i},\theta _{k})}{\sum _{i=1}^{N}\phi '_{\theta }(x_{i},\theta _{k})}}=\theta _{k}-{\frac {\sum _{i=1}^{N}\phi \left((x_{i}-\theta _{k})/S\right)}{\sum _{i=1}^{N}\phi '_{\theta }\left((x_{i}-\theta _{k})/S\right)}}=\theta _{k}+S{\frac {\sum _{i=1}^{N}\phi \left(z\right)}{\sum _{i=1}^{N}\phi '_{z}\left(z\right)}}} ,

де S {\displaystyle S\!}  — деяка оцінка параметра масштабу, що потрібна для того, щоб зрівняти розподілу з різним розмахом.

Див. також

  • Публікації з робастних методів оцінювання параметрів і перевірки статистичних гіпотез на сайті професора НГТУ Лемешко Б. Ю.



Робастність у статистиці Інформацію Про

Робастність у статистиці


  • user icon

    Робастність у статистиці beatiful post thanks!

    29.10.2014


Робастність у статистиці
Робастність у статистиці
Робастність у статистиці Ви переглядаєте суб єкт.
Робастність у статистиці що, Робастність у статистиці хто, Робастність у статистиці опис

There are excerpts from wikipedia on this article and video

Випадкові Статті

Ophidion scrippsae

Ophidion scrippsae

Ophidion scrippsae — вид риб родини Ошибневих Ophidiidae Поширений у східній Пацифіці від Пойнт...
Комар Володимир Степанович

Комар Володимир Степанович

Медіафайли у Вікісховищі У Вікіпедії є статті про інших людей з прізвищем Комар Володимир Ст...
1 липня

1 липня

1 липня — 182-ий день року (183-ий в високосні роки) в григоріанському календарі. До кінця року...
Хачеріді Євген Григорович

Хачеріді Євген Григорович

* Ігри та голи за професіональні клуби враховуються лише в національному чемпіонаті. Інформацію поно...