Приглашаем посетить сайт
СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ
СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ - один из осн. разделов матем. статистики, <посвящённый оцениванию параметров теоретич. моделей по косвенным измерениямили распределений случайной величины х по наблюдению её реализаций. <Если предполагается, что распределение является элементом параметрич. семейства , то возникает задача параметрического оценивания. Когда вид распределениянеизвестен, говорят о задаче непараметрического оценивания. При параметрич. <оценивании различают два подхода: точечное оценивание и интервальноеоценивание.
Точечное оценивание. Пусть распределение случайной величины х - заданнаяф-ция с неизвестными параметрами а, а x = (x1,x2,...,xN)- вектор возможных значений х. Точечное оценивание заключаетсяв выборе ф-ции ,значение к-рой при заданном аг можно использовать вместо параметра . в качестве его приближённого значения. Ф-цию наз. оценкой параметра а, принцип выбора ф-ции - методом оценивания. <Очевидно, что можно предложить много оценок, поэтому необходимо изучитьследующие осн. свойства оценок.
Состоятельность. При увеличении объёма N наблюдений (измерений)оценка должна приближаться к истинному значению параметра. Оценку называют состоятельной по вероятности, если для любых , существует такое N, что вероятность реализации неравенства будет меньше Примером состоятельной оценки служит выборочное среднее ,к-рое является оценкой ср. значения величины ,если ф-ция ллотности вероятности р(х )имеет конечную дисперсию.
Смещение. Под смещением оценки принято понимать отклонение её ср. значения от истинного значения .Оценку наз. <несмещённой, если при любых N и а имеем , или . Несмещённая оценка обычно предпочтительнее смещённой, т. к. смещениеявляется систематич. ошибкой в оценке, к-рая зависит от истинного значенияпараметра а и поэтому редко поддаётся вычислению. Выборочное среднееявляется несмещённой оценкой, тогда как выборочная дисперсия
являетсясмещённой оценкой дисперсии
Эффективность. Простейшей характеристикой точности оценки является ср. <значение квадрата её расстояния от истинного значения:
где - дисперсия оценки ,равная
Дисперсия характеризует «ширину» распределения, т. е. «шумовую» составляющуюошибки оценки . Поэтому в классе оценок с данным смещением предпочтительнее оценка с мин. дисперсией. Справедливо неравенство Крамера- Рао:
к-рое и определяет максимально достижимую точность (в смысле в классе оценок с данным смещением по выборке х. Величину
где - ф-ция плотности распределения ,называют количеством информации по Р. Фишеру (R. Fisher) о параметре ав оценке Величину
где - ф-ция правдоподобия, а - плотность ф-ции распределения х, называют количеством информациипо Р. Фишеру о параметре в выборке х. В классе несмещённых оценок
и информац. смысл величин и становитсяочевидным: их значение определяет минимально достижимое расстояние от а. Первое неравенство в (1), (3) превращается в равенство лишь тогда, <когда ф-ция плотности распределения оценки имеет экспоненц. форму:
то и второе неравенство в (1), (3) превращается в равенство. Такую оценкуназывают эффективной в смысле Крамера - Рао. Оценку, для к-рой выполняетсяравенство (5), т. е. такую, в к-рой количество информации о параметре . такое же, как в самой выборке х, называют достаточной статистикой. <Условием существования достаточной статистики является факторизация ф-ции правдоподобия:.Неравенство Крамера - Рао полезно тем, что позволяет ещё на стадии планированияэксперимента оценить максимально достижимую точность «измерения» параметровизучаемых распределений.
Требования (3) и (4) являются достаточно жёсткими, поэтому при конечных N эфф. оценки редки. В связи с этим рассматривают поведение при и наз. <оценку асимптотически эффективной, если при .Заметим, что асимптотич. несмещённость следует из состоятельности оценки. <Рассмотрим наиб. общие и распространённые методы получения точечных оценок.
Метод максимума правдоподобия (подробнее см. Максимального правдоподобияметод).
В этом методе вероятность реализации вектора наблюдений х,, после подстановки в неё реализовавшихся значений х рассматриваюткак ф-цию параметров а и называют ф-цией правдоподобия:. В качестве оценки в методе макс. правдоподобия для вектора параметров а берут то значение ,к-рое соответствует макс. значению ф-ции правдоподобия. При нек-рых общихпредположениях оценки в методе макс. правдоподобия состоятельны, асимптотическиэффективны и асимптотически нормально распределены. При конечных N оценкав методе макс. правдоподобия имеет оптим. свойства только в том случае, <когда существует достаточная статистика. Метод наименьших квадратов (подробнеесм. Наименьших квадратов метод), В этом методе в качестве оценкивектора параметров а берут то значение ,к-рое соответствует минимуму квадратичной формы.
где D - матрица ошибок измерений х п. При нек-рыхобщих предположениях оценка в методе наим. квадратов состоятельна и асимптотическинормально распределена, но не является асимптотически эффективной. Если - линейные ф-ции параметров а, то в классе линейных несмещённыхоценок оценки в методе наим. квадратов имеют наим. дисперсии.
Метод моментов. Пусть mi - выборочные моменты,- моменты ф-ции плотности распределения, . В методе моментов выбирают в качестве оценки параметров а решение системы ур-ний .Оценки в методе моментов состоятельны, асимптотически несмещены, но неявляются асимптотически эффективными, -метод. Если объём выборки х велик и данные х п сгруппированыв гистограмму, то для оценки параметров а используют -метод, <являющийся частным случаем метода наим. квадратов. Пусть У; - число наблюдений, <попавших в Z-канал гистограммы, а - их ожидаемое число:
В качестве оценки параметров а берут значение ,соответствующее минимуму квадратичной формы
Оценки в -методеи модифицированном -методесостоятельны, асимптотически нормально распределены и асимптотически эффективны. <Своё название эти методы получили по той причине, что при больших Yl (приближение нормального распределения)распределено по -распределениюс числом степеней свободы k = L - I -1, где L - число каналовгистограммы, I - число параметров.
Интервальное оценивание состоит в отыскании интервала [a1,a2],к-рый с заданной вероятностью содержит истинное значение параметра а. Др. словами, нужно найтитакой интервал [a1,a2] (как ф-цию вектора наблюдений х), к-рый «накроет» с вероятностью В истинное значение а приданном значении х. Это т. н. доверительный интервал с вероятностнымсодержанием (или коэф. доверия ).Такое определение неоднозначно, его обычно доопределяют требованием минимальностидлины среди всех интервалов с коэф. доверия
Пусть распределение зависит от одного параметра а и - к.-л. точечная оценка а, ф-ция плотности вероятности к-рой равна .Тогда центр. доверит. интервал определяется как решение ур-ний
Такой доверит. интервал может и не быть минимальным. Однако, если точечнаяоценка асимптотически эффективна, то при больших N этот интервал будетблизок к минимальному.
Более общий подход к получению доверит. интервалов заключается в поискетакой ф-ции от оценки и параметра, распределение к-рой не зависит от искомогопараметра. Напр., пусть вектор оценок распределён по многомерному Гаусса распределению со средним . и матрицей вторых моментов D. Тогда квадратичная форма распределена по закону (см. Распределение), к-рое не зависит от а. Задаваясь вероятностью того, что ,находим и доверит. область для а:, имеющую вид гиперэллипсоида с центром в точке Этот пример имеет практич. применение, т. к. асимптотически, при больших N, мн. методы оценивания дают нормально распределённые оценки параметров.
Непараметрическое оценивание. В этом случае не делают к.-л. предположенийо плотности ф-ции распределения. В качестве точечной оценки часто используютгистограмму. В этом методе оценивания числовую ось, на к-рой определены х п, делят на ряд областей rj (j =1,2,...,k), называемых каналами гистограммы. Тогда задают константами в каждой области rj, причём .Здесь C(N) - коэф. нормировки, gj(x) - индикаторная ф-цияобласти rj:
Более формально оценки ф-ции плотности вероятности записывают в виде
Гистограмма является простой в вычислит. плане, но смещённой и несостоятельнойоценкой. Поэтому используют более сложные, но состоятельные оценки, напр. <метод ближайших соседей (см. Непараметрические методы статистики).В качестве точечной оценки ф-ции распределения можно взять выборочную ф-циюраспределения:
где подразумевается, что х 1, ..., х N расположеныв порядке их возрастания. Эта оценка оказывается несмещённой и состоятельной. <Ф-ция распределения Р(х )допускает и интервальную оценку. Рассмотримстатистику , для к-рой асимптотич. распределением является =. Т. к. это распределение не зависит от Р(х), можно вычислить , для к-рого вероятность равна , и задать доверит. зону для Р(х):
Считается, что асимптотич. распределение справедливо при N80.
Лит.: Митропольский А. К., Техника статистических вычислений,2 изд., М., 1971; Р а о С. Р., Линейные статистические методы и их применения, <пер. с англ., М., 1968; Кендалл М., Стьюрт А., Статистические выводы исвязи, пер. с англ., М., 1973; Статистические методы в экспериментальнойфизике, пер. с англ., М., 1976. В. П. Жигунов, С. В. Клименко.