Приглашаем посетить сайт
Статьи на букву "С"
Критерий, распределение статистики которого не зависит от того, как распределены наблюдения. Ясно, что подобные критерии не существуют, и приведенную фразу нельзя считать определением - ее следует считать лишь метафорой, пожеланием. На практике часто ограничиваются слабой зависимостью распределений статистики критерия и наблюдений, причем смысл эпитета "слабая" сильно зависит от контекста. Пример. Критерий Колмогорова-Смирнова, проверяющий гипотезу о том, что наблюдения из двух заданных рядов распределены по одному и тому же неизвестному распределению. |
Один из способов сглаживания временного ряда. При нечетной ширине окна соответствующая формула выглядит особенно просто: |
Сглаживание применяется для уменьшения иррегулярностей (случайных изменений) временных рядов. Распространенным методом сглаживания является сглаживание скользящим средним, хотя не следует забывать и про другие. Способ сглаживания определяется свойствами ряда и целями его обработки. |
Один из способ описания временного ряда - разложение его на компоненты: тренд, периодическую, иррегулярную. Когда временная ось связана с датами, а период - с месяцами или кварталами, периодическую компоненту называют сезонной. Часто ее продолжают называть сезонной и при других периодах. |
В рядах наблюдений качественного показателя - повторение одного и того же значения признака называется "серией". В рядах наблюдений количественного показателя - последовательный набор значений, которые монотонно возрастают или монотонно убывают, называют "растущей" или "падающей" серией, соответственно. Конечно, рассматривают и серии равных. Примечание. Еще раз - это понятие применимо лишь к выборкам, расположенным в каком либо интерпретируемом порядке. Пример подобной выборки - временной ряд. |
Плотность распределения симметрична относительно среднего. Многие стандартные статистические методы годятся только для симметричных распределений. Поэтому асимметричные данные часто стараются преобразовать так, чтобы привести к более или менее симметричному виду. |
Разница между ожидаемым значением статистики и истинным значением параметра генеральной совокупности, который эта статистика оценивает. |
Гипотеза, которая включает более одной (в частности, бесконечное число) простых гипотез. Примечание. Эта терминология естественна для ситуации, когда совокупность гипотез удается параметризовать просто устроенным множеством (скажем, одномерным континуумом). При этом простая гипотеза соответствует точке в пространстве параметров. Пример. Рассмотрим семейство нормальных распределений. Гипотеза является простой, если стандартное отклонение совокупности известно, и сложной, если оно неизвестно. |
Мы говорим о случайной величине X, когда у нас есть множество и функция, задающая вероятности совокупности подмножество этого множества. Множество называется множеством значений случайной величины X, элементы - событиями; вероятность события А обозначается Pr(A) или P(A). Случайная величина, которая может принимать только отдельные значения, называется дискретной. Случайная величина, которая может принимать любые значения из конечного или бесконечного интервала, называется непрерывной. Термин случайная величина используют чаще, когда речь идет о теоретических аспектах статистики. Когда же говорят об анализе реальных данных, прикладной статистике, чаще пользуются термином переменная, добавляя при необходимости эпитет "случайная". |
Смесь распределений - это распределение, в котором каждое наблюдение подчиняется одному из нескольких распределений. Например, когда мы проводим измерения артериального давления в некоторой популяции, наблюдения для мужчин могут представлять нормальное распределение, для женщин тоже нормальное, но с другим средним и дисперсией, и вместе они не будут нормально распределены. Синоним: смешанное распределение. |
Факторы в дисперсионном анализе могут быть как фиксированными, так и случайными. Если все факторы фиксированы, это модель типа I, если же они случайны, это модель Типа II. Модель со смешанными эффектами обычно называют моделью Типа III. Многофакторные модели дисперсионного анализа, содержащие по крайней мере один фиксированный и по крайней мере один случайный эффект, называют смешанными. Рандомизированный блок также обычно является смешанной моделью, так как представляющий интерес фактор обычно имеет хотя бы один фиксированный эффект. Иногда термин смешанная модель применяется к моделям дисперсионного анализа, в которых есть по крайней мере один фактор повторных измерений (внутренний), и по крайней мере один группирующий фактор. |
Рассмотрим несколько генеральных совокупностей, подчиняющихся каждая своему распределению, и следующую двухэтапную схему: Сначала мы выбираем совокупность, которой будет принадлежать очередное наблюдение, затем производим наблюдение. Если "потерять" информацию из первого этапа - "забыть" совокупность, к которой принадлежит каждое наблюдение, распределение полученной выборки окажется смесью распределений. Распределение вероятностей совокупностей, а также параметры каждого отдельного распределения вместе называются параметрами смеси. Например, артериальное давление, измеренное в группе мужчин, может быть нормальным, в группе женщин - также нормальным, однако, если параметры (средние и дисперсии) этих распределений различны, то совместное распределение не будет нормальным. Смесь двух нормальных распределений с одинаковым средним, но разными дисперсиями, когда только меньшая часть значений берется из распределения с большей дисперсией, часто называют загрязненным нормальным распределением. Хвост такого распределения тяжелее, чем у нормального. Если доля значений из распределения с большей дисперсией достаточно мала, загрязненное нормальное распределение будет выглядеть как нормальное распределение с выбросами. В подобной ситуации полезно бывает выделить выбросы в отдельную подвыборку. См. смесь распределений. |
Статистика, ожидаемое значение которой не равно значению оцениваемого этой статистикой параметра генеральной совокупности. |
Так говорят о равных значениях переменной. См. например, меру D Соммера. |
Пара наблюдений с двумя (по меньшей мере) порядковыми переменными, значения которых на первом наблюдении оба меньше или оба больше, чем на втором. Вот пример согласованной пары: X1 X2 10 100 20 150 Антоним: рассогласованные |
Критерий состоятелен для заданной альтернативной гипотезы, если с ростом объема выборки его мощность стремится к 1. |
См. парные выборки. |
Специфичность критерия - это единица минус его мощность, т.е. его вероятность ошибки 2-го рода. |
Мощность зависит от уровня значимости, используемой в критерии статистики, и от альтернативной гипотезы. Как правило, мощность возрастает с ростом объема выборки. К сожалению, она убывает с убыванием уровня значимости. |
Среднее арифметическое между наибольшим и наименьшим наблюденными значениями количественного показателя. Примечание. Как термин, так и статистика сейчас практически не используются. |
Термин "среднее" обычно используется, когда говорят о параметре генеральной совокупности, когда же имеют в виду статистику, т.е. результат вычислений по выборочным данным, добавляют соответствующий эпитет, например, среднее арифметическое. |
Сумма значений, деленная на их число: . Среднее арифметическое простой случайной выборки является несмещеннрй оценкой среднего генеральной совокупности. Следует иметь в виду, что среднее арифметическое - не единственная и не всегда лучшая характеристика центральной тенденции распределения. Используются также и другие показатели, такие как геометрическое или гармоническое среднее, медиана или мода. |
То же, что и стандартное отклонение. Примечание. Говорят также "среднеквадратичное отклонение". Кроме того, в том же смысле используют термины квадратичная ошибка, средняя квадратичная ошибка. |
Мера разброса: среднее абсолютных величин отклонений от некоторого фиксированного значения, взятых по модулю. Примечания. 1. Обычно в качестве такого фиксированного значения выбирают среднее арифметическое выборки, хотя среднее отклонение минимально, когда в качестве такого значения берут медиану. Итак, как правило, под "средним отклонением" понимают среднее отклонение от среднего значения. 2. Эта мера практически не используется из-за трудностей анализа ее выборочных свойств. |
Стандартное отклонение статистики, в частности, выборочного распределения оценки. Как правило, употребляется в выражениях типа "стандартная ошибка среднего" (которая равна стандартному отклонению, деленному на корень квадратный из объема выборки). |
Распределение вероятностей нормированной нормальной случайной величины U, плотность распределения которой, равна при -<u< . |
Положительный квадратный корень из дисперсии . Используется как мера разброса, или рассеяния, данных. Как правило, так же называется и выборочная оценка , которая обозначается буквой s и вычисляется по формуле , где - среднее, n - объем выборки. |
См. стандартное нормальное распределение. |
Статистика - научная дисциплина. Статистические данные. А также - функция наблюдений. |
Статистика - функция, вычисляемая по наблюденной выборке. Соответственно, статистика критерия - это статистика, используемая в статистическом критерии. Если ее значение попадает в критическую область, нулевая гипотеза отвергается. Выбор статистики является важным этапом в разработке критерия. Он определяется вероятностной моделью, описывающей исследуемую ситуацию, и гипотезами - нулевой и альтернативной. |
Статистическая единица - элемент подлежащей изучению генеральной совокупности. См. тж. наблюдение. Полный синоним: sampling unit, experimental unit. |
Статистика, значение которой мы интерпретируем как силу проявления интересующего нас феномена. Примеры: сила взаимосвязи, вариабельность, уровень дохода. К статистическим мерам относятся среднее, дисперсия, коэффициенты корреляции и многие другие статистики. Статистические меры отличаются от статистических критериев использованием, интерпретацией их значений. |
Отсутствие связи между переменными. Независимость двух непрерывных переменных часто ошибочно отождествляют с равенством нулю их корреляции (ковариации), однако, это верно, только если они подчиняются двумерному нормальному распределению. |
Интервал, для которого можно утверждать с данным уровнем доверия, что он содержит, по крайней мере, заданную долю определенной совокупности. Примечание. Если обе границы определены по статистическим данным, то интервал - двусторонний. Если один из двух пределов представляет собой бесконечность или ограничение по случайной величине, то интервал - односторонний. |
Для двустороннего статистически накрывающего интервала - нижняя и верхняя границы этого интервала. Для одностороннего статистически накрывающего интервала - значение статистики, ограничивающей этот интервал. |
Искусство использовать информацию, содержащуюся в выборке, для умозаключений (to draw conclusions) о свойствах генеральной совокупности, из которой сделана эта выборка. |
Статистический критерий состоит из следующих компонент: пара гипотез - нулевая и альтернативная, статистика критерия и уровень значимости; по ним мы находим еще критическую область. Проверка гипотезы начинается с вычисления статистики критерия. Если значение попадает в критическую область, мы отвергаем нулевую гипотезу и считаем истинной ее альтернативу. В противном случае у нас нет оснований отвергнуть нулевую гипотезу. При проверке гипотезы мы можем допустить ошибку 1-го или 2-го рода. |
Параметр распределения хи-квадрат, а также , - параметры F-распределения принято называть их степенями свободы. Примечание. Название связано с числом оцененных по этой выборке параметров. В общем, количество степеней свободы равно объему выборки минус число параметров. |
Столбиковая диаграмма позволяет подытожить множество дискретных данных. Она часто применяется в разведочном анализе данных для иллюстрации основных характеристик распределений, которые на ней представлены рядом прямоугольников одинаковой ширина, каждый из которых соответствует одной из категорий. Длина (и, следовательно, площадь) каждого прямоугольника пропорциональна числу наблюдений в представляемой им категории. Столбиковые диаграммы используются для иллюстрации номинальных или порядковых данных. Столбиковые диаграммы можно выводить горизонтально или вертикально, между столбиками (прямоугольниками) обычно оставляют свободное пространство, в то время как на гистограмме столбики вплотную прижаты друг к другу. |
То же, что и группировка: разбиение выборки на непересекающиеся группы. Отдельные группы при этом называются стратами. |
В таблице сопряженности могут быть ячейки, в которые "теоретически" не может попасть ни одно наблюдение. Нули в этих ячейках и называются структурными и это обстоятельство нужно учитывать при построении модели. Таблица сопряженности, содержащая хотя бы один структурный нуль называется неполной таблицей. Критерий независимости хи-квадрат (Пирсона) и точный критерий Фишера не предназначены для подобных таблиц. Например, при изучении заболеваемости раком в таблице сопряженности, образованной факторами пол и тип рака, в ячейке для мужчин с раком яичников обязательно окажется 0 наблюдений, в то время как ожидаемое число мужчин с раком яичников не будет равно 0, если среди наблюдений есть хотя бы один мужчина и хотя бы один случай рака яичников. |
Представьте себе эксперимент, в котором измерения проводятся для множества групп. Если дисперсия разности между оцененными средними для любой из двух групп одинакова, то говорят, что данные обладают свойством сферичности. Сферичность является обычным требованием дисперсионного анализа при планах с повторными измерениями или рандомизированных планах. Более строгим условием является требование, чтобы все корреляции между двумя различными группами имели одно и то же значение. Это свойство называют составной симметрией. Из составной симметрии следует сферичность, но не наоборот. Критерии сферичности обычно в действительность основываются на проверке отсутствия составной симметрии. |