Приглашаем посетить сайт

Иностранная литература (ino-lit.ru)

Словарь статистики
Статьи на букву "К"

В начало словаря

По первой букве
A-Z А Б В Г Д З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Э Я
Предыдущая страница Следующая страница

Статьи на букву "К"

Качественная переменная

Дискретная (номинальная или ранговая) переменная.

Качественный

Измеренный в дискретной - номинальной или ранговой - шкале.

Качество подгонки распределения

Мера соответствия между наблюдаемым распределением и либо теоретическим распределением выбранным a priori, либо подобранным по результатам наблюдений

Квантиль

Число xp, p  [0,1], удовлетворяющее соотношению Pr(X<xp)  p  Pr(Xxp), называется p-квантилью (или квантилем - мнения грамотеев расходятся).

Процентиль определяется соответственно при значении p, выраженном в процентах.

Примечание. Если функция распределения  F(x) равна p во всем интервале между двумя последовательными значениями случайной величины, то любое значение в этом интервале можно рассматривать как p-квантиль. Если же у F(x) нет интервалов постоянства, то p-квантиль xp - это корень уравнения F(x) = p.

Примерами квантилей являются квартили и процентили.  

Квартиль

Квартили - это набор квантилей для p=0.25, 0.5, 0.75. Их оценками (квартилями эмпирического распределения) являются величины, делящие выборку данных на четыре группы, содержащие (по возможности) одинаковые количества наблюдений.

Когда говорят о квартилях, обычно имеют в виду верхний q3 и нижний q1 квартили; второй квартиль q2 равен медиане. Нижний квартиль q1 - это значение, ниже которого в упорядоченном множестве данных находится четверть данных, а верхний квартиль q3 - это значение, выше которого в упорядоченном множестве данных находится четверть значений. Разность q3 - q1, интерквартильная широта,  является робастной мерой рассеяния.

Квинтиль

Набор квантилей для p = 0.2, 0.4, 0.6, 0.8. Квинтили делят выборку на 5 равных частей.

Клетка;ячейка

В результате кросс-табуляции появляется совокупность подвыборок, каждая из которых задается уникальной комбинацией градаций факторов. Когда кросс-табуляцию представляют в виде (многомерной) матрицы, уникальную комбинацию градаций факторов называют клеткой или ячейкой.

Например, два фактора, пол со значениями мужской и женский и риск, со значениями низкий, средний и высокий, образуют шесть ячеек: мужчины с низким риском, мужчины со  средним риском, мужчины с высоким риском, женщины с низким риском, женщины со средним риском и женщины с высоким риском.        

Ковариата

В логистической регрессии ковариатами принято называть независимые переменные,  предикторы.

Гораздо более изощренную сущность это понятие обозначает в дисперсионном анализе.

Ковариата - это переменная, которая может влиять на взаимосвязь между изучаемыми переменными, однако сама по себе интереса не представляет. Как и разбиение на блоки и стратификация, ковариата часто используется для контроля изменчивости, не связанной с изучаемыми переменными. Ковариата может быть дискретным фактором, как эффект блока, или непрерывной переменной, как переменная X в ковариационном анализе. Например, анализируя, связь демографических факторов (возраст, пол, образование и т.д.) с тарифом заработной платы, месячные заработки сначала надо скорректировать, чтобы учесть (то есть удалить соответствующие эффекты) количество отработанных часов, которое и будет  ковариатой в нашем примере

Заметим, что некоторые используют термин ковариата, объединяя все переменные, которые могут повлиять на переменную отклика, включая как основные переменные (предикторы), так и вторичные, которые мы называем ковариатами.

Следует признать, что всем этим не исчерпываются возможные значения термина.

Ковариация

Недовычисленный коэффициент корреляции. 

В практической статистике практически не используется. Имеется, правда, ковариационный анализ.

Приведу, все-таки, его определение для любителей теории. Совместный центральный момент порядков 1 и 1:. Выборочная несмещенная оценка   вычисляется согласно формуле , где n - число наблюдений,  и  - средние арифметические.

Количественный

Антоним к слову qualitative, которое здесь переведено как качественный (не имеет отношения к каким бы то ни было потребительским свойствам).

Комплектный

Про наблюдение, у которого ни одно значение характеризующих его переменных не является пропущенным, говорят, что оно комплектное.

Антоним: некомплектное

Консервативный критерий

Критерий называют консервативным, если его фактический уровень значимости меньше декларируемого. Примером может служить критерий Колмогорова-Смирнова, применяемый для проверки гипотезы о совпадении распределений, который становится консервативным, когда параметры распределения оцениваются по данным, а не задаются заранее. Консервативный критерий реже, чем нужно отвергает нулевую гипотезу, когда она неверна, то есть является менее мощным, чем его неконсервативный собрат.

Противоположностью консервативному критерию является либеральный, для которого фактический уровень значимости  больше декларируемого.

Корректировка Бонферрони

Рассмотрим ситуацию, когда нам нужно проверять несколько статистических гипотез. Проверяя каждую из них по отдельности, мы знаем, что вероятность ошибки первого рода  не превосходит уровня значимости . Что мы можем сказать при этом о вероятности того, что проверяя N гипотез, мы ни разу не допустим ошибку 1-го рода? Идея Бонферрони состоит в следующем: если мы хотим, чтобы уровень значимости   составной гипотезы равнялся , то каждую из N отдельных гипотез следует проверять с уровнем значимости =/N.

Так, если мы хотим, чтобы при проверке 4 независимых гипотез вероятность допустить (хотя бы одну) ошибку не превосходила 0.05, то каждую отдельную гипотезу следует проверять с уровнем значимости 0.0125.

Корректировку Бонферрони обычно используют при сравнительно малом числе проверяемых гипотез, поскольку она приводит к консервативным критериям.

Корреляция

Когда говорят, что две случайные переменные коррелированны, имеют в виду, как правило, что они друг с другом как-то связаны.

Стандартной мерой связи переменных является коэффициент корреляции.  Следует, однако, помнить, что он измеряет лишь силу линейной связи и лишь в случае, когда обе переменные числовые.

См. тж. мера связи.

Коэффициент вариации

Отношение стандартного отклонения выборки к выборочному среднему, s/m.

Коэффициент вариации измеряет разброс множества данных как долю от их среднего. Часто выражается в процентах.

Является оценкой соответствующей характеристики параметра генеральной совокупности /. Конечно, не имеет смысла, когда среднее распределения равно нулю.

Коэффициент вариации (случайной величины или распределения вероятностей)

Отношение стандартного отклонения к математическому ожиданию (или его абсолютной величине) случайной величины, , а также отношение s/m оценок этих параметров. Коэффициент вариации является одной из мер разброса данных.

Примечания:

1.      

Это отношение часто выражают в процентах.

2.      

В качестве альтернативы иногда используется термин "относительное стандартное отклонение" , но такое словоупотребление не рекомендуется.

Коэффициент доверия

См. доверительный уровень.

Примечание. Иногда доверительным уровнем называют (достаточно малое) число ,  а коэффициентом доверия - число (1-), однако, этот вариант не рекомендуется; см. доверительная вероятность.

Коэффициент корреляции

Коэффициент корреляции - это число, заключенное между -1 и

1, которое измеряет силу линейной связи двух случайных переменных.

Положительное значение коэффициента корреляции означает, что с ростом одной из переменных другая также растет, с убыванием одной из них убывает и другая.

Отрицательное значение означает, что с ростом одной из переменных другая убывает, с убыванием одной из них другая растет. Коэффициент корреляции, равный нулю, означает, что между нашими переменными отсутствует линейная связь.

Обратите внимание: даже если коэффициент корреляции равен 1 по абсолютной величине и, следовательно, наши переменные функционально связаны (линейно), ничего нельзя сказать о причинно-следственной связи между ними.

В статистической практике в ходу два коэффициента корреляции: для числовых переменных используется коэффициент корреляции  Пирсона, для ранговых -  коэффициент корреляции Спирмена. Предложенный Кендаллом коэффициент ранговой корреляции почему-то почти не употребляется.         

Коэффициент корреляции Пирсона

Показатель связи двух случайных величин, равный отношению их ковариации к произведению их стандартных отклонений: . Выборочная оценка этого параметра, конечно, вычисляется так: , где Sxy - ковариация X и Y; Sx и

Sy - стандартные отклонения X и Y соответственно.

Примечания

1.      

Эта величина всегда будет лежать между -1 и 1, включая крайние значения.

2.      

Если две случайных величины независимы, коэффициент корреляции  между ними равен нулю. Обратите внимание: если коэффициент корреляции равен нулю, то сл.в. независимы тогда и только тогда, когда они подчиняются двумерному нормальному распределению. Это

"тогда и только тогда" послужило (и, видимо, еще послужит) источником неисчислимого количества заблуждений.

3.      

Этот коэффициент корреляции применяется для числовых показателей; для ранговых данных используются другие коэффициенты корреляции, такие как коэффициенты Спирмена и Кендалла.

Коэффициент корреляции (Спирмена)

Непараметрическая мера связи  между двумя переменными, измеренными в порядковых шкалах. Для всех наблюдений значения каждой из переменной ранжируются, после чего вычисляется коэффициент корреляции  

Пирсона между преобразованными переменными.

Примечания.

1.                 

Ранжировка переменной - преобразование, при котором каждое значение заменяется его рангом

- номером в вариационном ряду.

2.                 

В отличие от обычного коэффициента корреляции Пирсона равенство нулю данного коэффициента может и не означать линейной связи между переменными, поскольку для ранговых переменных линейная связь не определена.

Коэффициент регрессии

Коэффициент при независимой переменной в уравнении регрессии.

Коэффициент сопряженности

Термин относится к анализу таблиц сопряженности.

Является мерой связи между переменными строк и столбцов. Изменяется между 0 и 1, значение основывается на статистике хи-квадрат. На некоторых таблицах не достигает значения 1.

Кривая регрессии

Для двух случайных величин регрессия

X на Y (часто говорят также Y по X) - это функция y = f(x), дающая для каждого возможного значения x случайной величины X условное математическое ожидание  Y. Графическое представление этой функции и называется кривой регрессии.

Если функция f линейна, f(x) = a*x b, то кривая регрессии  Y по X представляет собой прямую, а регрессию называют простой линейной. В этом случае, коэффициент линейной регрессии Y по X - это коэффициент a перед x (угловой коэффициент, наклон) в уравнении линии регрессии.

Примечание. Для оценки коэффициентов линейной регрессии по выборке, состоящей из n пар наблюдений показателей X и Y, используют, как правило, метод наименьших квадратов.

Критерий независимости

Критерий независимости для таблиц сопряженности проверяет гипотезу о том, что переменные строки и столбца независимы. К таким критериям относится критерий независимости хи-квадрат

(Пирсона) и точный критерий Фишера.

Критерий однородности хи-квадрат

Предположим, что наша генеральная совокупность разбита на подсовокупности значениями признака А, а каждая из них, в свою очередь, - на под-подсовокупности значениями признака В.

Если распределения под-подсовокупностей не зависят от объемлющей подсовокупности, то говорят о независимости признаков A и B, а также о гипотезе однородности.

Пример. Предположим, что мы даем школьникам контрольную по математике. Одна из гипотез однородности состоит в предположении об одинаковых результатах мальчиков и девочек.

Конечно, фактически имеется в виду проверка гипотезы о независимости признаков, стандартным критерием для которой является критерий хи-квадрат  Пирсона.

Критерий согласия

Критерии согласия проверяют гипотезу о совпадении наблюденной эмпирической функции распределения с теоретической, постулируемой, функцией распределения.

Примеры.

1.      

Критерий согласия хи-квадрат делает это путем сравнения наблюденных и ожидаемых частот.

2.      

Критерий Колмогорова-Смирнова основывается на максимальной разности между эмпирической и постулируемой функциями распределения.

Переход к новой (иногда виртуальной) переменной. Ее  градации определяют категории, которые являются объединениями категорий объектов, соответствующих градациям исходной переменной.

Критерий согласия хи-квадрат

Критерий согласия хи-квадрат используется для проверки гипотезы о совпадении эмпирического и теоретического (постулируемого) распределений дискретных случайных величин. Критерий основывается на сравнении наблюденных и ожидаемых (теоретических) встречаемостей. Статистика критерия равна сумме квадратов разностей между наблюденными и ожидаемыми встречаемостями, деленных на ожидаемые встречаемости , где oi - наблюденная встречаемость i-й градации, а ei - ее ожидаемая встречаемость

Обратите внимание: эта статистика зависит от объема выборки.

Критерий Стьюдента

Статистический критерий, в котором, в предположении нулевой гипотезы, используемая статистика соответствует t-распределению (распределению Стьюдента).

Примечание. Вот примеры применения этого критерия:

1.      проверка равенства среднего из нормального распределения заданному значению, оцениваемому на основе статистики критерия как выборочное среднее и выборочная дисперсия

2.      проверка равенства средних из двух нормальных совокупностей с одинаковой дисперсией на основе двух  выборочных средних и двух выборочных дисперсий из двух независимых выборок, взятых из этих совокупностей;

3.      проверка значимости коэффициента регрессии или коэффициента корреляции.

Критерий хи-квадрат

Критерий, статистика которого подчиняется распределению .

Стандартные применения:

·         проверка равенства дисперсии нормальной совокупности и заданного значения дисперсии, оцениваемой на основе статистики критерия по выборке, взятой из этой совокупности;

·         сравнение наблюдаемых частот с "теоретическими", вычисленными в предположении, что проверяемая модель верна.

Критерийне зависимости хи-квадрат (Пирсона)

Критерий независимости хи-квадрат

Пирсона предназначен для проверки гипотезы о независимости двух признаков, задающих строки и столбцы таблицы сопряженности. Статистика этого критерия , где сумма берется по всем клеткам таблицы сопряженности. Она совпадает с статистикой критерия согласия хи-квадрат, специфика состоит лишь в способе вычисления ожидаемых встречаемостей: eij=ricj/N, где ri - сумма встречаемостей в i-й строке, cj - сумма встречаемостей в j-м столбце.

Критическая область

При построении критерия мы разбиваем совокупность возможных значений статистики критерия на две части так, что если наблюденное значение статистики попало в одну из них, которая и называется критической областью, мы отвергаем нулевую гипотезу и принимаем альтернативную, в противном же случае мы говорим, что у нас нет оснований отвергнуть ее.

Таким образом, критическая область  - это совокупность значений статистики критерия, которые "говорят", что нулевую гипотезу следует отвергнуть.

Эта область выбирается так, чтобы было выполнено следующее условие: если нулевая гипотеза верна, вероятность того, что значение статистики попадет в критическое множество, меньше выбранного уровня значимости.

Пример. При проверке нулевой гипотезы H0() о среднем нормального распределения с известным стандартным отклонением  при альтернативе H1(<) используют, как правило, выборочное среднее - статистику .

Критическая область критерия - это множество значений статистики, меньших , где n - объем выборки;   - (1-)-квантиль нормированной нормальной случайной величины.

Если рассчитанное значение  меньше A, гипотеза H0 отвергается, в противоположном случае не отвергается (статистики избегают говорить "принимается").

См. статистический критерий, критическое значение.

Критическое значение

Как правило статистика критерия одномерна, а критическая область   простирается либо от -до -x, либо от x до , либо является объединением двух этих лучей, т.е. является дополнением отрезка [-x, x].

В подобных случаях x называют критическим значением.

Критическое значение зависит от выбранного уровня значимости и от того, является ли критерий одно- или двусторонним.

См. критическая область, p-значение, наблюденная значимость

Кросс-табуляция

Разбиение выборки на группы в соответствии с значениями двух или более дискретных переменных. К одной группе относятся наблюдения с одинаковыми значениями переменных, которые в подобных случаях часто называют факторами.

Примечание. Расположим значения одной переменной вертикально, другой - горизонтально. В полученной матрице первую переменную часто называют переменной строки (ее значения задают строки матрицы), вторую - переменной столбца. Если элементами матрицы являются объемы выборок соответствующей кросс-табуляции, матрица называется таблицей сопряженности. Похожая матрица фигурирует в двухфакторном дисперсионном анализе.

Круговая диаграмма

Круговая диаграмма - это один из способов визуализации дискретных данных. Представляет собой круг, разделенный на  сегменты, каждый из которых соответствует определенной категории. Площадь каждого сегмента пропорциональна числу наблюдений в этой категории.

Является аналогом гистограммы.

Предыдущая страница Следующая страница