Приглашаем посетить сайт
Статьи на букву "П"
Параметр - это величина, обычно неизвестная и, следовательно, подлежащая оценке, которая представляет определенную характеристику генеральной совокупности. Например, математическое ожидание распределения - это параметр, характеризующий центральную тенденцию. Параметр совокупности имеет фиксированное значение. По имеющейся у нас выборке мы можем посчитать значение статистики, используемой для оценки параметра. Например, среднее выборки дает информацию о среднем генеральной совокупности, из которой была сделана эта выборка. Поскольку выборка случайна, это значение также случайно. Параметры часто обозначают греческими буквами (например, ), а соответствующие статистики - латинскими (например, s). |
Две выборки набираются таким образом, что с каждым наблюдением одной выборки сопоставлено наблюдение другой выборки; сопоставление основывается, как правило, на совпадении значений одной или более заданных характеристик (признаков). Примерами парных выборок являются повторные измерения одного и того же объекта, и наблюдения за мужчинами и женщинами, составляющими семейные пары. Парные выборки отличаются от независимых, в которых подобное соответствие оказывается скорее мешающим. |
Характеристика объекта исследования. |
Целая наука, цель которой - получить наиболее надежные выводы наиболее дешевым (во всех смыслах этого слова) способом. |
Производная (если она существует) от функции распределения . Примечание. Часто f(x)dx называют "элементом вероятности". |
Для трех случайных величин X, Y и Z регрессией X и Y на Z называют функцию z = f(x,y), которая для каждой пары значений переменных x и y дает математическое ожидание Z при X=x и Y=y. Часто то же самое называют регрессией Z по X и Y. Графическое изображение этой функции называют поверхностью регрессии. Если функция f линейна, f(x,y)=a´x b´y c, то поверхность регрессии представляет собой плоскость, а регрессия называется линейной. В этом случае коэффициент линейной регрессии Z по X - это коэффициент a перед x в уравнении плоскости регрессии. Ясно, как обобщить приведенное определение на случай более трех случайных величин. |
Термин, обозначающий выполнение статистического исследования несколько раз одним и тем же методом на одной и той же совокупности при одинаковых условиях. Примечание. Термин употребляется, в основном, в дисперсионном анализе и планировании экспериментов. |
Так говорят про модель, которая слишком хорошо отражает особенности выборки, по которой ее строили. Подобная модель будет работать плохо за пределами этой выборки. М.М.Бонгард предложил в подобных ситуациях говорить о возникновении предрассудков. |
Определенная часть (генеральной) совокупности |
Ломаная линия, получаемая при соединении точек, лежащих по оси абсцисс на верхних границах каждого класса, а по оси ординат - либо накопленных встречаемостей, либо накопленных частот. Обратите внимание: в обоих случаях принято говорить о полигоне частот. |
Переменная, измеренная в шкале порядка. Очень известным примером является шкала Рихтера для силы землетрясений. Отметки в школе - еще один пример порядковых данных. Обратите внимание: в одних странах высшей оценкой является 5, в других - 1. Синоним: ранговая переменная выброс См. выскакивающее наблюдение. |
Когда наблюдения в выборке располагаются в порядке возрастания их величин (говорят также представлены в виде вариационного ряда), каждое из упорядоченных значений - это значение случайной величины, называемой порядковой статистикой; k-е значение называется статистикой k-го порядка. Более общо, всякая статистика, основанная на порядковых статистиках в этом узком смысле, также называется порядковой. Пример. Для выборки объема N примерами порядковых статистик являются крайние значения: минимальное (статистика 1-го порядка) и максимальное (статистика N-го порядка). Квантили также вычисляются по порядковым статистикам. |
Переменная, выбранная в качестве объясняющей, независимой. |
Преобразование значений данных производится путем применения одной и той же функции ко всем значениям переменной; важно то, что аргументами такой функции могут являться только значения переменных текущего наблюдения. Распространенными примерами таких операций являются: прибавление константы, умножение на константу, взятие логарифма. |
Модель, в которой учтены представления экспериментатора о причинных связях между наблюдаемыми переменными. Имеются методы построения и оценки параметров подобных моделей - пока, правда, лишь линейных. |
Проверяя гипотезу, мы задаем уровень значимости , ограничивающий вероятность ошибки 1-го рода. Что мы можем сказать в ситуации, когда нам придется проверять гипотезу много раз подряд? Скажем, что в составной процедуре, заключающейся в проведении N проверок гипотезы, мы допускаем ошибку 1-го рода, если мы допустили хотя бы одной из N "отдельных" проверок. Проблема состоит в том, что в этой ситуации вероятность ошибки 1-го рода не равна . Чему же она равна? Что можно сказать о вероятности ошибки 1-го рода составной процедуры? Только то, что она заведомо больше , причем растет с ростом N. Придуманы разнообразные способы корректировки уровня значимости отдельных проверок, позволяющие гарантировать нужный уровень значимости составной процедуры. Один из простейших методов - корректировка Бонферрони. |
Если значение переменной по какой-либо причине неизвестно для данного объекта, мы называем это значение пропущенным. Важно учитывать, что значение может оказаться пропущенным по разным причинам: потеряно (из-за ошибок кодировки), неприменимо (количество беременностей у мужчины), недоступно (респондент отказался отвечать) и т.д. Часто необходимо различать эти ситуации и тогда для них вводят специальные коды. В современных статистических пакетах имеется возможность объявить некоторое количество градаций переменной кодами пропущенных значений. Имеется два основных способа исключения пропущенных значений из анализа: исключение объекта целиком (exclude cases listwise), если значение хотя бы одной переменной оказалось пропущенным, и попарное исключение переменных (exclude cases pairwise), когда исключаются только те объекты, у которых оказалось пропущенным значение хотя бы одной из переменных, участвующих в текущем вычислении. Например, попарное исключение часто применяют при вычислении матрицы ковариаций, хотя известно, что это может привести к вырожденной матрице и, чтобы избежать этого, лучше пользоваться исключением целиком. Некоторые методы анализа требуют отсутствия пропущенных значений. В подобных ситуациях применяют те или способы восстановления пропущенных значений: например, заменяют их средними. |
Гипотеза, которой соответствует единственное распределение совокупности. |
Процентили - это величины, делящие выборку данных на сто групп, содержащих (по возможности) равное количество наблюдений. Например, 30% данных имеют значение, меньшее 30-го процентиля. См. тж. квантиль. |
Равномерное распределение. |
Один из способов краткого представления выборки, предложенный Дж.Тьюки. Состоит (не ожидали?) из 5 чисел: двух крайних значений (максимального и минимального), нижнего и верхнего квартилей и медианы. 5-числовую сводку можно представить на диаграмме, известной как ящик с усами. См. тж. ящичковая диаграмма. |