Приглашаем посетить сайт

Отели (hotels.otpusk-info.ru)

Словарь статистики
Статьи на букву "П"

В начало словаря

По первой букве
A-Z А Б В Г Д З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Э Я
Предыдущая страница Следующая страница

Статьи на букву "П"

Параметр

Параметр - это величина, обычно неизвестная и, следовательно, подлежащая оценке, которая представляет определенную характеристику генеральной совокупности. Например, математическое ожидание   распределения - это параметр, характеризующий центральную тенденцию.

Параметр совокупности имеет фиксированное значение. По имеющейся у нас выборке мы можем посчитать значение статистики, используемой для оценки параметра. Например, среднее выборки дает информацию о среднем генеральной совокупности, из которой была сделана эта выборка. Поскольку выборка случайна, это значение также случайно.

Параметры часто обозначают греческими буквами (например, ), а соответствующие статистики - латинскими (например, s).  

Парные выборки

Две выборки набираются таким образом, что с каждым наблюдением одной выборки сопоставлено наблюдение другой выборки; сопоставление основывается, как правило, на совпадении значений одной или более заданных характеристик (признаков). Примерами парных выборок являются повторные измерения одного и того же объекта, и наблюдения за мужчинами и женщинами, составляющими семейные пары. Парные выборки отличаются от независимых, в которых  подобное соответствие оказывается скорее мешающим.

Переменная

Характеристика объекта исследования.

Планирование экспериментов

Целая наука, цель которой - получить наиболее надежные выводы наиболее дешевым (во всех смыслах этого слова) способом.

Плотность вероятности

Производная (если она существует) от функции распределения .

Примечание. Часто f(x)dx называют "элементом вероятности".

Поверхность регрессии

Для трех случайных величин X, Y и Z регрессией X и Y на Z называют функцию z = f(x,y), которая для каждой пары значений переменных x и y дает математическое ожидание  Z при X=x и Y=y. Часто то же самое называют регрессией Z по X и Y. Графическое изображение этой функции называют поверхностью регрессии.

Если функция f линейна, f(x,y)=a´x b´y c, то поверхность регрессии  представляет собой плоскость, а регрессия называется линейной. В этом случае коэффициент линейной регрессии Z по X - это коэффициент a перед x в уравнении плоскости регрессии.

Ясно, как обобщить приведенное определение на случай более трех случайных величин.

Повторение

Термин, обозначающий выполнение статистического исследования несколько раз одним и тем же методом на одной и той же совокупности при одинаковых условиях.

Примечание. Термин употребляется, в основном, в дисперсионном анализе и планировании экспериментов.

Подгонка кособенностям выборки

Так говорят про модель, которая слишком хорошо отражает особенности выборки, по которой ее строили. Подобная модель будет работать плохо за пределами этой выборки. М.М.Бонгард предложил в подобных ситуациях говорить о возникновении предрассудков.

Подсовокупность

Определенная часть (генеральной) совокупности

Полигон накопленных частот

Ломаная линия, получаемая при соединении точек, лежащих по оси абсцисс на верхних границах каждого класса, а по оси ординат - либо накопленных встречаемостей, либо накопленных частот.

Обратите внимание: в обоих случаях принято говорить о полигоне частот.

Порядковая переменная

Переменная, измеренная в шкале порядка. Очень известным примером является шкала Рихтера для силы землетрясений. Отметки в школе - еще один пример порядковых данных. Обратите внимание: в одних странах высшей оценкой является 5, в других - 1.

Синоним: ранговая переменная выброс

См. выскакивающее наблюдение.

Порядковая статистика

Когда наблюдения в выборке располагаются в порядке возрастания их величин (говорят также представлены в виде вариационного ряда), каждое из упорядоченных значений - это значение случайной величины, называемой порядковой статистикой; k-е значение называется статистикой k-го порядка. Более общо, всякая статистика, основанная на порядковых статистиках в этом узком смысле, также называется порядковой.

Пример.

Для выборки объема N примерами порядковых статистик являются крайние значения: минимальное (статистика 1-го порядка) и максимальное (статистика N-го порядка). Квантили также вычисляются по порядковым статистикам.

Предиктор

Переменная, выбранная в качестве объясняющей, независимой.

Преобразование

Преобразование значений данных производится путем применения одной и той же функции ко всем значениям переменной; важно то, что аргументами такой функции могут являться только значения переменных текущего наблюдения.

Распространенными примерами таких операций являются: прибавление константы, умножение на константу, взятие логарифма.

Причинная модель

Модель, в которой учтены представления экспериментатора о причинных связях между наблюдаемыми переменными. Имеются методы построения и оценки параметров подобных моделей - пока, правда, лишь линейных.

Проблема множественных сравнений

Проверяя гипотезу, мы задаем уровень значимости  , ограничивающий вероятность ошибки 1-го рода. Что мы можем сказать в ситуации, когда нам придется проверять гипотезу много раз подряд?

Скажем, что в составной процедуре, заключающейся в проведении N проверок гипотезы, мы допускаем ошибку 1-го рода, если мы допустили хотя бы одной  из N "отдельных" проверок. Проблема состоит в том, что в этой ситуации вероятность ошибки 1-го рода не равна .

Чему же она равна? Что можно сказать о вероятности ошибки 1-го рода составной процедуры? Только то, что она заведомо больше , причем растет с ростом N. Придуманы разнообразные способы корректировки уровня значимости отдельных проверок, позволяющие гарантировать нужный уровень значимости составной процедуры. Один из простейших методов - корректировка

Бонферрони.

Пропущенное значение

Если значение переменной по какой-либо причине неизвестно для данного объекта, мы называем это значение пропущенным.

Важно учитывать, что значение может оказаться пропущенным по разным причинам: потеряно (из-за ошибок кодировки), неприменимо (количество беременностей у мужчины), недоступно (респондент отказался отвечать) и т.д. Часто необходимо различать эти ситуации и тогда для них вводят специальные коды.

В современных статистических пакетах имеется возможность объявить некоторое количество градаций переменной кодами пропущенных значений. Имеется два основных способа исключения пропущенных значений из анализа: исключение объекта целиком (exclude cases listwise), если значение хотя бы одной переменной оказалось пропущенным, и попарное исключение переменных (exclude cases pairwise), когда исключаются только те объекты, у которых оказалось пропущенным значение хотя бы одной из переменных, участвующих в текущем вычислении. Например, попарное исключение часто применяют при вычислении матрицы ковариаций, хотя известно, что это может привести к вырожденной матрице и, чтобы избежать этого, лучше пользоваться исключением целиком.

Некоторые методы анализа требуют отсутствия пропущенных значений. В подобных ситуациях применяют те или способы восстановления пропущенных значений: например, заменяют их средними.

Простая гипотеза

Гипотеза, которой соответствует единственное распределение совокупности.

Процентиль

Процентили - это величины, делящие выборку данных на сто групп, содержащих (по возможности) равное количество наблюдений. Например, 30% данных имеют значение, меньшее 30-го процентиля.

См. тж. квантиль.

Прямоугольное распределение

Равномерное распределение.

Пяти-числовая сводка

Один из способов краткого представления выборки, предложенный Дж.Тьюки. Состоит (не ожидали?) из 5 чисел: двух крайних значений (максимального и минимального), нижнего и верхнего квартилей и медианы.

5-числовую сводку можно представить на диаграмме, известной как ящик с усами.

См. тж. ящичковая диаграмма.

Предыдущая страница Следующая страница