МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ
АЗОВСКИЙ РЕГИОНАЛЬНЫЙ ИНСТИТУТ УПРАВЛЕНИЯ
ЗАПОРОЖСКОГО НАЦИОНАЛЬНОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА
Кафедра математики
КУРСОВАЯ РАБОТА
З дисциплины «СТАТИСТИКА»
На тему: «КРИТЕРИИ СОГЛАСИЯ»
студентки 2-го курса
группы 207 факультета управления
Батуры Татьяны Олеговны
Научный руководитель
доцент Косенков О. И.
Бердянск – 2009г.
Содержание
ВВЕДЕНИЕ
РАЗДЕЛ I. ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ КРИТЕРИЯ СОГЛАСИЯ
1.1 Критерии согласия Колмогорова и омега-квадрат в случае простой гипотезы
1.2 Критерии согласия χ2 Пирсона для простой гипотезы
1.3 Критерии согласия для сложной гипотезы
1.4 Критерии согласия χ2 Фишера для сложной гипотезы
1.5 Другие критерии согласия. Критерии согласия для распределения Пуассона
РАЗДЕЛ II. ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ КРИТЕРИЯ СОГЛАСИЯ
ВЫВОД
ПРИЛОЖЕНИЯ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
ВВЕДЕНИЕ
В данной курсовой работе рассказано о наиболее распространенных критериях согласия – омега-квадрат, хи-квадрат, Колмогорова и Колмогорова-Смирнова. Особенное внимание уделено случаю, когда необходимо проверить принадлежность распределения данных некоторому параметрическому семейству, например, нормальному. Эта весьма распространенная на практике ситуация из-за своей сложности исследована не до конца и не полностью отражена в учебной и справочной литературе.
Критериями согласия называют статистические критерии, предназначенные для проверки согласия опытных данных и теоретической модели. Лучше всего этот вопрос разработан, если наблюдения представляют случайную выборку. Теоретическая модель в этом случае описывает закон распределения.
Теоретическое распределение – это то распределение вероятностей, которое управляет случайным выбором. Представления о нем может дать не только теория. Источниками знаний здесь могут быть и традиция, и прошлый опыт, и предыдущие наблюдения. Надо лишь подчеркнуть, что это распределение должно быть выбрано независимо от тех данных, по которым мы собираемся его проверять. Иначе говоря, недопустимо сначала «подогнать» по выборке некоторый закон распределения, а потом пытаться проверить согласие с полученным законом по этой же выборке.
Простые и сложные гипотезы. Говоря о теоретическом законе распределения, которому гипотетически должны бы следовать элементы данной выборки, надо различать простые и сложные гипотезы об этом законе:
· простая гипотеза прямо указывает некий определенный закон вероятностей (распределение вероятностей), по которому возникли выборочные значения;
· сложная гипотеза указывает на единственное распределение, а какое-то их множество (например, параметрическое семейство).
Критерии согласия основаны на использовании различных мер расстояний между анализируемым эмпирическим распределением и функцией распределения признака в генеральной совокупности.
Непараметрические критерии согласия Колмогорова, Смирнова, омега квадрат широко используются. Однако с ними связаны и широко распространенные ошибки в применении статистических методов.
Дело в том, что перечисленные критерии были разработаны для проверки согласия с полностью известным теоретическим распределением. Расчетные формулы, таблицы распределений и критических значений широко распространены. Основная идея критериев Колмогорова, омега квадрат и аналогичных им состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения.
Приступая к выполнению данной курсовой работы, я поставила себе за цель, узнать какие существуют критерии согласия, разобраться для чего же они нужны. Для осуществления этой цели необходимо выполнить следующие задания:
1. Раскрыть суть понятия “критерии согласия”;
2. Определить какие критерии согласия существуют, изучить их по отдельности;
3. Сделать выводы по проведенной работе.
РАЗДЕЛ I. ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ КРИТЕРИЯ СОГЛАСИЯ
1.1 Критерии согласия Колмогорова и омега-квадрат в случае простой гипотезы
Простая гипотеза. Рассмотрим ситуацию, когда измеряемые данные являются числами, иначе говоря, одномерными случайными величинами. Распределение одномерных случайных величин может быть полностью описано указанием их функций распределения. И многие критерии согласия основаны на проверке близости теоретической и эмпирической (выборочной) функций распределения.
Предположим, что имеем выборку n. Обозначим истинную функцию распределения, которой подчиняются наблюдения, G(х), эмпирическую (выборочную) функцию распределения – Fn(х), а гипотетическую функцию распределения – F(х). Тогда гипотеза Н о том, что истинная функция распределения есть F(х), записывается в виде Н : G(·) = F(·).
Как проверить гипотезу H? Если Н верна, то Fn и F должны проявлять определенное сходство, и различие между ними должно убывать с увеличением n. Вследствие теоремы Бернулли Fn(х) → F(х) при n → ∞. Для количественного выражения сходства функций Fn иF используют различные способы.
Для выражения сходства функций можно использовать то или иное расстояние между этими функциями. Например, можно сравнить Fn и F в равномерной метрике, т.е. рассмотреть величину:
(1.1)
Статистику Dn называют статистикой Колмогорова.
Очевидно, что Dn - случайная величина, поскольку ее значение зависит от случайного объекта Fn. Если гипотеза Н0 справедлива и n → ∞, то Fn(x) → F(x) при всяком х. Поэтому естественно, что при этих условиях Dn → 0. Если же гипотеза Н0 неверна, то Fn → G и G ≠ F, а потому sup-∞<x<∞|Fn(x) - F(x)| → supx|G(x) - F(x)|. Эта ппоследняя величина положительна, так как G не совпадает с F. Такое различие в поведении Dn в зависимости от того, верна Н0 или нет, позволяет использовать Dn как статистику для проверки Н0.
Как всегда при проверке гипотезы, рассуждаем так, как если бы гипотеза была верна. Ясно, что Н0 должна быть отвергнута, если полученное в эксперименте значение статистики Dn кажется неправдоподобно большим. Но для этого надо знать, как распределена статистика Dn при гипотезе Н: F= G при заданных n и G.
Замечательное свойство Dn состоит в том, что если G = F, т.е. если гипотетическое распределение указано правильно, то закон распределения статистики Dn оказывается одним и тем же для всех непрерывных функций G. Он зависит только от объема выборки n.
Доказательство этого факта основано на том, что статистика не изменяет своего значения при монотонных преобразованиях оси х. Таким преобразованием любое непрерывное распределение G можно превратить в равномерное на отрезке [0, 1]. При этом Fn(x) перейдет в функцию распределения выборки из этого равномерного распределения.
При малых п для статистики Dn при гипотезе Н0 составлены таблицы процентных точек. При больших п распределение Dn (при гипотезе Н0) указывает найденная в 1933 г. А.Н.Колмогоровым предельная теорема. Она говорит о статистике (поскольку сама величина Dn → 0 при Н0, приходится умножать ее на неограниченно растущую величину, чтобы распределение стабилизировалось). Теорема Колмогорова утверждает, что при справедливости Н0 и если G непрерывна:
(1.2)
Эта сумма очень легко считается в Maple. Для проверки простой гипотезы Н0: G = F требуется по исходной выборке вычислить значение статистики Dn. Для этого годится простая формула:
(1.3)
Здесь через хk - элементы вариационного ряда, построенного по исходной выборке. Полученную величину Dn затем надо сравнить с извлеченными из таблиц или рассчитанными по асимптотической формуле критическими значениями. Гипотезу Н0 приходится отвергать (на выбранном уровне значимости), если полученное в опыте значение Dn превосходит выбранное критическое значение, соответствующее принятому уровню значимости.
Другой популярный критерий согласия получим, измеряя расстояние между Fn и F в интегральной метрике. Он основан на так называемой статистике омега-квадрат:
(1.4)
Для его вычисления по реальным данным можно использовать формулу:
(1.5)
При справедливости гипотезы Н0 и непрерывности функции G распределение статистики омега-квадрат, так же, как распределение статистики Dn, зависит только от n и не зависит от G.
Так же, как для Dn, для при малых n имеются таблицы процентных точек, а для больших значений n следует использовать предельное (при n → ∞) распределение статистики n. Здесь снова приходится умножать на неограниченно растущий множитель. Предельное распределение было найдено Н.В.Смирновым в 1939 г. Для него составлены подробные таблицы и вычислительные программы. Важное с теоретической точки зрения свойство критериев, основанных на Dn и : они состоятельны против любой альтернативы G ≠ F.
Статистический критерий для проверки гипотезы Н называют состоятельным против альтернативы Н', если вероятность с его помощью отвергнуть Н, когда на самом деле верна Н', стремится к 1 при неограниченном увеличении объема наблюдений.
Состоятельный против всех альтернатив критерий, в принципе, при большом числе наблюдений, способен обнаружить любое отступление от гипотезы. Таким образом, состоятельность критериев Колмогорова и омега-квадрат означает, что любое отличие распределения выборки от теоретического будет с их помощью обнаружено, если наблюдения будут продолжаться достаточно долго.
Практическую значимость свойства состоятельности не велика, так как трудно рассчитывать на получение большого числа наблюдений в неизменных условиях, а теоретическое представление о законе распределения, которому должна подчиняться выборка, всегда приближённое. Поэтому точность статистических проверок не должна превышать точность выбранной модели. Свойство состоятельности является желательным.
1.2 Критерии согласия χ2 Пирсона для простой гипотезы
Теорема К. Пирсона относится к независимым испытаниям с конечным числом исходов, т.е. к испытаниям Бернулли (в несколько расширенном смысле). Она позволяет судить о том, согласуются ли наблюдения в большом числе испытаний частоты этих исходов с их предполагаемыми вероятностями.
Во многих практических задачах точный закон распределения неизвестен. Поэтому выдвигается гипотеза о соответствии имеющегося эмпирического закона, построенного по наблюдениям, некоторому теоретическому. Данная гипотеза требует статистической проверки по результатам которой будет либо подтверждена, либо опровергнута.
Пусть X – исследуемая случайная величина. Требуется проверить гипотезу H0 о том, что данная случайная величина подчиняется закону распределения F(x). Для этого необходимо произвести выборку из n независимых наблюдений и по ней построить эмпирический закон распределения F'(x). Для сравнения эмпирического и гипотетического законов используется правило, называемое критерием согласия. Одним из популярных является критерий согласия хи-квадрат К. Пирсона.
В нем вычисляется статистика хи-квадрат:
(2.1)
где N – число интервалов, по которому строился эмпирический закон распределения (число столбцов соответствующей гистограммы), i – номер интервала, pti -вероятность попадания значения случайной величины в i-й интервал для теоретического закона распределения, pei – вероятность попадания значения случайной величины в i-й интервал для эмпирического закона распределения. Она и должна подчиняться распределению хи-квадрат.
Если вычисленное значение статистики превосходит квантиль распределения хи-квадрат с k-p-1 степенями свободы для заданного уровня значимости, то гипотеза H0 отвергается. В противном случае она принимается на заданном уровне значимости. Здесь k – число наблюдений, p число оцениваемых параметров закона распределения.
Рассмотрим статистику:
(2.2)
Статистика χ2 называется статистикой хи-квадрат Пирсона для простой гипотезы.
Ясно, что χ2 представляем собой квадрат некоего расстояния между двумя r-мерными векторами: вектором относительных частот (mi/n, …, mr/n) и вектором вероятностей (pi, …, pr). От евклидового расстояния это расстояние отличается лишь тем, что разные координаты входят в него с разными весами.
Обсудим поведение статистики χ2 в случае, когда гипотеза Н верна, и в случае, когда Н неверна. Если верна Н, то асимптотическое поведение χ2 при n → ∞ указывает теорема К. Пирсона. Чтобы понять, что происходит с (2.2), когда Н неверна, заметим, что по закону больших чисел mi/n → pi при n → ∞, для i = 1, …, r. Поэтому при n → ∞:
(2.3)
Эта величина равна 0. Поэтому если Н неверна, то χ2 →∞ (при n → ∞).
Из сказанного следует, что Н должна быть отвергнута, если полученное в опыте значение χ2 слишком велико. Здесь, как всегда, слова «слишком велико» означают, что наблюденное значение χ2 превосходит критическое значение, которое в данном случае можно взять из таблиц распределения хи-квадрат. Иначе говоря, вероятность Р(χ2 npi χ2) – малая величина и, следовательно, маловероятно случайно получить такое же, как в опыте, или еще большее расхождение между вектором частот и вектором вероятностей.
Асимптотический характер теоремы К. Пирсона, лежащий в основе этого правила, требует осторожности при его практическом использовании. На него можно полагаться только при больших n. Судить же о том, достаточно ли n велико, надо с учетом вероятностей pi, …, pr. Поэтому нельзя сказать, к примеру, что ста наблюдений будет достаточно, поскольку не только n должно быть велико, но и произведения npi, …, npr (ожидаемые частоты) тоже не должны быть малы. Поэтому проблема аппроксимации χ2 (непрерывное распределение) к статистике χ2, распределение которой дискретно, оказалась сложной. Совокупность теоретических и экспериментальных доводов привела к убеждению, что эта аппроксимация применима, если все ожидаемые частоты npi>10. если число r (число различных исходов) возрастает, граница для npi можетбыть снижена (до 5 или даже до 3, если r порядка нескольких десятков). Чтобы соблюсти эти требования, на практике порой приходится объединять несколько исходов, т.е. переходить к схеме Бернулли с меньшим r.
Описанный способ для проверки согласия можно прилагать не только к испытаниям Бернулли, но и к произвольным выборкам. Предварительно их наблюдения надо превратить в испытания Бернулли путем группировки. Делают это так: пространство наблюдений разбивают на конечное число непересекающихся областей, а затем для каждой области подсчитывают наблюденную частоту и гипотетическую вероятность.
В данном случае к перечисленным ранее трудностям аппроксимации прибавляется еще одна – выбор разумного разбиения исходного пространства. При этом надо заботится о том, чтобы в целом правило проверки гипотезы об исходном распределении выборки было достаточно чувствительным к возможным альтернативам. Наконец, отмечу, что статистические критерии, основные на редукции к схеме Бернулли, как правило, не являются состоятельными против всех альтернатив. Так что такой метод проверки согласия имеет ограниченную ценность.
... ошибки первого рода; 3) определить область допустимых значений и так называемую критическую область; 4) принять то или иное решение на основе сравнения фактического и критического значений критерия. Проверка статистических гипотез складывается из следующих этапов: - формулируется в виде статистической гипотезы задача исследования; - выбирается статистическая характеристика гипотезы; - ...
... же для нахождения энергетически оптимальной концентрации эритроцитов в крови, парциального давления в артериальной и венозной крови, определения оптимальных функциональных параметров системы внешнего дыхания и др. 2 Принцип минимального воздействия в эколого-математических моделях Один из способов применения целевой функции состоит в формулировании общего утверждения относительно поведения ...
... в таблицу 4 Таблица 4 21.5 0.0025 28.5 0.0114 35.5 0.0291 42.5 0.0425 49.5 0.0351 56.5 0.0165 63.5 0.0044 3. Критерий согласия (Пирсона) Найду соответствующие вероятности для каждого разряда Из ТВ для нормальной случайной величины (8) Значения функции Лапласа, находим в приложении 2, учебника Вентцель Е.С., Овчаров Л.А., теория вероятностей и её ...
... Таблица 1 Среднее значение интервала, тыс. грн Фактическое количество предприятий 16 9 20 45 24 16 28 24 32 18 36 12 40 6 Всего 100 Тесты для закрепления материала Тест 1 В статистике критерий Стьюдента обозначается: а) критерий; б) ; в) критерий. Тест 2 Мощность критерия – это: а) вероятность отклонения испытуемой нулевой гипотезы, когда правильною является ...
0 комментариев