2. Статистическая оценка законов распределения

 

Если выборка объёма n из генеральной совокупности представительна, то элементы с одинаковыми значениями варианты будут приблизительно одинаково часто встречаться как в выборке, так и в генеральной совокупности. В этом случае естественно принять распределение X в выборке за приближенное распределение ее в генеральной совокупности, тоесть считать дискретное распределение выборки Fn(x) приближением к теоретической функции распределения F(x). Пример приближения показан на рисунке

 

Основанием для такого приближения является так называемая основная теорема математической статистики, доказанная В.И. Гливенко

Из этой теоремы следует, что при n→∞ с вероятностью, равной единице, верхняя граница отклонения |F(x)−F(x)| на всей оси x стремится к нулю. Тем самым гарантируется равномерное приближение Fn (x) к F(x) на всей оси x. Таким образом, исследуя функцию Fn (x), мы можем по ней приближено оценить теоретическую функцию распределения случайной величины.

3. Основные свойства точечных оценок

Для того чтобы оценка  имела практическую ценность, она должна обладать следующими свойствами.

·  1. Оценка  параметра q называется несмещенной, если ее математическое ожидание равно оцениваемому параметру q , т.е.

М= q .(22.1)

Если равенство (22.1) не выполняется, то оценка  может либо завышать значение q (М>q ), либо занижать его (М< q ) . Естественно в качестве приближенного неизвестного параметра брать несмещенные оценки для того, чтобы не делать систематической ошибки в сторону завышения или занижения.

·  2. Оценка  параметра q называется состоятельной , если она подчиняется закону больших чисел, т.е. сходится по вероятности к оцениваемому параметру при неограниченном возрастании числа опытов (наблюдений ) и, следовательно, выполняется следующее равенство:

,(22.2)

где e > 0 сколько угодно малое число.

Для выполнения (22.2) достаточно, чтобы дисперсия оценки стремилась к нулю при , т.е.

(22.3)

и кроме того, чтобы оценка была несмещенной. От формулы (22.3) легко перейти к (22.2) , если воспользоваться неравенством Чебышева.

Итак, состоятельность оценки означает, что при достаточно большом количестве опытов и со сколько угодно большой достоверностью отклонение оценки от истинного значения параметра меньше любой наперед заданной величины. Этим оправдано увеличение объема выборки.

Так как  - случайная величина, значение которой изменяется от выборки к выборке, то меру ее рассеивания около математического ожидания q будем характеризовать дисперсией D. Пусть  и  - две несмещенные оценки параметра q, т.е. M= q и M= q , соответственно D  и Dи, если D  < D, то в качестве оценки принимают .

·  3. Несмещенная оценка , которая имеет наименьшую дисперсию среди всех возможных несмещенных оценок параметра q, вычисленных по выборкам одного и того же объема , называется эффективной оценкой.

 На практике при оценке параметров не всегда удается удовлетворить одновременно требованиям 1, 2, 3. Однако выбору оценки всегда должно предшествовать ее критическое рассмотрение со всех точек зрения. При выборке практических методов обработки опытных данных необходимо руководствоваться сформулированными свойствами оценок.

4. Оценка математического ожидания и дисперсии по выборке

Наиболее важными характеристиками случайной величины являются математическое ожидание и дисперсия. Рассмотрим вопрос о том, какие выборочные характеристики лучше всего оценивают математическое ожидание и дисперсию в смысле несмещенности, эффективности и состоятельности.

Теорема 23.1. Арифметическая средняя , вычисленная по n независимым наблюдениям над случайной величиной x, которая имеет математическое ожидание Mx = m, является несмещенной оценкой этого параметра.

Доказательство.

Пусть - n независимых наблюдений над случайной величиной x. По условию Mx = m, а т.к.  являются случайными величинами и имеют тот же закон распределения, то тогда . По определению средняя арифметическая

.(23.1)

Рассмотрим математическое ожидание средней арифметической. Используя свойство математического ожидания, имеем:

,

т.е. . В силу (22.1)  является несмещенной оценкой. 

Теорема 23.2. Арифметическая средняя , вычисленная по n независимым наблюдениям над случайной величиной x, которая имеет Mx = m и , является состоятельной оценкой этого параметра.

Доказательство.

Пусть  - n независимых наблюдений над случайной величиной x. Тогда в силу теоремы 23.1 имеем Mx = .

Для средней арифметической  запишем неравенство Чебышева:

  .

Используя свойства дисперсии 4,5 и (23.1), имеем:

,

т.к. по условию теоремы .

Следовательно,

 .(23.2)

Итак, дисперсия средней арифметической в n раз меньше дисперсии случайной величины x. Тогда

 ,

поэтому

,

а это значит, что  является состоятельной оценкой.

Замечание: 1. Примем без доказательства весьма важный для практики результат. Если x Î N (a, s), то несмещенная оценка  математического ожидания a имеет минимальную дисперсию, равную , поэтому  является эффективной оценкой параметра а. 

Перейдем к оценке для дисперсии и проверим ее на состоятельность и несмещенность.

Теорема 23.3. Если случайная выборка состоит из n независимых наблюдений над случайной величиной x с

 Mx = m и Dx = , то выборочная дисперсия

 (23.3)

не является несмещенной оценкой Dx - генеральной дисперсии.

Доказательство.

Пусть  - n независимых наблюдений над случайной величиной x. По условию  и  для всех . Преобразуем формулу (23.3) выборочной дисперсии:

Упростим выражение

.

Принимая во внимание (23.1), откуда

 

можно записать

Тогда

Теперь рассмотрим  - математическое ожидание выборочной дисперсии:

Используя определение дисперсии, получаем:

и в силу (23.2), следовательно,

,(23.4)

т.е. выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности.

Замечание 2. Оценку (23.4) можно исправить так, чтобы она стала несмещенной

(23.5)

Обычно оценку  называют исправленной выборочной дисперсией. Действительно,

тогда

Дробь  называют поправкой Бесселя. При малых n поправка Бесселя значительно отличается от 1. При n > 50 практически нет разницы между  и  .

Замечание 3. Можно показать, что оценки  и  являются состоятельными и не являются эффективными.

Несмещенной, состоятельной и эффективной оценкой  является оценка

(23.6)

в случае, когда математическое ожидание m известно

.

5. Доверительные интервалы

Изучавшиеся ранее оценки неизвестного параметра являются точечными: мы старались судить о значении неизвестного числа или вектора q по значению оценки , принятом ею, как только известна статистическая выборка (). Однако, поскольку оценка сама является случайной величиной, её выборочное значение заведомо не совпадает с константой q. Имея в виду это обстоятельство, предпочтительнее стремиться указывать не точное значение оцениваемого параметра, а некоторый интервал, содержащий в себе значение параметра. Границы такого интервала должны определяться доступной нам информацией - выборкой из генеральной совокупности, то есть они сами случайны, и поэтому есть смысл говорить о вероятности того, что значение параметра находится внутри интервала.

Определение 24.1. Пусть генеральная совокупность описывается случайной величиной x, распределение которой зависит от скалярного параметра q. Пусть, далее,  и  две функции выборки такие, что всегда  и

.

() со случайными границами называют доверительным интервалом для неизвестного параметра q с доверительной вероятностью b.

Число a = 1-b называют уровнем значимости интервала.

Стараясь иметь как можно более достоверные выводы, границы доверительного интервала выбирают таким образом, чтобы доверительная вероятность b была как можно ближе к 1.

Схематически процесс построения доверительного интервала можно описать следующим образом.

Пусть  - несмещенная оценка параметра q.

Выберем доверительную вероятность b. Значение выражения «b как можно ближе к 1» относительно, оно находится вне границ математики и определяется лицом, производящим статистические исследования. Обычно выбирают b равным 0,9; 0,95; 0,99.

Пусть, далее, можно найти такое число e > 0, что

.(24.1)

Записав (24.1) в виде

,

видим, что интервал () является доверительным интервалом для параметра q с уровнем значимости a = 1-b.

Практически вопрос о построении доверительного интервала связан с возможностью нахождения распределения оценки , а это, в свою очередь, зависит от распределения генеральной совокупности.

Пример 24.1. Построение доверительного интервала для математического ожидания нормальной генеральной совокупности при известной дисперсии.

Пусть генеральная совокупность x распределена по нормальному закону с параметрами (q,s2), где s2 (дисперсия) известно. Мы уже знаем, что наилучшей в смысле несмещенности, состоятельности и эффективности оценкой неизвестного математического ожидания q нормального закона является выборочное среднее

.

В продвинутом курсе теории вероятностей доказывается, что нормальное распределение обладает свойством устойчивости : если независимые случайные величины x, h распределены нормально с параметрами () и () соответственно, то их сумма x + h распределена нормально с параметрами ().

Используя это утверждение в нашем случае, заключаем, чтораспределена нормально с параметрами (), а нормированное выборочное среднее  подчинено нормальному закону с параметрами (0,1).

Это означает, что

, где .

Функция Ф(z) нам уже встречалась, её значения табулированы.

Выберем теперь доверительную вероятность b и обозначим корень уравнения Ф() = b/2.

После этого рассмотрим равенства

, которые свидетельствуют о том, что интервал

является доверительным для параметра q с доверительной вероятностью b ( и уровнем значимости a = 1 - b).

Приведем часть из таблицы значений  (прил. 2) для некоторых наиболее употребительных значений b.

Таблица 24.1 (Зависимость  от доверительной вероятности)

b

0,9

0,925

0,95

0,99

1,65

1,78

1,96

2,89

Обозначим  половину ширины доверительного интервала.

Замечаем, что:

1) при фиксированной доверительной вероятности b ширина доверительного интервала уменьшается с ростом числа наблюдений n как величина порядка  ( при увеличении, например, числа наблюдений в 100 раз ширина интервала уменьшится в 10 раз);

2) поскольку Ф(z) возрастает с ростом z, то увеличение доверительной вероятности, при всех прочих постоянных параметрах, приводит к расширению доверительного интервала.

Пример 24.2. Желая узнать, сколько часов в неделю дети проводят у телевизора, социологическая служба обследовала 100 учеников некого города, в результате чего оказалось, что в среднем это число равно . Из прошлой практики известно, что стандартное отклонение () генеральной совокупности равно 6 (часов). Найдем доверительный интервал с доверительной вероятностью 0,95 для числа часов в неделю, проводимых ребенком у телевизора.

Поскольку b = 0,95, из табл. 24.1 находим , и границы интервала доверия будут такими:

,

интервал доверия имеет вид (26.32; 28.68).

Теперь поставим вопрос иначе: сколько детей надо обследовать с тем, чтобы среднее число часов в неделю, проводимых ребенком у телевизора, отклонилось от его оценки не более чем на 0,5 ч. с вероятностью 0,95?

В такой постановке речь идет о нахождении числа n таким, чтобы выполнялось равенство

 ,

откуда  или n = (2sZ0.475)2.

В условиях примера n = (2×6×1,96)2 @ 553.

Разумеется, при больших значениях n ширина доверительного интервала уменьшится.

Заметим, что по сравнению с первоначальной задачей ширина интервала уменьшилась в 1,18/0,5 = 2,36 раз, количество необходимых испытаний увеличилось в (2,36)2 = 5,57 раз ( 553 отличается в третьем знаке от 100 × 5,57).

Пример 24.3. Построение доверительного интервала для математического ожидания нормальной генеральной совокупности при неизвестной дисперсии.

Снова рассмотрим генеральную совокупность x, распределенную нормально с параметрами (q,s2), однако теперь считаем дисперсию s2 неизвестной.

Обозначим  стандартное выборочное квадратичное отклонение

.

В курсах теории вероятностей доказывается, что случайная величина

подчиняется так называемому закону распределения Стьюдента с n - 1 степенью свободы и её плотность имеет вид

,

где Кn некоторая нормирующая константа.

Созданы таблицы , дающие возможность вычислять вероятности вида

(см. прил. 4).

Ввиду вышесказанного, получаем равенства:

,

из которых видно, что выбрав Z как корень уравнения

( обозначим этот корень ), приходим к доверительному интервалу для q вида

.

Пример 24.4. Рассмотрим вопрос о построении доверительного интервала для неизвестного количества времени в течение недели, проводимого ребенком у экрана телевизора, сохранив все данные примера 24.2, считая теперь, что 6ч. есть оценка выборочного среднеквадратического отклонения, .

По таблице распределения Стьюдента (см. приложение 4) находим , границы интервала будут

,

а сам интервал (25,92; 29,08).

Замечаем, что интервал стал шире, что объясняется уменьшением объема имеющейся информации из-за незнания ещё одного параметра генеральной совокупности.

6. Методы получения оценок

До сих пор мы считали, что оценка неизвестного параметра известна и занимались изучением ее свойств с целью использования их при построении доверительного интервала. В этом параграфе рассмотрим вопрос о способах построения оценок.

Методы правдоподобия

Пусть требуется оценить неизвестный параметр , вообще говоря, векторный, . При этом предполагается, что вид функции распределения известен с точностью до параметра ,

.

В таком случае все моменты случайной величины x становятся функциями от :

.

Метод моментов требует выполнения следующих действий:


Информация о работе «Статистическое моделирование»
Раздел: Математика
Количество знаков с пробелами: 27057
Количество таблиц: 1
Количество изображений: 2

Похожие работы

Скачать
32610
0
11

... на ЭВМ, колеблется в достаточно широких пределах в зависимости от класса объекта моделирования, вида оцениваемых характеристик, необходимой точности и достоверности результатов моделирования. Для метода статистического моделирования на ЭВМ характерно, что большое число операций, а соответственно большая доля машинного времени расходуются на действия со случайными числами. Кроме того, результаты ...

Скачать
47521
13
1

... тренд и производительность составит 30330,56 руб./ чел.-час. при коэффициенте фондовооруженности равного 630. Выводы и предложения Итак, проведенные исследования по проблемам повышения производительности труда в ООО «Меркит» позволяют сделать выводы и предложения, подтверждающие их научную новизну, теоретическую и практическую значимость. 1. Любому производству присуща в некотором ...

Скачать
222848
26
34

... своевременное распределение средств на развитие. Данными вопросами я и занимаюсь в настоящей дипломной работе. 4. Математическое моделирование Интернет - услуг 4.1 Математическое моделирование dial-up подключений Сначала рассмотрим моделирование услуги предоставления доступа в Интернет по dial-up, так как данная услуга является показателем потенциальных абонентов для монопольной услуги ...

Скачать
90553
11
8

... , которые поддаются математической формализации, моделируя, таким образом, отдельные элементы общего производственного процесса. Конечной целью моделирования производственно-экономической системы является подготовка и принятие руководителем предприятия управленческого решения. Модели производственно-экономических систем можно различать по следующим признакам: – по целям моделирования; – по ...

0 комментариев


Наверх