3.3 Оценка доли признака
Для точечной оценки доли признака в генеральной совокупности (р) естественно взять выборочную долю
р*=
где n — объем выборки,
т — количество единиц в выборке, обладающих данным признаком.
Можно доказать, что эта оценка является состоятельной, несмещенной, эффективной.
Вопрос об интервальной оценке рассмотрим сначала для случая возвратной выборки.
При такой организации выборки случайная величина p*, как известно из теории вероятностей, имеет биномиальный закон распределения. Расчет доверительного интервала с применением формулы биномиального закона связан с определенными вычислительными трудностями. Однако при достаточно большом объеме выборки (примерно n ≥ 20, пр ≥ 10) биномиальное распределение хорошо аппроксимируется нормальным распределением с параметрами
М (p*) = p;
σ(p*) =
Следовательно, случайная величина имеет стандартное нормальное распределение (с параметрами M(z)=0; σ(z)=1).
Задавшись определенной вероятностью Р=1— α, имеем:
2Ф(zα)=1- α (1.9.7)
где Ф(zα)= — интегральная функция Лапласа, значения которой для различных значений z рассчитаны и приводятся в специальных таблицах.
Равенство (1.9.7) эквивалентно равенству:
P {│p*- p │<z1 · σ( p*)} = 2Ф(zα) (1.9.7')
Таким образом, предельная ошибка выборки εα определяется из равенства:
(1.9.8)
Применение этой формулы затрудняется тем, что в нее входит неизвестный параметр р — генеральная доля. Однако при большом п можно заменить неизвестный параметр р его точечной оценкой р*. Тогда получим:
(1.9.9)
Приведенные выше формулы связывают между собой, в конечном счете, три величины: доверительную вероятность Р=1−α, предельную ошибку выборки ε и объем выборки п.
В каждой конкретной задаче две из этих величин задаются и определяется третья величина. Таким образом, мы имеем следующие три типа задач:
I. Даны п и Р, определить ε.
II. Даны п и ε, определить Р.
III. Даны Р и ε, определить п
Первые два типа задач связаны с анализом результатов уже произведенной выборки объема п, следовательно, и с найденной точечной оценкой р*.
Задачи третьего типа должны решаться до проведения выборки. По заданной доверительной вероятности P мы можем определить величину z (по таблице интегральной функции Лапласа). Из (1.9.9) получаем:
(1.9.10)
Но в (1.9.10) входит величина р*, получаемая в результате выборки, а речь идет об определении п до осуществления выборки.
Поскольку р* неизвестно, то определяем из этого равенства, при каком значении р* величина п будет максимальной. Используя обычный метод следования функции на максимум, получаем:
откуда р*=½
Следовательно,
(1.9.11)
Выборка такого объема наверняка обеспечит заданные надежность и точность.
Рассмотрим примеры на каждый из трех типов задач. Исследуется вопрос о доле поврежденных клубней картофеля после механической уборки.
Пример 1.9.1 Произведена случайная выборка объемом.n=200 деталей. Из них поврежденных оказалось 40. Определить с вероятностью 0,95 доверительный интервал для доли поврежденных деталей генеральной совокупности.
Рассчитываем выборочную долю:
р* = m / n = 40 / 200 = 0.20
По заданной доверительной вероятности
Р = 1 – α = 2Ф(zα) = 0.95
находим по таблице интегральной функции Лапласа соответствующее значение zα =1,96. Применяем формулу (1.9.9):
Таким образом, доверительный интервал для генеральном доли р:
0,20-0,06<p<0,20+0,06, или 0,14<p<0,26
Пример 1.9.2. По результатам той же выборки определить вероятность того, что ошибка выборки не превысит 0,03.
Имеем:
Отсюда:
По таблице интегральной функции Лапласа находим соответствующую доверительную вероятность Р = 2Ф(zа )=0,71.
Пример 1.9.3. До проведения выборки необходимо ответить на вопрос: какой объем выборки обеспечит с вероятностью 0,95 ошибку выборзки не более, чем 0,02?
Применяем формулу (1.9.11):
Следует заметить, что требуемые надежность и точность может обеспечить в нашей задаче и выборка меньшего объема. Если до проведения выборки у нас есть приближенная оценка хотя бы максимальной величины р*, то мы можем применить формулу (1.9.10) и получить меньшее значение необходимого объема выборки п.
В случае безвозвратной выборки случайная величина р*, как доказывается в теории вероятностей, имеет так называемое гипергеометрическое распределение. Ее математическое ожидание, как и в случае возвратной выборки, равно генеральной доле: М(р*)=р, а среднее квадратическое отклонение вычисляется но формуле:
(1.9.12)
где N — объем генеральной совокупности
При достаточно большом объеме выборки гипергеометрическое распределение также хорошо аппроксимируется нормальным распределением с указанными параметрами M(p*) и σ(p*), поэтому дальнейший ход решения задач аналогичен рассмотренному выше случаю возвратной выборки.
Формула для предельной выборки принимает вид
(1.9.13)
При решении задач III типа из (1.9.13) получаем:
(1.9.14)
Соответственно изменится и формула для nmax :
(1.9.15)
Если объем выборочной совокупности n составляет незначительную долю по отношению к объему генеральной совокупности N, то величина в формуле (1.9.12) ближе к 1, можно пренебречь различием формул (1.9.9) и (1.9.13) и пользоваться более простыми соотношениями для возвратной выборки, даже если фактически выборка производится как безвозвратная.
В заключение раздела необходимо отметить что в статистике используется понятие средней ошибки выборки, которая определяется как среднее квадратическое отклонение соответствующей выборочной характеристики. Нетрудно видеть, что формула для средней ошибки выборки является частным случаем формулы предельной ошибки выборки при z=1.
... механически выбираются предприятия, на второй - рабочие, бюджет которых обследуется. Ошибки выборки Рассмотрим некоторые вопросы теории выборочного метода. Применяя выборочный метод в статистике, обычно используют два основных вида обобщающих показателей: среднюю величину количественного признака и относительную величину альтернативного признака (долю или удельный вес единиц в, статистической ...
... , из которых производится отбор, называется генеральной. Совокупность единиц отобранных называется выборочной. Проведение выборочного наблюдения складывается из ряда последовательных этапов: · 1) обоснование целесообразности проведения выборочного метода в соответствии с задачами исследования; · 2) составление программы проведения статистического исследования выборочным ...
... невозвращенного шара"). Таким образом, при бесповторной выборке численность единиц генеральной совокупности сокращается в процессе исследования. 1.2 Финансовые показатели Финансовые показатели - набор показателей, использующихся для исследования эффективности деятельности компании, и измерения степени риска ее операций. Обычно выделяют четыре группы показателей: коэффициенты рентабельности, ...
... учтено: 1) с какой степенью точности следует получить предельную ошибку выборки; 2) какова должна быть вероятность того, что будет обеспечена обусловленная точность результатов выборочного наблюдения; 3) степень колеблемости изучаемых свойств в исследуемой генеральной совокупности. Это значит, что необходимая численность выборки (n) устанавливается в зависимости от размеров предельной ошибки ...
0 комментариев