Федеральное агентство по образованию
Государственное образовательное учреждение высшего профессионального образования
“Якутский государственный университет им. М.К. Аммосова”
Технический институт (филиал) в г. Нерюнгри
Педагогический факультет
Кафедра Математики и Информатики
КУРСОВАЯ РАБОТА
по дисциплине «Теория вероятностей и математическая статистика»
на тему: «Дисперсионный анализ показателей смертностей населения Нерюнгринского улуса»
Студентка:
Копотева К. Г., гр. ПМ-04
Руководитель:
Преподаватель:
доцент кафедры к.ф.–м.н.
Попова А.М.
Оценка курсовой работы:__________________
Принял:_______________ Дата _____________
Нерюнгри 2007
Содержание
Введение
1. Теоретическая часть
1.1. Однофакторный дисперсионный анализ
1.2. Линейный множественный регрессионный анализ
1.3. Множественный корреляционный анализ
2. Аналитическая часть
2.1. Сбор и первичная обработка данных
2.2. Дисперсионный анализ
2.3. Построение уравнения множественной регрессии
2.4. Исключение незначимых факторов
3. Заключение
4. Список литературы
5. Приложение
Введение
Анализируя данные, о смертности населения за 2004-2006 год, полученные в Нерюнгринской городской больнице (см. таблицу 1), можно сделать вывод о том, что общий коэффициент смертности, то есть число умерших от всех причин на 1000 человек населения, увеличивается (рис.1).
Показатель смертности на 1000 человек населения
Таблица 1
2004 год | 2005 год | 2006 год |
7.3 | 7.8 | 8.1 |
Рисунок 1
Несмотря на повышение рождаемости, демографическая ситуация в Нерюнгринском улусе характеризуется уменьшением численности населения. Главной причиной демографического кризиса является преобладание смертности над рождаемостью. Именно поэтому, чтобы снизить показатель смертности необходимо более детально изучить все причины и факторы, приводящие к ее увеличению. Несомненно, в изучении причин, важно исследование значимости отдельных нозологических форм заболеваний. Зная, какие заболевания приводят чаще всего к летальному исходу, можно разработать программу профилактических работ направленную на уменьшение числа данных заболеваний и предотвращения их дальнейшего развития на раннем этапе.
Цель: определение видов заболеваний оказывающих наибольшее влияние на показатели летальности, основываясь на статистике смертности населения Нерюнгринского улуса по классам болезней и возрастам за 2006 год.
Задачи:
1. сбор статистических данных необходимых для определения закономерности изменения смертности по причинам заболеваний;
2. проведение однофакторного дисперсионного анализа, с целью определения влияния различных болезней на общее количество смертности населения;
3. исключение отдельных факторов, оказывающих незначительное влияние;
4. построение уравнения множественной регрессии, отражающего соотношение между смертностью и различными классами заболеваний.
1. Теоретическая часть
1.1. Однофакторный дисперсионный анализ
Дисперсионный анализ (от латинского Dispersio - рассеивание) - статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.
Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.
Пусть генеральные совокупности Х1, Х2,…, Хр распределены нормально и имеют одинаковую, хотя и неизвестную дисперсию. Математические ожидания которых известны и могут быть различны при заданном уровне значимости α. Проверим при заданном уровне значимости нулевую гипотезу Н0: М(Х1) = М(Х2) = … = М(Хр) о равенстве всех математических ожиданий. Это означает, что мы устанавливаем значимо или нет, различаются выборочные средние.
На практике дисперсионный анализ применяют, чтобы установить оказывает ли существенное влияние качественный фактор F, имеющий p уровней: F1, F2, …, Fp , на изучаемую величину.
Основная идея дисперсионного анализа состоит в сравнение «факторной дисперсии», то есть рассеяние, порождаемое изменением уровня фактора, и «остаточной дисперсии», обусловленной случайными причинами. Если их различие значимо, то фактор существенно влияет на Х и при изменении его уровня групповые средние различаются значимо. Если установили, что фактор существенно влияет на Х, а требуется выяснить, какой из уровней оказывает наибольшее воздействие, то дополнительно производим попарное сравнение средних. Дисперсионный анализ также применяется для установления однородности нескольких совокупностей (если математические ожидания одинаковы, то совокупности однородны). В более сложных случаях исследуют воздействие нескольких факторов на различные постоянные или различные уровни и выясняют влияние отдельных уровней и их комбинацию (многоуровневый анализ).
Будем считать, что количество наблюдений на каждом уровне фактора одинаково и равно q. Оформим результаты наблюдений в виде таблицы:
Номер испытания | Уровни фактора Fj | |||
F1 | F2 | … | Fp | |
1 2 … q | x11 x21 … xq1 | x12 x22 … xq2 | … … … … | x1p x2p … xqp |
Групповое среднее | … |
Сумму квадратов отклонения можно определить по формулам:
1. Общая сумма квадратов отклонений наблюдаемых значений от общего среднего [1]:
. (1)
характеризует влияние фактора F и случайных причин на Х.
2. Факторная сумма отклонений групповых средних от общей средней, характеризующая рассеяние между группами [1]:
. (2)
характеризует воздействие фактора F на величину Х.
Остаточная сумма квадратов отклонений наблюдаемых значений группы от своего группового среднего, характеризующая рассеяние внутри групп [1]:
. (3)
отображает влияние случайных причин на Х.
Вводя обозначения [1]:
, (4)
получим формулы, более удобные для расчетов [1]:
, (5)
. (6)
Разделив суммы квадратов на соответствующее число степеней свободы, получим общую, факторную и остаточную дисперсии [1]:
. (7)
Если справедлива гипотеза Н0, то все эти дисперсии являются несмещенными оценками генеральной дисперсии.
Вычисляем и сравниваем с Fкр (критерий Фишера - Снедекора) [1]:
Fкр (α; n-1; nk-(k-1)),
, (8)
где α – уровень значимости; n – количество факторов; k – количество испытаний.
Если Fнабл <Fкр, то гипотеза о равенстве дисперсий будет принята.
Если число испытаний на разных уровнях различно (q1 испытаний на уровне F 1, q 2 – на уровне F 2 , …, qр - на уровнеF р), то [1]:
, (9)
где сумма квадратов наблюдавшихся значений признака на уровне Fj,
сумма наблюдавшихся значений признака на уровне Fj .
При этом объем выборки, или общее число испытаний, равен . Факторная сумма квадратов отклонений вычисляется по формуле [1]:
. (10)
Остальные вычисления проводятся так же, как в случае одинакового числа испытаний [1]:
. (11)
0 комментариев