4.  Статистическая совокупность. Гистограмма

При большом числе наблюдений представление данных в виде статистического ряда бывает затруднительным, а при решении ряда задач и нецелесообразным. В таких случаях производится подсчет результатов наблюдения по группам и составляют таблицу, в которой указываются группы и частоты полученные в результате наблюдения в каждой группе. Совокупность групп, на которые разбиваются результаты наблюдений и частоты, полученные в каждой группе, составляют статистическую совокупность, которая представлена ниже.

Группа DХ

1

2

. . .

n

Частота относительная

w1

w2

. . .

wn

Графическое представление статистической совокупности носит название гистограммы. Гистограмма строится следующим образом. По оси абсцисс откладываются интервалы, соответствующие группам совокупности, и на каждой из них строится прямоугольник, площадь которого равна частоте данной группы. Из построения следует, что площадь суммы всех прямоугольников равна единице. Очевидно, что если плавно соединить точки гистограммы, то эта кривая будет первым приближением к плотности распределения случайной величине Х.

Если число опытов увеличивать и выбирать более мелкие группы (на рисунке маленькие интервалы) в статистической совокупности, то полученная гистограмма все более будет приближаться к плотности распределения случайной величины Х. Статистическую совокупность можно использовать и для построения приближенной функции распределения F*(x), выбрав в качестве значений случайной величины граничные значения групп.


Pi*

X

DX1  DX2 . . . DXn


5. Метод наибольшего правдоподобия для нахождения оценок параметров плотности распределения

Метод наибольшего правдоподобия основывается на представлении выборки объема n как n-мерной случайной величине (Х1, Х2, ..., Хn), где  рассматриваются как независимые случайные величины с одинаковой плотностью распределения f(x). Плотность распределения такой n-мерной случайной величины называется функцией правдоподобия L(x1, x2, ..., xn), которая в силу независимости случайных величин  равна произведению плотностей распределения случайных величин Х1, Х2, ..., Хn:

L(x1, x2, ..., xn) = f(x1) f(x2)... f(xn).

Отсюда следует, что всякую функцию у=у(x1, x2, ..., xn) выборочных значений x1, x2, ..., xn, называемую статистикой, можно представить как случайную величину, распределение которой однозначно определяется функцией правдоподобия.

Рассмотрим метод отыскания оценок параметров по опытным данным, который использует функцию правдоподобия.

Пусть f(x;а) – плотность распределения случайной величины Х (генеральной совокупности), зависящей от параметра а. Функция правдоподобия также будет зависеть от параметра а и иметь вид

Сущность метода наибольшего правдоподобия заключается в том, чтобы найти такое значение параметра а, при котором функция правдоподобия L(x1, x2, ..., xn, а) была бы максимальной. Для этого необходимо решить уравнение

и найти то значение а, при котором функция L(x1, x2, ..., xn, а) достигает максимума. С целью упрощения вычисления обычно максимизируют натуральный логарифм функции правдоподобия, пользуясь тем, что

Если неизвестными являются несколько параметров а1, а2, ... , аm, то функция правдоподобия зависит от m переменных L = L(x1, x2, ..., xn; а1, а2, ... , аm) и решаются m уравнений

Пример. Пусть на вход приемного устройства поступает сумма двух сигналов: Y(t) = X + Z(t), где Х – неизвестный не зависящий от времени сигнал, а Z(t) – случайная помеха. В моменты времени t1, t2, ... , tn производятся измерения величины Y(t). На основании опытных данных (выборки) y1 = y(t1), y2 = y(t2), ... , yn=y(tn) нужно найти приближенное значение сигнала Х.

Решение. Пусть Z(t1), Z(t2), ... , Z(tn) – независимые случайные величины распределены по нормальному закону с математическим ожиданием mZ= 0 и дисперсией D(Z) = s2. Тогда случайные величины  также независимы, нормально распределены с неизвестным математическим ожиданием а и с той же дисперсией s2. Плотность распределения случайных величин Y(t1), Y(t2), ... , Y(tn) имеет, таким образом, вид

Запишем функцию правдоподобия для n-мерной случайной величины (Y1, Y2, ... , Yn):

Tак как

то из уравнения

Имеем

Значит

Нетрудно показать, что функция правдоподобия L = L(y1, y2, ..., yn; а) при этом а достигает своего максимума. Таким образом мы показали, что оценка математического ожидания неизвестного сигнала Х по методу наибольшего правдоподобия в предположении нормального распределения аддитивной помехи является средним арифметическим измерений y1, y2, ..., yn:

Метод наибольшего правдоподобия обладает важным свойством: он всегда приводит к состоятельным, хотя иногда и к смещенным, и эффективным оценкам.

На практике использование метода наибольшего правдоподобия часто приводит к необходимости решать достаточно сложные системы уравнений.


6.  Метод наименьших квадратов

математическая статистика метод распределение выборка

Применим метод наибольшего правдоподобия для обработки экспериментальных данных. Предположим, что между физической величиной t (например, временем) и измеряемой y (сигналом) существует функциональная зависимость: y = j (t).

Вид этой зависимости необходимо определить из опыта. Положим, что в результате опыта мы получили ряд экспериментальных точек и построили график зависимости у от t. Экспериментальные точки всегда имеют ошибки измерения. Возникает вопрос, как по экспериментальным данным наилучшим образом воспроизвести зависимость у от t? Если провести интерполяционную кривую, то есть кривую, точно проходящую через экспериментальные точки, то это в силу ошибок измерения будет не самым лучшим решением. В случае, когда известна тенденция этой зависимости, другими словами вид кривой, то задача упрощается. Тогда возникает задача сглаживания - построение кривой таким образом, чтобы уклонение(в каком-то смысле) от экспериментальных точек кривой было минимальным.

Очень часто бывает так, что, зная вид кривой, из опыта требуется установить только некоторые параметры зависимости. Например, известно, что зависимость есть линейная y = at + b, а неизвестные величины а и b надлежит определить из экспериментальных данных y1= y(t1), y2= y(t2), ... ,yn= y(tn). В общем случае функция у = j (t, a, b, ...) может содержать много параметров (а,b, ...). Требуется выбрать эти параметры так, чтобы кривая у = j (t, a, b, ...) в каком-то смысле наилучшим образом отображала зависимость, полученную опытным путем. Для этого рассмотрим следующую модель.

Имеются наблюдения (экспериментальные данные) y1, y2, ... ,yn точных величин j (t1, a, b, ...) j (t2, a, b, ...), ... , j (tn, a, b, ...). Тогда величина Di = yi - j (ti, a, b, ...)  является ошибкой наблюдения. Относительно ошибок будем полагать, что Di - независимые случайные величины с математическим ожиданием равным нулю (центрированные) и одинаковой дисперсией s2 подчинены нормальному закону распределения. Функция правдоподобия в этом случае будет иметь вид

и достигает своего максимального значения путем выбора параметров а, b ... лишь тогда, когда функция

достигнет минимального значения. Если измерения неравноценны, что эквивалентно наличию разных дисперсий si2 ошибок Di, то, исходя из функции правдоподобия, необходимо минимизировать функцию

.

Величина здесь играет роль весовых множителей. Этот метод отыскания параметров носит название метода наименьших квадратов.

Для нахождения минимального значения последней функции нужно решить систему уравнений

количество уравнений которой равно количеству параметров а, b, ... . В качестве примера рассмотрим упомянутую линейную зависимость при равноценных измерениях:

у = аt + b (j (ti ;a, b) = at + b).

В этом случае нам нужно минимизировать функцию

Беря частные производные от этой функции по а и b и приравнивая их нулю, получаем систему двух уравнений с двумя неизвестными

Решая эту систему относительно а и b, после простых преобразований получим следующую линейную зависимость

где


Информация о работе «Методы математической статистики»
Раздел: Математика
Количество знаков с пробелами: 16061
Количество таблиц: 3
Количество изображений: 4

Похожие работы

Скачать
71444
54
23

... технический университет радиоэлектроники Кафедра ПОЭВМ Комплексная курсовая работа по курсу «Вероятностные процессы и математическая статистика в автоматизированных системах» Тема: «Провести экономическую оценку эффективности работы предприятия. Провести долгосрочное планирование работы методом множественной линейной регрессии. Построить математическую модель повышения эффективности работы». ...

Скачать
19781
8
1

... опираться на теорию множеств, математическую логику, теорию алгоритмов. На основе применения «неколичественного» математического аппарата в теоретическом языкознании сформировалось направление, условно называемое комбинаторной лингвистикой – в ней используются методы математической статистики теории вероятностей, теории информации, математического анализа Современные инструментальные методы ...

Скачать
22369
2
0

... среднее квадратическое отклонение по размаху выгодно при малом числе измерений: при числе вариант не более 20 (а это, как известно, имеет большое значение для сравнительных педагогических экспериментов, в которых, как правило, участвует ограниченное количество исследуемых). Величина среднего квадратичного отклонения зависит от величины колебаний вариант: чем больше амплитуда различий между ...

Скачать
100095
5
2

... проверить знания студента из первой части курса, которая излагается в первых четырёх модулях. Во вторых вопросах билета проверяются знания классической предельной проблемы теории вероятностей и математической статистики, которые излагаются в следующих пяти модулях. 1.  Вероятностная модель с не более чем счётным числом элементарных исходов. Пример: испытания с равновозможными исходами. 2.  ...

0 комментариев


Наверх