Основы статистического анализа (реферат). - Статистика - Скачать бесплатно
В в е д е н и е.
Статистика (stato - состояние ) - это совокупность данных наблюдений ,
статистическая совокупность - это, как правило, количественная оценка
исследуемого явления, собранная одномоментно из разных источников или в
одном месте в разное время (числовые значения).
Статистической совокупностью - называется генеральной совокупностью, если
включает в себя все возможные значения данного явления. Такую совокупность
практически трудно создать в силу бесконечного ее объема, поэтому чаще
всего статисты работают с некоторой частью генеральной совокупности,
которая называется - выборкой. Работая с выборкой должны получать
результаты, которые соответствуют генеральной совокупности.
Задачи статистики :
1.Учет явлений (как правило в количественном измерении) ;
2.На основе учета проводится деление (обобщение) однородных явлений ;
3.При любых статистических исследованиях обязательно должно быть много
наблюдений (испытаний, опытов) ; это необходимо для того, чтобы получить
достоверные результаты ;
4.Аккуратная регистрация наблюдений (опытов) ;
5.Строгое соблюдение размеренности величин, соответствие точности.
Целью статистических исследований является :
а)анализ существующего положения ;
б)выявление тенденций ;
в)прогнозирование на будущий период своих показателей.
1.2. Построение дискретного и интервального вариационного ряда.
Анализ работы горного предприятия начинается с анализа одного показателя.
Как правило, в качестве первого показателя выбирается результирующий
показатель и для него проводится полный анализ. Эта одномерная
совокупность представляется в виде вариационного ряда.
Основная цель - установить вид распределения этой одномерной совокупности.
Ранжированный ряд (табл. 2) представляется как ряд исходных значений
(вариант), расположенных в некотором порядке (убывания или возрастания)
значений. Обычно значения располагаются от меньшего к большему.
Дискретный вариационный ряд (табл. 3) принимается как ранжированный ряд
распределения, где каждому значению варианта ставятся в соответствие его
частота и частость. Частота - абсолютное число значений данного варианта в
данном ряду, частость
- относительное число значений данного варианта (отнесенное к общему числу
наблюдений).
Хi mi Хi mi
1470 1 1470 1
2006 1 2006 1
2030 1 2030 1
2073 1 2073 1
2305 1 2305 1
2444 1 2444 1
2535 1 2535 1
2625 1 2625 1
2710 1 2710 1
N 9
Табл. 2 Табл. 3
где :
Хi - текущее значение вариант;
mi - частота i-го варианта;
N - количество наблюдений.
Формирование интервального вариационного ряда.
Общие положения.
Будем считать, что предварительно проведены исследования статистической
возможности использования данной совокупности.
Установлено, что совокупность достаточна по объему, репрезентативна. и в
совокупности нет ошибок и промахов.
Вариационным рядом - называется ранжированная совокупность дискретных
значений и соответствующая каждому значению частота .
Такой ряд называется дискретным. Вариационный ряд может быть дискретным и
интервальным.
Вариационный ряд можно считать распределенным признаком.
Если совокупность очень велика по объему , или не имеет повторяющихся
значений, или состоит из непрерывных значений, то совокупность
представляется в виде интервального вариационного ряда.
Интервальный вариационный ряд состоит не из конкретных значений
совокупности, а из некоторых интервалов этих значений и соответствующих
каждому интервалу частот.
Другими словами, в интервальном вариационном ряде объединяются несколько
значений совокупности, как некоторый интервал. Интервалы могут быть
разными или одинаковыми для совокупности .
Размер (ширина, величина) интервала может быть рассчитана по эмпирической
формуле Стерджесса или назначена из других соображений.
Для простоты рассуждений в данной работе вычислим интервал по формуле и
назначим его близким к вычисленному и одинаковым по всей совокупности.
Пусть имеется совокупность в N значений - х1,,х2,...,хN представленную в
порядке наблюдений. Расположим ее по рангу, т.е. от меньшего к большему (
но можно и от большего к меньшему).
Получим совокупность в другом порядке, но того же объема - N значений .
Обозначим ее так же как х1,,,х2,...,хN.
Для построения интервального вариационного ряда определяется ширина
интервала ряда распределения (h).
Приближенное значение h вычисляется по эмпирической формуле Стерджесса:
где X max- наибольшее значение варианта в данном ряду;
X min - наименьшее значение варианта в данном ряду;
N - общее число наблюдений в данном ряду или количество вариант (объем
выборки).
За окончательное значение h принимается значение, близкое к расчетному, но
округленное так, чтобы интервалы оказались удобными для расчетов.
Ширину интервалов можно принимать одинаковой и разной для различных
интервалов вариационного ряда.
В каждом интервале различают верхнюю и нижнюю границу.
Нижнюю границу (меньшее значение) первого интервала следует выбрать так,
чтобы меньшее значение ряда было включено в первый интервал и среднее
интервальное значение первого интервала было удобным для дальнейших
расчетов. В конкретный интервал включаются все значения варианта,
удовлетворяющие неравенству
где Xj - значение варианта ряда; 1,2, ..., N;
(X min)i - нижняя граница (меньше значение) i- го интервала;
(X max)i - верхняя граница (большее значение) i- го интервала.
Значение (X min)i и (X max)i связано с соотношением с (X max)i = (X min)i
+ h
Начальный (первый) и конечный (последний) интервалы можно сделать
открытыми.
Интервальный вариационный ряд представлен в табл. 4.
№№ X min X max Xi m1 ni Mi
1 1300 1700 1500 1 0,111 1
2 1700 2100 1900 3 0,333 4
3 2100 2500 2300 2 0,222 6
4 2500 2900 2700 3 0,333 9
Табл. 4
Первый и последний интервалы могут быть открытыми, т.е. для них определены
только либо Xmin, либо Xmax. Это бывает удобно в случае, когда есть
большой отрыв значений совокупности либо в начале либо в конце см. табл.
4А.
Для каждого интервала (Xmin--Xmax)i рассчитываются частоты - mi, частость
- ni, накопленная частота - Мi, среднее интервальное значение - Xi.
Частота - mi - абсолютное количество значений совокупности, включенных в
интервал i.
Частость - ni - относительная частота или частота , отнесенная к общему
количеству наблюдений , т.е. ni = mi / N.
Накопленная частота - Мi - абсолютное количество значений совокупности,
включенных в данный и все предыдущие интервалы. Поэтому для первого
интервала M1 = m1,, для последовательного интервала М1 = m1 = N
Среднеинтервальное значение - Хi - представляет середину интервала,
является вместе с частотой mi как бы представителем данного интервала,
рассчитывается по формуле Стерджесса.
Отсюда видно, что интервалы (Xmin — Xmax) надо назначить так, чтобы
получить простое для расчетов значение Xi , которое используется в
дальнейшем статистическом анализе.
Все рассчитанные значения заполняют таблицу вида “Интервальный
вариационный ряд” (табл. 4).
Если открытым интервалом является первый, то для расчета
среднеинтервального X1 - формируют для первого интервала (Xmin)1= (Xmax)1
- h
аналогично, если открытым является последний интервал, то формируют Xmax
для последнего интервала равным (Xmax)n=(Xmin)+h, вне зависимости от того,
какие истинные значения в интервале.
1.3. Графическое изображение вариационного ряда.
Общие положения.
Одномерная совокупность, представляется в виде вариационного ряда, может
быть изображена в виде полигона, гистограммы, кумуляты, кривой Лоренца,
огивы.
Полигонная ломаная, или полигон, или многоугольник распределения -
строится в прямоугольной системе координат.
Полигон может быть построен для дискретного вариационного ряда и для
интервального. Полигон для дискретного вариационного ряда:
По оси абсцисс откладывают значение вариант, а по оси ординат - значения
частот .
Полученные на пересечении этих значений точки соединяют отрезками прямой.
Такой график, как очевидно, можно построить только для случая часто
повторяющихся вариант в совокупности.
На практике чаще всего случается, что наблюдений слишком много, а потому
повторяющихся значений либо мало, либо вообще повторений нет. Все
имеющиеся значения вариант совокупности встречаются только единожды.
Частоты равны единице. График теряет смысл. Поэтому для небольших по
объему совокупностей Рациональнее строить полигонную ломаную по
интервальному вариационному ряду.
Но, как уже говорили раньше, и для больших по объему совокупностей, проще
построить полигон по интервальному вариационному ряду.
Для этого по оси абсцисс откладываются значения середин интервала, -
среднеинтервальные значения совокупности, а по оси ординат, как всегда, -
частоты. Крайние ординаты соединяют с серединой интервалов, где частоты
равны нулю.
Гистограмма распределения строится только для совокупности, представленной
в виде интервального вариационного ряда. Гистограмма также строится в
прямоугольных системах координат.
В отличие от полигона, для гистограммы на оси абсцисс откладываются
отрезки, соответствующие интервалу значений. На каждом отрезке, как на
основании строится прямоугольник, высотой которого служит значение
частоты, соответствующей данному интервалу.
Получим как бы ступенчатую гистограмму. При таком построении допускается,
что распределение вариант внутри интервала равномерно.
Можно представить себе, что при последовательном делении интервалов,
ступенчатая гистограмма превратится в плавную кривую. Такая кривая носит
название кривой распределения.
Кумулята, кумулятивная кривая, выполняется в прямоугольной системе
координат. По оси абсцисс откладываются значения признака (варианты), а по
оси ординат - соответствующие накопленные частоты. Полученные точки
пересечения соединяются отрезками прямой.
Кумулятивную кривую можно построить как для дискретного вариационного
ряда, так и для интервального.
Для интервального вариационного ряда по оси абсцисс откладываются
среднеинтервальные значения. Нижней границе первого интервала
соответствует частота равная нулю, а верхней границе последнего интервала
- Сумма всех частот или общее количество наблюдений.
При выборе соотношения между масштабом и по осям абсцисс и ординат
целесообразно использовать правило “ золотого сечения ”. График
располагается в прямоугольнике, размеры которого пропорциональны 5 : 8 или
3 :4, а линии графика занимают всю площадь графика. Сравнение этих
графиков показывает, что переход к интервальным значениям значительно
сглаживает график и выделяет сущность совокупности.
Построим графики для совокупности, представленной в виде интервального
вариационного ряда. Воспользуемся табл. 3 и 4.
Xi 1470 2006 2030 2073 2305 2444 2535 2625 2710 N
mi 1 1 1 1 1 1 1 1 1 9
Табл. 3
№№ X min X max Xi m1 ni Mi
1 2 3 4 5 6
1 1300 1700 1500 1 0,111 1
2 1700 2100 1900 3 0,333 4
3 2100 2500 2300 2 0,222 6
4 2500 2900 2700 3 0,333 9
Табл. 4
Построим полигонную ломаную - “ полигон “, по оси абсцисс отложим значение
вариант Xi , а по оси ординат - значение частот этих вариант mi .
Из таблицы 4 следует, что наименьшее Xi=Xmin=1470, а наибольшее
Xi=Xmin=2710, поэтому на оси абсцисс отложим 1300 и 2900, т. е. значения
включающие min и max. И на полученном отрезке оси отметим точки,
соответствующие значениям всех вариант таблицы 4.
Как видим по таблице 3 наибольшее значение частоты mi=3. Поэтому ось
ординат достаточно разделить на 3 равные части (рис.1). А масштаб графика
выберем так, чтобы выдержалось золотое соотношение : 5 : 8 или 3 :4.
Аналогично построим и полигон для совокупности, представленной в виде
интервального вариационного ряда.
Используем таблицу 4 . По оси абсцисс графика откладываются значения
столбца 3 из таблицы 4 . Среднеинтервальные значения Xi варьируют в
пределах 1500 : 2700 . Эти значения и должны служить границами графика
(рис. 1). Наибольшая частота mmax=3. Поэтому достаточно ось координат
разделить на 3 равных отрезка.
Нанесем точки на ось абсцисс: 1500, 1900, 2300, 2700. На оси ординат
отложим 1, 3, 2, 3.
На пересечении этих значений отметим точки полигона и соединим точки
отрезками прямой. Можно добавить в таблице 4 две строчки - в начале и в
конце таблицы:
1 2 3 4 5 6
0 < 1300 1100 0
5 > 2900 3100 0
Табл. 5
№№ X min X max Xi m1 ni Mi
1 2 3 4 5 6
0 < 1300 1100 0
1 1300 1700 1500 1 0,111 1
2 1700 2100 1900 3 0,333 4
3 2100 2500 2300 2 0,222 6
4 2500 2900 2700 3 0,333 9
5 > 2900 3100 0
Табл. 4А
Эти дополнения дают нам возможность дополнить полигонную ломаную отрезками
прямой до пересечения с осью абсцисс. Нанесем эти отрезки пунктиром.
Построим гистограмму.
Для этого используем интервальный вариационный ряд.
На оси абсцисс отложим отрезки, соответствующие интервалам вариационного
ряда. На них, как на основании, построим прямоугольники (столбики) ,
высотой, пропорциональной частоте.
mi3
2
1
0 1300 1700 2100 2500 2900 Xmin : Xmax
Если представить, что интервалы последовательно и многократно делят на
два, тогда столбики гистограммы становятся всё тоньше и тоньше. И в
пределе верхние отрезки столбиков превращаются в точки и получается плавно
огибающая линия. Эта линия и носит название кривой распределения. Но этот
процесс требует большого количества наблюдений.
В последующих результатах анализа используются результаты этого
рассмотрения.
Построим кумуляту. Кумулятивная ломаная строится как для дискретного так и
для интервального ряда.
Не усложняя процесс анализа статистической совокупности, построим кумуляту
только для интервального вариационного ряда.
Отложим по оси абсцисс значение середин интервала (среднеинтервальные), а
по оси ординат - накопленные частоты, И соединим точки пересечения
отрезками прямой.
Можно сказать, что основное количество наблюдений находится в крайних
интервалах, т.к. угол между осью абсцисс и отрезком кумуляты в этих
интервалах больше, чем в серединном интервале. Ведь очевидно, что если бы
интервал имел частоту, равную нулю, то соответствующий отрезок
кумулятивной ломаной был бы параллелен оси абсцисс.
Так, если к нашей совокупности, соответственно интервальному ряду,
добавить еще один интервал, то частота его будет равна 0.
На кумуляте можно определить значение Ме.
Как известно, медиана - это значение признака, находящегося посредине
совокупности. В данном случае всего девять значений, N=9, значит, N/2=4,5.
Откладываем это значение на оси ординат, проводим горизонтальную линию
(параллельную оси абсцисс) до пересечения с графиком кумуляты, из точки
пересечения опускаем перпендикуляр на ось абсцисс. Это значение и есть
значение медианы - Меграф.
Выводы.
На полигонной ломаной нельзя сделать серьезного вывода, т.к. наблюдений
немного и они имеют большой разброс, что и сказалось на графике. Несколько
сглаженные интервальные значения позволили построить гистограмму
достаточно симметричного вида.
Кумулята свидетельствует о том, что в построении вариационного ряда нет
пустых интервалов, т.е. интервалов с частотой равной нулю.
Таким образом, можно считать, что данная совокупность может быть включена
в дальнейшее исследование.
1.4. Определение средних значений вариационного ряда.
Общее положения.
Средняя - обобщающая количественная характеристика совокупности. Это
позволяет одной величиной охарактеризовать признак.
В статистике различают много видов средних. Выбор той или другой средней
определяется видом признака и целями исследования.
В данной работе будут рассмотрены средние оценки: средняя арифметическая,
медиана и мода. Среднюю арифметическую называют параметрической средней.
Средняя арифметическая может быть дискретной (или простой) и взвешенной.
Дискретная (или простая) средняя рассчитывается по формуле, где
Xa - обозначение средней арифметической, дискретной ;
xi - отдельные значения совокупности, ( i = 1,2, ... N );
N - количество значений в совокупности.
Если наблюдений в совокупности достаточно много, то некоторые значения
повторяются. Тогда, представленная совокупность в виде дискретного
вариационного ряда, можно вычислить среднюю арифметическую с помощью
частот.
Частота выступает в виде веса данного значения совокупности, а общая
формула примет вид, где
- средняя арифметическая взвешенная;
xi - отдельное значение совокупности;
N - вес (частота ) этого значения;
i=1,2, ..., k - текущие значения;
k - количество различных значений совокупности.
Для больших по объему совокупностей весь статистический анализ разумно
вести, представив совокупность в виде интервального вариационного ряда.
Тогда средняя интервального вариационного ряда вычисляется по формуле, где
- средняя арифметическая интервального ряда;
xi - среднеинтервальное значение (середина интервала i );
mi - частота интервала (количество значений совокупности в i-ом
интервале);
i=1,2, ..., k - текущие значения интервала;
k - количество интервалов.
Среди непараметрических средних значений рассмотрим медиану и моду.
Медиана, также как и среднеарифметическая, может быть дискретной и
интервальной.
Медиана - среднее значение ранжированной совокупности.
Поэтому, если рассмотреть ранжированную совокупность, то могут быть два
пути определения медианы.
Для случая интервального вариационного ряда надо с начала определить
медианный интервал, то есть определить интервал в который входят медиана.
Определяется медианный интервал по накопленной частоте М. Первый интервал
для которого выполняется соотношение и является медианным, где:
Меинт - медиана интервального ряда,
h - величина интервала интервального ряда,
(xmin) k - нижняя граница медианного интервала,
Мk-1 - накопленная частота интервала, предшествующего медианному,
mk - частота медианного интервала,
k - номер медианного интервала.
Из определений Медискр и Меинт ясно, что их значения близки но не
совпадают.
Кроме того, очевидно, что значения Xa и Ме достаточно близки по своим
значениям, т.к. определяют среднюю и срединную часть совокупности. Если
совокупность достаточно однородна, то эти значения достаточно близки друг
к другу.
Другой не параметрической средней характеристикой является мода - Мо.
Мо - наиболее часто встречающееся значение совокупности.
Или, иначе , мода - значение совокупности с наибольшей частотой, Мо=xi при
mi=max{m}. Различают совокупности одно, двухмодальные, трехмодальные и
т.д.
Одномодальная совокупность имеет наблюдение наибольшей частотой, и
характеризуется одним значением моды.
В двухмодальной совокупности есть два наблюдения с равными наибольшими
частотами, т.е. совокупность характеризуется двумя значениями моды. В этом
случае для дальнейшего исследования выбирают моду, близкую к
среднеарифметическому значению.
Различно рассчитывают значение моды для дискретного и интервального ряда.
И более того- для дискретного ряда не всегда можно определить значение
моды, т.к. может существовать несколько наблюдений с равными и
максимальными частотами. Поэтому часто необходимо моду определять, приведя
совокупность к интервальному виду. Но тогда, сначала, как и в случае
расчета медианы, необходимо определить модальный интервал. Модальный
интервал имеет наибольшую частоту. А внутри этого интервала мода
определяется как
где:
Моинт - мода интервального ряда,
h - величина интервала интервального ряда,
(xmin) k - нижняя граница модального интервала,
mk - частота модального интервала,
mk-1 - частота интервала, предшествующего модальному,
mk+1 - частота интервала, следующего за модальным,
k - номер модального интервала.
Для однородной совокупности характерна близость значений Xa, Ме и Мо.
Вычисления.
Xi 1470 2006 2030 2073 2305 2444 2535 2625 2710 N
mi 1 1 1 1 1 1 1 1 1 9
Табл. 3
№№ X min X max Xi m1 ni Mi
1 2 3 4 5 6
1 1300 1700 1500 1 0,111 1
2 1700 2100 1900 3 0,333 4
3 2100 2500 2300 2 0,222 6
4 2500 2900 2700 3 0,333 9
Табл. 4
Определим значение Ме.
Для определения моды - Мо - также используем теже данные.
k=2
h=400
=2100
mk=m2=3
mk-1=m2-1=m1=1
mk+1=m2+1=m3=2
Оценки Xa Ме Мо
Дискретные 2244 2305 ------
Взвешенные 2244 2305 ------
Интервальные 2211 2567 2367
Табл. 5
1.5. Вычисление характеристик меры и степени вариации .
1.0 Показатели колеблемости (вариации).
Общие положения.
Средние величины характеризуют вариационный ряд одним числом. Но тогда эти
характеристики не отражают изменчивости признака , не учитывают вариацию
признака в данной совокупности.
В статистике принято несколько способов измерения вариации.
Самая простая оценка - вариационный размах.
R - вариационный размах - определяется как разность между экстремальными
значениями ранжированной совокупности, где Xmax - наибольшее значение ,
Xmin - наименьшее значение совокупности.
Размах во многом зависит от случайных обстоятельств, различен для разных
выборок одного признака , а потому может быть применен как
приблизительная, неустойчивая оценка вариации.
Более значимой является простое среднее отклонение.
Простое среднее отклонение является средним арифметическим отклонением (по
абсолютной величине) отдельных значений (вариант) от общего
среднеарифметического,
где
xi - отдельное значение совокупности,
дискр, взв - среднеарифметическое значение совокупности,
N- количество наблюдений в совокупности.
Простое отклонение может быть вычислено как дискретное (как показано выше)
и как взвешенное:
Наиболее полной оценкой вариации признака является средний квадрат
отклонения дисперсия 2 - дисперсия - рассчитывается как средний квадрат
отклонений отдельных значений от среднего арифметического.
Как и простое среднее отклонение , дисперсия может быть рассчитана как
дискретная или как взвешенная :
для дискретных значений;
для взвешенных значений.
Эта оценка наиболее часто используется на практике как мера колеблемости
признака. Среднеквадратическое отклонение (или стандарт) представляет
собой квадратный корень из дисперсии. Также как и предыдущие оценки,
стандарт может рассчитываться как дискретный и взвешенный.
Как правило в статистическом анализе выполняются характеристики по
интервальному вариационному ряду. Это вполне относится к вычислению
дисперсии и стандарта, где
- среднеинтервальное значение интервала i ;
mi - частота интервала i ;
2инт - дисперсия интервального вариационного ряда ;
инт - стандартного интервального вариационного ряда ;
Иногда статистический анализ использует и другие формулы расчета , но они
за пределами нашего рассмотрения.
Как покажут дальнейшие исследования, стандартное отклонение необходимо
учитывать при любом статистическом исследовании и анализе. Все эти оценки
являются абсолютными величинами, их выражают в тех же единицах измерения ,
что и значение признака и они характеризуют колеблемость признака. Но
очень часто используют относительные показатели и коэффициенты вариации.
Эти коэффициенты имеют смысл только при положительных значениях признаках.
Коэффициент вариации, величина которой превышает 30%, свидетельствует о
большой колеблемости значений признака в данной совокупности.
Стандартное отклонение часто используется при построении интервального
вариационного ряда.
Учитывая, что чаще всего вариационный ряд укладывается в границе , можно
выбрать интервалы вариационного ряда равными или 2/3 или /2 и
соответственно получить 6 или 9 или 12 интервалов.
Аналогичным образом можно построить 9 или 12 интервалов, если принять
h=2/3 или h= /2 .
При этом практически все значения (98%) совокупности будут включены в
интервальный вариационный ряд.
Вычисления.
Для расчета вариации признака используем исходную совокупность, а также
таблицы №3 и №4.
Простое среднее отклонение можно рассчитать и как взвешенное, что и будет
служить проверкой правильности расчета.
Как видим, интервальные значения отличаются от дискретных. И это
естественно, так как интервальные оценки являются более усредненными.
Простое среднее отклонение - одна из необходимых характеристик при
проведении статистического анализа, и мы будем использовать его в
дальнейшем.
Основные характеристики вариации - дисперсия и стандарты.
Эти характеристики также могут быть вычислены как дискретные, взвешенные и
интервальные.
Как видим, дисперсии, вычисленные с разным усреднением , довольно резко
отличаются друг от друга.
Значения дисперсии позволяют вычислить значения стандартного отклонения.
Стандартное отклонение необходимо для дальнейшего статистического анализа.
Оценки вариации совокупности.
Оценки R 2
Дискретные 1240 310 13553 116
Взвешенные --- 310 13553 116
Интервальные --- 365 169877 412
Табл. 6
средние хар-ки хар - ки вариа - ции
Ме Мо 2 V V
Дискр 2244 2305 ---- 310 13553 116 13.8 5.1
Взв 2244 2305 ---- 310 13553 116 13.8 5.1
Инт 2211 2567 2367 365 169877 412 16.5 18.6
Табл. 7
1.6. Установление возможной подчиненности вариационного
ряда нормальному закону распределения .
Общие положения.
Все характеристики, полученные ранее необходимы для выполнения
поставленной задачи.
Каждая характеристика с какой-то своей стороны определяла имеющуюся
совокупность. Но общее суждение о совокупности можно вынести только,
собрав воедино все соображения.
Любой статистический анализ проходит некоторые, общие по форме, стадии.
Первая стадия- высказывание гипотезы. Гипотезу называют ноль-гипотеза и
обозначают Но. Как правило, гипотеза Но ,- эта гипотеза о том, что мы
ожидаем на данном этапе статистического анализа. Этой гипотезе Но
противостоит другая гипотеза - Н1 ,- конкурирующая гипотеза.
Гипотеза Но, и Н1 могут быть простыми и сложными.
Вторая стадия статистического анализа - проверка правильности высказанной
гипотезы Но. Для этого используются разработанные и принятые в статистике
критерии.
Если критерий удовлетворяется , то можно сказать, что данная совокупность
не противоречит высказанной гипотезе. Здесь важно отметить, что гипотеза
Но не принимается безоговорочно, что есть всегда вероятность принять (или
не принять) гипотезу Но ошибочной.
Если критерий не удовлетворяется, то гипотеза Но отвергается.
Выскажем гипотезу, состоящую в том, что наша одномерная совокупность
подчиняется нормальному закону распределения.
В этом случае можно считать, что совокупность собрана в одинаковых
условиях и все вариации признаки являются воздействия случайностей. Ошибки
измерений носят случайный характер и могут быть описаны кривой нормального
распределения.
В случае согласия с высказанной гипотезой, данная совокупность может быть
принята для дальнейшего анализа, в противном случае надо внимательнее
изучить условия получения значения совокупности и провести наблюдения еще
раз.
В качестве критерия выступает специально разработанные соотношения.
Полученные расчетные значения критериев для данной совокупности
сравниваются со значениями критериев, найденными по таблицам или
специальным соотношением. Сравнение расчетных и табличных значений
позволяет сделать вывод о согласии ( или несогласии) о высказанной
гипотезе.
В случае согласия с высказанной гипотезой статистическое исследование
продолжается , в случае несогласия - возвращается к предыдущему этапу,
т.е. к высказыванию другой гипотезы.
Для данной совокупности высказывается гипотеза Но - о том, что полученное
эмпирическое распределение достаточно хорошо описывается теоретической
кривой нормального распределения.
При этом все значения получены как дискретные, так и интервальные.
Будем рассматривать только интервальные значения, т.к. интервальные
значения являются сглаженными, усредненными и лучше отражают общую
тенденцию совокупности.
В предыдущих частях работы получены:
средние хар-ки хар - ки вариа - ции
Ме Мо 2 V V
Дискр 2244 2305 ---- 310 13553 116 13.8 5.1
Взв 2244 2305 ---- 310 13553 116 13.8 5.1
Инт 2211 2567 2367 365 169877 412 16.5 18.6
Табл. 7
Отсюда видно, что средние характеристики хотя и отличаются по значениям
друг от друга , но различия эти невелики и могут быть результатом
округленней в промежуточных расчетах.
Но в целом можно признать, что эмпирическое распределение соответствует
теоретическому нормальному, имеет подобно нормальному распределению
колоколообразный характер, а средние характеристики близки к друг другу.
Поэтому будем считать, что полученные результаты не противоречат
высказанной гипотезе .
Практически любое статистическое исследование базируется на некоторой
выборке, состоящих из случайных величин.
Под случайной величиной понимается величина, которая в результате опыта
может принять то или иное значение, неизвестно заранее - какое именно.
Различаются случайные величины прерывного (дискретного ) и непрерывного
типа. Возможные значения непрерывных величин не могут быть заранее
перечислены и непрерывно заполняют некоторый промежуток. В дальнейшем
рассматриваются
|