[pic] - для сгруппированных данных.
Несмотря на логическое сходство, дисперсия является более
чувствительной к вариации и, следовательно, чаще применяемый показатель.
3. Прямой способ расчета показателей вариации.
Расчет показателей вариации заработной платы работников завода.
|750 |30 |- 1 500 |-1 |2 |-2 |2 |
|2 250 |75 |0 |0 |5 |0 |0 |
|3 750 |45 |1 500 |1 |3 |3 |3 |
|5 250 |15 |3 000 |2 |1 |2 |4 |
|Итого | | | |11 |3 |9 |
А=2250; k=1500; с=15
[pic]
6. Относительные показатели вариации.
Абсолютные измерители вариации (дисперсия, средне квадратическое
отклонение) ограниченно пригодны для сравнительного анализа вариаций
различных совокупностей.
Для цели сравнительного анализа применяют относительные показатели,
коэффициенты вариации. Наиболее распространенной формой коэффициентов
вариации является [pic], он показывает, какой процент от средней
арифметической составляет среднее квадратическое отклонение.
Вместо средне квадратического в числителе коэффициента вариации иногда
используют среднее линейное отклонение [pic].
Если среднее линейное отклонение определялось относительно медианы или
моды, то соответствующие показатели вариации будут выглядеть [pic], [pic].
Коэффициенты вариации определенные по различным основаниям не
одинаковы, поэтому, сопоставляя вариации разных совокупностей, нужно
использовать коэффициенты вариации, рассчитанные по одной и той же
величине.
Коэффициент вариации является так же количественной мерой однородности
совокупности. Принято считать, что если [pic], то совокупность
количественно однородна. Чем меньше, тем лучше.
7. Стандартизация данных.
Коэффициенты вариации являются сводными оценками вариаций различных
совокупностей. Однако они не позволяют сопоставить между собой значения
признака у отдельных или групп единиц разных совокупностей.
Для подобных сравнений прибегают к стандартизации вариантов разных
совокупностей по формулам:
[pic], где [pic], [pic] - это стандартизированные значения вариантов
ряда x и y соответственно. В процессе стандартизации мы переходим от
измерения вариантов в натуральных или стоимостных единицах к их измерению
величинами соответствующих средне квадратических отклонений.
Пример: Стандартизация данных о доходах на одного члена семьи и
среднедушевом потреблении мяса.
|Доход на |Среднедушевое |[pic]|[pic]|[pic] |[pic] |[pic]|[pic] |
|одного |потребление | | | | | | |
|члена семьи, |мяса, [pic] | | | | | | |
|тыс. | | | | | | | |
|руб./год, | | | | | | | |
|[pic] | | | | | | | |
|60,7 |12,3 |-97,5|-25,6|9 506,25 |655,36 |-1,28|-1,31 |
|84,2 |19,1 |-74 |-18,8|5 476,00 |353,44 |-0,97|-0,96 |
|112,4 |23,1 |-45,8|-14,8|2 097,64 |219,04 |-0,60|-0,76 |
|144,5 |35,6 |-13,7|-2,3 |187,69 |5,29 |-0,18|-0,12 |
|180,1 |49,5 |21,9 |11,6 |479,61 |134,56 |0,29 |0,59 |
|240,9 |57,3 |82,7 |19,4 |6 839,29 |376,36 |1,09 |0,99 |
|284,6 |68,4 |126,4|30,5 |15 976,96|930,25 |1,66 |1,56 |
|1107,4 |265,3 | | |40 563,44|2 674,30 | | |
[pic]
[pic]
При стандартизации сгруппированных данных наряду с масштабированием
вариантов ряда величинами соответствующих средне квадратических отклонений
частоты этих рядов пересчитываются в частости.
Стандартизацию данных проводят, когда варианты сравниваемых рядов
отличаются единицами измерения и порядком.
Стандартизация является важнейшим статистическим промежуточным этапом.
Стандартизация используется так же хорошо в теории выборочного метода.
8. Моменты распределения.
Моменты распределения составляют алгоритмическую основу многих
статистических методов. Различают:
. Произвольные (общий случай);
. Начальные;
. Центральные;
. Стандартные (частный случай).
Выделяют:
- Взвешенные;
- Невзвешенные.
Произвольным моментом k-го порядка называется среднее значение k-ой
степени отклонения всех вариантов ряда от произвольного постоянного числа.
[pic] - для несгруппированных данных;
[pic] - для сгруппированных данных.
При этом k принимает целочисленное значение от 1 до 4.
Если А=0, то произвольный момент преобразуется в начальный момент.
[pic] - для несгруппированных данных;
при k=1 M1=[pic]
при k=2 M2=[pic]
[pic] - для сгруппированных данных.
Если А=[pic], произвольный момент преобразуется в центральный момент
распределения.
[pic] - для несгруппированных данных;
[pic] - для сгруппированных данных.
При k=1 M1=0
При k=2 M2=[pic]
Стандартные моменты это начальные моменты из стандартных отклонений.
[pic] - для несгруппированных данных;
[pic] - для сгруппированных данных.
[pic]
Стандартный момент k-го порядка это отношение центрального момента того
же порядка к средне квадратическому отклонению в k-ой степени.
Так же как средняя арифметическая величина и дисперсия, центральные и
стандартные моменты обладают рядом свойств, которые по сути ближе всего к
свойствам дисперсии.
9. Показатели асимметрии и эксцесса.
При анализе распределений помимо графического изображения характер
распределения можно выяснить, рассчитывая такие показатели, как асимметрия
и эксцесс.
В качестве показателя асимметрии используют стандартный момент 3-го
порядка. Если распределение симметрично относительно средней то показатель
асимметрии равен нулю.
[pic] [pic]
Если показатель асимметрии больше 0, то есть преобладают положительные
отклонения от среднего, то наблюдается правосторонняя асимметрия, то есть
преобладание в совокупности вариантов ряда превышающих среднюю.
Если же показатель асимметрии меньше 0, налицо левосторонняя
асимметрия, то есть превышение численности вариантов ряда меньше чем
средняя.
Показатель эксцесса характеризует степень колеблемости исходных данных,
чем сильнее вариация, тем более пологой является кривая распределения и
наоборот, чем однороднее совокупность, тем в большей степени варианты ряда
сконцентрированы около средней и тем более островершинней будет кривая
распределения.
В качестве эталона высоты распределения в статистике принимается кривая
нормального распределения. Доказано, что стандартный момент 4-го порядка у
этой кривой равен 3.
[pic] [pic]
10. Средняя арифметическая и дисперсия альтернативного признака.
Альтернативный признак – тот которым обладает или не обладает единица
совокупности.
Наличие альтернативного признака обозначают 1, а отсутствие – 0. Если
численность совокупности – N, а M – число единиц, обладающих изучаемым
признаком, то [pic] - доля единиц, обладающих изучаемым признаком.
Соответственно [pic] - доля единиц таким признаком не обладающих.
Предположим
|[pi|[pi|
|c] |c] |
|1 |p |
|0 |q |
| |1 |
p+q=1
[pic]
Средняя арифметическая альтернативного признака равна p.
[pic]
Дисперсия альтернативного признака [pic].
Пример: N=10, M=4
N-M=6
[pic]
Максимальное значение дисперсии для неоднородных совокупностей [pic].
Выборочный метод.
1. Сущность выборочного метода и его практическое значение.
2. Ошибка выборки.
3. Малая выборка.
4. Определение оптимальной численности выборки.
5. Распространение результатов выборочного распределения на генеральную
совокупность.
6. Классификация способов отбора.
7. Организация отбора различными способами и оценка надежности
полученных результатов.
8. Моментное выборочное наблюдение.
1. Сущность выборочного метода и его практическое значение.
Выборочный метод – это основной способ сбора информации в условиях
развитой рыночной экономики.
Выборка – разновидность несплошного наблюдения, позволяющего определить
показатели всей совокупности (генеральной совокупности) на основе изучения
ее части. При этом отобранная часть формируется с учетом положений теории
вероятности и математической статистики.
Выборка имеет многовековую историю, но ее математическая составляющая
получила развитие во 2й половине 19-20 века. Значительный вклад в
формирование теории выборки внесли русские статистики. В СССР
господствовало сплошное статистическое наблюдение в виде отчетности.
Выборка охватывала только:
. Оценку качества продукции;
. Наблюдение за ценами на городских колхозных рынках;
. Наблюдение за семейными бюджетами;
. Изучение спроса.
За рубежом в то время преобладало выборочное обследование. Сплошное
наблюдение охватывало только таможенную статистику, налогообложение и
периодически проводимые переписи населения, и промышленные цензы.
Достоинства выборки.
При правильно организованном выборочном обследовании изучается не более
20-25% совокупности, обычно 10% и то много. На лицо огромная экономия
времени и средств. При этом благодаря работе статистиков – профессионалов
значительно повышается точность наблюдений (нередко она выше, чем при
сплошном наблюдении). Однако, параметры выборки в силу объективных причин
могут отличаться от соответствующих параметров генеральной совокупности,
поэтому результаты выборочного исследования распространяются на генеральную
совокупность с определенной вероятностью.
Не всякое несплошное наблюдение – это научно-обоснованная выборка.
Для получения надежных результатов необходимо тщательно готовить
выборку. Подготовка включает следующие этапы:
1. Обоснование целесообразности проведения выборки;
2. Подготовка программы выборки;
3. Решение организационных вопросов выборки;
4. Определение способа отбора и численности выборки, обеспечивающих
репрезультативность ее результатов.
5. Проведение отбора единиц генеральной совокупности.
6. Сводка полученных результатов и расчет параметров выборки.
7. Определение ошибок выборки.
8. Распространение параметров выборки на генеральную совокупность.
Главная задача выборки:
. Вычисление ожидаемой ошибки выборки, то есть разницы между
одноименными характеристиками выборочной и генеральной совокупности;
. Определение доверительной вероятности того, что ошибка
репрезультативности не превысит некоторого заранее заданного
значения;
. Расчет численности выборки, обеспечивающей с заданной вероятностью
необходимую точность исследований.
2. Ошибка выборки.
Возникает из-за различий в вариации значений изучаемого признака у
единиц выборочной и генеральной совокупности. Поскольку при соблюдении
требований случайного отбора все единицы генеральной совокупности имеют
равные шансы попасть в выборку, состав выборки может значительно изменяться
при повторении испытаний. Соответственно будут меняться параметры выборки,
и возникать ошибки выборки. Ошибки выборки неизбежны, они вытекают из сути
метода. Ошибки выборки не могут быть постоянными при повторении отбора.
Ошибка выборки в статистике это некоторая средняя величина или
обобщающая характеристика, ошибок полученных при многократном повторении
испытаний.
[pic]
[pic]W - P
[pic] - ошибка выборки;
[pic] - выборочная средняя;
[pic] - генеральная средняя;
W – доля единиц, обладающих изучаемым признаком в выборочной
совокупности (выборочная доля);
P - доля единиц, обладающих изучаемым признаком в генеральной
совокупности.
Величина ошибок зависит от способа отбора. В математической статистике
доказано, что средняя ошибка выборки (математическое ожидание средней
ошибки выборки) – это среднеквадратическое отклонение распределения
выборочной средней величины.
Ошибка выборки определяется: [pic]
В математической статистике доказано, что средняя ошибка собственно
случайного повторного отбор рассчитывается: [pic], где
[pic]- средняя ошибка выборки;
[pic]- дисперсия генеральной совокупности;
[pic] - численность выборки.
Если исследуется выборочная доля при повторном отборе [pic], где [pic]
- дисперсия биномиального распределения.
Результаты повторного отбора подчиняются закону биномиального
распределения.
При бесповторном отборе результаты многократной выборки и распределения
ошибок подчиняются гипергеометрическому распределению, и формула средней
ошибки имеет вид: [pic], соответственно для выборочной доли [pic].
При выборках большой численности, когда [pic] из массовых генеральных
совокупностей ([pic]) для расчета ошибок выборки можно использовать формулу
повторного отбора.
В формулах средней ошибки выборки присутствует генеральная дисперсия.
Однако, она, как правило, неизвестна. Если мы проводим выборку для того,
чтобы изучить только часть совокупности, мы не можем знать генеральную
дисперсию. Исключение составляют только выборки, проводимые для контроля
результата сплошного наблюдения.
Однако, математической статистикой доказано, что если выборка
производится из нормального распределения совокупности генеральная и
выборочная дисперсия связаны между собой следующим образом:
Из формулы видно, что достаточно большой выборке (n-1)(n, а [pic],
откуда (2( S2. Поэтому для расчета средних ошибок выборки на практике
используют выборочные дисперсии.
Если многократно проводить выборки из одной и той же генеральной
совокупности, то конкретному размеру ошибки выборки будет соответствовать
та или иная статистическая вероятность ее появления.
Вероятности конкретного размера ошибок подсчитать невозможно
(нецелесообразно), гораздо важнее знать, что ошибка наблюдений не выйдет за
определенные пределы.
Суть предельной теоремы: Чебышев доказал, что средняя арифметическая
величина достаточно большого числа независимых случайных величин, дисперсии
которых ограничены некоторой постоянной, становится фактически независимой
от игры случая.
t=1, 2, 3
По формуле Чебышева, если
t=1 ((0
t=2 ((0,75
t=3 ((0,89
Эта формула для условий повторного отбора.
Академик Марков доказал, что предельная теорема справедлива и для
бесповторного отбора.
Академик Ляпунов доказал, что вероятности предельных ошибок
многочисленных выборок подчиняются закону нормального распределения,
следовательно, для определения вероятностей нахождения ошибки выборки в
заданных пределах можно использовать интегральную формулу Лапласа.
Площадь кривой (( 0,6827
2( 0,9545
3( 0,9973
Отсюда, если доверительный коэффициент t=1, то вероятность того, что
предельная ошибка выборки не будет больше, чем средняя ошибка, которая
составляет 0,683.
[pic]
Вероятный интервал изменения генеральной средней или доли в статистике
принято называть доверительным интервалом.
Пример: Для анализа жирности молока из партии в 1000 фляг было отобрано
и проверено 30. Средний процент жирности в проверенных флягах составил
3,51%, при среднеквадратическом отклонении 0,35. С вероятностью 0,954
определить доверительный интервал средней жирности партии молока (если
выборка бесповторная).
N=1000
n=30
[pic]=3,51%
S=0,35%
Если мы расширим допустимые пределы точности, то вероятностная
надежность результата будет выше, а точность ниже.
Если p=0,997 то t=3, а (=0,19 тогда ожидаемая жирность молока в
генеральной совокупности должна составить [pic].
3. Малая выборка.
В процессе статистических исследований нередко приходится ограничивать
объем выборки, особенно в тех случаях, когда исследования единиц
совокупности приводит к их разрушению.
В статистике доказано, что даже в выборке весьма малого объема (20-30,
а иногда 4-5 единиц) позволяют получить приемлемые для анализа результаты.
Проблема малых выборок была решена в 1908г. английским статистиком
У.Гассетом (псевдоним Студент). Он сумел определить зависимость между
величиной доверительного коэффициента t, а так же численностью малой
выборки n с одной стороны, и вероятностью нахождения ошибки выборки в
заданных пределах с другой стороны. Эта зависимость получила название –
распределение Стьюдента. Для упрощения расчетов имеются специальные таблицы
значений критериев Стьюдента (стр. 372 «Практикума по теории статистики»).
(=n-1 – число степеней свободы.
[pic]
Малая выборка определяется по формуле
Средняя ошибка малой выборки
Дисперсия малой выборки
- число степеней
свободы.
Пример: Ежедневные затраты времени 15 работников на поездки туда и
обратно составляют в среднем 1,7 часа. Определить пределы, в которых
находится среднее время поездки на работу и обратно.
n=15
[pic]=1,7 часа
S2=0,134
P=0,95
4. Определение оптимальной численности выборки.
Трудовые и материальные затраты на проведение выборки напрямую зависят
от ее численности, поэтому чрезвычайно важно до оптимума сохранить
численность выборки, так чтобы не утратить ее точность.
Поиск оптимальной численности выборки удобно осуществлять на основе
формул средней и предельной ошибок. Из формулы средней ошибки случайного
повторного отбора видно, что величина средней ошибки обратно
пропорциональна квадратному корню из численности выборки ([pic]). Чтобы
сократить среднюю ошибку в 2 раза, нужно численность выборки увеличить в 4
раза. Используя формулу предельной ошибки выборки [pic] можно найти
численность [pic]. Это оптимальная численность выборки для случайного
повторного отбора.
Пример: Для определения среднего размера банковского вклада сроком на
91 день необходимо провести повторный отбор из совокупности в 2500
договоров. Какое количество договоров необходимо отобрать, чтобы с
вероятностью 0,954 предельная ошибка выборки не превысила 25 руб.
N=2500
p=0,954
(=25 руб.
n-?
(2=8900
Наличие в формуле оптимальной численности генеральной дисперсии
[pic]приводит на первый взгляд к парадоксу: зачем нам проводить выборку,
если известна генеральная дисперсия (а, следовательно, и генеральная
средняя). Однако на практике генеральная дисперсия обычно не известна,
вместо нее используют выборочную дисперсию предыдущего обследования, так
как дисперсия как показатель является более устойчивой, чем сами варианты,
на основе которых она рассчитана.
Если отбор осуществляется бесповторно, то численность выборки для
такого отбора рассчитывается по формуле:
Для предыдущего примера: [pic]
Результаты близки, так как очень велика генеральная совокупность.
Если в условиях задачи присутствует предельная ошибка выборочной доли,
то формула:
- для повторного отбора;
- для бесповторного отбора.
Пример: В целях изучения спроса на спортивную обувь периодически
проводился опрос 1500 спортсменов. Какова должна быть численность
случайного бесповторного отбора, чтобы с p=0,954 ошибка выборки доли
спортсменов, предпочитающих обувь с верхом из натуральной кожи, не
превысила 0,05, если известно, что ранее этой обуви отдавали предпочтение
65% спортсменов.
N=1500
p=0,954 (t=2)
(=0,05
w=65%=0,65
n-?
5. Распространение результатов выборочного распределения на генеральную
совокупность.
Для этих целей используется два метода:
. Метод прямого пересчета;
. Метод поправочных коэффициентов.
Метод прямого пересчета применяется для определения по данным о
выборочной доле величины интервала, в пределах которого в генеральной
совокупности с заданной вероятностью находится число единиц, обладающих
изучаемым признаком.
Пример: По данным выборочного контроля в партии яблок весом 20 тонн
доля стандарта составила 97,5%. Предельная ошибка выборки с p=0,954
равнялась 0,5%. Определить вес стандартных яблок во всей партии.
w=0,975 (97,5%)
p=0,954
(=0,005 (0,5%)
Основное назначение метода поправочных коэффициентов – уточнение данных
сплошного массового наблюдения посредством выборочных проверок. Обычно
такие проверки осуществляются инструкторами-контролерами по результатам
проведенных переписей.
Пример: По результатам контрольного обхода счетного участка
инструктором-контролером получены уточненные сведения о численности
населения 589 человек вместо 572 зарегистрированных счетчиков. Всего на
территории инструкторского участка по данным переписи проживало 3893
человека.
- скорректированная численность.
6. Классификация способов отбора.
Методология и результаты расчета основных параметров выборки
непосредственно зависят от способа отбора единиц из генеральной
совокупности.
Способ отбора – это определенная система организации выборочного
исследования. Применение того или иного способа зависит от цели
исследования условий выборки, специфики объекта исследования, необходимой
точности и оперативности результатов и от средств выделенных на
исследования.
Все способы отбора разделяются на 3 вида:
. Индивидуальный;
. Групповой;
. Комбинированный.
При индивидуальном виде отбирают отдельные единицы совокупности.
При групповом виде отбирают группы, серии единиц совокупности
(например: выбрали из контейнера несколько ящиков и все их проверили).
Комбинированный способ сочетает индивидуальный и групповой.
Если выборочная совокупность получена сразу, отбор называют
одноступенчатым.
При
|