наличии нескольких последовательных этапов отбора – выборка
считается многоступенчатой.
Единица отбора меняется на каждой ступени. В отличии от
многоступенчатой – многофазная выборка сохраняет одну и ту же единицу на
всех стадиях отбора. Однако программа наблюдения постепенно расширяется.
В зависимости от применяемой схемы отбора различают:
. Повторный;
. Бесповторный.
Каждый из видов отбора может осуществляться следующими способами:
1. Собственно случайным;
2. Механическим;
3. Типическим (стратефицированным);
4. Серийным (гнездовым);
5. Комбинированным.
7. Организация отбора различными способами и оценка надежности
полученных результатов.
Различные способы отбора отличаются неодинаковой методикой формирования
выборки и различными алгоритмами расчета ошибок репрезентативности.
Собственно случайный отбор организуется таким образом, чтобы у всех
единиц генеральной совокупности были равные возможности попасть в выборку.
Это обеспечивается отбором по жребию, по таблицам случайных чисел или с
помощью генераторов случайных чисел. Независимо от того, как будут отбирать
единицы, их обязательно нумеруют. При отборе по жребию эти номера наносятся
на карточки, шары и т.п., которые затем тщательно перемешиваются и из них
наугад отбирается количество карточек, равное численности отбора.
Таблица случайных чисел это матрица 4 или 5 чисел, каждая цифра которой
не зависит от остальных цифр данного числа и других чисел. В зависимости от
численности выборки из таблицы выбираются одно, двух, трех или
четырехзначное число. Числа можно отбирать по столбцам или строкам таблицы
(начиная с любой строки или столбца) заранее заданным алгоритмом отбора.
В компьютерах и некоторых калькуляторах имеется генератор случайных
чисел, который выводит на экран случайные числа.
Средняя ошибка собственно случайного повторного или бесповторного
отбора определяется по формуле: см. пункт (2).
Механический отбор это направленная выборка из совокупности,
предварительно упорядоченной по существующему или несуществующему признаку.
На первом этапе генеральная совокупность упорядочивается по какому-либо
признаку. Независимо от признака при механическом отборе устанавливается
пропорция отбора по формуле: N/n.
Если совокупность сгруппирована по несущественному признаку, то
безразлично, с какой единицы начинать отбор.
Если совокупность сгруппирована или упорядочена по существенному
признаку, то отбор следует начинать с середины первой группы.
Средняя ошибка механического отбора рассчитывается по формулам для
случайного отбора. Это справедливо, когда отбор производился из
совокупности, упорядоченной по несущественному признаку.
Если же совокупность была упорядочена по существенному признаку, то
такой способ расчета несколько завышает среднюю ошибку выборки.
В данном случае можно было использовать среднюю из внутригрупповых
дисперсий, а не общую дисперсию.
Типическая выборка (стратефицированная). При этой выборке генеральная
совокупность вначале разбивается на типичные группы (страты), из которых
производится случайный отбор единиц. Такая выборка гарантирует
представительство всех типичных групп выборочной совокупности, что снижает
ошибку выборки. Существуют пропорциональный и непропорциональный способы
типического отбора.
При пропорциональном способе из каждой группы отбирается число единиц
пропорциональное либо численности группы, либо внутригрупповой вариации
изучаемого признака.
При типическом повторном отборе пропорциональном численности групповая
средняя ошибка выборки определяется по формуле:
- средняя ошибка выборки для бесповторного отбора;
Если исследуется доля единиц совокупности, обладающих изучаемым
признаком, то средние ошибки и дисперсия:
- для повторного отбора;
- для бесповторного отбора.
Пример: Для изучения средних цен одного блюда в предприятии
общественного питания произведена 10% выборка пропорциональная численности
групп.
|Предприятия |Численность |Средняя |Внутригрупповая |[pic] |[pic]
|
| |выборки, |цена, [pic] |дисперсия, [pic] | |
|
| |[pic] | | | |
|
|Закусочные |21 |19,3 |68,2 |405,3 |1432,2
|
|Кафе |24 |42,5 |151,45 |1020 |3634,8
|
|Рестораны |15 |63,2 |342,5 |948 |5137,5
|
| |60 |39,56 | |2373,3 |10204,5
|
[pic]
Для расчетов нужно рассчитать среднюю из внутригрупповых дисперсий:
[pic]
Предельная ошибка типической выборки с p=0,954 [pic]
Доверительный интервал средней цены блюда [pic]
В 954 случаях из 1000 средняя цена блюда в генеральной совокупности
будет не ниже 36 руб. 36 коп. и не выше 42 руб. 76 коп.
Оптимальная численность типической выборки пропорциональна численности
групп, определяется по формулам:
- для повторного отбора;
- для бесповторного отбора.
Каковая должна быть численность выборки, чтобы с p=0,954 можно было бы
утверждать, что предельная ошибка не превысит 3 руб. 50 коп.
[pic][pic]
Численность, подлежащая отбору из отдельных типических групп,
рассчитывается по формуле:
Из 600 предприятий – 210 закусочных, 240 кафе, 150 ресторанов.
[pic]
Наиболее из точных пропорциональных способов типического отбора
является отбор пропорциональной вариации значений признака в группах.
Данный отбор целесообразен при наличии генеральных внутригрупповых
дисперсий. Это возможно, когда выборка осуществляется для контроля данных
сплошного наблюдения или когда имеются данные предшествующего сплошного
наблюдения.
Численность выборочных групп определяется по формуле:
Средняя ошибка выборки бесповторного типического отбора пропорциональна
вариации признака в группах. Определяется по формуле:
Данный способ отбора дает ошибку меньшую, чем отбор пропорциональный
численности групп.
Наиболее общим случаем является непропорциональный типический отбор.
При произвольных пропорциях формирования типических выборочных групп
средняя ошибка выборки рассчитывается по формуле:
При этом, ошибки средние выборки по группам определяются по формулам:
[pic]- внутригрупповая дисперсия.
- для повторного отбора;
- для бесповторного отбора.
Серийный или гнездовой отбор – это случайный выбор групп единиц с
последующим сплошным наблюдением внутри отобранных серий. Данная выборка
применяется преимущественно для контроля качества товаров, когда
целесообразно вскрывать и исследовать отдельные упаковки. Это разновидность
направленного отбора, способствующего снижению ошибки выборки. Благодаря
сплошному исследованию гнезд частные дисперсии не оказывают влияние на
ошибку репрезентативности, которая зависит только от вариации серийных
средних, то есть от межгрупповой дисперсии, определяется по формуле:
Средняя ошибка серийной выборки определяется по формулам:
- для повторного отбора;
- для бесповторного отбора.
Пример: при проверке качества обуви партии 500 коробов отобрано в
случайном порядке и проверено 10 пар обуви. Число стандартных пар в коробах
распределялось следующим образом. [pic]
|До 20 (10) |3 |35,2
|
|20,1 – 40 (30) |5 |32,4
|
|40,1 – 60 (50) |8 |25,2
|
|Свыше 60 (70) |2 |21,3
|
Группировка показывает, что с ростом товарооборота падает значение
результативного признака. Налицо обратная зависимость. Если изобразить
результаты группировки на графике, получим эмпирическую линию регрессии.
Интервалы значений факторного признака заменяются средними групповыми
показателями.
[pic]
Эмпирическая линия регрессии показывает примерную форму и направление
взаимосвязи.
При построении аналитической группировки надежность ее результатов
зависит от того, какое число групп мы можем выделить, не натолкнувшись ни
на одно исключение в предполагаемом характере взаимосвязи.
Помимо эмпирической линии регрессии, непосредственно определяющей форму
и направление взаимосвязей, существует корреляционное поле, на котором
отражаются параметрические данные. По корреляционному полю так же можно
судить о характере взаимосвязи. Если точки сконцентрированы около диагонали
идущей слева направо, снизу вверх – то связь прямая. Если около другой
диагонали – обратная. Если точки рассеяны по всему полю графика – связь
отсутствует.
При построении аналитической группировки важно правильно определить
величину интервала. Если в результате первичной группировки связь не
проявляется отчетливо, можно укрупнить интервал. Однако, укрупняя
интервалы, можно иногда обнаружить связь даже там, где ее нет. Поэтому при
построении аналитической группировки руководствуются правилом: чем больше
групп мы можем выделить, не натолкнувшись ни на одно исключение, тем
надежнее наша гипотеза о наличии и форме связи.
Нематематические методы дают приближенную оценку о наличии, формы и
направлении связи. Более глубокий анализ осуществляется с помощью
математических методов, которые развились на базе методов, применяемых
статистиками - нематематиками:
. Регрессионный анализ, позволяющий выразить с помощью уравнения форму
взаимосвязи.
. Корреляционный анализ используется для определения тесноты или силы
взаимосвязи признаков. Корреляционные методы делят:
- Параметрические методы, которые дают оценку тесноты связи
непосредственно на базе значений факторного и результативного
признаков;
- Непараметрические методы – дают оценку на основе условных оценок
признаков.
Оценка тесноты криволинейных зависимостей дается после расчета
параметра уравнения регрессии. Поэтому такой метод называется корреляционно-
регрессивным.
Если анализируется зависимость одного факторного и результативного
признаков, то в этом случае имеем дело с парной корреляцией и регрессией.
Если анализируются несколько факторных и результативных признаков – это
множественная корреляция и регрессия.
1. Парная регрессия.
Регрессия – это линия, характеризующая наиболее общую тенденцию во
взаимосвязи факторного и результативного признаков.
Предполагается, что аналитическое уравнение выражает подлинную форму
зависимости, а все отклонения от этой функции обусловлены действием
различных случайных причин. Так как изучаются корреляционные связи,
изменению факторного признака соответствует изменение среднего уровня
результативного признака. При построении аналитических группировок мы
рассматривали эмпирическую линию регрессии. Однако, эта линия не пригодна
для экономического моделирования и ее форма зависит от произвола
исследователя. Теоретически линия регрессии в меньшей степени зависит от
субъективизма исследователя, однако, здесь так же может быть произвол при
выборе формы или функции взаимосвязи. Считается, что выбор функции должен
опираться на глубокое знание специфики предмета исследования.
На практике чаще всего применяются следующие формы регрессионных
моделей:
. Линейная [pic];
. Полулогарифметическая кривая [pic];
. Гипербола [pic];
. Парабола второго порядка [pic];
. Показательная функция [pic];
. Степенная функция [pic].
Помимо содержательного подхода существует формальная оценка
адекватности подобранной регрессионной модели. Лучшей из них считается та,
которая наименее удалена от исходных данных.
[pic]
Данное свойство средней, гласящее, что сумма квадратов отклонений всех
вариантов ряда от средней арифметической меньше суммы квадратов их
отклонений от любого другого числа, положено в основу метода наименьших
квадратов, позволяющего рассчитать параметры избранного уравнения регрессии
таким образом, чтобы линия регрессии была в среднем наименее удалена от
эмпирических данных.
Пример: данная система двух уравнений с двумя неизвестными а0 и а1
позволяет определить точное значение коэффициентов линейной регрессии.
[pic]
Анализ формы и параметров взаимосвязи между ценой килограмма репчатого
лука и объемом его продаж.
| ДА |a |b |
|НЕТ |c |d |
При прямой связи частоты
сконцентрированы по диагонали a-d, при
обратной связи по диагонали b-c, при
отсутствии связи частоты практически
равномерно распределены по всему полю
таблицы.
Коэффициент ассоциации [pic]
Пример: проанализируем зависимость между полом и фактом совершения
покупки посетителями магазина.
| 1 |М |Ж |Итого |
|признак | | | |
| | | | |
| | | | |
| | | | |
|2 признак| | | |
| Купил |24|32|56 |
|Не купил |16|28|44 |
|Итого |40|60| |
[pic]
Наблюдается очень слабая прямая связь между полом и фактом свершения
покупки. Предельное абсолютное значение коэффициента может быть близко к
единице.
Коэффициент ассоциации непригоден для расчета в том случае, если одна
из частот по диагонали равна 0. В этом случае применяется коэффициент
контингенции, который рассчитывается по формуле:
[pic]
Коэффициент контингенции также указывает на практическое отсутствие
связи между признаками (его величина всегда меньше Кас).
Если значения признака распределены более чем по 2 группам, то для
определения тесноты связи применяют коэффициенты взаимной сопряженности
признаков Пирсона, Чупрова и др.
Показатель Пирсона определяется по формуле [pic], где [pic]-
показатель взаимной сопряженности признаков, который рассчитывается на
основе матрицы взаимного распределения частот.
| |1 гр.|2 гр.|3 гр.|Итого |
|1 гр. |s11 |s12 |s13 |n1 |
|2 гр. |s21 |s22 |s23 |n2 |
|3 гр. |s31 |s32 |s33 |n3 |
|Итого |m1 |m2 |m3 | |
[pic]
Пример: рассмотрим зависимость между величиной магазина и формой
обслуживания.
| |Самообслуживание |Традиционное |Итого |
|Мелкие |12 |45 |57 |
|магазины | | | |
|Средние |19 |10 |29 |
|Крупные |14 |4 |18 |
|Итого |45 |59 | |
[pic]
Коэффициент свидетельствует о наличии заметной связи между величиной
магазина и формой его обслуживания. Более точным показателем тесноты связи
является коэффициент Чупрова, который определяется по формуле:
[pic], где [pic]- соответственно число групп, выделенных по каждому
признаку. В нашем примере:
[pic]
Непараметрические методы измерения тесноты взаимосвязи количественных
признаков были первыми из методов измерения тесноты взаимосвязи. Впервые
попытался измерить тесноту связи в 30-ч годах 19 века французский ученый
Гиррий. Он сопоставлял между собой среднегрупповые значения факторного и
результативного признаков. При этом абсолютные значения заменялись их
отношениями к некоторым константам. Полученные результаты ранжировались в
порядке возрастания. О наличии или отсутствии связи Гиррий судил
сопоставляя ранее по группам и подсчитывая количество совпадений и
несовпадений рангов. Если преобладало число совпадений – связь считалась
прямой. Несовпадение – обратной. При равенстве совпадений и несовпадений –
связь отсутствовала.
Методика Гиррий была использована Фехнером при разработке своего
коэффициента, а так же Спирменом при разработке коэффициента корреляции
рангов.
Расчет коэффициента Фехнера.
|Цена 1 кг |Объем |Знаки |Сравнение |
|лука, руб. |продаж, |отклонений |знаков |
|[pic] |кг [pic] | | |
| | |[pic] |[pic] | |
|3 |175 |-2,5 |59,1 |н |
|3,5 |200 |-2 |84,1 |н |
|4 |180 |-1,5 |64,1 |н |
|4,5 |150 |-1 |34,1 |н |
|5 |160 |-0,5 |44,1 |н |
|5,5 |120 |0 |4,1 |с |
|6 |85 |0,5 |-30,9 |н |
|6,5 |90 |1 |-25,9 |н |
|7 |50 |1,5 |-65,9 |н |
|7,5 |40 |2 |-75,9 |н |
|8 |25 |2,5 |-90,9 |н |
[pic]
Коэффициент указывает на наличие весьма тесной обратной связи.
На ряду с коэффициентом Фехнера для измерения взаимосвязи
количественных признаков применяются коэффициенты корреляции рангов.
Наиболее распространенным среди них является коэффициент корреляции рангов
Спирмена.
Пример: вычисление коэффициента Спирмена для измерения тесноты
взаимосвязи между товарооборотом и уровнем издержек обращения в магазинах.
|Однодневный |Издержки |Ранги |Разность |[pic] |
|товарооборот|в % к | |рангов | |
|, тыс. руб. |товарообороту| |[pic] | |
|[pic] | | | | |
| |[pic] | | | |
| | |[pic] |[pic] | | |
|18 |20,5 |1 |4 |-3 |9 |
|23 |23,4 |2 |6 |-4 |16 |
|29 |21,2 |3 |5 |-2 |4 |
|45
|