Cтатистичні методи обробки соціологічної інформації
Опис інформації та обчислення узагальнюючих параметрів.
Математиками нагромаджена значна кількість методів та конкретних статистичних алгоритмів, які успішно використовують у різних галузях природничих та гуманітарних наук. Але застосування математичних методів у кожній новій галузі має свою специфіку і складнощі. Проблеми використання математичних методів у соціології обумовлені складністю та багатофакторністю суспільних явищ та процесів, необхідністю мати справу не тільки з об'єктивними фактами, а й з громадською думкою, поглядами людей, їх ставленням до суспільних явищ, ціннісними орієнтаціями, які дуже важко піддати кількісному аналізові. Математичні методи ефективні за умови, що вони спираються на ґрунтовний змістовний аналіз досліджуваних явищ.
Використовуючи методи математичної статистики, соціологія здійснює:
1. Компактний опис первинної соціологічної інформації (побудова таблиць одновимірних розподілів, обчислення параметрів розподілів та ін.).
2. Пошук та оцінювання зв'язків між ознаками досліджуваного суспільного явища (обчислення статистичних коефіцієнтів зв'язку, кореляційний аналіз, регресійний аналіз).
3. Пошук латентних (прихованих) факторів, які визначають взаємозв'язки всередині групи ознак досліджуваного явища (факторний аналіз, латентно-структурний аналіз).
4. Класифікацію ознак та об'єктів, побудову типологій (клас-терний аналіз, дискримінантний аналіз, факторний аналіз).
5. Прогнозування тенденцій розвитку певного суспільного явища (комплексне застосування різних методів).
В емпіричному дослідженні соціолог вивчає певну множину об'єктів, наприклад, колектив робітників підприємства. Кожному елементові множини притаманні певні властивості (ознаки), скажімо, стать, вік, задоволеність умовами праці. Кожний об'єкт має певне значення за кожною ознакою. Так, наприклад, кожний робітник має одне з двох можливих значень ознаки «Стать» (чоловіча або жіноча), одне з трьох можливих значень ознаки «Задоволеність умовами праці» (задоволений, не зовсім задоволений, зовсім не задоволений), певне значення ознаки «Вік» (число повних років від 18 до 80) та ін.
Як правило, для спрощення обробки всі значення ознак кодують числами. Таким чином, дані для обробки являють собою прямокутну таблицю (матрицю) чисел. Кожний рядок цієї таблиці відповідає одному об'єкту, а кожний стовпчик — певній ознаці. На перетині певного рядка та стовпчика цієї таблиці знаходиться значення певної ознаки певного об'єкта.
Ознаки поділяють на якісні та кількісні. Якісні ознаки — ознаки, які не мають кількісного виразу. Приклади якісних ознак — «Стать», «Задоволеність умовами праці». Кількісні ознаки — це такі, для яких відомі одиниці вимірювання. Приклади кількісних ознак — «Вік» (одиниця вимірювання — рік), «Заробітна плата» (одиниця вимірювання — гривня). Кількісні ознаки ще називають ознаками, заданими у метричній шкалі.
При кодуванні значень якісної ознаки числами можливі два суттєво відмінні варіанти. У першому значення якісної ознаки можна впорядковувати, тобто для будь-якої пари значень можна вказати, яке з них відповідає сильнішому виявленню ознаки. Наприклад, значення «задоволений» відповідає більш інтенсивному виявленню ознаки «Задоволеність умовами праці», ніж значення «не зовсім задоволений». У такому разі доцільно і числові коди добирати так, щоб сильнішому виявленню ознаки відповідало більше число. Так, для вже вищезазначеної ознаки «Задоволеність умовами праці» можна обрати такі числові коди значень: 3 — «задоволений», 2 — «не зовсім задоволений», 1 — «зовсім не задоволений». Такі якісні шкали часто називають порядковими шкалами, або шкалами рангів.
У другому випадку значення якісної ознаки не піддаються жодному змістовому впорядкуванню. Наприклад, ознака «Стать» з двома значеннями — «чоловіча» та «жіноча». Для значень ознак такого типу можна добирати будь-які числові коди. Головне — щоб різні значення мали різні коди (тобто не можна кодувати два різні значення ознаки одним числом). Такі якісні шкали часто ще називають номінальними шкалами. Як правило, для кодування значень ознак в номінальних шкалах використовують цілі додатні числа — 1, 2, ...
Соціологові постійно доводиться при складанні програми дослідження обирати (або навіть самостійно конструювати) шкали. Від того, наскільки вдало це буде зроблено, значною мірою залежить результат опрацювання отриманих даних. Крім того, вибір математичного методу аналізу даних тісно пов'язаний зі шкалами відповідних ознак. Вибір методу аналізу, що не відповідає даним, є дуже суттєвою методичною помилкою, що може звести нанівець роботу щодо збору даних та обчислення результатів.
Для того щоб первинні дані можна було використовувати для змістового аналізу і висновків, вони повинні бути певним чином упорядковані та опрацьовані. З цією метою застосовують спеціальні статистичні методи — групування, обчислення узагальнюючих параметрів та коефіцієнтів, кореляційний, кластерний, факторний аналізи та ін. Незалежно від того, який метод аналізу застосовують, опрацювання даних починається з попереднього впорядковування інформації, головним чином за допомогою статистичного групування та побудови статистичних таблиць.
Структуру сукупності об'єктів з точки зору однієї виділеної ознаки доцільно вивчати за таблицею, в якій для кожного з можливих значень ознаки зафіксовано, скільки разів зустрічаються в сукупності об'єкти, що мають відповідне значення. Таку таблицю називають таблицею одновимірного розподілу, одно-вимірною таблицею, або варіаційним рядом. Для ознаки «Задоволеність умовами праці» одновимірна таблиця може мати такий вигляд:
Ознака: Задоволеність умовами праці.
Кількість об'єктів — 357. Кількість значень — 348 (97,48%)
Значення Код Частота %до значень
Задоволений 3 45 12.60 12.93
Не зовсім задоволений 2 249 69.75 71.55
Незадоволений 1 54 15.13 15.32
Кількість об'єктів у досліджуваній сукупності — 357. Для 348 об'єктів (що становить 97,48% від загальної сукупності) відоме значення ознаки «Задоволеність умовами праці». Для інших об'єктів сукупності (в даному разі їх 9) значення цієї ознаки не відоме (наприклад, інформація зібрана методом опитування, і деякі працівники підприємства не захотіли відповідати на поставлене запитання). Аналіз таблиці свідчить, що задоволених умовами праці — 45 (12,6% від загальної сукупності та 12,93% від кількості працівників, які відповіли на поставлене запитання). Значна більшість працівників (понад 82%) повністю або частково не задоволена умовами праці.
В одновимірній таблиці часто перший або другий стовпчики відсутні (тобто в таблиці зазначають або самі значення, або їх коди); відсоток, зазначений у четвертому стовпчику, ніколи не перевищує відсотка, зазначеного у тому ж рядку п'ятого стовпчика; сума чисел в четвертому стовпчику не перевищує 100, а сума чисел у п'ятому стовпчику повинна дорівнювати 100,
Неможливо перелічити всі можливі значення ознак, заданих в метричних шкалах, а отже, неможливо і безпосередньо побудувати одновимірну таблицю. За таких обставин усі можливі значення ознаки розбивають на інтервали, а потім будують таблицю. Так, наприклад, для сукупності працівників даного підприємства всі значення ознаки «Вік» знаходяться між віком наймолодшого робітника (припустимо, 18 років) та віком найстаршого робітника (припустимо, 68). Розіб'ємо їх на 4 інтервали: від 18 до 25 років, від 26 до 40 років, від 41 до 59 років та від 60 до 68 років. Тоді одновимірна таблиця, що демонструє структуру сукупності працівників за віком, матиме такий вигляд:
Ознака: Вік (інтервал).
Кількість об'єктів — 357. Кількість значень — 357 (100%).
Значення Частота % ДО ВСІХ % до значень
18 — 25 років 43 12.04 12.04
26 — 40 років 223 62.47 62.47
41 — 59 років 67 18.77 18.77
60— 68 років 24 6.72 6.72
У цій таблиці відсутній стовпчик, у якому вказані коди інтервалів, а оскільки відомо вік усіх працівників (є відповідні значення для всіх об'єктів), тому третій і четвертий стовпчики збігаються. Метрична ознака розбита у даній таблиці на
різні за розміром (нерівномірні) інтервали. А нерідко корисно розбивати весь діапазон значень на інтервали однакової довжини (рівномірні інтервали).
Для полегшення аналізу великої кількості таблиць та забезпечення можливості порівняння декількох таблиць обчислюють узагальнюючі характеристики рядів розподілу. Одна з них, що найчастіше використовується, — середнє значення ознаки. Для кількісної ознаки обчислюють її середнє арифметичне значення щодо всіх об'єктів сукупності. Для якісних ознак такою узагальнюючою характеристикою ряду є мода — значення, що найчастіше зустрічається в одновимірній таблиці. Так, наприклад, за таблицею (див. с. 354) модою ознаки «Задоволеність умовами праці» є значення «не дуже задоволений».
Щоб оцінити, наскільки репрезентує середнє значення весь ряд розподілу, обчислюють статистичні показники варіації ознак. Для кількісних ознак — це дисперсія, середнє квадратичне відхилення, коефіцієнт варіації. Для якісних ознак розроблені спеціальні індекси якісної варіації. Чим більше значення відповідного показника варіації, тим розсіяніші навколо середнього значення реальні значення ознаки, а отже, тим з більшою обережністю потрібно оперувати з середнім значенням при побудові змістовних висновків.
Межі варіації також дають змогу оцінити, наскільки однорідною за певною ознакою є сукупність. Якщо сукупність за певною ознакою неоднорідна, може постати потреба розбити цю сукупність на декілька однорідних за цією ознакою частин та аналізувати кожну з них окремо. Припустимо, що вивчається задоволеність умовами праці на певному підприємстві. З логічних міркувань або з результатів попередніх досліджень відомо, що заробітна плата працівника впливає на його задоволеність умовами праці. Нехай коефіцієнт варіації заробітної плати для всієї сукупності працівників дорівнює 0,7. Тоді необхідно розбити всю сукупність працівників на групи, приблизно однакові за рівнем заробітної платні (щоб у кожній групі коефіцієнт варіації заробітної плати був нижчим від 0,4), й аналізувати задоволеність умовами праці окремо у кожній з них.
|