Корреляционно-регрессионный анализ - Статистика - Скачать бесплатно
Министерство общего и профессионального
образования Российской Федерации
Московский Государственный Технический Университет “МАМИ”
Кафедра:
“Бухгалтерский учет и финансы предприятий”
КУРСОВАЯ РАБОТА
по курсу
“СТАТИСТИКА”
на тему:
«Корреляционно-регрессионый анализ
зависимости работающих активов
от капитала по показателям 32 банков»
Студентки группы 4-ЭФЭ-4
Ревняковой О.В.
Руководитель:
Ковалева О.Б.
Москва-2002
План
I. Введение (“Что такое статистика?”; факты из истории)
II. Основная часть
1) Причинно-следственная связь.
2) Функциональные и стохастические связи.
. Прямые и обратные связи.
. Прямолинейные и криволинейные связи.
. Однофакторные и многофакторные связи.
3) Статистические методы моделирования связи.
4) Статистическое моделирование связи методом корреляционного и
регрессионного анализа.
. Двухмерная линейная модель корреляционного и регрессионного анализа.
5) Проверка адекватности регрессионной модели.
6) Экономическая интерпретация параметров регрессии.
III. Заключение
IV. Список литературы
Введение
Слово “статистика” приходит от латинского слова status (состояние), которое
употреблялось в значении “политическое состояние”. Отсюда итальянские слова
stato – государство и statista – знаток государств, отсюда также и
немецкое слово Staat и английское state. В научный оборот слово
“статистика” ввёл профессор Геттингенского университета Готфрид Ахенваль
(1719 - 1772), и понималось оно тогда как государствоведение.
Прежде чем стать наукой в ее современном понимании статистика прошла
многовековую историю развития.
Числовые данные, относящиеся к тем или иным явлениям, начали применяться
уже в глубокой древности. Так, известно, что еще за 5 тысяч лет до нашей
эры проводился подсчёт населения в Китае, вёлся учет имущества в Древнем
Риме, в средние века проводились переписи населения, домашнего имущества,
земель. Эти сведения использовались в основном в военных целях и при
обложении налогами. В столь отдаленные времена осуществлялся лишь сбор
статистических сведений, а их обработку и анализ, то есть зарождение
статистики как науки следует отнести ко второй половине 17 века. Именно в
это время профессор физиологии и права Г. Ахенваль с 1746 года начал читать
впервые в Марбургском, а затем в Геттингенском университетах новую учебную
дисциплину, которую он и назвал статистикой. Основным содержанием этого
курса было описание политического состояния и достопримечательностей
государства.
Это направление развития статистики получило название описательного.
Содержание, задачи, предмет изучения статистики в понимании Г. Ахенваля
были далеки от современного взгляда на статистику как науку.
Гораздо ближе к современному пониманию статистики была английская школа
политических арифметиков, которая возникла на 100 лет раньше немецкой
описательной школы, ее основателями были В. Петти (1623-1687гг.) и Дж.
Граунт (1620-1674 гг.). Политические арифметики путём обобщения и анализа
фактов стремились цифрами охарактеризовать состояние и развитие общества,
показать закономерности развития общественных явлений, проявляющихся в
массовом материале. История показала, что именно школа политических
арифметиков явилась истоком возникновения современной статистики как науки.
В. Петти по праву считается создателем экономической статистики.
В первой половине 19 века возникло третье направление статистической науки
– статистико-математическое. Среди представителей этого направления
следует отметить бельгийского статистика А. Кетле (1796-1874 гг.) –
основоположника учения о средних величинах. Математическое направление в
статистике развивалось в работах англичан Ф. Гальтона (1822-1911 гг.) и К.
Пирсона (1857-1936 гг.), В. Госсета (1876-1937 гг.), более известного под
псевдонимом Стьюдента, Р. Фишера (1890-1962 гг.), М. Митчела (1874-1948
гг.) и др. Представители этого направления считали основой статистики
теорию вероятностей, составляющую одну из отраслей прикладной математики.
В развитии российской статистической науки и практики видное место
принадлежит И.К. Кириллову (1689-1737 гг.), И.Ф. Герману (1755-1815 гг.),
Д.Н. Журавскому (1810-1856 гг.), Н.Н. Семенову-Тян-Шанскому (1827-1914
гг.), Ю.Э. Янсону (1835-1893), А.. Чупрову (1874-1926 гг.), В.С. Немчинову
(1894-1964 гг.), С.Г. Струмилину (1877-1974 гг.), В.Н. Старовскому (1905-
1975 гг.) и др.
Большим шагом в развитии статистической науки послужило применение
экономико-математических методов и широкое использование компьютерной
техники в анализе социально-экономических явлений.
В настоящее время ведется работа по совершенствованию статистической
методологии и завершению перехода Российской Федерации на принятую в
международной практике систему учёта и статистике в соответствии с
требованиями развития рыночной экономики.
Таким образом, история развития статистики показывает, что статистическая
наука сложилась в результате теоретического обобщения накопленного
человечеством передового опыта учётно-статистических работ, обусловленных
прежде всего потребностями управления жизни общества.
Развитие статистической науки, расширение сферы применения практических
статистических исследований, ее активное участие в механизме управления
экономикой привели к изменению содержания самого понятия “статистика”.
Сейчас термин “статистика” употребляется в трёх значениях:
o Отрасль практической деятельности (“статистический учёт”) по сбору,
обработке, анализу и публикации массовых цифровых данных о самых
различных явлениях и процессах общественной жизни; эту деятельность на
профессиональном уровне осуществляет государственная статистика –
Государственный комитет по статистике Российской Федерации и система его
учреждений, организованных по административно-территориальному признаку,
а также ведомственная статистика (на предприятиях, в объединениях,
ведомствах, министерствах);
o Совокупность цифровых сведений, статистические данные, предоставляемые в
отчетности предприятий, организаций, отраслей экономики, а также
публикуемые в сборниках, справочниках, периодической прессе, которые
являются результатом статистической работы;
o Отрасль общественных наук, специальная научная дисциплина, изучаемая в
высших и средних специальных учреждениях.
Цель статистики в экономике – это возможность правильно выбрать решения в
условиях неопределенности сложившейся ситуации, умение спрогнозировать и
предугадать социально-экономические явления, сделать правильные выводы и
внести свой вклад в развитие экономической жизни.
Выявление взаимосвязей – одна из важнейших задач применения статистики в
экономике.
В своей работе я рассмотрю корреляционно-регрессионный метод выявления
взаимосвязи и проиллюстрирую его на примере взаимосвязи капитала и
работающих активов 32 банков.
Причинно-следственная связь.
Исследование объективно существующих связей между явлениями – важнейшая
задача общей теории статистики. В процессе статистического исследования
зависимостей вскрываются причинно-следственные отношения между явлениями,
что позволяет выявлять факторы (признаки), оказывающие существенное влияние
на вариацию изучаемых явлений и процессов. Причинно-следственные отношения
– это связь явлений и процессов, когда изменение одного и них – причины –
ведет к изменению другого – следствия.
Причина – это совокупность условий, обстоятельств, действие которых
приводит к появлению следствия. Если между явлениями действительно
существуют причинно-следственные отношения, то эти условия должны
обязательно реализовываться вместе с действием причин. Причинные связи
носят всеобщий и многообразный характер, и для обнаружения причинно-
следственных связей необходимо отбирать отдельные явления и изучать их
изолированно.
Особое значение при исследовании причинно-следственных связей имеет
выявление временной последовательности: причина всегда должна
предшествовать следствию, однако не каждое предшествующее событие следует
считать причиной, а последующее следствием.
В реальной социально-экономической действительности причину и следствие
необходимо рассматривать как смежные явления, появление которых обусловлено
комплексом сопутствующих более простых причин и следствий. Между сложными
группами причин и следствий возможны многозначительные связи, когда за
одной причиной будет следовать то одно, то другое действие или одно
действие имеет несколько различных причин. Чтобы установить однозначную
причинную связь между явлениями или предсказать возможные следствия
конкретной причины, необходима полная абстракция от всех прочих явлений в
исследуемой временной или пространственной среде. Теоретически такая
абстракция воспроизводится. Приемы абстракции часто применяются при
изучении взаимосвязей между двумя признаками (парной корреляции). Но чем
сложнее изучаемые явления, тем труднее выявить причинно-следственные связи
между ними. Взаимное переплетение различных внутренних и внешних факторов
неизбежно приводит к некоторым ошибкам в определении причины и следствия.
Социально-экономические явления представляют собой результат одновременного
воздействия большого числа причин. Следовательно, при изучении этих явлений
необходимо выявлять главные, основный причины, абстрагируясь от
второстепенных.
В основе первого этапа статистического изучения связи лежит качественный
анализ изучаемого явления, связанный с анализом природы, социального или
экономического явления методами экономической теории, социологии,
конкретной экономики. Второй этап – построение модели связи. Он базируется
на методах статистики: группировках, средних величинах, таблицах и т.д.
Третий, последний этап – интерпретация результатов – вновь связан с
качественными особенностями изучаемого явления.
Статистика разработала множество методов изучения связей, выбор которых
зависит от целей исследования и от поставленных задач. Связи между
признаками и явлениями, ввиду их большого разнообразия, классифицируются по
ряду оснований. Признаки по их значению для изучения взаимосвязи делятся на
2 класса. Признаки, обуславливающие изменения других, связанных с ними
признаков, называются факторными, или просто факторами. Признаки,
изменяющиеся под действием факторных признаков, являются результативными.
Связи между явлениями и их признаками классифицируются по степени тесноты
связи, направлению и аналитическому выражению.
Функциональные и стохастические связи.
Между различными явлениями и их признаками необходимо прежде всего выделить
2 типа связей: функциональную (жестко детерминированную) и статистическую
(стохастически детерминированную).
В соответствии с жестко детерминистическим представлением о
функционировании экономических систем необходимость и закономерность
однозначно проявляются в каждом отдельном явлении, то есть любое действие
вызывает строго определенный результат; случайными (непредвиденными
заранее) воздействиями при этом пренебрегают. Поэтому при заданных
начальных условиях состояние такой системы может быть определено с
вероятностью, равной 1. Разновидностью такой закономерности является
функциональная связь.
Связь признака у с признаком х называется функциональной, если каждому
возможному значению независимого признака х соответствует 1 или несколько
строго определенных значений зависимого признака у. Определение
функциональной связи может быть легко обобщено для случая многих признаков
х1,х2 …хn .
Характерной особенностью функциональных связей является то, что в каждом
отдельном случае известен полный перечень факторов, определяющих значение
зависимого (результативного) признака, а также точный механизм их влияния,
выраженный определенным уравнением.
Функциональную связь можно представить уравнением:
yi= ((xi),
где yi - результативный признак ( i = 1, … , n);
f(xi) - известная функция связи результативного и факторного
признаков;
xi - факторный признак.
В реальной общественной жизни ввиду неполноты информации жестко
детерминированной системы, может возникнуть неопределенность, из-за которой
эта система по своей природе должна рассматриваться как вероятностная, при
этом связь между признаками становится стахостической.
Стахостическая связь – это связь между величинами, при которой одна из них,
случайная величина у, реагирует на изменение другой величины х или других
величин х1,х2 …хn (случайных или неслучайных) изменением закона
распределения. Это обуславливается тем, что зависимая переменная
(результативный признак), кроме рассматриваемых независимых, подвержена
влиянию ряда неучтенных или неконтролируемых (случайных) факторов, а также
некоторых неизбежных ошибок измерения переменных. Поскольку значения
зависимой переменной подвержены случайному разбросу, они не могут быть
предсказаны с достаточной точностью, а только указаны с определенной
вероятностью.
Характерной особенностью стахостических связей является то, что они
проявляются во всей совокупности, а не в каждой ее единице. Причём
неизвестен ни полный перечень факторов, определяющих значение
результативного признака, ни точный механизм их функционирования и
взаимодействия с результативным признаком. Всегда имеет место влияние
случайного. Появляющиеся различные значения зависимой переменной –
реализация случайной величины.
Модель стохастической связи может быть представлена в общем виде
уравнением:
?i = ((xi) + (i ,
где ?i - расчётное значение результативного признака;
f(xi) - часть результативного признака, сформировавшаяся под
воздействием учтенных известных факторных признаков(одного или множества),
находящихся в стахостической связи с признаком;
(i - часть результативного признака, возникшая в следствие действия
неконтролируемых или неучтенных факторов, а также измерения признаков,
неизбежно сопровождающегося некоторыми случайными ошибками.
Проявление стохастических связей подвержено действию закона больших чисел:
лишь в достаточно большом числе единиц индивидуальные особенности
сгладятся, случайности взаимопогасятся, и зависимость, если она имеет
существенную силу, проявится достаточно отчётливо.
Корреляционная связь существует там, где взаимосвязанные явления
характеризуются только случайными величинами. При такой связи среднее
значение (математическое ожидание) случайной величины результативного
признака у закономерно изменяется в зависимости от изменения другой
величины х или других случайных величин х1,х2 …хn. Корреляционная связь
проявляется не в каждом отдельном случае, а во всей совокупности в целом.
Только при достаточно большом количестве случаев каждому значению
случайного признака х будет соответствовать распределение средних значений
случайного признака у. Наличие корреляционных связей присуще многим
общественным явлениям.
Корреляционная связь – понятие более узкое, чем стохастическая связь.
Последняя может отражаться не только в изменении средней величины, но и в
вариации одного признака в зависимости от другого, то есть любой другой
характеристики вариации. Таким образом, корреляционная связь является
частным случаем стохастической связи.
Прямые и обратные связи. В зависимости от направления действия,
функциональные и стахостические связи могут быть прямые и обратные. При
прямой связи направление изменения результативного признака совпадает с
направлением изменения признака-фактора, то есть с увеличением факторного
признака увеличивается и результативный, и, наоборот, с уменьшением
факторного признака уменьшается и результативный признак. В противном
случае между рассматриваемыми величинами существуют обратные связи.
Например, чем выше квалификация рабочего (разряд), тем выше уровень
производительности труда – прямая связь. А чем выше производительность
труда, тем ниже себестоимость единицы продукции – обратная связь.
Прямолинейные и криволинейные связи. По аналитическому выражению (форме)
связи могут быть прямолинейными и криволинейными. При прямолинейной связи с
возрастанием значения факторного признака происходит непрерывное
возрастание (или убывание) значений результативного признака. Математически
такая связь представляется уравнением прямой, а графически – прямой линией.
Отсюда ее более короткое название – линейная связь. При криволинейных
связях с возрастанием значения факторного признака возрастание (или
убывание) результативного признака происходит неравномерно, или же
направление его изменения меняется на обратное. Геометрически такие связи
представляются кривыми линиями (гиперболой, параболой и т.д.).
Однофакторные и многофакторные связи. По количеству факторов, действующих
на результативный признак, связи различаются: однофакторные (один фактор) и
многофакторные (два и более факторов). Однофакторные (простые) связи обычно
называются парными (т.к. рассматривается пара признаков). Например,
корреляционная связь между прибылью и производительностью труда. В случае
многофакторной (множественной) связи имеют в виду, что все факторы
действуют комплексно, то есть одновременно и во взаимосвязи. Например,
корреляционная связь между производительностью труда и уровнем организации
труда, автоматизации производства, квалификации рабочих, производственным
стажем, простоями и другими факторными признаками. С помощью множественной
корреляции можно охватить весь комплекс факторных признаков и объективно
отразить существующие множественные связи.
Статистические методы моделирования связи.
Для исследования стохастических связей широко используется метод
сопоставления двух параллельных рядов, метод аналитических группировок,
корреляционный анализ, регрессионный анализ и некоторые непараметрические
методы.
Метод сопоставления двух параллельных рядов является одним из простейших
методов. Для этого факторы, характеризующие результативный признак
располагают в возрастающем или убывающем порядке (в зависимости от эволюции
процесса и цели исследования), а затем прослеживают изменение величины
результативного признака. Сопоставление и анализ расположенных таким
образом рядов значений изучаемых величин позволяют установить наличие связи
и ее направление. Зависимость между факторами и показателями может
прослеживаться во времени (параллельные динамические ряды).
Метод аналитических группировок тоже относится к простейшим методам. Чтобы
выявить зависимость с помощью этого метода, нужно произвести группировку
единиц совокупности по факторному признаку и для каждой группы вычислить
среднее или относительное значение результативного признака. Сопоставляя
затем изменения результативного признака по мере изменения факторного можно
выявить направление, характер и тесноту связи между ними.
В общем виде задача статистики в области изучения взаимосвязей состоит не
только в количественной оценке их наличия, направления и силы связи, но и в
определении формы (аналитического выражения) влияния факторных признаков на
результативный. Для ее решения применяют методы корреляционного и
регрессионного анализа.
Статистическое моделирование связи методом
корреляционного и регрессионного анализа.
Задачи корреляционного анализа сводятся к измерению тесноты известной связи
между варьирующими признаками, определению неизвестных причинных связей
(причинный характер которых должен быть выяснен с помощью теоретического
анализа) и оценки факторов, оказывающих наибольшее влияние на
результативный признак.
Задачами регрессионного анализа являются выбор типа модели (формы связи),
установление степени влияния независимых переменных на зависимую и
определение расчётных значений зависимой переменной (функции регрессии).
Решение всех названных задач приводит к необходимости комплексного
использования этих методов.
Корреляционный и регрессионный анализ. Исследование связей в условиях
массового наблюдения и действия случайных факторов осуществляется, как
правило, с помощью экономико-статистических моделей. В широком смысле
модель – это аналог, условный образ (изображение, описание, схема, чертёж и
т.п.) какого-либо объекта, процесса или события, приближенно воссоздающий
«оригинал». Модель представляет собой логическое или математическое
описание компонентов и функций, отображающих существенные свойства
моделируемого объекта или процесса, даёт возможность установить основные
закономерности изменения оригинала. В модели оперируют показателями,
исчисленными для качественно однородных массовых явлений (совокупностей).
Выражение и модели в виде функциональных уравнений используют для расчёта
средних значений моделируемого показателя по набору заданных величин и для
выявления степени влияния на него отдельных факторов.
По количеству включаемых факторов модели могут быть однофакторными и
многофакторными (два и более факторов).
В зависимости от познавательной цели статистические модели подразделяются
на структурные, динамические и модели связи.
Двухмерная линейная модель корреляционного и регрессионного анализа
(однофакторный линейный корреляционный и регрессионный анализ). Наиболее
разработанной в теории статистики является методология так называемой
парной корреляции, рассматривающая влияние вариации факторного анализа х на
результативный признак у и представляющая собой однофакторный
корреляционный и регрессионный анализ. Овладение теорией и практикой
построения и анализа двухмерной модели корреляционного и регрессионного
анализа представляет собой исходную основу для изучения многофакторных
стохастических связей.
Важнейшим этапом построения регрессионной модели (уравнения регрессии)
является установление в анализе исходной информации математической функции.
Сложность заключается в том, что из множества функций необходимо найти
такую, которая лучше других выражает реально существующие связи между
анализируемыми признаками. Выбор типов функции может опираться на
теоретические знания об изучаемом явлении, опят предыдущих аналогичных
исследований, или осуществляться эмпирически – перебором и оценкой функций
разных типов и т.п.
При изучении связи экономических показателей производства (деятельности)
используют различного вида уравнения прямолинейной и криволинейной связи.
Внимание к линейным связям объясняется ограниченной вариацией переменных и
тем, что в большинстве случаев нелинейные формы связи для выполнения
расчётов преобразуют (путём логарифмирования или замены переменных) в
линейную форму. Уравнение однофакторной (парной) линейной корреляционной
связи имеет вид:
? = a0 + a1x ,
где ? - теоретические значения результативного признака, полученные по
уравнению регрессии;
a0 , a1 - коэффициенты (параметры) уравнения регрессии.
Поскольку a0 является средним значением у в точке х=0, экономическая
интерпретация часто затруднена или вообще невозможна.
Коэффициент парной линейной регрессии a1 имеет смысл показателя силы связи
между вариацией факторного признака х и вариацией результативного признака
у. Вышеприведенное уравнение показывает среднее значение изменения
результативного признака у при изменении факторного признака х на одну
единицу его измерения, то есть вариацию у, приходящуюся на единицу вариации
х. Знак a1 указывает направление этого изменения.
Параметры уравнения a0 , a1 находят методом наименьших квадратов (метод
решения систем уравнений, при котором в качестве решения принимается точка
минимума суммы квадратов отклонений), то есть в основу этого метода
положено требование минимальности сумм квадратов отклонений эмпирических
данных yi от выравненных ? :
((yi – ?)2 = ((yi – a0 – a1xi)2 ( min
Для нахождения минимума данной функции приравняем к нулю ее частные
производные и получим систему двух линейных уравнений, которая называется
системой нормальных уравнений:
[pic]
.
Решим эту систему в общем виде:
Параметры уравнения парной линейной регрессии иногда удобно исчислять по
следующим формулам, дающим тот же результат:
Определив значения a0 , a1 и подставив их в уравнение связи ? = a0 + a1x
, находим значения ? , зависящие только от заданного значения х.
Рассмотрим построение однофакторного уравнения регрессии зависимости
работающих активов у от капитала х (см. приложение, таблица 1).
Здесь представлены показатели 32 банков: размер капитала и работающих
активов. Передо мной стоит задача определить, есть ли зависимость между
этими двумя признаками и, если она существует, определить форму этой
зависимости, то есть уравнение регрессии.
За факторный признак я взяла размер капитала банка, а за результативный
признак –
|