Как сделать регрессию в stata

Обновлено: 07.07.2024

В таблице 1.1. приведены ежегодные данные о совокупных личных расходах ; располагаемых личных доходах ; расходах на табак для США на период с 1959 по 1983 годы. Оцените множественную регрессию между регрессандом (эндогенной пер е менной) Var 1 и регрессорами (экзогенными пер е менными) Var 2, Var 3 и Var 4 используя данные за 25 лет. Дайте интерпретацию коэффициентам ре г рессии. Исследуйте степень корреляционной зависимости между переменными. Проверьте остатки на н а личие автокорреляции и гетероскедастичность.

Ежегодные данные о потребительских расходах и

располагаемых личных д о ходах для США на период с 1959 по 1983 годы

Используем пакет Statistica 6.0, модуль Множественная регрессия .

Создадим новый документ с данными, введем число переменных – 4 и число регис т ров – 25. Введем наименования переменных и исходные данные.

Вызовем модуль Множественная регрессия . (Команда Статист и ка  Множественная регрессия). Выберем переменные (кнопка ( Variables ). Зависимая ( Dependent ) – Var 1 ; независ и мые ( Independent ) – Var 2 , Var 3 , Var 4 .

Нажмем кнопку ОК в правом углу стартовой панели.

Появится окно результатов множественной регрессии.

Результаты множественной регрессии в численном виде представлены в табл. 1.2.

В первом столбце таблицы 1.2 . даны значения коэффициентов beta — стандартизованные коэффициенты регрессионно го урав нения , во втором — стандартные ошибки beta , в третьем – В – точечные оценки пар а метров модели.

Далее, стандартные ошибки для коэффициентов модели В, значения ст а тис тик t-критерия и т.д.

Из таблицы 1.2 . мы видим, что оцененная модель имеет вид:

Var 1 = 347,2 + 25,018∙ Var 2 – 0,0765∙ Var 3 – 3 ,755 ∙ Var 4 (1.1)

TPE = 347,2 + 25,018 ∙ TIME – 0,0 765 ∙ PI – 3,755 ∙ TOB (1.2)

( t ) ( 0,738 ) (1, 073 ) ( 0,1074) (-0,107 )

В верхней части таблицы 1.2 . и в таблице 1.3 . (а также в информационном окне) прив е дены следующие данные:

Коэффициент множественно й корреляции Multiple R = 0, 9633 ;

Коэффициент детерминации R-square = 0, 9279 ;

Скорректированный на поте рю степеней свободы коэффициент множественной д е термина ции Adjusted R 2 = 0, 9 176 ;

Критерий Фишера F = 90,107 ;

Уровень значимости модели р

Стандартная ошибка оценки Std. Error of estimate = 59,293 .

Проанализируем данные множественной регрессии.

Табличное значение критерия Стьюдента, соответствующее доверител ь ной вероятности  = 0,95 и числу степеней свободы v = n – m – 1 = 21 ; t кр. = t 0,025;21 = 2,080.

Сравнивая расчетную t -статистику коэффициентов уравнения с табличным значением, заключаем, что все полученные коэффициенты стат и стически не значимы.

Уравнение (1.2 . ) выражает зависимость совокупных личных расходов ( TPE ) от времени ( TIME ), личного дохода ( PI ) и расходов на табак ( TOB ). Коэффициенты уравнения пок а зывают количественное воздействие каждого фактора на результативный показатель при неизменности других. В нашем случае совокупные личные расходы увеличиваются на 25,017 ден. ед. при увеличении времени на 1 ед. при неизменности показателей личного дохода и расходов на табак ; совокупные личные расходы увеличиваются на 0,0765 ден. ед. при увеличении показателя личного дохода на 1 ед. и неизменности показателей времени и расходов на табак ; совокупные личные расходы уменьшаются 3,755 ден. ед. при увеличении ра с ходов на табак на 1 ед. и неизменности показателей времени и личного дох о да.

Множественный коэффициент корреляции построенной модели (Multiple R) R = 0,9633 очень близок к единице, что говорит о высокой степени связи между исследуемыми факт о рами.

Коэффициент детерминации (R Square) R 2 = 0,9279, что говорит о том, что 92,79 % вари а ции переменной TPE объясняется вариацией переменных TIME , PI , TOB и только 7, 21 % приходятся на долю других неучтенных факторов.

Критическое (табличное) значение критерия Фишера для доверительной вероятн о сти  = 0,95 и числа степеней свободы v 1 = 25 – 3 = 22 и v 2 = 25 – 1 = 24: F кр . = F 0,05;22;24 = 2,01.

Расчетное значение критерия Фишера F = 90,107 намного превышает табличное значение критерия F табл. = 2,01, что говорит о хорошем качестве п о строенной модели (модель адекватна экспериментальным данным). Уровень значимости p = 0,00000 показывает, что построенная регрессия высоко знач и ма.

Исследуем степень корреляционной зависимости между переменными. Для этого п о строим корреляционную матрицу. Чтобы корреляционная матрица была построена при множественной регрессии, нужно установить флажок в строке Review descriptive statistics , correlations matrix в окне Multiple Regre s sions .

Корреляционная матрица приведена в таблице 1.4.

Из корреляционной матрицы следует, что на расходы на отдых все и с следуемые факторы оказывают значительное и примерно одинаковое влияние (коэффициенты корреляции между Var 1 и Var 2, Var 3, Var 4 равны соответственно 0,9 9975 ; 0,9 4192 ; 0, 96325 ). Из корреляционной матрицы также следует, что между факторами им е ется мультиколлинеарность (коэффициенты корр е ляции между регрессорами Var 2, Var 3, Var 4 также высоки и примерно одинаковы).

Проведем анализ остатков от регрессии.

Остатки представляю т собой разности между наблюдае мыми значениями и модел ь ными, то есть значениями, под считанными по модели с оцененными параметрами.

По кнопке Observed v s . residuals появится график (рис.1.1. ), который г о ворит о неслучайном р азбросе стандартных отклонений .

Рис. 1.1. Наблюдаемые переменные-остатки

Проверим остатки на наличие автокорреляции. Для этого вычислим ст а тистику Дарбина-Уотсона ( Darbin-Watson Stat ). Результаты вычисления статистики Дарбина-Уотсона привед е ны в табл. 1.5.

Из табл. 1.5 определяем наблюдаемое значение критерия Дарбина-Уотсона:

По таблице приложения 4 [1] определяем значащие точки d L и d U для 5% уровня зн а чимости.

Для m = 3 и n = 25 d L = 1,123; d U = 1,654.

Так как 4 - d U DW 4 - d L ( 2,346 2,469 ), то гипотезу об отсутствии автокорреляции мы не можем принять и не можем опровергнуть, так как значение статистики попало в зону неопределенности критерия .

Для проверки наличия гетероскедастичности воспользуемся тестом Па р ка. В Excel рассчитаем логарифмы значений e 2 , Var 2 , Var 3 и Var 4 (см. табл. 1.6).

Я хотел бы запустить несколько регрессий и сохранить их результаты в файле DTA, который позже можно было бы использовать для анализа. Мои ограничения:

Я не могу установить модули (я пишу код для других людей и не уверен, какие модули они установили)
Некоторые из регрессоров являются факторными переменными.
Каждая регрессия отличается только зависимой переменной, поэтому я хотел бы сохранить ее в окончательном наборе данных, чтобы отслеживать, какой регрессии соответствуют коэффициенты / дисперсии.

Я серьезно теряю здесь рассудок. Я считаю, что это, вероятно, просто, учитывая, что Stata - это статистическая программа, но svmat на самом деле не кооперативная. В настоящее время я делаю следующее:

Это создает для каждой регрессии: одну строку, в которой хранятся коэффициенты, одну строку, в которой хранится их дисперсия с использованием vecdiag(e(V)) . Имена строк для этих двух строк - это имя зависимой переменной, за которым следует _b для коэффициентов и _v для отклонений.

Я использую ручную константу, потому что _cons не является допустимым именем для переменной при использовании svmat .

Конечно, мое "решение" не работает, потому что уровни факторов генерируют странные имена столбцов матрицы, которые затем становятся недопустимыми именами переменных при вызове svmat . (Ошибка краткая invalid syntax .) Я был бы рад ЛЮБОМУ решению этой проблемы с учетом моих ограничений. Нет необходимости использовать svmat, коэффициенты и дисперсии могут быть в одной строке, если это упрощает, и т. Д.

В этой главе мы рассмотрим несколько примеров анализа данных с помощью системы STATISTICA. Первый пример относится к области маркетинга (мы показываем возможности модуля Множественная регрессия), три следующие примера к промышленным приложениям (мы показываем возможности модулей Планирование эксперимента и Карты контроля качества), пятый пример иллюстрирует возможности STATISTICA по наложению результатов анализа на географические карты.

Еще раз отметим, что современная STATISTICA — это средство разработки приложений в конкретных областях (бизнесе, медицине, промышленности и др.). Библиотека STATISTICA содержит более 10 000 тщательно отлаженных и проверенных на практике процедур анализа данных. Развитие системы естественно приводит к созданию средств разработки собственного интерфейса и использования библиотеки STATISTICA для создания оригинальных модулей, включающих, наряду с процедурами STATISTICA, алгоритмы разработчика. Все эти процедуры объединяются общим интерфейсом, средствами управления данными и графикой STATISTICA.

Именно в создании средств для разработки приложений мы видим будущее систем анализа данных.

Известно, что этот рынок поделен между 5 фирмами, обозначенными далее А, В, С, D и Е. До 1981 года на рынке присутствовали фирмы А, В и С, в 1981 году на рынок пришли фирмы D и Е. Но уже в' 1983 году фирма D не выдержала конкуренции, а у фирмы А возникли финансовые проблемы.

В следующей таблице представлены объемы продаж в отрасли и доля каждой фирмы.

Можно заметить, что после появления фирм D и Е произошло резкое снижение доли фирмы А. Две новые фирмы D и Е по-разному освоили рынок. Фирма D имела большие производительные способности, чем фирма Е, но заметно отстала по объемам продаж. Этот пример интересен тем, что показывает соотношение затрат на рекламу и производство.

Будем считать, что основным показателем эффективности рекламы является объем продаж фирмы. В этой таблице представлены расходы на рекламу каждой фирмы и ее доля в рекламе.

Понятно, что вхождение в отрасль фирм D и Е потребовало больше расходов на рекламу (в процентном отношении к объему продаж). Это отчетливо видно из следующей таблицы:

Заметим, фирма D в 1982 году резко снизила расходы на рекламу, что, возможно, стало причиной потери рынка.

Предполагается, что для рекламы используются следующие средства массовой информации: телевидение, газеты, журналы и радио.

На реальный объем продаж пива влияют также такие факторы, как температура воздуха, число туристов и индекс потребительских цен (инфляция).

В предлагаемой модели теоретическая зависимость основывается на предположении, что объем продаж за период t (далее это месяцы) является функцией объема продаж за прошлый период расходов на рекламу в периоды t и t-1, количества туристов, значений температуры и индекса розничных цен.

S_t — объем продаж (в драхмах);

A_t — ассигнования на рекламу;

T_t — число туристов в месяц t;

W_t — средняя температура воздуха;

P_t — индекс розничных цен.

Итак, мы построили модель зависимости, но коэффициенты этой модели неизвестны. Эти коэффициенты оцениваются из исходных данных в модуле Множественная регрессия.

Оценка коэффициентов по методу наименьших квадратов выявила статистическую незначимость переменных W_t и P_t, и они были исключены из дальнейшего анализа.

В результате получилось уравнение, содержащее меньшее число переменных:

Оценим коэффициенты этого уравнения, используя реальные данные. Для анализа использовались данные о месячных продажах за 2 года. Число наблюдений равнялось 24. Результаты регрессии приведены в таблице:

Значения коэффициента детерминации R 2 , близкие к единице, говорят о хорошем приближении линии регрессии к наблюдаемым данным и о возможности построения качественного прогноза.

Низкое значение коэффициента детерминации R 2 для фирмы D объясняется низкой эффективностью рекламной кампании и трудностями на административном уровне. Можно сделать вывод, что модель плохо применима к фирме D.

Статистики Дарбина—Уотсона свидетельствуют об отсутствии автокорреляции остатков при 5%-м уровне значимости, т. к. все ее значения по модулю меньше 1,96.

Все значения регрессионных коэффициентов значимы при уровне значимости 0,5, за исключением коэффициентов при A_t для фирм В, D и Е.

Одним из возможных объяснений этого факта является то, что показатели этих фирм зависят от рекламной деятельности за прошлый период времени, то есть от А_t-1

Продажи фирмы А имеют значительную положительную корреляцию с ее расходами на рекламу за период t, что отличает ее от других фирм. Окончательно взаимосвязь между рыночными продажами и совокупными расходами на рекламу положительна и значима при уровне 5%.

Представленные выше результаты регрессии образуют основу оценки эффективности совокупных расходов на рекламу.

Покажем, как строятся такие модели в системе STATISTICA. Для этих целей обычно используется модуль Множественная регрессия.

В этом модуле собраны методы, позволяющие оценить зависимость одной переменной от нескольких других переменных.

Переменная, для которой строится зависимость, называется зависимой (по-английски dependent variable). Эта переменная входит в левую часть уравнения, описывающего зависимость (см. уравнение (*)). Переменные, от которых мы хотим построить зависимость, называются независимыми переменными (по-английски independent variables) или предикторами (от английского predict — предсказывать). Эта переменная входит в правую часть уравнения, описывающего зависимость. Сам термин множественная регрессия (по-английски multiple regression) означает, что модель может содержать несколько предикторов, позволяющих предсказывать зависимую переменную.

Итак, общая идея состоит в том, чтобы по значениям предикторов предсказывать значения зависимой переменной, например, по значениям продаж и расходам на рекламу в текущем и предыдущем месяце предсказывать продажи в следующем месяце.

Конечно, количество предикторов можно увеличить, например, ввести объем продаж у конкурентов или какие-то другие, имеющие смысл и доступные наблюдению переменные. Однако здесь имеется тонкость, предикторы могут оказаться зависимыми между собой.

Переменные, которые следует включить в модель, определяет специалист в предметной области. Затем нужно выполнить следующие действия.

Шаг 1. Запустите модуль Множественная регрессия.

Шаг 2. Введите исходные данные в файл системы STATISTICA. Назовите его, например, Beer.sta.

Шаг 3. Определите переменные в модели. Задайте S в качестве зависимой переменной и S1. P — в качестве независимых переменных, или предикторов. После этого стартовая панель модуля будет выглядеть так:

В появившемся окнеПошаговая множественная регрессия снова нажмите ОК.

Теперь перед вами диалоговое окно результатов, полученных с помощью пошаговой процедуры с включением. Следует отметить, что в нем указаны стандартизованные коэффициенты регрессии.

Заметим, если вы предполагаете, что в модели должно присутствовать небольшое число предикторов, то естественно использовать пошаговый метод с включением предикторов. Если вы предполагаете, что в модели должно присутствовать большое число предикторов, то естественно использовать метод с исключением.

Шаг 6. В окне результатов нажмите кнопку Анализ остатков.

Шаг 7. В диалоговом окне Анализ остатков нажмите кнопку Статистика Дарбина—Уотсона. Эта статистика позволяет исследовать зависимость между остатками. Формально остатки представляют собой разность: наблюдаемые значения зависимой переменной минус оцененные с помощью модели значения зависимой переменной.

Зачем проверять зависимость остатков? Идея проста: если остатки существенно коррелированны (зависимы), то модель неадекватна (нарушено важное предположение о независимости ошибок в регрессионной модели).

Рассмотрим более подробно статистику Дарбина—Уотсона. Мы уделяем этой статистике так много внимания, потому что статистика Дарбина—Уотсона является стандартом для проверки некоторых видов зависимости остатков и с ней нужно научиться работать.

Статистика Дарбина—Уотсона используется для проверки гипотезы о том, что остатки построенной регрессионной модели некоррелированы (корреляции равны нулю), против альтернативы: остатки связаны авторегрессионной зависимостью вида:

Формально статистика Дарбина—Уотсона вычисляется следующим образом:

Иными словами, сумма квадратов первых разностей остатков нормируется суммой квадратов остатков. Проведя вычисления, вы легко выразите статистику Дарбина—Уотсона через коэффициент корреляции: d = 2(1 — р).

Критические точки статистики Дарбина—Уотсона табулированы (см. например, Драйпер Н., Смит Г. Прикладной регрессионный анализ. М.: Финансы и статистика, т. 1. с. 211, см. также таблицу, показанную ниже).

В таблице приведены два критических значения статистики Дарбина—Уотсо-на: DL_k и DU_k — нижнее и верхнее, зависящие как от числа наблюдений, по которым оцениваются параметры, так и от числа предикторов k, которые включены в модель.

На графике видно, как меняются значения DL_k и DU_k в зависимости от числа наблюдений (k = 1, 2, 3, 4, 5).

Число наблюдений, для которого рассчитаны критические значения, указано в заголовках строк приведенной таблицы.

Итак, вы находите строку с нужным числом наблюдений и два смежных столбца с нужным числом предикторов. На пересечении строки и столбцов располагаются нижние и верхние критические точки статистики Дарбина—Уотсона.

Если d DU_k и 4 — d > DU_k, то гипотеза о независимости остатков не отвергается на уровне 2a.

Если d DU_k, то гипотеза о независимости не отвергается на уровне a.

После того как мы познакомились со статистикой Дарбина—Уотсона, продолжим работу в модуле Множественная регрессия.

Шаг 9. Вернитесь в окно Результаты множественной регрессии и нажмите кнопку Предсказать зависимую переменную. Далее в полях А1 и S1 укажите значения текущего месяца, а в полях Т и А — значения на следующий месяц.

Этот пример относится к промышленной статистике (см. Cornell J. А. (1990). How to Apply Response Surface Methodology, vol. 8 in Basic References in Quality Control: Statistical Techniques, edited by S. S. Shapiro and E. Mykytka. Milwaukee: American Society for Quality Control).

Любая машина или станок, используемые на производстве, позволяют операторам производить настройки, чтобы воздействовать на качество производимого продукта. Изменяя настройки, инженер стремится добиться максимального эффекта, а также выяснить, какие факторы играют наиболее важную роль в улучшении качества продукции.

В системе STATISTICA имеется мощный модуль планирования экспериментов, позволяющий эффективно планировать и анализировать эксперименты.

Задача состояла в том, чтобы исследовать факторы, влияющие на качество производимых пластиковых дисков.

Известно, что наибольшее влияние на качество оказывают следующие два фактора:

1) материал, характеризующийся отношением наполнителя к эпоксидной резине,

2) расположение диска в форме.

В качестве зависимой переменной рассматривалась плотность полученного диска.

Сначала использовался дробный факторный план 2 2 для того, чтобы определить адекватность модели первого порядка. В этой модели оба фактора комбинировались друг с другом на верхних и нижних значениях (всего имеется 4 комбинации). Но оказалось, что модель оказалась адекватной лишь для некоторой области значений факторов и неадекватной для всей значений факторов. На самом деле зависимость между факторами и откликом была нелинейной. Поэтому было решено использовать центральный композиционный план и применить модель второго порядка.

Центральный композиционный план может состоять из куба и звезды. Куб соответствует полному факторному плану — точки эксперимента располагаются в вершинах куба (фактически это факторный план 22).

Звезда содержит дополнительное множество точек, расположенных на одинаковых расстояниях от центра куба на отрезках, исходящих из центра и проходящих через каждую сторону куба.

В данном исследовании применялся ротатабельный план, в котором дисперсия отклика является постоянной во всех точках, одинаково удаленных от центра плана.

Пусть фактор А — это характеристика материала, из которого изготовлен диск, более точно, так называемое композиционное отношение (disk composition ratio), фактор В — положение диска в форме (position of disk in mold). Зависимая переменная, или отклик эксперимента, — плотность диска (Thickness).

Запустите модуль Планирование эксперимента.

На стартовой панели выберите Центральные композиционные планы, поверхности отклика и нажмите кнопку ОК.

Появится диалоговое окно План эксперимента для поверхности отклика. Нажмите на кнопку Имена факторов, значения и заполните таблицу в диалоговом окнеИтоги для переменных .

Просмотрите план. Для этого нажмите Просмотр/Правка/Сохранение.

Задание имени и сохранение экспериментального плана

Выберите Сохранить как файл данных. ; появится соответствующее диалоговое окно. Задайте имя плана disk.sta и нажмите кнопку ОК.

Вернитесь в диалоговое окно План эксперимента для поверхности отклика.

Упражнение 5.1 (продолжение упражнения 4.1). Используя пакет Excel, по данным базы concrete оценим модель q_t = р_о + P_t/, + Р₂k_i + е-. Проверим значимость коэффициентов и адекватность регрессии в целом.

Решение. Чтобы оценить множественную регрессию в пакете Excel, необходимо выбрать все регрессоры одним массивом.

Нажав кнопку ОК, получим следующие результаты (табл. 5.1).

Таблица 5.1

Оценка модели множественной регрессии в Excel

Регрессионная статистика

Множественный R

R-квадрат

Нормированный ?-квадрат

Стандартная ошибка

Дисперсионный анализ

Значимость ?

Стандартная

У-пересечение

Переменная X,

Переменная Х₂

Объясняющая сила данной регрессии на основе критерия R 2 выше по сравнению с парной моделью (R 2 возрос с 0,55 до 0,72, подробности см. в упражнении 3.1). Константа в множественной регрессии незначима, остальные два коэффициента наклона значимы даже на 1%-ном уровне значимости. Регрессия является адекватной, поскольку p-value для ?-статистики очень мало (6,35?-83 « 0).

Иногда из модели исключают факторы, коэффициенты при которых незначимы, чтобы не терять эффективность оценок, но незначимую константу принято оставлять, чтобы избежать смещения оценок и иметь возможность интерпретировать R 2 .

Упражнение 5.2. Используя статический пакет Stata, но данным базы concrete оценим уравнение q_i = р_о + р,/, + р₂k_t + е,. Дадим интерпретацию результатам. Проверим гипотезу о равенстве коэффициентов перед переменными, соответствующими труду и капиталу, на 5%-ном уровне значимости.

Решение. Чтобы оценить множественную модель в статистическом пакете Stata, необходимо добавить названия регрессоров после названия регрессанта:

II reg q 1 к

Number of obs F( 2, 296)

R-squared Adj R-squared

629.1715 .9616119 22946.75

Коэффициенты при переменных / и k являются значимыми при любом разумном уровне значимости (поскольку р-value для проверки соответствующей гипотезы равны 0,000), а константа незначима при любом разумном уровне значимости (поскольку p-value равно 0,929).

Полученные оценки коэффициентов можно интерпретировать следующим образом: при увеличении количества рабочих на одного выпуск при прочих равных условиях возрастет на 533,66 тыс. руб.; если капитал возрастает на 1 тыс. руб., то выпуск увеличивается на 0,8403 тыс. руб.

Чтобы провести тест на равенство коэффициентов друг другу, необходимо использовать команду test после оценки регрессии:

В результате получим (1) 1 - к = о

Гипотеза о равенстве коэффициентов при переменных k и / отвергается при любом разумном уровне значимости, так как p-value теста равно 0, а значит, нулевая гипотеза отвергается на любом уровне значимости (что неудивительно).

Упражнение 5.3. Используя статистический пакет R, по данным concrete выполним следующее.

1. Оценим модель q_i = Р₀ + Р/, + Р₂^ + е * со следующими ограничениями на вы-

* Г / > 50, борку; | (у > 2ооо.

2. Сравним оценки коэффициентов данной модели с оценками коэффициентов из модели без ограничений на выборку.
3. Оценим модель с другими ограничениями на выборку: | g^200Q
4. Сравним результаты оценки разных моделей.

Решение. Загрузив данные в статистический пакет R, оценим модель с ограничениями с помощью следующих команд:

d 50 & q > 2000)) summary(reg)

lm(formula = q - 1 + k, data = data, subset = 1 > 50 & q > 2000)

Min IQ Median 3Q Max

-1213611 -47806 -2269 38781 937923

Estimate Std. Error t value Pr(>ItI)

(Intercept) -3.040e+03 1.836e+04 -0.166 0.869
1 5.361e+02 6.091e+01 8.801 3.96e-16 ***

k 8.427e-01 7.197e-02 11.710 ItI)

(Intercept) -1.086e+03 1.221e+04 -0.089 0.929
1 5.337e+02 4.853e+01 10.996 150 & q > 2000)) summary(reg2)

lm(formula = q ~ 1 + к, data = data, subset = 1 > 150 & q > 2000)

Min IQ Median 3Q Max

-1286368 -72123 -11962 63548 920708

Estimate Std. Error t (Intercept) -8.820e+03 1 5.217 e + 02

3.248e+04 -0.272 0.786

8.483e+01 6.149 7.18e-09
8.951e-02 9.953 F

Поскольку p-value для F-статистик и (Prob > F) меньше любого разумного уровня значимости (в таблице 0,0000), то эта регрессия адекватна.

Поскольку p-value при проверке гипотезы о значимости каждого коэффициента регрессии менее 0,01, то все факторы значимы при уровне значимости 1%. Интерпретировать полученные результаты можно следующим образом: длительность обучения индивидов не менее 4,4 года (оценка свободного члена), при улучшении интегрированного показателя, характеризующего способности индивида, на 1 балл длительность обучения индивида увеличивается на 0,12 года (оценка коэффициента при переменной ASVABC), при увеличении длительности обучения матери индивида на 1 год длительность обучения индивида увеличивается на 0,12 года (оценка коэффициента при переменной 5М), при увеличении длительности обучения отца индивида на 1 год длительность обучения индивида увеличивается на 0,15 года (оценка коэффициента при переменной SF).

2. Для проверки гипотезы о равенстве коэффициентов при переменных SM и SF одновременно нулю в командном окне следует набрать:

|| test SM SF

В окне результатов Stata будет выдано

Поскольку p-value для F-статистики (Prob > F) для проверки этой гипотезы меньше любого разумного уровня значимости (в таблице 0,0000), то нулевая гипотеза Н₀: рз = р₄ = 0 отвергается при любом разумном уровне значимости.

3. Для проверки гипотезы о равенстве коэффициентов при переменных SM и SF в командном окне следует набрать:

|| test (SM = SF)

В окне результатов будет выдано

(1) SM - SF = 0 F ( 1, 536) = 0.19

Поскольку p-value для F-статистики (Prob > F) для проверки этой гипотезы достаточно велико (0,6671), нулевая гипотеза Н₀: р₃ = р₄ не отвергается при любом разумном уровне значимости.

4. Для оценки регрессии S = Р, + р₂ASVAB02 + р₃ASVAB03 + р _aASVAB04 + р₅SM + + p₆5F+ в в командном окне следует набрать команду

Читайте также: