Как сделать описательную статистику в спсс

Обновлено: 04.07.2024

Коллеги в Институте регионального развития проводят серию предвыборных социологических опросов в нескольких районах Псковской области. Анализа никакого проводить не требуется, нужно лишь вывести последовательность частотных таблиц и таблиц сопряжённости по вопросам, содержащимся в анкете. Во всех исследуемых районах структура этого отчёта одинаковая.

Обычно я решаю эту задачу силами R: делаю шаблон отчёта, а затем прогоняю его по каждому из массивов. Но сейчас возникла потребность то же самое выполнить в IBM SPSS. В SPSS, помимо выпадающих выпадающих меню, существует встроенный язык программирования, позволяющий автоматизировать выполнение рутинных задач. Этим языком я и решил воспользоваться. Язык этот можно сильно и не изучать, т.к. формирование команд можно осуществлять через выпадающее меню: пользователь выбирает нужную команду, указывает используемые переменные, а затем нажимает кнопку “Вставить”. Соответствующие инструкции добавятся в файл скрипта.

Частотные таблицы, предлагаемые SPSS по-умолчанию (команда FREQUENCIES в синтаксисе SPSS), мне не подходили: эта команда не позволяет отобрать нужные параметры частот, а “вываливает” сразу всё, включая абсолютные частоты, процент, валидный процент и накопленный процент. Заказчику обычно нужен только процент.

Подходящим вариантом стала команда “Настраиваемые таблицы” (CTABLES), позволяющая в таблице выводить только нужные статистики, объединять в одной строке/колонке сразу несколько переменных, добавлять итоги, отфильтровывать категории.

Следующей задачей стало создание заголовков и подзаголовков отчёта. В синтаксисе я обнаружил две команды: TITLE и SUBTITLE. Ограничение этих команд оказалось в том, что они не позволяют задавать форматирование. А при экспорте в формат XLS эти строки не помечаются никакими стилями, поэтому автоматизировать задачу оформления затруднительно.

Долго провозился с заголовками, которые SPSS вставляет в вывод перед каждой отдельной функцией, например “Настраиваемая таблица”. Мне не удалось найти способ поменять название этого заголовка на метку переменной. Отключается вывод этих заголовков в настройках SPSS.

В конце скрипта я добавил функцию EXPORT OUTPUT по экспорту вывода в файл формата XLS.

Рассчитаем аналогичные статистики для ряда (4.1). Для этого введем в электронную таблицу пакета SPSS исходные данные, т.е. ряд 2, 4, 6, 8, 10 как столбец. В электронной таблице пакета этот ряд будет обозначаться как VAR00001. Можно переименовать переменную VAR00001, например, как х или как-нибудь еще. После того как данные введены в электронную таблицу, нужно в меню Analyse (анализ) выбрать подменю Descriptive statistics (описательная статистика), затем здесь выбрать подменю Frequencies (частоты) (см. рис. 3.1).

В окне Frequencies внизу справа находится маленькое квадратное окошко, обозначенное как Display frequency tables (показать таблицу частот), в нем по умолчанию стоит галочка. Если убрать эту галочку, щелкнув по ней мышью, то таблица частот рассчитываться не будет.

В этом окне находим клавишу с названием Statistics. После ее активизации появляется окно: Frequencies Statistics.

Поставим галочки следующим опциям: Mean, Median, Mode, Sum, Std. deviation, Variance, Minimum, Maximum.

После чего нажмем верхнюю правую кнопку Continue (продолжить). Окно Frequencies Statistics исчезает, и остается вновь окно, изображенное на рис. 3.1. Нажимаем ОК. После чего в новом окне (окне результатов), которое называется Outputl, появляется следующее:

Сравним результаты, полученные в пакете STADIA и в пакете SPSS. Здесь практически все совпадает, только пакет STADIA нс рассчитывает моду.

Видно, что медиана совпала с величиной среднего и равняется 6 (тот же результат получился и в пакете STADIA), а мода для данного ряда не существует. Последнее очевидно, поскольку частота каждого числа, входящего в данный ряд, одинакова и равна 1. В таблице в строке Mode стоит 2(a). Символ (а) указывает на то, что мода данного ряда множественна, а поскольку она множественна (Multiple modes exist), то в качестве моды из ряда условно берется наименьшее значение, т.е. 2 (The smallest value is shown). Об этом говорит английский текст под таблицей, который дан как примечание.

Для анализа результатов маркетинговых исследований может быть использовано множество методов математической статистики, реализованных в программе SPSS. В данной работе рассмотрены основы работы с основными методами.

К методам описательной статистики относится, в частности, построение частотных таблиц. Выбираем пункты меню:

Statistics - Summarize - Frequencies - выбор дискретной переменной (переменных).

В диалоговом окне процедуры Frequencies (Частоты) исследователь может (cм. рис. 2.5):

нажав кнопку Statistics, задать вычисление максимального, минимального и среднего значения, моды, медианы, среднеквадратического отклонения для количественных переменных;

кнопкой Charts задать вид графиков - столбиковая или круговая диаграммы, гистограмма;

кнопкой Format задать порядок, в котором будут выводиться результаты

Рис. 2.5. Диалоговое окно процедуры Частоты

Для непрерывных переменных может использоваться обобщающая статистика:

Statistics - Summarize - Descriptives.

Процедура Descriptives осуществляет вывод одномерных статистик для нескольких переменных в одной таблице, а также вычисляет нормированные значения переменных. Переменные могут быть упорядочены по величине их средних значений (в порядке возрастания или убывания), по алфавиту или в порядке, в котором пользователь выбирает переменные (используется по умолчанию).

Например, если каждое наблюдение в анализируемых данных содержит итоги дневных объемов продаж для одного из дистрибьюторов компании в течение нескольких месяцев, то эта процедура поможет рассчитать средний дневной объем продаж для каждого дистрибьютора и расположить полученные результаты от наиболее высоких к низким.

Методы проверки статистических гипотез позволяют получить ответ на вопрос, являются ли обнаруженные закономерности подлинными, или же их можно объяснить случайными особенностями выборки. В частности, важным является вычисление стандартной ошибки среднего значения. Стандартная ошибка среднего значения необходима, чтобы определить, в какой области значений лежит истинное среднее значение генеральной совокупности. Для ее вычисления необходимо использовать пункты меню:

Statistics - Summarize - Frequencies - Statistics - S.E.Mean

(S.E.Mean - standard error Mean).

Для непрерывной переменной, как уже говорилось выше, вместо стандартной ошибки среднего используются нормированные значения (z-значения) и необходимо использовать:

Statistics - Summarize - Descriptives --

выбор переменных - Save standartized values as variably.

Для проверки нормальности распределения кривая нормального распределения может быть наложена на гистограмму. Для этого в программе SPSS требуется использовать пункты меню: Statistics - Summarize -

- Frequencies - Charts - Histograms - With normal curve (см. рис. 2.6)

Рис. 2.6. Окно задания графиков в процедуре Frequencies

Таким образом, гипотеза нормальности может быть проверена графически.

Для проверки нормальности распределения могут использоваться показатели асимметрии (Skewness) и эксцесса (Kurtosis). Асимметрия показывает "скошенность" кривой распределения относительно нормальной кривой, а эксцесс замеряет "заостренность" кривой (положительный - заостренная кривая, отрицательный - "тупая"). Стандартная ошибка Std.Error позволяет оценить значимость асимметрии и эксцесса. Для вычисления этих показателей необходимо использовать пункты меню:

Statistics - Summarize - Frequencies -- Statistics - Skewness, Kurtosis

Рис. 2.7. Задание вычисления асимметрии и эксцесса в процедуре Frequencies

Для предварительного вычисления многих параметров описательной статистики (минимум, максимум, среднеквадратическое отклонение, усеченное среднее и т.п.), можно использовать разведочный анализ - процедуру Explore:

Statistics - Summarize - Explore

- выбор переменной - Statistics…

Для проверки нормальности в этой процедуре вычисляются асимметрия, эксцесс, изображается диаграмма Stem-and-leaf - "ствол и листья", позволяющая оценить распределение:

Statistics - Summarize - Explore -

выбор переменной - Plots…- Stem-and-leaf

(Stem Width - ширина "ствола").

При интерпретации результатов необходимо учитывать, что диаграмма Stem-and-leaf в окне вывода программы SPSS располагается с наклоном 90 о (см. рис. 2.8).

Age of Respondent Stem-and-Leaf Plot

Frequency Stem & Leaf

143,00 2 . 000011111111222222233333344444

150,00 2 . 5555556666666777777888888899999

187,00 3 . 00000001111111222222222333333334444444

195,00 3 . 555555555556666666777777788888889999999

167,00 4 . 0000000111111112222223333333444444

113,00 4 . 5555667777778888889999

87,00 5 . 000011122223334444

78,00 5 . 555667778888999

87,00 6 . 00011112223333444

84,00 6 . 555566677778888999

95,00 7 . 0001111222233333444

53,00 7 . 5566677889

43,00 8 . 001122234

Each leaf: 5 case(s) & denotes fractional leaves.

Рис. 2.8. Пример диаграммы Stem-and-Leaf

Оценить вид распределения помогают также "ящичковые диаграммы". Для вычисления "ящичковых диаграмм" используются пункты меню: Statistics - Summarize - Explore

- выбор переменной - Plots… - Factor levels Together

Ящичковые диаграммы дают исследователю общее представление о распределении переменной: на них высота ящичка - разброс значений, жирная черта внутри - медиана или 50%- процентиль, нижняя грань - 25%-процентиль, верхняя - 75%-процентиль.

Значения, не попавшие внутрь, изображаются отдельно вне ящика.

Эти значения можно исследовать отдельно (если они есть):

Statistics - Summarize - Explore

- выбор переменной - Statistics…- Outliers

Рис. 2.9. Пример задания расчета ящичковой диаграммы

В окне вывода при таком исследовании выводится таблица экстремальных значений Extreme Values.

Одним из методов исследования нормальности распределения является также построение графиков на нормальной вероятностной бумаге. На графике даются координаты фактических значений переменных и теоретические значения, вычисленные при условии

нормальности распределения (линия). Чем ближе фактические значения к линии, тем больше распределение близко к нормальному. Аналогично можно интерпретировать график с удаленным трендом - Detrended Normal Q-Q Plot, - нормальному распределению здесь соответствует горизонтальная линия.

При построении графиков на нормальной вероятностной бумаге в программе SPSS автоматически рассчитываются значения коэффициентов Колмогорова-Смирнова и Шапиро-Уилкса. Эти критерии основаны на нулевой гипотезе о том, что данная выборка получена из генеральной совокупности, имеющей нормальное распределение. В окне вывода можно изучить Tests of Normality, особенно обращая внимание на уровень значимости каждого критерия Sig: если он больше 0.05 (т.е. превышает 5%), то можно принять нулевую гипотезу - или, строго говоря, нет оснований ее отвергнуть!

Существует большое количество методов проверки нормальности распределения, но ни один из них не является универсальным. Одни могут подтверждать нормальность, а другие - отвергать. Исследователю необходимо использовать все возможные методы для получения как можно менее противоречивых данных!

Рецензии

В целом курс понравился, но хотелось бы более подробную информацию видеть в pdf к видео, с ссылками на дополнительную литературу, которую всё равно придется прочитать, чтобы лучше усвоить курс.

Очень понятный курс, всё разложили по полочкам. Единственное, может я бы лекции для скачивания сделала более подробными, чтобы можно было легче повторять.

ОСНОВЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ВЫБОРОЧНЫХ ДАННЫХ

В этом модуле мы поговорим об описательных статистиках и о двух типа характеристик распределений: меры центральной тенденции (или просто меры центра: что типично для исследуемого распределения) и меры вариативности (или меры разброса: насколько разнообразны значения признака, распределение которого исследуется). Для начала мы разберемся с типами данных, немного поговорим о выборках, и затем рассмотрим основные меры центра и разброса, применимые для данных разных типов. В завершении модуля мы посмотрим, как рассчитываются описательные статистики в SPSS и в R.

SPSS – это компьютерная программа, предназначенная для статистической обработки данных. Сегодня SPSS является одним из лидеров в отрасли коммерческих статистических продуктов. Она помогает проводить прикладные исследования в социальных науках и позволяет в кратчайшие сроки получать множество сводных и линейных данных об объекте исследования.

Первая версия SPSS была разработана в 1968 году такими специалистами, как Норман Най, Хедли Хилл и Дейл Бент. Им принадлежит самая первая версия, а затем уже пакет развивался и другими исследователями, преимущественно в рамках Чикагского университета. Первое руководство вышло в 1970 году, а в 1975 году проект настолько разросся, что выделился в отдельную компанию.

Основные преимущества статистического пакета SPSS:

Готовые работы на аналогичную тему

Простое, интуитивное управление;
Большое количество функций, которые постоянно расширяются, что дает возможность пользователю анализировать большие объемы данных под совершенно разными углами;
Удобная выгрузка с различных исследовательских платформ.

SPSS сегодня представлен несколькими программами, которые помогают исследователям в реализации самых сложных задач, особенно когда речь идет об анализе статистических данных. Во-первых, это программы статистики; во-вторых, программа Modeler, в –третьих, программа Text Analytics, которую социологи и маркетологи используют для программирования и запуска опросов аудитории, в-четвертых, дизайнер визуализации. В совокупности программы развивают скиллы исследователя, позволяют ему осваивать новые инструменты по обработке данных и совершенствуют его навыки и знания в отрасли социологии, маркетинга.

Функциональные возможности пакета SPSS

Основные функциональные возможности SPSS следующие:

Описательная статистика – это вычисляемые показатели, которые отражают значение переменных;
Однофакторный дисперсионный анализ данных – статистическая значимость различий между значениями в нескольких выборках;
Кластерный анализ данных;
Дискриминантный анализ данных.

Перечисленные функции – далеко не все, которые программы, но они считаются основными в работе специалиста по обработке данных и анализа полученных результатов. К работе с программой необходимо готовиться заранее, изучать методические пособия и рекомендации по работе. На первых порах работа кажется сложной из-за большого числа функций, но когда специалист обозначает поле для своей работы, то он очень быстро определяет функции, которые будут для него первоочередные, и те функции, которыми он возможно не будет пользоваться вообще никогда. В данном случае речь идет о том, чтобы настраивать функционал программы под себя и свои потребности. Специалист, длительное время работающий с программой, также может выработать собственный алгоритм обработки данных – прописывать синтаксис, работать через анализ данных или описательные статистики в интерфейсе – это все нарабатывается исключительно с опытом.

У SPSS есть свои особенности. Например, данные могут экспортироваться в SPSS для подробного и более качественного анализа. Многие платформы сегодня предлагают свои инструменты для анализа и обработки данных, но в SPSS их можно сегментировать, перевзвесить, убрать накрутки. Также данные сохраняются в формате SAV, и поступают эти данные из опросов. Это делает процесс манипулирования, анализа и извлечения данных очень простым. Но сам формат поддерживается только на тех устройствах, на которых установлен SPSS. Программа дает пользователю доступ к разным переменным, и эти данные не закодированы их очень легко понять и интерпретировать. Автоматизированную модель очень легко настроить и очень легко ее понять. Поэтому с SPSS очень часто работают даже новички, которые изначально приходят на обучение азам обработки данных, а затем SPSS становится их самым незаменимым инструментом.

Читайте также: