Как сделать описательную статистику в past

Добавил пользователь Дмитрий К.
Обновлено: 04.10.2024

Набор данных обычно представляет собой выборку из некой более крупной популяции, или генеральной совокупности. Иногда эта популяция слишком большая, чтобы быть измеренной полностью. Иногда она неизмерима по своей природе, потому что она бесконечна по размеру либо потому что к ней нельзя получить непосредственный доступ. В любом случае мы вынуждены делать вывод, исходя из данных, которыми мы располагаем.

В этой серии из 4-х постов мы рассмотрим статистический вывод: каким образом можно выйти за пределы простого описания выборок и вместо этого описать популяцию, из которой они были отобраны. Мы подробно рассмотрим степени нашей уверенности в выводах, которые мы делаем из выборочных данных. Мы раскроем суть робастного подхода к решению задач в области исследования данных, каким является проверка статистических гипотез, которая как раз и привносит научность в исcледование данных.

Кроме того, по ходу изложения будут выделены болевые точки, связанные с терминологическим дрейфом в отечественной статистике, иногда затуманивающим смысл и подменяющим понятия. В конце заключительного поста можно будет проголосовать за или против размещения следующей серии постов. А пока же…

В целях иллюстрации принципов статистического вывода, мы создадим вымышленную компанию под названием AcmeContent, которая недавно наняла нас в качестве исследователей данных.

Представляем AcmeContent

Для оказания помощи в иллюстрировании понятий, представленных в этой серии постов, предположим, что в компанию AcmeContent нас недавно назначили в качестве исследователей данных. Компания заведует веб-сайтом, предлагающим своим посетителям возможность делиться между собой понравившимися им видеоклипами по Интернет.

Одна из метрик, которая отслеживается в AcmeContent посредством веб-аналитики — это время пребывания. Указанная метрика служит мерой количества времени, в течение которого посетитель остается на веб-сайте. Безусловно, посетителям, которые проводят на веб-сайте продолжительное время, веб-сайт нравится, и в AcmeContent хотели бы, чтобы посетители оставались на нем максимально долго.

Время пребывания (dwell time)— это отрезок времени между временем, прибытия посетителя на веб-сайт и временем, когда он сделал последний запрос.

Отскок (bounce) — это посетитель, который выполняет всего один запрос — его время пребывания равно нулю.

На вас, как новом исследователе данных, лежит в компании обязанность анализировать время пребывания посетителей на веб-сайте - этот показатель фигурирует в аналитических отчетах посещаемости веб-страниц и разделов веб-сайта - и измерять успех веб-сайта AcmeContent.

Загрузка и обследование данных

Здесь мы будем пользоваться теми же самыми библиотеками, что и ранее: scipy, pandas и matplotlib. В предыдущей серии постов мы использовали библиотеку pandas для загрузки электронных таблиц Excel, задействуя ее функцию read_excel . Здесь мы будем загружать набор данных из текстового файла с разделением значений символом табуляции. Для этого мы воспользуемся функцией pandas read_csv , которая на входе ожидает URL-адрес либо путь к файлу в строковом формате.

Файл был любезно переформатирован веб-командой AcmeContent и содержит всего два столбца — дату запроса и время пребывания на веб-сайте в секундах. Заголовки столбцов расположены в первой строке файла:

Названия приводимых примеров имеют формат ex_N_M, где ex - example (пример), N - номер серии постов и M - порядковый номер в посте. Примеры оформлены в виде функций без аргументов и возвращаемых значений. Это сделано намеренно, т.к. задачно-ориентированный стиль изложения требует кратких и четких примеров без отвлекающей внимание информации. К тому же, в таком виде примеры могут быть собраны вместе и исполняться независимо в рамках программной оболочки.

Если выполнить этот пример (в консоли интерпретатора Python либо в блокноте Jupyter), то можно увидеть результат, который показан ниже:

date

dwell-time

Посмотрим, как выглядит время пребывания на гистограмме.

Визуализация времени пребывания

Мы можем построить гистограмму времени пребывания, выбрав столбец dwell-time и применив к нему функцию hist:

Приведенный выше пример сгенерирует следующую ниже гистограмму:

Очевидно, что эти данные не являются нормально распределенными; они даже не представляют собой сильно смещенное нормальное распределение. Слева от пика нет никакого хвоста (посетитель явно не может быть на веб-сайте менее 0 сек.). Сначала данные круто убывают вправо и потом тянутся вдоль оси X намного дольше, чем можно было бы ожидать от данных, которые нормально распределены.

Некоторые системы измерения природных явлений, которые изменяются в очень широких пределах, представлены в логарифмической шкале. Например, шкала Рихтера для измерения интенсивности землетрясений является логарифмической шкалой по основанию 10, что означает, что землетрясение магнитудой 5 баллов по шкале Рихтера в 10 раз интенсивнее землетрясения магнитудой 4 балла. Децибельная шкала громкости тоже имеет логарифмическую шкалу, но с другим основанием — звуковая волна магнитудой 30 децибелов в 10 раз больше звуковой волны в 20 децибелов. В каждом случае принцип один и тот же — использование логарифмической шкалы позволяет сжать очень широкий предел значений в диапазон гораздо меньшего размера.

Изобразить на графике ось Y с логарифмической шкалой достаточно легко при помощи именованного аргумента logy=True функции pandas plot.hist :

В библиотеке pandas по умолчанию используется десятичная логарифмическая шкала, каждое деление на оси которой представляет собой интервал в 10 раз шире относительно предыдущего. График, в котором только одна ось имеет логарифмическую шкалу, называется полулогарифмическим или лог-линейным. Неудивительно, что график с двумя логарифмическими осями называется просто логарифмическим или логлог-линейным графиком (иногда также двойным логарифмическим, loglog=True ).

Нанесение данных времени пребывания на полулогарифмический график показывает, что они обладают скрытой связностью — имеется линейная связь между временем пребывания и логарифмом частоты. На графике ясность связи ухудшается справа, где число посетителей меньше 10, но, помимо этого, связь удивительно постоянная.

Прямая линия на полулогарифмическом графике — это явный индикатор экспоненциального распределения.

Экспоненциальное распределение

Экспоненциальное (или показательное) распределение часто встречается в ситуациях, когда имеется много малых положительных значений и намного меньше более крупных. С учетом того, что мы узнали о шкале Рихтера, не будет никаким секретом, что магнитуда землетрясений подчинена экспоненциальному распределению.

Кроме того, это распределение часто встречается в период ожидания — время до наступления следующего землетрясения любой магнитуды тоже приближенно подчиняется экспоненциальному распределению. Это распределение часто используется для имитационного моделирования интенсивности отказов, которые по существу являются временем ожидания события, когда механизм выйдет из строя. Наше экспоненциальное распределение моделирует процесс, аналогичный поломке — время ожидания события, когда посетитель заскучает и покинет веб-сайт.

Экспоненциальное распределение характерно многими интересными свойствами. Одно из них имеет отношение к среднему значению и стандартному отклонению:

Среднее значение и стандартное отклонение очень похожи. Фактически, для идеального экспоненциального распределения они абсолютно одинаковые. Это свойство сохраняется для всех экспоненциальных распределений — при увеличении средних увеличиваются и стандартные отклонения.

Для экспоненциальных распределений средние значения и стандартные отклонения эквивалентны.

Вторым свойством экспоненциального распределения является отсутствие памяти (или последействия). Это противоречащее интуитивному пониманию свойство лучше всего проиллюстрировать на примере. Мы ожидаем, что пока посетитель продолжает просматривать наш веб-сайт, вероятность, что ему надоест, и он покинет веб-сайт, увеличивается. Поскольку среднее время пребывания составляет 93 сек., то может создаться впечатление, что за пределами этих 93 сек., он будет продолжать просмотр веб-сайта все в меньшей степени.

Свойство отсутствия памяти экспоненциальных распределений говорит о том, что вероятность, что посетитель останется на нашем веб-сайте в течение следующих 93 сек. совершенно одинаковая, независимо от того, находится он на веб-сайте уже 93 сек., 5 мин. или целый час, либо только что на него зашел.

Для распределения без памяти количество истекшего времени не влияет на вероятность продолжения события в течение дополнительных x минут.

Свойство отсутствия памяти экспоненциальных распределений частично объясняет причину, почему очень трудно предсказывать время следующего землетрясения. Нам приходится опираться не на истекшее время, а на другие подтверждающие данные (такие как отклонения в геомагнетизме).

Поскольку медианное время пребывания составляет 64 сек., то примерно половина наших посетителей остаются на веб-сайте в течение примерно всего одной минуты. Среднее значение в 93 сек. показывает, что некоторые посетители остаются намного дольше медианы. Эти статистики были вычислены по всем посетителям за последние 6 месяцев. Было бы интересно узнать, каким образом эти статистики варьируются в расчете на один день. Давайте их вычислим.

Распределение среднесуточных значений

Предоставленный веб-командой файл включает метку даты посещения. В целях агрегирования данных по дням, необходимо удалить ту часть метки даты, которая соответствует времени. Хотя мы можем проделать это при помощи нативных средств Python, более гибкий подход состоит в использовании функционала pandas для обработки даты и времени — функции to_datetime.

На входе она принимает строковое значение, значение с типом date-time, список, кортеж, 1-мерный массив либо числовой ряд Series библиотеки pandas как в нашем случае, а также набор именованных аргументов. Например, именованный аргумент errors='ignore' позволяет проигнорировать даты, которые неправильно отформатированы либо выходят за допустимые пределы. Отметим также, что в функции mean_dwell_times_by_date использован вспомогательный метод resample для частотных преобразований и перестановки временного ряда. Он выполняет группировку по дате-времени, а после него следует метод свертки по каждой группе. В данном случае аргумент 'D' группирует по будним дням, и затем каждая группа агрегируется методом mean . Таким образом, выражение dt.resample('D').mean() берет средние значения по будним дням:

Сочетание приведенных выше функций позволяет вычислить среднее, медиану и стандартное отклонение для времен пребывания по будним дням:

По будним дням среднее значение составляет 90.2 сек. Оно близко к среднему значению, которое мы вычислили ранее по всему набору данных, включая выходные дни. А вот стандартное отклонение намного ниже, всего 3.7 сек. Другими словами, распределение значений по будним дням имеет стандартные отклонения намного ниже, чем по всему набору данных. Давайте построим гистограмму значений времен пребывания по будним дням:

Этот пример сгенерирует следующую ниже гистограмму:

Распределение средних значений в выборках расположено симметрично вокруг общего популяционного среднего значения, равного 90 сек. со стандартным отклонением 3.7 сек. В отличие от распределения, из которого эти средние были отобраны, т.е. экспоненциального распределения, распределение выборочных средних нормально распределено.

Центральная предельная теорема

Мы встречались с центральной предельной теоремой в предыдущей серии постов, когда делали выборки из равномерного распределения и их усредняли. На самом деле, центральная предельная теорема работает для любого распределения значений при условии, что это распределение имеет конечное стандартное отклонение.

Согласно центральной предельной теореме, распределение выборочных средних нормально распределено независимо от распределения, из которого они были вычислены.

То, что опорное распределение - экспоненциальное, не играет никакой роли — центральная предельная теорема показывает, что средние значения случайных выборок, взятых из любого распределения, близко аппроксимируют нормальное распределение. Теперь давайте построим график нормальной кривой поверх нашей гистограммы, чтобы посмотреть, насколько близко она совпадает.

В целях выведения нормальной кривой поверх гистограммы последняя должна быть построена как гистограмма плотностей распределения. Она изображает не частоту, а долю всех точек, помещенных в каждую корзину. После чего мы сможем наложить нормальную плотность вероятности с тем же средним значением и стандартным отклонением (Обратите внимание на применение функции dropna, которая удаляет строки, где есть пропущенные значения):

Этот пример сгенерирует следующий ниже график:

Нормальная кривая, изображенная поверх гистограммы, имеет стандартное отклонение, равное примерно 3.7 сек. Другими словами, она количественно определяет изменчивость каждого значения в будние дни относительно общего среднего значения, равного 90 сек. Можно представить среднее каждого дня как выборку из общей популяции, где изображенная выше кривая показывает распределение средних по выборкам. Поскольку 3.7 сек. — это величина, на которую среднее значение выборки отличается от популяционного среднего, она называется стандартной ошибкой.

Стандартная ошибка

В то время как стандартное отклонение измеряет величину изменчивости внутри выборки, стандартная ошибка (Standard Error, аббр. SE) среднего, измеряет величину изменчивости между средними значениями выборок, взятыми из той же самой популяции.

Стандартная ошибка среднего — это стандартное отклонение распределения средних по выборкам.

Мы вычислили стандартную ошибку времени пребывания эмпирически, глядя на данные за предыдущие 6 месяцев. Однако существует уравнение, которое позволяет ее вычислять, исходя из одной единственной выборки:

Здесь σ_x — это стандартное отклонение, подсчитанное по выборке x, и n — размер выборки. Эта формула не похожа на описательные статистики, которые мы встречали в предыдущей серии постов. Они описывали одиночную выборку. В отличие от них, стандартная ошибка пытается описать свойство выборок в целом — величину изменчивости в средних значениях выборок, которую можно ожидать для выборок заданного размера:

Стандартная ошибка среднего таким образом связана с двумя факторами:

Популяционным стандартным отклонением

Размер выборки оказывает самое большое влияние на стандартную ошибку. Для того, чтобы уменьшить размер стандартной ошибки вдвое, мы должны увеличить его в четыре раза, поскольку мы берем квадратный корень размера выборки.

Может показаться странным, что доля популяции, из которой отбирается выборка, никак не влияет на размер стандартной ошибки. Но это именно так, поскольку некоторые популяции могут иметь бесконечные размеры.

Примеры исходного кода для этого поста находятся в моем репо на Github. Все исходные данные взяты в репозитории автора книги.

Темой следующего поста, поста №2, будет разница между выборками и популяцией, а также интервал уверенности. Да-да, именно интервал уверенности, а не доверительный интервал.

Любые модели машинного обучения, которые вы создаете, хороши только с теми данными, которые вы им предоставляете. Первый шаг в понимании ваших данных - это посмотреть на некоторые необработанные значения и вычислить базовую статистику.

Эти рецепты идеально подходят для вас, если вы разработчик, только начинающий использовать R для машинного обучения.

Обновление ноябрь 2016: В этом полезном обновлении предполагается, что у вас естьmlbenchа такжеe1071Пакеты R установлены. Их можно установить, набрав:

Вы должны понимать свои данные

Понимание данных, которые у вас есть, очень важно.

Вы можете использовать методы и алгоритмы для своих данных, но только когда вы потратите время, чтобы по-настоящему понять свой набор данных, вы сможете полностью понять контекст достигнутых результатов.

Лучшее понимание равно лучшим результатам

Более глубокое понимание ваших данных даст вам лучшие результаты.

Если вы потратите время на изучение имеющихся у вас данных, это поможет вам менее очевидными способами. Вы строите интуицию для данных и для сущностей, которые представляют отдельные записи или наблюдения. Они могут склонить вас к определенным методам (к лучшему или к худшему), но вы также можете вдохновиться.

Например, детальное изучение ваших данных может вызвать идеи для конкретных методов для исследования:

Очистка данных, Вы можете обнаружить отсутствующие или поврежденные данные и подумать о различных операциях по очистке данных, таких как пометка или удаление неверных данных и вменение отсутствующих данных.
Преобразование данных, Вы можете обнаружить, что некоторые атрибуты имеют знакомые распределения, такие как гауссовское или экспоненциальное, что дает вам представление о масштабировании или логарифмировании или других преобразованиях, которые вы можете применить.
Моделирование данных, Вы можете заметить свойства данных, такие как распределения или типы данных, которые предлагают использовать (или не использовать) определенные алгоритмы машинного обучения.

Использовать описательную статистику

Вам нужно посмотреть на ваши данные. И вам нужно смотреть на ваши данные с разных точек зрения.

Проверка ваших данных поможет вам развить интуицию и предложит вам начать задавать вопросы о ваших данных.

Несколько точек зрения заставят вас думать о данных с разных точек зрения, помогая вам задавать больше и лучше вопросов.

Два способа просмотра ваших данных:

Описательная статистика
Визуализация данных

Первое и лучшее место для начала - это рассчитать основную сводную описательную статистику по вашим данным.

Вам необходимо узнать форму, размер, тип и общую структуру данных, которые у вас есть.

Давайте рассмотрим некоторые способы суммирования ваших данных с использованием R.

Суммируйте данные в R с описательной статистикой

В этом разделе вы найдете 8 быстрых и простых способов обобщить ваш набор данных.

Каждый метод кратко описан и включает рецепт на R, который вы можете запустить самостоятельно или скопировать и адаптировать к вашим собственным потребностям.

1. Посмотрите на ваши данные

Самое первое, что нужно сделать, это просто взглянуть на некоторые необработанные данные из вашего набора данных.

Если ваш набор данных небольшой, вы можете отобразить его на экране. Часто это не так, поэтому вы можете взять небольшую выборку и просмотреть ее.

Функция head отобразит первые 20 строк данных, которые вы сможете просмотреть и обдумать.

2. Размеры ваших данных

Сколько данных у вас есть? Вы можете иметь общее представление, но гораздо лучше иметь точную цифру.

Если у вас много экземпляров, вам, возможно, придется работать с меньшей выборкой данных, чтобы обучение и оценка модели можно было выполнять с вычислительной точки зрения. Если у вас есть огромное количество атрибутов, вам может потребоваться выбрать те, которые наиболее актуальны. Если у вас больше атрибутов, чем экземпляров, вам может потребоваться выбрать конкретные методы моделирования.

Это показывает строки и столбцы вашего загруженного набора данных.

3. Типы данных

Вам нужно знать типы атрибутов в ваших данных.

Это бесценно. Типы будут указывать типы дальнейшего анализа, типы визуализации и даже типы алгоритмов машинного обучения, которые вы можете использовать.

Кроме того, возможно, некоторые атрибуты были загружены как один тип (например, целое число) и могли фактически быть представлены как другой тип (категориальный фактор). Проверка типов помогает выявить эти проблемы и быстро найти идеи.

Это перечисляет тип данных каждого атрибута в вашем наборе данных.

4. Распределение классов

В задаче классификации вы должны знать долю экземпляров, принадлежащих каждому значению класса.

Это важно, потому что это может подчеркнуть дисбаланс в данных, который, если серьезный, может потребоваться устранить с помощью методов перебалансировки В случае проблемы классификации с несколькими классами, он может предоставлять класс с маленькими или нулевыми экземплярами, которые могут быть кандидатами на удаление из набора данных.

Этот рецепт создает полезную таблицу, показывающую количество экземпляров, которые принадлежат каждому классу, а также процент, который это представляет из всего набора данных.

5. Сводка данных

Существует наиболее ценная функция, называемая summary (), которая суммирует каждый атрибут в вашем наборе данных по очереди. Это самая ценная функция.

Функция создает таблицу для каждого атрибута и перечисляет разбивку значений. Факторы описываются как число рядом с каждым ярлыком класса. Числовые атрибуты описаны как:

Min
25 процентиль
медиана
Имею в виду
75 процентиль
Максимум

Разбивка также включает указание количества пропущенных значений для атрибута (помечено N / A).

Вы можете видеть, что этот рецепт дает много информации для просмотра. Не торопитесь и прорабатывайте каждый атрибут по очереди.

6. Стандартные отклонения

Единственное, чего не хватает в функции summary () - это стандартные отклонения.

Стандартное отклонение вместе со средним полезно знать, если данные имеют гауссово (или почти гауссово) распределение. Например, это может быть полезно для быстрого и грязного инструмента удаления выбросов, где любые значения, которые более чем в три раза превышают стандартное отклонение от среднего, находятся за пределами 99,7 данных.

Это вычисляет стандартное отклонение для каждого числового атрибута в наборе данных.

7. асимметрия

Если распределение выглядит как гауссово, но перемещается далеко влево или вправо, полезно знать перекос.

Получить представление о перекосе намного легче с графиками данных, такими как гистограмма или график плотности. Труднее сказать, глядя на средства, стандартные отклонения и квартили.

Чем дальше распределение значения перекоса от нуля, тем больше перекос влево (отрицательное значение перекоса) или вправо (положительное значение перекоса).

8. Корреляции

Важно наблюдать и думать о том, как атрибуты связаны друг с другом.

Для числовых атрибутов отличный способ думать о взаимодействиях атрибута к атрибуту - это вычислять корреляции для каждой пары атрибутов.

Это создает симметричную таблицу всех пар атрибутных корреляций для числовых данных. Отклонения от нуля показывают более положительную или отрицательную корреляцию. Значения выше 0,75 или ниже -0,75, возможно, более интересны, поскольку показывают высокую корреляцию. Значения 1 и -1 показывают полную положительную или отрицательную корреляцию.

Больше рецептов

Этот список методов суммирования данных ни в коем случае не является полным, но их достаточно, чтобы быстро дать вам начальное представление о вашем наборе данных.

Некоторым обобщением данных, которое вы могли бы исследовать за пределами списка рецептов, приведенного выше, было бы посмотреть статистику подмножеств ваших данных. Рассмотреть вопрос оСовокупный ()функция в R.

Есть ли у вас рецепт суммирования данных, которого нет в списке? Оставьте комментарий ниже, я хотел бы услышать об этом.

Советы для запоминания

Этот раздел дает вам несколько советов, которые следует помнить при просмотре ваших данных с использованием сводной статистики.

Просмотрите цифры, Генерации сводной статистики недостаточно. Найдите минутку, чтобы сделать паузу, прочитать и действительно подумать о числах, которые вы видите.
Спроси почему, Просмотрите свои номера и задайте много вопросов. Как и почему вы видите конкретные цифры? Подумайте о том, как числа относятся к проблемной области в целом и к конкретным объектам, к которым относятся наблюдения.
Запишите идеи, Запишите свои наблюдения и идеи. Сохраните небольшой текстовый файл или блокнот и запишите все идеи о том, как переменные могут относиться, что означают цифры, и идеи о методах, которые можно попробовать позже. Вещи, которые вы записываете сейчас, пока данные свежие, будут очень полезны позже, когда вы будете пытаться придумать что-то новое.

Вы можете суммировать ваши данные в R

Вам не нужно быть программистом R, Обобщение данных в R очень просто, как могут подтвердить приведенные выше рецепты. Если вы только начинаете, вы можете скопировать и вставить приведенные выше рецепты и начать изучать, как они работают, используя встроенную справку в R (например:? FunctionName).

Вам не нужно быть хорошим в статистике, Статистика, используемая в этом посте, очень проста, но вы, возможно, забыли некоторые основы. Вы можете быстро просмотреть Википедию по таким темам, как Среднее, Стандартное отклонение и Квартили, чтобы обновить свои знания.

Вот краткий список:

Вам не нужны ваши собственные наборы данных Каждый приведенный выше пример использует встроенный набор данных или набор данных, предоставленный пакетом R. Есть много интересных наборов данных вНабор данныхR пакет, который вы можете исследовать и играть. Увидетьдокументация для пакета данных Rдля дополнительной информации.

Резюме

В этом посте вы узнали о важности описания набора данных перед началом работы над проектом машинного обучения.

Вы обнаружили 8 различных способов суммировать ваш набор данных с помощью R:

Заглянуть в ваши данные
Размеры ваших данных
Типы данных
Распределение классов
Сводка данных
Стандартное отклонение
перекос
Корреляция

Теперь у вас также есть рецепты, которые вы можете скопировать и вставить в свой проект.

Шаг Действия

Вы хотите улучшить свои навыки, используя R или практикуя машинное обучение в R?

Практически каждый исследователь сталкивается рано или поздно в своей работе с необходимостью обработки и дальнейшего предоставления статистических данных. Причем это касается самых разных отраслей науки – от технических и медицинских до социологических и культурологических.

Обусловлена такая распространенность тем, что статистические методы помогают получить и обосновать определенные суждения об объектах, субъектах, группах людей и прочем, что обладает определенной внутренней неоднородностью.

Вы можете заказать услугу срочной публикации научных статей в научных журналах. Специалисты издательства СибАК знают, как выполнить работу в сжатые сроки.

Что такое описательная статистика

Те, кто впервые в своей работе сталкивается с обработкой и описанием данных, не всегда четко представляют, в какой форме их корректно отображать и обрабатывать для того, чтобы в дальнейшем подвергнуть статистическому выводу.

Поэтому нужно четко представлять, что такое описательная статистика. Она еще носит название дескриптивной и занимается анализом и обработкой эмпирических данных с проведением необходимой систематизации. Описательная статистика – это сжатая и концентрированная характеристика изучаемого явления, представленная в виде графиков, таблиц, схем и числовых выражений.

Вот что входит в описательную статистику в качестве основных показателей:

переменная, которая не является постоянным. Ее можно не только измерять, но и подвергать изменениям в ходе определенных манипуляций;
экстремумы, или так называемые максимумы и минимумы значений самой переменной;
под вариационными рядами понимают все количественные признаки, которые имеются у каждой единицы статистического наблюдения;
среднее – представляется средним арифметическим или выборочным. Здесь есть несколько параметров, таких как гармоническое, геометрическое, арифметическое и квадратическое. Все они нужны для того, чтобы охарактеризовать центр распределения;
мода представляет собой наиболее часто встречающееся значение в выборке. Правда, она может отражать также и среднее значение класса, обладающего наибольшей частотой;
медиана – это среднее значение чаще всего встречающихся значений выборки;
дисперсия – позволяет оценить отклонения в определенном числе наблюдений. Этот параметр относится к показателям рассеяния вариант.

Помимо этого, для осуществления методов описательной статистики используют еще такие показатели, как квартили, асимметрию, статистические моменты, эксцессы, гипотезы, значимости. Каждый из них играет существенную роль для корректного отображения получаемых данных.

Совокупность выше представленных показателей помогает при визуальном представлении данных осуществить:

фиксацию их относительно осей, придав тем самым вес в числовом отражении;
отобразить, насколько они разбросаны относительно своего центра;
показать асимметричность распределения около центрального положения;
вывести закон распределения данных при помощи гистограммы, таблицы частот или функции.

Как сделать описательную статистику

При выполнении определенного вида работ и решении задач придерживаются следующего порядка.

Собирают все необходимые исходные данные. При этом учитывают размер выборки. Чтобы получить достоверные данные, минимальное число не может быть меньше 1000. Чем оно будет больше, тем точнее получится итоговый результат.
На втором этапе строят вариационный ряд. Все полученные данные упорядочивают по возрастанию. Чтобы это было удобнее выполнить, находят минимальный и максимальный элементы, а затем относительно них переписывают его в нужной последовательности.
В некоторых случаях для упрощения процедуры обработки допускается вычитание из каждого элемента ряда минимального значения. Таким образом, работа дальше ведется не с конкретными размерами, а только с их отклонениями.
На следующем этапе проводят группировку данных. Для этого их разбивают на R интервалов, число которых соотносят с количеством наблюдений.
Затем определяют частости и эмпирические плотности вероятностей (частость используется для того, чтобы заменить частоты при составлении вариационных рядов).
После этих обработок собранной информации необходимо построить полигон. Но для этого первоначально определяют масштаб по осям.
Когда этот этап выполнен, строят гистограмму и эмпирическую функцию распределения.
Используя данные из гистограммы рассчитывают параметры распределения.
И на финальном этапе оформляют результат, который сводят в таблицу, схему, гистограмму, график или прочее.

Обработку статистических параметров методом описательной статистики необходимо проводить на высшем уровне. В противном случае могут пострадать итоговые выводы и результаты научной работы.

Важность корректного представления данных

Статистическое отображение данных важно в любой научной работе. А для публикаций в журналах, индексируемых наукометрическими базами Web of Science и Scopus, нужно особо тщательно относиться к качеству подаваемого материала.

Можно самому разбираться во всех тонкостях и сложных формулах, которые нужно применять. Но, чтобы облегчить и ускорить процесс статистической обработки в исследовании, лучше обратиться к специалистам, которые доступно объяснят даже самые сложные моменты.

' width='8' height='8' /> Помощь с программой PAST (задачи на basic level), Есть задачи и требования к ним что-то найти

ZXCR

Добрый день! Есть несколько задач для программы PAST, к которым даны выборки. К ним стоят вопросы что-либо найти (см.ниже) и записать четкий грамотный ответ. Однако, пользуясь тетрадью с практических занятий, среди 23-х человек в группе ни одному не зачли работы (!) ни на оценку "5", ни на "4".
Вопрос - кто разбирается в программе PAST, как в своих пяти пальцах, и сможет с уверенностью решить задачи правильно? Не за "спасибо", конечно же - обсуждаемо.
Мне очень важно понять, в чем ошибка, путем сравнения.

Пример. (дана таблица с данными)
Указать:
1). объёмы выборок;
2). среднее?станд.погрешность (для выборок с нормальным распределением) либо медиану и квартили (для выборок с распределением, отличным от нормального);
3). в качестве доказательства нормальности/ненормальности распределений нужно привести значение критерия Шапиро ? Уилка и соответствующее значение p;
4). значение критерия (F-критерий или критерий Краскела?Уоллиса, свой выбор нужно объяснить) и соответствующее значение p; для F-критерия указать число степеней свободы.
5). в случае использования F-критерия нужно указать, использовался ли подход Вэлча (т. е. дисперсии статистически значимо различались в выборках) или нет и как определяли однородность дисперсий (указать значение p к критерию Левена).
6). при обнаружении статистически значимых различий с помощью апостериорных сравнений (критерий Тьюки ? для нормальных ? или критерий Данна ? для ненормальных данных) выявить, между какими именно выборками существуют эти различия (везде указывать значение критерия и p к нему).

Задачи подобного рода.

DrgLena

ZXCR

DrgLena

Вот потому у Вас и НЕЗАЧЕТ! Нет желания учиться

ZXCR

Добрый день. Прежде всего уточняю, что у меня стоят оценки за обе домашние работы "4-" (а не "4", как я указал), и меня это категорически не устраивает, так как я отличник, поэтому я ищу помощь. Во-вторых - человек сказал, что у него нет желания оказать мне помощь с вопросом даже за 1.000р за одну задачу (а их 4), в таком случае я не могу к нему обратиться - я получил слишком высокомерный ответ. В-третьих - мне было указано, что у него программа PAST древнего выпуска - то есть человек даже не может удосужиться скачать новую бесплатную версию (это дело одной минуты). Кости с пола я не собираю, поэтому от такой "помощи" отказываюсь. 1500 рублей - немалые деньги. Полагаю, что я достаточно доходчиво объяснил ситуацию.

DrgLena

Не очень доходчиво описана артфметическая часть. То 1.000р за одну задачу (а их 4), то 1500 рублей - немалые деньги. Это я, наверное, не доходчиво объяснила, что предлагала Вам бескорыстную помощь. Чтобы ответить на вопросы вашего уровня, древнего выпуска программы будет предостаточно. PAST мне интересен только благодаря модулю Диверсификация.

Читайте также: