Простая вероятностная выборка пример как сделать

Обновлено: 03.07.2024

Простая случайная выборка заключается в отборе единиц из генеральной совокупности в целом без разделения ее на группы, подгруппы или серии отдельных единиц. При этом единицы отбираются в случайном порядке, не зависящем ни от последовательности расположения единиц в совокупности, ни от значений их признаков.

Прежде чем производить собственно случайный отбор, необходимо убедиться, что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку, в списках или перечне отсутствуют пропуски, игнорирования отдельных единиц и т. п. Следует также установить четкие границы генеральной совокупности таким образом, чтобы включение или невключение в нее отдельных единиц не вызывало сомнений. Например, при обследовании торговых предприятий необходимо указать, включит ли генеральная совокупность торговые павильоны, коммерческие палатки, передвижные торговые точки и прочие подобные объекты; при обследовании студентов важно определиться, будут ли приниматься во внимание студенты-заочники, экстерны, магистранты, лица, находящиеся в академическом отпуске, и др.

Для проведения отбора единиц в выборочную совокупность используется один из математических алгоритмов, например метод прямой реализации, включающий следующие этапы.

  • 1. Все единицы генеральной совокупности, расположенные в случайном порядке или ранжированные по какому-либо признаку, нумеруются от 1 до N.
  • 2. С помощью процессора случайных чисел получают п значений в интервале от 1 до N. Если первоначально случайные числа получены в интервале от 0 до 1, их необходимо умножить на N и округлить по правилам до целого значения.
  • 3. Из сформированного списка единиц генеральной совокупности отбираются единицы, соответствующие по номеру полученным случайным числам.

Упрощенным вариантом метода прямой реализации является отбор единиц в выборочную совокупность на основе таблицы случайных чисел. Для проведения отбора могут быть использованы цифры любого столбца данной таблицы, при этом необходимо учитывать объем генеральной совокупности.

Рассмотрим процедуру отбора на основе фрагмента таблицы случайных чисел. Предположим, объем генеральной совокупности составляет 70000 единиц и требуется сформировать выборку объемом 500 единиц. Цифры таблицы следует перегруппировать для получения пятизначных чисел следующим образом:

Для формирования выборки мы должны взять 500 чисел в интервале от 00001 до 70000. Таким образом, нам следует из списка единиц генеральной совокупности отобрать единицы под номерами 54895, 35220, 57593 и т. д. При этом номера свыше 70000 (75557, 93578 и подобные) будут проигнорированы.

При проведении бесповторного отбора повторяющиеся номера следует учитывать только один раз. При повторном отборе, если какой-либо номер случайно встретится еще один раз или более, соответствующая этому номеру единица в каждом случае повторно включается в выборочную совокупность.

После проведения отбора с использованием какого-либо алгоритма, реализующего принцип случайности, или на основе таблицы случайных чисел необходимо определить границы генеральных характеристик. Для этого рассчитываются средняя и предельная ошибки выборки.

Средняя ошибка повторной простой случайной выборки определяется по формуле:


С учетом выбранного уровня вероятности и соответствующего ему значения t предельная ошибка повторной простой случайной выборки


Тогда можно утверждать, что при заданной вероятности генеральная средняя будет находиться в следующих границах:


Предположим, что в результате выборочного обследования доходов домохозяйств региона, которое было осуществлено на основе простой случайной повторной выборки, получен ряд распределения, представленный в табл. 2.1.

Рассмотрим определение границ генеральной средней, в данном примере — среднего дохода домохозяйства в целом по данному региону, опираясь только на результаты выборочного обследования. Для определения средней ошибки выборки нам необходимо прежде всего рассчитать выборочную среднюю величину и дисперсию изучаемого признака (табл. 2.2).


Результаты выборочного обследования доходов домохозяйств региона

Расчет среднего дохода домохозяйства и дисперсии

Середина интервала х

Средняя ошибка выборки составит:


Определим предельную ошибку выборки с вероятностью 0,954

U = 2):



Установим границы генеральной средней (тыс. руб.): или


Таким образом, на основании проведенного выборочного обследования с вероятностью 0,954 можно заключить, что средний доход домохозяйства в целом по региону находится в пределах от 11 300 до 11 900 руб.

При расчете средней ошибки простой случайной бесповторной выборки необходимо учитывать поправку на бесповторность отбора:


Если предположить, что представленные в табл. 2.1 данные являются результатом 5%-ного бесповторного отбора (следовательно, генеральная совокупность включает 22 000 домохозяйств), то средняя ошибка выборки будет несколько меньше:


Соответственно, уменьшится и предельная ошибка выборки, что вызовет сужение границ генеральной средней. Особенно ощутимо влияние поправки на бесповторность отбора при относительно большом проценте выборки.

Мы рассмотрели определение границ генеральной средней. Проанализируем теперь, как определяются границы генеральной доли, т. е. границы доли единиц, обладающих тем или иным значением признака.

Воспользуемся еще раз данными табл. 2.1, для того чтобы определить границы доли домохозяйств, доходы которых составляют менее 10 000 руб. Согласно результатам обследования, численность таких домохозяйств составила 52 + 354 = 406. Определим выборочную долю и дисперсию:


Рассчитаем среднюю ошибку выборки:


Предельная ошибка выборки с заданной вероятностью составит:



Определим границы генеральной доли: или


Следовательно, с вероятностью 0,954 можно утверждать, что доля домохозяйств, имеющих доходы менее 10 000 руб., в целом по данному региону находится в пределах от 34,1 до 39,7%.

Мы рассмотрели определение границ генеральной средней и генеральной доли по результатам уже проведенного выборочного наблюдения, при известном объеме выборки или проценте отбора. На этапе же проектирования выборочного наблюдения именно объем выборочной совокупности требует определения.

Чем больше объем выборки, тем меньше значения средней и предельной ошибок выборочного наблюдения и, следовательно, уже границы генеральной средней и генеральной доли. В то же время необходимо учитывать, что большой объем выборки приводит к удорожанию обследования, увеличению сроков сбора и обработки материалов, привлечению дополнительного персонала и соответствующего материально-технического обеспечения. Затраты всех ресурсов на 20—30%-ное выборочное наблюдение сопоставимы с расходами на сплошное обследование. При этом не следует забывать, что статистические характеристики, полученные по выборочной совокупности, всегда имеют вероятностную основу и уступают результатам сплошного наблюдения по точности и надежности. Поэтому при подготовке выборочного наблюдения необходимо определить тот минимально необходимый объем выборки, который обеспечит требуемую точность полученных статистических характеристик при заданном уровне вероятности.

Представим формулу (2.2) следующим образом:


Отсюда можно вывести формулу для определения необходимого объема простой случайной повторной выборки:


Полученный на основе использования данной формулы результат всегда округляется в большую сторону. Например, если необходимый объем выборки составляет 493,1 единицы, то, обследовав 493 единицы, мы не достигнем требуемой точности. Поэтому для достижения желаемого результата обследованием должны быть охвачены 494 единицы. С другой стороны, рассчитанное значение необходимого объема выборки свободно может быть увеличено в большую сторону на несколько единиц. Если мы располагаем необходимыми ресурсами, если по причинам организационного порядка (компактность расположения единиц, фиксированная нагрузка на каждого регистратора ит. п.) мы вполне можем охватить больший объем, то включение в выборочную совокупность 500 или, например, 550 единиц только уменьшит значения полученных случайной и предельной ошибок.

Как видно из формулы (2.6), необходимый объем выборки будет тем больше, чем выше заданный уровень вероятности и чем сильнее варьирует наблюдаемый признак. В то же время повышение допустимой предельной ошибки выборки приводит к снижению необходимого ее объема.

Расчет необходимого объема выборки предполагает, что организаторы выборочного наблюдения уже на этапе его проектирования располагают по крайней мере косвенными данными о вариации изучаемых признаков. Источниками таких данных могут служить:

  • а) результаты исследования данного объекта в предшествующие периоды;
  • б) результаты исследования аналогичных объектов (жителей других населенных пунктов, предприятий других регионов и т. п.);
  • в) специально проведенное небольшое по объему выборочное обследование данного объекта, ставящее целью лишь изучение вариации наблюдаемых признаков.

При определении необходимого объема выборки для выявления границ генеральной доли задача оценки вариации решается значительно проще. Если дисперсия изучаемого альтернативного признака неизвестна, то можно использовать ее максимально возможное значение:


Например, предприятию связи с вероятностью 0,954 необходимо определить удельный вес телефонных разговоров продолжительностью менее 1 мин с предельной ошибкой 2%. Сколько разговоров нужно обследовать в порядке простого случайного повторного отбора для решения этой задачи?

Для получения ответа на поставленный вопрос воспользуемся формулой (2.6) и будем ориентироваться на максимально возможную дисперсию доли телефонных разговоров такой продолжительности. Расчет приводит к следующему результату:


Таким образом, обследованием должны быть охвачены не менее 2500 разговоров на предмет их продолжительности.

Необходимый объем простой случайной бесповторной выборки может быть определен по следующей формуле:


Укажем на одну особенность формулы (2.7). При проведении вычислений объем генеральной совокупности должен быть выражен только в единицах, а не в тысячах или миллионах единиц. Например, подставив в данную формулу общую численность населения региона, выраженную в тысячах человек, мы не получим правильное значение необходимой численности выборки, также выраженное в тысячах человек, как это иногда бывает в других расчетах. Результат вычислений будет неверен.

Некоторые финансовые показатели и индексы представляют собой выборочные статистики на основе случайных выборок данных. Рассмотрим метод извлечения простых случайных выборок данных, - в рамках изучения количественных методов по программе CFA.

Каждый день мы наблюдаем высокие, низкие и заключительные значения фондовых индексов по всему миру. Такие индексы, как S&P 500 и Nikkei-Dow Jones Average, представляют собой выборки акций. Хоть индексы S&P 500 и Nikkei и не включают всю генеральную совокупность американских или японских акций, мы рассматриваем их как надежные показатели поведения всей совокупности акций.

Как финансовые аналитики, мы привыкли использовать эту выборочную информацию, чтобы оценивать ситуацию на различных рынках со всего мира. Любые статистические данные, рассчитанные на основе выборочной информации, однако, являются лишь оценкой основных параметров генеральной совокупности.

Выборка, то есть подмножество совокупности, - это подмножество, анализируемое с целью сделать выводы о самой совокупности.

Это чтение посвящено изучению того, как мы делаем выборку и используем выборку для оценки параметров совокупности. Далее мы рассмотрим выборочный метод или семплирование - т.е. процесс получения выборки.

В инвестициях, мы постоянно используем среднее значение в качестве меры центральной тенденции случайных величин, таких как доходность и прибыль на акцию.

Даже тогда, когда распределение вероятностей случайной величины неизвестно, мы можем сделать вероятностные утверждения о среднем по совокупности с использованием центральной предельной теоремы. Далее, в этом чтении мы обсудим и проиллюстрируем эту концепцию.

Центральная предельная теорема и статистическая оценка лежат в основе методов, представленных в этом чтении. В инвестициях, мы применяем эти и другие статистические методы для анализа финансовых данных; мы часто интерпретируем результаты с целью сделать вывод о том, что работает и что не работает в инвестициях.

Мы закончим это чтение обсуждением интерпретации статистических результатов, основанных на финансовых данных и возможных ошибках в этом процессе.

Выборочный метод.

Далее мы рассмотрим различные методы получения информации о генеральной совокупности (все элементы рассматриваемой группы элементов) через выборки (части совокупности).

Информация о совокупности, которую мы стараемся получить, как правило, касается значения какого-либо параметра (англ. 'parameter'), величина которого вычисляется или используется для описания совокупности данных.

Когда мы используем выборку для оценки параметра, мы используем выборочные статистики (или просто статистики, для краткости).

Выборочная статистика (англ. 'sample statistic') - это величина, которая вычисляется на основе выборки данных или используется для описания выборки данных.

Мы делаем выборки по одной из двух причин:

  • В некоторых случаях, и нас нет возможности рассматривать каждый элемент совокупности.
  • В других случаях, рассмотрение каждого элемента совокупности экономически неэффективно.

Таким образом, экономия времени и денег - это два основных фактора, которые вынуждают финансового аналитика использовать выборку, чтобы ответить на вопрос о совокупности.

В этом разделе мы рассмотрим два метода извлечения случайной выборки (выборочный метод или семплирование, от англ. 'sampling'): простую случайную выборку и стратифицированную случайную выборку.

Затем мы определим и проиллюстрируем два типа данных, которые использует финансовый аналитик: перекрестные данные и временные ряды данных.

Простая случайная выборка.

Предположим, финансовый аналитик, занимающийся телекоммуникационной отраслью, хочет выяснить, сколько крупные клиенты потратят в среднем на телекоммуникационное оборудование в течение следующего года.

Одна из стратегий заключается в опросе всей совокупности клиентов, чтобы выяснить, каковы их планы закупок.

С точки зрения статистики, характеристики планируемых расходов всей совокупности клиентов, как правило, выражаются описательных мерами, такими как среднее значение и дисперсия. Опрос всех клиентов компании, однако, был бы очень дорогостоящим мероприятием с точки зрения времени и денег.

С другой стороны, аналитик может сделать репрезентативную выборку компаний и опросить эти компании о предстоящих расходах на телекоммуникационное оборудование. В этом случае аналитик будет вычислять статистику - выборочные средние расходы \(\overline X\). Эта стратегия имеет существенное преимущество по сравнению с опросом всей совокупности клиентов, потому что это можно сделать более быстро и с меньшими затратами.

Получение выборки, однако, вносит ошибку в статистику. Ошибка возникает потому, что опрашиваются не все компании в совокупности. Аналитик, который прибегает к выборке, выигрывает время и деньги за счет ошибки выборки.

Когда финансовый аналитик делает выборку, он должен составить план выборки. План выборки (англ. 'sampling plan') является набором правил, по которым делается выборка.

Основной тип выборки, позволяющий сделать статистически обоснованные выводы о совокупности, - это простая случайная выборка (или случайная выборка, для краткости).

Определение простой случайной выборки.

Простая случайная выборка (или случайная выборка, для краткости, англ. 'simple random sample') является подмножеством большей совокупности, извлеченным таким образом, что каждый элемент совокупности может быть включен в это подмножество с равной вероятностью.

Процедура извлечения выборки (англ. 'draw sample') из совокупности, соответствующая определению простой случайной выборки называется простым случайным выбором или отбором простой случайной выборки (англ. 'simple random sampling').

Как сделать простую случайную выборку?

Нам нужен метод, который гарантирует случайность, т.е. отсутствие какой-либо предопределенной схемы при извлечении выборки.

Для конечных или ограниченных совокупностей (англ. 'finite population'), наиболее распространенный способ получения случайной выборки предполагает использование случайных чисел (чисел с гарантированными свойствами случайности).

Во-первых, мы последовательно нумеруем элементы совокупности.

Например, если совокупность содержит 500 элементов, мы нумеруем их последовательно с трехзначными случайными числами, начиная с 001 и заканчивая 500.

Предположим, что нам нужна простая случайная выборка из 50 элементов.

В этом случае с помощью компьютерного генератора случайных чисел (см. CFA - Метод Монте-Карло) или таблицы случайных чисел, мы получаем серию трехзначных случайных чисел. Затем мы сопоставляем эти случайные числа с численными номерами элементов совокупности, пока не выберем из совокупности 50 элементов.

Иногда мы не можем пронумеровать (или даже определить) все элементы совокупности. В таких случаях, мы часто используем систематический отбор выборки.

Систематический отбор выборки или систематическая выборка (англ. 'systematic sampling') означает отбор каждого \(k\text\) элемента до тех пор, пока не будет отобрана выборка нужного размера.

Выборка, извлекаемая в результате этой процедуры, должна быть приблизительно случайной. Практические ситуации могут потребовать, чтобы мы использовали приблизительно случайную выборку (англ. 'approximately random sample').

Предположим, что финансовый аналитик опрашивает случайную выборку клиентов телекоммуникационной компании, чтобы определить их средние расходы на телекоммуникационное оборудование.

Выборочное среднее предоставит аналитику оценку средних расходов всей совокупности клиентов. Разница между выборочным средним значением и средним значением по совокупности называется ошибкой выборки.

Определение ошибки выборки.

Ошибка выборки, выборочная ошибка или ошибка отбора (англ. 'sampling error') представляет собой разницу между наблюдаемым значением статистики, и истинным значением статистики, которое должно получиться в результате оценки (т.е. значением по всей совокупности).

Случайная выборка отражает свойства совокупности непредвзятым образом, и выборочные статистики, такие как выборочное среднее, вычисленные на основе случайной выборки, являются надежными обоснованными оценками основных параметров всей совокупности.

Выборочная статистика является случайной величиной. Другими словами, распределение имеют не только исходные данные совокупности, но и выборочные статистики, полученные на основе совокупности.

Это распределение называется выборочным распределением статистики.

Определение выборочного распределения статистики.

Выборочное распределение статистики (англ. 'sampling distribution of a statistic') является распределением всех различных возможных значений, которые может принимать статистика, вычисляемая на основе выборок одного и того же размера, случайным образом извлеченных из той же совокупности.

Далее мы рассмотрим выборочные распределения более подробно. И также рассмотрим другой выборочный метод, полезный в инвестиционном анализе.

Для начала несколько определений: [1] выборка — часть генеральной совокупности, извлекаемая для анализа; генеральная совокупность — множество всех рассматриваемых объектов. Вместо того, чтобы изучать всю совокупность объектов, изучают выборку, а затем результаты, полученные на выборке, распространяют на всю совокупность. Выборочные исследования занимают меньше времени, они дешевле, проще и практичнее, чем полное исследование. Например, вместо осуществления полной переписи населения, статистические процедуры выборочного исследования концентрируют внимание на сборе информации о малой репрезентативной группе, взятой из большой генеральной совокупности. Выборка, полученная в результате этих процедур, содержит информацию, которую можно использовать для оценки свойств всей генеральной совокупности.

Процедура выбора начинается с определения основы, представляющей собой полное или частичное перечисление объектов, содержащихся в генеральной совокупности. Основой могут служить источники данных, например, списки населения, каталоги или карты. Затем из основы извлекаются выборки. Если основа является неадекватной, например, вследствие того, что лица или объекты, принадлежащие генеральной совокупности, выбраны неправильно, то выборки будут неточными и тенденциозными.

Существует два вида выборок: детерминированные и вероятностные (рис. 1).

Рис. 1. Разновидности выборок

Нерепрезентативные выборки обладают некоторыми преимуществами, в частности, их можно легко и быстро создавать, не расходуя больших средств. С другой стороны, у них есть два важных недостатка — низкая точность, являющаяся следствием тенденциозности, и ограниченность результатов. Преимущества детерминированных выборок не компенсируют их недостатки. Следовательно, детерминированные выборки следует применять лишь для грубых и недорогих оценок, предназначенных для удовлетворения любопытства, либо в качестве учебного или пилотного проекта, который подлежит дальнейшему уточнению.

Вероятностная выборка состоит из элементов, вероятность появления которых известна заранее. Вероятностные выборки следует применять всегда, когда это возможно, поскольку лишь они позволяют сделать корректные статистические выводы о генеральной совокупности. На практике получить истинно вероятностную выборку очень трудно или просто невозможно. Однако для создания вероятностной выборки необходимо следовать правилам и учитывать любую возможную тенденциозность. Существует четыре вида вероятностных выборок: простая случайная, систематическая, стратифицированная и кластер. Каждой из этих выборок соответствует свой метод выбора, который характеризуется собственной стоимостью, точностью и сложностью.

Простая случайная выборка

Вероятность выбора элементов простой случайной выборки из основы совпадает с вероятностью выбора любого другого элемента. Кроме того, вероятность извлечения из основной совокупности любых выборок фиксированного объема является постоянной для данного объема. Простой случайный выбор представляет собой элементарную процедуру, на основе которой создаются более сложные методы выбора.

В рамках простого случайного выбора символом n обычно обозначают объем выборки, а символом N – объем основы. Каждый элемент основы нумеруется числами от 1 до N. Вероятность выбрать любой конкретный элемент основы при первом извлечении равна 1/N. Существует два основных способа извлечения выборок: с возвращением и без него.

Выбор с возвращением означает, что выбранный элемент возвращается в основу, причем вероятность его повторного извлечения остается постоянной. Представьте себе урну, в которой находятся 100 визитных карточек. Допустим, что при выборе первого элемента мы извлекли визитную карточку Джуди Крэйвен. Отметим этот факт в своих записях и вернем карточку в урну. Перемешаем карточки, а затем извлечем из урны вторую визитку. При втором испытании вероятность извлечь визитную карточку Джуди Крэйвен остается равной 1/N. Процесс продолжается до тех пор, пока не будет достигнут желаемый объем выборки n. Однако часто более предпочтительным является способ, при котором выборки не содержат повторяющихся элементов.

Выбор без возвращения означает, что после извлечения элемент не возвращается в основу и, следовательно, не может быть выбран вновь. При первом извлечении элемента вероятность его выбора из основы равна 1/N. Однако, в отличие от выбора с возвращением, вероятность выбора элемента, не извлеченного при первом испытании, равна 1/(N–1). Процесс продолжается до тех пор, пока не будет достигнут желаемый объем выборки n. Независимо от схемы выбора (с возвращением или без), такой подход имеет один существенный недостаток — он зависит от тщательности перемешивания элементов и случайности их выбора. Поэтому метод урн считается не вполне приемлемым. Желательно применять более простой и научно обоснованный метод выбора элементов. Один из таких методов основан на таблице случайных чисел, состоящей из последовательности цифр, сгенерированных случайным образом.

Excel предоставляет, наверное, наиболее простой метод генерации случайных чисел. Для этих целей у него есть две функции: =СЛУЧМЕЖДУ(нижн_граница; верхн_граница) – возвращает случайное число между двумя заданными числами (рис. 2); =СЛЧИС() – возвращает равномерно распределенное случайное число большее или равное 0 и меньшее 1 (рис. 3). Надо заметить, что при каждом изменении на листе Excel случайные числа пересчитываются.

Рис. 2. Случайные числа в диапазоне от 1 до 100, сгенерированные в Excel с помощью функции СЛУЧМЕЖДУ

Рис. 3. Случайные числа в диапазоне от 0 до 1, сгенерированные в Excel с помощью функции СЛЧИС; показаны только четыре знака после запятой

Для того чтобы воспользоваться генератором случайных чисел, необходимо сначала присвоить элементам основы соответствующий числовой код. Например, некая компания оплачивает своим сотрудникам стоматологическую помощь и желает оценить свои затраты. Для этого необходимо извлечь из генеральной совокупности, состоящей из 800 постоянных сотрудников, случайную выборку, объем которой равен 32. Компания предполагает, что не каждый сотрудник захочет добровольно принять участие в опросе, поэтому завышает объем выборки, чтобы в случае отказа в ней осталось хотя бы 32 человека. Предполагая, что в опросе примут участие 8 сотрудников из каждых 10 (т.е. 80% персонала), можно утверждать, что для создания выборки, состоящей из 32 сотрудников, необходимо опросить как минимум 40. Следовательно, анкету следует распространить среди 40 сотрудников, произвольным образом выбирая их личные дела. Как организовать простой случайный выбор?

Расположите фамилии сотрудников по алфавиту, присвойте каждому номер от 1 до 800, выделите в Excel область, включающую 40 ячеек, в каждой из которых поместите формулу =СЛУЧМЕЖДУ(1;800). Раздайте анкету сотрудникам, под соответствующими номерами (рис. 4).


Рис. 4. Номера для выбора 40 сотрудников

Систематическая выборка

При формировании систематической выборки N элементов, образующих основу, разбиваются на k групп, имеющих объем n. Иначе говоря, k = N/n. Число k округляется до ближайшего целого числа. Чтобы получить систематическую выборку, ее первый элемент нужно случайным образом выбрать из первых k элементов первой группы, взятой из основы. Остальные элементы образуются путем выбора каждого k-гo элемента всей основы.

Если основа состоит из списка пронумерованных чеков, квитанций или счетов либо списка членов клуба, студентов и т.п., систематическую выборку легче и проще получить с помощью простого случайного выбора. В этих ситуациях систематическая выборка является удобным механизмом для получения желаемых данных.

Если систематическая выборка, состоящая из 40 элементов, должна быть образована из генеральной совокупности, в которую входят 800 сотрудников, основу необходимо разделить на 20 групп (800/40=20). Среди первых 20 кодов следует выбрать случайное число, а затем включить в выборку каждый 20-й элемент основы. Например, если в качестве первого случайного числа выбран код 008, следующими элементами должны стать сотрудники с номерами 028, 048, 068, 088, 108, …, 768и 788.

Несмотря на свою простоту, методы простого случайного и систематического выбора обычно менее эффективны, чем другие, более сложные методы получения вероятностных выборок. Это значит, что данные, полученные с помощью простого или систематического выбора, не всегда хорошо отражают свойства всей генеральной совокупности. Хотя метод простого выбора теоретически позволяет правильно оценить свойства генеральной совокупности, в каждом конкретном случае невозможно определить, является ли та или иная выборка репрезентативной.

Систематические выборки чаще бывают более неадекватными и нерепрезентативными, чем выборки, сформированные путем простого случайного выбора. Если в основе существует определенная структура, может возникнуть систематическая ошибка. Для решения потенциальной проблемы неадекватности специфических групп, входящих в выборку, применяется либо метод стратифицированного выбора либо метод кластерного выбора.

Стратифицированная выборка

При формировании стратифицированной выборки N элементов генеральной совокупности или основы разделяются на отдельные подмножества, или страты, обладающие общими свойствами. Затем к каждому подмножеству применяется простой случайный выбор, и его результаты объединяются в одно целое. Этот метод выбора более эффективен, чем методы простого или систематического выбора, поскольку он обеспечивает большую репрезентативность выборки. Точность оценки параметров генеральной совокупности гарантируется однородностью элементов, принадлежащих одному подмножеству.

Например, некая компания оплачивает своим сотрудникам стоматологическую помощь и желает оценить свои затраты. Для этого необходимо извлечь из генеральной совокупности, состоящей из 800 постоянных сотрудников, случайную выборку, включающую в себя 32 человека. Компания предполагает, что ответы дадут лишь 80% тех, кому выдадут анкеты, поэтому необходимо опросить как минимум 40 человек. Как извлечь стратифицированную выборку?

Основа представляет собой список имен и учетных номеров всех 800 сотрудников. Поскольку 25% постоянных сотрудников относится к управляющему персоналу, сначала необходимо разделить основу на две страты: подмножество, состоящее из 200 менеджеров, и подмножество, включающее в себя 600 остальных сотрудников. Поскольку первая страта состоит из 200 менеджеров, код каждого менеджера задается трехзначным числом от 001 до 200. Аналогично, поскольку вторая страта состоит из 600 сотрудников, каждому из них присваивается трехзначный код от 001 до 600.

Для того чтобы создать стратифицированную выборку, необходимо выбрать из первой страты 25% выборки, а остальные 75% извлечь из второй страты. Следовательно, достаточно дважды применить простой случайный выбор элементов из каждой страты, как описано выше. Возникнут две простые случайные выборки. Первая из них состоит из 10 сотрудников, извлеченных из первой страты, а вторая — из 30 сотрудников, принадлежащих второй страте. Выборка, полученная в результате этой процедуры, будет правильно отображать структуру компании.

Кластерная выборка

Для образования кластерной выборки основа, состоящая из N элементов, разбивается на несколько кластеров так, чтобы каждый кластер отражал свойства всей генеральной совокупности. Затем осуществляется простой случайный выбор кластеров, в которых изучаются все элементы. Кластеры естественным образом получаются при статистическом анализе округов, избирательных участков, городов, районов или семей.

Метод кластерного выбора может оказаться менее дорогостоящим, чем метод простого случайного выбора, особенно если генеральная совокупность распределена по широкому географическому региону. Однако метод кластерного анализа в целом менее эффективен, чем методы простого случайного и систематического выбора, и для получения более точной оценки свойств генеральной совокупности приходится значительно увеличивать объем выборки.

Контрольные задания

  1. Допустим, нам необходимо создать случайную выборку объема 1 из генеральной совокупности, состоящей из трех элементов (А, В и С). Правило формирования выборки таково: бросаем монету; если выпал орел, выбираем элемент А, если решка, бросаем монету еще раз. Если снова выпал орел, выбираем элемент В, в противном случае выбираем элемент С. Объясните, почему выборка, полученная таким образом, не является простой случайной выборкой (ответы ниже).
  2. Допустим, что 5000 счетов разделены на 4 подмножества. В первом подмножестве содержатся 50 счетов, во втором — 500, в третьем — 1000, в четвертом — 3450. Следует выбрать 500 счетов.
    1. Какой метод выбора следует предпочесть? Почему?
    2. Объясните, как использовать метод выбора, определенный в предыдущем пункте.
    3. Почему для решения задачи не годится простой случайный выбор?
    1. Создайте в Excel простую случайную выборку, состоящую из 50 счетов.
    2. Создайте в Excel систематическую выборку, состоящую из 50 счетов.

    Ответы на контрольные задания

    1. Вероятность выпадения орла при первом бросании – а вместе с ней и вероятность выбора элемента А – 50%. Соответственно вероятности выбора элементов В и С одинаковы и равны по 25% каждая. Таким образом, выборка одного элемента из А, В и С будет с вероятностью 50% включать А и с вероятностью 25% В или С. Такая выборка не является простой случайной выборкой по определению, так как вероятность выбора элементов простой случайной выборки из основы не совпадает с вероятностью выбора любого другого элемента.
      1. Следует предпочесть стратифицированную выборку, потому что генеральная совокупность является не однородной, а содержит несколько подгрупп.
      2. Всего счетов 5000; в выборке должно быть 500 счетов. Следовательно, в среднем нужно выбрать каждый 10-й счет: 5 из первого подмножества, 50 – из второго, 100 – из третьего, 345 – из четвертого.
      3. Простая случайная выборка будет менее репрезентативной, чем стратифицированная; в первую очередь перекос может затронуть маленькие подгруппы.

      Рис. 5. Простая случайная и систематическая выборки 50 счетов

      [1] Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2005. – с. 43–51

      Простая случайная выборка

      При проведении простой случайной выборки ( Simple Random Sampling — SRS ) каждый эле­мент совокупности имеет известную и равную вероятность отбора. Более того, каждая возмож­ная выборка данного объема ( n ) имеет известную и равную вероятность того, что она станет вы­борочной совокупностью. Это означает, что каждый элемент отбирается независимо от другога . Выборка формируется произвольным отбором элементов из основы выборки. Этот метод по­хож на розыгрыш лотереи, когда таблички с именами участников помещаются в барабан, кото­рый встряхивается, и из него произвольным образом извлекают отдельные таблички, в резуль­тате объективно определяются имена победителей.

      Простая случайная выборка ( Simple Random Sampling — SRS ) - Вероятностный метод выборки, согласно которому каждый элемент генеральной совокупно­сти имеет известную и равную вероятность отбора. Каждый элемент выбирается независимо от каждого другого элемента, и выборка формируется произвольным отбором элементов из основы выборки.

      При простой случайной выборке исследователь сначала формирует основу выборочного на­блюдения, в которой каждому элементу присваивается уникальный идентификационный но­мер. Затем генерируются случайные числа, чтобы определить номера элементов, которые будут включены в выборку. Эти случайные числа могут генерироваться компьютерной программой.

      Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информа­ции с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения. Во-первых, часто сложно создать основу выборочног o наблюдения, которая позволила бы провести простую случайную выборку.

      Во-вторых, результатом применения простой случайной выборки может стать большая совокуп­ность, либо совокупность, распределенная по большой географической территории, что значи­тельно увеличивает время и стоимость сбора данных. В-третьих, результаты применения про­стой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов. В-четвертых, в результа­те применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полу­ченные простым случайным отбором, в среднем адекватно представляют генеральную сово­купность, некоторые из них крайне некорректно представляют изучаемую совокупность. Веро­ятность этого особенно велика при небольшом объеме выборки. Простая случайная выборка не часто используется в маркетинговых исследованиях. Более популярен метод систематической выборки.

      Систематическая выборка

      При проведении систематической выборки ( systematic sampling ) сначала задают произ­вольную отправную точку, а затем из основы выборочного наблюдения последовательно вы­бирают каждый i -и элемент. Интервал выборки i определяется как отношение объема сово­купности N к объему выборки п , с округлением результата до ближайшего целого числа. На­пример, совокупность состоит из 100 тысяч элементов, а желательный объем выборки равен тысяче респондентов. В этом случае интервал выборки i равен 100. Выбирается случайное число между 1 и 100. Если, например, это число равно 23, то выборка состоит из элементов 23, 123, 223, 323, 423, 523 и т.д.

      Систематическая выборка ( systematic sampling ) - Вероятностный метод выборки, в соответствии с которым сначала задают произвольную от­правную точку, а затем из основы выборочного наблюдения последовательно выбирают каждый i-й элемент.

      Обшей чертой систематической выборки и простой случайной выборки является то, что каждый элемент генеральной совокупности имеет известную и равную вероятность выбора. Систематическая выборка отличается от SRS тем, что только допустимые выборки объема п , которые можно получить из генеральной совокупности, имеют известную и равную вероят­ность выбора. Остальные выборки объема п имеют нулевую вероятность выбора.

      При систематической выборке исследователь предполагает, что элементы совокупности расположены в определенном порядке. В некоторых случаях принцип сортировки (например, алфавитный перечень в телефонной книге) не имеет отношения к исследуемой характеристи­ке. В других случаях сортировка непосредственно связана с исследуемой характеристикой. На­пример, имена владельцев кредитных карточек приводятся с учетом суммы их баланса, а на­звания фирм определенной отрасли располагаются согласно годовому объему их продаж. Если элементы совокупности расположены по принципу, не связанному с исследуемой характери­стикой, результаты систематической выборки аналогичны результатам SRS .

      С другой стороны, если принцип расположения элементов связан с исследуемой характери­стикой, систематический отбор увеличивает репрезентативность выборки. Если фирмы какой-либо отрасли расположены по принципу увеличения годового объема продаж, систематическая выборка будет включать как мелкие, так и крупные фирмы. Простая случайная выборка в дан­ном случае может быть нерепрезентативной, включая, например, только мелкие фирмы или непропорциональное число мелких фирм. Если расположение элементов выборки носит цик­лический характер, систематическим методом можно уменьшать представительность выборки. В качестве примера рассмотрим применение систематического отбора для формирования вы­борки ежемесячных объемов продаж универмага из основы, содержащей ежемесячные объемы продаж за последние 60 лет. Если задать выборочный интервал, равный 12, то конечная выбор­ка не будет отражать ежемесячные изменения в объемах продаж.

      Систематическая выборка дешевле и проще, чем простая случайная, поскольку случайный отбор осуществляется только один раз. Кроме того, случайные числа не должны соответствовать определенным элементам, как в SRS . Учитывая, что некоторые перечни содержат миллионы элементов, использование этого метода значительно экономит время, что, в свою очередь, спо­собствует снижению затрат, связанных с исследованием. Если совокупность обладает инфор­мацией об исследуемой характеристике, систематический отбор дает возможность получить бо­лее репрезентативную и достоверную (с меньшей ошибкой выборки) выборку, чем метод SRS . Еще одно важное преимущество: систематический отбор можно применять даже не зная струк­туру основы выборочного наблюдения. Например, можно опросить каждого i -го человека, по­кидающего универмаг или торговый центр. Поэтому систематический отбор часто применяет­ся при проведении почтовых и телефонных опросов, а также интервью-"перехватов" в торго­вых центрах.

      Стратифицированная выборка

      Стратифицированная, или расслоенная, выборка ( stratified sampling ) — это процесс, состоя­щий из двух этапов, в котором совокупность делится на подгруппы (слои, страты, strata ). Слои должны взаимно исключать и взаимно дополнять один другого, чтобы каждый элемент сово­купности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется ме­тод простой случайной выборки. Формально, выбор элементов из каждого слоя может осущест­вляться только с помощью SRS . Однако на практике иногда применяется систематический от­бор и другие вероятностные выборочные методы. Отличие стратифицированной выборки от квотной состоит в том, что элементы в ней выбираются скорее случайно, а не из удобства или на основании мнения исследователя. Главная задача стратифицированной выборки — увели­чение точности без увеличения затрат.

      Стратифицированная, расслоенная выборка ( stratified sampling ) - Двухэтапный метод вероятностной выборки, согласно которому генеральная совокупность сначала делится на подгруппы или слои (страты). Затем элементы случайным образом вы­бираются из каждого слоя.

      Переменные, используемые для деления совокупности на слои, называются стратифика­ционными переменными. Критерии для их выбора: однородность, неоднородность, взаимосвя­занность и стоимость. Элементы, относящиеся к одному слою, должны быть как можно более однородными, а относящиеся к разным слоям — наоборот, как можно более разнородными. Кроме того, стратификационные переменные должны быть тесно связаны с исследуемой характеристикой. Чем больше переменные соответствуют этим критериям, тем эффективнее уменьшение нежелательных отклонений в выборке. В конце концов, переменные должны снижать стоимость процесса расслоения, будучи простыми в оценке и применении. Как правило, для стратификации используют такие переменные, как демографические характеристики (как показано на примере квотной выборки), разновидность покупателя (владельцы кредитной карточки или те, кто ее не имеет), величина фирмы или отрасль промышленности. Для стра­тификации можно использовать несколько переменных, однако больше двух применяют ред­ко, поскольку это непрактично и экономически неоправданно. Несмотря на то, что количество слоев в расслоенной выборке остается предметом спора, опыт показывает, что использовать нужно не больше шести. При использовании больше шести слоев любое повышение точности сводится на нет увеличением стоимости расслоения и отбора.

      Другое важное решение связано с использованием пропорциональной или непропорцио­нальной выборки (см. рис. 11.2). При пропорциональном стратификационном отборе объем выборки, полученной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности. При непропорциональном стратификационном отборе объем выборки, полу­ченной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности и среднеквадратичному отклонению распределения исследуемой характеристики среди всех элементов этого слоя. Логика непропорциональной выборки проста. Во-первых, слои относи­тельно большего размера больше влияют на определение средней для генеральной совокупно­сти. Следовательно, эти слои больше влияют на формирование результатов выборочного на­блюдения. Таким образом, слои должны быть представлены большим количеством элементов. Во-вторых, для повышения точности оценки следует отбирать больше элементов из слоев с большим среднеквадратичным отклонением, и меньше элементов — из слоев с меньшим сред­неквадратичным отклонением. (Если все элементы слоя идентичны, выборка, состоящая из одного элемента, обеспечит получение полной информации.) Обратите внимание, что эти ме­тоды идентичны при условии, что исследуемая характеристика имеет одно и то же среднеквад­ратичное отклонение в каждом слое.

      При применении непропорционального отбора необходимо рассчитать среднеквадратичное отклонение распределения исследуемой характеристики среди элементов слоя. Поскольку эта информация не всегда доступна, исследователю часто приходится полагаться на интуицию и логику, определяя объем выборки для каждого слоя. Например, в крупных розничных магази­нах можно ожидать большего отклонения в объемах продаж некоторых продуктов, чем в не­больших магазинах. Поэтому крупные магазины представлены в выборке непропорционально большим количеством элементов. Когда исследователя в первую очередь интересует выявление различий между слоями, обычно создают одинаковые по объему выборки из каждого слоя.

      Стратификационный метод обеспечивает наличие в выборке всех важных подгрупп. Это особенно важно, если исследуемая характеристика неравномерно распределена среди элементов генеральной совокупности. Например, распределение дохода семей неравномерно, так как годовой доход большинства семей составляет меньше 50 тысяч долларов, и лишь немногие се­мьи имеют годовой доход, равный 125 тысяч долларов и выше. Если применить простую слу­чайную выборку, семьи с доходом 125 тысяч долларов и выше могут не быть адекватно пред­ставлены. Стратифицированная выборка позволяет обеспечить соответствующее количество таких семей в выборке. Она сочетает в себе простоту метода SRS с возможностью повышения точности. Поэтому данный метод формирования выборки весьма популярен.

      Кластерная выборка

      В кластерной выборке ( cluster sampling ) изучаемая совокупность сначала делится на взаимо­исключающие и взаимодополняющие подгруппы, или кластеры ( clusters ). Затем с помощью ве­роятностного метода выборки, такого как SRS , формируется случайная выборка кластеров. В выборку включаются либо все элементы отобранного кластера, либо проводится их отбор веро­ятностным методом. Если в выборку включаются все элементы каждого отобранного кластера, то такая процедура называется одноступенчатой кластерной выборкой. Если выборка получена с помощью вероятностного отбора из каждого выбранного кластера, такая процедура называет­ся двухступенчатой кластерной выборкой. Как показано на рис. 11.3, существуют два вида двухступенчатой кластерной выборки — простая двухступенчатая кластерная выборка с ис­пользованием SRS и вероятностная выборка, пропорциональная объему ( PPS ). Кроме того, кластерная выборка может состоять из нескольких (больше двух) этапов, выступая как много­ступенчатая кластерная выборка.

      Кластерная выборка ( cluster sampling ) - Сначала изучаемая совокупность делится на взаимоисключающие и взаимодополняющие подгруппы, называемые кластерами. Затем с помощью вероятностного метода выборки, та­кого как простая случайная выборка, отбираются кластеры. В выборку включаются либо все элементы отобранного кластера, либо проводится их отбор вероятностным методом.

      Основное различие между кластерной и стратифицированной выборкой состоит в том, что в первом случае используются только отобранные подгруппы (кластеры), в то время как в стратифицированной выборке все подгруппы (слои) используются для дальнейшего отбо­ра. Эти методы преследуют разные цели. Цель кластерной выборки — увеличить эффектив­ность выборки, уменьшив затраты на ее проведение. Цель стратифицированной выборки — увеличение точности. По однородности и неоднородности критерии формирования класте­ров прямо противоположны критериям формирования слоев. Элементы кластера должны быть максимально разнородны, а сами кластеры — как можно более однородными. В идеале каждый кластер должен представлять собой небольшую модель генеральной совокупности. При кластерной выборке основа выборочного наблюдения необходима только для кластеров, которые вошли в выборку.

      Распространенная форма кластерной выборки — территориальная выборка ( area sampling ), в которой кластеры состоят из географических территорий, таких как округа, жилые районы или кварталы. Если отбор основных элементов проводится в один этап (например, исследователь выбирает некоторые кварталы, а затем все семьи, живущие в этих кварталах, включаются в вы­борку), такой выборочный метод называется одноступенчатой территориальной выборкой. Ес­ли отбор основных элементов проводится в два (или больше) этапа (исследователь выбирает кварталы, а затем в каждом таком квартале отбирает семьи, которые будут включены в выбор­ку), такой метод называется двухступенчатой (или многоступенчатой) территориальной вы­боркой. Отличительная черта одноступенчатой территориальной выборки заключается в том, что все семьи из выбранных кварталов (или географических регионов) включаются в выборку.

      Читайте также: