Как сделать ковариационную матрицу

Обновлено: 05.05.2024

Анализ главных компонент – это метод понижения размерности Датасета (Dataset) , который преобразует больший набор переменных в меньший с минимальными потерями информативности.

Уменьшение количества переменных в наборе данных происходит в ущерб точности, но хитрость здесь заключается в том, чтобы потерять немного в точности, но обрести простоту. Поскольку меньшие наборы данных легче исследовать и визуализировать, анализ данных становится намного проще и быстрее для Алгоритмов (Algorithm) Машинного обучения (ML) .

Идея PCA проста: уменьшить количество переменных в наборе данных, сохранив при этом как можно больше информации.

Шаг первый. Стандартизация

Мы осуществляем Стандартизацию (Standartization) исходных переменных, чтобы каждая из них вносила равный вклад в анализ. Почему так важно выполнить стандартизацию до PCA? Метод очень чувствителен к Дисперсиям (Variance) исходных Признаков (Feature) . Если есть больши́е различия между диапазонами исходных переменных, те переменные с бо́льшими диапазонами будут преобладать над остальными (например, переменная, которая находится в диапазоне от 0 до 100, будет преобладать над переменной, которая находится в диапазоне от 0 до 1), что приведет к необъективным результатам. Преобразование данных в сопоставимые масштабы может предотвратить эту ситуацию.

Математически это можно сделать путем вычитания Среднего значения (Mean) из каждого значения и деления полученной разности на Стандартное отклонение (Standard Deviation) . После стандартизации все переменные будут преобразованы в исходные значения.

Шаг второй. Матрица ковариации

Цель этого шага – понять, как переменные отличаются от среднего по отношению друг к другу, или, другими словами, увидеть, есть ли между ними какая-либо связь. Порой переменные сильно коррелированы и содержат избыточную информацию, и чтобы идентифицировать эти взаимосвязи, мы вычисляем Ковариационную матрицу (Covariance Matrix).

Ковариационная матрица представляет собой симметричную матрицу размера p × p (где p – количество измерений), где в качестве ячеек пребывают коэффициенты ковариации, связанные со всеми возможными парами исходных переменных. Например, для трехмерного набора данных с 3 переменными x, y и z ковариационная матрица представляет собой следующее:

Поскольку ковариация переменной с самой собой – это ее дисперсия, на главной диагонали (от верхней левой ячейки к нижней правой), у нас фактически есть дисперсии каждой исходной переменной. А поскольку ковариация коммутативна (в ячейке XY значение равно YX), элементы матрицы симметричны относительно главной диагонали.

Что коэффициенты ковариации говорят нам о корреляциях между переменными? На самом деле, имеет значение знак ковариации. Если коэффициент – это:

положительное число, то две переменные прямо пропорциональны, то есть второй увеличивается или уменьшается вместе с первым.
отрицательное число, то переменные обратно пропорциональны, то есть второй увеличивается, когда первый уменьшается, и наоборот.

Теперь, когда мы знаем, что ковариационная матрица – это не более чем таблица, которая отображает корреляции между всеми возможными парами переменных, давайте перейдем к следующему шагу.

Шаг третий. Вычисление собственных векторов

Собственные векторы (Eigenvector) и Собственные значения (Eigenvalues) – это понятия из области Линейной алгебры (Linear Algebra), которые нам нужно экстраполировать из ковариационной матрицы, чтобы определить так называемые главные компоненты данных. Давайте сначала поймем, что мы подразумеваем под этим термином.

Главная компонента – это новая переменная, смесь исходных. Эти комбинации выполняются таким образом, что новые переменные (то есть главные компоненты) не коррелированы, и большая часть информации в исходных переменных помещается в первых компонентах. Итак, идея состоит в том, что 10-мерный датасет дает нам 10 главных компонент, но PCA пытается поместить максимум возможной информации в первый, затем максимум оставшейся информации во второй и так далее, пока не появится что-то вроде того, что показано на графике ниже:

Такая организация информации в главных компонентах позволит нам уменьшить размерность без потери большого количества информации за счет отбрасывания компонент с низкой информативностью.

Здесь важно понимать, что главные компоненты менее интерпретируемы и не имеют никакого реального значения, поскольку они построены как линейные комбинации исходных переменных.

С геометрической точки зрения, главные компоненты представляют собой Векторы (Vector) данных, которые объясняют максимальное количество отклонений. Главные компоненты – новые оси, которые обеспечивают лучший угол для оценки данных, чтобы различия между наблюдениями были лучше видны.

Поскольку существует столько главных компонент, сколько переменных в наборе, главные компоненты строятся таким образом, что первый из них учитывает наибольшую возможную дисперсию в наборе данных. Например, предположим, что диаграмма рассеяния нашего набора данных выглядит так:

Можем ли мы проецировать первый главный компонент? Да, это линия, которая соответствует фиолетовым отметкам, потому что она проходит через начало координат, и проекции точек на компонент наиболее короткие. Говоря математически, это линия, которая максимизирует дисперсию (среднее квадратов расстояний от проецируемых красных точек до начала координат).

Второй главный компонент рассчитывается таким же образом, при условии, что он не коррелирован (т.е. перпендикулярен) первому главному компоненту и учитывает следующую по величине дисперсию. Это продолжается до тех пор, пока не будет вычислено p главных компонент, равное исходному количеству переменных.

Теперь, когда мы поняли, что подразумевается под главными компонентами, давайте вернемся к собственным векторам и собственным значениям. Прежде всего, нам нужно знать, что они всегда "ходят парами", то есть каждый собственный вектор имеет собственное значение. И их количество равно количеству измерений данных. Например, для 3-мерного набора данных есть 3 переменных, следовательно, есть 3 собственных вектора с 3 соответствующими собственными значениями.

За всей магией, описанной выше, стоят собственные векторы и собственные значения, потому что собственные векторы матрицы ковариации на самом деле являются направлениями осей, где наблюдается наибольшая дисперсия (большая часть информации) и которые мы называем главными компонентами. А собственные значения – это просто коэффициенты, прикрепленные к собственным векторам, которые дают величину дисперсии, переносимую в каждом основном компоненте.

Ранжируя собственные векторы в порядке от наибольшего к наименьшему, мы получаем главные компоненты в порядке значимости.

Шаг четвертый. Вектор признака

Как мы видели на предыдущем шаге, вычисляя собственные векторы и упорядочивая их по собственным значениям в в порядке убывания, мы можем ранжировать основные компоненты в порядке значимости. На этом этапе мы выбираем, оставить ли все эти компоненты или отбросить те, которые имеют меньшее значение, и сформировать с оставшимися матрицу векторов, которую мы называем Вектором признака (Feature Vector ) .

Итак, вектор признаков – это просто матрица, в столбцах которой есть собственные векторы компонент, которые мы решили оставить. Это первый шаг к уменьшению размерности, потому что, если мы решим оставить только p собственных векторов (компонент) из n, окончательный набор данных будет иметь только p измерений.

Шаг пятый. Трансформирование данных по осям главных компонент

На предыдущих шагах, помимо стандартизации, мы не вносили никаких изменений в данные, а просто выбирали основные компоненты и формировали вектор признаков, но исходной набор данных всегда остается.

PCA и Scikit-learn

PCA можно реализовать с помощью SkLearn. Для начала импортируем необходимые библиотеки:

Ковариацией $cov\left(X,\ Y\right)$ случайных величин $X$ и $Y$ называется математическое ожидание произведения случайных величин $X-M\left(X\right)$ и $Y-M\left(Y\right)$, то есть:

Бывает удобно вычислять ковариацию случайных величин $X$ и $Y$ по следующей формуле:

которая может быть получена из первой формулы, используя свойства математического ожидания. Перечислим основные свойства ковариации.

1. Ковариация случайной величины с самой собой есть ее дисперсия.

2. Ковариация симметрична.

$$cov\left(X,\ Y\right)=cov\left(Y,\ X\right).$$

3. Если случайные величины $X$ и $Y$ независимы, то:

4. Постоянный множитель можно выносить за знак ковариации.

$$cov\left(cX,\ Y\right)=cov\left(X,\ cY\right)=c\cdot cov\left(X,\ Y\right).$$

5. Ковариация не изменится, если к одной из случайных величин (или двум сразу) прибавить постоянную величину:

$$cov\left(X+c,\ Y\right)=cov\left(X,\ Y+c\right)=cov\left(X+x,\ Y+c\right)=cov\left(X,\ Y\right).$$

6. $cov\left(aX+b,\ cY+d\right)=ac\cdot cov\left(X,\ Y\right)$.

8. $\left|cov\left(X,\ Y\right)\right|=\sqrt\Leftrightarrow Y=aX+b$.

9. Дисперсия суммы (разности) случайных величин равна сумме их дисперсий плюс (минус) удвоенная ковариация этих случайных величин:

$$D\left(X\pm Y\right)=D\left(X\right)+D\left(Y\right)\pm 2cov\left(X,\ Y\right).$$

Пример 1. Дана корреляционная таблица случайного вектора $\left(X,\ Y\right)$. Вычислить ковариацию $cov\left(X,\ Y\right)$.

$\begin<|c|c|>
\hline
X\backslash Y & -6 & 0 & 3 \\
\hline
-2 & 0,1 & 0 & 0,2 \\
\hline
0 & 0,05 & p_ & 0 \\
\hline
1 & 0 & 0,2 & 0,05 \\
\hline
7 & 0,1 & 0 & 0,1 \\
\hline
\end$

События $\left(X=x_i,\ Y=y_j\right)$ образуют полную группу событий, поэтому сумма всех вероятностей $p_$, указанных в таблице, должна быть равна 1. Тогда $0,1+0+0,2+0,05+p_+0+0+0,2+0,05+0,1+0+0,1=1$, отсюда $p_=0,2$.

$\begin<|c|c|>
\hline
X\backslash Y & -6 & 0 & 3 \\
\hline
-2 & 0,1 & 0 & 0,2 \\
\hline
0 & 0,05 & 0,2 & 0 \\
\hline
1 & 0 & 0,2 & 0,05 \\
\hline
7 & 0,1 & 0 & 0,1 \\
\hline
\end$

Пользуясь формулой $p_ =\sum _p_ $, находим ряд распределения случайной величины $X$.

$\begin<|c|c|>
\hline
X & -2 & 0 & 1 & 7 \\
\hline
p_i & 0,3 & 0,25 & 0,25 & 0,2 \\
\hline
\end$

Пользуясь формулой $q_ =\sum _p_ $, находим ряд распределения случайной величины $Y$.

$$M\left(Y\right)=\sum^n_=-6\cdot 0,25+0\cdot 0,4+3\cdot 0,35=-0,45.$$

Поскольку $P\left(X=-2,\ Y=-6\right)=0,1\ne 0,3\cdot 0,25$, то случайные величины $X,\ Y$ являются зависимыми.

Определим ковариацию $cov\ \left(X,\ Y\right)$ случайных величин $X,\ Y$ по формуле $cov\left(X,\ Y\right)=M\left(XY\right)-M\left(X\right)M\left(Y\right)$. Математическое ожидание произведения случайных величин $X,\ Y$ равно:

$$M\left(XY\right)=\sum_x_iy_j>=0,1\cdot \left(-2\right)\cdot \left(-6\right)+0,2\cdot \left(-2\right)\cdot 3+0,05\cdot 1\cdot 3+0,1\cdot 7\cdot \left(-6\right)+0,1\cdot 7\cdot 3=-1,95.$$

Тогда $cov\left(X,\ Y\right)=M\left(XY\right)-M\left(X\right)M\left(Y\right)=-1,95-1,05\cdot \left(-0,45\right)=-1,4775.$ Если случайные величины независимы, то их ковариации равна нулю. В нашем случае $cov(X,Y)\ne 0$.

Коэффициентом корреляции случайных величин $X$ и $Y$ называется число:

Перечислим основные свойства коэффициента корреляции.

1. $\rho \left(X,\ X\right)=1$.

2. $\rho \left(X,\ Y\right)=\rho \left(Y,\ X\right)$.

3. $\rho \left(X,\ Y\right)=0$ для независимых случайных величин $X$ и $Y$.

5. $\left|\rho \left(X,\ Y\right)\right|\le 1$.

6. $\left|\rho \left(X,\ Y\right)\right|=1\Leftrightarrow Y=aX+b$.

Ранее было сказано, что коэффициент корреляции $\rho \left(X,\ Y\right)$ отражает степень линейной зависимости между двумя случайными величинами $X$ и $Y$.

При $\rho \left(X,\ Y\right)>0$ можно сделать вывод о том, что с ростом случайной величины $X$ случайная величина $Y$ имеет тенденцию к увеличению. Это называется положительной корреляционной зависимостью. Например, рост и вес человека связаны положительной корреляционной зависимостью.

Ковариационная матрица обладает многими интересными свойствами, и ее можно найти в моделях смесей, анализе компонентов, фильтрах Калмана и многом другом. Развитие интуиции о том, как работает ковариационная матрица, полезно для понимания ее практических последствий. Эта статья будет сосредоточена на нескольких важных свойствах, соответствующих доказательствах, а затем на некоторых интересных практических приложениях, то есть на моделях негауссовой смеси.

Я часто обнаруживал, что исследовательские работы не определяют формы матриц при написании формул. Я включил эту и другую важную информацию, чтобы помочь ученым-разработчикам кодировать свои собственные алгоритмы.

Субковариантные матрицы

Ковариационная матрица может быть разложена на множество уникальных (2x2) ковариационных матриц. Количество уникальных субковариационных матриц равно количеству элементов в нижней половине матрицы, исключая основную диагональ. Ковариационные матрицы (DxD) будут иметь уникальные субковариационные матрицы D * (D + 1) / 2-D. Например, трехмерная ковариационная матрица показана в уравнении (0).

Можно видеть, что каждый элемент в ковариационной матрице представлен ковариацией между каждой (i, j) размерной парой. Уравнение (1) показывает разложение (DxD) на несколько (2x2) ковариационных матриц. Для размерного случая (3x3) будут 3 * 4 / 2–3 или 3 уникальные субковариантные матрицы.

Обратите внимание, что генерация случайных субковариационных матриц может не привести к действительной ковариационной матрице. Ковариационная матрица должна быть положительной полуопределенной, и дисперсия для каждого диагонального элемента субковариантной матрицы должна совпадать с дисперсией по диагонали ковариационной матрицы.

Положительное Полуопределенное Свойство

Одним из свойств ковариационной матрицы является то, что она должна быть положительной полуопределенной матрицей. Что означает положительно определенное и почему ковариационная матрица всегда положительно полуопределена, заслуживает отдельной статьи. Короче говоря, матрица M является положительно-полуопределенной, если операция, показанная в уравнении (2), приводит к значениям, которые больше или равны нулю.

M - вещественная матрица DxD, а z - вектор Dx1. Примечание: результат этих операций приводит к скаляру 1x1.

Ковариационная матрица M может быть построена из данных с помощью следующей операции, где M = E [(x-mu) .T * (x-mu)]. Вставка M в уравнение (2) приводит к уравнению (3). Можно видеть, что любая матрица, которая может быть записана в виде M.T * M, является положительно-полуопределенной.Источник.

Обратите внимание, что ковариационная матрицаневсегда описывайте ковариацию между размерами набора данных. Например, ковариационная матрица может использоваться для описания формымногомерный нормальный кластер, используемые в гауссовых моделях смеси.

Геометрические последствия

Еще один способдумать оковариационная матрица геометрически. По сути, ковариационная матрица представляет направление и масштаб распространения данных. Чтобы понять эту перспективу, необходимо будет понять собственные значения и собственные векторы.

Уравнение (4) показывает определение собственного вектора и связанного с ним собственного значения. Следующее утверждение важно для понимания собственных векторов и собственных значений. Z является собственным вектором M, если умножение матрицы M * z приводит к одному и тому же вектору z, масштабированному по некоторому значению lambda. Другими словами, мы можем думать о матрице M как о матрице преобразования, которая делаетнеизменить направление z или z является базисным вектором матрицы M.

Лямбда - скаляр собственного значения (1x1), z - матрица собственного вектора (Dx1), а M - ковариационная матрица (DxD). Положительная полуопределенная (DxD) ковариационная матрица будет иметь D собственных значений и (DxD) собственных векторов. Первый собственный вектор всегда находится в направлении наибольшего разброса данных, все собственные векторы ортогональны друг другу, и все собственные векторы нормированы, т.е. они имеют значения между 0 и 1. Уравнение (5) показывает векторизованное соотношение между ковариационной матрицей, Собственные векторы и собственные значения.

S - матрица диагонального масштабирования (DxD), где диагональные значения соответствуют собственному значению и представляют дисперсию каждого собственного вектора. R - матрица вращения (DxD), которая представляет направление каждого собственного значения.

Матрицы собственных векторов и собственных значений представлены в уравнениях выше для уникальной (i, j) субковариантной матрицы. Собственные векторы субковариационной матрицы, показанные в уравнении (6), для каждого столбца имеют один параметр, тета, который управляет величиной поворота между каждой (i, j) размерной парой. Собственные значения ковариационной матрицы находятся по диагональным элементам уравнения (7) и представляют дисперсию каждого измерения. Он имеет D параметров, которые контролируют масштаб каждого собственного вектора

Преобразование ковариационной матрицы

Ковариационная матрица (2x2) может преобразовывать вектор (2x1), применяя связанную шкалу и матрицу вращения. Матрица шкалы должна быть применена перед матрицей вращения, как показано в уравнении (8).

Преобразование векторизованной ковариационной матрицы для матрицы (Nx2) X показано в уравнении (9). Матрица X должна центрироваться в (0,0), чтобы вектор вращался вокруг начала координат должным образом. Если эта матрица X не центрирована, точки данных не будут вращаться вокруг начала координат.

Пример ковариационного преобразования на матрице (Nx2) показан на рисунке 1. Более подробную информацию о том, как сгенерировать этот график, можно найтиВот.

Построение контуров гауссовой смеси

Контуры гауссовой смеси можно визуализировать в нескольких измерениях путем преобразования (2x2) единичного круга с помощью субковариантной матрицы. Контур с конкретным стандартным отклонением может быть нанесен путем умножения матрицы масштабирования на квадрат значения желаемого стандартного отклонения. Затем кластеры сдвигаются к соответствующим значениям центроидов. Код для генерации сюжета ниже можно найтиВот,

На рисунке 2. показано решение с 3-кластерной моделью гауссовой смеси, обученное на наборе данных радужной оболочки Контуры представляют плотность вероятности смеси при определенном стандартном отклонении от центроида. На рисунке 2. контуры построены для 1 стандартного отклонения и 2 стандартных отклонений от центроида каждого кластера.

Обнаружение выбросов

Гауссовы смеси имеют тенденцию раздвигать кластеры, поскольку наличие перекрывающихся распределений приведет к снижению показателя оптимизации, оценки максимального правдоподобия или MLE. Точка данных может по-прежнему иметь высокую вероятность принадлежности к многомерному нормальному кластеру, в то же время являясь выбросом в одном или нескольких измерениях. Относительно низкое значение вероятности представляет неопределенность точки данных, принадлежащей конкретному кластеру.

Кластеры равномерного распределения могут быть созданы так же, как и контуры, созданные в предыдущем разделе. Единичный квадрат с центром в (0,0) был преобразован субковариантной матрицей, а затем был сдвинут до определенного среднего значения.

Повернутые прямоугольники, показанные на рисунке 3., имеют длину, равную 1,58 квадратного корня от каждого собственного значения. Выбросы были определены как точки данных, которые сделалинележат полностью внутри гиперкуба кластера. Выбросы окрашены, чтобы помочь визуализировать точки данных, представляющие выбросы хотя бы в одном измерении. Есть много разных методов, которые можно использовать, чтобы определить, находятся ли точки данных в пределах выпуклого многоугольника. Определение того, находится ли точка данных внутри многоугольника, будет оставлено читателю в качестве упражнения.

Другим потенциальным вариантом использования модели однородного распределения может быть использование алгоритма в качестве классификатора плотности ядра. Среднее значение цели может быть найдено для точек данных внутри гиперкуба и может использоваться как вероятность того, что у кластера будет цель. Этот алгоритм позволил бы проанализировать анализ затрат и выгод независимо для каждого кластера.

Финальные заметки

Есть еще много интересных вариантов использования и свойств, не описанных в этой статье: 1) связь между ковариацией и корреляцией 2) нахождениеближайшая корреляционная матрица3) применения ковариационной матрицы в фильтрах Калмана, расстоянии Махаланобиса и анализе главных компонент 4) как рассчитать собственные векторы ковариационной матрицы и собственные значения 5) как оптимизируются модели гауссовой смеси.

Субковариантные матрицы

Положительное Полуопределенное Свойство

M - вещественная матрица DxD, а z - вектор Dx1. Примечание: результат этих операций приводит к скаляру 1x1.