Как сделать спектральный анализ матрицы

Добавил пользователь Morpheus
Обновлено: 05.10.2024

Собственное разложение матрицы (вывод + ручное вычисление + вычисление на Python + собственное разложение симметричной матрицы)

Каталог статей

2.1 Собственное разложение (спектральное разложение) => может использоваться только на квадратных матрицах

2.1.1 Принцип декомпозиции признаков

  • Математический смысл этой формы: Описывает матрицу A A A Парный вектор v v v Эффект преобразования - это только растяжение, без вращения. (потому как λ \lambda λ Это числовое значение)
  • В этот момент λ \lambda λ Вектор признаков v v v Соответствующее собственное значение

Согласно формуле (2-2) матрица может быть получена A A A Формула характеристического разложения:

  • МатрицаНабор векторов признаков V V V Это набор ортогональных векторов.
  • из их V V V Эта матрица A A A Матрица собственных векторов, Λ \Lambda Λ Это диагональная матрица, и каждый элемент на диагонали является собственным значением.

2.1.2 Рациональность декомпозиции признаков

Матрица и матрицаНесобственный векторУмножение - это преобразование вращения вектора; матрицы и матрицыВектор признаковУмножение - это масштабное преобразование вектора, где степень масштабирования зависит от размера значения признака.

Матрица имеет функцию усиления (или ослабления) собственного вектора в направлении, указанном собственным вектором. То есть, если матрица продолжает итерацию по вектору, тогда вектор признаков будет выделен и использовать python для вычисления:

  • Сначала приведем пример, предположим, что матрица A A A И вектор V V V :
    A = [ 4 1 1 1 2 1 3 2 3 ] A= \begin 4 & 1 & 1 \\ 1 & 2 & 1 \\ 3 & 2 & 3 \\ \end A = ⎣ ⎡ ​ 4 1 3 ​ 1 2 2 ​ 1 1 3 ​ ⎦ ⎤ ​
    V = [ − 1 5 3 ] V = \begin -1 \\ 5 \\ 3 \\ \end V = ⎣ ⎡ ​ − 1 5 3 ​ ⎦ ⎤ ​

python

Видно, что после непрерывного умножения на A преобразованный нормализованный вектор зависает около (0,33, 0,2, 0,46), что согласуется с нормализованным результатом для собственного вектора, соответствующего вычисленному максимальному собственному значению. Это также доказывает, что матрица имеет определенные постоянные характеристики. Итак, чтобы извлечь матрицуНеизменность", или для описания основного направления преобразования (матричный штраф - линейное преобразование) очень необходимо.

2.1.3 Расчет разложения признаков

Примечание: обратите внимание на ситуацию, когда собственные значения являются кратными корнями. . . .

(1) Ручной расчет

(2) расчет на питоне

python

Было обнаружено, что значение собственного вектора, вычисленное с помощью python, отличается от значения собственного вектора, вычисленного вручную, но соотношение такое же. Это связано с тем, что собственный вектор не является уникальным. Собственный вектор получается из решения системы однородных линейных уравнений, которая является базовой системой решения системы однородных линейных уравнений. Ненулевая линейная комбинация.

2.1.4 Собственное разложение симметричной матрицы (это свойство будет использоваться при выводе SVD позже)

Поскольку матрица A является симметричной матрицей, левая часть уравнения (2-8) может быть преобразована следующим образом:

СПЕКТРАЛЬНАЯ МАТРИЧНАЯ НОРМА / СПЕКТРАЛЬНЫЙ РАДИУС МАТРИЦЫ / ВЕЩЕСТВЕННАЯ СИММЕТРИЧЕСКАЯ МАТРИЦА / ДОМИНИРУЮЩЕЕ СОБСТВЕННОЕ ЗНАЧЕНИЕ / ЕВКЛИДОВА ВЕКТОРНАЯ НОРМА / SPECTRAL MATRIX NORM / SPECTRAL RADIUS OF MATRIX / REAL SYMMETRIC MATRIX / DOMINANT SELF-VALUE / EUCLIDEAN VECTOR NORM

Аннотация научной статьи по математике, автор научной работы — Фомин Василий Ильич

Рассматривается задача о локализации спектра матрицы; предлагаются некоторые оценки снизу спектрального радиуса вещественной симметрической матрицы , в силу которых можно указать двустороннюю оценку спектрального радиуса такой матрицы.

Похожие темы научных работ по математике , автор научной работы — Фомин Василий Ильич

ABOUT LOWER BOUNDS ON SPECTRAL RADIUS OF REAL SYMMETRIC MATRIX

The problem of localization of the spectrum of the matrix is considered; some lower bounds of the spectral radius of a real symmetric matrix by virtue of which can be specified a two-sided estimate of spectral radius of this matrix is offered.

О НИЖНИХ ОЦЕНКАХ СПЕКТРАЛЬНОГО РАДИУСА ВЕЩЕСТВЕННОЙ СИММЕТРИЧЕСКОЙ МАТРИЦЫ

Ключевые слова: спектральная матричная норма; спектральный радиус матрицы; вещественная симметрическая матрица; доминирующее собственное значение; евклидова векторная норма.

Рассматривается задача о локализации спектра матрицы; предлагаются некоторые оценки снизу спектрального радиуса вещественной симметрической матрицы, в силу которых можно указать двустороннюю оценку спектрального радиуса такой матрицы.

Дальнейшее развитие теории матриц, несмотря на ее кажущуюся завершенность, обусловлено следующими факторами: а) как известно из линейной алгебры [1], исследование произвольного линейного преобразования конечномерного линейного пространства над некоторым полем, в частности над полем вещественных или комплексных чисел, сводится к изучению свойств матрицы этого преобразования из кольца матриц над данным полем; б) матричный анализ плодотворно применяется в других областях математики, например, в теории дифференциальных уравнений при изучении устойчивости систем линейных дифференциальных уравнений используется матрица Гурвица [2], в теории случайных процессов при изучении цепей Маркова используется матрица переходных вероятностей [3]; в) матричный аппарат успешно применяется в различных приложениях, например, в теоретической и прикладной экономике при построении межотраслевой модели Леонтьева используется матрица расходных коэффициентов [4], при решении задач оптимизации используется матрица Гессе [5].

При исследовании структуры линейного преобразования и-мерного линейного пространства важную роль имеет информация о спектре ст(А) матрицы А этого преобразования, т. е. о множестве корней ее характеристического уравнения | А — X11 = 0 , которое представляет собой алгебраическое уравнение и-й степени относительно X . Однако корни такого уравнения находятся легко лишь в случае и = 2 и некоторых частных случаях при и > 3 . При и = 3 , и = 4 известны формулы для нахождения корней [6], однако эти формулы настолько громоздки, что их применение затруднительно. Более того, Абель доказал, что при и > 5 не существует формул, выражающих корни алгебраического уравнения и-й степени через его коэффициенты [6]. Поэтому информацию о спектре ст(А) приходится получать окольными путями. Например, записывают коэффициенты характеристического многочлена | А — X11 через суммы главных ми-

норов матрицы А [7], а затем используют формулы Вьета, связывающие корни многочлена с его коэффициентами [6], и проводят анализ полученных соотношений. Другой подход - это локализация спектра ст(А) . Такую локализацию спектра произвольной квадратной матрицы с комплексными элементами можно осуществить, например, с помощью кругов Гершгорина [7]. Приемлемые верхние оценки спектрального радиуса р(А) матрицы А можно получать с помощью известного неравенства р(А) 0,

р(А) = X* . В работе [9] этот результат доказан для позитивных матриц, которые допускают наличие отрицательных элементов. Нижние оценки для доминирующего собственного значения X* получены в работе [10]. Для нормальных матриц аналогичный результат получен в работе [11].

В данной работе указываются некоторые оценки снизу спектрального радиуса вещественной симметрической матрицы.

Пусть С - поле комплексных чисел, Сп - комплексное п-мерное арифметическое пространство векторов х = (х>-), || • ||е - евклидова норма в Сп ,

Спхп - полное кольцо матриц А = (а^) порядка п

над полем С, || • ||х - спектральная норма в Спхп ,

/ ч ^ (Г* пхп (ГЛ пхп

р(-) - спектральный радиус на С , См - мно-

множество всех вещественных векторов из сп, - скалярное произведение в Мп , М^ - множество всех вещественных симметрических матриц из

Разработчик ПО (системы PDM/PLM) с 1993 года, компания "ИНТЕРМЕХ" (www.intermech.ru). В 2020-м успешно закончил курсы "Основы Data Science" (минская IT Academy) Референт-переводчик технической литературы с английского языка.

Математика по праву считается царицей наук, без которой немыслимы все современные компьютерные дисциплины. Рассказываем о самых популярных приложениях линейной алгебры в машинном обучении.

∀ Как линейная алгебра используется в машинном обучении?

Далеко не каждый курс линейной алгебры, даже на математических факультетах, рассматривает все ее приложения в машинном обучении. (То же самое можно сказать и о статистике, которая также является одной из основ Data Science и машинного обучения). Это обусловливает необходимость специальных курсов математики для Data Science.

Основы

Линейная алгебра работает с векторами и матрицами – а точнее, с их линейными комбинациями, также являющимися векторами и матрицами. Математически вектор можно представить набором действительных чисел:

Такой набор может представлять очень разные сущности: например, геометрический вектор в некоторой системе координат (при этом числа ai умножаются на векторы базиса), полином (числа ai умножаются на x i ) и вообще любую линейную комбинацию каких-либо элементов. Матрица – это такой же набор действительных чисел, но организованный в виде прямоугольника. Матрицу тоже можно представить в виде длинного вектора, если поставить ее столбцы друг на друга.

Q = ∥ a 11 a 12 . . . a 1 n a 21 a 22 . . . a 2 n . . . . . . . . . . . . a m 1 a m 2 . . . a m n ∥ ∈ R m ∗ n

Что в машинном обучении можно представить в виде векторов и матриц? Практически всё! Например, одна строка из набора данных – это вектор, каждый элемент которого представляет значение некоторого признака. Весь тренировочный набор данных (или, в случае нейронной сети, один batch из этого набора) – это матрица. Изображение, которое будет распознавать сверточная нейронная сеть – тоже матрица чисел, соответствующих отдельным пикселям. Градиент функции потерь – это вектор, и так далее.

Произведение векторов, умножение матрицы на вектор и произведение матриц – все это используется в машинном обучении. Например, модель линейной регрессии с вектором весов w и вектором признаков x можно записать в виде произведения векторов, если добавить в вектор признаков x[0] = 1:

M w ( x ) = w [ 0 ] + w [ 1 ] × x [ 1 ] + w [ 2 ] × x [ 2 ] + . . . + w [ m ] × x [ m ] = w [ 0 ] + ∑ j = 1 m w [ j ] × x [ j ] = w ¯ ⋅ x ¯

Поскольку результат линейной регрессии – произведение векторов, произведение матрицы тренировочного набора данных на вектор весов дает вектор предсказаний модели. Если вычесть из него вектор истинных значений, получится вектор ошибок, который можно передать в функцию потерь.

В качестве примера перемножения матриц представим, что у нас есть набор изображений для обучения сверточной нейронной сети, и мы хотим дополнить этот набор поворотами этих изображений, чтобы сеть могла распознавать изображения независимо от их наклона. Поворот изображения – это частный случай умножения матрицы векторов координат на матрицу трансформации, которую также изучает линейная алгебра. Матрица трансформации для поворота координат на угол theta выглядит так:

Поворот исходного изображения (Original) на 112.5 градусов

Поворот исходного изображения (Original) на 112.5 градусов

Измерения

Норма вектора – это термин линейной алгебры, определяющий длину вектора и расстояние между векторами (как длину разности между ними). Существуют нормы различных порядков, но обычно используются только первые два:

1 (слева) и L2 (справа)" data-src="https://media.proglib.io/posts/2021/02/15/4dfbcd30969d06df5e3f5029a96b37ad.jpg" > Геометрическое место точек, у которых норма равна единице: L1 (слева) и L2 (справа)

Норма L2(x-y) – это расстояние между векторами x и y. Обе нормы используются в машинном обучении для регуляризации функции потерь: лассо-регуляризация использует L1, регуляризация Тихонова – L2, а эластичная сеть – и ту, и другую.

Косинус угла между двумя векторами x и y линейная алгебра определяет так:

Эта формула – самый популярный метод оценки сходства двух векторов. Если косинус угла близок к единице, то угол между векторами минимален, то есть векторы направлены почти одинаково. Если он близок к минус единице, векторы направлены почти противоположно. Наконец, если косинус близок к нулю, то векторы перпендикулярны (ортогональны), то есть, совершенно не зависят друг от друга.

Измерение меры сходства используется в машинном обучении очень широко – например, рекомендательные системы часто измеряют сходство векторов пользователей по их предпочтениям, и на основании этого сходства принимается решение, что похожим пользователям можно рекомендовать продукты, которые уже понравились одному из них.

Разумеется, оценка сходства широко применяется и в моделях кластеризации – например, метод k-Nearest Neighbors размечает кластеры именно по степени сходства элементов друг с другом.

Сингулярное разложение матриц (SVD)

Квадратная матрица называется ортогональной, если все ее столбцы ортонормальны – норма каждого из них равна единице, и все они попарно ортогональны, то есть образуют ортонормальный базис. Ортогональные матрицы обладают следующими свойствами:

Сингулярное разложение матрицы вводится следующей теоремой линейной алгебры: любую невырожденную прямоугольную матрицу A m*n можно представить в виде произведения трех матриц U m*m , E m*n и V n*n , где U и V – ортогональные матрицы, а E – прямоугольная матрица, в которой все элементы, кроме диагональных, равны нулю.

∀ Как линейная алгебра используется в машинном обучении?

Сингулярное разложение широко используется в рекомендательных системах. Оно позволяет найти базисы пространства строк и пространства столбцов, то есть элементарные признаки обоих пространств. Например, если строки матрицы соответствуют читателям, столбцы – книгам, а сама матрица содержит оценки, которые пользователи поставили книгам, то сингулярное разложение матрицы выделит "типичных читателей" и "типичные книги". Каждого реального читателя и каждую реальную книгу можно представить линейной комбинацией "типичных", после чего будет достаточно легко рассчитать ожидаемую оценку любой книги любым читателем.

Методов, позволяющих современным компьютерам обрабатывать огромные разреженные матрицы пользовательских оценок за приемлемое время, очень мало, так что сингулярное разложение матриц применяется очень широко.

Метод главных компонент (PCA)

Метод главных компонент – один из основных методов сокращения размерности данных, используемых в машинном обучении. Сокращение размерности применяется как при анализе данных, чтобы найти наиболее важные переменные и сконструировать новые признаки на их основе, так и при моделировании, если количество признаков очень велико, и большинство из них слабо влияют на результат. Метод главных компонент находит такую проекцию данных на пространство меньшей размерности, которая максимально сохраняет дисперсию данных.

PCA находит проекцию данных (синие точки) на пространство меньшей размерности (линию)

PCA находит проекцию данных (синие точки) на пространство меньшей размерности (линию)

Продемонстрируем работу метода главных компонент на примере двухмерного набора данных, который мы будем проецировать на одномерное подпространство (линию). Метод состоит из нескольких шагов:

  1. Вычитаем среднее значение, чтобы набор данных имел среднее значение 0. Это сокращает риск возникновения числовых проблем.
  2. Стандартизируем. Делим элементы данных на стандартное отклонение sigmad по каждому измерению d. Теперь данные не имеют единиц измерения, а их дисперсия по каждой оси равна 1, что отмечено на рис. в) голубыми стрелками.
  3. Выполняем спектральное разложение матрицы ковариации. Вычисляем матрицу ковариации данных, ее собственные векторы и собственные значения. На рис. г) собственные векторы масштабированы соответствующими собственными значениями (голубые стрелки), и более длинный вектор соответствует подпространству главных компонент. Матрица ковариации данных изображена в виде эллипса.
  4. Проецируем данные в подпространство. Рисунок е) показывает итоговую проекцию, перенесенную в исходное пространство данных.

Из описания метода главных компонент видно, что в нем используются понятия не только линейной алгебры, но и статистики (среднее значение, дисперсия, отклонение, матрица ковариации). Тем не менее, основные операции выполняются методами линейной алгебры , ведь именно она описывает проекции из одного пространства в другое, собственные векторы и собственные значения, а также спектральное разложение матриц.

Метод опорных векторов (SVM)

Один из основных методов построения моделей машинного обучения – это метод опорных векторов (Support Vector Machine). Этот метод основан на построении гиперплоскости, максимально разделяющей объекты разных классов – то есть, обеспечивающей максимальное расстояние между граничными точками. Мы не будем вдаваться в детали его реализации, поскольку они достаточно сложны и выходят за рамки нашей статьи. Метод очень подробно, с примерами кода и анимацией, описан в статье на Хабре, откуда взята следующая иллюстрация:

Иллюстрация метода опорных векторов (опорные векторы отмечены красным цветом)

Иллюстрация метода опорных векторов (опорные векторы отмечены красным цветом)

Метод опорных векторов широко используется для задач бинарной классификации, а также сегментации изображений и многих других задач. Существует множество различных вариаций этого метода, причем он позволяет задать спрямляющее ядро, при правильном выборе которого результирующая модель зачастую оказывается более точной, чем модели на основе нейронных сетей – однако это ядро невозможно подобрать автоматически, так что его выбор представляет собой искусство Data Scientist'а. Метод хорошо работает с данными небольшого объема и с данными, имеющими большое количество признаков.

Для нас главное – то, что векторы и гиперплоскости относятся к линейной алгебре, как и весь метод в целом, и для его успешного применения, а также для правильной интерпретации его результатов, хорошее знание линейной алгебры просто необходимо.

Заключение

Мы рассмотрели только самые важные и очевидные приложения линейной алгебры в машинном обучении, но из приведенных примеров понятно, насколько широко она применяется, и насколько глубоко требуется ее знать для уверенного понимания хотя бы основных методов. Разумеется, для реальной работы в области машинного обучения придется изучить намного больше, чем описано в этой статье (предыдущая публикация была посвящена приложениям математического анализа, а в следующей речь пойдет о теории вероятностей и статистике – прим. ред.).

Надеюсь, что вы по-настоящему любите математику, или, по крайней мере, она вас не пугает.

СПЕКТРАЛЬНАЯ МАТРИЧНАЯ НОРМА / СПЕКТРАЛЬНЫЙ РАДИУС МАТРИЦЫ / ВЕЩЕСТВЕННАЯ СИММЕТРИЧЕСКАЯ МАТРИЦА / ДОМИНИРУЮЩЕЕ СОБСТВЕННОЕ ЗНАЧЕНИЕ / ЕВКЛИДОВА ВЕКТОРНАЯ НОРМА / SPECTRAL MATRIX NORM / SPECTRAL RADIUS OF MATRIX / REAL SYMMETRIC MATRIX / DOMINANT SELF-VALUE / EUCLIDEAN VECTOR NORM

Аннотация научной статьи по математике, автор научной работы — Фомин Василий Ильич

Рассматривается задача о локализации спектра матрицы; предлагаются некоторые оценки снизу спектрального радиуса вещественной симметрической матрицы , в силу которых можно указать двустороннюю оценку спектрального радиуса такой матрицы.

Похожие темы научных работ по математике , автор научной работы — Фомин Василий Ильич

ABOUT LOWER BOUNDS ON SPECTRAL RADIUS OF REAL SYMMETRIC MATRIX

The problem of localization of the spectrum of the matrix is considered; some lower bounds of the spectral radius of a real symmetric matrix by virtue of which can be specified a two-sided estimate of spectral radius of this matrix is offered.

О НИЖНИХ ОЦЕНКАХ СПЕКТРАЛЬНОГО РАДИУСА ВЕЩЕСТВЕННОЙ СИММЕТРИЧЕСКОЙ МАТРИЦЫ

Ключевые слова: спектральная матричная норма; спектральный радиус матрицы; вещественная симметрическая матрица; доминирующее собственное значение; евклидова векторная норма.

Рассматривается задача о локализации спектра матрицы; предлагаются некоторые оценки снизу спектрального радиуса вещественной симметрической матрицы, в силу которых можно указать двустороннюю оценку спектрального радиуса такой матрицы.

Дальнейшее развитие теории матриц, несмотря на ее кажущуюся завершенность, обусловлено следующими факторами: а) как известно из линейной алгебры [1], исследование произвольного линейного преобразования конечномерного линейного пространства над некоторым полем, в частности над полем вещественных или комплексных чисел, сводится к изучению свойств матрицы этого преобразования из кольца матриц над данным полем; б) матричный анализ плодотворно применяется в других областях математики, например, в теории дифференциальных уравнений при изучении устойчивости систем линейных дифференциальных уравнений используется матрица Гурвица [2], в теории случайных процессов при изучении цепей Маркова используется матрица переходных вероятностей [3]; в) матричный аппарат успешно применяется в различных приложениях, например, в теоретической и прикладной экономике при построении межотраслевой модели Леонтьева используется матрица расходных коэффициентов [4], при решении задач оптимизации используется матрица Гессе [5].

При исследовании структуры линейного преобразования и-мерного линейного пространства важную роль имеет информация о спектре ст(А) матрицы А этого преобразования, т. е. о множестве корней ее характеристического уравнения | А — X11 = 0 , которое представляет собой алгебраическое уравнение и-й степени относительно X . Однако корни такого уравнения находятся легко лишь в случае и = 2 и некоторых частных случаях при и > 3 . При и = 3 , и = 4 известны формулы для нахождения корней [6], однако эти формулы настолько громоздки, что их применение затруднительно. Более того, Абель доказал, что при и > 5 не существует формул, выражающих корни алгебраического уравнения и-й степени через его коэффициенты [6]. Поэтому информацию о спектре ст(А) приходится получать окольными путями. Например, записывают коэффициенты характеристического многочлена | А — X11 через суммы главных ми-

норов матрицы А [7], а затем используют формулы Вьета, связывающие корни многочлена с его коэффициентами [6], и проводят анализ полученных соотношений. Другой подход - это локализация спектра ст(А) . Такую локализацию спектра произвольной квадратной матрицы с комплексными элементами можно осуществить, например, с помощью кругов Гершгорина [7]. Приемлемые верхние оценки спектрального радиуса р(А) матрицы А можно получать с помощью известного неравенства р(А) 0,

р(А) = X* . В работе [9] этот результат доказан для позитивных матриц, которые допускают наличие отрицательных элементов. Нижние оценки для доминирующего собственного значения X* получены в работе [10]. Для нормальных матриц аналогичный результат получен в работе [11].

В данной работе указываются некоторые оценки снизу спектрального радиуса вещественной симметрической матрицы.

Пусть С - поле комплексных чисел, Сп - комплексное п-мерное арифметическое пространство векторов х = (х>-), || • ||е - евклидова норма в Сп ,

Спхп - полное кольцо матриц А = (а^) порядка п

над полем С, || • ||х - спектральная норма в Спхп ,

/ ч ^ (Г* пхп (ГЛ пхп

р(-) - спектральный радиус на С , См - мно-

множество всех вещественных векторов из сп, - скалярное произведение в Мп , М^ - множество всех вещественных симметрических матриц из

Читайте также: