Многомерное шкалирование
- Кластеризация – это классификация объектов на основе их сходства друг с другом, когда принадлежность обучающих объектов каким-либо классам не задаётся.
- Многомерное шкалирование – это математический инструмент, который позволяет изобразить сходства и различия объектов в пространственной карте.
Логику МНШ можно проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между крупными американскими городами. Анализируя матрицу, стремятся расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты США.
В общем случае метод МНШ позволяет таким образом расположить "объекты" (города в нашем примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно "измерить" эти расстояния в терминах найденных латентных переменных. Так, в нашем примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/Запад.
Ориентация осей координат. Как и в Факторном анализе, ориентация осей может быть выбрана произвольной. Возвращаясь к нашему примеру, можно поворачивать карту США произвольным образом, но расстояния между городами при этом не изменятся. Таким образом, окончательная ориентация осей на плоскости или в пространстве является, в большей степени результатом содержательного решения в конкретной предметной области (т.е. решением пользователя, который выберет такую ориентацию осей, которую легче всего интерпретировать). В примере можно было бы выбрать ориентацию осей, отличающуюся от пары Север/Юг и Восток/Запад, однако последняя удобнее, как "наиболее осмысленная" и естественная.
Для получения качественного результата многомерного шкалирования необходима информация обо всех или почти всех сходствах между различными комбинациями пар объектов и вычислительная техника. На выходе получается изображение точек, на графике близко расположенных относительно друг друга, если объекты похожи и соответственно далеко друг от друга в случае значительных различий между ними. Таким образом, входная информация для задачи многомерного шкалирования – сведения о попарных сходствах или связях анализируемых объектов (индивидуумов, семей, предприятий, отраслей и т.п.), а выходная – приписанные каждому из объектов числовые значения координат в некоторой вспомогательной (найденной в процессе решения) координатной системе.
Результаты МНШ
- Построение метрического пространства невысокой размерности, в котором наилучшим образом сохраняется структура исходных данных о близости пар объектов. Проектирование объектов на оси полученного пространства определяет их положение на этих осях, т.е. производится процесс шкалирования.
- Визуализация структуры исходных данных в виде конфигурации точек (объектов) в двух-трехмерном базовом пространстве.
- Интерпретация полученных осей (базовых характеристик) и конфигурации объектов - конечный результат применения МШ, дающий новое знание об изучаемой структуре (в случае корректного использования метода на всех этапах).