Оптимизация процесса предобработки информации в системах кластеризации высокоразмерных данных
В видео рассказана методика выбора оптимального метода нормализации при построении кластерной структуры объектов, отличительной особенностью которых является высокая размерность признакового пространства. В качестве основного критерия оценки качества предобработки данных использовался критерий энтропия Шеннона и относительное изменение энтропии в процессе трансформации данных. Понижение размерности признакового пространства исследуемых объектов производилось при помощи компонентного анализа. Построена модель системы кластеризации с использованием алгоритма нечеткой кластеризации fuzzy C-means, при помощи которой произведена оценка качества кластеризации при использовании различных методов предобработки данных. Показано, что для исследуемых данных наилучшим методом нормализации является метод десятичного масштабирования, при котором энтропия обработанного сигнала принимает наименьшее значение, при этом в процессе трансформации данных компонентным анализом относительное изменение энтропии не превышает допустимых норм. Подготовка презентационных материалов, запись видео и озвучка: Ласюк Александр. При подготовке видео использовался материал научной статьи: Бабичев, С. А. Оптимизация процесса предобработки информации в системах кластеризации высокоразмерных данных / С. А. Бабичев // Радиоэлектроника, информатика, управление. – 2014. – № 2(31). – С. 135-142. Видео также опубликовано на Яндекс.Дзен канале "Самостоятельная работа": https://dzen.ru/video/watch/65fe3240b229214ee30addb0.
В видео рассказана методика выбора оптимального метода нормализации при построении кластерной структуры объектов, отличительной особенностью которых является высокая размерность признакового пространства. В качестве основного критерия оценки качества предобработки данных использовался критерий энтропия Шеннона и относительное изменение энтропии в процессе трансформации данных. Понижение размерности признакового пространства исследуемых объектов производилось при помощи компонентного анализа. Построена модель системы кластеризации с использованием алгоритма нечеткой кластеризации fuzzy C-means, при помощи которой произведена оценка качества кластеризации при использовании различных методов предобработки данных. Показано, что для исследуемых данных наилучшим методом нормализации является метод десятичного масштабирования, при котором энтропия обработанного сигнала принимает наименьшее значение, при этом в процессе трансформации данных компонентным анализом относительное изменение энтропии не превышает допустимых норм. Подготовка презентационных материалов, запись видео и озвучка: Ласюк Александр. При подготовке видео использовался материал научной статьи: Бабичев, С. А. Оптимизация процесса предобработки информации в системах кластеризации высокоразмерных данных / С. А. Бабичев // Радиоэлектроника, информатика, управление. – 2014. – № 2(31). – С. 135-142. Видео также опубликовано на Яндекс.Дзен канале "Самостоятельная работа": https://dzen.ru/video/watch/65fe3240b229214ee30addb0.
