Data Mining
Определение
Интеллектуальный анализ данных это процесс определения новых, корректных и потенциально полезных знаний на основе больших массивов данных.
Извлеченное знание в результате интеллектуального анализа данных мы будем называть термином паттерн. Паттерном может быть, например, некоторое нетривиальное утверждение о структуре данных, об имеющихся закономерностях, о зависимости между атрибутами и т.д.
Интересные знания, закономерности, высокоуровневая информация, полученные в результате анализа данных, могут быть использованы для принятия решений, контроля за процессами, управления информацией и обработки запросов. Поэтому технология интеллектуального анализа данных рассматривается как одна из самых важных и многообещающих тем для исследований и применения в отрасли информационных технологий.
Переводы термина
- извлечение информации, добыча данных
- вскрытие данных, "информационная проходка", "добыча данных"
- добыча данных
- извлечение обнаружение, добыча данных, глубинный интеллектуальный анализ данных, поиск статистических связей
«Data Mining» - особая междисциплинарная область анализа, раскрывающая свой потенциал в процессе поиска эмпирических закономерностей, опираясь на прикладную статистику, распознавание образов, теории баз данных и искусственного «интеллекта» (Artificial Intelligence). Неоднозначность используемого здесь слова «закономерность» вытекает из терминологии английского языка, на котором издается большой объем литературы по рассматриваемой нами проблематике. «Закономерность» в английском языке понимается и как «паттерн» (pattern), и как «правило» (rule), и как «регулярность» (regularity).
В узком смысле под «Data Mining» приемы, способы, алгоритмы извлечения («добычи», «раскопки») новых, потенциально полезных свойств данных, процедуры выявления эмпирических закономерностей, взаимосвязей между переменными в больших массивах. Сюда можно отнести инструменты распознавания образов, регрессионного анализа, корреляционного анализа, факторного анализа, поиска ассоциаций, выб-
росов, аномалий в данных, а также специальные математико-статистические, эвристические алгоритмы и соответствующие им
компьютерные программы.
Общие задачи, которые могут решать методы интеллектуального анализа данных, следующие:
- классификация – отнесение объектов (наблюдений, событий) к одному из заранее известных классов;
- регрессия, в том числе задачи прогнозирования – установление зависимости выходных параметров (целевых функций) от входных переменных (факторов);
- кластеризация – группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность этих объектов.
- Классификация – отнесение объекта (события, предмета) к одному из заранее известных
классов по его характеристикам.
- Регрессия – прогнозирование значения какого-либо выходного параметра объекта по на-
бору входных параметров.
- Кластеризация – задача заключается в группировке объектов на кластеры (независимых групп) по значениями присущих объектам параметров. Решение этой задачи помогает лучше понять данные.
- Поиск ассоциативных правил – выявление закономерностей между какими-либо связанными объектами. Решение этой задачи помогает лучше понять природу анализируемых данных и
может служить для прогнозирования появления событий.
- Предсказание последовательностей – нахождение зависимостей между объектами или событиями в форме правил, указывающих, что после некоего события A наступает событие B.
- Анализ отклонений – анализ данных на предмет вхождения явных нехарактерных шаблонов.
Применение методов интеллектуального мониторинга в рамках мониторинга учебной деятельности позволяет:
- анализировать информацию об успеваемости студентов;
- анализировать данные о работе преподавателей;
- планировать учебный процесс на основе анализа, собранной информации о процессе деятельности кафедры за прошлые годы, и поиска в этих данных скрытых закономерностей.
Литература
- АВАДЭНИ Ю.И., КУЛИКОВА О.М., РАДИОНОВА В.А. Исследование структуры ценностей студентов вузов с применением технологий data mining // СОВРЕМЕННЫЕ ПРОБЛЕМЫ НАУКИ И ОБРАЗОВАНИЯ. 2013. № 6. С. 841.
- Тестируемым предлагалось расставить приоритеты от наиболее значимой ценности к наименее значимой, задавая им значения от 1 до 18 соответственно.
- Батура Т.В. Методы анализа компьютерных социальных сетей // ВЕСТНИК НОВОСИБИРСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. СЕРИЯ: ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ. 2012. № 4. С. 13 – 28.
- Берестнева О.Г., Пеккер Я.С. Выявление скрытых закономерностей в сложных системах // ИЗВЕСТИЯ ТОМСКОГО ПОЛИТЕХНИЧЕСКОГО УНИВЕРСИТЕТА. 2009. № 5. С. 138 – 143.
- Бершадский А.М., Бурукина И.П., Акимов А.А. Разработка хранилищ данных и интеллектуальные методы мониторинга учебной деятельности кафедры // Открытое образование. 2011. № 2-2. С. 231–234.
- Методы интеллектуального анализа данных(Data Mining) подразделяются на три группы: поиск зависимостей (discovery), прогнозирование (predictive modelling) и анализ аномалий (forensic analysis).
- Овсяницкая Л.Ю. Интеллектуальный анализ данных как составляющая педагогического управления // ОБРАЗОВАНИЕ И НАУКА. 2013. № 10 (109). С. 80–90.
- Островский А.М. О компьютерных технологиях поиска эмпирических закономерностей в базах данных // СОЦИОЛОГИЯ: МЕТОДОЛОГИЯ, МЕТОДЫ, МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ.
- Петрова М.В., Ануфриева Д.А. Исследование возможностей методов интеллектуального анализа данных при моделировании образовательного процесса в вузе // Вестник Чувашского Университета. 2013. № 3. С. 280–285
- При этом исходным материалом для анализа служат размещены анкеты-интервью, заполняемые в режиме он-лайн и содержащие около 100 вопросов по процессу образования в целом и качеству образовательного процесса.
- Славутская Е.В., Абруков В.С., Славутский Л.А. Интеллектуальный анализ данных психодиагностики школьников предподросткового возраста // Вестник Чувашского Университета. 2012. № 3. С. 226–232.
- Для анализа использовались результаты диагностики развития интеллектуальной сферы (коэффициент IQ) детей с помощью культурно свободного интеллектуального теста Р.Б. Кеттелла