Интеллектуальный анализ данных. Учебник

Агентный интеллектуальный анализ – это междисциплинарная область, которая объединяет многоагентные системы с интеллектуальным анализом данных и машинным обучением для решения бизнес‑задач и решения проблем в науке.

Агенты можно описать как децентрализованные вычислительные системы, обладающие как вычислительными, так и коммуникационными возможностями. Агенты моделируются на основе алгоритмов обработки данных и сбора информации, таких как «проблема агента», которая представляет собой метод машинного обучения, который пытается найти решения бизнес‑проблем без какого‑либо центра обработки данных.

Агенты похожи на распределенные компьютеры, где пользователи совместно используют вычислительные ресурсы друг с другом. Это позволяет агентам обмениваться полезными данными и обрабатывать данные параллельно, эффективно ускоряя обработку и позволяя агентам быстрее выполнять свои задачи.

Обычным применением агентов является обработка и передача данных, например, задача поиска и анализа больших объемов данных из нескольких источников для определенных шаблонов. Агенты особенно эффективны, потому что у них нет централизованного сервера, который бы отслеживал их действия.

В настоящее время в этой области существуют две технологии, которые обеспечивают ту же функциональность, что и агенты, но только одна из них широко используется: распределенные вычисления, которые основаны на ЦП и часто используют централизованные серверы для хранения информации; и локальные вычисления, которые обычно основаны на локальных устройствах, таких как ноутбук или мобильный телефон, при этом пользователи обмениваются информацией друг с другом.

Обнаружение аномалий

При анализе данных обнаружение аномалий (также обнаружение выбросов) – это идентификация редких элементов, событий или наблюдений, которые вызывают подозрения, поскольку значительно отличаются от большинства данных. Одним из применений обнаружения аномалий является безопасность или бизнес‑аналитика как способ определения уникальных условий нормального или наблюдаемого распределения. Аномальные распределения отличаются от среднего тремя способами. Во‑первых, они могут быть соотнесены с предыдущими значениями; во‑вторых, существует постоянная скорость изменения (в противном случае они являются выбросом); и в‑третьих, они имеют нулевое среднее значение. Регулярное распределение является нормальным распределением. Аномалии в данных могут быть обнаружены путем измерения среднего значения и деления на значение среднего значения. Поскольку не существует теоретического верхнего предела количества вхождений в наборе данных, эти множественные значения подсчитываются и представляют элементы, которые имеют отклонения от среднего, хотя они не обязательно представляют собой истинную аномалию.

Сходства аномалий данных

Понятие аномалии можно описать как значение данных, которое значительно отличается от среднего распределения. Но описание аномалий также достаточно общее. В наборе данных может возникнуть любое количество отклонений, если существует разница между наблюдаемыми отношениями или пропорциями. Эта концепция наиболее известна для наблюдения за отношениями. Они усредняются для получения распределения. Сходство наблюдаемого соотношения или пропорции гораздо меньше аномалии. Аномалии не обязательно редки. Даже когда наблюдения более похожи, чем ожидаемые значения, наблюдаемое распределение не является типичным или ожидаемым распределением (выбросами). Однако существует также естественное распределение возможных значений, в которое могут вписаться наблюдения. Аномалии легко обнаружить, наблюдая за статистическим распределением наблюдаемых данных.

Во втором сценарии известное распределение отсутствует, поэтому невозможно сделать вывод, что наблюдения типичны для какого‑либо распределения. Однако может быть доступное распределение, которое предсказывает распределение наблюдений в этом случае.

В третьем сценарии имеется достаточно различных точек данных, чтобы использовать полученное распределение для прогнозирования наблюдаемых данных. Это возможно при использовании данных, которые не являются очень нормальными или имеют разную степень отклонения от наблюдаемого распределения. В этом случае имеется среднее или ожидаемое значение. Прогноз – это распределение, которое будет описывать данные, которые не являются типичными для данных, хотя они не обязательно являются аномалиями. Это особенно характерно для нерегулярных наборов данных (также известных как выбросы).

Аномалии не ограничиваются естественными наблюдениями. Фактически, большинство данных в деловой, социальной, математической или научной областях иногда имеют необычные значения или распределения. Чтобы помочь в принятии решений в таких ситуациях, можно выявить закономерности, относящиеся к различным значениям данных, отношениям, пропорциям или отличиям от нормального распределения. Эти закономерности или аномалии представляют собой отклонения, имеющие некоторое теоретическое значение. Однако значение отклонения обычно настолько мало, что большинство людей его не замечают. Его можно назвать аномальным значением, аномалией или разницей, причем любой из этих терминов относится как к наблюдаемым данным, так и к возможному основному распределению вероятностей, которое генерирует данные.

Проблемы оценки аномалий данных

Теперь, когда мы немного знаем об аномалиях данных, давайте рассмотрим, как интерпретировать данные и оценить возможность аномалии. Полезно рассматривать аномалии, исходя из предположения, что данные генерируются относительно простыми и предсказуемыми процессами. Следовательно, если бы данные были сгенерированы конкретным процессом с известным распределением вероятностей, то мы могли бы уверенно идентифицировать аномалию и наблюдать за отклонением данных.

Маловероятно, что все аномалии связаны с распределением вероятностей, поскольку маловероятно, что некоторые аномалии связаны. Однако если есть какие‑либо аномалии, связанные с распределением вероятностей, то это будет свидетельствовать о том, что данные действительно генерируются процессами или процессами, которые, вероятно, предсказуемы.

В этих обстоятельствах аномалия свидетельствует о вероятности обработки данных. Маловероятно, что закономерность отклонений или аномальных значений данных является случайным отклонением лежащего в основе распределения вероятностей. Это говорит о том, что отклонение связано с конкретным, случайным процессом. В соответствии с этим предположением аномалии можно рассматривать как аномалии данных, генерируемых процессом. Однако аномалия не обязательно связана с процессом обработки данных.

Понимание аномалии данных