Глава 2 Аналитика и алгоритмы больших данных Алок
Аналитика
и алгоритмы больших данных
Алок Кумар, Лакшита Бхаргава и Замир Фатима
Содержание
2.1 2.2 Анализ больших данных 2.3 Категории аналитики больших 2.3.1 Прогнозная аналитика 2.3.2 Предписывающая 2.3.2.1 Как работает предписывающая аналитика....................................25
2.3.2.2 Примеры предписывающей аналитики....................................25
2.3.2.3 Преимущества директивной аналитики ......................................25
2.3.3 Описательная аналитика 2.3.4 Диагностическая 2.3.4.1 Преимущества диагностической аналитики .........................................26
2.4 Алгоритмы анализа больших 2.4.1 Линейная 2.4.1.1 Подготовка модели линейной регрессии ...............................29
2.4.1.2 Применение линейной регрессии.....................................30
2.4.2 Логистическая регрессия 2.4.2.1 Типы логистической регрессии .............................................31
2.4.2.2 Применение логистической регрессии...................................32
2.4.3 Наивные байесовские 2.4.3.1 Уравнение наивных байесовских классификаторов ............................33
2.4.3.2 Применение наивных байесовских классификаторов.............................. 34
DOI: 10.1201/9781003175711-2
1920
;
Аналитика больших данных
2.4.4 Деревья классификации и регрессии................................................ 34
2.4.4.1 Представление модели ТЕЛЕЖКИ ...................................... 34
2.4.4.2 Применение классификационных и регрессионных деревьев ...........35
2.4.5 Кластеризация K-средних значений 2.4.5.1 Как работает кластеризация K-средних ......................................36
2.4.5.2 Алгоритм кластеризации по K-средним значениям..................................36
2.4.5.3 Применение алгоритмов кластеризации с использованием K-средних значений ................36
2.5 Заключение и будущая сфера Ссылки 2.1 Введение
Нельзя отрицать тот факт, что цифровая эра уже на горизонте, и она не за горами. В нашу цифровую эпоху происходит переход от промышленной экономики к информационной, что привело к накоплению большого объема данных, который с каждым днем растет ошеломляющими темпами. По оценкам, к 2025 году мы будем получать 463 экзабайта данных каждый день. Ошеломляющий объем доступных данных включает в себя как благо, так и проклятие для человечества. Неправильное обращение с данными может привести к нарушениям конфиденциальности, увеличению числа случаев мошенничества, потере данных и многому другому. При правильном обращении можно добиться значительного роста и совершенствования технологий. Традиционные методы обработки и анализа данных, такие как хранение данных в традиционных реляционных базах данных, как правило, очень плохо справляются с обработкой больших данных, причина этого заключается в огромном размере данных. Именно здесь в полной мере проявляется мощь аналитики больших данных.
Ключевые моменты и основные вклады этой главы включают в себя
;
Основная идея написания этой главы заключается в предоставлении подробного и
структурированного обзора аналитики больших данных, а также различных инструментов и технологий, используемых в этом процессе.
; В этой главе дается четкое представление о том, что такое аналитика больших данных и почему она является чрезвычайно важной и доминирующей технологией в современную цифровую эпоху.
; Мы также обсудили различные методы анализа больших данных и их применимость в различных сценариях.
; Следующий раздел главы посвящен некоторым из наиболее популярных и передовых
алгоритмов, используемых в процессе анализа больших данных.
; Глава завершается заключительным разделом, в котором рассматриваются недостатки
современных методов анализа данных, а также кратко рассматриваются новые технологии, которые могут восполнить пробелы в существующих методах.
2.2 Анализ больших данных
Проще говоря, аналитика больших данных ; это процесс поиска значимых закономерностей в большом, казалось бы, неорганизованном объеме данных. Основная
; 21
цель анализа больших данных всегда заключается в том, чтобы получить представление об источнике, который отвечает за генерацию данных. Эти сведения могут быть чрезвычайно ценными для компаний: понимать поведение своих клиентов и то, насколько хорошо их продукт работает на рынке. Аналитика больших данных также широко используется для выявления групп продуктов, а также продуктов, которые с большей вероятностью будут приобретаться вместе. Поразительным примером этого из реальной жизни является ассоциация продуктов "подгузники-пиво", обнаруженная Walmart после анализа данных о потребителях. Результаты показали, что работающие мужчины, как правило, покупают пиво
для себя и подгузники для своих детей вместе, когда возвращаются домой с работы в пятницу вечером. Это побудило Walmart объединить эти товары, что привело к увеличению продаж обоих товаров. Это открытие наглядно демонстрирует возможности анализа больших объемов данных для поиска ассоциаций продуктов, поскольку при использовании классических методов сопоставления продуктов обнаружить такую странную корреляцию практически невозможно. Чтобы лучше понять, как работает процесс анализа больших данных в реальном мире, давайте рассмотрим пример того, как компания электронной коммерции может использовать возможности анализа больших данных для увеличения продаж своего продукта. В этом примере мы рассмотрим широкий анализ двух категорий данных: данных, полученных пользователями в ходе покупки продукта, и данных, полученных в процессе обслуживания клиентов после продаж. Методы анализа больших данных, такие как анализ рыночной корзины, анализ соотношения клиент-продукт и т.д., могут быть использованы в наборе данных первого типа для поиска таких ассоциаций, как ассоциация "продукт-продукт", ассоциация "клиент-продукт" или ассоциация "клиент-клиент". Эти результаты могут быть использованы компанией улучшить свою систему рекомендаций по продуктам, а также размещение продуктов на своем портале. Аналогичным образом, результаты, полученные после анализа данных об обслуживании после продаж, таких как телефонные звонки в службу поддержки клиентов, электронные письма с жалобами и т.д., могут быть использованы для обучения персонала службы поддержки клиентов или даже для разработки и совершенствования интеллектуальных чат-ботов. Сочетание этих факторов может повысить общую удовлетворенность клиентов, что может увеличить объем продаж, а также помочь в привлечении новых клиентов. Общая картина процесса представлена на рисунке 2.1. Аналитика больших данных также нашла широкое применение в области медицинской науки. Различные методы интеллектуального анализа данных используются в различных медицинских приложениях, таких как прогнозирование заболеваний, генетическое программирование, управление данными о пациентах и т.д. [1–3]. Аналитика данных может также использоваться в сфере образования для анализа данных учащихся и создания более совершенных структур для повышения уровня их образования [4-5].
2.3 Категории аналитики больших данных
Аналитика больших данных обычно подразделяется на четыре основные категории, как показано на рисунке 2.2. В этом разделе мы подробно рассмотрим каждую из этих категорий
в отдельном подразделе.
22;
Аналитика больших данных
Рисунок 2.1 Использование аналитики больших данных в компании электронной коммерции.
Клиент
Данные произведённые
Данные произведённые на портале электронной коммерции (поиск продукта и данные покупки)
Данные после продажи( обзор покупки, звонки в службу клиентов, письма с жалобами, и т. д.)
Аналитика больших данных
Аналитика больших данных
Аналитика корзины рынка ( поиск свойств группировки продукта)
Аналитика продукта клиента( поиск ассоциаций между продуктами и клиентом)
Лучшее понимание ожиданий клиентов после продажи, которое может использоваться для обучения обслуживания службы клиентов
Развитие и совершенствование умных чат-ботов со способностями отвечать клиентским запросам после продажи , которые могут уменьшить стоимость операций после продаж
Усиление размещения продукта
Усиление систем рекомендаций продукта
Усиление всеобщего клиентского переживания на платформе ведущей к увеличению продаж и новым клиентским покупкам
Аналитика больших данных и алгоритмы
23
Категории аналитики больших данных
Аналитика прогноза
Аналитика предписывающая
Аналитика описывающая
Аналитика диагностики
Рисунок 2.2 Категории аналитики больших данных.
Определение проекта
Развертывание
Сборка данных
Моделирование
Анализ данных
Статистика
Рисунок 2.3 Процесс прогнозной аналитики.
2.3.1 Прогнозная аналитика
Предиктивная аналитика - это разновидность анализа больших данных, которая используется для составления прогнозов на основе анализа текущих данных. В предиктивной аналитике обычно исторические данные и данные о транзакциях используются для выявления рисков и возможностей на будущее. Прогнозная аналитика позволяет организациям создавать конкретную базу, на основе которой они могут планировать свои будущие действия. Это позволяет им принимать решения, которые являются более точными и результативными по сравнению с теми, которые принимаются на основе чистых предположений или ручного анализа данных. Это помогает им стать организациями: активными «за» и ориентированными на будущее. Прогнозная аналитика может быть далее расширена и включать в себя набор вероятных решений, которые могут быть приняты на основе аналитических данных, полученных в ходе этого процесса. Весь процесс прогнозной аналитики можно разбить на несколько этапов, как показано на рисунке 2.3.
24
Анализ больших данных
Этапы процесса прогнозной аналитики:
1. Определение проекта — Первым и одним из наиболее важных шагов в процессе прогнозной аналитики является определение проекта. Этот шаг заключается в определении различных переменных, таких как объем и результат, а также в определении набора данных, на основе которого необходимо выполнить прогнозную аналитику. Этот шаг чрезвычайно важен, поскольку он закладывает основу для всего процесса анализа данных.
2. Сбор данных — данные являются наиболее фундаментальной частью любого процесса анализа данных; то же самое относится и к прогнозной аналитике. На этапе сбора данных организации собирают различные типы данных, с помощью которых может проводиться аналитика. Решение об определении типа данных, которые необходимо собрать, обычно зависит от желаемого результата процесса, установленного на этапе определения проекта.
3. Анализ данных — Этап анализа данных включает в себя очистку, преобразование и проверку данных. Именно на этом этапе выявляются закономерности, корреляции и полезная
информация о данных.
4. Статистика — это своего рода промежуточный этап, на котором гипотезы и предположения, лежащие в основе архитектуры модели, проверяются с использованием некоторых существующих статистических методов. Этот шаг очень важен, поскольку он помогает выявить любые недостатки в логике и выявляет неточности, которые могут повлиять на саму модель, если их не заметить.
5. Моделирование — Этот этап предполагает разработку модели с возможностью автоматического составления прогнозов на основе информации, полученной на этапе анализа данных. Для повышения точности модели обычно интегрируется модуль самообучения, который помогает повысить точность модели с течением времени.
6. Развертывание. На этапе развертывания модель окончательно развертывается на сервере производственного уровня, где она может автоматически принимать решения и отправлять автоматические отчеты о принятых решениях на их основе. Она также может быть представлена в виде интерфейса прикладного программирования (API), который может быть использован другими модулями, при этом абстрагируясь от реальной сложной логики.
7. Мониторинг — После завершения развертывания рекомендуется отслеживать модель и проверять прогнозы, сделанные моделью, на фактических результатах. Это может помочь усовершенствовать модель и устранить любые незначительные или серьезные проблемы, которые могут негативно сказаться на ее работе.
Прогнозная аналитика широко используется для решения широкого спектра задач, начиная от таких простых, как прогнозирование поведения потребителей в платформах электронной коммерции до очень сложных, таких как прогнозирование вероятности возникновения заболевания у человека на основе его медицинских карт. Благодаря прогрессу в области анализа данных точность моделей прогнозной аналитики за последнее десятилетие значительно возросла, что позволило использовать их в области медицинской науки. Мариам и др. обсудили различные методы предиктивной аналитики для прогнозирования
Анализ и алгоритмы больших объемов данных
; 25
взаимодействия лекарственных средств с мишенями (DTI), основанные на анализе стандартных наборов данных [6]. Шакил и др. соавторы предложили метод прогнозирования вспышек болезни лихорадка с использованием инструмента прогностической аналитики Века [1].
2.3.2 Предписывающая аналитика
Предписывающая аналитика - это раздел анализа данных, который помогает определить наилучший возможный курс действий, который может быть предпринят в зависимости от конкретного сценария. Предписывающая аналитика, в отличие от предиктивной, не предсказывает прямой результат, а скорее предоставляет стратегию поиска наиболее оптимального решения для данного сценария. Из всех форм бизнес-аналитики предиктивная аналитика является наиболее сложной- это специализированный вид бизнес-аналитики, который способен принести предприятиям высочайший итог интеллекта и значения [7].
2.3.2.1 Как работает предписывающая аналитика
Предписывающая аналитика обычно опирается на передовые методы искусственного интеллекта, такие как машинное и глубокое обучение, для изучения полученных данных и дальнейшего развития, работая как автономная система без какого-либо вмешательства человека. Модели предписывающей аналитики также имеют возможность автоматически корректировать свои результаты по мере поступления новых наборов данных.
2.3.2.2 Примеры предписывающей аналитики
Возможности директивной аналитики могут быть использованы любым предприятием и правительственным учреждением, использующим большие объемы данных. Космическое агентство может использовать директивную аналитику, чтобы определить, может ли строительство новой стартовой площадки угрожать обитающим поблизости видам ящериц. Этот анализ может помочь в принятии решения о перемещении конкретного вида в другое место или об изменении местоположения самого места запуска.
2.3.2.3 Преимущества директивной аналитики
Предписывающая аналитика - один из самых эффективных и мощных инструментов, доступных в арсенале организации делового интеллекта. Предписывающая аналитика предоставляет организации возможность:
1. Найти путь к успеху — Предписывающие аналитические модели могут объединять данные и операции, чтобы предоставить дорожную карту того, что нужно делать и как это сделать наиболее эффективно с минимальными ошибками.
2. Минимизируйте время, необходимое для планирования — Результаты, полученные с помощью моделей директивной аналитики, помогают сократить время и усилия, необходимые команде организации для планирования решения, что позволяет им быстро разработать и внедрить эффективное решение
26
;
Аналитика больших данных
3. Сведите к минимуму вмешательство человека и ошибки — модели предписательной аналитики обычно полностью автоматизированы и требуют очень небольшого вмешательства человека, что делает их высоконадежными и менее подверженными ошибкам по сравнению с ручным анализом, проводимым специалистами по обработке данных.
2.3.3 Описательная аналитика
Описательная аналитика отвечает на вопрос о том, что произошло. В процессе описательной аналитики используется большой объем данных, чтобы выяснить, что произошло в бизнесе за определенный период, а также чем это отличается от другого сопоставимого периода. Описательная аналитика - это одна из самых основных форм аналитики, используемых любой организацией для получения общего представления о том, что произошло в бизнесе. Используя описательную аналитику на основе исторических данных, лица, принимающие решения в организации, могут получить полное представление о тенденциях, на которых они могут основывать свою бизнес-стратегию. Что также помогает определить сильные и слабые стороны организации. Являясь элементарной формой аналитического метода, она обычно используется в сочетании с другими передовыми методами, такими как прогностический и предписывающий анализ, для получения значимых результатов.
2.3.4 Диагностическая аналитика
Раздел диагностической аналитики включает в себя набор инструментов и методик, которые
используются для поиска ответа на вопрос о том, почему произошли те или иные события. Диагностическая аналитика глубоко погружается в данные и пытается найти ценную скрытую информацию. Диагностическая аналитика обычно является первым шагом в процессе бизнес-аналитики в организации. Диагностическая аналитика, в отличие от прогнозирующей или предписывающей аналитики, не приводит к каким-либо новым результатам; скорее, она обеспечивает обоснование за уже известными результатами. В процессе диагностической аналитики используются такие методы, как обнаружение данных, интеллектуальный анализ данных, детализация и т.д.
2.3.4.1 Преимущества диагностической аналитики
Диагностическая аналитика позволяет аналитикам преобразовывать сложные данные в значимые визуализации и идеи, которыми может воспользоваться каждый. Диагностическая
аналитика также позволяет получить представление о том, что лежит в основе получения определенного результата. Этот представление может быть использовано для создания прогнозирующих или предписывающих аналитических моделей.
Сравнение всех этих четырех аналитических процессов вместе с критическими вопросами, на которые отвечает каждый из них, показано в таблице 2.1 и на рисунке 2.4 соответственно.
2.4 Алгоритмы анализа больших данных
В нынешнюю цифровую эпоху данные - это новое золото. В настоящее время каждая организация понимает важность наличия в своем распоряжении большого объема данных. Такие компании, как Google, Microsoft и Facebook доминируют в современную эпоху, и большая заслуга в этом принадлежит
Анализ данных и алгоритмы
; 27
Таблица 2.1 Сравнение различных категорий анализа данных
Категория классификации
Предсказующий
Предписывающий
описательный
диагностический
Источник данных
использует исторические данные -использует исторические данные -использует исторические данные -использует исторические данные -использует исторические данные
Манипулирование данными
Заполняет пробелы в доступных данных
Оценивает результаты на основе переменных
Преобразуют данные в удобный для чтения формат
Выявляют аномалии
Роль аналитики
Создание моделей данных
Предоставление рекомендаций о результатах
Описании состояния бизнес-операций
Выявлении тенденций в данных
Используемая методика
Прогнозирует потенциальные будущие результаты
Использует алгоритмы, машинное обучение и искусственный интеллект
Обучение из прошлого
Исследует основные проблемы
Ответы на критические вопросы
Ответы "Что может произойти?", Ответы "Что может произойти?", Ответы "Если, тогда вопросы", Ответ "Какие вопросы", Ответ "Почему вопросы"
Что мы должны сделать по этому поводу?
Предписывающая аналитика
Что произойдет?
Прогнозная аналитика
Почему это произошло?
Диагностическая аналитика
Что произошло?
Описательная аналитика
Рисунок 2.4 Ответы на важные вопросы с помощью различных методов анализа.
28 ;
Анализ больших данных
Алгоритмы анализа больших данных
Линейная регрессия
Логистическая регрессия
Наивный Байес
Классификация и Дерево регрессии
К-значений кластеризация \группировка\
Рис. 2.5. Алгоритмы анализа больших данных.
гигантским \мамонта\ хранилищам данных, которые находятся в их распоряжении. Наличие таких огромных хранилищ данных в их распоряжении позволило этим компаниям расширить
границы технологического прогресса невиданным ранее способом. Ярким примером, демонстрирующим мощь данных и то, чего можно достичь с помощью надлежащей аналитики, являются Google Maps. Созданный на основе конвейеров данных, содержащих огромное количество динамичных и разнообразных данных, собранных Google из множества источников, это осколок технологии, которая кажется чем-то из будущего.
Но одних только данных недостаточно. Данные сами по себе бесполезны и приобретают смысл только после проведения надлежащего анализа этих данных. В связи с беспрецедентным увеличением объема данных, генерируемых за последние пару лет, сейчас
как никогда ранее стало необходимо иметь в своем распоряжении быстрые и эффективные алгоритмы анализа данных, поскольку классических методов анализа данных с использованием графиков или диаграмм просто недостаточно, чтобы справиться с таким огромным объемом данных, которые также известные в других отношениях как Большие данные. Чтобы решить эту проблему, специалисты по обработке данных во всем мире разработали и находятся в процессе разработки новых передовых алгоритмов для эффективного анализа больших данных. Обсуждение всех этих алгоритмов выходит за рамки данной главы, поэтому мы сосредоточимся на пяти наиболее популярных алгоритмах анализа больших данных, которые обычно лежат в основе большинства высокопроизводительных
аналитических моделей. Эти алгоритмы показаны на рис. 2.5 и обсуждаются далее.
2.4.1 Линейная регрессия
Линейная регрессия - это своего рода статистический тест, выполняемый на наборе данных для определения связи между рассматриваемыми переменными [8]. Линейная регрессия - один из самых популярных и часто используемых алгоритмов статистического анализа. Будучи очень простым, но чрезвычайно мощным алгоритмом анализа данных, он широко используется специалистами по обработке данных для разработки как простых, так и сложных аналитических моделей.
Линейная регрессия, как следует из названия, представляет собой простое линейное уравнение, которое объединяет входные значения (x) и затем генерирует решение в виде прогнозируемого результата (y). В модели линейной регрессии присваивается масштабный коэффициент каждому из входных значений или
аналитические данные и алгоритмы
;
29
независимым переменным, которые также известны как коэффициенты и обозначаются греческой буквой Бета (;). В уравнение добавляется дополнительный коэффициент, также известный как коэффициент пересечения или смещения, который обеспечивает дополнительную степень свободы линии. Если уравнение линейной регрессии содержит единственную зависимую переменную (y) и единственную независимую переменную (x), это называется одномерной регрессией и представлено уравнением 2-1:
y = зависимая переменная
x = независимая переменная
;1 = масштабный коэффициент
;0 = коэффициент смещения
Регрессионная модель с более чем одной независимой переменной называется многовариантной регрессией. В модели многомерной регрессии делается попытка синхронно учесть изменение независимых переменных в зависимой переменной [9]. Уравнение многомерной регрессии является продолжением одномерной регрессии представлено в уравнении 2-2:
y = зависимая переменная
x = независимая переменная
(;1 ; ;n ) = масштабный коэффициент
;0 = коэффициент смещения
;= ошибка
2.4.1.1 Подготовка модели линейной регрессии
Подготовка модели линейной регрессии, также известная как обучение модели, представляет собой процесс оценки коэффициентов уравнения для нахождения наилучшей линии для нашего набора данных. Существует несколько методов обучения модели линейной регрессии. В этом разделе мы обсудим три наиболее часто используемых метода из них.
1. Простая линейная регрессия — Простая линейная регрессия - это метод обучения моделей линейной регрессии, когда в уравнении имеется только один вход - или, лучше сказать, только одна независимая переменная. В методе при использовании простой линейной регрессии на основе данных вычисляются статистические свойства модели, такие как среднее значение, стандартное отклонение, корреляции и ковариация, которые используются для оценки коэффициентов и, следовательно, для нахождения наилучшей линии.
30;
Аналитика больших данных
2. Метод наименьших квадратов — Метод наименьших квадратов используется, когда имеется множество зависимых переменных и требуется оценка значений коэффициентов. Эта процедура направлена на уменьшение суммы квадратов остатков. Этот метод предполагает, что для данной кривой регрессии мы можем вычислить расстояние от каждой исходной точки до кривой регрессии, возвести ее в квадрат и определить сумму всех квадратичных ошибок вместе взятых. Часто именно это значение необходимо уменьшить с помощью метода наименьших квадратов.
3. Градиентный спуск — в сценарии используется метод градиентного спуска когда имеется один или несколько входных данных и требуется оптимизировать значение коэффициента, это делается путем итеративной минимизации погрешности модели на основе обучающих данных. Алгоритм начинается с присвоения случайных значений каждому коэффициенту. Вычисление суммы квадратов ошибок для всех пар входных и выходных значений является следующим шагом в процессе градиентного спуска. С этим связана скорость обучения, которая действует как множитель, с помощью которого обновляются значения коэффициентов с целью минимизации ошибки. Этот процесс завершается, когда либо достигнута минимальная сумма в квадрате, либо какие-либо дальнейшие улучшения невозможны.
Вариант градиентного спуска с использованием модели прямолинейной регрессии используется чаще, поскольку он относительно прост для понимания. Этот алгоритм находит применение в сценарии, когда набор данных велик и, следовательно, не помещается в память.
2.4.1.2 Применение линейной регрессии
Линейная регрессия - это простой, но очень изысканный алгоритм, который находит применение в самых разных областях. Рой и др. предложили модель линейной регрессии с помощью Лассо для прогнозирования фондового рынка [9]. Замир и др. использовали модель, основанную на линейной регрессии, для прогнозирования потребления сырой нефти [10]. В целом, модели линейной регрессии достаточно хороши для прогнозного анализа данных.
2.4.2 Логистическая регрессия
Метод логистической регрессии в анализе больших данных используется, когда рассматриваемая переменная является дихотомической (бинарной). Основой логистической регрессии, как и любой другой регрессии, является прогностический анализ. Логистическая регрессия используется для уточнения данных и объяснения связи между одним зависимым двоичным кодом переменной и одной или более независимых переменных номинального, порядкового, интервального или относительного уровня.
Логистическая регрессия основана на понятии логит — натуральных логарифмах отношения шансов [11]. Этот тип регрессионной модели работает достаточно хорошо, когда зависимая переменная является категориальной. Некоторые примеры реальных проблем, в которых зависимая переменная может быть категориальной, - это прогнозирование того, является ли электронное письмо спамом (1) или нет (0), или злокачественная опухоль (1) или безопасная (0). Логистическая регрессия является компонентом большего класса алгоритмов, называемый обобщенной линейной моделью (GLM). В 1972 году
Аналитика больших данных и алгоритмы
; 31
Рисунок 2.6 - Примерный график логистической регрессии.
Нелдер и Уэддерберн предложили эту модель в попытке предложить способ использования прямолинейной регрессии для решения проблем, которые не были напрямую связаны с применением прямолинейной регрессии. Они предложили ряд различных моделей (линейная
регрессия, ANOVA, пуассоновская регрессия и т.д.), включая логистическую регрессию в качестве частного случая. Уравнения 2-3 представляют собой общее уравнение логистической регрессии.
(p/1;p) = коэффициент нечетности
x = независимая переменная
;1 = масштабный коэффициент
;0 = коэффициент смещения
В этом уравнении {1; p} - это отношение нечётности. Положительный логарифм отношения нечётности обычно означает вероятность успеха, превышающую 50%. Примерный график логистической регрессии показан на рисунке 2.6.
2.4.2.1 Типы логистической регрессии
1. Бинарная логистическая регрессия
В бинарной логистической регрессии категорический ответ может иметь только два возможных результата. Пример: электронное письмо со спамом или без него.
32
Аналитика больших данных
2. Многомерная логистическая регрессия
В мультиномиальной логистической регрессии зависимые (целевые) переменные могут меть три или более категорий без упорядочивания. Пример: прогнозирование того, какие продукты питания предпочтительнее (овощные, невегетарианские, веганские).
3. Порядковая логистическая регрессия
Порядковая логистическая регрессия - это подмножество мультиномиальной логистической регрессии, в которой зависимые (целевые) переменные могут иметь три или более категорий, но в определенном порядке. Пример: рейтинг фильма от 1 до 5.
2.4.2.2 Применение логистической регрессии
Логистическая регрессия - это простой, но эффективный алгоритм, который находит применение в широком спектре в самых разных областях. Благодаря своей прогностической природе логистическая регрессия находит применение в самых разных областях - от образования до здравоохранения. Рамосако и др. разработали модель, основанную на логистической регрессии, для изучения уровня успеваемости учащихся [12]. Алзен и др. предложили другую модель, основанную на логистической регрессии, для выявления взаимосвязи между моделью ассистента по обучению и частотой неудач на вводных курсах STEM [13].
Хотя линейная регрессия и логистическая регрессия являются моделями, основанными на регрессии, они имеют много общего. Эти различия показаны в таблице 2.2.
Таблица 2.2 Разница между линейной и логистической регрессией
Линейная регрессия
Логистическая регрессия
Линейная регрессия используется для прогнозирования непрерывной зависимой переменной
с использованием заданного набора независимых переменных.
Логистическая регрессия используется для прогнозирования категориальной зависимой переменной с использованием заданного набора независимых переменных.
Линейная регрессия используется для решения задачи регрессии.
Логистическая регрессия используется для решения задач классификации.
При линейной регрессии мы прогнозируем значения непрерывных переменных.
При логистической регрессии мы прогнозируем значения категориальных переменных.
При линейной регрессии мы находим наилучшую линию, по которой мы можем легко предсказать результат.
В логистической регрессии мы находим S-образную кривую, по которой мы можем классифицировать выборки.
Для оценки точности используется метод наименьших квадратов .
Для оценки точности используется метод оценки максимального правдоподобия.
Результатом линейной регрессии должно быть непрерывное значение, такое как цена,
возраст и т. д.
Результатом логистической регрессии должно быть категориальное значение, такое как 0
или 1, Да или нет и т. д.
Аналитика и алгоритмы больших данных
33
Линейная регрессия
Логистическая регрессия
При линейной регрессии требуется, чтобы зависимость между зависимой и независимой
переменными должна быть линейной.
При логистической регрессии не требуется, чтобы зависимая и независимая переменные имели линейную зависимость.
При линейной регрессии между независимыми переменными может быть коллинеарность.
В логистической регрессии не должно быть коллинеарности между независимыми переменными.
2.4.3 Наивные байесовские классификаторы
Наивные байесовские классификаторы - это набор алгоритмов классификации, поддерживаемых теоремой Байеса. Это не один алгоритм, а семейство алгоритмов, в которых все они разделяют стандартный принцип, т.е. каждая пара классифицируемых признаков независима друг от друга.
Наивный Байесовский подход использует вероятностный подход для построения классификаторов. Эти классификаторы могут упростить обучение, предполагая, что признаки не зависят от данного класса [14]. Наивная байесовская классификация является подмножеством байесовской теории принятия решений. Она называется наивной, потому что в ее формулировке содержатся некоторые наивные предположения [15].
Основное предположение, которое делают наивные байесовские классификаторы, заключается в том, что значение определенного признака не зависит от значения другого признака. Несмотря на наличие чрезмерно упрощенного предположения, наивные байесовские классификаторы, как правило, хорошо работают даже в сложных сценариях реального мира. Основным преимуществом наивных байесовских классификаторов перед другими алгоритмами классификации является требование небольшого объема обучающих
данных для оценки параметров, необходимых для классификации, которые используются для
постепенного обучения классификатора.
2.4.3.1 Уравнение наивных байесовских классификаторов
Чтобы понять уравнение наивных байесовских классификаторов, нам нужно понять теорему Байеса, которая является фундаментальной теоремой, на основе которой работают наивные байесовские классификаторы.
Теорема Байеса
Теорема Байеса определяет вероятность наступления события, учитывая вероятность другого события, которое уже произошло. Теорема Байеса сформулирована математически, как показано в уравнении 2-4:
34 Аналитика больших данных
P(A) = Вероятность наступления события A
P(B) = Вероятность наступления события B
P(A/B) = Вероятность данного события B
P(B/A) = Вероятность события B при заданном значении A
Теорема Байеса может быть распространена на уравнения поиска различных наивных
байесовских классификаторов.
2.4.3.2 Применение наивных байесовских классификаторов
Наивные байесовские классификаторы, несмотря на наличие определенных ограничений и допущений, достаточно хорошо подходят для решения задач классификации. Картика и Сайрам предлагают методологию классификации, использующую наивный байесовский алгоритм классификации для разделения людей на различные классы на основе различных атрибутов, отражающих их образовательный уровень [16]. Цинь и др. исследуют классификацию данных с несколькими метками на основе наивных байесовских классификаторов, которые могут быть расширены до многоуровневого обучения [17].
2.4.4 Деревья классификации и регрессии
Деревья классификации и регрессии (CART) - это термин, введенный Лео Брейманом для обозначения класса алгоритмов дерева решений, которые используются для решения задач прогнозной аналитики классификации и регрессии.
Традиционно эти вычисления называются "деревьями принятия решений"; однако в некоторых языках программирования, таких как R, они обозначаются более современным термином CART. Алгоритмы CART закладывают основу для некоторых других значимых алгоритмов, таких как алгоритмы построения дерева решений в пакетном режиме, алгоритмы построения случайных лесов и алгоритмы построения расширенного дерева решений.
2.4.4.1 Представление модели КОРЗИНЫ \КАРТ\
Модель КОРЗИНЫ может быть представлена в виде бинарного дерева. Каждый узел в дереве представляет одну входную переменную (x) и переменную, определяемую теоремой о точке разделения, а конечный узел представлен с помощью выходной переменной (y), которая используется для прогнозирования \предположения\.
Например, предположим, что набор данных содержит две входные переменные (x) - рост в сантиметрах и вес человека в килограммах. Выходная переменная (y) будет указывать, является ли человек мужского или женского пола. На рисунке 2.7 представлена очень простая бинарная модель дерева принятия решений.
Прямолинейный способ прогнозирования с использованием модели CART заключается в использовании ее бинарного древовидного представления. Обход дерева начинается с определенния входных данных, начиная с корневого узла дерева. Каждую входную переменную в модели CART можно рассматривать как измерение в n-мерном пространстве. Дерево решений в этой модели разбивает эту плоскость на прямоугольники для входных данных из двух
; 35
Высота >180 cм
Да
Нет
Вес >80 кг
Мужчина
Да
Нет
Мужчина
Женщина
Рисунок 2.7. Представление бинарной модели дерева принятия решений.
переменных или преобразуются в гипер -прямоугольники для получения большего количества входных данных. Входные данные фильтруются проходя по дереву и помещаются в один из прямоугольников, в то время как прогноз, сделанный моделью, является выходным значением для того же прямоугольника; это дает нам некоторое представление о типе решений, которые способна принимать модель CART, например, о границах принятия \коробок\ решений.
2.4.4.2 Применение классификационных и регрессионных деревьев
Фам и др. использовали классификационную и регрессионную древовидную модель для прогнозирования вызванных дождями мелких оползней в государстве Индия на основе набора данных из 430 исторических мест оползней [18]. Поулиакис и др. провели исследование по CART- модели для оценки риска развития цервикальной интраэпителиальной неоплазии [19]. Илиев и соавт. предложили модель на основе CART для моделирования выходной мощности лазера на парах бромида меди [20].
2.4.5 Кластеризация по методу K-Mеанс \К -Значений, К -средних\
Кластеризация по методу K-меанс - это очень простой, к тому же, популярный алгоритм анализа данных. Это неконтролируемый алгоритм, поскольку он способен делать выводы из наборов данных, содержащих только входные переменные, без требования наличия известных или помеченных результатов. Цель алгоритма K-значений очень проста: просто сгруппировать похожие точки данных и выявить закономерность, присутствующую в наборе данных. Метод K-значений пытается найти предопределенный номер (k) кластера в наборе данных. Кластер, говоря простым языком, можно представить как группу похожих точек данных. Необходимым условием алгоритма является целевое число k, которое обозначает количество требуемых нам центроидов. Центроид может быть как реальной, так и воображаемой точкой, представляющей центр одного кластера. Каждая информационная точка назначается для каждой из единицы группы путем уменьшения
36 Анализ больших данных
- это внутрикластерная сумма квадратов. Алгоритм K-значений выделяет предопределенные
вычисляет количество центроидов, а затем относит каждую точку данных к ближайшему кластеру, с целью сохранить центроиды настолько малыми, насколько это возможно. ‘Значения’ в K-значениях понимается объединение информации или, скажем, определение центра тяжести \центроида\.
2.4.5.1 Как работает кластеризация с использованием K-средних \значений\
Для обработки обучающей информации алгоритм K-средние в аналитике данных начинается с набора случайно выбранных центроидов; они используются в качестве отправной точки для каждого кластера, а затем выполняются итеративные вычисления для улучшения расположения центроидов.
Он прекращает создание и оптимизацию кластера при выполнении любого из условий:
; Центроиды стабилизировались, и алгоритм может работать дальше, т. е. кластеризация прошла успешно.
; Достигнуто заданное количество итераций.
2.4.5.2 Алгоритм кластеризации с использованием K-средних значений
Алгоритм кластеризации с использованием K-средних значений основан на максимизации ожидаемого результата. Этап ожидания заключается в присвоении точки данных кластеру клозет \закрыто\. Шагом максимизации является определение центра тяжести каждого из этих кластеров. Конечная цель алгоритма K-средних - минимизировать значение квадратичной функции ошибки, представленной в виде:
|xi ;vj| - евклидово расстояние между xi и vj
2.4.5.3 Применение алгоритмов кластеризации с использованием K-средних значений
Являясь высокопроизводительным алгоритмом обучения без контроля, метод К-средних находит приложение в самых разных областях. Из-за его популярности исследователи создали различные гибридные версии этого алгоритма, которые широко используются во многих областях. Югуо и Хайян разработали алгоритм кластеризации на основе кластеризации с использованием K-средних, который обеспечивает большую зависимость при выборе начальной точки фокусировки [21]. Шакил и Алам разработали метод управления данными в облачной среде на основе алгоритма кластеризации K-средних [22]. Алам и Кишвар классифицировали различные методы кластеризации, которые были применены к результататам веб-поиска [23]. Алам и Кишвар предложили алгоритм кластеризации веб- поиска на основе K-средних и эвристического поиска [24].
Аналитика и алгоритмы больших данных
; 37
2.5 Заключение и будущая сфера применения
В этой главе мы рассмотрели основы анализа данных и их применение в реальном мире. Мы также рассмотрели различные категории анализа данных, а также некоторые наиболее часто используемые алгоритмы анализа данных и их применение в реальных условиях. Помимо алгоритмов, рассмотренных в этой главе, специалисты по обработке данных во всем мире работают над созданием более быстрых и эффективных алгоритмов. Идея использования алгоритмов, основанных на нейронных сетях, также была предложена специалистами по обработке данных [25, 32]. С развитием квантовых вычислений в последние пару лет ученые также с нетерпением ожидают возможности использования возможностей квантовых компьютеров для анализа больших данных [26]. Облачная аналитика больших данных также становится довольно популярной, поскольку позволяет использовать возможности облачных вычислений для анализа больших данных [27-31]. Благодаря этим новым технологическим
если на горизонте появятся новые достижения, то можно с уверенностью предположить, что будущее аналитики больших данных будет ярким и захватывающим.
Рекомендации
1. Шакил К. А., Анис С. и Алам М. (2015). Прогнозирование заболевания лихорадкой денге с использованием
инструмента интеллектуального анализа данных weka. Препринт arXiv arXiv: 1502.05167.
2. Хан, М. В., & Алам, М. (2012). Обзор применения: геномика и генетическое
программирование - новые рубежи. Genomics, 100 (2), 65-71.
3. Шакил К. А., Зарин Ф. Дж., Алам М. и Джабин С. (2020). BAMHealthCloud:
система биометрической аутентификации и управления данными для медицинских данных в облаке.
Журнал Университета короля Сауда "Компьютерные и информационные науки", 32 (1), 57-64.
4. Ханна Л., Сингх С. Н. и Алам М. (2016, август). Интеллектуальный анализ образовательных данных и
его роль в определении факторов, влияющих на успеваемость учащихся: систематический
обзор. В 2016 году состоялась 1-я Индийская международная конференция по обработке информации (IICIP)
(стр. 1-7). Нью-Йорк: IEEE.
5. Шакил К. А., Сети С. И Алам М. (2015, март). Эффективная структура управления университетскими данными с использованием облачной среды.
В 2015 году 2-я Международная конференция
Конференция по вычислительной технике в интересах устойчивого глобального развития (INDIACom) (стр. 1262–
1266). Нью-Йорк: IEEE.
6. Багериан М., Сабети Э., Ванг К., Сартор М. А., Николовска-Колесска З. и
Наджарян З. (2021). Подходы к машинному обучению и базы данных для прогнозирования
взаимодействия лекарственного средства с мишенью: обзорная статья. Краткие сведения по биоинформатике, 22 (1), 247-269.
https://doi.org/10.1093/bib/bbz157
7. Шикшнис Л., Педерсен Т. Б., Лю Л., Озсу М. (2016). Предписывающая аналитика.
Энциклопедия систем баз данных, 1-2.
8. Кайя Уяник, Г., и Гюлер, Н. (2013). Исследование по множественному линейному регрессионному анализу.
Процессия—Социальные и поведенческие науки, 106, 234-240. https://doi.org/10.1016/j.
sbspro.2013.12.027.
9. Рой С. С., Миттал Д., Басу А., Абрахам А. (2015). Прогнозирование фондового рынка
с использованием модели линейной регрессии LASSO. В: Abraham, A., Kr;mer, P., &38
;
Аналитика больших данных
Снасел В. (ред.), Афро;Европейская конференция по промышленному развитию. Достижения
в области интеллектуальных систем и вычислений, том 334. Парень: Спрингер. https://doi.
организация/10.1007/978-3-319-13572-4_31.
10. Фатима З., Кумар А., Бхаргава Л. и Саксена А. (2019). Потребление сырой нефти
прогнозирование с использованием классических методов и методов машинного обучения. Международный журнал
компьютерных систем, основанных на знаниях, 7 (1), 10-18.
11. Пэн Дж., Ли К., Ингерсолл Г. (2002). Введение в логистический
регрессионный анализ и отчетность. Журнал образовательных исследований, 96, 3-14. https://doi.
org/10.1080/00220670209598786.
12. Рамосако М., Хасани В., Думи А. (2015). Применение логистической регрессии при
изучении уровня успеваемости студентов (на примере университета Влеры). Журнал
образовательных и социальных исследований, 5(3). https://doi.org/10.5901/jesr.2015.v5n3p239.
13. Альзен, Дж. Л., Лэнгдон, Л. С. и Отеро, В. К. (2018). Логистическое регрессионное исследование
взаимосвязи между моделью ассистента по обучению и уровнем неудач на вводных
курсах STEM. Международный журнал STEM-образования, 5, номер статьи
56. https://doi.org/10.1186/s40594-018-0152-1.
14. Риш, И. (2001). Эмпирическое исследование наивного байесовского классификатора. Работа IJCAI 2001
Эмпирические методы искусственного интеллекта, 3.
15. Кавиани П., & Дотре С. (2017). Краткий обзор наивного байесовского алгоритма. Международный
Журнал передовых исследований в области компьютерных наук и менеджмента, 4.
16. Картика С. и Сайрам Н. (2015). Наивный байесовский классификатор образовательных
квалификаций. Индийский научно-технический журнал, 8. https://doi.org/10.17485/ijst/2015/
v8i16/62055.
17. Цинь Ф., Тан Х., Чен З. (2012). Применение и исследование метода множественных меток
Наивный байесовский классификатор. В материалах 10-го Всемирного конгресса по интеллектуальным
Управление и автоматизация (стр. 764-768). Нью-Йорк: IEEE. https://doi.org/10.1109/
WCICA.2012.6357980.
18. Фам Б. Т., Тянь Буй Д., Пракаш И. (2018). Применение классификации и
регрессионные деревья для пространственного прогнозирования вызванных дождями мелких оползней в районе
Уттаракханда (Индия) с использованием ГИС. В книге: Мэл С., Сингх Р. и Хаггел К. (ред.),
Изменение климата, экстремальные явления и снижение риска бедствий. Устойчивое развитие
Серия "Цели". Издательство: Springer. https://doi.org/10.1007/978-3-319-56469-2_11.
19. Поулиакис, А., Каракитсу, Э., Чрелиас, С., Паппас, А., Панайотидис, И., Валасулис,
Г., Киргиу, М., Параскеваидис, Э., Каракитсос, П. (2015). Применение классификационных
и регрессионных схем для сортировки женщин для направления на кольпоскопию и
оценка риска цервикальной интраэпителиальной неоплазии: исследование, основанное на 1625 случаях
с неполными данными молекулярных тестов. BioMed Research International, 2015,
Артикул 914740, 10 стр. https://doi.org/10.1155/2015/914740.
20. Илиев И. П., Войникова Д. С., Гочева-Илиева С. Г. (2013). Применение
деревьев классификации и регрессии для моделирования выходной мощности лазера на
парах бромида меди. Математические проблемы инженерии, 2013, номер статьи 654845,
10 стр. https://doi.org/10.1155/2013/654845.
21. Ли, Ю., & Ву, Х. (2012). Метод кластеризации, основанный на алгоритме K-средних. Физика
Процессия, 25, 1104-1109. https://doi.org/10.1016/j.phpro.2012.03.206.
22. Шакил, К. А., & Алам, М. (2014). Управление данными в облачной среде
с использованием метода кластеризации k-медианы. Международный журнал компьютерных приложений,
3, 8-13.Аналитика и алгоритмы больших данных
;
39
23. Алам, М., и Садаф, К. (2013). Обзор по кластеризации результатов веб-поиска. В:
Достижения в области вычислительной техники и информационных технологий (стр. 153-159). Берлин, Гейдельберг:
Прыгун.
24. Алам, М. и Садаф, К. (2015). Кластеризация результатов веб-поиска на основе эвристического поиска
и K-средних. Препринт arXiv arXiv: 1508.02552.
25. Мамата, К., Редди, П., Кумар, М. А., & Кумар, С. (2017). Анализ больших данных
с помощью нейронной сети. Международный журнал гражданского строительства и технологий, 8,
с. 211-215.
26. Шейх, Т. (2016). Квантовые вычисления в аналитике больших данных: обзор. Конференция:
Международная конференция IEEE по компьютерным и информационным технологиям (CIT) 2016
года (стр. 112-115). https://doi.org/10.1109/CIT.2016.79.
27. Хан, С., Шакил, К. А., и Алам, М. (2017). Облачная аналитика больших данных: обзор
текущих исследований и будущих направлений. Аналитика больших данных, печатный ISBN: 978-981-
10-6619-1, Электронный ISBN: 978-981-10-6620-7, (стр. 629-640). Прыгун.
28. Алам, М. (2012). Облачная алгебра для облачной системы управления базами данных. Вторая
Международная конференция по вычислительной науке, технике и информации
Технологии" (CCSEIT;2012), 26-28 октября, Коимбаторе, Индия,
под редакцией ACM.
29. Алам, М. (2012). Облачная алгебра для обработки неструктурированных данных в cloud data-
базовая система управления. Международный журнал по облачным вычислениям: Сервисы и
Архитектура (IJCCSA), 2(6), ISSN: 2231-5853 [Онлайн]; 2231-6663 [Распечатать]. https://
doi.org/10.5121/ijccsa.2012.2603, Тайвань.
30. Алам М., Шакил К. (2013). Архитектура облачной системы управления базами данных.
Международный журнал компьютерных наук и их приложений UACEE([ISSN 2250–
3765), 3, 27–31.
31. Алам Б., Доджа М. Н., Алам М. и Малхотра С. (2013). 5-уровневая архитектура облачной системы управления базами данных.
Журнал AASRI Procedia, 5, 194-199, ISSN:
2212-6716, Elsevier.
32. Алам, М., Шакил, К. А., Мохд. Джавед, С. и Амбрин, М. А. (2014). Обнаружение и
предотвращение атак на трафик с помощью облачной трассировки и нейронной сети. Международная конференция Te 2014
Конференция по интеллектуальному анализу данных и инженерии знаний (ICDMKE), Имперский колледж,
Лондон, Великобритания, 2-4 июля. Гонконг: IAENG.
Свидетельство о публикации №125110906824