Бинарная классификация

Материал из Documentation.

Бинарная классификация (от лат. bi — два) — подраздел машинного обучения, а точнее, задача классификации, в которой целевая переменная (то, что мы пытаемся предсказать) может принимать только два возможных значения или класса.

Суть заключается в том, чтобы разделить объекты или данные на две взаимоисключающие категории.

Проще говоря, это принятие решения типа «да» или «нет», «один» или «другой».

Примеры бинарной классификации:

Да/Нет: Присутствует ли признак?
Правда/Ложь: Является ли утверждение истинным?
Положительный/Отрицательный: (например, анализ тональности текста — отзыв положительный или отрицательный?)
Спам/Не спам: Является ли электронное письмо спамом?
Болен/Здоров: Есть ли у пациента определенное заболевание?
Купить/Не купить: Сделает ли клиент покупку?
Клик/Не клик: Кликнет ли пользователь по рекламному объявлению?
Мошенничество/Не мошенничество: Является ли транзакция мошеннической?
Дефектный/Не дефектный: Соответствует ли продукт стандартам качества?

Как это работает (в общих чертах):

Обучение: Модель бинарной классификации обучается на наборе данных, где для каждого примера уже известен его класс (обучающая выборка). Например, для обучения модели спам-фильтра ей показывают тысячи писем, помеченных как «спам» или «не спам».
Выявление закономерностей: Модель анализирует признаки (слова, отправителя, тему письма и т. д.) и учится различать паттерны, которые характерны для каждого из двух классов.
Предсказание: После обучения модель может брать новые, ранее не виденные данные (например, новое входящее письмо) и предсказывать, к какому из двух классов они относятся (спам или не спам).

Ключевые особенности:

Два класса: Всегда только два возможных исхода.
Разделение: Задача сводится к поиску границы или правила, которое наилучшим образом разделяет данные на две группы.
Вероятность: Часто модели выдают не просто класс, а вероятность принадлежности к одному из классов (например, 80 % вероятность, что это спам), после чего применяется порог (например, 0.5) для окончательного решения.

[править] Применение

Бинарная классификация является одной из самых распространенных и фундаментальных задач в машинном обучении и используется в самых разных областях:

Фильтрация спама в электронной почте.
Медицинская диагностика (например, выявление наличия или отсутствия заболевания по симптомам или результатам анализов).
Обнаружение мошенничества в финансовых операциях.
Анализ тональности текста (позитив/негатив).
Прогнозирование оттока клиентов (уйдет клиент или останется).
Контроль качества продукции (годен/брак).

[править] Анализ

[править] Алгоритмы

Логистическая регрессия (Logistic Regression):

Плюсы: Проста в понимании и интерпретации (коэффициенты показывают влияние признаков), быстрая, хорошо работает с линейно разделимыми данными, отличная «базовая» модель для сравнения. Выдает вероятности.
Минусы: Плохо справляется с нелинейными зависимостями без предварительного преобразования признаков.
Когда использовать: Когда нужна интерпретируемость, данные относительно линейны, или как первый, быстрый прототип.

Метод опорных векторов (Support Vector Machines, SVM):

Плюсы: Эффективен в пространствах высокой размерности, хорошо работает даже при небольшом количестве выборок, использует «ядерный трюк» (kernel trick) для обработки нелинейных зависимостей.
Минусы: Может быть медленным на очень больших наборах данных, чувствителен к масштабу признаков, сложно интерпретировать.
Когда использовать: Когда данные нелинейны, но не очень объёмны, и требуется высокая точность.

Деревья решений (Decision Trees):

Плюсы: Легко интерпретируются (можно визуализировать), не требуют масштабирования признаков, могут обрабатывать как числовые, так и категориальные данные.
Минусы: Склонны к переобучению, могут быть нестабильными (малые изменения в данных приводят к большим изменениям в дереве).
Когда использовать: Когда нужна интерпретируемость, или как основа для ансамблевых методов.

Случайный лес (Random Forest):

Плюсы: Очень надёжен и точен, снижает переобучение по сравнению с одним деревом, хорошо работает с большим количеством признаков, менее чувствителен к шуму.
Минусы: Менее интерпретируем, чем одно дерево.
Когда использовать: В большинстве случаев, как мощная и надежная «рабочая лошадка».

Градиентный бустинг (Gradient Boosting — XGBoost, LightGBM, CatBoost):

Плюсы: Часто показывают наилучшие результаты на табличных данных, очень мощные и гибкие, эффективно обрабатывают пропущенные значения.
Минусы: Склонны к переобучению при неправильной настройке гиперпараметров, более сложны в понимании и настройке.
Когда использовать: Когда нужна максимально возможная точность на табличных данных.

Наивный Байес (Naive Bayes):

Плюсы: Прост, быстр, хорошо работает с большими наборами данных, особенно эффективен для текстовой классификации (спам, анализ тональности).
Минусы: Основан на сильном предположении о независимости признаков, что редко соответствует действительности.
Когда использовать: Для текстовой классификации, когда скорость обучения важна, или как базовая модель.

K-ближайших соседей (k-Nearest Neighbors, k-NN):

Плюсы: Прост в реализации, непараметрический (не делает предположений о распределении данных).
Минусы: Медленный на больших наборах данных (требует хранения всей обучающей выборки), чувствителен к масштабу признаков и выбросам.
Когда использовать: Для небольших наборов данных, как простой базовый алгоритм.

Нейронные сети (Neural Networks):

Плюсы: Очень мощные для обнаружения сложных нелинейных закономерностей, особенно хороши для работы с изображениями, звуком, текстом (после векторизации).
Минусы: Требуют больших объёмов данных для обучения, вычислительно затратны, «черный ящик» (сложно интерпретировать), требуют тщательной настройки.
Когда использовать: Для сложных задач, когда другие методы не дают достаточной точности, или для неструктурированных данных.

[править] Метрики оценки

Матрица ошибок (Confusion Matrix): Основа для большинства метрик. Показывает количество:

True Positives (TP): Правильно классифицированные положительные классы.
True Negatives (TN): Правильно классифицированные отрицательные классы.
False Positives (FP): Ошибочно классифицированные положительные (ошибка I рода).
False Negatives (FN): Ошибочно классифицированные отрицательные (ошибка II рода).

Точность (Accuracy):

(TP + TN) / (TP + TN + FP + FN)
Когда использовать: Когда классы сбалансированы.
Когда НЕ использовать: При несбалансированных классах, так как высокая точность может быть обманчивой (например, 99 % точности при 99 % отрицательных классах).

Полнота / Чувствительность (Recall / Sensitivity):

TP / (TP + FN)
Что показывает: Долю фактических положительных объектов, которые были правильно идентифицированы.
Когда использовать: Когда стоимость ложноотрицательных результатов (FN) очень высока (например, пропуск больного человека, обнаружение мошенничества).

Точность (Precision):

TP / (TP + FP)
Что показывает: Долю предсказанных положительных объектов, которые на самом деле являются положительными.
Когда использовать: Когда стоимость ложноположительных результатов (FP) очень высока (например, пометка нормального письма как спам, ошибочное обвинение в мошенничестве).

F1-мера (F1-score):

2 * (Precision * Recall) / (Precision + Recall)
Что показывает: Гармоническое среднее между Precision и Recall.
Когда использовать: Когда нужен баланс между Precision и Recall, особенно при несбалансированных классах.

Специфичность (Specificity):

TN / (TN + FP)
Что показывает: Долю фактических отрицательных объектов, которые были правильно идентифицированы.

ROC-кривая (Receiver Operating Characteristic Curve) и AUC (Area Under the Curve):

Что показывает: ROC-кривая отображает компромисс между True Positive Rate (Recall) и False Positive Rate (1 — Specificity) при различных порогах классификации. AUC — это площадь под этой кривой.
Когда использовать: Отличная метрика для оценки общей производительности классификатора независимо от выбранного порога, особенно полезна при несбалансированных классах. Чем ближе AUC к 1, тем лучше модель.

PR-кривая (Precision-Recall Curve) и PR AUC:

Что показывает: Отображает компромисс между Precision и Recall. AUC под PR-кривой.
Когда использовать: Рекомендуется для сильно несбалансированных классов, так как она фокусируется на производительности положительного класса, и менее подвержена влиянию большого количества истинно отрицательных результатов, чем ROC-кривая.

Логарифмическая функция потерь (Log Loss / Cross-Entropy Loss):

Что показывает: Насколько «уверена» модель в своих предсказаниях и насколько эти предсказания верны. Сильно наказывает за уверенные, но неверные предсказания.
Когда использовать: Для моделей, которые выдают вероятности принадлежности к классу (например, логистическая регрессия, нейронные сети). Чем меньше Log Loss, тем лучше.

[править] Подготовка данных

Подготовка данных:

Очистка данных: Обработка пропущенных значений, выбросов.
Масштабирование признаков: Нормализация или стандартизация (важно для SVM, k-NN, нейронных сетей).
Кодирование категориальных признаков: One-Hot Encoding, Label Encoding.
Генерация новых признаков (Feature Engineering): Создание более информативных признаков из существующих.

[править] Выбор признаков

Выбор признаков (Feature Selection): Удаление нерелевантных или избыточных признаков для улучшения производительности и интерпретируемости. Методы: фильтрация, обертывание, встраивание.

[править] Обработка несбалансированных данных

Обработка несбалансированных данных (Handling Imbalanced Data):

Передискретизация (Resampling):
- Oversampling: Увеличение количества примеров миноритарного класса (например, SMOTE).
- Undersampling: Уменьшение количества примеров мажоритарного класса.
Использование взвешенных функций потерь (Class Weighting): Присвоение большего веса ошибкам для миноритарного класса.
Изменение порога классификации: Вместо стандартного 0.5, выбрать порог, который оптимизирует нужную метрику (Recall, Precision).

[править] Перекрёстная проверка

Перекрёстная проверка (Cross-validation): K-Fold Cross-Validation — стандартный метод для надежной оценки производительности модели и снижения смещения оценки.

[править] Настройка гиперпараметров

Настройка гиперпараметров (Hyperparameter Tuning): Grid Search, Random Search, Bayesian Optimization — для поиска оптимальных параметров модели.

[править] Процесс анализа

1. Понимание задачи: Четкое определение, что является положительным, а что отрицательным классом, и каковы последствия различных типов ошибок.

2. Сбор и подготовка данных: Очистка, преобразование, создание признаков.

3. Разделение данных: На обучающую, валидационную и тестовую выборки.

4. Выбор нескольких моделей-кандидатов: Начните с простых (логистическая регрессия) и переходите к более сложным (Random Forest, XGBoost).

5. Обучение и оценка: Обучите каждую модель на обучающей выборке и оцените ее производительность на валидационной с использованием релевантных метрик (с учетом дисбаланса классов, если есть). Используйте кросс-валидацию.

6. Настройка гиперпараметров: Оптимизируйте производительность выбранных моделей.

7. Финальная оценка: На тестовой выборке (которую модель никогда не видела) для получения несмещенной оценки.

8. Интерпретация: Если интерпретируемость важна, проанализируйте, как модель принимает решения.

Источник — «http://newsruss.ru/doc/index.php/%D0%91%D0%B8%D0%BD%D0%B0%D1%80%D0%BD%D0%B0%D1%8F_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D1%8F»

Категория: Бинарная классификация