Читать книгу Оценка качества моделей машинного обучения: выбор, интерпретация и применение метрик - - Страница 2
Термины и определения
ОглавлениеМодель машинного обучения – алгоритм, который использует статистические методы для обучения на данных и прогнозирования результатов на новых данных.
Метрика качества модели – инструмент для оценки производительности модели машинного обучения. Метрики качества модели позволяют измерить точность и качество работы модели на данных.
Задача классификации – задача машинного обучения, при которой модель должна отнести объекты к определенным классам на основе характеристик объектов.
Задача регрессии – задача машинного обучения, при которой модель должна предсказать численный выход на основе входных данных.
Задача кластеризации – задача машинного обучения, при которой модель должна группировать объекты в кластеры на основе сходства между объектами.
Задача обнаружения аномалий – задача машинного обучения, при которой модель должна определять объекты, которые отличаются от нормального поведения.
Задача обнаружения объектов – задача машинного обучения, при которой модель должна обнаруживать объекты на изображениях и видео.
Accuracy (Точность) – метрика качества модели для задач классификации, которая определяет долю правильных ответов, которые модель дает для всех классов.
Precision (Точность) – метрика качества модели для задач классификации, которая определяет долю истинно положительных ответов относительно всех положительных ответов.
Recall (Полнота) – метрика качества модели для задач классификации, которая определяет долю истинно положительных ответов относительно всех истинно положительных и ложно отрицательных ответов.
F1-score (F-мера) – метрика качества модели для задач классификации, которая является гармоническим средним между точностью и полнотой.
ROC AUC – метрика качества модели для задач классификации, которая измеряет способность модели различать между классами.
Mean Squared Error (MSE) – метрика качества модели для задач регрессии, которая измеряет среднеквадратическую ошибку между прогнозируемым и фактическими значениями.
Root Mean Squared Error (RMSE) – метрика качества модели для задач регрессии, которая является корнем из среднеквадратической ошибки.
Mean Absolute Error (MAE) – метрика качества модели для задач регрессии, которая измеряет среднюю абсолютную ошибку между прогнозируемым и фактическим значением.
R-squared (коэффициент детерминации) – метрика качества модели для задач регрессии, которая измеряет долю дисперсии, которая может быть объяснена моделью.
Silhouette coefficient (коэффициент силуэта) – метрика качества модели для задач кластеризации, которая измеряет степень разделения кластеров.
Calinski-Harabasz index (индекс Калински-Харабаса) – метрика качества модели для задач кластеризации, которая измеряет степень разделения кластеров и межкластерное расстояние.
Davies-Bouldin index (индекс Дэвиса-Болдина) – метрика качества модели для задач кластеризации, которая измеряет суммарное сходство кластеров и их компактность.
AUROC (площадь под кривой операционной характеристики получателя) – метрика качества модели для задач обнаружения аномалий и классификации, которая измеряет способность модели различать между классами и находить аномалии.
Mean Average Precision (mAP) – метрика качества модели для задач обнаружения объектов, которая измеряет среднюю точность распознавания объектов на изображениях.
Intersection over Union (IoU) – метрика качества модели для задач обнаружения объектов, которая измеряет степень перекрытия между прогнозируемыми и фактическими объектами на изображениях.
Overfitting (переобучение) – явление, когда модель слишком хорошо запоминает данные обучения и не может обобщать на новые данные.
Underfitting (недообучение) – явление, когда модель не может достичь достаточной точности на данных обучения и не может обобщать на новые данные.
Cross-validation (кросс-валидация) – метод оценки производительности модели путем разделения данных на несколько частей и обучения модели на одной части и тестирования на другой. Этот процесс повторяется несколько раз с разными разбиениями данных, чтобы усреднить оценку производительности модели.
Hyperparameters (гиперпараметры) – параметры модели машинного обучения, которые настраиваются перед обучением и влияют на ее производительность и способность обобщать на новые данные.
Bias (смещение) – ошибка модели, которая происходит из-за ее недостаточной сложности и невозможности захватить сложные зависимости в данных.
Variance (дисперсия) – ошибка модели, которая происходит из-за ее слишком большой сложности и способности переобучаться на данных обучения.
Regularization (регуляризация) – метод, используемый для уменьшения переобучения модели путем добавления штрафа за сложность модели.
Feature engineering (инженерия признаков) – процесс преобразования и выбора признаков для улучшения производительности модели и увеличения ее способности обобщать на новые данные.