Читать книгу Машинное обучение. Погружение в технологию - - Страница 2
Глава 2: Обучение с учителем
Оглавление2.1 Линейная регрессия
Линейная регрессия – это один из основных методов Машинного обучения, используемый для предсказания непрерывной зависимой переменной на основе линейной комбинации независимых переменных. Она является простым и интерпретируемым алгоритмом.
В линейной регрессии предполагается, что существует линейная связь между независимыми и зависимой переменными. Модель линейной регрессии определяется уравнением:
y = b0 + b1x1 + b2x2 + … + bn*xn
где y – зависимая переменная, x1, x2, …, xn – независимые переменные, b0, b1, b2, …, bn – коэффициенты модели, которые определяют веса, или важность, каждой независимой переменной.
Для оценки коэффициентов модели используется метод наименьших квадратов (МНК), который минимизирует сумму квадратов разностей между фактическими и предсказанными значениями зависимой переменной.
Линейная регрессия может быть однофакторной (с одной независимой переменной) или многофакторной (с несколькими независимыми переменными). Она может использоваться для прогнозирования значений на основе новых данных или для анализа влияния отдельных переменных на зависимую переменную. Кроме обычной линейной регрессии, существуют различные варианты этого метода, которые могут решать специфические задачи или учитывать особенности данных. Например, существуют регуляризованные модели линейной регрессии, такие как Ridge (гребневая регрессия) и Lasso (лассо-регрессия), которые добавляют штрафы к коэффициентам модели для борьбы с переобучением и улучшения обобщающей способности.
Линейная регрессия также может быть расширена для работы с нелинейными связями между переменными путем добавления полиномиальных или других нелинейных функций признаков. Это называется полиномиальной регрессией или нелинейной регрессией.
Одним из преимуществ линейной регрессии является ее простота и интерпретируемость. Коэффициенты модели позволяют оценить вклад каждой независимой переменной и понять, как они влияют на зависимую переменную. Кроме того, линейная регрессия требует меньше вычислительных ресурсов по сравнению с некоторыми более сложными моделями.
Однако линейная регрессия имеет свои ограничения. Она предполагает линейную связь между переменными, и если это предположение нарушено, модель может быть неправильной. Кроме того, она чувствительна к выбросам и может давать неверные предсказания в случае наличия значительных отклонений в данных.
2.2 Логистическая регрессия
Логистическая регрессия – это алгоритм классификации, используемый для прогнозирования вероятности принадлежности наблюдения к определенному классу. Она часто применяется в задачах бинарной классификации, где требуется разделить данные на два класса.
В логистической регрессии используется логистическая функция (сигмоид), которая преобразует линейную комбинацию независимых переменных в вероятность принадлежности к классу. Функция имеет следующий вид:
p = 1 / (1 + e^(-z))
где p – вероятность принадлежности к классу, z – линейная комбинация независимых переменных.
Модель логистической регрессии оценивает коэффициенты модели с использованием метода максимального правдоподобия. Она стремится максимизировать вероятность соответствия фактическим классам наблюдений.
Логистическая регрессия может быть расширена на многоклассовую классификацию с использованием подходов, таких как one-vs-rest или softmax. Логистическая регрессия является популярным алгоритмом классификации по нескольким причинам. Во-первых, она проста в понимании и реализации. Во-вторых, она обладает хорошей интерпретируемостью, поскольку коэффициенты модели позволяют определить вклад каждой независимой переменной в вероятность классификации. В-третьих, логистическая регрессия может обрабатывать как категориальные, так и числовые признаки, что делает ее гибкой для различных типов данных.
Однако следует отметить, что логистическая регрессия также имеет свои ограничения. Она предполагает линейную разделимость классов, что может быть недостаточным для сложных данных. Кроме того, она чувствительна к выбросам и может давать неверные предсказания, если данные имеют значительные отклонения или нарушают предположения модели.
В применении логистической регрессии важно учитывать также регуляризацию, чтобы справиться с проблемой переобучения и улучшить обобщающую способность модели. Регуляризация может быть выполнена с использованием L1-регуляризации (лассо) или L2-регуляризации (гребневая регрессия).
Логистическая регрессия может быть применена во многих областях, включая медицину, биологию, маркетинг, финансы и многие другие. Она может использоваться для прогнозирования вероятности наступления событий, определения рисков и принятия решений на основе классификации.
2.3 Метод k ближайших соседей
Метод k ближайших соседей (k-NN) – это алгоритм классификации и регрессии, основанный на принципе близости объектов. Он относит новое наблюдение к классу, основываясь на классификации его k ближайших соседей в пространстве признаков.
В алгоритме k-NN выбирается значение k – количество ближайших соседей, которые будут участвовать в принятии решения. Для классификации нового наблюдения происходит подсчет количества соседей в каждом классе, и наблюдение относится к классу с наибольшим числом соседей.
Для классификации с помощью метода k-NN необходимо выбрать значение k – количество ближайших соседей, которые будут участвовать в принятии решения. При поступлении нового наблюдения алгоритм вычисляет расстояние между ним и остальными объектами в обучающем наборе данных. Затем выбираются k объектов с наименьшими расстояниями, и их классы используются для определения класса нового наблюдения. Например, если большинство ближайших соседей относится к классу "A", то новое наблюдение будет отнесено к классу "A".
В задачах регрессии метод k-NN использует среднее или медианное значение целевой переменной у k ближайших соседей в качестве прогноза для нового наблюдения. Таким образом, предсказание для нового наблюдения вычисляется на основе значений его ближайших соседей.
Выбор метрики расстояния является важным аспектом в методе k-NN. Евклидово расстояние является наиболее распространенной метрикой, но также можно использовать и другие метрики, такие как манхэттенское расстояние или расстояние Минковского.
Одним из ограничений метода k-NN является его вычислительная сложность. При большом размере обучающего набора данных поиск ближайших соседей может быть времязатратным. Кроме того, метод k-NN чувствителен к масштабированию данных, поэтому рекомендуется нормализовать или стандартизировать признаки перед применением алгоритма.
Метод k-NN также имеет некоторые проблемы, связанные с выбросами и несбалансированными данными. Выбросы могут искажать результаты, особенно при использовании евклидова расстояния. Кроме того, если классы в обучающем наборе данных несбалансированы (то есть один класс преобладает над другими), то может возникнуть проблема с предсказанием редкого класса.
В целом, метод k-NN представляет собой простой и гибкий алгоритм, который может быть эффективным во многих задачах классификации и регрессии. Однако для его успешного применения необходимо правильно выбрать значение k, подобрать подходящую метрику расстояния и учитывать особенности данных, такие как выбросы и несбалансированность классов.