Читать книгу Нейросети. Раскройте всю мощь нейронных сетей: полное руководство по пониманию, внедрению ИИ - - Страница 5

Часть I: Начало работы с нейронными сетями
Подготовка данных для нейронных сетей
Методы предварительной обработки данных

Оглавление

Предварительная обработка данных играет жизненно важную роль в подготовке данных к обучению нейронной сети. Он включает в себя ряд методов и шагов по очистке, преобразованию и нормализации данных. В этой главе мы рассмотрим некоторые распространенные методы предварительной обработки данных, используемые в нейронных сетях:

1. Очистка данных:

– Очистка данных включает в себя обработку отсутствующих значений, выбросов и несоответствий в наборе данных.

– Отсутствующие значения могут быть вменены с использованием таких методов, как среднее условное исчисление, медианное условное исчисление или условное исчисление на основе статистических моделей.

– Выбросы, которые представляют собой экстремальные значения, отклоняющиеся от большинства данных, могут быть обнаружены и либо удалены, либо обработаны с помощью таких методов, как Winsorization или замена статистически правдоподобными значениями.

– Несогласованные данные, такие как конфликтующие записи или проблемы с форматированием, могут быть устранены путем проверки и стандартизации данных.

2. Нормализация и стандартизация данных:

– Нормализация и стандартизация данных – это методы, используемые для масштабирования числовых признаков до аналогичного диапазона.

– Нормализация масштабирует данные до диапазона от 0 до 1, в то время как стандартизация преобразует данные в среднее значение 0 и стандартное отклонение 1.

– Нормализация часто подходит для алгоритмов, которые предполагают ограниченный входной диапазон, в то время как стандартизация полезна, когда объекты имеют различные масштабы и распределения.

3. Одноразовое горячее кодирование:

– Одноразовое кодирование используется для представления категориальных переменных в виде двоичных векторов.

– Каждая категория преобразуется в двоичный вектор, где только один элемент равен 1 (что указывает на наличие этой категории), а остальные равны 0.

– Одноразовое кодирование позволяет использовать категориальные данные в качестве входных данных в нейронных сетях, позволяя им обрабатывать нечисловую информацию.

4. Масштабирование функций:

– Масштабирование признаков гарантирует, что числовые объекты находятся в аналогичном масштабе, не позволяя одним объектам доминировать над другими из-за различий в величинах.

– Общие методы включают минимальное и максимальное масштабирование, когда функции масштабируются до определенного диапазона, и стандартизацию, как упоминалось ранее.

5. Уменьшение размерности:

– Методы уменьшения размерности уменьшают количество входных элементов, сохраняя при этом важную информацию.

– Анализ главных компонент (PCA) и t-SNE (t-распределенное стохастическое встраивание соседей) являются популярными методами уменьшения размерности.

– Уменьшение размерности может помочь смягчить проклятие размерности и повысить эффективность обучения.

6. Сплит и перекрестная проверка обучения-тестирования:

– Чтобы оценить производительность нейронной сети, важно разделить данные на обучающий и тестовый наборы.

– Обучающий набор используется для обучения сети, а тестовый – для оценки ее производительности на невидимых данных.

– Перекрестная проверка – это еще один метод, при котором набор данных разделяется на несколько подмножеств (складок) для итеративного обучения и тестирования сети, получения более надежной оценки ее производительности.

Эти методы предварительной обработки данных применяются для обеспечения того, чтобы данные находились в подходящей форме для обучения нейронных сетей. Очищая данные, обрабатывая отсутствующие значения, масштабируя функции и уменьшая размерность, мы можем улучшить производительность сети, повысить ее эффективность и добиться лучшего обобщения невидимых данных.

Нейросети. Раскройте всю мощь нейронных сетей: полное руководство по пониманию, внедрению ИИ

Подняться наверх