Читать книгу Нейросети. Раскройте всю мощь нейронных сетей: полное руководство по пониманию, внедрению ИИ - - Страница 5
Часть I: Начало работы с нейронными сетями
Подготовка данных для нейронных сетей
Методы предварительной обработки данных
ОглавлениеПредварительная обработка данных играет жизненно важную роль в подготовке данных к обучению нейронной сети. Он включает в себя ряд методов и шагов по очистке, преобразованию и нормализации данных. В этой главе мы рассмотрим некоторые распространенные методы предварительной обработки данных, используемые в нейронных сетях:
1. Очистка данных:
– Очистка данных включает в себя обработку отсутствующих значений, выбросов и несоответствий в наборе данных.
– Отсутствующие значения могут быть вменены с использованием таких методов, как среднее условное исчисление, медианное условное исчисление или условное исчисление на основе статистических моделей.
– Выбросы, которые представляют собой экстремальные значения, отклоняющиеся от большинства данных, могут быть обнаружены и либо удалены, либо обработаны с помощью таких методов, как Winsorization или замена статистически правдоподобными значениями.
– Несогласованные данные, такие как конфликтующие записи или проблемы с форматированием, могут быть устранены путем проверки и стандартизации данных.
2. Нормализация и стандартизация данных:
– Нормализация и стандартизация данных – это методы, используемые для масштабирования числовых признаков до аналогичного диапазона.
– Нормализация масштабирует данные до диапазона от 0 до 1, в то время как стандартизация преобразует данные в среднее значение 0 и стандартное отклонение 1.
– Нормализация часто подходит для алгоритмов, которые предполагают ограниченный входной диапазон, в то время как стандартизация полезна, когда объекты имеют различные масштабы и распределения.
3. Одноразовое горячее кодирование:
– Одноразовое кодирование используется для представления категориальных переменных в виде двоичных векторов.
– Каждая категория преобразуется в двоичный вектор, где только один элемент равен 1 (что указывает на наличие этой категории), а остальные равны 0.
– Одноразовое кодирование позволяет использовать категориальные данные в качестве входных данных в нейронных сетях, позволяя им обрабатывать нечисловую информацию.
4. Масштабирование функций:
– Масштабирование признаков гарантирует, что числовые объекты находятся в аналогичном масштабе, не позволяя одним объектам доминировать над другими из-за различий в величинах.
– Общие методы включают минимальное и максимальное масштабирование, когда функции масштабируются до определенного диапазона, и стандартизацию, как упоминалось ранее.
5. Уменьшение размерности:
– Методы уменьшения размерности уменьшают количество входных элементов, сохраняя при этом важную информацию.
– Анализ главных компонент (PCA) и t-SNE (t-распределенное стохастическое встраивание соседей) являются популярными методами уменьшения размерности.
– Уменьшение размерности может помочь смягчить проклятие размерности и повысить эффективность обучения.
6. Сплит и перекрестная проверка обучения-тестирования:
– Чтобы оценить производительность нейронной сети, важно разделить данные на обучающий и тестовый наборы.
– Обучающий набор используется для обучения сети, а тестовый – для оценки ее производительности на невидимых данных.
– Перекрестная проверка – это еще один метод, при котором набор данных разделяется на несколько подмножеств (складок) для итеративного обучения и тестирования сети, получения более надежной оценки ее производительности.
Эти методы предварительной обработки данных применяются для обеспечения того, чтобы данные находились в подходящей форме для обучения нейронных сетей. Очищая данные, обрабатывая отсутствующие значения, масштабируя функции и уменьшая размерность, мы можем улучшить производительность сети, повысить ее эффективность и добиться лучшего обобщения невидимых данных.