Читать книгу Нейросети. Раскройте всю мощь нейронных сетей: полное руководство по пониманию, внедрению ИИ - - Страница 7

Часть I: Начало работы с нейронными сетями
Подготовка данных для нейронных сетей
Работа с категориальными переменными

Оглавление

Категориальные переменные создают уникальные проблемы в нейронных сетях, поскольку для их эффективного использования требуется соответствующее представление и кодирование. В этой главе мы рассмотрим методы работы с категориальными переменными в нейронных сетях:

1. Кодирование этикетки:

– Кодировка меток присваивает уникальную числовую метку каждой категории в категориальной переменной.

– Каждая категория сопоставляется с целочисленным значением, что позволяет нейронным сетям обрабатывать данные.

– Однако кодирование меток может привести к появлению порядковых отношений между категориями, которых не существует, что может привести к неправильным интерпретациям.

2. Одногорячее кодирование:

– Одноразовое кодирование – популярный метод представления категориальных переменных в нейронной сети.

– Каждая категория преобразуется в двоичный вектор, где каждый элемент представляет наличие или отсутствие определенной категории.

– Однотонная кодировка гарантирует, что каждая категория представлена одинаково, и удаляет любые подразумеваемые порядковые отношения.

– Это позволяет нейронной сети рассматривать каждую категорию как отдельную функцию.

3. Встраивание:

– Встраивание – это метод, который изучает низкоразмерное представление категориальных переменных в нейронной сети.

– Он сопоставляет каждую категорию с плотным вектором непрерывных значений, при этом аналогичные категории имеют векторы, расположенные ближе в пространстве внедрения.

– Встраивание особенно полезно при работе с многомерными категориальными переменными или когда отношения между категориями важны для задачи.

– Нейронные сети могут изучать вложения в процессе обучения, фиксируя значимые представления категориальных данных.

4. Встраивание сущностей:

– Встраивание сущностей – это специализированная форма внедрения, использующая преимущества связей между категориями.

– Например, в рекомендательных системах встраивание сущностей может представлять категории пользователей и элементов в совместном пространстве внедрения.

– Встраивание сущностей позволяет нейронной сети изучать отношения и взаимодействия между различными категориями, повышая ее предсказательную силу.

5. Хеширование функций:

– Хеширование признаков, или трюк с хешированием, – это метод, который преобразует категориальные переменные в векторное представление фиксированной длины.

– Он применяет хеш-функцию к категориям, сопоставляя их с предопределенным количеством измерений.

– Хеширование функций может быть полезно, когда количество категорий велико и их кодирование по отдельности становится непрактичным.

Выбор метода работы с категориальными переменными зависит от характера данных, количества категорий и отношений между категориями. Обычно используются одноразовое кодирование и внедрение, причем встраивание особенно эффективно при захвате сложных взаимодействий категорий. Тщательное рассмотрение соответствующего метода кодирования гарантирует, что категориальные переменные правильно представлены и могут внести значимый вклад в предсказания нейронной сети.

Нейросети. Раскройте всю мощь нейронных сетей: полное руководство по пониманию, внедрению ИИ

Подняться наверх