Использование embeddings: векторное представление текста
Реклама. ООО «ЛитРес», ИНН: 7719571260.
Оглавление
Группа авторов. Использование embeddings: векторное представление текста
Глава 1. Что такое embeddings?
Глава 2. Обзор классических методов векторизации текста
Глава 3. Метод Word2Vec
Глава 4. Метод FastText
Глава 5. Модель BERT и архитектура трансформеров
Глава 6. Классификация документов и контента
Глава 7. Поисковые системы и рекомендательные системы
Глава 8. Кластеризация и семантический поиск
Глава 9. Метрики оценки embeddings
Глава 10. Отладка и улучшение embeddings
Глава 11.Перспективы и направления дальнейших исследований
Отрывок из книги
При работе с текстом машинное обучение сталкивается с необходимостью представления строковых данных (текста) в числовом формате, пригодном для обработки алгоритмами машинного обучения. Это называется **векторизацией текста**. Цель данной главы – познакомить читателя с основными подходами и классическими методами преобразования естественного языка в вектора, применяемыми в современных системах анализа текста.
Основные методы векторизации текста
.....
3. Word Embeddings
Метод word embedding представляет собой гораздо более гибкий способ отображения слов в пространстве низкой размерности. Вместо статичных булевых векторов, представляющих каждое слово через наличие/отсутствие конкретного признака, здесь каждая лексема кодируется динамическим вектором, отражающим её контекст в конкретной модели. Эти векторы имеют следующие важные свойства:
.....