Секреты датасетов: практическое руководство по анализу и обработке данных
Реклама. ООО «ЛитРес», ИНН: 7719571260.
Оглавление
Виталий Александрович Гульчеев. Секреты датасетов: практическое руководство по анализу и обработке данных
Глава 1: Введение в датасеты
1.2 Важность датасетов в анализе данных и машинном обучении
Глава 2: Источники датасетов
2.1 Общедоступные ресурсы и базы данных
2.2 Создание собственного датасета
2.3 Этические аспекты сбора данных
Глава 3: Форматы и структуры данных
3.1 Табличные данные (CSV, Excel, SQL)
3.2 Текстовые данные (JSON, XML)
3.3 Изображения и видео
3.4 Временные ряды и геопространственные данные
Глава 4: Предобработка данных
4.1 Очистка данных
4.2 Нормализация и стандартизация данных
4.3 Кодирование категориальных переменных
4.4 Разделение данных на обучающую и тестовую выборки
4.5 Аугментация данных
Глава 4: Предобработка и очистка данных
4.1 Удаление дубликатов и пропущенных значений
4.2 Преобразование типов данных и масштабирование
4.3 Обработка текстовых данных и изображений
Глава 5: Исследовательский анализ данных (EDA)
5.1 Визуализация данных
5.2 Описательная статистика и корреляционный анализ
5.3 Выявление аномалий и выбросов
Глава 6: Разделение датасета на обучающую, валидационную и тестовую выборки
6.1 Принципы разделения данных
6.2 K-fold кросс-валидация
6.3 Стратификация и временная серия разделения
Глава 7: Балансировка данных
7.1 Введение в проблему дисбаланса классов
7.2 Оверсэмплинг и андерсэмплинг
7.3 Синтетические методы генерации данных (SMOTE)
Глава 8: Аугментация данных
8.1 Основы аугментации данных
8.2 Аугментация изображений
8.3 Аугментация текстовых данных
Глава 10: Работа с датасетами в популярных библиотеках
10.1 Работа с датасетами в Python (pandas, NumPy)
10.2 Работа с датасетами в R (dplyr, data.table)
10.3 Работа с датасетами в других языках и инструментах
Список рекомендуемых книг, которые помогут вам изучить и совершенствовать свои навыки работы с датасетами и анализа данных:
Отрывок из книги
Датасет (от англ. dataset, «набор данных») – это структурированная коллекция данных, используемая для анализа, обработки или обучения моделей машинного обучения. Датасет состоит из наблюдений (экземпляров) и признаков (характеристик), которые описывают каждое наблюдение. В контексте машинного обучения наблюдения называются объектами, а признаки – переменными или атрибутами.
Рассмотрим пример датасета с информацией о погоде:
.....
Сравнение различных моделей: датасеты позволяют сравнивать разные алгоритмы машинного обучения, выбирая наиболее подходящий для конкретной задачи.
Пример использования датасета для задачи машинного обучения:
.....