Описание книги
Книга рассчитана на программистов, пишущих на Python и желающих узнать о построении систем машинного обучения с помощью библиотек с открытым исходным кодом. Мы рассматриваем основные модели машинного обучения на примерах, взятых из реальной жизни. Эта книга будет полезна также специалистам по машинному обучению, желающим использовать Python для создания своих систем.
В главе 1 "Введение в машинное обучение на языке Python" читатель знакомится с основной идеей машинного обучения на очень простом примере. Но, несмотря на простоту, в этом примере имеет место опасность переобучения.
В главе 2 "Классификация в реальной жизни" мы используем реальные данные, чтобы продемонстрировать классификацию и научить компьютер различать различные классы цветов.
В главе 3 "Кластеризация - поиск взаимосвязанных сообщений" мы узнаем об эффективности модели набора слов, с помощью которой сумеем найти похожие сообщения, не "понимая" их смысла.
В главе 4 "Тематическое моделирование" мы не станем ограничиваться отнесением сообщения только к одному кластеру, а свяжем с ним несколько тем, поскольку политематичность характерна для реальных текстов.
В главе 5 "Классификация - выявление плохих ответов" мы узнаем, как применить дилемму смещения-дисперсии к отладке моделей машинного обучения, хотя эта глава посвящена в основном использованию логистической регрессии для оценки того, хорош или плох ответ пользователя на заданный вопрос.
В главе 6 "Классификация II - анализ эмоциональной окраски" объясняется принцип работы наивного байесовского классификатора и описывается, как с его помощью узнать, несет ли твит положительный или отрицательный эмоциональный заряд.
В главе 7 "Регрессия" объясняется, как использовать классический, но не утративший актуальности метод - регрессию - при обработке данных. Вы узнаете и о более сложных методах регрессии, в частности Lasso и эластичных сетях.
В главе 8 "Рекомендование" мы построим систему рекомендования на основе выставленных потребителями оценок. Мы также узнаем, как формировать рекомендации, имея только данные о покупках, безо всяких оценок (которые пользователи выставляют далеко не всегда). В главе 9 "Классификация по музыкальным жанрам" мы предположим, что кто-то сознательно внес хаос в нашу огромную коллекцию музыкальных произведений, и единственная надежда навести порядок - поручить машине их классификацию. Как выяснится, иногда лучше довериться чужому опыту, чем создавать признаки самостоятельно.
В главе 10 " Машинное зрение" мы применим методы классификации к обработке изображений, выделяя признаки из данных. Мы также увидим, как с помощью этих методов можно находить похожие изображения в наборе.
Из главы 11 "Понижение размерности" мы узнаем о методах, позволяющих уменьшить объем данных, чтобы алгоритмы машинного обучения могли с ними справиться.
В главе 12 "Когда данных больше" мы рассмотрим некоторые подходы, позволяющие успешно обрабатывать большие наборы данных, задействуя несколько ядер или вычислительные кластеры. Мы также познакомимся с основами облачных вычислений (на примере служб Amazon Web Services).
В приложении "Где получить дополнительные сведения о машинном обучении" перечислены многочисленные полезные ресурсы, посвященные этой теме.