Читать книгу Цифровая эра ИИ - - Страница 5
Часть I: Пробуждение
Глава 2: Нейронный резонанс
– Как может мыслить искусственный разум
ОглавлениеСпустя неделю после конференции и той судьбоносной встречи с Денисом и Марией, их посиделок в кафе на первом этаже конференц-центра, Александр уже не мог мыслить прежними категориями. Технологии увлекали его с детства – космос, научные шоу, открытия будущего всегда будоражили его воображение. Вот и сейчас хотелось больше узнать про этот новый мир, на наступление которого ему указали, хотелось быстрее понять, быстрее начать жить в нём. Но всё ещё казалось, что это где-то на грани фантастики, чуть дальше, чем можно дотянуться.
«Знаете, что общего между мозгом наркомана и нейронной сетью?» – спросила Анна Ким в большую аудиторию, поправляя свои огромные круглые очки.
«Они оба используют механизм предсказания ошибки через дофаминовую систему,» – продолжила она, не дожидаясь ответа. – «У нас есть древние структуры глубоко в мозге, своеобразные дирижёры наших движений и решений, эти структуры называются базальными ганглиями. И там специальные нейроны постоянно прогнозируют результат наших действий. Когда реальность не совпадает с прогнозом, происходит выброс дофамина. Это и есть сигнал ошибки».
Александр вспомнил свой разговор с Денисом неделю назад. Тот говорил про какие-то Q-функции в обучении с подкреплением, но тогда это казалось абстрактной математикой. А теперь эти же функции на лекции про мозг…
«Получается, наш мозг – это такая биологическая система машинного обучения?» – робко спросил он.
«Скорее наоборот – современные системы машинного обучения во многом копируют принципы работы мозга. Смотрите», – Анна начала быстро писать на доске:
Q (s,a) = R + γ * max (Q (s’,a’))
«Это базовая формула Q-learning (метод машинного обучения с подкреплением). Она описывает, как агент учится принимать оптимальные решения методом проб и ошибок. R – это немедленное вознаграждение, γ (гамма) – фактор обесценивания будущих наград, а max (Q (s’,a’)) – максимальная ожидаемая награда в будущем».
«Как в шахматах? Оценка текущего хода с учётом будущей позиции?» – воодушевлённо отметил Александр.
«Почти! Но есть принципиальная разница между тем, как считает компьютер и как думает человек», – Анна сделала паузу. «Компьютер в шахматах перебирает тысячи вариантов каждую секунду. А когда гроссмейстер смотрит на доску, он просто видит правильный ход. Это то, что мы называем интуицией».
Она подошла ближе к доске. «Представьте, что каждую ночь, когда вы спите, ваш мозг запускает миллионы симуляций возможных ситуаций. Он проигрывает сценарии: что случится, если я сделаю то или это? Каждый раз, когда вы принимаете решение наяву, вы опираетесь на опыт этих виртуальных симуляций».
«Древние люди, увидев тень в кустах, не проводили статистический анализ вероятности появления хищника. Их мозг уже проиграл тысячи подобных сценариев и выработал моментальную реакцию – беги или сражайся. Те, чей мозг работал медленнее, просто не выжили. Поэтому мы все сегодня обладаем этой удивительной способностью – учиться на опыте, которого у нас никогда не было в реальности».
«Хм, как-то это сложно», – с неким разочарованием проговорил Александр.
«Анна Евгеньевна, это мой знакомый Александр, он предприниматель, у него свой бар», – проговорила Мария, посмотрев сначала на Александра, потом на Анну Ким.
«О, ресторатор! Это интересно. Давайте я попробую объяснить
Q-функции на примере бара», – вдруг воодушевлённо проговорила Анна Евгеньевна и начала записывать на доске схему с пояснениями.
Пример: Официант в кафе
Ситуация:
– У вас есть выбор между обслуживанием двух типов столиков: у окна и в центре зала.
– Вы не знаете, какие столики дают больше чаевых, но можете учиться на опыте.
Параметры:
Состояния (s): «Свободен для выбора столика»
Действия (a): «Обслужить столик у окна» (a = 0)
или «Обслужить столик в центре» (a = 1)
Награда (r): Чаевые, которые вы получаете (в рублях)
γ (gamma): Коэффициент дисконтирования, 0.9
(вы немного думаете о будущем)
α (alpha): Скорость обучения, 0.1
(вы осторожно меняете своё мнение)
Начальные ожидания:
Изначально вы думаете, что все столики равноценны, поэтому:
Q (окно) = Q (центр) = 0
Процесс обучения:
День 1:
Вы обслуживаете столик у окна и получаете 200 рублей чаевых.
Q (окно) =0+0.1× (2+0.9×0—0) =0.2
Вы обслуживаете столик в центре и получаете 300 рублей чаевых.
Q (центр) =0+0.1× (3+0.9×0—0) =0.3
День 2:
Вы снова обслуживаете столик у окна и получаете 100 рублей чаевых.
Q (окно) =0.2+0.1× (1+0.9×0.3—0.2) =0.227
Вы обслуживаете столик в центре и получаете 400 рублей чаевых.
Q (центр) =0.3+0.1× (4+0.9×0.3—0.3) =0.657
«Ну что, как вам такой пример?» – спросила Анна у всего зала.
«Это всё ещё сложно, но в принципе доступно и в принципе понятно, спасибо!» – радостно и громко сказал Александр.
«То есть, если я правильно понял, ИИ, ну или в нашем примере официант просто запоминает, какие столики приносили больше чаевых, и старается выбирать их в следующий раз?»
«Да, что-то вроде того!» – улыбнулась Анна. – «Он учится на опыте: чем больше информации, тем точнее его выбор. Со временем он понимает, что обслуживание столиков в центре приносит больше чаевых, и будет выбирать их чаще».
Лекция закончилась. Александр с Марией неспешно шли по длинному коридору к выходу.
«Как тебе?» – спросила Мария.
«Спасибо, что пригласила, это было здорово. Как только это можно применить к моему бизнесу?»
«Знаешь, у меня есть идея. В твоём баре можно внедрить систему рекомендаций коктейлей, основанную на тех же принципах
Q-learning. Она будет учиться на предпочтениях гостей и предсказывать, что им понравится. Начнём с простого – ты ведь так и не предоставил доступ к своим данным, открой мне доступ хотя бы к данным о продажах за последний год, и я покажу тебе, как это работает на практике».