Читать книгу Resumen De Algoritmos Para Vivir - Коллектив авторов, Ю. Д. Земенков, Koostaja: Ajakiri New Scientist - Страница 9

CAPÍTULO 2. EXPLORAR/EXPLOTAR – LO ÚLTIMO CONTRA LO MÁS GRANDE

Estamos constantemente presionados para decidir entre probar cosas nuevas y atenernos a lo que nos es familiar. La vida es generalmente un equilibrio entre la tradición y la novedad, lo más grande y lo último, y saborear nuestros favoritos y tomar riesgos. Aunque es fácil decir que solo hay que elegir "lo mejor", no es tan simple ya que puede haber mejores cosas por ahí que no conocemos todavía.

Los informáticos han trabajado para encontrar el equilibrio durante más de 50 años. Han llamado a esto la compensación entre exploración y explotación.

El problema del bandido multi-brazo se llama como un juego de palabras del bandido de un brazo, que es una máquina tragaperras de casino. Un jugador de casino entrará sin saber cuál de las máquinas es lucrativa y cuáles son sumideros de dinero. Para maximizar las ganancias, él/ella va a tirar de los brazos en varias máquinas para probarlas (explorando) y él/ella favorecerá las máquinas más prometedoras que encuentre (explotando).

Jugando 15 veces entre dos máquinas, el jugador intenta una, gana 9 veces y pierde 6 veces. Juega la otra, paga una vez y no lo hace la segunda vez. El objetivo del jugador es averiguar qué es más prometedor. Dividiendo las ganancias por el número de tiradas se obtiene el "valor esperado" de la máquina. La primera máquina tiene un 60%, mientras que la segunda solo tiene un 50%. Sin embargo, el jugador debe evaluar más que eso, ya que dos tiradas no son suficientes.

La gente tiene la tendencia a tratar las decisiones como si estuvieran aisladas. Se centran en encontrar el resultado que posea el mayor valor esperado. Pensar en todas las decisiones en lugar de solo en la siguiente requerirá lo que se conoce como la compensación entre exploración y explotación. En el caso del problema del casino, depende de cuánto tiempo el jugador tiene la intención de permanecer en el casino.

El matemático Herbert Robbins ha demostrado que hay una estrategia simple que puede ayudar con estas decisiones —este es el algoritmo Ganar-Quedarse, Perder-Cambiar—. Dice que hay que elegir un brazo al azar y tirar de él mientras que valga la pena. Si no lo hace, entonces el jugador debe cambiar a la otra máquina. Ha demostrado en 1952 que esta estrategia da resultados que son mejores que el azar.

Sin embargo, este algoritmo tiene algunas fallas. Cambiar de brazo cada vez que uno de los brazos falla puede ser precipitado. Experimentar algunas decepciones no significa que tengas que dejar ir una opción que de otra manera sería buena. Tampoco considera el intervalo de tiempo. Si la última comida que comiste en un restaurante no te gustó, el algoritmo dicta que debes encontrar otro lugar para cenar aunque estés a punto de dejar la ciudad. Debido a esto, el bandido multiarmado está esencialmente sin resolver, pero aún así proporciona algunas ideas sobre cómo resolver los predicamentos.

Подняться наверх