Читать книгу Aprender con big data - Viktor Mayer-Schonberger - Страница 8

Оглавление

ii

CAMBIO

Luis von Ahn tiene toda la pinta del típico universitario estadounidense, y también actúa como tal.10 Le gustan los videojuegos. Conduce un veloz deportivo azul. Y, como a un moderno Tom Sawyer, le gusta que los demás le hagan las tareas. Pero las apariencias engañan. En realidad, Ahn es uno de los más distinguidos profesores de informática del mundo. Y ha puesto a trabajar a cerca de mil millones de personas.

Hace una década, siendo un graduado de veintidós años, Von Ahn ayudó a crear algo llamado captcha: ese texto sinuoso que la gente tiene que teclear en ciertos sitios web, por ejemplo, para abrir una cuenta de correo gratuita. Haciendo esto demuestran que son humanos y no robots generadores de spam. Una versión mejorada (llamada recaptcha) que Ahn le vendió a Google, ponía a la gente a teclear un texto distorsionado, que no se había inventado con ese fin, sino que provenía del proyecto de digitalización de libros de Google: textos que los ordenadores no lograban descifrar. Era una hermosa manera de cumplir dos objetivos con el mismo conjunto de datos: registrarse para cosas online y descifrar palabras al mismo tiempo.

Desde entonces, Von Ahn, que es profesor en la Carnegie Mellon University, ha estado buscando otros twofers, o modos de hacer que la gente aporte datos que tengan una doble utilidad. Lo materializó en una empresa pionera que inauguró en 2012 llamada Duolingo. Esta página y su aplicación para teléfonos móviles ayudan a la gente a aprender idiomas, que es un empeño con el que Ahn puede empatizar, por haber aprendido inglés durante su infancia en Guatemala. Pero la instrucción se lleva a cabo de un modo muy ingenioso.

La compañía pone a la gente a traducir frases pequeñas, o a evaluar y corregir las traducciones de otras personas. En vez de presentar frases inventadas, como suelen hacer los softwares de traducción, Duolingo presenta oraciones reales de documentos que necesitan ser traducidos, traducción por la cual la compañía recibe un pago. Una vez que suficientes estudiantes han traducido o verificado por su cuenta una frase en particular, el sistema la acepta y compila todas las oraciones independientes en un documento completo.

Entre sus clientes están compañías mediáticas como cnn y BuzzFeed, que la utilizan para traducir su contenido en los mercados extranjeros. Al igual que recaptcha, Duolingo es un delicioso twin-win [doble triunfo]: los alumnos aprenden idiomas mientras producen, a cambio, algo con valor económico.

Pero hay un tercer beneficio: toda la “descarga de datos” que Duolingo recolecta como subproducto de la interacción de la gente con el sitio; informaciones como, por ejemplo, cuánto tarda alguien en dominar determinado aspecto de un idioma, cuál es la cantidad óptima de ejercicios prácticos, las consecuencias de dejarlo durante unos días y cosas así. Von Ahn se percató de que todos estos datos se podían procesar de tal modo que le permitieran ver cómo aprendían mejor las personas. Es algo que no nos resultaría fácil hacer en un contexto no digital. Pero considerando que en 2013 Duolingo tenía alrededor de un millón de visitas al día, cada una de las cuales pasaba más de treinta minutos en el sitio, el grupo de población que podía estudiar era inmenso.

El principal descubrimiento de Von Ahn es que la pregunta de “cuál es el mejor método de aprendizaje para la gente” es un sinsentido. No se trata de que haya un mejor método de aprendizaje para “la gente”, sino de qué gente en concreto. Apenas se ha investigado empíricamente cuál es el mejor modo de enseñar una lengua extranjera, explica Von Ahn. Hay montones de teorías que postulan, por ejemplo, que se deben enseñar los adjetivos antes que los adverbios. Pero hay pocos datos fidedignos. Y aun cuando existen datos, señala Von Ahn, por lo general es a una escala tan pequeña –por ejemplo, un estudio de unos pocos cientos de estudiantes– que emplearlos para alcanzar un resultado generalizable sería dudoso en el mejor de los casos. ¿Por qué no basar nuestras conclusiones en decenas de millones de alumnos a lo largo de muchos años? Con Duolingo, esto está comenzando a ser posible.

Procesando los datos de Duolingo, Von Ahn hizo un hallazgo significativo. El mejor modo de enseñar un idioma difiere según cuál sea el idioma nativo de los alumnos y aquel que están intentando adquirir. En el caso de los hispanohablantes aprendiendo inglés, es común enseñar los pronombres en las primeras lecciones: palabras como he, she, it. Pero él descubrió que el término it tiende a confundir y a angustiar a los hispanohablantes, pues esta palabra no es fácil de traducir a su idioma. De modo que Von Ahn realizó un par de pruebas. Enseñar he y she pero retrasar unas pocas semanas la introducción de it elevó espectacularmente el número de personas que persistieron en el aprendizaje del inglés en lugar de abandonarlo.

Algunas de sus averiguaciones resultan insólitas: a las mujeres se les dan mejor los términos deportivos, mientras que los hombres aprenden mejor que ellas las palabras relacionadas con la cocina y los alimentos. En Italia, las mujeres como grupo aprenden inglés mejor que los hombres. Y hay más hallazgos como estos que no cesan de aparecer.

La historia de Duolingo ilustra uno de los modos más prometedores en que los big data están transformando la educación. Es una lente enfocada en tres cualidades medulares que mejorarán el aprendizaje: retroalimentación, individualización y predicciones probabilísticas.

retroalimentación

La enseñanza formal, desde preescolar hasta la universidad, está permeada de retroalimentación. Recibimos calificaciones por los deberes, la participación en clase, los trabajos y los exámenes. A veces nos las dan tan solo por asistir. A lo largo de nuestra vida escolar, acumulamos cientos de estos puntos de datos: indicadores “small data” de nuestro desempeño a los ojos de nuestros maestros. Hemos llegado a confiar en esta retroalimentación para determinar cómo nos va en la escuela. Y sin embargo, casi todos los aspectos de este sistema de retroalimentación educativa son profundamente deficientes.

No siempre estamos reuniendo la información adecuada. Y aun cuando lo hacemos, no recolectamos la suficiente. Y no utilizamos eficazmente los datos recolectados.

Es para reírse. Nuestros iPhones son inmensamente más poderosos que el ordenador central de la nasa que colocó astronautas en la Luna y los trajo de vuelta a salvo. Los softwares de hojas de cálculo y diagramas son asombrosamente versátiles. Pero dar a estudiantes, padres y maestros un resumen completo y fácil de utilizar sobre el desempeño y los resultados docentes sigue siendo cosa de ciencia ficción.

Lo más curioso de nuestro uso actual de la retroalimentación en el terreno docente es aquello que medimos. Evaluamos el desempeño de los estudiantes y los hacemos responsables de los resultados. Rara vez medimos –y ciertamente no comprensivamente ni a gran escala– cómo enseñamos a nuestros muchachos. No evaluamos hasta qué punto nuestras técnicas conducen realmente al aprendizaje, desde los libros de texto y las preguntas escritas hasta las clases magistrales.

Antes de la era de los big data, recolectar datos sobre este tipo de cosas era demasiado costoso y difícil. De modo que medíamos lo que era fácil de medir, como los resultados en los exámenes. La consecuencia fue que la retroalimentación iba casi exclusivamente en un único sentido: de los maestros y las escuelas a los chicos y sus padres.

En cualquier otro sector esto resultaría muy extraño. Ningún fabricante o vendedor minorista se limita a evaluar a sus clientes. Cuando reciben retroalimentación, suele ser acerca de ellos mismos: de sus productos y servicios, con vistas a mejorarlos. En el contexto de la enseñanza, la retroalimentación es en primer lugar sobre en qué medida una persona ha entendido la lección según la apreciación del profesor (culminando con una prueba infrecuente y estandarizada), no en qué medida han sido adecuados el profesor o las herramientas docentes para un alumno en particular. La retroalimentación se enfoca en el resultado del aprendizaje, más que en el proceso docente. Y esto se debe a la consabida dificultad de obtener y analizar los datos.

Los big data están cambiando todo esto. Podemos recolectar datos sobre aspectos de la enseñanza que antes no podíamos reunir: estamos datificando el proceso docente. Y ahora podemos combinar los datos de maneras nuevas, y aprovecharlos para mejorar la comprensión y el resultado de los alumnos, así como compartirlos con profesores y administradores para mejorar el sistema educativo.

Veamos el caso de la lectura. Era imposible saber si la gente releía un pasaje determinado porque este era especialmente elegante o especialmente difícil. ¿Tomaban notas los alumnos al margen de los párrafos? ¿Y de qué párrafos? ¿Y por qué? ¿Se rendían algunos lectores antes de completar el texto; y, de ser así, dónde? Se trata de datos sumamente reveladores, pero eran difíciles de averiguar… hasta la invención de los ebooks.

Cuando el libro de texto está en una tableta o un ordenador este tipo de indicadores pueden recolectarse, procesarse y emplearse para retroalimentar a estudiantes, profesores y editoriales. No en balde los principales libros de texto escolares se están pasando en masa al formato electrónico. Compañías como Pearson, Kaplan y McGraw-Hill quieren tener datos sobre el uso de sus materiales a fin de mejorarlos; y también para crear contenidos adicionales a medida para los alumnos con necesidades específicas. Esto no solo mejorará el resultado de los alumnos, sino que las firmas estarán mejor posicionadas para competir contra sus rivales, siendo más relevantes y más eficaces.

Por ejemplo, algo que las editoriales esperan averiguar es la “curva de declive” que registra el grado en que los alumnos olvidan lo que han leído anteriormente y que tal vez en algún punto eran capaces de recordar. De esta manera, el sistema sabrá exactamente cuándo repasar determinada información con un alumno para que este tenga más oportunidades de retenerla. El alumno puede recibir un mensaje de que tiene un ochenta y cinco por ciento más de probabilidades de recordar un módulo y responder correctamente en una prueba si mira el vídeo de repaso por la noche, dos días antes del examen; no la noche anterior, y nunca en la misma mañana del examen.

Los adelantos como este transforman el mercado de los libros educativos. En ese campo, los materiales mal escritos hacen más daño que una aburrida novela que dejamos por la mitad. Generaciones de estudiantes frustrados pudieran no alcanzar todo su potencial por haber sido expuestos a materiales educativos defectuosos. No hay más que tomar un manual de enseñanza primaria más o menos de la década de 1940, con aquellas tipografías diminutas, vocabulario arcano y ejemplos estrambóticos divorciados de la realidad para ver la tragicomedia de lo que enseñábamos a los niños en esa época.

Claro que hoy las juntas escolares vetan extensivamente los materiales educativos. Pero estas juntas muchas veces están constreñidas a la hora de hacer sus evaluaciones. Pueden examinar la corrección e imparcialidad del contenido y compararlo con los estándares pedagógicos aceptados. Pero no tienen ningún modo sencillo y empírico de saber si esos materiales educativos funcionan para los alumnos que los utilizan, o para ver cómo reaccionan los alumnos a partes específicas del libro de texto, a fin de corregir cualquier deficiencia.

Aprender con big data

Подняться наверх