Читать книгу La imaginación metodológica - Raúl Trejo Delarbre - Страница 12
El domador de datos
ОглавлениеEl análisis de las redes sociodigitales me enfrentó a la noción conceptual de big data, aspecto nodal para entender la cultura de la hiperconectividad y que se refiere a la explotación de datos en cantidades masivas, gracias a las posibilidades tecnológicas derivadas del rastreo, extracción y almacenamiento de las actividades sociales mediante dispositivos computacionales, un aspecto que posibilita observar las microinteracciones por primera vez en la historia de las ciencias sociales, las trazas digitales (Venturini y Latour, 2010). De acuerdo con uno de los artículos más citados sobre este tema en el área social, se trata de un fenómeno cultural con una cierta carga mitológica de trascender la versión estadística de la muestra para contener la totalidad del universo de estudio (Boyd y Crawford, 2012), algo que en mi experiencia como investigador ha sido imposible por una de sus características: la masividad. En las extracciones que he logrado hacer a lo largo de los años, sobre todo en Twitter, una de las dudas más acuciantes es cómo funciona el mecanismo de selección que mina los datos, pues las descargas son limitadas y representan solo una pequeña parte de lo existente. Por supuesto que en fenómenos con una interacción menor, es probable la obtención de la población total, pero ya no es big data.
Es decir, el imperativo de la obtención de datos nos hace quedar entrampados en la paradoja de que mientras menor sea la población también es limitada la posibilidad de considerarse big data, pero mayor la de estudiarse en su totalidad. Por el contrario, cuando es mayor la cantidad de datos extraídos puede llegar a considerarse big data, pero es común que no represente la totalidad del universo, por lo que es necesario mayor rigor en la justificación del muestreo. En este sentido, la selección del corpus en términos de grandes datos exige una cuidadosa explicación sobre su matiz representativo.
El Gran Archivero, como he propuesto traducir el fenómeno de los datos masivos (Rodríguez Cano, 2020), es un canon económico, político, social y, de nuestro interés, analítico. Las famosas tres v que lo definen: velocidad, variedad y volumen resultan en sendos desafíos para la investigación social. La velocidad exige una instantaneidad de captura inusitada; la variedad un proceso de limpieza y estructuración que es difícil realizar rudimentariamente y el volumen un procesamiento y almacenamiento computacional monumental. Nuevamente, en mi experiencia de investigación, he tenido que recurrir a diferentes diseños para plantear caminos más o menos estables en el trabajo de análisis.
Como señala Meneses Rocha (2018), los grandes datos son un gran desafío para las ciencias sociales, en parte por las dificultades en cada uno de los elementos necesarios en su cadena de valor: generación, recolección, almacenamiento, procesamiento, distribución y análisis. De acuerdo con este punto de partida, el big data exige un volumen casi ilimitado, velocidad rápida y continua, y una variedad amplia. Contrario a lo que Rogers (2013) denomina small data, que precisa un volumen limitado, velocidad lenta y una variedad también limitada. Con esta distinción, el trabajo que he realizado a lo largo de estos años con extracción de información y minería de datos ha sido más desde una perspectiva de los pequeños datos.
Sin embargo, aquí es importante hacer una aclaración. El big data no solo es un fenómeno tecnológico, por ende detonador de desafíos técnicos, sino que representa en mayor medida un fenómeno social cuya principal característica es la datificación de la cultura, una de cuyas fuentes es la sociedad de las plataformas (Van Dijck, Poell y De Waal, 2018). Desde esta perspectiva, al hacer minería de datos, incluso en cantidades menores, nos ubicamos en el marco de la datificación y por lo menos de inicio a la sombra de los grandes datos como paradigma de la época.
Como señala la misma Meneses, los desafíos respecto al big data en las ciencias sociales son de varios órdenes: en primer lugar, la importancia de tomar distancia de los discursos técnicos y mercadológicos que buscan objetivos más concretos sin fundamento, más que la propia utilidad de los datos, una tendencia explicada por los flujos cuantificables de cascadas mercantiles que caracterizan a la cultura digital. En segundo lugar, señala la autora, existe el reto de no ser avasallados por el saber computacional y, por el contrario, poner a la tecnología al servicio del conocimiento de lo social. Esto, quiero argumentar, supone no reivindicar la dimensión mitológica del big data al cuestionar investigaciones que tienen una menor cantidad de datos, muchas veces obtenidas al límite de las capacidades técnicas, siempre y cuando se encuentren en la lógica de la investigación científica.
De hecho, Brooker, Barnett, Cribbin y Sharma (2016) señalan que a pesar de los límites del data mining, podemos hacer análisis significativos, mientras se tome en cuenta la comprensión profunda de cómo se ha construido el conjunto de datos con la intención de diseñar aproximaciones analíticas apropiadas con las cuales lidiar, esto es pensar en procesos de obtención de los datos, no en los datos exclusivamente, entendiendo que la traducción de lo social convertido en datos envuelve un proceso de abstracción que impone ciertos compromisos en la forma en que los datos son generados, recolectados, seleccionados y analizados (Schäfer y Van Es, 2017).
En este sentido, en la discusión sobre grandes o pequeños datos, fue bastante conocida la mirada antropológica que aportó Wang (2013), con el término datos densos. Como imaginará el lector, en una analogía con la descripción densa que propuso Clifford Geertz (1973), por lo tanto, un enfoque desde la dimensión interpretativa de la cultura, esta autora cuestiona la reverencia al big data al reiterar la importancia de trabajar los datos en el sentido inverso, a conveniencia dela investigación y con estrictas precauciones: cercanía, precisión, descubrimiento, interpretación. Contrario a las bases que puedes descargar en las modernas aplicaciones, el acercamiento desde los datos densos permite elegir el corpus de investigación de la manera tradicional, en concreto las variables que conforman la matriz de información, con compleja comprehensión del fenómeno estudiado y sin imperativos cuantitativos inmanentes. En el sentido de los datos densos, como veremos, mi estrategia ha sido buscar la obtención de datos de abajo hacia arriba.