Читать книгу Innovando la educación en la tecnología - Группа авторов - Страница 33
2. METODOLOGÍA 2.1 Recolección y preparación de noticias
ОглавлениеSe utilizó una librería del lenguaje de programación Python llamada BeautifulSoup para poder realizar un web scrapping de diferentes páginas web de noticias del Perú (RPP, El Comercio, La República y Exitosa)
Se escogió el título y el cuerpo de la noticia como input para el modelo, y se seleccionaron noticias entre el 12 de agosto del 2018 al 11 de septiembre del 2018 (Easton y McColl, 2007). Luego fueron almacenadas en un formato separado por comas (csv).
Para clasificar las noticas en negativas o positivas, primero fueron traducidas al inglés y luego se usó el servicio AutoML de Google para clasificarlas. Las noticias fueron traducidas al inglés debido a que AutoML de Google no puede determinar el sentimiento de textos en español.
En el siguiente paso, se empezó a realizar un proceso de muestreo aleatorio para balancear la proporción de noticias en 1:1, esto se realizó para que no exista un bias a la hora de entrenar el modelo. Al concluir este proceso se obtuvo una base de datos de noticias, de 20 000 noticias (10 000 noticias negativas y 10 000 noticias positivas) (Trochim, 2007).
Tabla 1
Distribución de las noticias
Base de datos de noticias | ||
Fuente | Positivas | Negativas |
El Comercio | 2563 | 1709 |
La República | 2896 | 2108 |
RPP | 2563 | 3156 |
Exitosa | 1978 | 3027 |
10 000 | 10 000 |
Elaboración propia
Luego, se realizó un proceso de encoding y tokenización (Famili, Shen, Weber y Simoudis, 1997). De esta forma se transformarán las noticias en vectores de números. También se creó automáticamente un diccionario de palabras en el cual se identifican las palabras con un valor numérico, generado después del encoding.
En la tarea de tokenización se realizó la eliminación de stop-words, la eliminación de caracteres especiales y signos de puntuación (Klevecka y Lelis, 2008).