Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 49

Dos variables categóricas

Оглавление

Una forma conveniente de resumir dos variables categóricas es mediante una tabla de contingencia, una tabla de recuentos por categorías. La tabla 1.8 muestra la tabla de contingencia con la calificación de un préstamo personal y el resultado de ese préstamo. Esta información se ha extraído de los datos proporcionados por Lending Club, líder en el negocio de préstamos entre particulares. La calificación va desde A (la más alta) a G (la más baja). El resultado es: totalmente pagado, al corriente de pago, atrasado o cancelado (no se espera que se cobre el importe del préstamo). La tabla muestra el recuento y las filas de porcentajes. Los préstamos de alta calificación tienen un porcentaje muy bajo de retrasos en el pago/cancelaciones en comparación con los préstamos de baja calificación.

Tabla 1.8 Tabla de contingencia de las calificaciones y estados de los préstamos


En las tablas de contingencia solo se suelen ver recuentos, aunque también pueden incluir porcentajes totales y de cada columna. Las tablas dinámicas en Excel son quizá la herramienta más utilizada para crear tablas de contingencia. En R, con la función CrossTable del paquete descr podemos generar tablas de contingencia. Para crear la tabla 1.8 se ha utilizado el siguiente código:


El método pivot_table crea las tablas dinámicas en Python. El argumento aggfunc nos permite obtener los recuentos. Calcular los porcentajes es un poco más complicado:


El argumento de palabra clave margins agregará las sumas de filas y columnas.

Creamos una copia de la tabla dinámica ignorando las sumas de las columnas.

Dividimos las filas por la fila suma.

Dividimos la columna 'All' por su suma.

Estadística práctica para ciencia de datos con R y Python

Подняться наверх