Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 11

Marcos de datos e índices

Оглавление

Las tablas de bases de datos tradicionales tienen una o más columnas designadas como índice, esencialmente un número de fila. Esta funcionalidad puede mejorar enormemente la eficiencia de determinadas consultas a bases de datos. En Python, con la biblioteca de pandas, la estructura básica de datos rectangulares es el objeto DataFrame. Por defecto, se crea un índice de enteros automático para un DataFrame basado en el orden de las filas. En pandas, también es posible establecer índices jerárquicos/multinivel para mejorar la eficiencia de ciertas operaciones.

En R, la estructura básica de datos rectangulares es el objeto data.frame. data.frame también tiene un índice implícito de enteros basado en el orden de las filas. El data.frame nativo de R no admite índices especificados por el usuario o multinivel, aunque se puede crear una clave personalizada mediante el atributo row.names. Para superar esta deficiencia, hay dos nuevos paquetes que se están utilizando de forma generalizada: data.table y dplyr. Ambos admiten índices multinivel y ofrecen importantes aumentos de velocidad cuando se trabaja con data.frame.


Estadística práctica para ciencia de datos con R y Python

Подняться наверх