Оглавление
Peter Bruce. Estadística práctica para ciencia de datos con R y Python
Contenidos
Prefacio
Convenciones que se utilizan en el libro
Uso de los ejemplos de código
Agradecimientos
CAPÍTULO 1. Análisis exploratorio de datos
Elementos de datos estructurados
Lecturas complementarias
Datos rectangulares
Marcos de datos e índices
Diferencias terminológicas
Estructuras de datos no rectangulares
Gráficos en estadística
Lecturas complementarias
Estimación de la localización
Media
Estimación de medianas robustas
Valores atípicos
Detección de anomalías
Otras métricas robustas para la localización
Ejemplo: estimaciones de localización de la población y tasas de homicidios
Lecturas complementarias
Estimación de la variabilidad
Desviación estándar y estimaciones relacionadas
Estimación basada en percentiles
Percentil: definición precisa
Ejemplo: estimaciones de variabilidad de la población estatal
Lecturas complementarias
Exploración de la distribución de datos
Percentiles y diagramas de caja
Tablas de frecuencias e histogramas
Momentos de la distribución estadística
Diagrama y estimación de la curva de densidad
Valoración de la densidad
Lecturas complementarias
Exploración de datos binarios y categóricos
Datos numéricos como datos categóricos
Moda
Valor esperado
Probabilidad
Lecturas complementarias
Correlación
Otras estimaciones de la correlación
Diagramas de dispersión
Lecturas complementarias
Exploración de dos o más variables
Agrupación hexagonal y contornos (representación numérica frente a datos numéricos)
Dos variables categóricas
Datos categóricos y numéricos
Visualización de varias variables
Lecturas complementarias
Resumen
CAPÍTULO 2. Distribuciones de datos y muestreo
Muestreo aleatorio y sesgo de la muestra
Sesgo
Selección aleatoria
Tamaño frente a calidad: ¿cuándo importa el tamaño?
Media muestral frente a media poblacional
Lecturas complementarias
Sesgo de selección
Regresión a la media
Lecturas complementarias
Distribución muestral del estadístico
Teorema del límite central
Error estándar
Desviación estándar versus error estándar
Lecturas complementarias
Bootstrap
Remuestreo frente a bootstrapping
Lecturas complementarias
Intervalos de confianza
Lecturas complementarias
Distribución normal
Normal estándar y diagramas QQ
Distribuciones de cola larga
Lecturas complementarias
Distribución t de Student
Lecturas complementarias
Distribución binomial
Lecturas complementarias
Distribución chi cuadrado
Lecturas complementarias
Distribución F
Lecturas complementarias
La distribución de Poisson y distribuciones relacionadas
Distribución de Poisson
Distribución exponencial
Estimación de la tasa de fallos
Distribución de Weibull
Lecturas complementarias
Resumen
CAPÍTULO 3. Experimentos estadísticos y pruebas significativas
Prueba A/B
¿Por qué tener un grupo de control?
Estudios ciegos
¿Por qué solo A/B? ¿Por qué no C, D, …?
Obtención de permisos
Lecturas complementarias
Pruebas de hipótesis
La hipótesis nula
Hipótesis alternativa
Pruebas de hipótesis unidireccionales o bidireccionales
Lecturas complementarias
Remuestreo
Prueba de permutación
Ejemplo: adherencia de la web
Pruebas de permutación exhaustiva y de bootstrap
Pruebas de permutación: el resultado final de la ciencia de datos
Lecturas complementarias
Significación estadística y valores p
Valor p
Alfa
Controversia sobre el valor p
Significación práctica
Errores de tipo 1 y 2
Ciencia de datos y valores p
Lecturas complementarias
Pruebas t
Lecturas complementarias
Pruebas múltiples
Tasa de descubrimientos falsos
Lecturas complementarias
Grados de libertad
Lecturas complementarias
ANOVA
Estadístico F
Descomposición de la varianza
ANOVA bidireccional
Lecturas complementarias
Prueba de chi cuadrado
Prueba de chi cuadrado: enfoque de remuestreo
Prueba de chi cuadrado: teoría estadística
Prueba exacta de Fisher
Relevancia para la ciencia de datos
Lecturas complementarias
Algoritmo Multi-Arm Bandit
Lecturas complementarias
Potencia y tamaño de la muestra
Tamaño de la muestra
Lecturas complementarias
Resumen
CAPÍTULO 4. Regresión y pronóstico
Regresión lineal simple
La ecuación de regresión
Valores ajustados y residuos
Notación hat: valores estimados frente a valores conocidos
Mínimos cuadrados
Terminología de la regresión
Pronóstico frente a explicación (elaboración de perfiles)
Lecturas complementarias
Regresión lineal múltiple
Ejemplo: datos de las viviendas del condado de King
Evaluación del modelo
Validación cruzada
Selección del modelo y regresión escalonada
AIC, BIC, y Mallows Cp
Regresión ponderada
Lecturas complementarias
Pronóstico mediante la regresión
Los peligros de la extrapolación
Intervalos de confianza y de pronóstico
¿Intervalo de pronóstico o intervalo de confianza?
Variables de tipo factor en la regresión
Representación de variables ficticias
Diferentes codificaciones de los factores
Variables de tipo factor con muchos niveles
Variables de tipo factor ordenadas
Interpretación de la ecuación de regresión
Predictoras correlacionadas
Multicolinealidad
Variables de confusión
Interacciones y efectos principales
Selección de modelos con los términos de interacción
Diagnósticos de regresión
Valores atípicos
Valores influyentes
Heterocedasticidad, anormalidad y errores correlacionados
¿Por qué a un científico de datos le importaría la heterocedasticidad?
Suavizadores de diagramas de dispersión
Diagramas de residuos parciales y falta de linealidad
Regresión polinomial y por spline
Regresión no lineal
Polinomial
Splines
Modelos aditivos generalizados
Lecturas complementarias
Resumen
CAPÍTULO 5. Clasificación
Bayes ingenuo
Por qué la clasificación bayesiana exacta no es práctica
La solución ingenua
Variables predictoras numéricas
Lecturas complementarias
Análisis discriminante
Matriz de covarianza
Discriminante lineal de Fisher
Un ejemplo sencillo
Uso del análisis discriminante para la selección de características
Generalización del análisis discriminante
Lecturas complementarias
Regresión logística
Función de respuesta logística y logit
Regresión logística y GLM
Modelos lineales generalizados
Valores pronosticados de regresión logística
Interpretación de los coeficientes y de la razón de oportunidades
Regresión lineal y logística: similitudes y diferencias
Ajuste del modelo
Gestión de las variables de tipo factor
Evaluación del modelo
Análisis de los residuos
Lecturas complementarias
Evaluación de modelos de clasificación
Matriz de confusión
El problema de las clases raras
Precisión, exhaustividad y especificidad
Curva ROC
Curva de precisión-exhaustividad
AUC
Confusión con las tasas de falsos positivos
Sustentación
Elevación
Lecturas complementarias
Estrategias para datos que no están equilibrados
Submuestreo
Sobremuestreo y aumento/disminución de la ponderación
Adaptación de la función de pérdida
Generación de datos
Clasificación basada en los costes
Exploración de pronósticos
Lecturas complementarias
Resumen
CAPÍTULO 6. Aprendizaje automático estadístico
El aprendizaje automático frente a la estadística
K-vecinos más cercanos
Un pequeño ejemplo: pronóstico del incumplimiento de préstamos
Métricas de distancia
Otras métricas de distancias
Codificador One-Hot
Estandarización (normalización, puntuación z)
Elección de K
Equilibrio entre sesgo y varianza
KNN como motor de características
Modelos de árbol
Árboles de decisión en la investigación de operaciones
Un ejemplo sencillo
Algoritmo de partición recursiva
Medición de la homogeneidad o la impureza
Coeficiente de Gini
Detención del crecimiento del árbol
Control de la complejidad del árbol enR
Control de la complejidad del árbol en Python
Pronóstico de un valor continuo
Cómo se utilizan los árboles
Lecturas complementarias
Métodos de bagging y bosque aleatorio
Bagging
Bosque aleatorio
Importancia de la variable
Hiperparámetros
Boosting
El algoritmo boosting
XGBoost
Regularización: evitación del sobreajuste
Hiperparámetros y validación cruzada
Resumen
CAPÍTULO 7. Aprendizaje no supervisado
Aprendizaje no supervisado y pronóstico
Análisis de componentes principales
Un ejemplo sencillo
Cálculo de los componentes principales
Interpretación de componentes principales
¿Cuántos componentes elegir?
Análisis de correspondencias
Lecturas complementarias
Agrupación K-means
Normalización
Un ejemplo sencillo
Media de grupo
Algoritmo K-means
Interpretación de los grupos
Análisis de grupos frente a PCA
Selección del número de grupos
Agrupación jerárquica
Un ejemplo sencillo
El dendrograma
El algoritmo de aglomeración
Medidas de disimilitud
Agrupación basada en el modelo
Distribución normal multivariante
Mezclas de distribuciones normales
Selección del número de grupos
Lecturas complementarias
Variables categóricas y escalado
Escalado de variables
Variables dominantes
Datos categóricos y distancia de Gower
Problemas con la agrupación de datos mixtos
Resumen
Bibliografía
Índice onomástico. A
B
C
D
E
F
G
H
I
K
L
M
N
O
P
R
S
T
V
X
Sobre los autores
Colofón