Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 5
Contenidos
Оглавление1. Análisis exploratorio de datos
Elementos de datos estructurados
Estructuras de datos no rectangulares
Estimación de medianas robustas
Ejemplo: estimaciones de localización de la población y tasas de homicidios
Desviación estándar y estimaciones relacionadas
Estimación basada en percentiles
Ejemplo: estimaciones de variabilidad de la población estatal
Exploración de la distribución de datos
Percentiles y diagramas de caja
Tablas de frecuencias e histogramas
Diagrama y estimación de la curva de densidad
Exploración de datos binarios y categóricos
Exploración de dos o más variables
Agrupación hexagonal y contornos (representación numérica frente a datos numéricos)
Visualización de varias variables
2. Distribuciones de datos y muestreo
Muestreo aleatorio y sesgo de la muestra
Tamaño frente a calidad: ¿cuándo importa el tamaño?
Media muestral frente a media poblacional
Distribución muestral del estadístico
Remuestreo frente a bootstrapping
Normal estándar y diagramas QQ
La distribución de Poisson y distribuciones relacionadas
Estimación de la tasa de fallos
3. Experimentos estadísticos y pruebas significativas
¿Por qué tener un grupo de control?
¿Por qué solo A/B? ¿Por qué no C, D, …?
Pruebas de hipótesis unidireccionales o bidireccionales
Pruebas de permutación exhaustiva y de bootstrap
Pruebas de permutación: el resultado final de la ciencia de datos
Significación estadística y valores p
Prueba de chi cuadrado: enfoque de remuestreo
Prueba de chi cuadrado: teoría estadística
Relevancia para la ciencia de datos
Potencia y tamaño de la muestra
Pronóstico frente a explicación (elaboración de perfiles)
Ejemplo: datos de las viviendas del condado de King
Selección del modelo y regresión escalonada
Pronóstico mediante la regresión
Los peligros de la extrapolación
Intervalos de confianza y de pronóstico
Variables de tipo factor en la regresión
Representación de variables ficticias
Variables de tipo factor con muchos niveles
Variables de tipo factor ordenadas
Interpretación de la ecuación de regresión
Interacciones y efectos principales
Heterocedasticidad, anormalidad y errores correlacionados
Diagramas de residuos parciales y falta de linealidad
Regresión polinomial y por spline
Modelos aditivos generalizados
Por qué la clasificación bayesiana exacta no es práctica
Variables predictoras numéricas
Discriminante lineal de Fisher
Función de respuesta logística y logit
Modelos lineales generalizados
Valores pronosticados de regresión logística
Interpretación de los coeficientes y de la razón de oportunidades
Regresión lineal y logística: similitudes y diferencias
Evaluación de modelos de clasificación
El problema de las clases raras
Precisión, exhaustividad y especificidad
Estrategias para datos que no están equilibrados
Sobremuestreo y aumento/disminución de la ponderación
Clasificación basada en los costes
6. Aprendizaje automático estadístico
Un pequeño ejemplo: pronóstico del incumplimiento de préstamos
Estandarización (normalización, puntuación z)
KNN como motor de características
Algoritmo de partición recursiva
Medición de la homogeneidad o la impureza
Detención del crecimiento del árbol
Pronóstico de un valor continuo
Métodos de bagging y bosque aleatorio
Regularización: evitación del sobreajuste
Hiperparámetros y validación cruzada
Análisis de componentes principales
Cálculo de los componentes principales
Interpretación de componentes principales
Selección del número de grupos
Agrupación basada en el modelo
Distribución normal multivariante
Mezclas de distribuciones normales
Selección del número de grupos
Variables categóricas y escalado
Datos categóricos y distancia de Gower