Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 5

Contenidos

Оглавление

Prefacio

1. Análisis exploratorio de datos

Elementos de datos estructurados

Lecturas complementarias

Datos rectangulares

Marcos de datos e índices

Estructuras de datos no rectangulares

Lecturas complementarias

Estimación de la localización

Media

Estimación de medianas robustas

Ejemplo: estimaciones de localización de la población y tasas de homicidios

Lecturas complementarias

Estimación de la variabilidad

Desviación estándar y estimaciones relacionadas

Estimación basada en percentiles

Ejemplo: estimaciones de variabilidad de la población estatal

Lecturas complementarias

Exploración de la distribución de datos

Percentiles y diagramas de caja

Tablas de frecuencias e histogramas

Diagrama y estimación de la curva de densidad

Lecturas complementarias

Exploración de datos binarios y categóricos

Moda

Valor esperado

Probabilidad

Lecturas complementarias

Correlación

Diagramas de dispersión

Lecturas complementarias

Exploración de dos o más variables

Agrupación hexagonal y contornos (representación numérica frente a datos numéricos)

Dos variables categóricas

Datos categóricos y numéricos

Visualización de varias variables

Lecturas complementarias

Resumen

2. Distribuciones de datos y muestreo

Muestreo aleatorio y sesgo de la muestra

Sesgo

Selección aleatoria

Tamaño frente a calidad: ¿cuándo importa el tamaño?

Media muestral frente a media poblacional

Lecturas complementarias

Sesgo de selección

Regresión a la media

Lecturas complementarias

Distribución muestral del estadístico

Teorema del límite central

Error estándar

Lecturas complementarias

Bootstrap

Remuestreo frente a bootstrapping

Lecturas complementarias

Intervalos de confianza

Lecturas complementarias

Distribución normal

Normal estándar y diagramas QQ

Distribuciones de cola larga

Lecturas complementarias

Distribución t de Student

Lecturas complementarias

Distribución binomial

Lecturas complementarias

Distribución chi cuadrado

Lecturas complementarias

Distribución F

Lecturas complementarias

La distribución de Poisson y distribuciones relacionadas

Distribución de Poisson

Distribución exponencial

Estimación de la tasa de fallos

Distribución de Weibull

Lecturas complementarias

Resumen

3. Experimentos estadísticos y pruebas significativas

Prueba A/B

¿Por qué tener un grupo de control?

¿Por qué solo A/B? ¿Por qué no C, D, …?

Lecturas complementarias

Pruebas de hipótesis

La hipótesis nula

Hipótesis alternativa

Pruebas de hipótesis unidireccionales o bidireccionales

Lecturas complementarias

Remuestreo

Prueba de permutación

Ejemplo: adherencia de la web

Pruebas de permutación exhaustiva y de bootstrap

Pruebas de permutación: el resultado final de la ciencia de datos

Lecturas complementarias

Significación estadística y valores p

Valor p

Alfa

Errores de tipo 1 y 2

Ciencia de datos y valores p

Lecturas complementarias

Pruebas t

Lecturas complementarias

Pruebas múltiples

Lecturas complementarias

Grados de libertad

Lecturas complementarias

ANOVA

Estadístico F

ANOVA bidireccional

Lecturas complementarias

Prueba de chi cuadrado

Prueba de chi cuadrado: enfoque de remuestreo

Prueba de chi cuadrado: teoría estadística

Prueba exacta de Fisher

Relevancia para la ciencia de datos

Lecturas complementarias

Algoritmo Multi-Arm Bandit

Lecturas complementarias

Potencia y tamaño de la muestra

Tamaño de la muestra

Lecturas complementarias

Resumen

4. Regresión y pronóstico

Regresión lineal simple

La ecuación de regresión

Valores ajustados y residuos

Mínimos cuadrados

Pronóstico frente a explicación (elaboración de perfiles)

Lecturas complementarias

Regresión lineal múltiple

Ejemplo: datos de las viviendas del condado de King

Evaluación del modelo

Validación cruzada

Selección del modelo y regresión escalonada

Regresión ponderada

Lecturas complementarias

Pronóstico mediante la regresión

Los peligros de la extrapolación

Intervalos de confianza y de pronóstico

Variables de tipo factor en la regresión

Representación de variables ficticias

Variables de tipo factor con muchos niveles

Variables de tipo factor ordenadas

Interpretación de la ecuación de regresión

Predictoras correlacionadas

Multicolinealidad

Variables de confusión

Interacciones y efectos principales

Diagnósticos de regresión

Valores atípicos

Valores influyentes

Heterocedasticidad, anormalidad y errores correlacionados

Diagramas de residuos parciales y falta de linealidad

Regresión polinomial y por spline

Polinomial

Splines

Modelos aditivos generalizados

Lecturas complementarias

Resumen

5. Clasificación

Bayes ingenuo

Por qué la clasificación bayesiana exacta no es práctica

La solución ingenua

Variables predictoras numéricas

Lecturas complementarias

Análisis discriminante

Matriz de covarianza

Discriminante lineal de Fisher

Un ejemplo sencillo

Lecturas complementarias

Regresión logística

Función de respuesta logística y logit

Regresión logística y GLM

Modelos lineales generalizados

Valores pronosticados de regresión logística

Interpretación de los coeficientes y de la razón de oportunidades

Regresión lineal y logística: similitudes y diferencias

Evaluación del modelo

Lecturas complementarias

Evaluación de modelos de clasificación

Matriz de confusión

El problema de las clases raras

Precisión, exhaustividad y especificidad

Curva ROC

AUC

Sustentación

Lecturas complementarias

Estrategias para datos que no están equilibrados

Submuestreo

Sobremuestreo y aumento/disminución de la ponderación

Generación de datos

Clasificación basada en los costes

Exploración de pronósticos

Lecturas complementarias

Resumen

6. Aprendizaje automático estadístico

K-vecinos más cercanos

Un pequeño ejemplo: pronóstico del incumplimiento de préstamos

Métricas de distancia

Codificador One-Hot

Estandarización (normalización, puntuación z)

Elección de K

KNN como motor de características

Modelos de árbol

Un ejemplo sencillo

Algoritmo de partición recursiva

Medición de la homogeneidad o la impureza

Detención del crecimiento del árbol

Pronóstico de un valor continuo

Cómo se utilizan los árboles

Lecturas complementarias

Métodos de bagging y bosque aleatorio

Bagging

Bosque aleatorio

Importancia de la variable

Hiperparámetros

Boosting

El algoritmo boosting

XGBoost

Regularización: evitación del sobreajuste

Hiperparámetros y validación cruzada

Resumen

7. Aprendizaje no supervisado

Análisis de componentes principales

Un ejemplo sencillo

Cálculo de los componentes principales

Interpretación de componentes principales

Análisis de correspondencias

Lecturas complementarias

Agrupación K-means

Un ejemplo sencillo

Algoritmo K-means

Interpretación de los grupos

Selección del número de grupos

Agrupación jerárquica

Un ejemplo sencillo

El dendrograma

El algoritmo de aglomeración

Medidas de disimilitud

Agrupación basada en el modelo

Distribución normal multivariante

Mezclas de distribuciones normales

Selección del número de grupos

Lecturas complementarias

Variables categóricas y escalado

Escalado de variables

Variables dominantes

Datos categóricos y distancia de Gower

Problemas con la agrupación de datos mixtos

Resumen

Bibliografía

Estadística práctica para ciencia de datos con R y Python

Подняться наверх