Estadística práctica para ciencia de datos con R y Python

Estadística práctica para ciencia de datos con R y Python
Автор книги: id книги: 2264185     Оценка: 0.0     Голосов: 0     Отзывы, комментарии: 0 2288,25 руб.     (22,05$) Читать книгу Купить и скачать книгу Электронная книга Жанр: Математика Правообладатель и/или издательство: Bookwire Дата добавления в каталог КнигаЛит: ISBN: 9788426734549 Скачать фрагмент в формате   fb2   fb2.zip Возрастное ограничение: 0+ Оглавление Отрывок из книги

Реклама. ООО «ЛитРес», ИНН: 7719571260.

Описание книги

Los métodos estadísticos son una parte fundamental de la ciencia de datos, pero pocos científicos de datos tienen una formación avanzada en estadística. Los cursos y libros sobre estadística básica rara vez tratan el tema desde la perspectiva de la ciencia de datos. La segunda edición de este libro incluye ejemplos detallados de Python, ofrece una orientación práctica sobre la aplicación de los métodos estadísticos a la ciencia de datos, te indica cómo evitar su uso incorrecto y te aconseja sobre lo que es y lo que no es importante.
Muchos recursos de la ciencia de datos incorporan métodos estadísticos, pero carecen de una perspectiva estadística más profunda. Si estás familiarizado con los lenguajes de programación R o Python y tienes algún conocimiento de estadística, este libro suple esas carencias de una forma práctica, accesible y clara.
Con este libro aprenderás:
Por qué el análisis exploratorio de datos es un paso preliminar clave en la ciencia de datos Cómo el muestreo aleatorio puede reducir el sesgo y ofrecer un conjunto de datos de mayor calidad, incluso con Big Data Cómo los principios del diseño experimental ofrecen respuestas definitivas a preguntas Cómo utilizar la regresión para estimar resultados y detectar anomalías Técnicas de clasificación esenciales para predecir a qué categorías pertenece un registro Métodos estadísticos de aprendizaje automático que «aprenden» a partir de los datos Métodos de aprendizaje no supervisados para extraer significado de datos sin etiquetar
Peter Bruce es el fundador del Institute for Statistics Education en Statistics.com.
Andrew Bruce es científico investigador jefe en Amazon y tiene más de 30 años de experiencia en estadística y ciencia de datos.
Peter Gedeck es científico de datos senior en Collaborative Drug Discovery, desarrolla algoritmos de aprendizaje automático para pronosticar propiedades de posibles futuros fármacos.

Оглавление

Peter Bruce. Estadística práctica para ciencia de datos con R y Python

Contenidos

Prefacio

Convenciones que se utilizan en el libro

Uso de los ejemplos de código

Agradecimientos

CAPÍTULO 1. Análisis exploratorio de datos

Elementos de datos estructurados

Lecturas complementarias

Datos rectangulares

Marcos de datos e índices

Diferencias terminológicas

Estructuras de datos no rectangulares

Gráficos en estadística

Lecturas complementarias

Estimación de la localización

Media

Estimación de medianas robustas

Valores atípicos

Detección de anomalías

Otras métricas robustas para la localización

Ejemplo: estimaciones de localización de la población y tasas de homicidios

Lecturas complementarias

Estimación de la variabilidad

Desviación estándar y estimaciones relacionadas

Estimación basada en percentiles

Percentil: definición precisa

Ejemplo: estimaciones de variabilidad de la población estatal

Lecturas complementarias

Exploración de la distribución de datos

Percentiles y diagramas de caja

Tablas de frecuencias e histogramas

Momentos de la distribución estadística

Diagrama y estimación de la curva de densidad

Valoración de la densidad

Lecturas complementarias

Exploración de datos binarios y categóricos

Datos numéricos como datos categóricos

Moda

Valor esperado

Probabilidad

Lecturas complementarias

Correlación

Otras estimaciones de la correlación

Diagramas de dispersión

Lecturas complementarias

Exploración de dos o más variables

Agrupación hexagonal y contornos (representación numérica frente a datos numéricos)

Dos variables categóricas

Datos categóricos y numéricos

Visualización de varias variables

Lecturas complementarias

Resumen

CAPÍTULO 2. Distribuciones de datos y muestreo

Muestreo aleatorio y sesgo de la muestra

Sesgo

Selección aleatoria

Tamaño frente a calidad: ¿cuándo importa el tamaño?

Media muestral frente a media poblacional

Lecturas complementarias

Sesgo de selección

Regresión a la media

Lecturas complementarias

Distribución muestral del estadístico

Teorema del límite central

Error estándar

Desviación estándar versus error estándar

Lecturas complementarias

Bootstrap

Remuestreo frente a bootstrapping

Lecturas complementarias

Intervalos de confianza

Lecturas complementarias

Distribución normal

Normal estándar y diagramas QQ

Distribuciones de cola larga

Lecturas complementarias

Distribución t de Student

Lecturas complementarias

Distribución binomial

Lecturas complementarias

Distribución chi cuadrado

Lecturas complementarias

Distribución F

Lecturas complementarias

La distribución de Poisson y distribuciones relacionadas

Distribución de Poisson

Distribución exponencial

Estimación de la tasa de fallos

Distribución de Weibull

Lecturas complementarias

Resumen

CAPÍTULO 3. Experimentos estadísticos y pruebas significativas

Prueba A/B

¿Por qué tener un grupo de control?

Estudios ciegos

¿Por qué solo A/B? ¿Por qué no C, D, …?

Obtención de permisos

Lecturas complementarias

Pruebas de hipótesis

La hipótesis nula

Hipótesis alternativa

Pruebas de hipótesis unidireccionales o bidireccionales

Lecturas complementarias

Remuestreo

Prueba de permutación

Ejemplo: adherencia de la web

Pruebas de permutación exhaustiva y de bootstrap

Pruebas de permutación: el resultado final de la ciencia de datos

Lecturas complementarias

Significación estadística y valores p

Valor p

Alfa

Controversia sobre el valor p

Significación práctica

Errores de tipo 1 y 2

Ciencia de datos y valores p

Lecturas complementarias

Pruebas t

Lecturas complementarias

Pruebas múltiples

Tasa de descubrimientos falsos

Lecturas complementarias

Grados de libertad

Lecturas complementarias

ANOVA

Estadístico F

Descomposición de la varianza

ANOVA bidireccional

Lecturas complementarias

Prueba de chi cuadrado

Prueba de chi cuadrado: enfoque de remuestreo

Prueba de chi cuadrado: teoría estadística

Prueba exacta de Fisher

Relevancia para la ciencia de datos

Lecturas complementarias

Algoritmo Multi-Arm Bandit

Lecturas complementarias

Potencia y tamaño de la muestra

Tamaño de la muestra

Lecturas complementarias

Resumen

CAPÍTULO 4. Regresión y pronóstico

Regresión lineal simple

La ecuación de regresión

Valores ajustados y residuos

Notación hat: valores estimados frente a valores conocidos

Mínimos cuadrados

Terminología de la regresión

Pronóstico frente a explicación (elaboración de perfiles)

Lecturas complementarias

Regresión lineal múltiple

Ejemplo: datos de las viviendas del condado de King

Evaluación del modelo

Validación cruzada

Selección del modelo y regresión escalonada

AIC, BIC, y Mallows Cp

Regresión ponderada

Lecturas complementarias

Pronóstico mediante la regresión

Los peligros de la extrapolación

Intervalos de confianza y de pronóstico

¿Intervalo de pronóstico o intervalo de confianza?

Variables de tipo factor en la regresión

Representación de variables ficticias

Diferentes codificaciones de los factores

Variables de tipo factor con muchos niveles

Variables de tipo factor ordenadas

Interpretación de la ecuación de regresión

Predictoras correlacionadas

Multicolinealidad

Variables de confusión

Interacciones y efectos principales

Selección de modelos con los términos de interacción

Diagnósticos de regresión

Valores atípicos

Valores influyentes

Heterocedasticidad, anormalidad y errores correlacionados

¿Por qué a un científico de datos le importaría la heterocedasticidad?

Suavizadores de diagramas de dispersión

Diagramas de residuos parciales y falta de linealidad

Regresión polinomial y por spline

Regresión no lineal

Polinomial

Splines

Modelos aditivos generalizados

Lecturas complementarias

Resumen

CAPÍTULO 5. Clasificación

Bayes ingenuo

Por qué la clasificación bayesiana exacta no es práctica

La solución ingenua

Variables predictoras numéricas

Lecturas complementarias

Análisis discriminante

Matriz de covarianza

Discriminante lineal de Fisher

Un ejemplo sencillo

Uso del análisis discriminante para la selección de características

Generalización del análisis discriminante

Lecturas complementarias

Regresión logística

Función de respuesta logística y logit

Regresión logística y GLM

Modelos lineales generalizados

Valores pronosticados de regresión logística

Interpretación de los coeficientes y de la razón de oportunidades

Regresión lineal y logística: similitudes y diferencias

Ajuste del modelo

Gestión de las variables de tipo factor

Evaluación del modelo

Análisis de los residuos

Lecturas complementarias

Evaluación de modelos de clasificación

Matriz de confusión

El problema de las clases raras

Precisión, exhaustividad y especificidad

Curva ROC

Curva de precisión-exhaustividad

AUC

Confusión con las tasas de falsos positivos

Sustentación

Elevación

Lecturas complementarias

Estrategias para datos que no están equilibrados

Submuestreo

Sobremuestreo y aumento/disminución de la ponderación

Adaptación de la función de pérdida

Generación de datos

Clasificación basada en los costes

Exploración de pronósticos

Lecturas complementarias

Resumen

CAPÍTULO 6. Aprendizaje automático estadístico

El aprendizaje automático frente a la estadística

K-vecinos más cercanos

Un pequeño ejemplo: pronóstico del incumplimiento de préstamos

Métricas de distancia

Otras métricas de distancias

Codificador One-Hot

Estandarización (normalización, puntuación z)

Elección de K

Equilibrio entre sesgo y varianza

KNN como motor de características

Modelos de árbol

Árboles de decisión en la investigación de operaciones

Un ejemplo sencillo

Algoritmo de partición recursiva

Medición de la homogeneidad o la impureza

Coeficiente de Gini

Detención del crecimiento del árbol

Control de la complejidad del árbol enR

Control de la complejidad del árbol en Python

Pronóstico de un valor continuo

Cómo se utilizan los árboles

Lecturas complementarias

Métodos de bagging y bosque aleatorio

Bagging

Bosque aleatorio

Importancia de la variable

Hiperparámetros

Boosting

El algoritmo boosting

XGBoost

Regularización: evitación del sobreajuste

Hiperparámetros y validación cruzada

Resumen

CAPÍTULO 7. Aprendizaje no supervisado

Aprendizaje no supervisado y pronóstico

Análisis de componentes principales

Un ejemplo sencillo

Cálculo de los componentes principales

Interpretación de componentes principales

¿Cuántos componentes elegir?

Análisis de correspondencias

Lecturas complementarias

Agrupación K-means

Normalización

Un ejemplo sencillo

Media de grupo

Algoritmo K-means

Interpretación de los grupos

Análisis de grupos frente a PCA

Selección del número de grupos

Agrupación jerárquica

Un ejemplo sencillo

El dendrograma

El algoritmo de aglomeración

Medidas de disimilitud

Agrupación basada en el modelo

Distribución normal multivariante

Mezclas de distribuciones normales

Selección del número de grupos

Lecturas complementarias

Variables categóricas y escalado

Escalado de variables

Variables dominantes

Datos categóricos y distancia de Gower

Problemas con la agrupación de datos mixtos

Resumen

Bibliografía

Índice onomástico. A

B

C

D

E

F

G

H

I

K

L

M

N

O

P

R

S

T

V

X

Sobre los autores

Colofón

Отрывок из книги

Nos gustaría dedicar este libro al recuerdo de nuestros padres, Victor G. Bruce y Nancy C. Bruce, que cultivaron la pasión por las matemáticas y la ciencia. También a nuestros primeros tutores John W. Tukey, Julian Simon y a nuestro amigo de toda la vida Geoff Watson, que nos animaron a seguir la carrera de estadística.

Peter Bruce y Andrew Bruce

.....

Matriz de confusión

El problema de las clases raras

.....

Добавление нового отзыва

Комментарий Поле, отмеченное звёздочкой  — обязательно к заполнению

Отзывы и комментарии читателей

Нет рецензий. Будьте первым, кто напишет рецензию на книгу Estadística práctica para ciencia de datos con R y Python
Подняться наверх