Читать книгу Estadística aplicada a la ingeniería y los negocios - Carlos José Castillo - Страница 7
ОглавлениеCapítulo
1 Distribuciones muestrales
Por lo general, el análisis estadístico de datos se realiza con el propósito de obtener conclusiones válidas para una población con base en la información proporcionada por la muestra. De ahí que el conocimiento de las diferentes técnicas de muestreo y cómo se distribuyen los estadísticos muestrales resulta fundamental para obtener los resultados deseados.
Conocimientos previos
Estadística descriptiva, cálculo de probabilidades, distribuciones de probabilidad
Secciones
1. Conceptos básicos
2. Muestra aleatoria
3. Tipos de muestreo
4. Principales estadígrafos
5. Distribución de la media muestral
6. Teorema central del límite
7. Distribuciones de muestras pequeñas
8. Distribuciones muestrales de un estadígrafo
9. Distribuciones muestrales de dos muestras
Sabes
Capacidades adquiridas
Identificar y diferenciar los estadígrafos de posición y de dispersión
Construir la distribución de probabilidad de una variable aleatoria
Calcular e interpretar el valor esperado y la varianza de una variable aleatoria
Hacer uso de la distribución normal con el software Minitab
Piensas
Competencias por lograr
Seleccionar muestras aleatorias con el software Minitab
Reconocer la importancia del teorema central del límite en el análisis estadístico
Haces
Habilidades por desarrollar
Determinar la técnica muestral adecuada para un caso real
Hacer uso apropiado de las distintas distribuciones muestrales
Las poblaciones suelen ser demasiado grandes para estudiarlas en su totalidad; se puede estar interesado, por ejemplo, en determinar el consumo promedio per cápita en una región del país o la proporción de consumidores que prefieren un determinado producto. En estos casos, es preferible elegir una muestra representativa que tenga un tamaño manejable y que permita obtener conclusiones válidas sobre la población objetivo que interesa estudiar. Para el primero de los ejemplos citados, se puede calcular la media aritmética de la muestra de consumidores y utilizarla como una estimación de la media aritmética poblacional μ. Cuando se desea usar una muestra para obtener conclusiones sobre la población, se deben aplicar las técnicas de la estadística inferencial.
En la estadística inferencial se desarrollan dos puntos importantes: el problema de estimación de los parámetros y el de la dócima o prueba de hipótesis, que serán desarrollados en los capítulos posteriores.
1. CONCEPTOS BÁSICOS
a. Unidad de análisis.- Se define como el elemento que se observa en una población y del que se busca información de características o variables de interés.
b. Población.- Se entiende por población o universo a la totalidad de elementos o unidades de análisis, ya sean empresas, personas, objetos, etcétera, que presentan una o más características observables.
c. Población objetivo.- Es la población completamente caracterizada; por ejemplo, en una encuesta sobre la aceptación de un nuevo producto de belleza de una empresa que produce cosméticos, la población objetivo estará conformada por todas las mujeres que son usuarias de los productos de la empresa, con edades entre 20 y 39 años, pertenecientes al nivel socioeconómico medio alto; a partir de esta población se selecciona una muestra de mujeres para la investigación.
d. Marco muestral.- Se define como el listado de elementos, unidades de análisis, a partir del cual se seleccionará la muestra.
e. Unidad de muestreo.- Son aquellas que contienen las unidades de análisis de la población y que se utilizarán para seleccionar la muestra. En general, la unidad de muestreo se encuentra asociada a la selección de los conjuntos de unidades de análisis que serán tomados en cuenta para conformar la muestra final en la investigación.
f. Error muestral.- Es la diferencia entre el resultado obtenido a partir de una muestra y el que se obtendría de la población; por ejemplo, la diferencia existente entre la media muestral y la media poblacional. También se le denomina error de estimación, y en resumen es el error que se origina debido a que se trabaja sobre una muestra en lugar de la población completa.
2. MUESTRA ALEATORIA
La estimación de parámetros y las pruebas de hipótesis se basan en la información proporcionada por las unidades de análisis, sobre una característica de estudio X, mediante sus valores x1, x2,…, xn. Estas unidades de análisis se eligen de manera independiente y deben tener la misma probabilidad de ser seleccionadas. El conjunto de estas unidades seleccionadas recibe el nombre de muestra aleatoria.
Cuando se trata de poblaciones finitas de N elementos se seleccionarán muestras diferentes sin reemplazamiento, donde ; si el muestreo es con reemplazamiento se seleccionarán k = Nn muestras diferentes.
Definición. Se dice que los valores x1, x2,…, xn de la variable de interés X con función de probabilidad f (x) constituyen una muestra aleatoria de tamaño n, si son variables aleatorias independientes e idénticamente distribuidas.
Es decir, si se sabe que la ley de probabilidad es la misma para cada una de las observaciones, esto es:
f (x1) = f (x2) = … = f (xn)
La función de probabilidad de las observaciones muestrales está dada por:
La expresión (1) se conoce como función de probabilidad conjunta.
3. TIPOS DE MUESTREO
Se dispone de dos métodos para seleccionar las muestras de poblaciones: muestreo probabilístico y muestreo no probabilístico.
3.1 Muestreo probabilístico
En este tipo de muestreo se tiene información de las probabilidades de las unidades de análisis seleccionadas en la muestra. El muestreo probabilístico permite calcular el grado hasta el cual el valor obtenido de la muestra puede diferir del valor correspondiente a la población de interés, esta diferencia recibe el nombre de error muestral. Existen varios tipos de muestreo probabilístico, los cuales se detallan a continuación:
3.1.1 Muestreo aleatorio simple
En este tipo de muestreo cada unidad de la población tiene igual probabilidad de ser seleccionada, se recomienda cuando la variable en estudio es homogénea.
Ejemplo 1
Suponga que se desea seleccionar una muestra aleatoria simple de 20 asistentes, de entre los 100 asistentes de una charla sobre marketing digital. A cada asistente se le asignó un número del 1 al 100.
Con Minitab. Para la obtención de la muestra aleatoria mediante el uso del software Minitab se realiza el siguiente procedimiento:
• Se disponen en una columna los 100 números, un número asignado a cada asistente, tal como se muestra en la figura 1.
• Con el comando Calc / Random Data / Sample From Columns…
• Colocar el tamaño de la muestra que se desea extraer: 20.
• Seleccionar el marco muestral: Columnas C1 (‘N.° Asistente’).
• Indicar la columna donde se almacenarán los resultados del muestreo: C3. Lo anteriormente expuesto se aprecia en la figura 2.
Los resultados se almacenarán en la columna C3, tal como se indicó, entonces se procede a etiquetar la columna, por ejemplo: “M. Aleatorio Simple”. De acuerdo con el resultado (figura 3), la muestra estará conformada por los asistentes cuyos números asignados sean: 27, 25, 75…
Nota: Cada vez que se realice el muestreo se obtendrán resultados diferentes, ya que son resultados aleatorios.
Si se desea los resultados del muestreo se pueden ordenar, para una mejor visualización, mediante el siguiente procedimiento:
• Data / Sort …
• Sort column(s): ‘M. Aleatorio Simple’.
• Señalar el criterio de ordenamiento. By column: ‘M. Aleatorio Simple’.
• Seleccionar la opción ‘Original column(s)’.
Lo anteriormente expuesto se aprecia en la figura 4.
Luego, la muestra aparecerá ordenada en forma ascendente.
3.1.2 Muestreo sistemático
Es un tipo de muestreo que simplifica el proceso de selección de las unidades de análisis, las cuales se seleccionan en un intervalo constante, denominado salto sistemático, que se mide en el tiempo, en el orden o en el espacio. El método requiere la determinación del valor del salto sistemático (k) y elegir un valor de arranque aleatorio (A).
Determinación del salto sistemático: , donde N es el tamaño de la población y n es el tamaño de la muestra.
Elección del arranque aleatorio: se elige un número aleatorio A entre 1 y k, es decir, el valor A se encuentra acotado de la siguiente forma: 1 ≤ A ≤ k.
Ejemplo 2
De acuerdo con el ejemplo anterior, relacionado con la charla sobre marketing digital:
Sean: N = 100 y n = 20, entonces se calcula el salto sistemático .
Por lo tanto, el arranque aleatorio se selecciona entre los cinco primeros asistentes registrados (1 ≤ A ≤ 5). Por ejemplo, si A = 2, los demás asistentes serán seleccionados mediante un salto sistemático de k = 5, obteniéndose: 2, 7, 12, 17, 22, …, 97; números relacionados a la numeración asignada a los asistentes.
Software Minitab. Para la obtención de la muestra sistemática mediante el uso del software Minitab se debe proceder como sigue:
• Calc / Make Patterned Data / Simple Set of Numbers…
• Store patterned data in: C5.
• Arranque aleatorio: 2. Último valor de la numeración asignada en el marco muestral: 100. Tamaño del salto sistemático: 5.
Lo anteriormente expuesto se aprecia en la figura 5.
Los resultados se almacenan en la columna C5, luego se procede a etiquetar la columna; por ejemplo: ‘M. Sistemático’. La figura 6 presenta el resultado obtenido.
3.1.3 Muestreo estratificado
En este tipo de muestreo la población se divide en grupos o estratos. El principio básico radica en que los estratos tengan una gran homogeneidad o similitud interna, y heterogeneidad de estrato a estrato. Una vez determinado el número de estratos L y las unidades pertenecientes a cada uno de ellos, el siguiente paso es definir el número de las unidades muestrales por seleccionarse dentro de cada estrato. Este proceso es conocido como Asignación o Afijación de la muestra.
Asignación proporcional de la muestra.- Es un tipo de asignación que consiste en la distribución de la muestra entre los L estratos, de tal manera que el tamaño de cada muestra sea proporcional al tamaño de cada estrato que la origina. Sea N el tamaño de la población y n el tamaño de la muestra, entonces Nh es el tamaño del estrato h, y nh es el tamaño de la muestra en dicho estrato. Se sabe que:
Por consiguiente, nh = (n)Wh, donde , llamado también ponderación del estrato h.
Ejemplo 3
Inka Móvil es una empresa de transporte interprovincial, cuyo gerente desea realizar un estudio de satisfacción de los clientes que residen en las nueve provincias del departamento de Lima, sin considerar Lima provincia, en relación con el servicio de encomiendas. Para la investigación se seleccionará una muestra de hogares de las mencionadas provincias.
a. Indicar, en forma detallada, la población objetivo del estudio.
b. Para el estudio descrito proponga, y justifique, el uso de un tipo de muestreo probabilístico.
c. Si se utiliza un muestreo estratificado, indique cómo se distribuiría el tamaño de muestra entre los estratos, explique.
Solución
a. La población objetivo está constituida por todos los hogares de las nueve provincias del departamento de Lima.
b. Sería adecuado utilizar el muestreo estratificado debido a que la selección se realizará de acuerdo al número de viviendas que tiene cada provincia, los cuales son agrupados en estratos homogéneos (cada provincia).
c. La distribución del tamaño de muestra se realizará mediante la asignación proporcional según el número de viviendas de cada una de las nueve provincias consideradas. Por ejemplo,
– El tamaño de la población lo constituyen todas las viviendas de las nueve provincias.
– Al dividir el número de viviendas de cada una de las provincias entre el total, se obtiene la proporción de viviendas para cada provincia.
– De acuerdo a la proporción de viviendas por cada provincia se distribuirá proporcionalmente la muestra en cada estrato (provincia).
3.1.4 Muestreo por conglomerados
A diferencia de las otras técnicas donde se seleccionan unidades de muestreo, el muestreo por conglomerados divide a la población en grupos o conglomerados, y luego se selecciona una muestra aleatoria de ellos. Por ejemplo, si la unidad de muestreo es la vivienda, el conglomerado puede ser la manzana constituida por viviendas.
La característica del muestreo por conglomerados es que estos son internamente heterogéneos, y homogéneos de conglomerado a conglomerado. Por ejemplo, si se desea muestrear a los empleados de una gran empresa con el propósito de averiguar su percepción con respecto al clima laboral, un primer paso consiste en seleccionar una muestra de las diversas áreas de la empresa, posteriormente se realizaría una selección aleatoria de los empleados dentro de cada una de las áreas que resulten seleccionadas.
3.2 Muestreo no probabilístico
Los métodos de muestreo no probabilísticos, a diferencia de los probabilísticos, no permiten determinar el error de muestreo, no es posible determinar el nivel de confianza sobre la representatividad de la muestra, y no permiten realizar inferencias sobre la población. Existen varios tipos de muestreo no probabilístico, de los cuales los más usados son los siguientes:
3.2.1 Muestreo por cuotas
Es una técnica de uso frecuente en la investigación de mercados, sobre todo en encuestas de opinión. Se basa en el conocimiento de los estratos de una población y de los individuos más representativos de esta; en este tipo de muestreo se seleccionan cuotas de individuos que reúnen ciertas condiciones; por ejemplo, cincuenta clientes de un banco que reciben su estado de cuenta vía un servicio de mensajería. Una vez especificada la cuota, se eligen los primeros clientes que cumplan con estas características.
3.2.2 Muestreo por conveniencia
En este caso, como su nombre lo indica, las unidades que conformarán la muestra se seleccionan de acuerdo a la conveniencia del investigador. Por ejemplo, se puede solicitar a algunos asistentes a un centro comercial que colaboren voluntariamente para probar ciertos productos, y después realizar un proceso de monitoreo con las mismas unidades. También se puede solicitar la opinión de personas que transitan en un punto de alta afluencia peatonal. En cada caso, la unidad de muestreo se selecciona sobre la base de su fácil disponibilidad.
3.2.3 Muestreo de juicio
Este tipo de muestreo consiste en seleccionar las unidades muestrales a juicio del investigador, quien determina a los que representan a la población. Una importante diferencia radica en que la muestra no es típica, sino que el investigador la considera como tal. Como se observa, entonces, la eficacia del muestreo de juicio depende de la opinión del investigador o experto que selecciona las unidades por entrevistar.
4. PRINCIPALES ESTADÍSTICOS
La media y la varianza muestral son los principales estadísticos y se caracterizan porque sus valores varían de muestra a muestra, mientras que la media y la varianza poblacional son valores fijos y en general desconocidos. La media muestral y la varianza muestral están dadas por:
Si se tiene una población conformada por N unidades con parámetros μ y σ2, la representación esquemática de la obtención de k muestras de tamaño n con su propia media y varianza, como se presenta en la figura 7:
5. DISTRIBUCIÓN DE LA MEDIA MUESTRAL
La distribución de la media muestral se determina a partir de sus valores característicos: esperanza y varianza de la media muestral, es decir, si la distribución de la variable X es X ~ (μ; σ2), entonces se sabe que la esperanza de la media muestral es igual a la media poblacional, y que la varianza de la media muestral es igual a la varianza poblacional dividida entre el tamaño de la muestra, es decir:
Se observa que mientras mayor sea el tamaño de la muestra menor será la variabilidad de la media. Por consiguiente,
6. TEOREMA CENTRAL DEL LÍMITE
Sea X una variable aleatoria con cualquier tipo de distribución, con media μ y varianza σ2. Si se toma una muestra aleatoria de tamaño n, entonces
Lo que implica que cuando el tamaño de la muestra aumenta, la media muestral estandarizada converge a una distribución normal estándar con media μ = 0 y varianza σ2 = 1
Ejemplo 4
El gasto anual, en soles, en el que incurre una empresa para el mantenimiento de cada equipo de cómputo presenta una distribución normal con una media y desviación estándar de S/. 120 y S/. 15, respectivamente. La empresa seleccionó 36 equipos de cómputo para realizarles un seguimiento de sus costos de mantenimiento. Con la media muestral que se obtenga se emitirá una opinión sobre los gastos incurridos, de acuerdo a los siguientes criterios:
• Reducido: si la media muestral es como máximo S/. 117.
• Moderado: si la media muestral es mayor a S/. 117 y menor de S/. 124.
• Excesivo: si la media muestral es por lo menos S/. 124.
a. Luego del seguimiento realizado, ¿cuál es la probabilidad de que se concluya que se ha incurrido en un gasto reducido en relación al mantenimiento de los equipos de cómputo?
b. Luego del seguimiento realizado, ¿cuál es la probabilidad de que se concluya que se ha incurrido en un gasto excesivo en relación al mantenimiento de los equipos de cómputo?
c. Calcule la probabilidad de que luego del seguimiento se señale que la empresa presentó gastos moderados para el mantenimiento de los equipos de cómputo.
d. ¿Cuántos equipos de cómputo se deberían seleccionar para un próximo seguimiento, de tal forma que se tenga una probabilidad de 0.96 de que se concluya que en promedio se han presentado gastos entre S/. 115 y S/. 125?
Solución
a. Se define X: gasto anual, en soles (S/.), de mantenimiento del equipo de cómputo.
X ∼ N (120;152), n = 36
Como S/. 2.5, entonces ∼ N (120;2.52)
Luego, la probabilidad solicitada es: P(Gasto reducido) = P( ≤ 117)
Al hacer uso del software Minitab se tiene:
• Graph / Probability Distribution Plot …
• Seleccionar View Probability.
• Distribution: Normal. Mean: 120. Standard deviation: 2.5
• Shaded Area: Seleccionar X value y Left Tail. X value: 117
Lo anteriormente expuesto se aprecia en la figura 8.
La probabilidad resultante se aprecia en la figura 9.
Luego: P(Gasto reducido) = P( ≤ 117) = 0.1151
Interpretación: la probabilidad de que se incurra en un gasto reducido es de 0.1151.
b. Del ítem anterior: ~ N(120;2.52)
Luego, la probabilidad solicitada es: P(Gasto excesivo) = P( ≥ 124)
Haciendo uso del software Minitab:
• Graph / Probability Distribution Plot …, seleccionar View Probability.
• Distribution: Normal. Mean: 120. Standard deviation: 2.5
• Shaded Area: Seleccionar X value y Right Tail. X value: 124
Lo anteriormente expuesto se aprecia en la figura 10.
La probabilidad resultante se aprecia en la figura 11.
Luego: P(Gasto excesivo) = P( ≥ 124) = 0.0548
Interpretación: la probabilidad de que se incurra en un gasto excesivo es de 0.0548.
c. Del ítem (a): ∼ N(120;2.52)
Luego, la probabilidad solicitada es: P(Gasto moderado) = P(117 ≤ ≤ 124)
Al usar el software Minitab:
• Graph / Probability Distribution Plot …, seleccionar View Probability.
• Distribution: Normal. Mean: 120. Standard deviation: 2.5
• Shaded Area: Seleccionar X value y Middle. X value 1: 117, X value 2 = 124
Lo anteriormente expuesto se aprecia en la figura 12.
La probabilidad resultante se aprecia en la figura 13.
Luego: P(Gasto moderado) = P(117 ≤ ≤ 124) = 0.8301
Interpretación: existe una probabilidad de 0.8301 de que la empresa presente gastos moderados.
d. Hallar el valor del tamaño de muestra n, tal que P(115 < < 125) = 0.96
Como la distribución normal estándar es simétrica respecto del origen de coordenadas, se tiene que las probabilidades idénticas de ambos extremos de la gráfica (colas) deben sumar 0.04, es decir, la diferencia con respecto a la unidad.
Al hacer uso del software Minitab:
• Graph / Probability Distribution Plot …, seleccionar View Probability.
• Distribution: Normal. Mean: 120. Standard deviation: 2.5
• Shaded Area: Seleccionar Probability y Both Tails. Probability: 0.04
Lo anteriormente expuesto se aprecia en la figura 14.
El valor de la abscisa resultante se aprecia en la figura 15.
Se debe igualar el valor de la abscisa correspondiente:
Entonces:
Interpretación: se deberían seleccionar 38 equipos de cómputo.
6.1 Aplicación del teorema central del límite a diferentes distribuciones
El teorema central del límite es útil para aproximar la distribución de la media muestral () a una distribución normal, cuando la muestra aleatoria es obtenida de diferentes distribuciones de probabilidad para valores grandes del tamaño n de la muestra.
6.1.1 Distribución de Poisson
Sea la variable aleatoria X ~ P(λ), con E(X) = λ, y V(X = λ
Si se seleccionan muestras de tamaño n, con n suficientemente grande, la distribución de la media muestral es:
. Es decir:
y por el teorema central del límite se tiene
Ejemplo 5
M-Design es una empresa que brinda el servicio de pintura personalizada de motos y cuatrimotores. Luego del estudio se determinó que el número de personas interesadas en el servicio ofrecido, clientes que se apersonan o realizan llamadas para consultar por dicho servicio, presenta una distribución de Poisson con una media de 16 personas por día. Suponga que se seleccionan al azar 64 días y se registra el número diario de personas interesadas, ¿cuál es la probabilidad de que la media muestral de personas interesadas difiera de la media poblacional en a lo más 1 persona?
Solución
Se define:
X: Número diario de personas interesadas en el servicio ofrecido.
X ~ Poisson(λ = 16)
Como , por el teorema central del límite: ~ N(16;0.52)
Luego, la probabilidad solicitada es:
Interpretación: la probabilidad de que la media muestral difiera de la media poblacional, en a lo más 1 persona es de 0.9545.
6.1.2 Distribución uniforme
Sea X una variable aleatoria con distribución uniforme U(α; β), entonces
Si se toma una muestra de tamaño n la distribución de la media muestral es
, es decir
y por el teorema central del límite, resulta
Ejemplo 6
Se sabe que el espesor de unas placas de acero es una variable aleatoria con distribución uniforme entre 12.52 y 12.88 milímetros.
a. Si se seleccionan 48 placas de acero, ¿cuál es la probabilidad de que la media muestral del espesor de las placas sea de por lo menos 12.68 mm?
b. ¿Cuál es la probabilidad de que 108 placas apiladas tengan una altura de a lo más 1.37 metros?
Solución
a. Sea X : Espesor, en milímetros, de una placa de acero, entonces
X ~ U(12.52;12.88), n = 48
Luego:
Por consiguiente, la probabilidad solicitada es
b. Sea X : Espesor, en milímetros, de una placa de acero, n = 108. Entonces,
Luego, la probabilidad solicitada es:
Como el valor de la variable se encuentra expresado en milímetros y la altura de las placas apiladas en metros; para calcular la probabilidad solicitada se realiza una conversión a metros, por lo tanto:
Nota. 1 metro = 1000 milímetros.
7. DISTRIBUCIONES DE MUESTRAS PEQUEÑAS
Se dice que una muestra es pequeña cuando el muestreo se realiza con un número no mayor de 30 observaciones. Si la muestra es grande, se aproxima a una distribución normal. En esta sección se estudiarán las distribuciones Ji cuadrado, t de Student y F de Fisher.
7.1 Distribución Ji cuadrado
Sea x1, x2,...,xn una muestra aleatoria seleccionada de una población N(μ; σ2)
Así, se tiene . Luego
Propiedad: sea x1, x2,…,xn una muestra aleatoria seleccionada de una población la varianza muestral. Entonces, se tiene
Esto es, la variable aleatoria V tiene una distribución χ2 con (n - 1) grados de libertad.
Características: si X es una variable aleatoria con distribución Ji cuadrado, con m grados de libertad, entonces:
E(X) = m y V(X) = 2m
El parámetro m de la distribución se conoce con el nombre de grados de libertad y es considerado como el número de valores que la variable puede tomar libremente con la condición de que la suma debe ser igual a un valor fijo, este valor se encuentra asociado con el tamaño de la muestra.
Ejemplo 7
El entrenador de un gimnasio realizó un estudio en relación con la distancia recorrida (en km) por los usuarios del gimnasio durante media hora de ejercicio en la caminadora mecánica. Como resultado del estudio se determinó que las distancias recorridas presentan una distribución normal con media de 5.2 km y una desviación estándar de 0.4 km. Determine la probabilidad de que la desviación estándar muestral de la distancia recorrida durante media hora de ejercicio por parte de 28 usuarios del gimnasio seleccionados al azar se encuentre entre 0.36 y 0.44 km.
Solución
Sea X: Distancia recorrida, en km, durante media hora de ejercicio en la caminadora mecánica, por parte del usuario del gimnasio. Luego, se tiene:
Por consiguiente,
Interpretación: la probabilidad de que la desviación estándar muestral de la distancia recorrida se encuentre entre 0.36 y 0.44 km es de 0.5358.
7.2 Distribución t de Student
Sean Z ~ N(0;1) e variables aleatorias independientes. Luego, la distribución de la variable aleatoria T es,
Así, la variable T tiene distribución t con k grados de libertad.
Características:
Si X ∼ t(k), entonces
E(X) = 0; para k > 1
La distribución t de Student es muy similar a la distribución normal, ya que ambas varían en el conjunto de los números reales, aunque la distribución t presenta una mayor dispersión. Sin embargo, la varianza de la distribución t se aproxima a la unidad (1) cuando k es un número muy grande.
Propiedad: sea x1, x2,…,xn una muestra aleatoria seleccionada de una población N(μ; σ2). Entonces se tiene:
La variable T tiene entonces una distribución t con (n – 1) grados de libertad.
Ejemplo 8
El administrador de Karaoke Live, un local de karaoke en vivo, ha determinado que el tiempo que permanecen los grupos de amigos que concurren durante los fines de semana es una variable aleatoria que sigue una distribución normal con una media poblacional de 3.5 horas, y una varianza poblacional desconocida, la cual se ha estimado en 0.25 horas2, ¿cuál es la probabilidad de que el tiempo promedio de permanencia, por parte de 16 grupos de amigos, sea de 3 horas 15 minutos como máximo?
Solución
Sea X: Tiempo de permanencia (en horas) por parte de los grupos de amigos que acuden a Karaoke Live durante el fin de semana. X ~ N(3.5; σ2), n = 16, s2 = (0.5 h)2
Dado que
Esta variable tiene una distribución t con (n – 1) grados de libertad.
Nota. 3 horas y cuarto = 3 horas y 15 minutos = 3.25 horas
Al calcular la probabilidad solicitada, se obtiene
Interpretación: la probabilidad de que el tiempo promedio de permanencia por parte de 16 grupos de amigos sea de 3 horas y 15 minutos como máximo es de 0.03197.
7.3 Distribución F de Fisher
Definición. Sean variables aleatorias independientes.
La variable aleatoria dada por
tiene una distribución F con parámetros m y n y se denota F(m;n).
Las características de la variable aleatoria W son:
Propiedad: sean x1, x2,…,xn una muestra aleatoria seleccionada con reemplazo de una población y y1, y2,…,yn una muestra aleatoria seleccionada con reemplazo de una población . Entonces, se tiene
Ejemplo 9
En un estudio realizado por una cadena de cafeterías de Lima metropolitana se seleccionó una muestra de 21 grupos de clientes en reunión de negocios que acudieron al local de La Molina y 24 grupos de clientes al local de San Miguel. Determine la probabilidad de que la varianza muestral del consumo realizado por los grupos de clientes que acudieron al local de La Molina sea menor que 2.5 veces la varianza muestral del consumo realizado por los grupos de clientes en San Miguel. Suponga que las varianzas poblacionales del consumo realizado por los grupos de clientes en ambos locales son similares.
Solución
X1: Consumo realizado (en S/.) por los grupos de clientes de la cadena de cafeterías en el local de La Molina.
X2: Consumo realizado (S/.) por los grupos de clientes de la cadena de cafeterías en el local de San Miguel.
Dado que:
Como la varianza poblacional del consumo realizado por los grupos de clientes en ambos locales son similares. Entonces,
Luego, la probabilidad solicitada es
Interpretación: la probabilidad de que la varianza muestral del consumo realizado por los grupos de clientes en La Molina sea menor que 2.5 veces la varianza muestral en San Miguel es 0.9818.
8. DISTRIBUCIONES MUESTRALES DE UN ESTADÍGRAFO
Se denomina distribución muestral de un estadígrafo a su distribución de probabilidad, la cual se genera por la extracción de un número muy grande de muestras. Las principales distribuciones muestrales de un estadígrafo se presentan a continuación:
8.1 Distribución de la media muestral con varianza poblacional conocida
Sea x1, x2,…,xn una muestra aleatoria seleccionada, con reemplazo, de una población con distribución normal: N(μ; σ2). Si es la media muestral, entonces:
Nota. Téngase en cuenta la diferencia entre la estandarización de la variable y la estandarización de la media muestral de la variable .
Ejemplo 10
El tiempo semanal de acceso a las redes sociales en Internet por parte de los escolares de nivel secundario presenta una distribución normal con una media poblacional de 250 minutos y una varianza poblacional de 900 minutos2.
a. En un colegio se seleccionarán a 36 escolares de secundaria, y si el tiempo promedio semanal de acceso a las redes sociales supera los 260 minutos se realizará una charla informativa dirigida a los padres de familia, ¿cuál es la probabilidad de que se realice dicha charla?
b. En una muestra de 64 escolares de secundaria se determinó una probabilidad de 0.91 de que el tiempo promedio semanal de acceso a las redes sociales sea de a lo más k minutos, ¿cuál es el valor de k?
Solución
a. Sea : Media muestral del tiempo semanal de acceso a redes sociales.
n = 36.
De acuerdo a los datos del problema, se tiene
Luego, la probabilidad solicitada es
P( > 260) = 0.02275
Interpretación: la probabilidad de que se realice la charla, es decir, que la media muestral sea mayor a 260 minutos, es de 0.02275 aproximadamente.
b. Sea : Media muestral del tiempo semanal de acceso a redes sociales. n = 64.
De los datos del problema, se tiene
El valor de k solicitado verifica la siguiente relación: P( < h) = 0.91
Al estandarizar, resulta
Por consiguiente:
Interpretación: El valor de k es de 255 minutos aproximadamente.
8.2 Distribución de la media muestral con varianza poblacional desconocida
Sea una muestra aleatoria seleccionada, con reemplazo, de una población con distribución normal: N(μ; σ2), donde la varianza poblacional σ2 es desconocida. Luego, la variable aleatoria
tiene una distribución t de Student con (n - 1) grados de libertad.
Nota. Téngase presente que la distribución de la variable X debe ser normal, de otro modo este resultado es inaplicable.
Ejemplo 11
Si el uso de almacenamiento (tamaño en disco) de las fotografías capturadas durante un mes por parte de los jóvenes universitarios, mediante su smartphone, presenta una distribución normal con media 570 megabytes (MB), y con una varianza poblacional desconocida pero que se ha estimado en (60 MB)2, calcule la probabilidad de que la cantidad total de fotografías capturadas durante un mes por parte de 40 jóvenes universitarios tengan un tamaño de por lo menos 23 000 MB.
Solución
Sea : Media muestral del tamaño (en MB) de las fotografías capturadas durante un mes por parte de los jóvenes universitarios. n = 40.
Dado que:
Luego, la probabilidad solicitada es
Interpretación: la probabilidad de que la cantidad total de fotografías capturadas por parte de 40 jóvenes universitarios tengan un tamaño de por lo menos 23 000 MB es de 0.3, aproximadamente.
8.3 Distribución de una proporción muestral
Sea x1, x2,…,xn una muestra aleatoria seleccionada, con reemplazo, de una población de Bernoulli: Be (1;π), donde π es la proporción de éxitos en la población. La proporción de éxitos en la muestra se encuentra definida como:
, donde Y es el número de éxitos en la muestra.
Nota. Una variable aleatoria Bernoulli asume únicamente los valores 0 y 1. Las características de la distribución de la proporción muestral son:
Si n es suficientemente grande, se tiene:
Nota. La desviación estándar de una distribución muestral se denomina también error estándar. Para la distribución de la proporción muestral el error estándar es:
Ejemplo 12
Una reconocida marca de dispositivos móviles asegura que en Lima metropolitana, 3 de cada 10 tabletas adquiridas en un centro comercial ubicado en Santiago de Surco son de dicha marca.
a. Para una muestra conformada por las próximas 60 tabletas vendidas en el centro comercial ubicado en Santiago de Surco, calcular la probabilidad de que la proporción de tabletas de dicha marca sea mayor que 0.35.
b. ¿Cuántas tabletas deben ser seleccionadas para que la proporción de tabletas de la marca en estudio difiera de su proporción poblacional en a lo más 0.08, con una probabilidad de 0.90?
Solución
a. Sea X una variable dicotómica:
Para la muestra de tabletas seleccionadas, se tiene
proporción muestral de tabletas de marca en análisis.
Luego, la probabilidad solicitada es: P(p > 0.35) = 0.1992
Interpretación: la probabilidad de que la proporción de tabletas de dicha marca sea mayor que 0.35 es de 0.1992 aproximadamente.
b. Dado que: , entonces, para calcular el valor de n que verifica que
P(|p - π| ≤ 0.08) = 0.90, se tiene
Como Z ~ N(0;1) es simétrica con respecto al origen, entonces la probabilidad de ambas colas es igual a 0.10. Véase figura 16.
Luego:
Interpretación: Se deben seleccionar 89 tabletas.
8.4 Distribución de la varianza muestral
Sea x1, x2,…,xn una muestra aleatoria seleccionada, con reemplazo, de una población con distribución normal: N(μ; σ2), y sea:
Entonces, la variable tiene una distribución Ji cuadrado con (n - 1) grados de libertad.
Propiedades: para una muestra aleatoria seleccionada de una población con distribución normal: N(μ; σ2) se tiene:
Ejemplo 13
Los montos de las transacciones realizadas en una agencia de barrio de una reconocida entidad bancaria, presentan una distribución normal con una desviación estándar poblacional de S/. 45.
a. ¿Cuál será la probabilidad de que las 37 próximas transacciones presenten una desviación estándar muestral de a lo más S/. 51?
b. Sobre la base de una muestra de 46 transacciones se ha estimado que existe una probabilidad de 0.15 de que la varianza sea de por lo menos k soles2. Determine el valor de k.
Solución
a. Sea X: Monto (en S/.) de la transacción realizada en una agencia de barrio, y X ~ N(μ; 452), n = 37
Como
Luego, la probabilidad solicitada es
b. En este caso, se tiene:
De acuerdo a los datos del problema se tiene: P(S2 ≥ k) = 0.15
De donde:
9. DISTRIBUCIONES MUESTRALES DE DOS MUESTRAS
Cuando se trata de comparar dos poblaciones de acuerdo a una característica de interés, se comparan las muestras aleatorias tomadas de ambas poblaciones.
9.1 Diferencia de medias muestrales con varianzas poblacionales conocidas
Sean: dos variables aleatorias independientes. Si se seleccionan muestras con reemplazo de tamaño nx y ny, y se obtienen las distribuciones de sus medias muestrales, se tiene:
La distribución de la diferencia de las medias muestrales está dada por:
Donde la esperanza y varianza de esta diferencia son:
Nota. La expresión representa a una variable aleatoria.
Ejemplo 14
Los ladrillos para techo producidos en las plantas A y B de la empresa Blokart presentan medias y varianzas poblacionales conocidas: μ1 = 9.25 kg, = σ1 = 0.08 kg, y = μ2 = 9.30 kg y σ2 = 0.06 kg. Se seleccionan 42 y 40 ladrillos para techo producidos en las plantas A y B, respectivamente; calcule la probabilidad de que la diferencia del peso promedio de los ladrillos obtenidos en las muestras de las plantas A y B difiera en a lo más 30 gramos de la diferencia de medias poblacionales.
Solución
X1: Peso (en kg) de ladrillos para techo de la planta A. μ1 = 9.25, σ1 = 0.08, n1 = 42.
X2: Peso (en kg) de ladrillos para techo de la planta A. μ2 = 9.30, σ2 = 0.06, n2 = 40.
La distribución de la diferencia de medias muestrales es:
(1 - 2) ~ N(– 0.05;0.015572)
donde
Luego, la probabilidad solicitada es: P(|1 - 2) - (μ1 - μ2)|≤ 0.03); 0.03 kg, equivalente a 30 gramos.
P(|1 - 2) - (-0.05)| ≤ 0.03) = P(-0.08 ≤ 1 - 2 ≤ -0.02) = 0.946
9.2 Diferencia de medias muestrales con varianzas poblacionales desconocidas
En el caso de que las varianzas y sean desconocidas, estas varianzas pueden ser homogéneas o heterogéneas.
9.2.1 Varianzas poblacionales homogéneas
Para este caso, la variable aleatoria tiene la siguiente distribución:
donde es la varianza ponderada de las 2 muestras.
Ejemplo 15
El automóvil modelo Saux se comercializa en 2 modelos: A y B, los que al tener distintos pesos presentan un diferente rendimiento de combustible. El rendimiento tiene distribución normal con media 19.6 y 19.2 kilómetros por litro (en km/l) de combustible para los modelos A y B, respectivamente. Las varianzas poblacionales de los modelos A y B se desconocen pero se ha determinado que son homogéneas y se estimaron en 1.82 y 2.02 (km/l)2, respectivamente. Se realizarán pruebas con muestras aleatorias de 37 automóviles modelo A y 34 modelo B. Determine la probabilidad de que la media muestral del rendimiento de combustible de los automóviles modelo A sea menor a la media muestral de los automóviles modelo B.
Solución
X1: Rendimiento (en km/l) de combustible de los autos Saux modelo A. μ1 = 19.6, S1 = 1.8, n1 = 37.
X2: Rendimiento (en km/l) de combustible de los autos Saux modelo B. μ2 = 19.2, S2 = 2.0, n2 = 34.
Dado que
donde = μ1 - μ2 = 19.6 – 19.2 = 0.4
Luego, la probabilidad solicitada es
9.2.2 Varianzas poblacionales heterogéneas
En este caso la distribución de la variable aleatoria es
Donde V corresponde a los grados de libertad:
Nota. El valor de los grados de libertad (V) se redondea al entero inmediato inferior.
Ejemplo 16
Para llegar a un determinado lugar turístico ubicado en la provincia de Yauyos existen dos rutas. Los automóviles que van desde Lima por la ruta centro presentan un tiempo de viaje que se distribuye como una normal: μ1 = 8.4 horas, S1 = 0.30 h, y los automóviles que van por la ruta sur presentan un tiempo de viaje que también se distribuye como una normal: μ2 = 8.5 h, S2 = 0.25 h. Si se seleccionan 41 y 44 automóviles que se dirigen al mencionado lugar turístico por las rutas centro y sur, respectivamente, ¿cuál es la probabilidad de que la media muestral del tiempo de viaje de los automóviles que van por la ruta centro sea mayor, en a lo más 12 minutos, en comparación con los que van por la ruta sur? Suponga varianzas poblacionales desconocidas pero heterogéneas.
Solución
X1: Tiempo de viaje, en horas, de los automóviles por la ruta centro. μ1 = 8.4, S1 = 0.30, n1 = 41.
X2: Tiempo de viaje, en horas, de los automóviles por la ruta sur. μ2 = 8.5, S2 = 0.25, n2 = 44.
Dado que
donde = μ1 - μ2 = 8.4 - 8.5 = -0.1
Luego, la probabilidad solicitada es P(0 ≤ 1 - 2 ≤ 0.2)
9.3 Cociente de varianzas muestrales
Si y son las varianzas muestrales asociadas a dos muestras aleatorias independientes de tamaños n1 y n2, seleccionadas con reemplazo de dos poblaciones normales y respectivamente, entonces la variable aleatoria
tiene una distribución F con (n1 - 1) y (n2 - 1) grados de libertad.
Ejemplo 17
Los montos registrados en las boletas de venta en una tienda de helados presentan una desviación estándar poblacional de S/. 3.6 en su local de Santa Anita, y una desviación estándar poblacional de S/. 4.5 en su local de Santiago de Surco. Si se seleccionan muestras aleatorias de 33 y 28 clientes de los locales de Santa Anita y Santiago de Surco, respectivamente, ¿cuál es la probabilidad de que la varianza muestral de los montos registrados en las boletas de venta de los clientes del local de Santa Anita sea menor a la de los clientes de Santiago de Surco?
Solución
X1: Montos (en S/.) registrados en las boletas de venta de los clientes del local de Santa Anita.
X2: Montos (en S/.) registrados en las boletas de venta de los clientes del local de Santiago de Surco.
Dado que:
Luego, la probabilidad solicitada es
9.4 Diferencia de proporciones muestrales (p1 - p2)
Sean x1, x2,...,xn1 e y1, y2,...,yn2 dos muestras aleatorias, con reemplazo, independientes de tamaño n1 y n2, respectivamente, seleccionadas de dos poblaciones independientes de Bernoulli Be(1; π1) y Be(1; π2), donde π1 y π2 son las proporciones poblacionales de éxito, respectivamente. Si:
son las proporciones muestrales respectivas; entonces la variable aleatoria
(p1 - p2) tiene distribución:
Propiedades:
a) μ(p1 - p2) = E(p1 - p2) = E(p1) - E(p2) = π1 - π2
b)
c) Para n1 y n2 suficientemente grandes, la distribución de la variable aleatoria es:
Ejemplo 18
Un taller mecánico cuenta con dos locales, ubicados en los distritos de Mira-flores y Santiago de Surco.
• En el local de Miraflores se estima que poblacionalmente 1 de cada 4 vehículos atendidos funcionan a gas natural vehicular.
• En el local de Santiago de Surco se estima que poblacionalmente 1 de cada 5 vehículos atendidos funcionan a gas natural vehicular.
Se estima que para el fin de semana se atenderá a 48 vehículos en el local de Miraflores y a 54 vehículos en el local de Santiago de Surco. Determine la probabilidad de que la proporción muestral de vehículos que funcionan a gas natural atendidos en el local de Miraflores supere en por lo menos 0.10 a la proporción muestral de vehículos que funcionan a gas natural atendidos en el local de Santiago de Surco.
Solución
p1: Proporción muestral de vehículos, atendidos en el local de Miraflores, que funcionan a gas natural.
p2: Proporción muestral de vehículos, atendidos en el local de Santiago de Surco, que funcionan a gas natural.
Dado que:
donde
Luego, la probabilidad solicitada es P(p1 - p2 ≥ 0.10) = 0.2732
PROBLEMAS RESUELTOS
1. En cada uno de los casos que se presentan a continuación, defina y/o identifique adecuadamente, de acuerdo al contexto del caso, según se solicite:
Caso de estudio: | Empresa de electrodomésticos |
El gerente de ventas de una empresa de electrodomésticos realizó un estudio dirigido a los clientes potenciales de electrodomésticos en relación con los siguientes aspectos: • Marca de electrodomésticos preferida. • Número de televisores que posee en el hogar. • Monto total pagado en la última compra de electrodomésticos. • Nivel de prioridad para adquirir un televisor de ultra alta definición (UHDTV). Para la realización del mencionado estudio se aplicó una encuesta a 360 clientes potenciales, los cuales fueron ubicados en sus hogares, residentes en los principales distritos de la zona norte de Lima metropolitana. Se ha estimado que en los distritos seleccionados existen aproximadamente 276 000 hogares que cumplen con el perfil socioeconómico requerido para el estudio y que podrían ser seleccionados para este. | |
Unidad de análisis | Cliente potencial residente en alguno de los principales distritos de la zona norte de Lima metropolitana. |
Unidad de muestreo | Hogar familiar de alguno de los principales distritos de la zona norte de Lima metropolitana. |
Población | Clientes potenciales residentes en los principales distritos de la zona norte de Lima metropolitana (276 000). |
Muestra | Existen 360 clientes potenciales residentes en los principales distritos de la zona norte de Lima metropolitana. |
Tipo de muestreo | Se debería utilizar un muestreo estratificado, por distrito, luego aplicar un muestreo aleatorio simple o sistemático. |
Clasificación de las variables | • Marca: cualitativa nominal. • Núm. de televisores: cuantitativa discreta. • Monto: cuantitativa continua. • Prioridad UHDTV: cualitativa ordinal. |
Caso de estudio: | Banca virtual |
El gerente del área de sistemas de una entidad bancaria realizará un estudio dirigido a los clientes, de los diversos tipos de cuentas (libre costo, máxima y rendidora) y que han descargado el aplicativo de banca virtual, en relación con diversos aspectos del servicio brindado. Para el estudio se encuestará a 320 de los mencionados clientes. Entre los principales objetivos del estudio se pueden mencionar los siguientes: i. Conocer el nivel de satisfacción con el servicio de banca virtual. ii. Estimar el tiempo que se ahorra el cliente gracias al servicio de banca virtual. | |
Unidad de análisis | Cliente de la entidad bancaria, de alguno de los tipos de cuenta, que haya descargado el aplicativo de banca virtual. |
Marco muestral | Base de datos de los clientes. |
Muestra | Los 320 clientes de la entidad bancaria, de alguno de los tipos de cuenta, que hayan descargado el aplicativo de la banca virtual. |
Tipo de muestreo | Se debería utilizar un muestreo estratificado, por tipo de cuenta, para luego aplicar un muestreo aleatorio simple o sistemático. |
Estadísticos que se deben obtener | • Proporción muestral de clientes satisfechos con el servicio de la banca virtual. • Media muestral del tiempo ahorrado por el cliente. |
2. El gerente de una empresa constructora ha programado la realización de un estudio dirigido a los propietarios de departamentos del conjunto habitacional El Robledal, el cual fue entregado en su totalidad a sus propietarios hace un poco más de un año. El conjunto habitacional se encuentra compuesto por doce edificios de dos tipos distintos. A continuación se presenta una descripción del conjunto habitacional:
Se encuestó a cuarenta de los propietarios de departamento registrados en el conjunto habitacional El Robledal (se asume un propietario por cada departamento). A los propietarios seleccionados se les consultó sobre diversos aspectos (condición laboral, número de miembros de familia, nivel de satisfacción con el servicio de guardianía y consumo de energía eléctrica en los departamentos de los propietarios), y a partir de las respuestas brindadas se elaboró un informe, del cual se presenta el siguiente extracto:
En base a la muestra se ha determinado que el 80 % de propietarios son trabajadores dependientes, y que los miembros de familia de los propietarios son en promedio 4.25 personas, y el 65 % de los propietarios encuestados se encuentran entre satisfechos y muy satisfechos con el servicio de guardianía del conjunto habitacional. De acuerdo a la inspección de los medidores de energía eléctrica se ha determinado que los departamentos de los propietarios presentan un consumo promedio de 1240 kwh/mes.
a) Defina a la población del presente estudio, e indique cuál es el tamaño de dicha población.
Solución
La población se encuentra conformada por todos los propietarios de departamentos del conjunto habitacional El Robledal.
El tamaño de la población es la suma de propietarios (departamentos) que hay en los edificios A y B que conforman el conjunto habitacional.
N = 144 + 40 = 184 departamentos.
b) Determine la fracción de muestreo del estudio realizado.
Solución
c) Si se señala que el número de propietarios seleccionados para el estudio se repartirán en forma proporcional por cada edificio, ¿qué tipo de muestreo se estaría trabajando? Justifique.
Solución
Se estaría trabajando un muestreo estratificado, ya que el tamaño de la muestra se reparte en forma proporcional entre cada estrato (edificio).
d) ¿Los valores presentados en el informe son estadísticos o parámetros? Justifique.
Solución
Los valores presentados en el informe son estadísticos, ya que son medidas resumen obtenidas a partir de una muestra.
e) De acuerdo con el informe presentado, identifique las características (variables) involucradas y su respectiva clasificación (tipo de variable). Además, señale el parámetro correspondiente a dichas características.
Solución
Característica | Tipo variable | Parámetro |
Condición laboral | Cualitativo nominal | Proporción poblacional según condición laboral de los propietarios. |
N° de miembros de familia | Cuantitativo discreto | Media poblacional del número de miembros de familia de los propietarios. |
Nivel de satisfacción con el servicio de guardianía | Cualitativo ordinal | Proporción poblacional según nivel de satisfacción con el servicio de guardianía. |
Consumo de energía eléctrica | Cuantitativo continua | Media poblacional del consumo de energía eléctrica en los departamentos de los propietarios. |