Uploaded by Alvaro Granados

Calderón, Arturo (2020) Introducción a la Estadística y Probabilidad para Economía y Finanzas (1)

advertisement
PONTIFICIA UNIVERSIDAD
CATOLICA DEL PERU
Introducción a la Estadística y
Probabilidad para Economía y
Finanzas
2020
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Capítulo 1
Estadística y elementos de la Teoría de la Probabilidad
Introducción
•
•
En Economía, se trabaja con cifras que representan resultados de procesos donde interactúan
diversos agentes en condiciones de incertidumbre parcial.
Hay tendencias que no son exactas sino “patrones” que presentan cierta variabilidad.
𝐵𝑒𝑛𝑒𝑓𝑖𝑐𝑖𝑜 𝑛𝑒𝑡𝑜
Por ejemplo, la rentabilidad financiera (ROE; 𝑅𝑂𝐸 = 𝐹𝑜𝑛𝑑𝑜𝑠 𝑝𝑟𝑜𝑝𝑖𝑜𝑠) de un banco, medida semana a
semana, no es constante, pero tampoco es caótica; examinando las frecuencias con que se presentan las
rentabilidades por semana (como las de abajo, imagen de un archivo Excel) se encuentran tendencias en
los valores del ROE, que oscilan entre extremos bien definidos.
Estas tendencias cuantificadas adecuadamente nos dicen “el estado” de una población o grupo, indicando:
Qué es lo que predomina, qué es lo más frecuente, destacado con el óvalo rojo
y
Cuánta variabilidad (diferencia arriba o debajo de lo predominante) existe, destacado con el óvalo
•
•
ROE
25.04
25.04
25.02
28.10
29.02
29.86
30.60
27.98
28.06
28.49
28.88
27.58
27.56
27.82
28.05
28.92
28.97
29.27
29.53
29.29
29.41
29.68
29.92
Insumo
Min
Máx
Rango
k
c
Roe
25.02
34.12
9.10
5
1.82
25.02
26.84
28.66
30.48
32.30
26.84
28.66
30.48
32.30
34.12
Total
Frecuencia
3
8
16
7
3
37
ROE
25.02 - 26.84
26.84 - 28.66
28.66 - 30.48
30.48 - 32.30
32.30 - 34.12
Total
Frecuencia
3
8
16
7
3
37
%
8.1
21.6
43.2
18.9
8.1
100.0
Polígono de frecuencias
Histograma
Frecuencia
Rentabilidad semanal
1/7/2007
1/15/2007
1/22/2007
1/31/2007
2/7/2007
2/15/2007
2/22/2007
2/28/2007
3/7/2007
3/15/2007
3/22/2007
3/31/2007
4/7/2007
4/15/2007
4/22/2007
4/30/2007
5/7/2007
5/15/2007
5/22/2007
5/31/2007
6/7/2007
6/15/2007
6/22/2007
18
18
16
16
14
14
12
12
10
Estadísticas R O E
Media
Error típico
Mediana
Moda
Desviación estándar
Varianza de la muestra
Curtosis
Coeficiente de asimetría
Rango
Mínimo
Máximo
Suma
Cuenta
29.50
0.35
29.45
25.04
2.14
4.56
0.55
0.00
9.10
25.02
34.12
1091.40
37
10
8
8
6
6
4
4
2
2
0
25.02 - 26.84
26.84 - 28.66
28.66 - 30.48
30.48 - 32.30
32.30 - 34.12
0
ROE
25.02 - 26.84 26.84 - 28.66 28.66 - 30.48 30.48 - 32.30 32.30 - 34.12
Frecuencia
Frecuencia
Saber “más” acerca de un proceso, como el que genera las rentabilidades en la población de
semanas de actividad de un banco, debe ponerlo a uno en condición de indicar “el estado de la
población”, como la mayor frecuencia del intervalo de rentabilidades entre 28.66 y 30.48, y también en condición de “explicar ese estado” o sea de decir el porqué de dicho estado. Y como
resultado, incluso se puede “predecir”, que también suele ser objetivo de una explicación.
Para explicar, o para predecir, uno suele apoyarse en algunas características (o variables) que
hayan mostrado estar asociadas a la variable de interés que representa (“mide”) el estado de la
población o grupo. Si la explicación es buena, eso nos pone incluso en capacidad de predecir.
Por ejemplo, si tenemos datos sobre la rentabilidad promedio de diversos fondos mutuos y de la variación
en rentabilidad de esos mismos fondos y juntamos las cifras para analizarlas, podemos distinguir un
patrón de asociación que es muy conocido en el campo de las finanzas: la relación directa entre “rentabilidad” y “riesgo”.
En este caso, el riesgo se mide como el promedio de variaciones tanto hacia arriba como debajo de la
rentabilidad media de cada fondo durante el año. Como se trata de las oscilaciones arriba o debajo de lo
1
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
esperado, es claro que se mide de alguna manera el “riesgo”: posibilidad de recibir bastante menos de lo
esperado con una inversión.
Las cifras de abajo muestran rentabilidades promedio y riesgos respectivos para un grupo o muestra de 34
fondos mutuos. Graficando las parejas de valores Riesgo_X versus Rentabilidad media_Y se ve una clara
tendencia creciente, representable por una recta de la forma 𝑦 = 𝑎 + 𝑏𝑥, que, con métodos estadísticos
(que veremos en el capítulo 4), puede ser estimada o cuantificada, estimando los valores de 𝑎 y de 𝑏. El
índice 𝑟𝑋𝑌 llamado coeficiente de correlación, que en valor absoluto puede estar entre 0 y 1, indica cuán
bien se ajustan los datos a un modelo 𝑦 = 𝑎 + 𝑏𝑥, cuanto más cercano a 1, mejor ajuste y en este ejemplo
es un valor alto (en este caso es positivo porque se trata de una relación directa o “creciente”)
Fondo
mutuo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Desviación
estándar
Riesgo X
15.3
9.2
13.5
16.3
15.6
12.1
16.8
19.3
13.7
21.4
15.9
11.9
19.2
18.7
23.5
23.0
21.7
19.1
14.1
25.5
21.8
12.5
10.4
20.8
22.7
19.9
17.8
10.2
16.0
13.3
19.4
20.9
12.0
16.9
Rendimiento anual
promedio (%) Y
Y estimado
rXY y = a + bx
a
b
X
14.60
0.84
5.54
0.47
15.3
12.8
10.00
9.2
9.9
10.50
13.5
11.9
12.00
16.3
13.3
11.90
12.40
14.80
15.70
10.90
14.40
14.40
11.00
15.20
14.60
16.40
14.50
16.00
15.10
11.40
14.00
17.40
Resumen
11.30
Estadísticas de la regresión
10.00
Coeficiente de correlación múltiple
0.84
16.20 Coeficiente de determinación R^2
0.70
0.69
18.60 R^2 ajustado
Error típico
1.36
18.30 Observaciones
34
12.40
ANÁLISIS DE VARIANZA
10.40
Grados de Suma de
Promedio de los
13.10
libertad
cuadrados
cuadrados
F
1
136.89
136.89
74.23
10.70 Regresión
Residuos
32
59.01
1.84
14.40 Total
33
195.9023529
16.10
Coeficientes Error típico
Estadístico t
Probabilidad
11.30 Intercepción (a)
5.54
0.97
5.72
0.00
0.47
0.06
8.62
0.00
13.80 Variable X 1 (b)
Valor crítico de F
0.00
Inferior 95%
Superior 95%
3.57
7.51
0.36
0.59
Nótese que la predicción no es exacta, los puntos (𝑋, 𝑌) no caen todos en la recta, hay variación alrededor
de ella (de no haber esta variación, nos saldría |𝑟𝑋𝑌 | = 1). Los puntos caen casi todos dentro del óvalo
rojo, inclinado a la derecha. Si no hubiera ninguna tendencia, caerían en el óvalo azul, sin ningún orden.
Hay variación, cierto, pero predomina la tendencia “creciente” indicada por la recta. Se asume que esta
variación menor ya no tiene origen en la economía, sino en otros factores fortuitos no medibles directamente, pero que no anulan la tendencia lineal que es la tendencia principal.
No siempre las cosas lucen claras, como en el ejemplo previo; incluso pueden ser engañosas, como lo
muestran los siguientes datos relativos a las variaciones del índice de precios al consumidor 𝑋 y las del
índice de bolsa de valores 𝑌 en una serie de países:
2
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Chile
Aquí la situación es más complicada: si procediéramos a estimar Y con una recta, usando X como variable
explicativa o predictor, el “ajuste” de un modelo lineal de la forma 𝑦 = 𝑎 + 𝑏𝑥, aparentemente sería
“bueno” con un 𝑟𝑋𝑌 = 0.755; pero sería un error serio, como lo muestra el gráfico XY; en realidad no hay
ninguna tendencia, pero el caso de Chile genera una “tendencia” artificial. ¿Qué ha ocurrido?
Que como nunca se tiene información completa sino sólo muestras o partes de la información, esto induce
variabilidad “azarosa” o sea no sistemática, que debemos separar de las tendencias que sí son sistemáticas, que tienen fuente conocida y actúan siempre de la misma manera. En este ejemplo, como ya se dijo,
Chile, con sus valores apartados de los otros países, distorsiona los indicadores estadísticos.
Necesitamos herramientas analíticas para trabajar confiablemente con muestras. Eso nos lleva a la
Estadística, que para construir sus herramientas se apoya en el estudio del azar que es la Probabilidad
1.1 Estadística, sus ramas y conceptos asociados
1.1.1 Definición y ramas de la Estadística
Definición
Estadística es una ciencia que desarrolla sistemas racionales de recolección, procesamiento y análisis de
datos para la toma de decisiones, definiendo y evaluando las condiciones que rigen su validez cuando los
datos provienen de muestras.
Ramas de la Estadística
El procesamiento de datos pasa por ordenarlos, tabularlos, resumirlos y presentarlos de modo apropiado.
Si los datos provienen de muestras, la validez de las conclusiones y la posibilidad de generalizar pasa por
crear modelos para la toma de datos y para el análisis de estos.
Estadística Descriptiva, es la parte de la Estadística que se ocupa de la tabulación y presentación de datos
y de resumirlos mediante indicadores. Sus técnicas responden a las preguntas ¿Cómo es el grupo de casos
que estamos estudiando? ¿Qué caracteriza este grupo? Suele ser la estadística de las tablas, gráficos e
indicadores de resumen. Un ejemplo de uso de estas técnicas es el de la rentabilidad ROE mencionada en
la página 1 de este texto.
3
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Ejemplo 1 (Estadística descriptiva)
ROE
25.04
25.04
25.02
28.10
29.02
29.86
30.60
27.98
28.06
28.49
28.88
27.58
27.56
27.82
28.05
28.92
28.97
29.27
29.53
29.29
29.41
29.68
29.92
Insumo
Min
Máx
Rango
k
c
Roe
25.02
34.12
9.10
5
1.82
25.02
26.84
28.66
30.48
32.30
26.84
28.66
30.48
32.30
34.12
Total
Frecuencia
3
8
16
7
3
37
ROE
25.02 - 26.84
26.84 - 28.66
28.66 - 30.48
30.48 - 32.30
32.30 - 34.12
Total
Frecuencia
3
8
16
7
3
37
%
8.1
21.6
43.2
18.9
8.1
100.0
Polígono de frecuencias
Histograma
Frecuencia
Rentabilidad semanal
1/7/2007
1/15/2007
1/22/2007
1/31/2007
2/7/2007
2/15/2007
2/22/2007
2/28/2007
3/7/2007
3/15/2007
3/22/2007
3/31/2007
4/7/2007
4/15/2007
4/22/2007
4/30/2007
5/7/2007
5/15/2007
5/22/2007
5/31/2007
6/7/2007
6/15/2007
6/22/2007
18
18
16
16
14
14
12
12
10
Estadísticas R O E
Media
Error típico
Mediana
Moda
Desviación estándar
Varianza de la muestra
Curtosis
Coeficiente de asimetría
Rango
Mínimo
Máximo
Suma
Cuenta
29.50
0.35
29.45
25.04
2.14
4.56
0.55
0.00
9.10
25.02
34.12
1091.40
37
10
8
8
6
6
4
4
2
2
0
25.02 - 26.84
26.84 - 28.66
28.66 - 30.48
30.48 - 32.30
32.30 - 34.12
0
ROE
25.02 - 26.84 26.84 - 28.66 28.66 - 30.48 30.48 - 32.30 32.30 - 34.12
Frecuencia
Frecuencia
En la imagen previa se presenta parte de las diferentes rentabilidades semanales (la muestra es de 37
semanas) que se comentó en la página 1. Bajo el título o encabezamiento ROE están los “datos brutos” que
aislados no dicen mucho, pero si agrupamos los datos en k = 5 intervalos (empezando por el mínimo ROE
y hasta cubrir el máximo ROE) [25.02, 26.84[, [26.84, 28.66[, …, [32.30, 34.12] y contamos cuántos ROES
caen en cada intervalo, obtenemos una “tabla de frecuencias” (sombreada en naranja) y se ve que el
intervalo de valores más frecuente es [28.66, 30.48[, que marca una “tendencia central” como lo ilustra el
gráfico de barras azules llamado Histograma de frecuencias que figura debajo de la tabla de frecuencias.
La tabla de frecuencias es un primer resumen, pero si necesitamos cuantificar la tendencia para resumir
mejor el comportamiento en las frecuencias de las rentabilidades, es mejor usar un número, por ejemplo,
obtener el promedio de las rentabilidades o “rentabilidad media” que en este caso es Media = 29.5 que está
sombreada en celeste en la tabla Estadísticas ROE, en la esquina superior derecha. Además, hay otras
tendencias en las rentabilidades, como la “variabilidad”, ya mencionada antes, que se puede ver como el
promedio de las diferencias entre cada ROE y la Media, y que es la Desviación estándar =2.14, sombreada
en gris. La mayoría (más de 50%) de los datos de un grupo suele caer en el intervalo Media±D.estándar,
que en este ejemplo es [27.36, 31.63] que tiene al 75.7% de la muestra y no coincide exactamente con los
tres intervalos centrales, pero está contenido en su reunión. Los tres intervalos centrales contienen
exactamente al 83.8%. Cuando se trata de rentabilidades, la D.estándar mide el “riesgo”. En este ejemplo,
la E. descriptiva sirve para “concentrar” la información, para resumirla, diciendo que, en el periodo de esas
37 semanas, el ROE semanal anduvo alrededor de 29.5, y en la mayor parte de los casos estuvo entre 27.36
y 31.63; esas son las tendencias encontradas en ese periodo y serían las esperadas en otro periodo, si las
condiciones económicas y financieras fueran similares. Este resumen muestra “el estado del grupo”.
En el capítulo final de curso veremos estas y otras técnicas de Estadística descriptiva, no ahora.
Estadística Inferencial, es la parte de la Estadística que se encarga de los métodos de recolección de
muestras, de la elaboración de modelos para el análisis de datos muestrales y de la validez de las conclusiones derivadas. Sus técnicas responden a la pregunta ¿Por qué el grupo que estudiamos es como es?
Ejemplo 2 (Estadística inferencial)
Un ejemplo de uso de estadística inferencial es el “modelo” de la relación Rentabilidad y Riesgo, de la
página 2 de este documento. Ya vimos que se planteó un modelo lineal de la forma 𝑦 = 𝑎 + 𝑏𝑥, 𝑏 > 0 ,
donde los parámetros de la recta se “estimaron” y se obtuvo 𝑎 = 5.54 y 𝑏 = 0.47, con un 𝑟𝑋𝑌 = 0.84
cercano a 1, lo que indica que la recta representa bien a la muestra. Lo anterior es válido para esa muestra
de fondos mutuos, y si en este caso el interés fuera pronosticar la rentabilidad esperada para una condición
de riesgo no presente en la muestra, digamos para un riesgo de 𝑥 = 13 puntos, usando la ecuación lineal
tendríamos una rentabilidad esperada de 𝑦 = 5.54 + 0.47 × 13 = 11.7% más o menos. Para que ese
pronóstico sea bueno, necesitamos, entre otras cosas, estar seguros de que nuestras estimaciones
(muestrales) de los parámetros de la recta, esto es de a y de b, representan bien a los valores reales, aquellos
del conjunto total de fondos mutuos, no sólo los de esa muestra. Para ello necesitamos estar seguros de que
la posibilidad de error al generalizar de la muestra a la población es baja, muy baja. Esta posibilidad se
4
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
cuantifica con la “probabilidad”. Aplicando métodos inferenciales, se obtiene que en el caso de la pendiente
de la recta 𝑏 = 0.47, vemos que esta probabilidad, que figura en la imagen de abajo, resaltada en naranja,
es 0.00; es decir podemos estar muy seguros que este valor 𝑏 = 0.47 no ocurrió por azar, seguros que si
generalizamos a la población, si hacemos una “inferencia” de la muestra a la población, la posibilidad de
error es nula o casi nula.
Estadísticas de la regresión
Coeficiente de correlación múltiple
Coeficiente de determinación R^2
R^2 ajustado
Error típico
Observaciones
0.84
0.70
0.69
1.36
34
ANÁLISIS DE VARIANZA
Regresión
Residuos
Total
Grados de Suma de
Promedio de los
libertad
cuadrados
cuadrados
1
136.89
136.89
32
59.01
1.84
33 195.9023529
Intercepción (a)
Variable X (b)
Coeficientes
5.54
0.47
Error típico
0.97
0.06
F
74.23
Estadístico t
Probabilidad
5.72
0.00
8.62
0.00
Valor crítico de F
0.00
Inferior 95%
Superior 95%
3.57
7.51
0.36
0.59
Nota: las tablas anteriores de este ejemplo tienen muchos otros indicadores estadísticos que no comentamos
aquí. Algunos serán vistos en el capítulo final del curso, y otros en futuros cursos de Estadística Inferencial
y de Econometría.
1.1.2 Población, Variable y Muestra
Población (de elementos)
Es un conjunto de elementos (personas u objetos) que tienen alguna característica A que es de interés para
la toma de una decisión.
Variable
Es la característica que se registra o investiga. Específicamente es una representación numérica de una
característica o atributo A. Es el resultado de un proceso de medición; representaremos las variables usando
mayúsculas, como 𝑿, 𝒀, etc.
Población Estadística (de una variable)
Colección de todos los registros o valores de una variable 𝑿, obtenidos al medir un atributo en la respectiva población de elementos, incluyendo repeticiones si las hubiere.
Distribución de frecuencias de una variable
Clasificación de los valores de una variable 𝑿 según la frecuencia (número absoluto o porcentual de
casos) con que se presenta cada valor. La distribución nos muestra el comportamiento del atributo bajo
estudio en la población de elementos. Es la primera información que se tiene, con datos ya organizados y
estructurados.
Parámetro
Es una constante que, calculada sobre toda la población estadística de una variable 𝑋, la caracteriza en un
sentido determinado. Representa un aspecto específico del comportamiento de la variable 𝑿 en la
Población de elementos.
5
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Muestra
Una muestra es un subconjunto de una población estadística. La muestra nos proporciona información
acerca de la población, y la calidad de esta información depende de cómo se la ha tomado. Una manera de
lograr una buena representación de la población en la muestra, es elegir ésta mediante algún mecanismo de
sorteo o selección aleatoria que otorgue a cualquier elemento de la población de elementos, la misma opción
de ser seleccionado y registrar en él el valor de la variable 𝑿 de interés. El conjunto de valores registrados,
digamos (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) es una muestra de la población estadística de 𝑿; aquí 𝑋𝑖 es el valor de 𝑿 registrado
en el elemento # 𝑖 de la muestra de elementos.
Muestra Aleatoria
Si 𝑿 es una variable aleatoria, una muestra aleatoria de tamaño n, es un grupo (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) de n
observaciones de 𝑋 tomadas al azar e independientemente entre sí. Si la selección se hace mediante algún
sistema de sorteo se dice que es una "muestra probabilística", y si el sorteo es simple, se dice que es una
muestra aleatoria simple. En cambio, si el sorteo es de tipo complejo, por ejemplo, una sucesión de sorteos,
la muestra recibe otros nombres, dependiendo del sistema de sorteo.
Estadística
Es un valor calculado a partir de los datos de una muestra, que sólo depende los valores muestrales.
Ejemplo 3
En el ejemplo 1, la Población de elementos sería la de semanas del año; la variable 𝑿 es el ROE de la
semana; la Población estadística sería la de los ROEs de las semanas del año; la muestra de la población de
𝑿 sería la de los ROEs de las 𝑛 = 37 semanas registradas (que obviamente no son todas las semanas del
año). Una estadística es el ROE Promedio = Media = 29.5 de esas 37 semanas y el respectivo Parámetro
sería el ROE Anual promedio. En este caso no tenemos la Distribución poblacional de X, sólo la de la
muestra. Como no se especifica cómo se seleccionó la muestra, no podemos saber si la muestra es aleatoria
o no.
Ejemplo 4
• Característica de Interés: Estrés crónico por sobrecarga laboral
• Variable 𝒀: Presencia de estrés crónico, codificada según Presente=1, Ausente=0
• Población = {U1, U2, U3, U4, ... , U400} los 400 trabajadores de una empresa financiera
• Población Estadística = {0,1,0, 1,...,0}, lo que significa que U1,U3 y U400, entre otros trabajadores, no
están estresados, y en cambio U2 y U4 entre otros trabajadores sí están estresados. La sucesión de 0 y 1
es muy larga y no permite ver ningún patrón. Es más informativo presentar una lista resumida que nos
proporciona el estado de la población en lo que a estrés crónico se refiere. Esa lista es la Distribución
de 𝑌 en la Población que mostramos abajo, junto con una representación gráfica circular:
Distribución de 𝒀
Y
N
0
250
1
150
Total
400
Figura 1 Distribución de presencia o ausencia de estrés crónico
%
62.5
37.5
100
1=Presente, 37.5
0=Ausente, 62.5
0=Ausente
6
1=Presente
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
• Parámetro: Basta un “descriptor”, como por ejemplo la “Incidencia de estrés crónico” =P = % de
casos en la población, que tienen e. crónico = 37.5%
• Si tomamos una muestra de tamaño 𝑛 = 6 trabajadores de esta población mediante un sorteo simple, y
obtenemos (𝑈1 , 𝑈3 , 𝑈9 , 𝑈30 , 𝑈25 , 𝑈400 ) y registramos 𝒀 en cada uno y obtenemos (0,0, 1, 0, 1, 0),
2
entonces la estadística 𝑃̂ = % 𝑑𝑒 𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑒𝑠𝑡𝑟é𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 = 100 × 6 = 33.3% sería
una aproximación al parámetro P, o en la jerga estadística 𝑃̂ = 33.3% es la “estimación” del
parámetro P. La estimación 𝑃̂ no coincide exactamente con el parámetro P, pero se le aproxima.
Distribución de 𝒀 (muestra)
Y
N
%
0
4
66.7
1
2
33.3
Total
6
100
Figura 2 Distribución de presencia o ausencia de estrés crónico en la muestra
1=Presente, 33.3
0=Ausente, 66.7
0=Ausente
1=Presente
Cuando se trabaja con muestras o con datos que tienen variaciones de origen no controlado, ya sea por la
selección aleatoria de la muestra de elementos o porque la variable que se estudia tiene en sí misma además
del efecto de factores económicos, efecto de factores “fortuitos” pero no sistemáticos y de mucha menor
importancia que el de los factores económicos, se dice que “hay efectos de azar”, y para administrar el azar,
las ciencias se apoyan y aplican la Teoría de Probabilidad (que determina las “Leyes del azar”), como
herramienta de análisis. La Estadística hace uso intensivo de la Probabilidad, pues la necesita, pero es una
ciencia distinta.
Necesidad de la probabilidad
En Economía y Finanzas se estudian procesos de asignación de recursos en condiciones de escasez y para
ello investiga sistemáticamente estos procesos. Investigar un proceso y explicarlo, básicamente es:
Poder asociar ciertos Resultados con determinadas Condiciones previas.
Por ejemplo:
Recesión en la economía china y baja en el precio internacional del cobre.
Días de la semana larga o días festivos y alza en precio de pasajes.
Implantación de una cuarentena que restringe la movilización de personas y aumento en el desempleo.
Renuncia del ministro de economía y cambio en el precio del dólar.
En general la estrategia de investigación de un proceso es:
(1) Observar el proceso bajo diversas condiciones o ir variándolas y tomar nota de los cambios en los
resultados.
(2) Establecer o identificar algún patrón o “ley”, asociando ciertas condiciones con determinado tipo de
resultado.
La estrategia anterior heredada de la Física, cuando se aplica a procesos donde es estudia el
comportamiento de las personas o agentes económicos suele tener la característica de que dadas las
condiciones, los resultados pueden variar, no son siempre exactamente los mismos. La variación en los
7
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
resultados se debe, además del efecto de las condiciones, a factores no controlables o fortuitos que no son
económicos y entonces hay que separar lo sistemático (que no cambia) de lo accidental o azaroso (que
cambia de resultado en resultado). Para ello primero hay que estudiar “Las leyes del azar” o Teoría de la
Probabilidad y luego hay que ver cómo aplicar racionalmente esas leyes en situaciones concretas, en
particular, en el caso especial del análisis racional de datos provenientes de muestras o Estadística.
8
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
1.2 Probabilidad: Enfoque Axiomático
En la sección anterior vimos que para hacer economía cuantitativa y hacer predicciones necesitamos, no
sólo teoría económica que genere modelos racionales del comportamiento de los “agentes económicos”,
sino también se debe especificar el modelo económico escogido o deducido en forma de una ecuación (o
ecuaciones si una no basta). Esa ecuación específica relaciona las variables económicas y parte de ella
suelen ser algunas constantes o coeficientes, que son “parámetros” del modelo y por tanto del proceso
modelado. Por ejemplo, si 𝑌 representa el consumo de una familia cualquiera de la población de familias
con ingresos fijos (por ejemplo, en relación laboral dependiente con salarios fijos) y 𝑋 representa el ingre𝑑𝑌
so de la familia, un modelo de Ingreso_Consumo sería 𝑌 = 𝑓(𝑋); 0 < 𝑑𝑋 ≤ 1 , que indica que un
aumento del ingreso implica un aumento del consumo pero que este incremento del consumo no puede
superar el aumento del ingreso (asumimos que no hay endeudamiento de la familia para sostener su
consumo). Para hacer análisis cuantitativo necesitamos especificar la forma general de 𝑓(𝑋). Agregando
un supuesto de proporcionalidad entre incremento de ingreso e incremento del consumo, el modelo matemático exacto sería 𝑌 = 𝑎 + 𝑏𝑋; 𝑎 > 0; 0 < 𝑏 ≤ 1 que es la ecuación de una recta, donde 𝑎 es llamado
“consumo autónomo” (aquél que ocurre aún cuando 𝑋 = 0) y 𝑏 es llamada “propensión marginal a consumir”. Matemáticamente 𝑎 es el “intercepto” y y 𝑏 es la “pendiente” de la recta, y ambos coeficientes
son “parámetros económicos” cuyos valores necesitamos conocer para hacer cualquier análisis posterior,
como uno de “elasticidad_ ingreso” o alguna predicción.
Formalmente, para hallar a y b bastaría tener dos puntos de paso, o sea dos parejas (𝑋, 𝑌). Pero la realidad muestra que, incluso haciendo un censo, encontraríamos que todas las parejas (𝑋, 𝑌) no caen “alineadas”, pueden “seguir” o “caer” alrededor de una recta, pero no exactamente, como en la figura 1
16
14
12
Consumo Y
Familia Ingreso Consumo
1
10
10
2
14
13
3
11
10
4
13
12
5
12
11
6
15
13
7
10
11
8
8
7
9
12
12
10
13
11
10
8
6
4
2
0
0
2
4
6
8
10
12
14
16
Ingreso X
Figura 1 Relación Ingreso Consumo
Bajo el supuesto que el modelo económico es correcto y también su especificación 𝑌 = 𝑎 + 𝑏𝑋 ¿Qué está
sucediendo? Una primera explicación razonable sería que aunque el ingreso sea fijo y la “canasta de consumo” esté bien definida según las preferencias de las familias, a veces ocurre que por razones fortuitas,
el consumo no es el que debiera darse en el equilibrio (o sea el que determina la función consumo 𝑌 =
𝑎 + 𝑏𝑋) sino que a veces la familia consume más de lo previsto (por algún gasto inesperado como una
celebración algo costosa) y otras consume menos (por ejemplo, para compensar un gasto inesperado anterior). Esas variaciones fortuitas se agregan al “consumo esperado” 𝑎 + 𝑏𝑋, con valores a veces positivos y otras negativos. Hay que reespecificar el modelo económico determinista 𝑌 = 𝑎 + 𝑏𝑋 pasando a
𝑌 = 𝑎 + 𝑏𝑋 + 𝑢, donde 𝑢 representa la variación fortuita y “no sistemática”, negativa, positiva o nula,
según el caso. Se asume que 𝑢 es variable “no observable” y que “toma sus valores al azar” (caso contrario sería una componente sistemática, cosa que se descarta porque se asume que el modelo económico
especificado es correcto). Como ya se dijo al final de la sección anterior, necesitamos saber cómo manejar
este tipo de variables “aleatorias” y eso se hace estudiando el azar y sus leyes, cosa que hace la teoría de
9
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
la Probabilidad, luego se aplicarán estas leyes para estimar los valores de los parámetros del modelo,
ahora convertido en un “modelo econométrico”, cuyo tratamiento requiere Estadística.
1.2.1 Conceptos Primitivos (Asociados a la noción de investigación y azar)
Suceso: Cualquier hecho que cuya ocurrencia o presentación nos interesa. Podemos clasificar a los sucesos
en una de dos categorías a saber, Condiciones y Resultados.
Condición: Es un suceso cuya ocurrencia podemos controlar, es decir podemos hacer que suceda.
Resultado: Es un suceso cuya ocurrencia depende de un conjunto de condiciones que lo rigen.
Observación:
Como ya dijimos, una manera racional de investigar un proceso y explicarlo, es determinar las Condiciones
en las que discurre, y luego ir variándolas, tomando nota de los cambios que se presentan en los Resultados.
Si llegamos a establecer algún patrón, estamos ante el germen de una "ley", e incluso, si nuestras observaciones las codificamos numéricamente, podemos enunciar la ley en la forma de alguna ecuación. Este
sistema de análisis, consistente en realizar experiencias y ver cambios en los resultados asociados a ciertas
condiciones es lo que llamaremos un "experimento".
Experimento: Es un conjunto de Condiciones (que definen el experimento) asociado a un conjunto de
Resultados.
Para determinar la relación entre las condiciones y los resultados, necesitamos estar en la posibilidad de
repetir o replicar el experimento, de modo que las sucesivas réplicas permitan la identificación y el estudio
de la relación, incluyendo la posibilidad de hacer predicciones contrastables. En este contexto debemos
distinguir dos tipos de experimentos o ensayos: los Determinísticos y los No Determinísticos.
Experimentos Determinísticos: Son aquellos experimentos en los cuales las Condiciones determinan
unívocamente el Resultado.
En estos experimentos, sucesivas réplicas permiten establecer el resultado asociado a condiciones
específicas, y la variación de las condiciones y el registro de los cambios en los resultados, conducen a una
ley que se puede verificar empíricamente y con certeza.
Por ejemplo, si dejamos caer un dado desde una cierta altura y registramos el tiempo que tarde en llegar al
piso, podemos medir el tiempo con exactitud razonable si tenemos los instrumentos adecuados. Variando
la altura, encontraremos que el tiempo cambia y al final podemos establecer una “fórmula” que liga tiempo
con altura. La verificación de la validez de la fórmula así deducida se puede hacer pronosticando tiempos
y confrontándoles con los resultados de nuevos experimentos.
Experimentos No Determinísticos: Aquellos en donde las Condiciones no fijan el Resultado de manera
unívoca.
En estos experimentos no hay un Resultado sino un Conjunto de Resultados, y se hace más difícil
establecer una correspondencia entre cambios en las Condiciones y cambios en los Resultados, pues al
variar sistemáticamente las condiciones y registrar los cambios en los resultados, enfrentamos el problema
de que los conjuntos de resultados no necesariamente son excluyentes. Sin embargo, en ciertos casos se
encuentran regularidades aprovechables: al repetir el experimento, los resultados se tienden a presentarse
manteniendo un patrón en la frecuencia con que ocurren.
Por ejemplo, en el caso del Consumo e Ingreso disponible de las familias en una economía, si analizamos
datos de alguna encuesta grande, encontraremos que para cada nivel de ingreso habrá familias con distintos
niveles de consumo. Sin embargo, trabajando sobre todos los ingresos y consumos registrados, podremos
distinguir una “tendencia” creciente: a mayor ingreso mayor consumo. La relación no es exacta,
determinista, pero existe y es directa. Y si calculamos en cuánto crece el consumo por cada unidad adicional
de ingreso, probablemente encontraremos que esta tasa es casi constante, que hay una cierta regularidad.
10
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Esta regularidad, permite un tipo de pronóstico “relativo”, así como una “ley” no exacta, que, si bien no
elimina la incertidumbre, la disminuye y la administra. Los experimentos donde se presenta este tipo de
estabilidad estadística de resultados reciben un nombre especial. Se llaman Experimentos Aleatorios.
Experimento Aleatorio: Denotado , es un experimento donde las Condiciones no determinan de manera
unívoca un resultado, pero sí permiten establecer un Conjunto de posibles Resultados, de modo que, en
sucesivas réplicas del experimento, los resultados o grupos de resultados, se presentan con una frecuencia
relativa (o porcentual) estable.
Ejemplo 5
(a) Soltar una tiza desde 1.5 metros y observar en cuántos trozos se parte.
(b) Contar la cantidad de establecimientos que visita un consumidor hasta que se decide a comprar un
bien específico.
(c) Escoger una muestra al azar de manzanas de una ciudad, entrevistar a los hogares de cada manzana y
registrar el número de miembros de cada hogar que estaban sin trabajo la semana anterior a la
entrevista.
(d) Lanzar un dado normal sobre una mesa y observar el número que muestra en su cara superior
Observación:
Aunque hay un conjunto de resultados posibles, en cada réplica del experimento, sólo se presenta uno de
ellos, pudiendo variar el resultado de réplica en réplica.
En un experimento aleatorio no es posible saber con certeza el resultado del experimento, pero sí es factible
establecer el conjunto de posibles resultados y se puede determinar (al menos conceptualmente) la frecuencia relativa (o porcentual) con que se presentan diferentes grupos de resultados.
Espacio Muestral: Por construcción, en todo experimento aleatorio  estamos en condiciones de
determinar el conjunto de posibles resultados. Este conjunto debidamente representado, se conoce como
Espacio Muestral y nosotros lo denotaremos con la letra S aunque en otros textos se representa como Ω.
Evento: Un evento es un subconjunto del espacio muestral. Los eventos se suelen denotar con letras
mayúsculas: A, B, etc.
Por ejemplo, en el experimento (b), podemos representar S mediante el conjunto S = {1, 2, 3, 4, ...}, si
definimos el evento A = “El consumidor realiza más de una consulta”, entonces A = {2, 3, 4, ….}
Ocurrencia de un evento: Diremos que un evento A “ocurre” si el resultado del experimento aleatorio es
elemento de A.
Por ejemplo, en el caso de las consultas que puede hacer un consumidor, si realizó 3 consultas, entonces
ocurrió A. Si definimos B = “Realiza entre 2 y 4 consultas”, entonces también ocurrió el evento B; pero si
definimos C = “Realiza más de 5 consultas”, entonces no ocurrió C.
Sobre un espacio S podemos definir o distinguir muchos subconjuntos y éstos pueden tener elementos
comunes, es perfectamente posible que dos o más eventos ocurran simultáneamente. Por otra parte, el que
un evento haya ocurrido quiere decir que uno de sus elementos fue el resultado del experimento.
Obviamente, esto no significa que todos sus resultados se han presentado. Antes de realizar una réplica de
un experimento aleatorio, no tenemos certeza de si un evento va a ocurrir o no, salvo en el caso de dos
eventos “extremos”: El espacio muestral 𝑆 y el conjunto vacío ∅
Evento Seguro: Es el espacio muestral. Por definición, ocurre siempre, pues tiene todos los resultados que
se pueden presentar.
Evento Imposible: Es el vacío ∅ y como no tiene elementos, nunca ocurre. El vacío pueden ver como el
evento que representa absurdos, como por ejemplo que la lanzar una moneda para ver si cae cara o sello, la
moneda desaparezca.
11
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Eventos Mutuamente Excluyentes: Dos eventos A y B se dicen mutuamente excluyentes si carecen de
elementos comunes. A y B no se presentan a la vez, nunca ocurren juntos. Formalmente se tiene que
𝐴∩𝐵 =∅
Observaciones:
(1) Para reducir la incertidumbre podemos usar la estabilidad estadística de la frecuencia relativa de
aparición u ocurrencia de los distintos eventos de un espacio muestral, para “medir” en ellos su
propensión a ocurrir y tener una herramienta que permita hacer pronósticos relativos.
(2) Como 𝑆 ocurre siempre, nuestra medida de la propensión a ocurrir de los eventos debe darle al
espacio muestral 𝑆, un valor máximo. Análogamente, como ∅ nunca ocurre, debe recibir la medida
más pequeña, acorde con su nula propensión a presentarse. Finalmente, los eventos de real interés,
aquellos intermedios entre el vacío ∅ y el espacio total 𝑆, deben recibir una medida intermedia que los
jerarquice desde menos propensos a ocurrir a más propensos a presentarse. Esta medida existe y se
llama “Probabilidad”. Por conveniencia la probabilidad se define de modo que esté entre 0 y 1,
correspondiendo el 0 al vacío ∅ y el 1 al espacio S. En este contexto ya no se hará pronósticos exactos
indicando, dadas ciertas condiciones, cuál resultado se presentará, sino que dadas las condiciones, se
hablará del resultado “más probable” o más plausible o verosímil. La probabilidad de un evento A la
denotaremos 𝑃(𝐴) y en este contexto tendremos 𝑃(∅) = 0, 𝑃(𝑆) = 1 y buscamos que 0 ≤ 𝑃(𝐴) ≤ 1
y que si tenemos dos eventos 𝐴 y 𝐵, tales que 𝐴 ⊆ 𝐵 entonces se cumpla 𝑃(𝐴) ≤ 𝑃(𝐵).
1.2.2 σ-álgebra de eventos
Dado un espacio muestral S, no siempre estaremos interesados en medir la probabilidad cualquier
subconjunto de S, sino sólo de algunos básicos y otros adicionales que podamos obtener combinando los
primeros. Por ejemplo, en el lanzamiento de un dado, si se gana una apuesta si sale el 1, entonces lo que
interesará es si ganamos (o sea si sale el 1) o si perdemos (si no sale el 1), y pierde importancia saber si
perdimos porque ocurrió el 3. En este contexto, si bien el espacio muestral siempre abarca todo lo que
podría presentarse, o sea 𝑆 = {1,2,3,4,5,6}, si 𝐴 denota el evento “Se gana la apuesta”, entonces 𝐴 = {1} y
“Se pierde la apuesta” es el complemento de 𝐴, denotado 𝐴𝐶 , los únicos eventos interesantes son 𝐴 y 𝐴𝐶 .
Añadiendo 𝑆 (necesario para tener bien definido el marco o universo de posibilidades) y el vacío ∅ (que
engloba los absurdos que se podrían imaginar), los eventos que llaman nuestra atención serán: 𝐴, 𝐴𝐶 , 𝑆 𝑦 ∅,
es decir sólo es de interés la “familia de eventos” {𝐴, 𝐴𝐶 , 𝑆, ∅} y asignar probabilidades a los eventos que la
conforman.
En general y en términos de probabilidades de ocurrencia, usualmente sólo nos interesa una determinada
familia de subconjuntos de S, no necesariamente todos los subconjuntos. Esta familia de subconjuntos de
interés será llamada σ-álgebra de eventos, la denotaremos con 𝒜 y asumiremos que tiene las propiedades
siguientes:
(𝐴1 ) 𝑆𝑖 𝐴 ∈ 𝒜 ⇒ 𝐴𝐶 ∈ 𝒜 (Si la ocurrencia de 𝐴 es de interés, también lo es su no ocurrencia).
(𝐴2 ) ∅ ∈ 𝒜 (Podemos determinar bien qué es lo que no puede ocurrir).
(𝐴3 ) 𝑆𝑖 𝐴𝑖 ∈ 𝒜, 𝑝𝑎𝑟𝑎 𝑖 = 1, 2, 3, … ⇒ ⋃∞
𝑖=1 𝐴𝑖 ∈ 𝒜 (Si la ocurrencia de alguno de los 𝐴𝑖 es de interés,
también es de interés la ocurrencia de algunos de ellos)
La sigma álgebra 𝒜 abarca todos los eventos cuya posible ocurrencia estamos investigando y que son de
interés, es una manera de economizar esfuerzo, pues para hacer pronósticos asignaremos “probabilidades
de ocurrencia” sólo a los eventos de la familia 𝒜 , desinteresándonos de otros subconjuntos de 𝑆 cuya
ocurrencia ya no nos incumbe.
Sobre un mismo espacio muestral 𝑆 es posible definir muchas σ-álgebras, pero la idea es usar la más
sencilla según lo que estemos investigando.
Ejemplo 6
Lanzamos un dado y observamos el número que muestra en su cara superior. En este caso
𝑆 = {1,2,3,4,5,6}. Sea 𝑨 = “Se gana porque sale el 1”, entonces 𝐴 = {1}.
12
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝑪
(a) Si definimos 𝒜 = {𝑺, ∅, 𝑨, 𝑨 }, entonces 𝒜 es una σ-álgebra.
(b) Si definimos 𝒜 = {𝑺, ∅}, entonces 𝒜 es también una σ-álgebra.
(c) Si definimos 𝒜 = 2𝑆 (el “conjunto de partes” o “conjunto potencia” de 𝑆 o sea el conjunto de todos
los subconjuntos de 𝑆), tenemos 𝒜 = {{1}, {2}, … , {6}, {1,2}, {1,3}, {1,6}, {1,2,3}, … , 𝑆, ∅}, que
también es una σ-álgebra
Observaciones:
(1) Queda al lector la tarea de verificar que las tres sigmas algebras satisfacen los axiomas (𝐴1 ) a (𝐴3 )
propiedades. Nótese que sobre un mismo espacio 𝑺 hemos definido varias σ-álgebras. Por otra parte,
puede ser curioso el caso (a), pero no es difícil imaginar un juego de azar cuyas reglas impliquen que
sólo interese si ocurre el 1 o no, más que estar pendientes de otros resultados individuales. En ese caso
basta tener dos probabilidades de 𝑃(𝐴) = 𝑃({1}) y 𝑃(𝑨𝑪 ) = 𝑃({2,3,4,5,6}). En cambio, con la sigma
álgebra (2) habría que asignar a probabilidades a muchos más eventos, como asignar probabilidades
a {2,4,6}: 𝑃({2,4,6}) que no interesa realmente.
(2) También vale la pena notar que, aunque (𝐴3 ) alude a una sucesión numerable e infinita de subconjuntos de 𝑆, este axioma sí es aplicable a las tres familias definidas en el ejemplo, pues basta
“completar” cualquier sucesión finita definiendo más eventos, todos de la forma 𝐴𝑘 = ∅.
(3) Si 𝒞 es cualquier colección de eventos que no es σ-álgebra, siempre podemos “completarla” de modo
que se obtenga una σ-álgebra, añadiendo subconjuntos de 𝑺 convenientemente, por ejemplo, completando hasta llegar a 𝟐𝑺 , aunque esta extensión puede ser excesiva, dando una familia demasiado
“grande”. La alternativa más económica es definir 𝒜 como la intersección de todas las σ-álgebras que
contienen a 𝒞. Este caso especial se denota 𝜎(𝒞) y es 𝜎(𝒞) = ⋂𝐶∈𝒜𝑖 𝒜𝑖 . Un caso importante
ocurre cuando 𝒞 es la familia de todos los intervalos del eje real, en este contexto 𝝈(𝒞) es
llamada “σ-álgebra de Borel”.
(4) De aquí en adelante reservamos la palabra evento para los subconjuntos de 𝑺 que además son elementos de una σ-álgebra. La razón es que cuando 𝑺 es conjunto no numerable (como el intervalo [0,1])
puede encontrase subconjuntos de 𝑺 a los cuales no se les puede asignar ninguna probabilidad sin
generar contradicciones lógicas, cosa que no ocurre cuando se trata de eventos que pertenecen a una
σ-álgebra.
Entonces no todo subconjunto de 𝑺 es un evento, como en el caso (a), donde 𝒜 = {𝑺, ∅, 𝑨, 𝑨𝑪 } pero
{2,4,6} que es subconjunto de 𝑆 no será considerado evento ni recibirá probabilidad. La idea detrás del
concepto de σ-álgebra es economizar esfuerzo, se identifican los “eventos de interés” y se busca la
probabilidad de ellos, no la de cualquier subconjunto de 𝑺 que no necesitamos. El concepto de σ-álgebra
es avanzado, lo mencionamos porque en cursos más avanzados sí se puede presentar, sobre todo en cursos
avanzados de Finanzas. No lo seguiremos tratando ni evaluaremos en este curso y estas notas de clase, se
asumirá una σ-álgebra subyacente, aunque no explícita.
13
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
1.2.3 Axiomas y propiedades de la Probabilidad
La medición de la incertidumbre mediante la probabilidad se ha intentado varias veces en la historia de la
Matemática, antes de ver la definición formal más potente para hacer teoría, veamos dos definiciones
anteriores a la definición axiomática que no son incompatibles con ella, son más limitadas pero muy útiles
y en verdad son casos particulares importantes.
Definición Clásica de Probabilidad (o de La Place)
Si un espacio muestral 𝑆 tienen 𝑛(𝑆) elementos, todos con similar opción de presentarse, 𝑛(𝐴) de los cuales
𝑛(𝐴)
también son elementos de un evento 𝐴, la probabilidad de 𝐴, denotada 𝑃(𝐴), se define como 𝑃(𝐴) = 𝑛(𝑆)
Observaciones:
(1) Esta definición es la de los juegos de azar; la que se aplica en los juegos de cartas, por ejemplo.
(2) No siempre es aplicable, pues hay espacios con infinitos elementos (el ejemplo (b) es de ese tipo) o
siendo finitos, sus elementos no son equiprobables. Por ejemplo, si en un dado borramos el número 6
y escribimos un 1, es claro que este último caso tiene el doble de opción de ocurrir que otros, sin embargo, al ser cinco los elementos de S, la definición clásica le asigna una probabilidad de 1/5 y no de
2/6 como debiera ser.
Ejemplo 7
Un consumidor examina una lista de productores de un bien y elige al azar a uno de ellos para hacer su
compra. El consumidor siempre intenta obtener algún descuento. Son cinco los productores del bien,
digamos a, b, hasta e, y de ellos sólo d acepta dar descuentos. Si observamos al consumidor, tomando nota
del productor elegido. Entonces 𝑆 = {𝑎, 𝑏, 𝑐, 𝑑, 𝑒}. Sea 𝐴 el evento “El consumidor obtiene descuento en su
𝑛(𝐴)
1
compra”, entonces 𝐴 = {𝑑} y 𝑃(𝐴) = 𝑛(𝑆) = 5 = 0.2; Si B es el evento B = “No obtiene descuento”,
entonces 𝐵 = {𝑎, 𝑏, 𝑐, 𝑒} y 𝑃(𝐵) =
𝑛(𝐵)
𝑛(𝑆)
4
= 5 = 0.8
Ejemplo 8
En el contexto del ejemplo 7, si la persona busca dos bienes aplicando la misma política de selección y
búsqueda de descuentos. Si para el segundo bien son cuatro los productores distintos de los del primer
bien, digamos 𝑢, 𝑣, 𝑤, 𝑧 y de ellos sólo 𝑢 otorga descuento. Nuestro interés sigue siendo observar las
elecciones del consumidor. En este caso:
𝑆 = {(𝑥, 𝑦)|𝑥 ∈ {𝑎, 𝑏, 𝑐, 𝑑, 𝑒}, 𝑦 ∈ {𝑢, 𝑣, 𝑤, 𝑧} . Sea 𝐴 = “El consumidor obtiene descuentos en ambos
𝑛(𝐴)
1
bienes”, entonces: 𝑛(𝑆) = 5 × 4 = 20, 𝑛(𝐴) = 1 y 𝑃(𝐴) = 𝑛(𝑆) = 20 = 0.05
Definición Frecuencial de Probabilidad (o de Von Mises)
Si un experimento aleatorio  se repite N veces y el evento A ocurre en NA de esas veces, la probabilidad
𝑁
de A, denotada 𝑃(𝐴) se define mediante 𝑃(𝐴) = lim 𝑁𝐴.
𝑁→∞
Observaciones:
(1) Esta definición es estadística y según ella, la probabilidad es el límite de una frecuencia relativa. En este
caso, el punto de vista de la probabilidad es actuarial.
(2) La definición es difícil de aplicar, implica repetir el experimento aleatorio un número grande de veces
para poder medir la probabilidad. Se basa en la regularidad estadística de los resultados asociados al
experimento y es útil para interpretar la probabilidad, pero no para investigar sus propiedades.
Ejemplo 9
Si la distribución del número de trabajadores (“tamaño de la empresa) en las 80 empresas de metalmecánica
de un distrito es:
14
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Tamaño
0 - 4
4 - 8
8 - 12
12 - 16
16 - 20
Total
f
30
20
15
10
5
80
%
38
25
19
13
6
100
La probabilidad de A=“La empresa tiene entre 4 y 8 trabajadores” se puede
𝑁
20
aproximar mediante 𝑃(𝐴) = 𝑁𝐴 = 80 = 0.25.
Nota
En ambas definiciones ocurre 0 ≤ 𝑃(𝐴) ≤ 1, 𝑃(𝑆) = 1 y 𝑃(∅) = 0. Pero ambas
tienen restricciones de aplicabilidad y también para “hacer teoría” e identificar
bien las propiedades de la probabilidad. En necesario pasar a una definición
general que permita elaborar teoría. Esta definición es la axiomática.
Definición Axiomática (o de Kolmogorov)
Sea 𝑆 un espacio muestral asociado a un experimento aleatorio  y sea 𝒜 una σ-álgebra de eventos definida
sobre 𝑆. Una Probabilidad 𝑃 definida sobre los eventos de 𝒜 es una función 𝑃: 𝒜 → 𝑅 que a cada evento
𝐴 le asigna un número real, denotado 𝑃(𝐴) y llamado Probabilidad de 𝐴, de modo que se satisfacen los
axiomas:
(1) 0 ≤ 𝑃(𝐴) ∀𝐴 ∈ 𝒜
(2) 𝑃(𝑆) = 1
(3) Si 𝐴1 , 𝐴2 , … , 𝐴𝑛 , 𝐴𝑛+1 , … es una sucesión de eventos en 𝒜 que son mutuamente excluyentes, esto
∞
es 𝐴𝑖 ∩ 𝐴𝑗 = ∅ ∀𝑖 ≠ 𝑗, entonces 𝑷(⋃∞
𝒊=𝟏 𝑨𝒊 ) = ∑𝒊=𝟏 𝑨𝒊
Observaciones:
(1) Esta definición, a diferencia de las anteriores, es “no constructiva”: No dice cómo calcular la
probabilidad si no que sólo indica los requisitos que debe satisfacer una asignación de probabilidades a
eventos para ser considerada “correcta”, en el sentido de estar libre de contradicciones lógicas.
(2) Es posible hacer diferentes asignaciones de probabilidades sobre un mismo conjunto de eventos y si se
cumplen los tres axiomas, todas las asignaciones son formalmente correctas.
1.3 Propiedades de la Probabilidad
A partir de los axiomas es posible deducir sus propiedades, las que constituyen “leyes del azar”, es así que
tenemos las siguientes proposiciones:
Proposición 1:𝑃(∅) = 0
Demostración
Definamos la sucesión de eventos 𝐴𝑖 = ∅, 𝑖 = 1, 2, 3, …. Entonces es claro que ∪∞
𝑖=1 𝐴𝑖 = ∅ y como la
Probabilidad es una función, se cumple aquello de "a igualdad de puntos de partida, igualdad de puntos de
llegada"; esto es, se puede aplicar la probabilidad a la identidad anterior y ésta se preserva. Por tanto tenemos 𝑃(∪∞
𝑖=1 𝐴𝑖 ) = 𝑃(∅).
∞
Por otro lado, aplicando el axioma (3): 𝑃(∪∞
𝑖=1 𝐴𝑖 ) = ∑𝑖=1 𝑃(𝐴𝑖 ) = 𝑃(𝐴1 ) + 𝑃(𝐴2 ) + ⋯ + 𝑃(𝐴𝑗 ) + ⋯ =
𝑃(∅) + 𝑃(∅)+. . . +𝑃(∅) + ⋯ pues 𝐴𝑖 = ∅ ∀𝑖 por tanto llegamos a:
𝑃(∅) + 𝑃(∅)+. . . +𝑃(∅) = 𝑃(∅), y obviamente el único número real que satisface esta ecuación es 0,
esto es, hemo probado que 𝑃(∅) = 0
15
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝑁
Proposición 2: Si 𝐴1 , 𝐴2 , … , 𝐴𝑁 es una sucesión de N eventos excluyentes ⇒ 𝑃(⋃𝑁
𝑖=1 𝐴𝑖 ) = ∑𝑖=1 𝑃(𝐴𝑖 )
Demostración
Si vemos la probabilidad como el área que ocupa un evento dentro de una zona mayor S que la contiene,
quizá se entiende mejor la proposición: Los N eventos 𝐴1 , 𝐴2 , … , 𝐴𝑁 son disjuntos y ocupan una zona de
𝑨𝟏
𝑨𝟐
…
𝑨𝑵
S donde el área de cada uno es su probabilidad. Definamos los
∞
eventos 𝐴𝑁+1 = 𝐴𝑁+2 = 𝐴𝑁+3 = ⋯ = ∅ ⇒ ⋃𝑁
𝑖=1 𝐴𝑖 = ⋃𝑖=1 𝐴𝑖 ⇒
𝑁
∞
∞
𝑁
𝑃(⋃𝑖=1 𝐴𝑖 ) = 𝑃(⋃𝑖=1 𝐴𝑖 ) = ∑𝑖=1 𝑃(𝐴𝑖 ) = ∑𝑖=1 𝑃(𝐴𝑖 ) +
𝑁
∑∞
𝑖=𝑁+1 𝑃(𝐴𝑖 ) = ∑𝑖=1 𝑃(𝐴𝑖 ), pues 𝑃(𝐴𝑖 ) = 𝑃(∅) = 0 ∀𝑖 ≥ 𝑁 + 1.
(los eventos “fantasma” adicionales 𝐴𝑖 , 𝑖 ≥ 𝑁 + 1 son como líneas
de área cero, no aportan probabilidad en ⋃∞
𝑖=1 𝐴𝑖 )
𝑺
Proposición 3: 𝑃(𝐴) + 𝑃(𝐴 ) = 1
𝐶
Demostración
Siguiendo con el esquema de las áreas:
Como 𝑆 = 𝐴 ∪ 𝐴𝐶 y siendo 𝐴 y 𝐴𝐶 mutuamente excluyentes,
aplicando la proposición anterior y el axioma 3 tenemos
𝑨
𝑨𝑪
𝑃(𝑆) = 𝑃(𝐴 ∪ 𝐴𝐶 ) = 𝑃(𝐴) + 𝑃(𝐴𝐶 ) = 1.
O equivalentemente 𝑃(𝐴) + 𝑃(𝐴𝐶 ) = 1
𝑺
Proposición 4: Si A y B son eventos arbitrarios, entonces 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
Demostración
En general 𝐵 = 𝐵 ∩ 𝑆 y 𝑆 = 𝐴 ∪ 𝐴𝐶 . Luego, podemos escribir 𝐵 = (𝐵 ∩ 𝐴) ∪ (𝐵 ∩ 𝐴𝐶 ) y también
𝐴 ∪ 𝐵 = 𝐴 ∪ (𝐵 ∩ 𝐴𝐶 ).
Aplicando la prop. 2: 𝑃(𝐵) = 𝑃(𝐵 ∩ 𝐴) + 𝑃(𝐵 ∩ 𝐴𝐶 ) ⇒ 𝑃(𝐵 ∩ 𝐴𝐶 ) = 𝑃(𝐵) − 𝑃(𝐵 ∩ 𝐴).
También 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵 ∩ 𝐴𝐶 ) y reemplazando 𝑃(𝐵 ∩ 𝐴𝐶 ) por 𝑃(𝐵) − 𝑃(𝐵 ∩ 𝐴), llegamos a
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + (𝑃(𝐵)
− 𝑃(𝐴 ∩ 𝐵)) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵).
⏟
𝑃(𝐵∩𝐴𝐶 )
Aplicando el esquema de las áreas se entiende fácilmente:
𝑨
𝑨𝑪
Queremos hallar el área (probabilidad) que ocupa 𝐴 ∪ 𝐵 en
𝑩
𝑩∩𝑨
𝑩 ∩ 𝑨𝑪
𝑆. Como 𝐴 y 𝐵 no son excluyentes, sino que tienen una zona común (que es 𝑩 ∩ 𝑨 ≡ 𝑨 ∩ 𝑩), si sumamos las áreas, o
sea 𝑃(𝐴) + 𝑃(𝐵), estaríamos contando dos veces esa área
𝑩𝑪
𝑩𝑪 ∩ 𝑨
𝑩𝑪 ∩ 𝑨𝑪
común 𝑃(𝐴 ∩ 𝐵), por tanto debemos restarla a la suma de
probabilidades, i.e. 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
sería la probabilidad “neta”.
𝑺
Nota: ampliando a tres eventos A, B y C, tenemos
𝑷(𝑨 ∪ 𝑩 ∪ 𝑪) = 𝑷([𝑨 ∪ 𝑩] ∪ 𝑪) = 𝑷([𝑨 ∪ 𝑩]) + 𝑷(𝑪) − 𝑷([𝑨 ∪ 𝑩] ∩ 𝑪) =
𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) + 𝑷(𝑪) − 𝑷([𝑨 ∪ 𝑩] ∩ 𝑪) =
𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) + 𝑷(𝑪) − 𝑷((𝑨 ∩ 𝑪) ∪ (𝑩 ∩ 𝑪)) =
𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) + 𝑷(𝑪) − {𝑷(𝑨 ∩ 𝑪) + 𝑷(𝑩 ∩ 𝑪) − 𝑷((𝑨 ∩ 𝑪) ∩ (𝑩 ∩ 𝑪)) =
𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) + 𝑷(𝑪) − 𝑷(𝑨 ∩ 𝑪) − 𝑷(𝑩 ∩ 𝑪) + 𝑷(𝑨 ∩ 𝑩 ∩ 𝑪) =
16
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝑃(𝐴) + 𝑃(𝐵) + 𝑷(𝑪) − 𝑃(𝐴 ∩ 𝐵) − 𝑷(𝑨 ∩ 𝑪) − 𝑷(𝑩 ∩ 𝑪) + 𝑷(𝑨 ∩ 𝑩 ∩ 𝑪).
En resumen:
𝑃(𝐴 ∪ 𝐵 ∪ 𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶) − 𝑃(𝐴 ∩ 𝐵) − 𝑃(𝐴 ∩ 𝐶) − 𝑃(𝐵 ∩ 𝐶) + 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶)
Proposición 5: Si 𝐴 y 𝐵 son eventos tales que 𝐴 ⊆ 𝐵 , entonces 𝑃(𝐴) ≤ 𝑃(𝐵)
Demostración
𝑨= 𝑩∩𝑨
𝑩 ∩ 𝑨𝑪
𝑩
De la proposición anterior sabemos:
𝑃(𝐵 ∩ 𝐴𝐶 ) = 𝑃(𝐵) − 𝑃(𝐵 ∩ 𝐴); y como 𝐴 ⊆ 𝐵, es claro
que (𝐵 ∩ 𝐴) = 𝐴 ⇒ 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐴) ⇒
𝑃(𝐵 ∩ 𝐴𝐶 ) = 𝑃(𝐵) − 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐵) − 𝑃(𝐴), pero
toda probabilidad, según el axioma 1 es no negativa, por
tanto 0 ≤ 𝑃(𝐵 ∩ 𝐴𝐶 ) = 𝑃(𝐵) − 𝑃(𝐴) ⇒ 𝑃(𝐴) ≤ 𝑃(𝐵)
Nota: ∅ ⊆ 𝐴 ⊆ 𝐵 ⊆ 𝑆 ⇒ 𝑃(∅) ≤ 𝑃(𝐴) ≤ 𝑃(𝐵) ≤ 𝑃(𝑆)
y de esto resulta el siguiente corolario:
𝑺
Corolario: En el contexto de la proposición anterior, se cumple 0 ≤ 𝑃(𝐴) ≤ 𝑃(𝐵) ≤ 1 y en particular
0 ≤ 𝑃(𝐴) ≤ 1 para cualquier evento 𝐴.
Demostración
Es consecuencia directa de 0 = 𝑃(∅) ≤ 𝑃(𝐴) ≤ 𝑃(𝐵) ≤ 𝑃(𝑆) = 1 y de ahí 0 ≤ 𝑃(𝐴) ≤ 1 ∀ 𝑒𝑣𝑒𝑛𝑡𝑜 𝐴
Comentario: La probabilidad como medida racional de incertidumbre
La proposición anterior permite asegurar que, en relación con la propiedad de inclusión de eventos, la
probabilidad mide la "propensión a ocurrir" al menos a nivel ordinal, donde el vacío ∅ ocupa el menor
puesto y el espacio 𝑆 tiene la mayor jerarquía, correspondiéndole a otros eventos los puestos intermedios.
O sea, aunque dadas las condiciones del experimento aleatorio no podemos decir exactamente que
evento ocurrirá, si medimos las probabilidades de los eventos de interés, podemos jerarquizarlos del
menos probable a más probable, y luego optar por los de mayor probabilidad.
Regla para nuestro curso:
Si 𝑃(𝐴) > 0.5 o sea si es más probable que 𝐴 ocurra a que no ocurra, pronosticaremos que 𝐴 sí ocurrirá
Si 𝑃(𝐴) < 0.5 o sea si es más probable que A no ocurra a que sí ocurra, pronosticaremos que 𝐴 no
ocurrirá.
Si 𝑃(𝐴) = 0.5 no podemos decir nada.
La regla anterior es sólo para nuestro horario, en otros contextos, el “punto de corte” 0.5 puede
cambiar y ser tan alto como 95%, como en Finanzas, Seguros o en Encuestas de opinión.
Nota:
Ya se mencionó que la definición axiomática no dice cómo calcular la probabilidad, sólo da las condiciones para que una asignación de probabilidades sea “formalmente correcta”, o sea, es posible que, para
un mismo proceso económico y aleatorio, haya dos teorías o modelos que lo describen o explican. Entonces se asigna probabilidades a los eventos, según cada modelo, se realiza el experimento y se registra qué
evento ocurrió y se compara con lo predicho por los modelos, “gana” el que haya predicho mejor.
Ejemplo 10
Un consumidor encuentra dos productores, 𝑤1 y 𝑤2 , que ofrecen el mismo bien al mismo precio. El
consumidor puede comprar a 𝑤1 con probabilidad “𝑝” o a 𝑤2 con probabilidad “𝑞”.
¿Cuáles de los siguientes valores de 𝑝 y 𝑞 son formalmente correctos?
1
a) 𝑝 = 𝑞 = 2.
17
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
2
1
2
4
8
5
b) 𝑝 = 3 , 𝑞 = 3
c) 𝑝 = , 𝑞 =
Solución:
El espacio muestral es 𝑆 = {𝑤1 , 𝑤2 } = {𝑤1 } ∪ {𝑤2 }.
Entonces 1 = 𝑃(𝑆) = 𝑃({𝑤1, 𝑤2 }) =
⏟ 𝑃({𝑤1 }) + 𝑃({𝑤2 }) = 𝑝 + 𝑞 es algo que debe cumplirse para
𝐴𝑥(1)
𝐴𝑥(3)
que la asignación de probabilidades sea correcta (en el sentido de Kolmogorov). Por tanto, verificando
cada caso:
1
1
En a) 𝑝 + 𝑞 = 2 + 2 = 1  Asignación correcta
2
1
2
4
En b) 𝑝 + 𝑞 = 3 + 3 = 1  Asignación correcta
10
32
42
En c) 𝑝 + 𝑞 = 8 + 5 = 40 + 40 = 40 > 1, que es una contradicción. Esta asignación no es correcta.
Nótese que tanto las asignaciones (a) como (b) son “matemáticamente correctas” y sin embargo la
intuición dice que la primera es más compatible con la realidad. Esta última idea sólo es verificable con
datos, con “evidencia empírica”. Dicho sea de paso, el investigador no debe escatimar esfuerzos para
obtener toda la información relevante sobre el proceso que pretende explicar, y debe asignar probabilidades de acuerdo con esa información. Los cambios pueden ser notables. Por ejemplo, si supiéramos que
la propaganda influye en las preferencias del consumidor, tendríamos que averiguar más para tener una
asignación más “fina” de probabilidades, como se observa en la nota de abajo.
Nota: Una variante del problema.
Si supiéramos que 𝒘𝟏 gasta en propaganda el doble que 𝒘𝟐 y asumimos que la propaganda afecta las
preferencias del consumidor de modo que la probabilidad es directamente proporcional a la propaganda,
entonces 𝑝 = 𝛼𝐺(𝑤1 ) y 𝑞 = 𝛼𝐺(𝑤2 ), donde 𝐺(𝑤𝑖 ) es el gasto del productor i, siendo 𝛼 la “constante de
proporcionalidad”.
𝟏
Como 𝑮(𝒘𝟏 ) = 𝟐𝑮(𝒘𝟐 ), entonces 𝒑 + 𝒒 = 𝟏 = 𝛼𝐺(𝑤1 ) + 𝛼𝐺(𝑤2 ) ⇒ 𝟑𝜶𝑮(𝒘𝟐 ) = 1 ⇒ 𝜶 = 𝟑𝑮(𝒘 ) ⇒
1
1
2
𝟏
2
1
𝟐
𝑝 = 𝛼𝐺(𝑤1 ) = 3𝐺(𝑤 ) 𝐺(𝑤1 ) = 3𝐺(𝑤 ) 2𝐺(𝑤2 ) = 3 y por tanto 𝒒 = 𝟑, o sea 𝑝 = 3 , 𝑞 = 3 sería ahora la
2
asignación “correcta”.
2
Ejemplo 11
Un dado está "cargado", de modo que al lanzarlo y observar la cara que muestra en su lado superior, cada
número tiene una opción de presentarse directamente proporcional a dicho número.
a)
b)
c)
d)
Halle la distribución de probabilidades compatible con esta información
Halle la probabilidad de que al lanzar el dado ocurra un número par
Halle la probabilidad de que al lanzar el dado ocurra un número primo
Halle la probabilidad de que el número sea par o primo
Solución:
(a) 𝑆 = {1,2,3,4,5,6} y de los datos 𝑷({𝒌}) = 𝜶𝒌 para 𝑘 = 1,2, . . . ,6 donde 𝛼 > 0 es la constante de
proporcionalidad
Además, como 𝑆 = {1} ∪ {2} ∪ {3} ∪ {4} ∪ {5} ∪ {6}, aplicando el axioma 2, y sucesivas veces el axioma
3 se tiene:
𝑃(𝑆) = 𝑃({1} ∪ {2} ∪ {3} ∪ {4} ∪ {5} ∪ {6}) =1
𝑃({1}) + 𝑃({2}) + 𝑷({𝟑}) + 𝑃({4}) + 𝑃({5}) + 𝑃({6}) = 1  𝛼 + 2𝛼 + 𝟑𝜶+. . . +6𝛼 = ∑6𝑘=1 𝑘𝛼 = 1
 1 = 21𝛼. Despejando se obtiene 𝛼 = 1/21 y la asignación o distribución de probabilidades es
𝑃({𝑘}) = 𝑘/21 para 𝑘 = 1,2, . . . ,6.
18
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
(b) Si A denota el evento “El número es par”, entonces 𝐴 = {2,4,6} y se tiene 𝑃(𝐴) = 𝑃({2,4,6}) =
2
4
6
12
𝑃({2}) + 𝑃({4}) + 𝑃({6}) = 21 + 21 + 21 = 21
(c) Análogamente a (b), sea B es el evento pedido, entonces 𝐵 = {2,3,5} y se tiene
2
3
5
10
𝑃(𝐵) = 21 + 21 + 21 = 21
12
𝟏𝟎
2
20
(d) Nos piden 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑷(𝑩) − 𝑃(𝐴 ∩ 𝐵) = 21 + 𝟐𝟏 − 21 = 21, pues 𝐴 ∩ 𝐵 = {2}
Observación:
Nótese que escribimos 𝑃({𝑘}) y no P (k ) porque la probabilidad está definida sobre eventos o conjuntos
(se dice que es una 'función de conjuntos') y no sobre elementos. Por eso, siempre debiéramos escribir
𝑃({𝑤}) para denotar la probabilidad de un elemento 𝑤 de 𝑆; sin embargo, para no recargar la notación,
podemos tomarnos la licencia de usar 𝑃(𝑤) siempre y cuando esto no produzca confusión.
Ejemplo 12
Un bien puede costar 1 o 2 unidades monetarias (u.m.) y un consumidor puede comprar 1,2 o 3 unidades
del bien. Sabiendo que todas las parejas de precios y cantidades (𝑝, 𝑞) son posibles y que en general la
probabilidad 𝑃({(𝑝, 𝑞)}) es directamente proporcional a la razón (𝑞/𝑝): 𝑃({(𝑝, 𝑞)}) = 𝛼(𝑞/𝑝)
a)
b)
c)
d)
e)
Describa el espacio muestral S asociado a este experimento y halle 𝛼.
Identifique el evento A = "El gasto del consumidor es de 2 u.m." y calcule su probabilidad.
Identifique el evento B = "El consumidor adquiere 2 unidades del bien" y calcule su probabilidad.
Halle la probabilidad de AB.
El consumidor tiene un ingreso de 6 u.m. ¿Pronosticaría Ud. que gastará todo en el bien?
Solución:
a) S es el conjunto de todas las parejas
(𝑝, 𝑞) posibles, y podemos escribir
𝑆 = {(𝑝, 𝑞)|𝑝 = 1,2; 𝑞 = 1,2,3} =
{(1,1), (1,2), (1,3), (2,1), (2,2), (2,3)} =
{(1,1)} ∪ {(1,2)} ∪ {(1,3)} ∪ {(2,1)} ∪
{(2,2)} ∪ {(2,3)} ⇒ 𝑃(𝑆) = 1 ⇒
𝑃(𝑆) = 𝑃(1,1) + 𝑃(1,2) + 𝑃(1,3) +
𝑃(2,1) + 𝑃(2,2) + 𝑃(2,3) = 1
𝑞
Por dato 𝑃({(𝑝, 𝑞)}) = 𝛼(𝑝) (que refleja
3
1, 3
2
1, 2
2, 3 E
-
Cantidad q
4
2, 2
B
1
1, 1
2, 1
A
S
el hecho que, si el precio crece, baja la
probabilidad de consumir más.
Resolviendo:
0
0
1
2
3
Precio p
1
1 = 𝑃(1,1)
+ 𝑃(1,2)
+ 𝑃(1,3)
+ 𝑃(2,1)
+ 𝑃(2,2)
+ 𝑃(2,3)
= 9𝛼 = 1 ⇒ 𝛼 = 9 y la asignación o
⏟
⏟
⏟
⏟
⏟
⏟
𝛼
1
1
𝛼
2
1
𝛼
3
1
𝛼
1
2
𝛼
2
2
𝛼
3
2
1𝑞
distribución de probabilidades en eventos de S es 𝑃({(𝑝, 𝑞)}) = 9 𝑝 ; (𝑝, 𝑞) ∈ 𝑆
1
2
1
1
5
b) 𝐴 = {(𝑝, 𝑞) ∈ 𝑆|𝑝𝑞 = 2} = {(1,2), (2,1)} y 𝑃(𝐴) = 𝑃(1,2) + 𝑃(2,1) = 9 × 1 + 9 × 2 = 18
1
2
1
2
6
c) 𝐵 = {(𝑝, 𝑞) ∈ 𝑆|𝑞 = 2} = {(1,2), (2,2)} y 𝑃(𝐵) = 𝑃(1,2) + 𝑃(2,2) = 9 × 1 + 9 × 2 = 18
5
6
4
7
d) 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) = 18 + 18 − 18 = 18
19
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
e) Con seis u.m. de ingreso, sólo hay un caso en que se gasta todo, que es cuando el consumidor se sitúa en
1
3
1
el punto (2,3). La probabilidad de que esto ocurra es 𝑃(2,3) = 9 × 2 = 6 = 0.17 o 17%, que está más cerca
de 0 que de 1, esto es, pronosticaríamos que no gastará todo en el bien.
Ejemplo 13 (Basado en un ejemplo del libro del profesor José Flores (2013), en Paidea)
Para producir cierto bien se usa sólo uno de tres procedimientos principales existentes: A1, A2 o A3.
Opcionalmente se necesita usar además un procedimiento secundario A4.
La probabilidad de usar el procedimiento A1 es 0.6; la probabilidad de usar el procedimiento A1 con el
secundario es 0.24.
La probabilidad de usar el procedimiento A2 sin el procedimiento secundario es 0.06.
La probabilidad de usar el procedimiento A3 es de 0.25; la probabilidad de usar el procedimiento secundario
con A3 es 0.16;
Hallar la probabilidad de usar A4. ¿Se usará A4?
Solución:
Sea el evento Ai = "Se usa el procedimiento Ai , i = 1,2,3. Por dato: S = ⋃3i=1 Ai y además
P(A1 ) = 0.60; P(A1 ∩ A4 ) = 0.24; P(A2 ∩ Ac4 ) = 0.06; P(A3 ) = 0.25 y P(A3 ∩ A4 ) = 0.16
De A4 = A4 ∩ S = A4 ∩ (⋃3i=1 Ai ) = ⋃3i=1(Ai ∩ A4 ), tomando probabilidades resulta:
P(A4 ) = P(∪3𝑖=1 Ai ∩ A4 ) = ∑3i=1 P(Ai ∩ A4 ) = 0.24 + P(A2 ∩ A4 ) + 0.16.
Además como 1 = P(S) = ∑3i=1 P(Ai ) = 0.6 + P(A2 ) + 0.25 ⇒ P(A2 ) = 0.15
De A2 = (A2 ∩ A4 ) ∪ (A2 ∩ Ac4 ) ⇒ P(A2 ) = P(A2 ∩ A4 ) + P(A2 ∩ Ac4 ) ⇒ 0.15 = P(A2 ∩ A4 ) + 0.06 ⇒
P(A2 ∩ A4 ) = 0.09 así que finalmente: P(A4 ) = 0.24 + 0.09 + 0.16 = 0.49 que es menor que 0.5 así
que diríamos que no se usará A4.
Nota: Usando una “Tabla de contingencia” o de probabilidades
Disponiendo las probabilidades iniciales en una tabla:
𝑺
𝑨𝟏
𝑨𝟐
0.24
x
𝑨𝟒
𝑪
0.06
𝑨𝟒
Total
0.60
𝑷(𝑨𝟐 ) = 𝟎. 𝟏𝟓
𝑨𝟑
0.16
Total
¿𝑷(𝑨𝟒 )?
0.25
1
Como 𝑃(𝐴1 ) = 0.60 ⇒ 𝑃(𝐴1 ∩ 𝐴𝐶4 ) = 0.60 − 0.24 = 0.36; también 𝑃(𝐴3 ∩ 𝐴𝐶4 ) = 0.25 − 0.16 = 0.09
y por tanto 𝑃(𝐴𝐶4 ) = 0.36 + 0.06 + 0.09 = 0.51 así que complemento obtenemos
𝑃(𝐴4 ) = 1 − 𝑃(𝐴𝐶4 ) = 1 − 0.51 = 0.49
También, completando la tabla por sumas y restas se obtiene:
Total
𝑺
𝑨𝟏
𝑨𝟐
𝑨𝟑
0.24
0.09=0.15-0.06
0.16
0.49
𝑨𝟒
𝑪
0.36
0.06
0.09
0.51
𝑨𝟒
Total
0.60
0.15
0.25
1
La tabla ordena los datos y facilita la solución, pero no la explicita, por eso siempre hay que justificar el
llenado de al menos un par de celdas.
20
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
1.4 Probabilidad Condicional e Independencia
❑
❑
Inicialmente la asignación de probabilidades se hace partiendo de la información que proporciona el
experimento aleatorio que sirve de base.
Si obtenemos información adicional, podemos usar ésta para reasignar probabilidades y mejorarlas.
Por ejemplo, si lanzamos un dado cerrando los ojos, antes de abrirlos y ver el número que muestra la cara
superior, la probabilidad de que ocurra el # 5 es 1/6; pero si antes de abrir los ojos nos dicen que el número
que ha salido es "par" entonces, dada la nueva información, podemos decir que la “nueva” probabilidad del
#5 es 0. El razonamiento que está detrás de este cambio en 𝑃({5}) es:
❑
❑
❑
Originalmente el espacio muestral es 𝑆 = {1, 2, 3, 4, 5, 6}; Sean los eventos B="Ocurre el #5" y A="El
Número es Par", entonces 𝐵 = {5} y 𝐴 = {2, 4, 6}.
𝑛(𝐵)
1
Inicialmente 𝑃(𝐵) = 𝑃({5}) = 𝑛(𝑆) = 6.
Si sabemos que 𝑨 se ha presentado, entonces los únicos resultados posibles son 2 o 4 o 6: {2, 4, 6} y
dentro de este nuevo espacio muestral 𝐴, 𝐵 no tiene ningún elemento, su “nueva probabilidad” es
𝑃(𝐵) = 0.
Esta última probabilidad se llama "probabilidad condicional de 𝐵 dado (el evento) 𝐴" y se denota 𝑃(𝐵|𝐴)
para no confundirla con la probabilidad 𝑃(𝐵)) original.
1.4.1 Probabilidad Condicional
Definición
Sean dos eventos 𝐴 y 𝐵, tales que 𝑃(𝐴) > 0, definimos la Probabilidad Condicional de 𝐵 dado 𝐴, denotada
𝑃(𝐵∩𝐴)
𝑃(𝐵|𝐴), mediante 𝑃(𝐵|𝐴) =
𝑃(𝐴)
Observaciones:
𝑃(𝐵∩𝐴)
𝑛(𝐵∩𝐴)/𝑛(𝑆)
𝒏(𝑩∩𝑨)
(1)
Si usamos la noción clásica de probabilidad 𝑷(𝑩|𝑨) = 𝑃(𝐴) = 𝑛(𝐴)/𝑛(𝑆) = 𝒏(𝑨) , o sea
𝑃(𝐵|𝐴) es la probabilidad de 𝐵 cuando 𝑺 se reduce al evento 𝑨. La probabilidad condicional 𝑃(𝐵|𝐴)
no necesariamente es mayor o es menor que la probabilidad (incondicionada) 𝑃(𝐵), simplemente es
una probabilidad de más calidad, calculada con más información.
(2)
Se confunde 𝑃(𝐵|𝐴) con 𝑷(𝑩 ∩ 𝑨) porque en ambas probabilidades el numerador es el mismo
𝑛(𝐵 ∩ 𝐴). Se evita esta confusión observando el universo sobre el cual se efectúa el cálculo, si no es S
sino otro evento (o sea A), se trata de una probabilidad condicional, caso contrario es (𝐵 ∩ 𝐴).
(3)
También, a veces uno tiene dudas sobre si se tiene 𝑃(𝐵|𝐴) o 𝑃(𝐵). Como en (2), la salida es
preguntarse si la probabilidad que se tiene está calculada sobre una parte del universo, se trata de
𝑃(𝐵|𝐴).
Ejemplo 14
En el ejemplo 13, si se sabe que se aplicó el proceso 𝑨𝟑 ¿Se usó el proceso complementario 𝑨𝟒 ?
Solución:
Si restringimos el espacio muestral a A3 (sombreado en la tabla de probabilidades)
𝑺
𝑨𝟏
𝑨𝟐
𝑨𝟑
0.24
0.09
0.16
𝑨𝟒
0.36
0.06
0.09
𝑨𝑪𝟒
Total
0.60
0.15
0.25
𝑷(𝑨𝟑 ∩𝑨𝟒 )
𝟎.𝟏𝟔
𝑷(𝑨𝟒 |𝑨𝟑 ) = 𝑷(𝑨 ) = 𝟎.𝟐𝟓 = 𝟎. 𝟔𝟒 > 𝟎. 𝟓 ⇒ Sí se aplicó 𝑨𝟒 .
𝟑
21
Total
0.49
0.51
1
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Regla del Producto: 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)
𝑃(𝐵∩𝐴)
Se trata de un simple despeje en la definición de 𝑃(𝐵|𝐴). En efecto de 𝑃(𝐵|𝐴) = 𝑃(𝐴) ⇒
𝑃(𝐴
⏟ ∩ 𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)
𝑅𝑒𝑔𝑙𝑎 𝑑𝑒𝑙 𝑃𝑟𝑜𝑑𝑢𝑐𝑡𝑜
Nota:
𝑃(𝐵∩𝐴)
(1) Si 𝑃(𝐵) > 0, 𝑃(𝐴|𝐵) = 𝑃(𝐵) también está definida y por tanto 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵)𝑃(𝐵).
(2) Regla del producto generalizada 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶) = 𝑃(𝐶|𝐴 ∩ 𝐵)𝑃(𝐵|𝐴)𝑃(𝐴); pues
𝑃(𝐴 ∩ 𝐵 ∩ 𝐶) = 𝑃([𝐴 ∩ 𝐵] ∩ 𝐶) = 𝑃(𝐶|𝐴 ∩ 𝐵) × 𝑃(𝐴
⏟ ∩ 𝐵) = 𝑃(𝐶|𝐴 ∩ 𝐵)𝑃(𝐵|𝐴)𝑃(𝐴).
𝑃(𝐵|𝐴)𝑃(𝐴)
Ejemplo 15
Tres personas A, B y C se ponen en cola y toman una tras otra una carta de una baraja normal con 52
cartas (sin reposición de cartas). Gana quien tiene el as de espadas, puede ser que nadie gane y sólo hay
una ronda de extracciones. Antes de empezar el juego ¿Algún lugar en la cola es más conveniente?
Solución:
Sin pérdida de generalidad, supongamos el orden: A extrae primero, luego B y tercero extrae C; En este
contexto, sean los eventos A= “Gana A”; B= “Gana B”; C= “Gana C” ; tenemos:
1
𝑃(𝐴) = 52, pues son 52 cartas y sólo hay un as de espadas.
𝟏
51
1
𝑃(𝐵) = 𝑃(𝐴𝐶 ∩ 𝐵) = 𝑷(𝑩|𝑨𝑪 )𝑃(𝐴𝐶 ) = 𝟓𝟏 × 52 = 52, pues para que B gane, debe ocurrir primero que A
no haya ganado y en ese caso se queda con su carta y deja 51 cartas, una de ellas el as de espadas. En ese
1
contexto, la probabilidad (condicional) de que gane B es 𝑃(𝐵|𝐴𝐶 ) = 51 ; y la probabilidad de que A no
51
1
haya ganado antes es 𝑃(𝐴𝐶 ) = 52. En resumen, la probabilidad de que gane B es 𝑃(𝐵) = 52. Finalmente
1
50
𝟓𝟏
𝟏
𝑷(𝑪) = 𝑃(𝐴𝐶 ∩ 𝐵 𝐶 ∩ 𝐶) = 𝑃(𝐶|𝐴𝐶 ∩ 𝐵 𝐶 )𝑃(𝐵 𝐶 |𝐴𝐶 )𝑷(𝑨𝑪 ) = 50 × 51 × 𝟓𝟐 = 𝟓𝟐.
Es decir, antes de empezar el juego, los tres jugadores tienen igual probabilidad de ganar. No hay un lugar
en la cola que sea más conveniente.
Ejemplo 16 (Diagrama de árbol y probabilidad condicional con regla del producto)
En una etapa de un muestreo se desea seleccionar una vivienda para una encuesta y se tiene dos cuadras
con viviendas: En la cuadra #1 hay treinta viviendas y en la #2 hay diez. Un muestrista selecciona una
cuadra al azar y ya dentro de ella, selecciona al azar una vivienda. Si usted vive en la cuadra #1 ¿Cuál es
la probabilidad de que su vivienda integre la muestra?
Solución:
Sean los eventos 𝐴 = “Se selecciona la cuadra #1” y 𝐵 = “Su
vivienda forma parte de la muestra”; se pregunta por 𝑃(𝐵).
Usemos un “Diagrama de árbol” para ordenar ideas y datos:
las probabilidades iniciales son incondicionales y luego dentro
de cada “rama” las probabilidades son condicionales a las
ramas previas (ver la figura 1 al costado).
En general 𝐵 = (𝐵 ∩ 𝐴) ∪ (𝐵 ∩ 𝐴𝐶 ) y en este caso particular
𝐵 ∩ 𝐴𝐶 = ∅, luego 𝐵 = (𝐵 ∩ 𝐴) y𝑃(𝐵) = 𝑃(𝐵 ∩ 𝐴)
Figura 1 Diagrama de árbol
Claramente tenemos 𝑃(𝐴) = 2 y dado que ya estamos dentro de la cuadra #1, la probabilidad de
1
1
1
cualquier vivienda es 30, o sea 𝑃(𝐵|𝐴) = 30 ⇒Regla del producto: 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐵|𝐴)𝑃(𝐴) =
1
30
1
1
× 2 = 60.
22
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Nota:
1
59
𝑃(𝐵 𝐶 ) = 1 − 𝑃(𝐵) = 1 − 60 = 60 resultado inmediato, que también podría obtenerse de manera más
trabajosa, con el siguiente procedimiento:
29
1
1
59
𝑃(𝐵 𝐶 ) = 𝑃(𝐵 𝐶 ∩ 𝐴) + 𝑃(𝐵 𝐶 ∩ 𝐴𝐶 ) = 𝑃(𝐵 𝐶 |𝐴)𝑃(𝐴) + 𝑃(𝐵 𝐶 |𝐴𝐶 )𝑃(𝐴𝐶 ) = 30 × 2 + 1 × 2 = 60.
Ejemplo 17
En un estudio sobre Impuntualidad en pago de créditos para empresas unipersonales, se registró la puntualidad en una muestra de clientes de créditos de este tipo y también se registró si el entrevistado(a) era
Jefe(a) de hogar o no. También se tomó nota del sexo del participante. Se obtuvo el siguiente cuadro
resumen de frecuencias:
Pago Puntual
Pago impuntual
Sexo
Sexo
Jefe de Hogar Femenino Masculino Femenino Masculino
Total
Sí
94
134
5
15
248
No
7
8
5
26
46
Total
101
142
10
41
294
Usando las frecuencias anteriores para calcular probabilidades:
a) Una persona que es jefe(a) de hogar solicita un crédito ¿Se atrasará en su pago?
b) ¿La condición de No ser jefe de hogar es mejor indicador de impuntualidad de pago en hombres o en
mujeres? Use probabilidades condicionales para responder.
Solución:
a) Se sabe que la persona es Jefe de Hogar, es decir este evento ha ocurrido y en este contexto se pregunta por impuntualidad en el pago, se trata de una probabilidad condicional, a saber:
𝑃(𝑃𝑎𝑔𝑜 𝑖𝑚𝑝𝑢𝑛𝑡𝑢𝑎𝑙|𝐽𝑒𝑓𝑒 𝑑𝑒 𝐻𝑜𝑔𝑎𝑟)
Pago Puntual
Pago impuntual
Sexo
Sexo
Jefe de Hogar Femenino Masculino Femenino Masculino
Total
Sí
94
134
5
15
248
No
7
8
5
26
46
Total
101
142
10
41
294
En la tabla de frecuencias reducimos S a los 248 participantes que son Jefes de Hogar:
5+15
20
𝑃(𝑃𝑎𝑔𝑜 𝑖𝑚𝑝𝑢𝑛𝑡𝑢𝑎𝑙|𝐽𝑒𝑓𝑒 𝑑𝑒 𝐻𝑜𝑔𝑎𝑟) = 248 = 248 = 0.0806 < 0.5 Nuestro pronóstico es que este
evento no ocurrirá.
b) Debemos calcular 𝑃(𝑃𝑎𝑔𝑜 𝑖𝑚𝑝𝑢𝑛𝑡𝑢𝑎𝑙|(𝑁𝑜 𝐽𝑒𝑓𝑒 𝑑𝑒 𝐻𝑜𝑔𝑎𝑟) ∩ (𝑆𝑒𝑥𝑜 𝐹𝑒𝑚𝑒𝑛𝑖𝑛𝑜)) y compararla
con 𝑃(𝑃𝑎𝑔𝑜 𝑖𝑚𝑝𝑢𝑛𝑡𝑢𝑎𝑙|(𝑁𝑜 𝐽𝑒𝑓𝑒 𝑑𝑒 𝐻𝑜𝑔𝑎𝑟) ∩ (𝑆𝑒𝑥𝑜 𝑀𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑜)). Veamos:
𝑃(𝑃𝑎𝑔𝑜 𝑖𝑚𝑝𝑢𝑛𝑡𝑢𝑎𝑙|(𝑁𝑜 𝐽𝑒𝑓𝑒 𝑑𝑒 𝐻𝑜𝑔𝑎𝑟) ∩ (𝑆𝑒𝑥𝑜 𝐹𝑒𝑚𝑒𝑛𝑖𝑛𝑜)) =?
Reduciendo el espacio muestral:
Pago Puntual
Pago impuntual
Sexo
Sexo
Jefe de Hogar Femenino Masculino Femenino Masculino
Total
Sí
94
134
5
15
248
No
7
8
5
26
46
Total
101
142
10
41
294
23
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝑃(𝑃𝑎𝑔𝑜 𝑖𝑚𝑝𝑢𝑛𝑡𝑢𝑎𝑙|(𝑁𝑜 𝐽𝑒𝑓𝑒 𝑑𝑒 𝐻𝑜𝑔𝑎𝑟 ∩ (𝑆𝑒𝑥𝑜 𝐹𝑒𝑚𝑒𝑛𝑖𝑛𝑜)) =
5
5
=
= 0.42 < 0.5
7 + 5 12
𝑃(𝑃𝑎𝑔𝑜 𝑖𝑚𝑝𝑢𝑛𝑡𝑢𝑎𝑙|(𝑁𝑜 𝐽𝑒𝑓𝑒 𝑑𝑒 𝐻𝑜𝑔𝑎𝑟) ∩ (𝑆𝑒𝑥𝑜 𝑀𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑜)) =?
Reduciendo el espacio muestral:
Pago Puntual
Pago impuntual
Sexo
Sexo
Jefe de Hogar Femenino Masculino Femenino Masculino
Total
Sí
94
134
5
15
248
No
7
8
5
26
46
Total
101
142
10
41
294
26
26
𝑃(𝑃𝑎𝑔𝑜 𝑖𝑚𝑝𝑢𝑛𝑡𝑢𝑎𝑙|(𝑁𝑜 𝐽𝑒𝑓𝑒 𝑑𝑒 𝐻𝑜𝑔𝑎𝑟 ∩ (𝑆𝑒𝑥𝑜 𝑀𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑜)) =
=
= 0.76 > 0.5
8 + 26 34
En el caso de hombres que no son jefe de hogar la probabilidad de impuntualidad en el pago es alta
(mayor que 0.5) y podríamos pronosticar que dadas estas dos condiciones (No Jefe de hogar y sexo
masculino) habrá incumplimiento en el pago. La condición de No jefe de hogar y sexo masculino es
mejor predictor de impuntualidad de pago en el caso de hombres.
Ejemplo 18
Un analista bursátil asigna probabilidades subjetivas a los eventos A y B, donde A = "La bolsa caerá
1
1
1
mañana" y B = "La bolsa caerá pasado mañana", de modo que 𝑃(𝐴) = 2; 𝑃(𝐵) = 5 y 𝑃(𝐴 ∩ 𝐵) = 16.
Halle la probabilidad de que la bolsa caiga sólo una vez. De que caiga mañana, si se supone que caerá
sólo una vez.
Solución:
Se pregunta por 𝑃(𝐵𝑜𝑙𝑠𝑎 𝑐𝑎𝑖𝑔𝑎 𝑠ó𝑙𝑜 𝑢𝑛𝑎 𝑣𝑒𝑧) = 𝑃((𝐴 ∩ 𝐵 𝐶 ) ∪ (𝐴𝐶 ∩ 𝐵)) = 𝑃(𝐴 ∩ 𝐵 𝐶 ) + 𝑃(𝐴𝐶 ∩ 𝐵)
y 𝑃(𝐵𝑜𝑙𝑠𝑎 𝑐𝑎𝑖𝑔𝑎 𝑚𝑎ñ𝑎𝑛𝑎|𝐶𝑎𝑒𝑟á 𝑠ó𝑙𝑜 𝑢𝑛𝑎 𝑣𝑒𝑧) = 𝑃(𝐴|(𝐴 ∩ 𝐵 𝐶 ) ∪ (𝐴𝐶 ∩ 𝐵))
Ordenando información en una Tabla de contingencia:
Total
Completando la tabla:
𝑆
𝐴
𝐴𝐶
𝑃(𝐴) = 𝑃(𝐴 ∩ 𝐵) + 𝑃(𝐴 ∩ 𝐵 𝐶 ) ⇒
0.0625
0.1375
0.20
𝐵
0.5 = 0.0625 + 𝑃(𝐴 ∩ 𝐵 𝐶 ) ⇒
𝑃(𝐴 ∩ 𝐵 𝐶 ) = 0.5 − 0.0625 = 0.4375
𝐶
0.4375
0.80
𝐵
Total
0.50
0.50
1
𝐶
Análogamente 𝑃(𝐴 ∩ 𝐵) = 0.2 − 0.0625 = 0.1375 ⇒ 𝑃(𝐵𝑜𝑙𝑠𝑎 𝑐𝑎𝑖𝑔𝑎 𝑠ó𝑙𝑜 𝑢𝑛𝑎 𝑣𝑒𝑧) = 0.4375 +
0.1375 = 0.575
y
𝑃(𝐵𝑜𝑙𝑠𝑎 𝑐𝑎𝑒 𝑚𝑎ñ𝑎𝑛𝑎|𝐶𝑎𝑒𝑟á 𝑠ó𝑙𝑜 𝑢𝑛𝑎 𝑣𝑒𝑧) = 𝑃(𝐴|(𝐴 ∩ 𝐵 𝐶 ) ∪ (𝐴𝐶 ∩ 𝐵)) =
𝑃(𝐴 ∩ (𝐴 ∩ 𝐵 𝐶 ) ∪ 𝐴 ∩ (𝐴𝐶 ∩ 𝐵)) 𝑃(𝐴 ∩ (𝐴 ∩ 𝐵 𝐶 )) 𝑃(𝐴 ∩ 𝐵 𝐶 ) 0.4375
=
=
=
= 0.7608
0.575
0.575
0.575
𝑃((𝐴 ∩ 𝐵 𝐶 ) ∪ (𝐴𝐶 ∩ 𝐵))
Ejemplo 19
Se estima que sólo un 25% de las personas que compran acciones en la Bolsa de Valores tiene conocimientos bursátiles. Dentro de los que compran acciones sin conocimientos bursátiles, sólo un 10%
obtienen beneficios. El 5% de los que compran acciones tiene conocimientos bursátiles, pero no obtiene
beneficios. Si se elige al azar una persona que ha comprado acciones en la Bolsa de Valores y resulta que
ha obtenido beneficios, ¿Cuál es la probabilidad de que tenga conocimientos bursátiles?
24
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Solución:
Sean los eventos A = “Persona tiene conocimientos bursátiles” y B = “Persona obtiene beneficios”,
tenemos
𝑃(𝐴) = 0.25 y por complemento 𝑃(𝐴𝐶 ) = 1 − 0.25 = 0.75;
𝑃(𝐵|𝐴𝐶 ) = 0.10 (es probabilidad condicional pues el enunciado dice “Dentro de los que compran
acciones sin conocimientos bursátiles, sólo un 10% obtienen beneficios” o sea el % se ha calculado sólo
dentro de los que no tienen conocimiento, o sea dentro de 𝐴𝐶 ).
𝑃(𝐴 ∩ 𝐵 𝐶 ) = 0.05 (es probabilidad de intersección, pues se calcula sobre todos los que compran
acciones, esto es 𝑆, o sea no es probabilidad condicional).
Se pide 𝑃(𝐴|𝐵) pues ya se sabe que ha obtenido beneficios, o sea ya ocurrió 𝐵. Como 𝑃(𝐴|𝐵) =
𝑃(𝐴∩𝐵)
𝑃(𝐵)
,
necesitamos 𝑃(𝐴 ∩ 𝐵) y 𝑃(𝐵). Planteado el problema, pasamos a resolverlo, calculando lo necesario:
Para 𝑷(𝑨 ∩ 𝑩): de 𝑃(𝐴) = 𝑃(𝐴 ∩ 𝐵) + 𝑃(𝐴 ∩ 𝐵 𝐶 ) ⇒ 0.25 = 𝑃(𝐴 ∩ 𝐵) + 0.05 ⇒ 𝑃(𝐴 ∩ 𝐵) = 0.20;
Para 𝑷(𝑩): como 𝑃(𝐵) = 𝑃(𝐴 ∩ 𝐵) + 𝑃(𝐴𝐶 ∩ 𝐵) = 0.2 + 𝑃(𝐴𝐶 ∩ 𝐵), sólo necesitamos 𝑃(𝐴𝐶 ∩ 𝐵).
Por la regla del producto 𝑃(𝐴𝐶 ∩ 𝐵) = 𝑃(𝐵|𝐴𝐶 )𝑃(𝐴𝐶 ) = 0.10 × 0.75 = 0.075 ⇒ 𝑃(𝐵) = 𝑃(𝐴 ∩ 𝐵) +
𝑃(𝐴𝐶 ∩ 𝐵) = 0.2 + 0.075 = 0.275
𝑷(𝑨∩𝑩)
𝟎.𝟐𝟎
Finalmente 𝑷(𝑨|𝑩) = 𝑷(𝑩) = 𝟎.𝟐𝟕𝟓 = 𝟎. 𝟕𝟐𝟕
Nota:
Con una Tabla de contingencia o de probabilidades:
El llenado no es directo, pues usualmente se tiene probabilidades de dos totales y alguna celda interior (de
alguna intersección) y con eso se llena el resto por sumas y restas. En este caso sólo tenemos las
probabilidades en negrita, y por complemento 𝑃(𝐴𝐶 ) = 1 − 0.25 = 0.75; pero además se tiene
𝑃(𝐵|𝐴𝐶 ) = 0.10 lo que implícitamente equivale a tener la probabilidad de la intersección (𝐴𝐶 ∩ 𝐵) pues
de 𝑃(𝐵|𝐴𝐶 ) = 0.10, entonces por la regla del producto:
𝑺
𝐵
𝐵𝐶
Total
𝐴
0.20
0.05
0.25
𝐴𝐶
0.075
Total
0.275
0.75
1
𝑺
𝐵
𝐵𝐶
Total
𝐴
0.20
0.05
0.25
𝐴𝐶
0.075
Total
0.275
0.75
1
𝑃(𝐴𝐶 ∩ 𝐵) = 𝑃(𝐵|𝐴𝐶 )𝑃(𝐴𝐶 ) = 0.10 × 0.75 = 0.075 y con eso,
sin necesidad de llenar toda la tabla:
como 𝑃(𝐴) = 0.25 = 𝑃(𝐴 ∩ 𝐵) + 0.05 ⇒ 𝑃(𝐴 ∩ 𝐵) = 0.20;
y 𝑃(𝐵) = 𝑃(𝐴 ∩ 𝐵) + 𝑃(𝐴𝐶 ∩ 𝐵) = 0.20 + 0.075 = 0.275;
entonces:
𝑃(𝐴∩𝐵)
0.20
𝑃(𝐴|𝐵) = 𝑃(𝐵) = 0.275 = 0.727 es la probabilidad buscada.
25
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
1.4.2 Independencia Probabilística
Si 𝐴 no es "condicionante" de 𝐵, entonces 𝑃(𝐵) no se altera si ocurriera 𝐴 , o sea 𝑃(𝐵|𝐴) = 𝑃(𝐵). Por
ejemplo, si A = “Renuncia el ministro(a) de Economía” y B = “Sube el precio del dólar”, entonces si
ocurriera A es más probable que ocurra B, por la incertidumbre que se genera y los agentes económicos
tenderán a “refugiarse” en una moneda más “fuerte” que la moneda local. En cambio sea C = “Renuncia
el ministro(a) de Cultura”, el precio del dólar no se altera: el evento B es “indiferente” al evento C. Esta
indiferencia tiene un nombre más técnico: Independencia (probabilística)
Def.1 Independencia
Dos eventos A y B se dicen independientes si 𝑃(𝐵|𝐴) = 𝑃(𝐵).
Nota: En el contexto de la definición anterior, si reemplazamos en la Regla del Producto obtenemos:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵|𝐴)
𝑃(𝐴) = 𝑃(𝐴)𝑃(𝐵). Esta última igualdad, que si A y B son independientes, entonces
⏟
𝑃(𝐵)
se cumple que 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵), es más sencilla de verificar y por eso se la toma como definición
de independencia probabilística.
Def.2 Independencia
A y B se dicen independientes si y sólo si 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵).
Observaciones:
(1) Esta definición se extiende inductivamente al caso de tres o más eventos, esto es, 𝐴, 𝐵 y 𝐶 se dicen
independientes si: 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶) = 𝑃(𝐴)𝑃(𝐵)𝑃(𝐶); 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵); 𝑃(𝐴 ∩ 𝐶) = 𝑃(𝐴)𝑃(𝐶)
y 𝑃(𝐵 ∩ 𝐶) = 𝑃(𝐵)𝑃(𝐶).
(2) Se demuestra que, si A y B son independientes, también lo son sus complementos y en general A y BC,
AC y B, AC y BC.
(3) Si A y B son excluyentes entonces 𝐴 ∩ 𝐵 = ∅ y 𝑃(𝐴 ∩ 𝐵) = 0 ≠ 𝑃(𝐴)𝑃(𝐵), es decir A y B no son
independientes. Independientes equivale a Indiferentes no a Excluyentes, al contrario, si unos eventos
son excluyentes no pueden ser independientes.
Ejemplo 20
Hay dos vías que van de la ciudad A a la ciudad B y dos vías que van de B a la ciudad C. Si cada una de
las 4 vías tiene probabilidad 1/4 de ser interrumpida por huaicos, independientemente de las otras. ¿Con
qué probabilidad se podrá pasar de A a C?
Solución:
El gráfico de abajo representa las ciudades, las vías que son las flechas y p es la probabilidad de que caiga
un huaico e interrumpa la vía correspondiente:
p
p
A
B
C
p
p
Sean los eventos
𝐺 = “Se puede pasar de A a C”; 𝐸= “Hay vía libre de A a B” y 𝐹= “Hay vía libre de B a C”.
Entonces 𝐺 = 𝐸 ∩ 𝐹 donde 𝐸 y 𝐹 son independientes, pues según el enunciado, la ocurrencia de huaicos
se da de manera independiente entre vías. Luego 𝑃(𝐺) = 𝑃(𝐸 ∩ 𝐹) = 𝑃(𝐸)𝑃(𝐹). Trabajando cada
probabilidad por separado:
26
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
1
1
1
𝑃(𝐸) = 1 − 𝑃(𝐸 𝐶 ) y 𝑃(𝐸 𝐶 ) = 𝑃(𝐶𝑎𝑒𝑛 ℎ𝑢𝑎𝑖𝑐𝑜𝑠 𝑒𝑛 𝑙𝑎𝑠 𝑑𝑜𝑠 𝑣í𝑎𝑠 𝑑𝑒 𝐴 𝑎 𝐵) = 𝑝 × 𝑝 = 4 × 4 = 16, ya
que por dato del problema, los huaicos caen independientemente sobre cada vía. Entonces
1
15
15
𝑃(𝐸) = 1 − 16 = 16. Análogamente 𝑃(𝐹) = 16; por tanto 𝑃(𝐺) = 𝑃(𝐸 ∩ 𝐹) = 𝑃(𝐸) × 𝑃(𝐹) =
15
15
15 2
× 16 = (16) = 0.88
16
Ejemplo 21
Tres personas, A, B y C, se dividen un trabajo de Estadística, de modo que cada una hace su parte independientemente de las otras y se ponen de acuerdo para integrar sus trabajos en uno solo (no revisan el
documento final integrado).
Las probabilidades de fallar en sus respuestas son 0.2, 0.15 y 0.25 respectivamente. Halle la probabilidad
de:
a) Que presenten bien resuelto el trabajo.
b) Que el trabajo tenga algún error
c) Que el más capaz de los tres haya fallado, si el trabajo entregado tenía error.
Solución:
Definamos A= “A falla en su parte”; B= “B falla en su parte” y C= “C falla en su parte”. Los datos iniciales son 𝑃(𝐴) = 0.2; 𝑃(𝐵) = 0.15 y 𝑃(𝐶) = 0.25; además 𝐴, 𝐵 𝑦 𝐶 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠. En este contexto:
a) Sea D = “Trabajo bien resuelto”, entonces 𝐷 = “Ningún error o nadie falla” = 𝐴𝐶 ∩ 𝐵 𝐶 ∩ 𝐶 𝐶 , luego:
𝑃(𝐷) = 𝑃(𝑁𝑎𝑑𝑖𝑒 𝑓𝑎𝑙𝑙𝑎 𝑠𝑢 𝑝𝑎𝑟𝑡𝑒) = 𝑃(𝐴𝐶 ∩ 𝐵 𝐶 ∩ 𝐶 𝐶 ) = 𝑃(𝐴𝐶 ) × 𝑃(𝐵𝐶 ) × 𝑃(𝐶 𝐶 ) =
0.8 × 0.85 × 0.75 = 0.51
b) 𝑃(𝑇𝑟𝑎𝑏𝑎𝑗𝑜 𝑐𝑜𝑛 𝑎𝑙𝑔ú𝑛 𝑒𝑟𝑟𝑜𝑟) = 𝑃(𝐷𝐶 ) = 1 − 𝑃(𝐷) = 1 − 0.51 = 0.49
Nota:
También, directamente,
𝑃(𝑇𝑟𝑎𝑏𝑎𝑗𝑜 𝑐𝑜𝑛 𝑎𝑙𝑔ú𝑛 𝑒𝑟𝑟𝑜𝑟) = 𝑃(𝐴 ∪ 𝐵 ∪ 𝐶) = 𝑃([𝐴 ∪ 𝐵] ∪ 𝐶) =
𝑃([𝐴 ∪ 𝐵]) + 𝑃(𝐶) − 𝑃([𝐴 ∪ 𝐵] ∩ 𝐶) = 𝑃([𝐴 ∪ 𝐵]) + 𝑃(𝐶) − 𝑃([𝐴 ∩ 𝐶] ∪ [𝐵 ∩ 𝐶]) =
𝑃([𝐴 ∪ 𝐵]) + 𝑃(𝐶) − 𝑃([𝐴 ∩ 𝐶]) − 𝑃([𝐵 ∩ 𝐶]) + 𝑃([𝐴 ∩ 𝐵 ∩ 𝐶]) =
𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) + 𝑃(𝐶) − 𝑃([𝐴 ∩ 𝐶]) − 𝑃([𝐵 ∩ 𝐶]) + 𝑃([𝐴 ∩ 𝐵 ∩ 𝐶]), y aplicando la
independencia y reemplazando probabilidades se llega al mismo resultado, pero con más trabajo.
c) “El más capaz” es el que tiene menor probabilidad de fallar, o sea B. En este contexto se pide:
𝑃(𝐵|𝐷𝐶 ) =
𝑃(𝐵∩𝐷 𝐶 )
𝑃(𝐷 𝐶 )
=
𝑃(𝐷 𝐶 |𝐵)𝑃(𝐵)
𝑃(𝐷 𝐶 )
=
1×0.15
0.49
0.15
= 0.49 = 0.31 pues si B falla en su parte, entonces
necesariamente ya hay error en el trabajo, o sea ocurre 𝐷𝐶 y por eso 𝑃(𝐷𝐶 |𝐵) = 1
Ejemplo 22
Un economista tiene tres inversiones: una en la empresa A, otra en la empresa B (que es parte de un
consorcio junto con A) y otra en la empresa C, cuya economía es totalmente independiente de A y B. El
economista calcula que tiene probabilidades de 0.6 de tener ganancias en A, 0.7 en B y 0.40 de tener
ganancias en ambas. También sabe que en C la probabilidad de ganancias es baja: 0.20 ¿Diría usted que
tendrá ganancias con alguna de las empresas del consorcio pero que no las tendrá en C? Use
probabilidades para responder.
Solución:
Sean A = “Se tiene ganancias con A”; B = “Se tiene ganancias con B”; C = “Se tiene ganancias con C”.
𝑃(𝐴) = 0.6; 𝑃(𝐵) = 0.7 y 𝑃(𝐴 ∩ 𝐵) = 0.4; 𝑃(𝐶) = 0.2
Se pide 𝑃((𝐴 ∪ 𝐵) ∩ 𝐶 𝐶 ). Como hay independencia de C con A y con B, entonces:
𝑃((𝐴 ∪ 𝐵) ∩ 𝐶 𝐶 ) = 𝑃(𝐴 ∪ 𝐵) × 𝑃(𝐶 𝐶 ) = (0.6 + 0.7 − 0.4) × 0.8 = 0.72 > 0.5: Pronosticamos que
sí ocurrirá este evento.
27
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
1.5 Probabilidad Total y Teorema de Bayes
Permiten la reconstrucción de probabilidades previas o incondicionales, a partir de las condicionales.
1.5.1 Teorema de Probabilidad Total
Sean 𝐴1 ,A2 ,...,A𝑁 eventos mutuamente excluyentes, todos con probabilidad positiva y tales que ∪ 𝐴𝑗 = 𝑆.
𝑗
Sea 𝐵 otro evento de 𝑆. Entonces se cumple 𝑃(𝐵) = ∑𝑗(𝐵|𝐴𝑗 )𝑃(𝐴𝑗 ).
Demostración:
Si vemos los eventos 𝐴1 ,A2 ,...,A𝑁 como franjas disjuntas de áreas que cubren todo 𝑆 y el evento 𝐵 como
…
𝑨𝒋
𝑨𝟏
𝑨𝟐
𝑨𝑵
…
una franja larga que se cruza con los
sucesivos eventos 𝐴1 ,A2 ,...,AN ,
… 𝑩 ∩ 𝑨𝒋
…
𝑩 𝑩 ∩ 𝑨𝟏
𝑩 ∩ 𝑨𝟐
𝑩 ∩ 𝑨𝑵
entonces
𝐵 = 𝐵 ∩ 𝑆 = 𝐵 ∩ [∪ 𝐴𝑗 ] =∪ [𝐵 ∩ 𝐴𝑗 ]
𝑗
𝑗
Tomando probabilidades:
𝑺
𝑃(𝐵) = 𝑃 (∪ [𝐵 ∩ 𝐴𝑗 ]) = ∑𝑗 𝑃(𝐵 ∩ 𝐴𝑗 ). Aplicando la Regla del Producto a 𝑃(𝐵 ∩ 𝐴𝑗 ) obtenemos
𝑗
𝑃(𝐵 ∩ 𝐴𝑗 ) = 𝑃(𝐵|𝐴𝑗 )𝑃(𝐴𝑗 ) ∀𝑗 ⇒ 𝑃(𝐵) = ∑𝑗 𝑃(𝐵 ∩ 𝐴𝑗 ) = ∑𝑗 𝑃(𝐵|𝐴𝑗 )𝑃(𝐴𝑗 )
1.5.2 Teorema de Bayes
En el contexto del Teorema de Probabilidad Total, si además 𝑃(𝐵) > 0, entonces se cumple:
𝑃(𝐵|𝐴𝑘 )𝑃(𝐴𝑘 )
𝑃(𝐴𝑘 |𝐵) = ∑ 𝑃(𝐵|𝐴
∀𝑘
)𝑃(𝐴 )
𝑗
𝑗
𝑗
Demostración:
Usando Probabilidad Condicional y luego Probabilidad Total:
𝑃(𝐵|𝐴𝑘 )𝑃(𝐴𝑘 )
𝑃(𝐴𝑘 |𝐵) =
⏞
𝑃(𝐵∩𝐴𝑘 )
𝑃(𝐵)
⏟
𝑃(𝐵|𝐴𝑘 )𝑃(𝐴𝑘 )
=∑
𝑗 𝑃(𝐵|𝐴𝑗 )𝑃(𝐴𝑗 )
∀𝑘
∑𝑗 𝑃(𝐵|𝐴𝑗 )𝑃(𝐴𝑗 )
Ejemplo 23 (Teoremas de Probabilidad Total y de Bayes)
Ante una pregunta de opción múltiple con 5 opciones, el examinado puede saber la respuesta, no saberla
en absoluto o tener dudas. Si no sabe marca al azar y si tiene dudas, después de un análisis de opciones
puede reducir las mismas a las 3 más plausibles, una de las cuales es la correcta.
Datos previos indican que el 55% sabe la respuesta y el 15% no la sabe en absoluto. Las personas marcan
o eligen una opción de todas maneras.
a) ¿Qué proporción de aciertos se espera en esta pregunta?
b) Un examinado acertó en la pregunta ¿Sabrá verdaderamente la respuesta?
Solución:
Sean los eventos 𝐴1 = “El examinado sabe la respuesta”; 𝐴2 = “El examinado no sabe la respuesta en
absoluto”; 𝐴3 = “El examinado tiene dudas” y 𝐵 = “El examinado acierta en la respuesta”.
Un diagrama de árbol inicial (figura 1) muestra y ordena la información explícita en el enunciado:
28
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝐵
𝑃 𝐵 𝐴1 = 1
𝐴1
𝑃 𝐴1 = 0.55
𝐵𝐶
𝑃 𝐵𝐶 𝐴1 = 0
𝐵
Inicio
𝑃 𝐵 𝐴2 =
𝐴2
𝑃 𝐴2 = 0.15
1
5
𝐵𝐶
𝑃 𝐵 𝐶 𝐴2 =
𝐵
𝑃 𝐵 𝐴3 =
𝐴3
𝑃 𝐴3 =?
4
5
1
3
𝐵𝐶
2
3
𝑃 𝐵 𝐶 𝐴3 =
Figura 1 Diagrama de árbol con información inicial
Tenemos los datos iniciales:
𝑃(𝐴1 ) = 0.55; 𝑃(𝐴2 ) = 0.15 y podemos completar 𝑃(𝐴3 ) = 1 − 0.55 − 0.15 = 0.30; por otra parte:
𝑃(𝐵|𝐴1 ) = 1, pues si sabe la respuesta, obviamente marca lo correcto; 𝑃(𝐵|𝐴2 ) = 1/5, pues si no sabe,
contesta al azar sobre el total de 5 preguntas, y 𝑃(𝐵|𝐴3 ) = 1/3, pues si tiene dudas, siempre puede reducir el conjunto de casos posibles a 3, uno de los cuales es el correcto. La figura 2 ilustra lo anterior.
𝑩
𝑷 𝑩 𝑨𝟏 = 𝟏
𝑨𝟏
𝑷 𝑨𝟏 = 𝟎. 𝟓𝟓
𝑃
𝐵𝐶
𝐵𝐶
𝐴1 = 0
𝑩
Inicio
𝑷 𝑩 𝑨𝟐 =
𝑨𝟐
𝑷 𝑨𝟐 = 𝟎. 𝟏𝟓
𝟏
𝟓
𝐵𝐶
𝑃 𝐵 𝐶 𝐴2 =
𝑩
𝑷 𝑩 𝑨𝟑 =
𝑨𝟑
𝑷 𝑨𝟑 = 𝟎. 𝟑𝟎
𝐵𝐶
𝑃
𝐵𝐶
𝐴3 =
4
5
𝟏
𝟑
2
3
Figura 2 Diagrama de árbol con información completa
a) En este caso nos piden 𝑃(𝐵) y aplicando probabilidad total:
3
𝑃(𝐵) = ∑ 𝑃(𝐵|𝐴𝑗 ) 𝑃(𝐴𝑗 ) = 𝑃(𝐵|𝐴1 )𝑃(𝐴1 ) + 𝑃(𝐵|𝐴2 )𝑃(𝐴2 ) + 𝑃(𝐵|𝐴3 )𝑃(𝐴3 ) =
𝑗=1
29
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
1
1
(1 × 0.55) + ( × 0.15) + ( × 0.30) = 0.68
5
3
b) Aquí debemos calcular 𝑃(𝐴1 |𝐵). Aplicando el Teorema de Bayes:
(1 × 0.55)
𝑃(𝐵 ∩ 𝐴1 )
𝑃(𝐵 ∩ 𝐴1 )𝑃(𝐴1 )
𝑃(𝐴1 |𝐵) =
=
=
= 0.81
𝑃(𝐵)
0.68
∑𝑗=1 𝑃(𝐵|𝐴𝑗 )𝑃(𝐴𝑗 )
Lo más probable es que, si acertó en la respuesta es porque de verdad la sabía.
Ejemplo 24
En un mercado laboral, el 20% de trabajadores tiene 5 años de escolaridad, el 70% tiene 10 años y el resto
tiene 15 años. La probabilidad p de que un trabajador sea estable, está condicionada por sus años de
1
escolaridad E, a través de 𝑝 = 1+𝑒 −0.04𝐸 , 𝐸 = 5, 10, 15.
Dado que Ud. entrevista a un trabajador de este mercado y resulta que tiene empleo estable ¿Qué nivel de
escolaridad sería más razonable imputarle? ¿Por qué?
Solución:
Sabemos que la persona tiene empleo estable y nos preguntamos por su escolaridad, que puede ser de cinco,
diez o quince años. Aunque no podemos decir con seguridad cuál es la escolaridad, sí podemos identificar
la más probable, que sería entonces nuestra mejor conjetura.
Como dato, tenemos una fórmula general que condiciona la estabilidad del empleo a la escolaridad, vía
1
𝑝 = 1+𝑒 −0.04𝐸, donde E puede valer 5, 10 o 15.
Sean los eventos:
𝐴1 = “Escolaridad de cinco años”; 𝐴2 = “Escolaridad de diez años”; 𝐴3 = “Escolaridad de quince años” y
𝐵 = “Empleo estable”.
Necesitamos calcular 𝑃(𝐴𝑘 |𝐵) para k = 1, 2, 3 y determinar cuál es mayor.
𝑃(𝐵|𝐴𝑘 )𝑃(𝐴𝑘 )
Según el Teorema de Bayes 𝑃(𝐴𝑘 |𝐵) = ∑
𝑗 𝑃(𝐵|𝐴𝑗 )𝑃(𝐴𝑗 )
∀𝑘
Ahora bien, de acuerdo con los datos y aplicando la fórmula general de las probabilidades condicionales
del empleo estable:
1
Si ocurre 𝐴1  𝐸 = 5  𝑃(𝐵|𝐴1 ) = 1+𝑒 −0.04×5 = 0.55;
1
Si ocurre 𝐴2  𝐸 = 10  𝑃(𝐵|𝐴2 ) = 1+𝑒 −0.04×10 = 0.60
1
Si ocurre 𝐴3  𝐸 = 15  𝑃(𝐵|𝐴3 ) = 1+𝑒 −0.04×15 = 0.65
Por otra parte 𝑃(𝐴1 ) = 0.20; 𝑃(𝐴2 ) = 0.70 y 𝑃(𝐴3 ) = 0.10; evaluando tenemos:
𝑃(𝐵) = ∑ 𝑃(𝐵|𝐴𝑗 )𝑃(𝐴𝑗 ) = 𝑃(𝐵|𝐴1 )𝑃(𝐴1 ) + 𝑃(𝐵|𝐴2 )𝑃(𝐴2 ) + 𝑃(𝐵|𝐴3 )𝑃(𝐴3 ) =
𝑗
0.2 × 0.55 + 0.7 × 0.6 + 0.1 × 0.65 = 0.595; luego:
0.2×55
0.7×0.60
0.1×0.65
𝑃(𝐴1 |𝐵) = 0.595 = 0.18; 𝑃(𝐴2 |𝐵) = 0.595 = 0.71 y 𝑃(𝐴3 |𝐵) = 0.595 = 0.11
Comparando probabilidades, la escolaridad más razonable para esta persona es 10 años.
Ejemplo 25
Una crisis en el gabinete de ministros puede encontrar a un agente económico con "liquidez" o sin ella. Si
tiene liquidez puede comprar dólares con 60% de probabilidad. La probabilidad de que el agente econó𝑀
mico tenga liquidez es 𝑝 y depende del Interés bancario 𝐼 y la Inflación 𝑀 a través de 𝑝 = 𝐼+𝑀. Se acaba
de producir una crisis.
30
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
a) ¿Con qué probabilidad comprará dólares un agente económico si se iguala interés con inflación?
b) Se sabe que, al pasar la crisis ministerial, el agente puede retener todos sus dólares o los vende
totalmente o vende una parte de ellos. Y se calcula que la probabilidad del primer evento duplica la de
cada uno de los otros dos. Ha pasado una crisis ministerial y Ud. observa a un agente ¿Carecerá de
dólares? Si carece de dólares ¿Tuvo liquidez antes de la crisis? Asuma que antes de la crisis la inflación era el 80% del interés bancario.
Solución:
a) Sean los eventos L = “Agente tiene liquidez (dinero) y D = “Agente compra dólares”, entonces de los
datos tenemos 𝑃(𝐿) = 𝑝, 𝑃(𝐿𝐶 ) = 1 − 𝑝 y 𝑃(𝐷|𝐿) = 0.6, 𝑃(𝐷𝐶 |𝐿) = 0.4; naturalmente 𝑃(𝐷|𝐿𝐶 ) =
0 pues si el agente no tiene dinero no puede comprar nada. Por complemento 𝑃(𝐷𝐶 |𝐿𝐶 ) = 1.
Un diagrama de árbol como el de la figura 1,
ayuda a ordenar y aclarar la información; las
probabilidades figuran debajo de los eventos y son
probabilidades condicionales a los eventos que
preceden en el diagrama de izquierda a derecha:
𝑀
En el contexto anterior y de los datos: 𝑝 =
y si se
𝐼+𝑀
𝑀
iguala interés con inflación entonces 𝑝 =
= 0.5 y
𝑀+𝑀
𝑃(𝐷) = 𝑃(𝐿 ∩ 𝐷) = 𝑃(𝐷|𝐿)𝑃(𝐿) = 0.6 × 0.5 = 0.3
Figura 1 Diagrama de árbol sobre compra de
dólares
b) Aquí el diagrama de árbol se debe ampliar para incluir nueva información:
En este caso se agregan eventos “post crisis”, que
son 𝑅 = “Retiene sus dólares”, 𝑉 = “Vende una
parte” y 𝑇 = “Vende totalmente sus dólares”.
Si 𝑥 es la probabilidad (condicional) de cada uno
de los dos últimos eventos, entonces la probabilidad del primer evento (retener los dólares) es
1
2𝑥 y se cumple 2𝑥 + 𝑥 + 𝑥 = 1, luego 𝑥 = 4 .
El diagrama de árbol de la figura 2 ilustra lo
escrito líneas arriba. Falta hallar 𝑝 para tener la
información completa. Como la inflación era el
𝑀
80% del interés bancario, entonces 𝑝 = 𝐼+𝑀 =
Figura 2 Eventos “post crisis”
0.8𝐼
= 0.44
Sea ahora 𝐾 = “Agente no tiene dólares actualmente”, siguiendo en el árbol la secuencia de
sucesivos eventos que en conjunto componen 𝐾, tenemos:
𝐾 = (𝐿𝐶 ∩ 𝐷𝐶 ) ∪ (𝐿 ∩ 𝐷 𝐶 ) ∪ (𝐿 ∩ 𝐷 ∩ 𝑇) ⇒ 𝑃(𝐾) = 𝑃(𝐿𝐶 ∩ 𝐷𝐶 ) + 𝑃(𝐿 ∩ 𝐷 𝐶 ) + 𝑃(𝐿 ∩ 𝐷 ∩ 𝑇)
= 𝑃(𝐷𝐶 |𝐿𝐶 )𝑃(𝐿𝐶 ) + 𝑃(𝐷 𝐶 |𝐿)𝑃(𝐿) + 𝑃(𝑇|𝐿 ∩ 𝐷)𝑃(𝐷|𝐿)𝑃(𝐿) =
1 × (1 − 𝑝) + 0.4 × 𝑝 + 0.25 × 0.6 × 𝑝 = 1 − 0.45𝑝 =
⏟ 0.802; carecerá de dólares con 80.2%
𝐼+0.8𝐼
𝑝=0.44
de probabilidad, podemos pronosticar que esto sí ocurrirá.
Finalmente, se pregunta por 𝑃(𝐿|𝐾):
𝑃(𝐿|𝐾) =
𝑃(𝐿∩𝐷∩𝑇)+𝑃(𝐿∩𝐷 𝐶 )
𝑃(𝐾)
=
0.25×0.6×𝑝+0.4×𝑝
1−0.45𝑝
0.242
= 0.802 = 0.302 < 0.5; no tenía liquidez antes de la
crisis.
31
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
1.6 Casos Especiales de asignación de Probabilidades
Examinaremos algunas formas de asignación de probabilidades que siendo compatibles con el sistema de
Kolmogorov, serán de utilidad en el futuro.
1.6.1 Probabilidad Geométrica
Sea un experimento aleatorio  consistente en tomar un punto al azar de un conjunto geométrico 𝑆 que tiene
una medida 𝑚(𝑆) y sea 𝐴 un evento del espacio muestral resultante. Si 𝑚(𝐴) denota la medida de este
𝑚(𝐴)
evento, entonces la probabilidad de 𝐴 es 𝑃(𝐴): = 𝑚(𝑆)
Observaciones:
(1) Si S es un intervalo, la “medida” m es la longitud; si S es una región de R2 donde está definida un
área, la “medida” es el área.
(2) Se trata de una extensión de la definición clásica, que aparece en situaciones especiales, como lanzar
un dardo sobre un blanco o tomar un punto al azar de un segmento.
Ejemplo 26
Dos proveedores se han presentado a un concurso de precios. Del proveedor A se sabe que puede ofrecer
el bien a un precio que estará indistintamente entre 1 y 10 dólares; del proveedor B se sabe que su precio
podría estar indistintamente entre 1 y 5 dólares. Sin más información y asumiendo un experimento aleatorio:
a)
b)
c)
d)
Describa el espacio muestral S asociado al experimento
Calcule la probabilidad de que A resulte ganador
Calcule la probabilidad de que el precio ganador no pase de US$ 3
¿Esperaría Ud. que A superara a B en dos o más dólares?
Solución:
a) El experimento consiste en observar los precios ofrecidos por A y B. De este modo, si X = Precio
ofrecido por A e Y = Precio ofrecido por B, entonces 𝑆 = {(𝑥, 𝑦)|1 ≤ 𝑥 ≤ 10,1 ≤ 𝑦 ≤ 5}.
Geométricamente 𝑆 es un rectángulo en el plano 𝑋𝑌, esto es, S tiene área. Por tanto, la probabilidad de un
evento E se puede definir como cociente de áreas y así tenemos:
𝑨𝒓𝒆𝒂(𝑬)
𝑷(𝑬) = 𝑨𝒓𝒆𝒂(𝑺)  𝐸 evento de 𝑆
b) Sea A = “A resulta ganador”  𝐴 = {(𝑥, 𝑦) ∈ 𝑆|𝑥 < 𝒚}, pues como se trata de proveedores, gana quien
ofrece menor precio. Graficando A, resulta ser la parte de S que está arriba de la recta identidad y=x.
Y
y=x
5
A
1
1
5
10 X
Fig. 1.1 Evento A en espacio S
S tiene𝐴𝑟𝑒𝑎 = 𝑏𝑎𝑠𝑒 × 𝑎𝑙𝑡𝑢𝑟𝑎 = (10 − 1) × (5 − 1) = 36; A es un triángulo y tiene área: 𝐴𝑟𝑒𝑎 =
𝑏𝑎𝑠𝑒 × 𝑎𝑙𝑡𝑢𝑟𝑎/2 = (5 − 1) × (5 − 1)/2 = 8
𝐴𝑟𝑒𝑎(𝐴)
(4×4/2)
8
La probabilidad de A es entonces:𝑃(𝐴) = 𝐴𝑟𝑒𝑎(𝑆) = 9×4 = 36 = 0.22
32
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
c) Si C = “El precio ganador no pasa de US$ 3”  𝐶 = {(𝑥, 𝑦) ∈ 𝑆|𝑀í𝑛{𝑥, 𝑦} ≤ 3} y
𝑃(𝐶) = 1 − 𝑃(𝐶 𝐶 ). Como 𝐶 𝐶 = {(𝑥, 𝑦) ∈ 𝑆|𝑀í𝑛{𝑥, 𝑦} > 3} = {(𝑥, 𝑦) ∈ 𝑆|(𝑥 > 3) ∩ (𝑦 > 3)}
Y
5
CC
3
C
1
1
3
10 X
Fig. 1.2 Evento CC en espacio S
Tenemos:
𝐴𝑟𝑒𝑎 𝐶 𝐶 = 𝑏𝑎𝑠𝑒 × 𝑎𝑙𝑡𝑢𝑟𝑎 = (10 − 3) × (5 − 3) = 14; 𝑃(𝐶 𝐶 ) = 14/36 = 0.39 y 𝑷(𝑪) = 𝟏 − 𝟎. 𝟑𝟗 =
𝟎. 𝟔𝟏
d) Si D =“A supera a B en dos o más dólares”  𝐷 = {(𝑥, 𝑦) ∈ 𝑆|𝑥 ≥ 𝑦 + 2}, pues en el caso de la
igualdad exacta (A supera a B en dos dólares) esta equivale a decir que a 𝑌 tendríamos que sumarle 2 para
que alcance a 𝑋, esto es 𝑋 = 𝑌 + 2 (𝑜 𝑌 = 𝑋 − 2)  en caso de desigualdad: 𝑋 excede a 𝑌 en 2 o más:
𝑋 ≥ 𝑌 + 2 (𝑜 𝑌 ≤ 𝑋 − 2). Graficando tenemos que D es el trapecio dibujado abajo. Descomponiéndolo
en un triángulo y un rectángulo para hallar su área:
Y
y=x-2
5
3
D
1
1 2 3
7 10 X
Fig. 1.3 Evento D en espacio S
Area del triángulo = (7-3) × 4/2 = 8; Area del rectángulo = (10-7) × 𝟒 = 12; Area total = 20 y
𝑃(𝐷) = 20/36 = 0.56 > 0.5, luego, podemos esperar que el evento D sí ocurrirá
Ejemplo 27
En la privatización de una empresa pública sólo hay dos postores A y B de los cuales sólo se sabe que
pueden ofrecer entre 0 y 1 millón de unidades monetarias por la empresa. Sin más información, describa
el espacio muestral S asociado al proceso de observar los precios ofrecidos y determine la probabilidad de
que el perdedor ofrezca un precio mayor a 0.75 millones
Solución:
ε = Observar los precios ofrecidos. Si a es el precio de A y b es el precio de B, entonces:
𝑆 = {(𝑎, 𝑏)|0 < 𝑎 ≤ 1; 0 < 𝑏 ≤ 1} que es un cuadrado unitario.
Se puede tratar el proceso como seleccionar un punto al azar del conjunto 𝑆 que tiene área, de modo que
𝐴𝑟𝑒𝑎(𝐸)
podemos aplicar probabilidad geométrica: si 𝐸 es un evento de 𝑆, entonces 𝑃(𝐸) =
.
𝐴𝑟𝑒𝑎(𝑆)
33
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Sea 𝑀= “El perdedor ofrece un precio mayor a 0.75 millones”,
entonces, como el perdedor es quien ofrece el menor precio:
𝑀 = {(𝑎, 𝑏) ∈ 𝑆|𝑀í𝑛{𝑎, 𝑏} > 0.75}
= {(𝑎, 𝑏) ∈ 𝑆|(𝑎 > 0.75) ∩ (𝑏 > 0.75)}
Entonces
𝐴𝑟𝑒𝑎(𝑀)
0.25×0.25
𝑃(𝑀) = 𝐴𝑟𝑒𝑎(𝑆) = 1×1 = 0.0625 o 6.25%
b
1
M
0.75
𝑎, 𝑏)
0
0.75
1
a
Observación:
𝑨𝒓𝒆𝒂 (𝒂=𝒃)
𝑷(𝑨 𝒚 𝑩 𝒄𝒐𝒊𝒏𝒄𝒊𝒅𝒂𝒏) = 𝑷({𝒂 = 𝒃}) =
=𝟎y
𝟏×𝟏
𝑃(𝐸𝑙 𝑔𝑎𝑛𝑎𝑑𝑜𝑟 𝑜𝑓𝑟𝑒𝑐𝑒 0.75 𝑜 𝑚𝑒𝑛𝑜𝑠) =
𝑃(𝑀á𝑥{𝑎, 𝑏} ≤ 0.75) = 𝑃((𝑎 ≤ 0.75) ∩ (𝑏 ≤ 0.75)) =
0.75 × 0.75
= 0.752 = 0.5625
1×1
1.6.2 Probabilidad en Espacios Numerables
Sea 𝑆 = {𝑤1 , 𝑤2 , . . . , 𝑤𝑘 , . . . } un espacio muestral infinito numerable. Una asignación de probabilidades
compatible con los axiomas es una asignación de la forma 𝑃({𝑤𝑘 }) = 𝑝𝑘 𝑠𝑖 𝑘 = 1, 2, 3, … donde
𝑝𝑘 ≥ 0 𝑦 ∑∞
𝑘=1 𝑝𝑘 = 1.
Ejemplo 28
Sea 𝑆 = {𝑤1 , 𝑤2 , … , 𝑤𝑘 , … } espacio muestral tal que 𝑃({𝑤𝑘 }) = 𝑟 𝑘 . Hallar el valor de r para que la
asignación de probabilidades sea correcta según la definición axiomática.
Solución:
∞
𝑘
En este caso tenemos 𝑝𝑘 = 𝑟 𝑘 ≥ 0 ⇒ 𝑟 ≥ 0 y como ∑∞
𝑘=1 𝑝𝑘 = 1 ⇒ 0 < 𝑟 < 1, por tanto ∑𝑘=1 𝑟 = 1 es
𝑘
la condición para 𝑟, y nuestro problema es calcular la suma infinita ∑∞
𝑘=1 𝑟 , igualarla a 1 y despejar r.
∞
𝑁
𝑘
𝑘
𝑘
Podemos escribir ∑𝑘=1 𝑟 = 𝑙𝑖𝑚 ∑𝑘=1 𝑟 y el cálculo de la suma finita ∑𝑁
𝑘=1 𝑟 es algo estándar (se
𝑁→∞
trata de la suma de los N primeros términos de una progresión geométrica de razón r):
𝑘
2
3
𝑁−1
Sea 𝑆𝑁 : = ∑𝑁
+ 𝑟 𝑁 , multiplicando 𝑆𝑁 por 𝑟 obtenemos
𝑘=1 𝑟 ⇒ 𝑆𝑁 : = 𝑟 + 𝑟 + 𝑟 + ⋯ + 𝑟
𝑟𝑆𝑁 : = 𝑟 2 + 𝑟 3 + 𝑟 4 + ⋯ + 𝑟 𝑁 + 𝑟 𝑁+1 .
Restando 𝑆𝑁 − 𝑟𝑆𝑁 = (𝑟 + 𝑟 2 + 𝑟 3 + ⋯ + 𝑟 𝑁−1 + 𝒓𝑵 ) − (𝑟 2 + 𝑟 3 + 𝑟 4 + ⋯ + 𝒓𝑵 + 𝑟 𝑁+1 ) = 𝑟 − 𝑟 𝑁+1
𝑘
𝑁+1
y entonces 𝑆𝑁 (1 − 𝑟) = 𝑟 − 𝑟 𝑁+1 ⇒ 𝑆𝑁 = ∑𝑁
)/(1 − 𝑟).
𝑘=1 𝑟 = (𝑟 − 𝑟
∞
𝑁
𝑘
𝑘
𝑘
Aplicando la condición ∑∞
𝑘=1 𝑟 = 1: ∑𝑘=1 𝑟 = 𝑙𝑖𝑚 ∑𝑘=1 𝑟 = 1 ⇒ 𝑙𝑖𝑚 𝑆𝑁 = 𝑙𝑖𝑚
0 < 𝑟 < 1 ⇒ 𝑙𝑖𝑚 𝑟 𝑁+1 = 0 ⇒ 𝑙𝑖𝑚
𝑁→∞
𝑁→∞
(𝑟−𝑟 𝑁+1 )
(1−𝑟)
𝑁→∞
𝑟
𝑁→∞
𝑟
Serie geométrica
Serie geométrica 2
𝑘
∑∞
𝑘=1 𝑟
𝑘
∑∞
𝑘=0 𝑟
𝑟−𝑟 𝑁+1
1−𝑟
𝑟
= 1−𝑟
(1−𝑟)
1
= (1−𝑟). Llegamos así a (1−𝑟) = 1 ⇒ 𝑟 = 2.
Nota:
𝑘
Suma geométrica ∑𝑁
𝑘=1 𝑟 =
𝑁→∞
(𝑟−𝑟 𝑁+1 )
0<𝑟<1
0<𝑟<1
𝑟
1
𝑘
= 1 + ∑∞
𝑘=1 𝑟 = 1 + 1−𝑟 = 1−𝑟
𝟏
𝒌−𝟏
Derivada de la serie geométrica: ∑∞
= (𝟏−𝒓)
𝒌=𝟏 𝒌𝒓
34
𝟐
0<𝑟<1
= 1; pero
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
1.6.3 Probabilidad Clásica y Técnicas de Conteo
La definición clásica requiere que podamos contar la cantidad de elementos que tienen tanto S como el
evento A cuya probabilidad queremos calcular. Para hacer esto, la enumeración o conteo directo es por lo
general un sistema ineficiente y por ello pasaremos revista a ciertas técnicas de conteo rápido.
A. Dos Principios Básicos
• Principio de la Multiplicación
Si una ‘operación’ A puede realizarse u ocurrir de a maneras diferentes y otra ‘operación’ B puede realizarse
de b maneras diferentes, entonces la operación compuesta (AB) consistente en realizar A primero y luego
realizar B, se puede realizar de (a×b) maneras distintas.
• Principio de la Adición
Si una ‘operación’ A puede realizarse u ocurrir de a maneras diferentes y otra ‘operación’ B puede realizarse
de b maneras diferentes, siendo ambas operaciones excluyentes, entonces la operación compuesta (AB)
consistente en realizar A o realizar B pero no ambas, se puede realizar de (a+b) maneras distintas.
Ejemplo 29
Sean A = Comprar uno de cinco libros texto de Estadística; y B = Comprar uno de tres libros texto de
Microeconomía;
Si se piensa comprar un libro de Estadística y uno de Microeconomía, hay 5×3 = 15 maneras de hacerlo.
Si sólo se va a comprar un libro, entonces hay (5+3) = 8 maneras de hacerlo.
B. Permutaciones y Combinaciones
Sea un conjunto 𝐿 = {𝑒1 , 𝑒1 , … , 𝑒𝑛 } con n elementos y sea r un entero fijo, conocido y no mayor que n.
Definición de Permutación de tamaño r
Una Permutación de tamaño r, formada a partir de los n elementos de L, es un ‘arreglo’ de r elementos de
L donde se distingue o impone un orden entre ellos, sin repetición de elementos. Por ejemplo:
(𝑒1 , 𝑒2 , … , 𝑒𝑟 ); (𝑒𝑟 , 𝑒2 , … , 𝑒1 ); (𝑒2 , 𝑒1 , … , 𝑒𝑟 ) son tres permutaciones distintas (en el orden).
Definición de Combinación de tamaño r
Una Combinación de tamaño r, formada a partir de los n elementos de L, es un subconjunto de r
elementos de L. Por ejemplo: {𝑒1 , 𝑒2 , … , 𝑒𝑟 } es una combinación.
Ejemplo 30
• Si L={A, B, C, D} (𝑛 = 4) y tomamos 𝑟=3 entonces algunas ‘permutaciones de tamaño 𝑟=3’ son:
(A,B,C); (A,C,B); (A,C,D); (D,C,B). Nótese que hay más permutaciones; sólo hemos escrito cuatro de
ellas.
• Si L={A,B,C,D} y tomamos 𝑟=3 entonces algunas ‘combinaciones’ de tamaño 𝑟=3’ son: {A,B,C};
{A,C,D} . Nótese que hay más combinaciones y sólo hemos escrito dos de ellas. Observe además que
de la combinación {A,B,C} podemos formar seis permutaciones del mismo tamaño, con la misma
composición pero con diferentes órdenes. A saber: (A,B,C); (A,C,B); (C,A,B); (C,B,A); (B,A,C) y
(B,C,A). Se deduce que en general el número de combinaciones es menor que el número de
permutaciones.
Observaciones:
(1) Informalmente, una permutación es una “cola” o “vector” de r objetos y una combinación es una
colección de r objetos
(2) En las permutaciones importa el orden; en la combinaciones no importa el orden
35
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Factorial de un entero.
Si N es un entero positivo, el “Factorial de N”, denotado 𝑵! se define mediante
𝑁!: = 𝑁 × (𝑁 − 1) × (𝑁 − 2) ×. . .× 3 × 2 × 1. Adicionalmente definimos 0! = 1
Proposición 1
En el contexto de las definiciones anteriores, si denotamos mediante 𝑃𝑟𝑛 el número total de Permutaciones
𝑛!
de tamaño 𝑟 que se puede formar a partir de un conjunto con 𝑛 elementos, entonces 𝑃𝑟𝑛 = (𝑛−𝑟)! .
Demostración
Sea el conjunto base con 𝒏 elementos 𝐿 = {𝑒1 , 𝑒2 , … , 𝑒𝑛 }; tomaremos 𝑟 de ellos para formar un vector o
una “cola” de tamaño 𝑟: (⨆1 , ⨆2 , ⨆𝟑 , … , ⨆𝑟−1 , ⨆𝑟 ) donde ⨆1 es primer lugar por llenar, ⨆2 el segundo
lugar, ⨆3 el del tercer lugar, etc. En este contexto, la “operación” formar la cola de tamaño 𝑟 se puede
desagregar (artificialmente) como 𝑟 operaciones sucesivas:
𝐴1 = “Colocar un elemento cualquiera de L en ⨆1 ; 𝐴2 = “Colocar un elemento cualquiera de L en ⨆2 ;
𝑨𝟑 = “Colocar un elemento cualquiera de L en ⨆𝟑 , etc.
Formar la cola de tamaño 𝑟 equivale a realizar 𝐴1 , luego 𝐴2 , etc.
𝐴1 se puede hacer de 𝑛 maneras, tomando un elemento de L y poniéndolo en ⨆1 , después de esto
𝑨𝟐 se puede hacer de (𝒏 − 𝟏) maneras, tomando un elemento de los (𝑛 − 1) que quedan en L y
poniéndolo en ⨆2 (el elemento que se puso en ⨆1 ya no está en L), después de llenar ⨆2,
𝐴3 se puede hacer de (𝑛 − 2) maneras, pues ya sólo quedan (𝑛 − 2) elementos en L y poniendo el
elemento seleccionado para ⨆3 , después de 𝐴3 en L sólo quedan (𝑛 − 3) elementos, y así sucesivamente,
hasta que toca asignar un elemento para el último lugar de la cola, el r-ésimo lugar. Como antes ya se ha
llenado ⨆𝑟−1 , en L quedan 𝑛 − (𝑟 − 1) = 𝑛 − 𝑟 + 1 elementos, por tanto, la última operación 𝐴𝑟 se
puede realizar de 𝑛 − 𝑟 + 1 maneras. Aplicando el principio de multiplicación r veces, el número total de
“colas” o permutaciones de tamaño 𝑟 es 𝑃𝑟𝑛 = 𝑛 × (𝑛 − 1) × (𝑛 − 2) × … × (𝑛 − (𝑟 − 1)) =
𝑛 × (𝑛 − 1) × (𝑛 − 2) × … × (𝑛 − 𝑟 + 1) Una manera de representar el proceso descrito es:
𝑛
𝑛−1 𝑛−2
𝑛−(𝑟−1)
⏞1 , ⏞
⏞𝑟 ).
(⨆
⨆2 , ⏞
⨆3 , … , ⨆𝑟−1 , ⨆
𝑛
Regresando a 𝑃𝑟 se ve que es como un factorial incompleto, y mediante un artificio podemos representar
𝑃𝑟𝑛 de manera algo más sencilla:
𝑷𝒏𝒓 = 𝑛 × (𝑛 − 1) × (𝑛 − 2) × … × (𝑛 − 𝑟 + 1) =
𝑛 × (𝑛 − 1) × (𝑛 − 2) × … × (𝑛 − 𝑟 + 1) × (𝑛 − 𝑟) × (𝑛 − 𝑟 − 1) × … × 2 × 1
𝑛!
=
⇒
(𝑛 − 𝑟) × (𝑛 − 𝑟 − 1) × … × 2 × 1
(𝑛 − 𝑟)!
𝒏!
𝑷𝒏𝒓 = (𝒏−𝒓)!, como dice el enunciado de esta proposición 1.
Nota: El total de permutaciones de tamaño r lo denotaremos 𝑃𝑟𝑛 o 𝑛𝑃𝑟
Proposición 2
En el contexto de las definiciones anteriores, si denotamos mediante 𝐶𝑟𝑛 el número total de Combinaciones
𝑛!
de tamaño 𝑟 que se puede formar a partir de un conjunto con 𝑛 elementos, entonces 𝐶𝑟𝑛 = (𝑛−𝑟)!𝑟! .
Demostración
Primero notemos que si tomamos una combinación cualquiera de tamaño 𝑟, ésta genera 𝑟! permutaciones
distintas (sólo en orden) de tamaño 𝑟. En efecto, basta repetir el razonamiento de la proposición 1.
Tomemos una combinación cualquiera, digamos: {𝑒1 , 𝑒2 , … , 𝑒𝑟 }; si con estos 𝑟 elementos específicos formamos vectores o colas de tamaño 𝑟: (⨆1 , ⨆𝟐 , ⨆3 , … , ⨆𝑟−1 , ⨆𝑟 ) tenemos:
En el 1er lugar ⨆1 de la cola, podemos poner a cualquiera de los r elementos de {𝑒1 , 𝑒1 , … , 𝑒𝑟 },
En el 2do lugar ⨆𝟐 de la cola, podemos poner a cualquiera de los (𝒓 − 𝟏) elementos restantes,
En el 3er lugar ⨆𝟑 de la cola, podemos poner a cualquiera de los (𝒓 − 𝟐) elementos restantes, etc.
Entonces el número de permutaciones o colas que genera esta única combinación es:
36
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝒓 × (𝒓 − 𝟏) × (𝒓 − 𝟐) × … × 𝟐 × 𝟏 = 𝒓! permutaciones distintas sólo en el orden.
Tomando otra combinación cualquiera, distinta de la anterior, también podemos generar otras 𝑟! permutaciones. Lo anterior implica que hay una proporcionalidad entre el número total 𝑃𝑟𝑛 de permutaciones de
tamaño 𝑟 y el número total de combinaciones 𝐶𝑟𝑛 de tamaño 𝑟 (note además que 𝐶𝑟𝑛 < 𝑃𝑟𝑛 )
En segundo lugar, observemos que el conjunto total de Combinaciones de tamaño 𝑟 genera el conjunto
total de Permutaciones de tamaño 𝑟.
Entonces podemos hacer una regla de tres simple:
Una combinación de tamaño 𝑟 genera → 𝒓! permutaciones
El número total de 𝒙 = 𝐶𝑟𝑛 combinaciones de tamaño 𝑟 genera → El número total 𝑷𝒏𝒓 de
permutaciones
(aquí la “incógnita” es 𝑥 = 𝐶𝑟𝑛 ).
Por tanto 𝑪𝒏𝒓 =
𝑷𝒏
𝒓
𝒓!
=
𝑛!
(𝑛−𝑟)!
𝑟!
𝒏!
= (𝒏−𝒓)!𝒓! como se afirma en el enunciado de la proposición 2
𝒏
Nota: El número 𝑪𝒏𝒓 o 𝒏𝑪𝒓 también se escribe ( ) y se llama ‘número combinatorio’.
𝒓
𝐶𝑟𝑛 tiene algunas propiedades como:
𝑛
• 𝐶𝑟𝑛 =𝐶𝑛−𝑟
(pues tomar 𝑟 elementos del total de 𝑛 implica dejar (𝑛 − 𝑟) elementos en el conjunto L)
𝑛−1
𝑛
• 𝐶𝑟 = 𝐶𝑟−1
+𝐶𝑟𝑛−1
• (𝑎 + 𝑏)𝑛 = ∑𝑛𝑗=0 𝐶𝑗𝑛 𝑎 𝑗 𝑏 𝑛−𝑗 (El Binomio de Newton)
Ejemplo 31
Un ascensor con siete pasajeros pasa por diez pisos. Los pasajeros salen del ascensor necesariamente en
algún piso. ¿Saldrán todos en pisos distintos?
Solución:
Como cada pasajero tiene 10 pisos para salir, tenemos:
7 𝑣𝑒𝑐𝑒𝑠
𝑛(𝑆) = ⏞
10 × 10 × … × 10 = 107
Sea A = “Los pasajeros salen todos en pisos distintos”. Entonces
El primer pasajero tiene 10 pisos para elegir. El siguiente sólo tiene 9 pisos para elegir porque no puede
salir con el primero. El tercer pasajero en salir tiene 8 pisos para elegir (porque no puede salir con
ninguno de los dos primeros) y así sucesivamente. O sea
𝑷𝟏𝟎
𝑛(𝐴) = 10 × 9 × 8 … × 4 = 𝑃710 = 604,800 y 𝑷(𝑨) = 𝟏𝟎𝟕𝟕 = 𝟎. 𝟎𝟔𝟎𝟒𝟖 < 𝟎. 𝟓 No es probable que
salgan en pisos todos distintos.
Ejemplo 32
Un economista genera un ranking de las tres empresas que considera con mejores perspectivas para el año
actual, a partir de la lista de las diez empresas que tuvieron mayores utilidades el año pasado, digamos las
empresas A1, A2, …, A10.
Las empresas A1, A7 y A5 forman parte de la corporación ABEP. En este contexto, usando probabilidad
clásica y principios básicos de conteo, calcule la probabilidad de que:
a) ABEP cope el ranking confeccionado por el economista.
b) ABEP figure en el ranking.
c) ABEP ocupe los puestos primero y tercero del ranking
37
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Solución:
S = {(x1, x2, x3) | xi {A1, A2, …, A10}, x1  x2  x3}. La restricción x1  x2  x3 es natural pues una misma
empresa no puede estar en dos puestos del ranking a la vez.
Aplicando el Principio de multiplicación:
𝑛(𝑆) = 10 × 9 × 8: pues hay diez maneras de asignar una empresa al primer lugar (x1) y nueve maneras de
asignar una empresa al segundo lugar (x2) y ocho maneras de asignar una empresa al tercer lugar (x3)
a) Sea A el evento A = “ABEP copa el ranking”, entonces para que eso ocurra, el economista debe
haber seleccionado para los tres puestos sólo empresas de la corporación ABEP, o sea, debe haber
seleccionado sólo entre A1, A7 y A5.
Aplicando el Principio de multiplicación a este caso:
𝑛(𝐴) = 3 × 2 × 1: pues hay tres maneras de asignar una empresa de ABEP al primer lugar (x1) y luego hay
dos maneras de asignar una empresa al segundo lugar (x2) y hecho esto, ya sólo queda una manera de
asignar una empresa de ABEP al tercer lugar (x3). Entonces, la probabilidad pedida es:
𝑃(𝐴) =
𝑛(𝐴)
3×2×1
1
=
=
= 0.0083
𝑛(𝑆) 10 × 9 × 8 120
b) Si B = “ABEP figura en el ranking”, en este caso es mejor calcular 𝑃(𝐵) = 1 − 𝑃(𝐵𝐶 ) y como
𝑃(𝐵𝐶 ) =
𝑛(𝐵𝐶 )
7×6×5
210 21
21 51
=
=
=
⇒ 𝑃(𝐵) = 1 −
=
= 0.708
𝑛(𝑆)
10 × 9 × 8 720 72
72 72
c) Si definimos D = “ABEP ocupa los puestos primero y tercero del ranking” entonces
𝑃(𝐷) =
𝑛(𝐷)
3×𝟕×2
7
=
=
= 0.0583
𝑛(𝑆) 10 × 9 × 8 120
Ejemplo 33
Veinte consumidores llegan a un mercado para comprar un bien y en ese mercado hay cinco productores
del bien, digamos 𝑎1 , 𝑎2 , 𝑎3 , 𝑎4 y 𝑎5 . Cada consumidor elige al azar un productor para adquirir el bien.
¿Con qué probabilidad el productor 𝑎1 será elegido por ocho de los consumidores?
Solución:
El experimento aleatorio equivale a:
El consumidor 1 elige uno de los cinco productores: tiene cinco formas de hacer esto; el consumidor 2 elige
uno de los cinco productores: tiene cinco formas de hacer esto, pues incluso puede coincidir con el
consumidor 1, y así sucesivamente.
𝟐𝟎 𝒗𝒆𝒄𝒆𝒔
En el contexto anterior, aplicando el principio de multiplicación: 𝒏(𝑺) = ⏞
𝟓 × 𝟓 × … × 𝟓 = 520 .
Si 𝑪 = “El productor 𝒂𝟏 es elegido por ocho de los consumidores” entonces realizar este evento equivale
a realizar la operación A = Tomar ocho consumidores cualesquiera y asignarlos al productor 𝑎1 y luego
realizar la operación B = Distribuir los doce consumidores restantes entre los otros cuatro productores.
A puede realizarse de 𝑪𝟐𝟎
4 × 4 × … × 4 = 412 maneras y entonces
𝟖 × 𝟏 maneras; B puede realizarse de ⏟
𝑛(𝐶) = (𝐶820 × 1) × (412 ) = 𝐶820 412 , luego 𝑷(𝑪) =
𝒏(𝑪)
𝒏(𝑺)
=
12 𝑣𝑒𝑐𝑒𝑠
𝟏𝟐
𝑪𝟐𝟎
𝟒
𝟖
𝟓𝟐𝟎
En este caso, podemos escribir 𝑆 como 𝑆 = {(𝑥1 , 𝑥2 , 𝑥2 , 𝑥3 , 𝑥4 , 𝑥5 )|𝑥𝑖 = 0,1,2, … ,20; 𝑖 = 1,2, … ,5} donde
𝑥𝑖 es el número de consumidores que eligen al productor 𝑎𝑖 , con 𝑥1 + 𝑥2 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 = 20.
Análogamente 𝐶 = {(𝑥1 , 𝑥2 , 𝑥2 , 𝑥3 , 𝑥4 , 𝑥5 ) ∈ 𝑆|𝑥1 = 8, 𝑥𝑖 = 0,1,2, … ,20; 𝑖 = 2,3, … ,5} pero es más
fatigoso explicitar el espacio muestral y el evento 𝐶 que calcular directamente sus maneras de ocurrir.
Ejemplo 34
Si en una serie de diez días, en cada día el índice bursátil sólo puede subir o bajar, y se observan las
variaciones del índice. Asumiendo independencia, halle:
38
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
a) La probabilidad de que la cantidad de subidas cuadruplique la cantidad de bajadas.
b) La probabilidad de que X de los días sean de subida.
Solución:
Como cada día sólo hay dos opciones: subir (s) o bajar (b), el espacio S es S = {(d1,d2,…,d10)| di{s,b}} ,
formar un elemento del espacio muestral equivale a realizar diez “operaciones” sucesivas: colocar s o
𝑑𝑖𝑒𝑧 𝑣𝑒𝑐𝑒𝑠
b 𝒆𝒏 𝒄𝒂𝒅𝒂 𝒅𝒊 ⇒ 𝑛(𝑆) = ⏞
2 × 2 × … × 2 = 210
a) A := “# de subidas cuadruplica # de bajadas” = Hay 8 s y 2 b:
𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑜 8 𝑑𝑒
𝑙𝑜𝑠 10 𝑑í𝑎𝑠 𝑝𝑎𝑟𝑎 𝑠
𝑛(𝐴) =
10
⏞
𝐶
8
𝒍𝒐𝒔 𝒐𝒕𝒓𝒐𝒔 𝟐 𝒅í𝒂𝒔 𝒍𝒐𝒔 𝒉𝒂𝒈𝒐
𝒅𝒆 𝒃𝒂𝒋𝒂:"𝒃"
𝑒𝑠𝑐𝑟𝑖𝑏𝑜 "s" 𝑒𝑛 𝑐𝑎𝑑𝑎
𝑢𝑛𝑜 𝑑𝑒 𝑒𝑠𝑜𝑠 8 𝑑í𝑎𝑠
×
⏞
1
×
⏞
𝟏
= 𝐶810 , luego: 𝑃(𝐴) =
𝐶810
210
.
(
)
b) En el contexto anterior, si X = “X de los días son de subida”, entonces
#𝑚𝑎𝑛𝑒𝑟𝑎𝑠 =
𝑪𝟏𝟎
𝟏
𝑿 ×𝟏
×
𝑪𝟏𝟎
↓
𝑿
↓
↓
↓
𝑛(𝑋) =
y
𝑷(𝑿)
=
⏞ 𝑺𝒆𝒍𝒆𝒄𝒄𝒊𝒐𝒏𝒐 𝑿
𝟐𝟏𝟎
𝑬𝒏 𝒍𝒐𝒔 𝒙 𝒅í𝒂𝒔 𝒉𝒂𝒚 𝒔
⏞⏞
𝑦
⏞
𝑂𝑝𝑒𝑟𝑎𝑐𝑖ó𝑛 = 𝒅𝒆 𝒍𝒐𝒔 𝟏𝟎 𝒅í𝒂𝒔 𝒑𝒂𝒓𝒂 𝒔 𝒚 𝒆𝒏 𝒆𝒍 𝒓𝒆𝒔𝒕𝒐 𝒉𝒂𝒚 𝒃
Ejemplo 35
En una manzana hay 20 hogares, de los cuales 10 son de clase popular, 6 de clase media y 4 de clase
acomodada. En una encuesta se tomó al azar una muestra de 5 hogares de la manzana. Halle la
probabilidad de que:
a) En la muestra haya hogares de clase media.
b) En la muestra la mayoría de los hogares resulte de clase popular.
c) En la muestra haya dos hogares de clase popular, dos de clase media y uno de clase acomodada.
Solución:
Se trata de un experimento en donde se toma un subconjunto (una muestra) de cinco hogares del conjunto
mayor L=H1,H2,...,H20 de veinte hogares (n = 20) de la manzana. El espacio S es el conjunto de todas
las muestras posibles de tamaño 5 (o sea el conjunto de combinaciones de tamaño r = 5), pues sólo
importa identificar los hogares que debemos entrevistar y no el orden en que formemos la muestra, no hay
un orden especial. Además, como no tenemos razones para pensar que algunas muestras de hogares tienen
mayor opción de presentarse, podemos usar la definición clásica de probabilidad. Esto es:
𝑆 = {{𝒙𝟏 , 𝒙𝟐 , . . . , 𝒙𝟓 }|𝑥𝑖 ∈ 𝐿 ∧ 𝑥𝑖 ≠ 𝑥𝑗 𝑠𝑖
𝑖 ≠ 𝑗} y 𝑛(𝑆) = 𝐶520
a) Si 𝐴 =“En la muestra hay hogares de clase media” entonces:
𝐴𝐶 = “En la muestra no hay hogares de clase media” y 𝑃(𝐴) = 1 − 𝑃(𝐴𝐶 ). Luego 𝑛(𝐴𝐶 ) = 𝐶514 pues hay
10+4=14 hogares que no son de clase media y de ellos debo tomar la muestra de 5 hogares si deseo que
𝐶 14
ocurra 𝐴𝐶 . Finalmente tenemos 𝑃(𝐴) = 1 − 𝐶520. Si se contara directamente 𝑛(𝐴) se tendría
5
𝑃(𝐴) =
(𝐶16 × 𝐶414 ) + (𝐶26 × 𝐶314 ) + ⋯ + (𝐶56 × 𝐶014 )
𝐶520
b) Si 𝐵 = “La mayoría de hogares en la muestra son de clase popular”, eso equivale a que en la muestra
𝟏𝟎
hay al menos tres hogares de ese estrato; por tanto 𝑛(𝐵) = ⏟
𝐶310 × 𝐶210 + ⏟
𝐶410 × 𝐶110 + ⏟
𝑪𝟏𝟎
𝟓 × 𝑪𝟎 ,
𝑒𝑥𝑎𝑐𝑡𝑜 3 𝑑𝑒 𝑐.𝑝
donde:
39
𝑒𝑥𝑎𝑐𝑡𝑜 4 𝑑𝑒 𝑐.𝑝
𝑒𝑥𝑎𝑐𝑡𝑜 5 𝑑𝑒 𝑐.𝑝
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝐶310 =maneras
𝐶210 =maneras
de tomar 3 hogares de estrato popular,
de tomar otros 2 hogares del resto de
10
10
estratos, luego 𝐶3 × 𝐶2 es el número de maneras en que podemos tomar 3 hogares de clase popular y el
resto de la muestra en los otros estratos. Análogamente sucede con los siguientes sumandos y así se llega
a la probabilidad 𝑃(𝐵) =
𝐶310 ×𝐶210 +𝐶410 ×𝐶110 +𝐶510 ×𝐶010
𝐶520
b) Sea 𝐶 = “En la muestra hay dos hogares de clase popular, dos de clase media y uno de clase acomodada”,
entonces:
Hay 𝐶210 maneras de tomar 2 hogares de clase popular;
Hay 𝐶26 maneras de tomar 2 hogares de clase media;
Hay 𝐶14 maneras de tomar 2 hogares de clase popular.
Por tanto, 𝑛(𝐶) = 𝐶210 × 𝐶26 × 𝐶14 y 𝑃(𝐶) =
𝐶210 ×𝐶26 ×𝐶14
𝐶520
Ejemplo 36
Un sistema de seguridad posee un código de entrada de 8 casillas con las 2 primeras blancas, las 3
siguientes negras y las 3 últimas rojas. Asuma que Ud. sabe la cantidad de colores pero desconoce el
código e intenta adivinarlo: ¿Cree que logrará hacerlo en un intento? Use probabilidades para responder.
Solución:
𝑆 es el conjunto de todos los códigos posibles conformados por dos letras B, tres N y tres R. Formar un
código equivale a seleccionar lugares para las letras, dentro de los 8 que forman el código:
Hay 𝐶28 maneras de seleccionar dos de los ocho lugares para colocar las 2 B
Hay 𝑪𝟔𝟑 maneras de seleccionar tres de los seis lugares restantes para colocar las 3 N
Hay 𝑪𝟑𝟑 maneras de seleccionar tres de los tres lugares restantes para colocar las 3 R.
1
𝟏
Finalmente 𝑛(𝑆) = 𝐶28 𝐶36 𝐶33 y 𝑃(𝐴𝑐𝑒𝑟𝑡𝑎𝑟) = 𝐶 8 𝐶 6 𝐶 3 = 𝟓𝟔𝟎 = 𝟎. 𝟎𝟎𝟏𝟖 que es casi cero: No se logrará
2 3 3
adivinar la clave en un intento.
Ejemplo 37
En el mercado de un bien con 6 productores se sabe que al menos hay dos coaliciones y un organismo de
regulación se interesa por el estado del mercado. Halle la probabilidad de que el mercado esté formado
por dos coaliciones, cada una con tres empresas.
Solución:
En este contexto, y si no hay otra información, el experimento aleatorio  consiste en observar el estado
del mercado, que puede darse de las siguientes maneras:
a) Dos coaliciones de 2 empresas cada una y las otras empresas libres, o
b) Dos coaliciones, una de 2 empresas y la otra de 3, con la empresa restante libre, o
c) Dos coaliciones, una de 2 empresas y la otra de 4 o
d) Dos coaliciones, cada una con tres empresas, o finalmente,
e) Tres coaliciones, cada una con dos empresas.
El tamaño de S es 𝑛(𝑆) = 𝐶26 𝐶24 + 𝐶26 𝐶34 + 𝐶26 𝐶44 + 𝐶36 𝐶33 + 𝐶26 𝐶24 𝐶22 = 275 estados posibles y nos interesa que se haya dado la situación d). Denotando D a este evento, entonces 𝑃(𝐷) =
𝐶36 𝐶33
275
20
= 275 = 0.07
Ejemplo 38
En una ciudad hay 20 distritos y en cada uno hay 300 hogares. El Instituto de Estadística toma un distrito
al azar y luego, en el distrito seleccionado toma una muestra "sin reemplazo" de 30 hogares.
a) Calcule la probabilidad de que un distrito específico sea seleccionado.
40
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
b) Calcule la probabilidad de que un hogar específico sea seleccionado.
c) ¿Todos los hogares de la ciudad tienen igual probabilidad selección?
d) ¿Cuál es la probabilidad de seleccionar dos hogares específicos?
Solución:
a) Hay 𝐶120 maneras de seleccionar un distrito cualquiera, 𝑛(𝑆) = 𝐶20
1 . La probabilidad de seleccionar un
1
distrito específico es 𝑃(𝐷𝑖𝑠𝑡𝑟𝑖𝑡𝑜) = 𝐶 20.
1
b) Sea h el hogar específico, entonces si H =“Se selecciona h” y D =“Se selecciona el distrito al cual
pertenece h”
entonces 𝑃(𝐻) = 𝑃(𝐻 ∩ 𝐷) + 𝑃 (𝐻
⏟ ∩ 𝐷𝐶 ) = 𝑃(𝐻 ∩ 𝐷) = 𝑃(𝐻|𝐷)𝑃(𝐷) =
∅
𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑜 𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑜 𝑜𝑡𝑟𝑜𝑠
29 ℎ𝑜𝑔𝑎𝑟𝑒𝑠
ℎ𝑜𝑔𝑎𝑟 ℎ
⏞
299
⏞
1
×
𝐶29
300
𝐶30
×
1
𝐶120
=
299
𝐶29
300 𝐶 20
𝐶30
1
.
299
𝐶29
c) Sí, cualquier hogar puede ser visto como “el hogar h”. La probabilidad es 𝐶 300
.
𝐶 20
30
1
d) Procediendo análogamente a b) y teniendo en cuenta que si los hogares específicos h1 y h2 están en
distritos distintos, es imposible que salgan juntos, sea H2 = “Hogares h1 y h2 están en la muestra”,
entonces:
𝑃(𝐻2) = 𝑃(𝐻2|𝐷)𝑃(𝐷) =
𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑜 𝑜𝑡𝑟𝑜𝑠
𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑜
28 ℎ𝑜𝑔𝑎𝑟𝑒𝑠
ℎ𝑜𝑔𝑎𝑟𝑒𝑠 ℎ1 𝑦 ℎ2
⏞
298
⏞
1
×
𝐶28
300
𝐶30
𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑜
𝑒𝑙 𝑑𝑖𝑠𝑡𝑟𝑖𝑡𝑜
1
⏞
×
𝐶120
41
=
298
𝐶28
300 𝐶 20
𝐶30
1
.
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Capítulo 2
Variable Aleatoria
•
•
•
Se usa cuando el interés está centrado en determinado aspecto del espacio muestral S y no en todos los
aspectos de S.
"Codificamos" numéricamente ese aspecto de S y lo convertimos en un nuevo espacio numérico R
Transferimos probabilidades, de modo que en R sea posible aplicar las operaciones de suma,
multiplicación, etc., y usarlas para facilitar el cálculo de probabilidades.
2.1 Definición y clasificación
Definición
Si S un espacio muestral, sobre el cual se ha construido una σ-álgebra de eventos 𝒜 , una variable aleatoria
𝑿 definida sobre S, es una función cuyo dominio es S y cuyo rango 𝑹𝑿 es un conjunto de números
𝑺⟶ℝ
reales, denotado 𝑹𝑿 , 𝑿:
que satisface ∀𝑡 ∈ ℝ ⇒ {𝑤 ∈ 𝑆|𝑋(𝑤) ≤ 𝑡} ∈ 𝒜.
𝑤 ↦ 𝑋(𝑤)
Esta última condición permite probabilizar todo el eje real y es necesaria para evitar patologías cuando se
trata con espacios S continuos, como los que aparecen en los modelos probabilísticos de probabilidad
geométrica y aquellos que describen procesos en finanzas.
Ejemplo 1
Si una persona contesta al azar 2 preguntas de opción múltiple con tres opciones, donde sólo una es la
verdadera y 𝑿 = Número de errores, hallar RX y la distribución de probabilidades en RX.
Solución:
Sean 𝐶 = Respuesta correcta; 𝐼 = Respuesta incorrecta, entonces
𝑆 = {(𝐶, 𝐶), (𝐶, 𝐼), (𝐼, 𝐶), (𝐼, 𝐼)} ; aplicando la v.a. X = Número de errores, a los elementos de 𝑆
tenemos
1×1
𝟏
1×2
𝟐 2×1
𝟐
P en S
= 𝟗 ; 3×3 = 𝟗 3×3 = 𝟗
3×3
𝑆 = {(𝑪, 𝑪), (𝑪, 𝑰), (𝑰, 𝑪),
𝑿 = # 𝑬𝒓𝒓𝒐𝒓𝒆𝒔
𝑹𝑿 = { 𝟎,
𝟏
𝑃 𝑒𝑛 𝑅𝑋
𝟗
𝟏,
2×2
𝟒
=𝟗
3×3
(𝑰, 𝑰)}
𝟐}
𝟒
𝟒
𝟗
𝟗
Como en S hay 4 resultados las probabilidades se pueden "transferir" del espacio muestral original S, al
espacio transformado o "codificado" RX, de modo que obtenemos, en una tabla sencilla, los valores de X y
sus probabilidades:
𝑥
𝑃(𝑥)
0 1 2 O también, y de manera compacta, con una fórmula
1 𝟒 4
𝑪𝟐𝒙 𝟐𝒙
𝑷(𝒙) =
𝑑𝑜𝑛𝑑𝑒 𝒙 = 𝟎, 𝟏, 𝟐
9 𝟗 9
𝟗
Ejemplo 2
En la subasta de una empresa pública, hay dos postores A y B, de los cuales sólo se sabe que pueden ofrecer
precios entre 0 y 1 millón de unidades monetarias por la empresa que desean comprar. Sea 𝑿 el precio de
venta. Sin más información, determine la transformación que define a 𝑋 así como el rango 𝑅𝑋 de valores
42
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
posibles de 𝑋 y aplicando probabilidad geométrica halle una fórmula para 𝑃(𝑋 ≤ 𝒙), donde 𝒙 ∈ 𝑅𝑋 es un
valor dado o fijo.
Solución:
 : Abrir los sobres con las ofertas de A y B y registrarlas.
𝑆 = {(𝑎, 𝑏)|0 < 𝑎 ≤ 1; 0 < 𝑏 ≤ 1} donde a y b son los precios ofrecidos por A y B respectivamente.
b
b
X =Máx{a,b}
1
1
(a,b).
(a,b).
---------]-x---]----------+
0
1
a
a RX
0
1
0
1
Como se trata de una privatización, el mayor precio será el ganador, esto es 𝑋 = 𝑀á𝑥{𝑎, 𝑏} define la
transformación que va de 𝑆 a ℝ y así 𝑹𝑿 =]𝟎, 𝟏].
El evento (𝑋 ≤ 𝒙) (definido en 𝑅𝑋 ) ocurre si y sólo si 𝑀á𝑥{𝑎, 𝑏} ≤ 𝒙 ⇔ (0 < 𝑎 ≤ 𝒙) y (0 < 𝑏 ≤ 𝒙)
Sea el evento 𝐷 = {(𝑎, 𝑏) ∈ 𝑆|0 < 𝑎 ≤ 𝑥; 0 < 𝑏 ≤ 𝑥}, entonces podemos decir que (𝑋 ≤ 𝑥) y 𝐷 son
equivalentes. Por tanto 𝑃(𝑋 ≤ 𝒙) = 𝑃(𝐷). Aplicando probabilidad geométrica:
b
𝑃(𝑋 ≤ 𝒙) = 𝑃(𝐷) =
Á𝑟𝑒𝑎(𝐷)
Á𝑟𝑒𝑎(𝑆)
=
𝑥2
1
= 𝒙𝟐 .
para 0 ≤ 𝑥 ≤ 1, que es una fórmula que distribuye probabilidades
sobre 𝑅𝑋 .
1
x
(a,b).
D
a
0
x
1
Una manera laxa, pero útil, de ver a una v.a. 𝑋, es como “una variable que toma sus valores al azar”.
Clasificación de las variables aleatorias (según su rango 𝑹𝑿 )
𝑋 se dice variable aleatoria discreta: Si 𝑅𝑋 es un conjunto finito o numerable
𝑋 se dice variable aleatoria continua: Si 𝑅𝑋 es un intervalo
Nota:
Existen variables mixtas, que se comportan como continuas en ciertos tramos de su rango y como discretas
en otros.
La variable 𝑋 = Número de errores en el ejemplo 1 de las respuestas al azar es discreta.
La variable 𝑋 = Precio de venta en el ejemplo 2 de la licitación es continua.
43
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
2.2 Variable discreta y Función de Probabilidad
Definición (función de probabilidad) 𝑷𝑿 (𝒙)
Si 𝑋 es v.a. discreta, la función de probabilidad de 𝑋, denotada 𝑷𝑿 (o también 𝑓𝑋 ) se define mediante
𝑷𝑿 (𝒙) = 𝑷(𝑿 = 𝒙) donde x =valor genérico de X. Si 𝑥 ∉ 𝑅𝑋 ⇒ 𝑃𝑋 (𝑥) = 0.
En el ejemplo 1 anterior, que 𝑋 es discreta, tenemos:
𝐶𝑥2 2𝑥
𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) =
𝑑𝑜𝑛𝑑𝑒 𝑥 = 0,1,2
9
Ejemplo 3
Si en una serie de diez días, en cada día, el índice bursátil puede subir, bajar o quedar igual, y se observan
las variaciones del índice en los diez días. Sea X la variable aleatoria (v.a.) definida como X = Número de
subidas en los diez días.
Halle el rango 𝑅𝑋 de valores posibles de X y la función de probabilidad 𝑃𝑋 (𝑥) de 𝑋.
Solución:
Como cada día hay tres opciones: subir (s), bajar (b) o quedar igual (i), el espacio es
𝑆 = {(𝑑1 , 𝑑2 , … , 𝑑10 )|𝑑𝑗 ∈ {𝑠, 𝑏, 𝑖} 𝑗 = 1,2, … ,10}.
Formar un elemento del espacio muestral equivale a realizar diez “operaciones” sucesivas: colocar s, b o i
en cada 𝑑𝑗 ⇒ 𝑛(𝑆) = 3 × 3 × … × 3 = 310 . En el contexto anterior:
𝑋 = Número de subidas en los diez días ⇒ 𝑹𝑿 = {𝟎, 𝟏, 𝟐, … , 𝒙, … 𝟏𝟎}y
si 𝑥 ∈ 𝑹𝑿 ⇒ (𝑋 = 𝑥) = “x de los días son de subida y el resto de no subida”, entonces
(10−𝑥)𝑣𝑒𝑐𝑒𝑠
(𝟏𝟎−𝒙)
⏞× 2 × … × 2) = (𝐶𝑥10 × 1) × (2(10−𝑥) ) = 𝑪𝟏𝟎
𝒏(𝑿 = 𝒙) = (𝐶𝑥10 × 1) × (2
, así que
𝒙 𝟐
𝑷𝑿 (𝒙) = 𝑃(𝑋 = 𝑥) =
(𝟏𝟎−𝒙)
𝑪𝟏𝟎
𝒙 𝟐
𝟑𝟏𝟎
𝒙 = 𝟎, 𝟏, 𝟐, … , 𝟏𝟎. es la f. de probabilidad de 𝑋
Propiedades de 𝑃𝑋 (𝑥).
(a) 0 ≤ 𝑃𝑋 (𝑥) ≤ 1 (𝑒𝑛 𝑣𝑒𝑟𝑑𝑎𝑑 𝑒𝑠 0 < 𝑃𝑋 (𝑥) < 1)
(b) ∑𝑥∈𝑅𝑋 𝑃𝑋 (𝑥) = 1 donde 𝑥 ∈ 𝑅𝑋 indica que la suma se hace sobre todos los 𝑥 que pertenecen a 𝑅𝑋
(c) 𝑃(𝑋 ∈ 𝐴) = ∑𝑥∈𝐴 𝑃𝑋 (𝑥)
En efecto, como 𝑃𝑋 (𝑥) es una probabilidad, (a) se deduce de la propiedad general 0 ≤ 𝑃(𝐴) ≤ 1 para todo
evento 𝐴.
Si 𝑋 es discreta, entonces 𝑅𝑋 es de la forma 𝑅𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑗 , … } y como 𝑃(𝑋 ∈ 𝑅𝑋 ) = 𝑃(𝑆) = 1 y
𝑃(𝑋 ∈ 𝑅𝑋 ) = 𝑃({𝑥1 , 𝑥2 , … , 𝑥𝑗 , … }) = ∑𝑗 𝑃𝑋 (𝑥𝑗 ) ≡ ∑𝑥∈𝑅𝑋 𝑃𝑋 (𝑥), se deduce que ∑𝑥∈𝑅𝑋 𝑃𝑋 (𝑥) = 1
Ejemplo 4
En una selección de personal, un economista encuentra que el número de solicitudes de trabajo con datos
incompletos que le pueden presentar por día, es una variable aleatoria discreta X con función de
probabilidad 𝑃𝑋 (𝑥) = 𝑐(6 − 𝑥) 𝑠𝑖 𝑥 = 0, 1, 2, … , 5; donde 𝑐 es constante positiva por hallar.
a) Encuentre la constante 𝑐 y calcule la probabilidad de que en un día se hayan presentado más de dos
solicitudes con datos incompletos.
b) Revisar un expediente le toma treinta minutos al economista y luego los candidatos que presentan
expedientes completos pasan a una entrevista que dura una hora por candidato. Sabiendo que se han
presentado 6 candidatos a un puesto ¿Con qué probabilidad le alcanzará al economista una jornada
normal de trabajo para la selección?
44
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Solución:
a) Como se debe cumplir que la probabilidad total suma 1, o sea, ∑𝑥 𝑃𝑋 (𝑥) = 1, entonces en una tabla
de probabilidades (nótese que el rango de valores de X va de 0 a 5, según se nos dio en la definición
de 𝑃𝑋 (𝑥) ):
0 1 2 3 4 5
𝑥
𝑃𝑋 (𝑥) = 𝑐(6 − 𝑥) 6𝑐 5𝑐 4𝑐 3𝑐 2𝑐 𝑐
de 𝑋 es 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) =
(6−𝑥)
21
Total
21𝑐
1
21𝑐 = 1 ⇒ 𝑐 = 21 y así la f. de
probabilidad
𝑥 = 0, 1, 2, 3, 4, 5.
En cuanto a la pregunta de la probabilidad de que en un día se hayan presentado más de dos
solicitudes con datos incompletos: más de 2, es 3 o más, o sea
(X > 2) = (X ≥ 3) = (X = 3)  (X = 4)  (X=5), luego:
3
2
1
6
𝑃(𝑋 > 2) = 𝑃(𝑋 = 3) + 𝑃(𝑋 = 4) + 𝑃(𝑋 = 5) = 𝑃𝑋 (3) + 𝑃𝑋 (4) + 𝑃𝑋 (5) = 21 + 21 + 21 = 21 =
0.29
b) Si T es el tiempo total, en horas, tenemos que 𝑇 = 6 × 0.5 + (6 − 𝑋) = 9 − 𝑋 y para que le alcance
una jornada normal de 8 horas, debe ocurrir 𝑇 ≤ 8 ⇒ 9 − 𝑋 ≤ 8 ⇒ 1 ≤ 𝑋, entonces
6
15
𝑃(𝑇 ≤ 8) = 𝑃(𝑋 ≥ 1) = 1 − 𝑃(𝑋 = 0) = 1 −
=
= 0.714
21 21
45
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
2.3 Variable Continua y Función de Densidad
Si RX es un intervalo, físicamente suele ser imposible registrar la ocurrencia exacta de un valor específico
de X.
Con variables continuas, más que estar interesados en la ocurrencia de valores, debemos pensar en la
ocurrencia de intervalos de valores.
Necesitamos una función 𝑓(𝑥) que distribuya probabilidades sobre los intervalos contenidos en RX, no
sobre los valores de X.
Esta función debe distribuir la probabilidad total que es 1, de modo más bien continuo, haciendo "más
densos en probabilidad" a algunos intervalos, y "menos densos" a otros.
El modo más sencillo de hacer esta distribución de densidades de probabilidad es mediante la gráfica
(continua) de la función.
Ejemplo 5
Suponga que para la rentabilidad anual X de un fondo mutuo sabemos que X puede estar entre 0 y 2% de
modo que el rango de X es RX = [0,2]. Para la distribución de probabilidades de X tenemos cuatro
alternativas plausibles según la experiencia de cuatro expertos, que nos inducen a postular cuatro “modelos”
para X:
Modelo 1: Si pensamos que puede ocurrir cualquier valor con la misma verosimilitud, entonces podemos
usar probabilidad geométrica y distribuir la probabilidad sobre RX de manera que cualquier intervalo de la
misma longitud tenga similar área (o sea probabilidad)
Modelo 2: Si pensamos que valores de X entre 1 y 2 son el doble de probables que valores entre 0 y 1,
entonces podemos distribuir la probabilidad sobre RX de manera que el intervalo [0,1[ reciba la mitad del
área que el intervalo [1,2]
Modelo 3: Si más bien pensamos que la probabilidad de una rentabilidad es proporcional a ésta, de modo
que valores de X cercanos a 2 tienen más probabilidad, podemos asignar áreas de modo que ésta “crezca”
proporcionalmente a X
Modelo 4: La probabilidad crece hasta que se llega a 1 y luego decrece a la misma tasa hasta llegar a 2.
Modelo 1
y=𝑓𝑋 (𝑥)
Modelo 2
y=𝑓𝑋 (𝑥)
Modelo 3
y=𝑓𝑋 (𝑥)
Modelo 4
y=𝑓𝑋 (𝑥)
y=a+cx
2/3
1
0
1
2
X
𝑦 = 𝑓𝑋 (𝑥) = 𝑐 0 ≤ 𝑥 ≤ 2
1
1= 2×𝑐 →𝑐 =
2
0
1
𝑦 = 𝑓𝑋 (𝑥) = {
2
X
𝑎 0≤𝑥<1
𝑏 1≤𝑥≤2
0
1
2
X
𝑦 = 𝑓𝑋 (𝑥) = 𝒄𝒙 0 ≤ 𝑥 ≤ 2
2 × 𝑓𝑋 (2)
1=
= 2𝑐 →
2
𝒄 = 𝟏/𝟐
0
1
2
X
𝑎 + 𝑏𝑥 0 ≤ 𝑥 < 1
𝑐 + 𝑑𝑥 1 ≤ 𝑥 ≤ 2
0 = 𝑓𝑋 (2) = 𝑐 + 2𝑑 ⇒ 𝑐 = −2𝑑
⇒ 𝑓𝑋 (𝑥) = −2𝑑 + 𝑑𝑥 = 𝑑(𝑥 − 2)
𝑦 = 𝑓𝑋 (𝑥) = {
1 1 × 𝑓𝑋 (1) 1 × −𝑑
=
=
⇒
2
2
2
𝑑 = −1,etc.
1
𝑦 = 𝑓𝑋 (𝑥) = 0 ≤ 𝑥 ≤ 2
2
𝑦 = 𝑓𝑋 (𝑥)
1
0≤𝑥<1
={ 3
2
1≤𝑥≤2
3
𝒚 = 𝒇𝑿 (𝒙)
𝟏
= 𝒙 𝟎≤𝒙≤𝟐
𝟐
0+𝑥 0≤ 𝑥 <1
𝑦 = 𝑓𝑋 (𝑥) = {
2−𝑥 1≤ 𝑥 ≤2
Siendo el rango el mismo RX = [0,2], es claro que la asignación de áreas la determina la “parte superior del
área total” que es una línea o conjunto de líneas y que puede ser descrita muy bien mediante una función
𝑦 = 𝑓𝑋 (𝑥), que se llama función de densidad de X
46
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Definición (función de densidad)
𝑋 v.a. continua, una función de densidad de 𝑿, denotada 𝑓𝑋 (𝑥), es una función no negativa y continua,
tal que para todo intervalo ]𝑎, 𝑏] ⊆ 𝑅𝑋 se cumple:
𝒃
𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝑨𝒓𝒆𝒂 𝒅𝒆𝒃𝒂𝒋𝒐 𝒅𝒆 𝒇𝑿 (𝒙) 𝒆𝒏𝒕𝒓𝒆 𝒂 𝒚 𝒃 = ∫ 𝒇𝑿 (𝒙)𝒅𝒙
𝒂
Observaciones:
𝑓𝑋 (𝑥) no proporciona ninguna probabilidad directamente; sólo proporciona la altura para obtener el área
que es la probabilidad (o equivalentemente al ser integrada 𝑓𝑋 (𝑥) sobre un intervalo determina la probabilidad de este)
𝑃(𝑎 < 𝑋 ≤ 𝑏) = Area debajo de la gráfica de 𝑓𝑋 (𝑥) entre a y b
𝑃(5 < 𝑋 ≤ 10) = Area debajo de 𝑓𝑋 (𝑥) entre 5 y 10
𝒂
(𝑋 = 𝑎) = (𝑎 < 𝑋 ≤ 𝑎) ⇒ 𝑃(𝑋 = 𝑎) = 𝐴𝑟𝑒𝑎 𝑑𝑒 𝑙𝑎 𝑙𝑖𝑛𝑒𝑎 (𝑋 = 𝑎) = ∫ 𝒇𝑿 (𝒙)𝒅𝒙 = 0
𝒂
Este valor 0 quiere decir que no tenemos manera de verificar exactamente la ocurrencia de un valor específico a de 𝑋, no que este valor a no pueda ocurrir (𝐼𝑚𝑝𝑜𝑠𝑖𝑏𝑙𝑒 ≠ 𝐼𝑚𝑝𝑟𝑜𝑏𝑎𝑏𝑙𝑒). Como consecuencia:
𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝑃(𝑎 ≤ 𝑋 < 𝑏) = 𝑃(𝑎 < 𝑋 < 𝑏)
Propiedades de 𝑓𝑋 (𝑥).
(a) 𝟎 ≤ 𝒇𝑿 (𝒙) ∀𝒙
+∞
(b) 𝐴𝑟𝑒𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒𝑏𝑎𝑗𝑜 𝑑𝑒 𝑓𝑋 (𝑥) 𝑠𝑜𝑏𝑟𝑒 𝑅𝑋 = 1 ⇔ ∫−∞ 𝑓𝑋 (𝑥)𝑑𝑥 = ∫𝑅 𝑓𝑋 (𝑥)𝑑𝑥 = 1
𝑋
(c) 𝑷(𝑿 ∈ 𝑨) = 𝑨𝒓𝒆𝒂 𝒅𝒆𝒃𝒂𝒋𝒐 𝒅𝒆 𝒇𝑿 (𝒙) 𝒔𝒐𝒃𝒓𝒆 𝑨 = ∫𝑨 𝒇𝑿 (𝒙)𝒅𝒙
Ejemplo 6
El precio (en soles) de un bien en una ciudad A, es una v.a. continua X con f. de densidad:
𝒇𝑿 (𝒙) = 𝒄𝒙 𝟎 < 𝒙 ≤ 𝒂.
a) Halle las constantes a y c si se sabe que con 25% de probabilidad el precio no pasa de 1.
b) Un comerciante observa que en otra ciudad B, el mismo bien tiene un precio Y y ve que le sería rentable
comprar en A para revender en B, si en A obtiene un precio debajo de 1.5 ¿Qué probabilidad tiene el
comerciante de realizar esta transacción?
47
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Solución:
a) Tenemos dos incógnitas (a y c); necesitamos dos ecuaciones:
Con geometría:
𝒚 = 𝒇𝑿 (𝒙) = 𝒄𝒙
𝑎 × 𝑓𝑋 (𝑎)
𝑎 × 𝑐𝑎 𝒄𝒂𝟐
𝟏 = 𝐴𝑟𝑒𝑎 𝑡𝑜𝑡𝑎𝑙 =
=
=
⇒ 𝟐 = 𝒄𝒂𝟐 (𝑰)
2
2
𝟐
𝑷(𝑿 ≤ 𝟏) = 𝟎. 𝟐𝟓 ⇒ 𝟎. 𝟐𝟓 = (𝐴𝑟𝑒𝑎 𝑒𝑛𝑡𝑟𝑒 0 𝑦 1) =
𝟏
⇒ 𝒄 = 𝟐 y en (I): 𝑎2 = 𝑐 = 4 ⇒ 𝒂 = 𝟐
(𝑙𝑎 𝑠𝑜𝑙𝑢𝑐𝑖ó𝑛 𝑎 = −2 𝑠𝑒 𝑑𝑒𝑠𝑐𝑎𝑟𝑡𝑎 𝑝𝑜𝑟 𝑑𝑒𝑓𝑖𝑛𝑖𝑐𝑖ó𝑛 𝑑𝑒𝑙 𝑝𝑟𝑜𝑏𝑙𝑒𝑚𝑎).
0.25
0
2
𝟏 × 𝒇𝑿 (𝟏) 𝒄
= (𝐼𝐼)
𝟐
𝟐
1
a
X
𝑦 = 𝑓𝑋 (𝑥) = 𝑐𝑥 0 ≤ 𝑥 ≤ 𝑎 ⟺ 𝑓𝑋 (𝑥) =
1
𝑥 0≤𝑥≤2
2
O con integrales:
𝑥2
𝑎
𝑎
La primera ecuación sale de ∫0 𝑐𝑥𝑑𝑥 = 1 ⇔ 𝑐 [ 2 ] = 1 ⇔ 𝑐
0
𝑎2
=1
2
La segunda ecuación sale del dato “se sabe que con 25% de probabilidad el precio no pasa de 1” que
implica:
1
∫0 𝑐𝑥𝑑𝑥
𝑥2
1
1
1
1
1
1 𝑎2
1
= 4 ⇔ 𝑐 [ 2 ] = 4 ⇔ 𝑐 2 = 4 ⇔ 𝑐 = 2. De lo anterior 2
2
0
= 1 ⇔ 𝑎2 = 4 ⇒ 𝑎 = 2 pues
del rango de x se tiene que a debe ser positivo.
1
𝒙
Entonces 𝑐 = 2 , 𝑎 = 2 y 𝒇𝑿 (𝒙) = 𝟐 𝟎 ≤ 𝒙 ≤ 𝟐 es la función de densidad del precio X en A.
b) El comerciante realizará la transacción si 𝑋 < 1.5 y necesitamos hallar 𝑃(𝑋 < 1.5):
𝟏
Con geometría:
𝒚 = 𝒇𝑿 (𝒙)= 𝟐 𝒙 𝟎 ≤ 𝒙 ≤ 𝟐
𝑃(𝑋 < 1.5) = 𝐴𝑟𝑒𝑎 =
= 0.5625
1.5 × 𝑓𝑋 (1.5) 1.52
=
⇒ 𝑃(𝑋 ≤ 1.5)
2
4
Con integrales:
𝑥2
1.5 𝑥
𝑃(𝑋 < 1.5) = ∫0
0
1.5 2
1.5
𝑑𝑥 = [ 4 ]
2
0
= 0.5625
X
Nota:
Si hubiera sido 𝑓𝑋 (𝑥) = 𝑐𝑥 2 0 < 𝑥 ≤ 𝑎, ya no es sencillo con geometría, pero con integrales:
𝑥3
𝑎
𝑎
𝑎3
0
1
3
∫0 𝑐𝑥 2 𝑑𝑥 = 1 ⇔ 𝑐 [ 3 ] = 1 ⇔ 𝑐
1
∫0 𝑐𝑥 2 𝑑𝑥
𝑥3
1
1
1
3
3
3
= 1 ⇒ 𝑎 3 = 𝑐 ⇒ 𝑎 = √𝑐 ;
1
3
3
3
𝟑
𝟑
= 4 ⇔ 𝑐 [ 3 ] = 4 ⇔ 𝑐 3 = 4 ⇔ 𝑐 = 4 ⇒ 𝑎 = 3√ 3 = √4 ⇒ 𝒂 = √𝟒 y 𝒄 = 𝟒
0
4
3
3
𝑓𝑋 (𝑥) = 𝑥 2 0 < 𝑥 ≤ √4
4
1.5 3
𝑃(𝑋 < 1.5) = ∫0
4
𝑥3
1.5
𝑥 2 𝑑𝑥 = [ ]
4 0
= 0.844
48
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Ejemplo 7
Asuma que el tiempo que el tiempo 𝑋 (en años) que demora una empresa nueva en consolidarse en el
mercado, es una v.a.c. con función de densidad:
1
𝑎𝑥 𝑠𝑖 0 ≤ 𝑥 ≤ 2
𝑓𝑋 (𝑥) = {
(a y b constantes positivas)
1
𝑏 𝑠𝑖 2 < 𝑥 ≤ 1
Halle a y b, si se sabe que con 60% de probabilidad, la empresa estará consolidada antes de medio año.
¿Si una empresa ya tiene más de 3 meses en el mercado (o sea más de ¼ de año), con qué probabilidad se
consolidará antes de medio año?
Solución:
La gráfica de 𝑓𝑋 (𝑥), de forma genérica, es:
1/2
1
Y
Como 𝑃 [0 ≤ 𝑋 ≤ 2] = 0.6 = ∫0
𝑥2
1/2
𝑎[2]
0
=
𝑎
8
1/2
𝑓𝑋 (𝑥) 𝑑𝑥 = ∫0
𝑎𝑥 𝑑𝑥 =
⇒ 𝑎 = 4.8
Por complemento
1
1
1
𝑏
𝑃 [2 ≤ 𝑋 ≤ 1] = 0.4 = ∫1 𝑓𝑋 (𝑥) 𝑑𝑥 = ∫1 𝑏𝑑𝑥 = 𝑏[𝑥]11 = 2 ⇒ 𝑏 = 0.8
a
b
2
⇒ 𝑓𝑋 (𝑥) = {
0
½
1
4.8𝑥 𝑠𝑖 0 ≤ 𝑥 ≤
0.8 𝑠𝑖
X
1
2
2
1
2
<𝑥≤1
1
2
es la f. de densidad de 𝑋.
1
Para la segunda pregunta: Sean 𝐴 = (𝑋 > 4) y 𝐵 = (𝑋 < 2), se pide 𝑃(𝐵|𝐴).
1
1
1/2
𝑥2
1/2
1/2
Como 𝑃(𝐴 ∩ 𝐵) = 𝑃 (4 < 𝑋 < 2) = ∫1/4 𝑓𝑋 (𝑥) 𝑑𝑥 = ∫1/4 4.8𝑥 𝑑𝑥 = 4.8 [ 2 ]
1/4
1
1
= 4.8 [8 − 32] = 0.45
y
1
1
1
1
2
1
𝑃(𝐴) = 𝑃 ( < 𝑋 < 1) = ∫ 𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ 𝑓𝑋 (𝑥) 𝑑𝑥 + ∫ 𝑓𝑋 (𝑥) 𝑑𝑥 = 0.45 + ∫ 0.8 𝑑𝑥 =
1
1
1
1
4
4
4
2
2
0.45
0.45 + 0.4 = 0.85 ⇒ 𝑃(𝐵|𝐴) =
= 0.53
0.85
2.4 Función de Distribución Acumulativa
Si X es una v.a., se define la Función de Distribución Acumulativa de X, denotada 𝐹𝑋 (𝑥), mediante la
regla de correspondencia: 𝑭𝑿 (𝒙) = 𝑷(𝑿 ≤ 𝒙) ∀𝒙 𝒓𝒆𝒂𝒍
Observación:
También se escribe 𝐹𝑋 (𝑡) = 𝑃(𝑋 ≤ 𝑡) ∀𝑡 𝑟𝑒𝑎𝑙 para resaltar que t no es la v.a. X sino un valor particular
fijo.
Ejemplo 8
1
(a) Para 𝑋 discreta con función de probabilidad 𝑃𝑋 (𝑥) = 5 𝑥 = 1,2 … ,5 es fácil verificar que
𝑥
𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) = 𝑃𝑋 (1) + 𝑃𝑋 (2) + ⋯ + 𝑃𝑋 (𝑥) = 5 𝑥 = 1,2, … ,5 o también: 𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) =
1
1
𝑥
∑𝑥𝑘=1 𝑃𝑋 (𝑥) = ∑𝑥𝑘=1 = 𝑥 =
5
5
5
o en una tabla:
1
𝑥
1/5
𝑃𝑋 (𝑥)
(𝒙)
1/5
𝑭𝑿
= 𝑷(𝑿 ≤ 𝒙)
2
1/5
2/5
3
1/5
3/5
49
4
1/5
4/5
5
1/5
1
Total
1
--
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝑥
En cambio, para 𝑋 discreta con función de probabilidad 𝑃𝑋 (𝑥) = 15 𝑥 = 1,2 … ,5; en una tabla:
1
2
3
4
5
Total
𝑥
1/15
2/15
3/15
4/15
5/15
1
𝑷𝑿 (𝒙)
1/15
3/15
6/15
10/15
1
-𝑭𝑿 (𝒙) = 𝑷(𝑿 ≤ 𝒙)
(b) Sea 𝑋 v.a.c., donde 𝑋 = Rentabilidad de una inversión, v.a. con rango 𝑅𝑋 =]0,2] y f. de densidad
𝑥
𝑓𝑋 (𝑥) = 2 𝑠𝑖 0 < 𝑥 ≤ 2. Sea x valor particular y fijo, la función de distribución acumulativa de 𝑋
es 𝐹𝑋 (𝒙) = 𝑃(𝑋 ≤ 𝒙):
1
𝑦 = 𝑓𝑋 (𝑥)= 2 𝑥 0 ≤ 𝑥 ≤ 2
1
𝑓𝑋 (𝑥) = 2 𝑥 0 ≤ 𝑥 ≤ 2 y 𝐹𝑋 (𝒙) = 𝑃(𝑋 ≤ 𝒙)
𝒙
𝒙
1
𝑡2
𝒙2
𝐹𝑋 (𝒙) = ∫ 𝑡𝑑𝑡 = [ ] =
4 0 4
0 2
0
x
2
0<𝒙≤2
X
Nota:
Se puede extender 𝐹𝑋 (𝑥) para definirla sobre todos los números reales:
0 𝑠𝑖 𝑥 < 0
𝑥2
𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) = {
𝑠𝑖 0 < 𝑥 ≤ 2
4
1 𝑠𝑖 2 < 𝑥
(c) Para 𝑋 = Precio de venta de una empresa pública con dos postores A y B que ofrecían precios de compra entre 0 y 1, se obtuvo que 𝑋 = 𝑀á𝑥{𝑎, 𝑏}; 𝑅𝑋 =]0,1] y aplicando probabilidad geométrica se
probó que 𝑃(𝑋 ≤ 𝑥) = 𝑥 2 𝑠𝑖 0 < 𝑥 ≤ 1. Luego, por definición, se tiene 𝐹𝑋 (𝑥) = 𝑥 2 0 < 𝑥 ≤ 1
Propiedades de 𝑭𝑿 (𝒙): 𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) ∀𝑥 𝑟𝑒𝑎𝑙
(1) 0 ≤ 𝐹𝑋 (𝑡) ≤ 1 = ∀𝑡 ∈ ℝ, pues 𝐹𝑋 (𝑡) es una probabilidad.
(2) 𝑎 ≤ 𝑏 ⇒ 𝐹𝑋 (𝑎) ≤ 𝐹𝑋 (𝑏), pues (𝑋 ≤ 𝑏) = (𝑋 ≤ 𝑎) ∪ (𝑎 < 𝑋 ≤ 𝑏) ⇒ 𝑃(𝑋 ≤ 𝑏) = 𝑃(𝑋 ≤ 𝑎) +
𝑃(𝑎 < 𝑋 ≤ 𝑏) ⇒ 𝐹𝑋 (𝑏) = 𝐹𝑋 (𝑎) + 𝑃(𝑎 < 𝑋 ≤ 𝑏) ⇒ 𝐹𝑋 (𝑎) ≤ 𝐹𝑋 (𝑏) (o sea 𝐹𝑋 es no decreciente)
(3) 𝐹𝑋 es continua a la derecha (“diestro continua”): lim+ 𝐹𝑋 (𝑥 + ℎ) = 𝐹𝑋 (𝑥) ∀𝑥
ℎ→0
(4)
(5)
(6)
lim 𝐹𝑋 (𝑥) = 1 𝑦 lim 𝐹𝑋 (𝑥) = 0 (informalmente 𝐹𝑋 (+∞) = 1 𝑦 𝐹𝑋 (−∞) = 0)
𝑥→∞
𝑥→−∞
𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝐹𝑋 (𝑏) − 𝐹𝑋 (𝑎). (debido a la propiedad (2)):
𝑃(𝑋 = 𝑐) = 𝐹𝑋 (𝑐) − lim+ 𝐹𝑋 (𝑐 + ℎ).
ℎ→0
Observaciones:
• Si 𝑋 es discreta con 𝑅𝑋 = {𝑥1 , 𝑥2 , . . . , 𝑥𝑁−1 , 𝑥𝑁 , . . . } donde 𝑥1 < 𝑥2 <. . . < 𝑥𝑁−1 < 𝑥𝑁 , . .. entonces
𝐹𝑋 (𝑥𝑁 ) = ∑𝑁
𝑗=1 𝑃𝑋 (𝑥𝑗 ) y también 𝑃𝑋 (𝑥𝑁 ) = 𝐹𝑋 (𝑥𝑁 ) − 𝐹𝑋 (𝑥𝑁−1 )
𝑥
• Si 𝑋 es continua, entonces 𝑓𝑋 (𝑥) = 𝐹𝑋′ (𝑥) (pues 𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫−∞ 𝑓𝑋 (𝑡) 𝑑𝑡 ⇒
𝑑𝐹𝑋 (𝑥)
𝑑𝑥
•
𝑑
𝑥
= 𝑑𝑥 ∫−∞ 𝑓𝑋 (𝑡) 𝑑𝑡 = 𝑓𝑋 (𝑥), debido al “Teorema fundamental del Cálculo” (ver Nota técnica,
abajo)
En cursos más avanzados, se prueba que en verdad 𝐹𝑋 (𝑥) determina el tipo de variable que es 𝑋:
Si 𝐹𝑋 (𝑥) es absolutamente continua, entonces 𝑋 es continua y si 𝐹𝑋 (𝑥) es continua por tramos,
50
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
entonces 𝑋 es discreta. Si 𝐹𝑋 (𝑥) es absolutamente continua por tramos, entonces 𝑋 es “mixta”.
Ejemplo 9
Para 𝑋 = Precio de venta de una empresa pública con dos postores A y B que ofrecían precios de compra
entre 0 y 1, se obtuvo que 𝑋 = 𝑀á𝑥{𝑎, 𝑏}; 𝑅𝑋 =]0,1] y aplicando probabilidad geométrica se probó que
𝑃(𝑋 ≤ 𝑥) = 𝑥 2 𝑠𝑖 0 < 𝑥 ≤ 1. Luego, por definición se tiene 𝐹𝑋 (𝑥) = 𝑥 2 , 0 < 𝑥 ≤ 1 ⇒ 𝑓𝑋 (𝑥) =
𝒅𝑭𝑿 (𝒙)
𝒅
= 𝒅𝒙 𝒙𝟐 = 𝟐𝒙 ⇒ 𝒇𝑿 (𝒙) = 𝟐𝒙 𝒔𝒊 𝟎 < 𝒙 ≤ 𝟏, es la función de densidad de 𝑿.
𝒅𝒙
Nota técnica:
Antiderivada
𝑑
Sean 𝑔(𝑥) y 𝐺(𝑥) funciones definidas sobre un mismo intervalo y tales que 𝑑𝑥 𝐺(𝑥) = 𝑔(𝑥), se dice que
"𝐺(𝑥) es una Antiderivada de 𝑔(𝑥)", lo que se denota mediante 𝐺(𝑥) = ∫ 𝑔(𝑥)𝑑𝑥.
También diremos que 𝐺(𝑥) es una Integral indefinida de 𝑔(𝑥).
Integral Definida
Si 𝑔(𝑥) es una función continua y acotada sobre un intervalo [𝑎, 𝑏] y 𝐺(𝑥) es una antiderivada de 𝑔(𝑥),
𝑏
𝑑
esto es 𝑑𝑥 𝐺(𝑥) = 𝑔(𝑥), la Integral Definida de 𝑔(𝑥) sobre ]𝑎, 𝑏] : ∫𝑎 𝑔(𝑥)𝑑𝑥 se define mediante
𝑏
∫𝑎 𝑔(𝑥)𝑑𝑥 = 𝐺(𝑏) − 𝐺(𝑎)=Area debajo de 𝑔(𝑥) sobre [𝑎, 𝑏]
Teorema Fundamental del Cálculo Integral
𝑑 𝑡
Si 𝑔(𝑥) es una antiderivada de alguna función 𝐺(𝑥) entonces 𝑑𝑡 ∫𝑎 𝑔(𝑥)𝑑𝑥 = 𝑔(𝑡)
Pues:
𝑡
𝑑 𝑡
𝑑
𝑑
∫ 𝑔(𝑥)𝑑𝑥 = 𝐺(𝑡) − 𝐺(𝑎) ⇒ ∫ 𝑔(𝑥)𝑑𝑥 = 𝐺(𝑡) − 𝐺(𝑎) = 𝑔(𝑡) − 0 = 𝑔(𝑡)
𝑑𝑡 𝑎
𝑑𝑡
𝑑𝑡
𝑎
𝑑
𝑏
𝑑
𝑑
Análogamente: 𝑑𝑡 ∫𝑡 𝑔(𝑥)𝑑𝑥 = 𝑑𝑡 𝐺(𝑏) − 𝑑𝑡 𝐺(𝑡) = −𝑔(𝑡)
Resumen:
𝑑 𝑡
𝑑 𝑏
∫ 𝑔(𝑥)𝑑𝑥 = 𝑔(𝑡) y 𝑑𝑡 ∫𝑡 𝑔(𝑥)𝑑𝑥 = −𝑔(𝑡)
𝑑𝑡 𝑎
51
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
2.5 Valor Esperado o Esperanza Matemática
Para representar todo el rango de valores de 𝑋 mediante una constante se recurre al concepto de “Valor
Esperado”.
Definición general
Sea 𝑋 variable aleatoria y 𝐻(𝑋) una función de 𝑋, se define el Valor Esperado de 𝐻(𝑋), denotado
𝐸[𝐻(𝑋)], mediante:
∑ 𝐻(𝑥)𝑃𝑋 (𝑥) 𝑠𝑖 𝑋 𝑒𝑠 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎
𝑥∈𝑅𝑋
+∞
𝐸[𝐻(𝑋)] =
{
∫
𝑯(𝒙)𝒇𝑿 (𝒙)𝒅𝒙 𝒔𝒊 𝑿 𝒆𝒔 𝒄𝒐𝒏𝒕𝒊𝒏𝒖𝒂
−∞
Observaciones:
+∞
Se requiere que haya “convergencia absoluta”, i.e. ∑𝑥∈𝑅𝑋 |𝐻(𝑥)|𝑃𝑋 (𝑥) < ∞ o ∫−∞ |𝐻(𝑥)|𝑓𝑋 (𝑥)𝑑𝑥 < ∞.
para que no haya ambigüedad en el número obtenido: Si no hay convergencia absoluta, el valor de la serie
puede depender del orden en la suma, o el valor de la integral puede depender del orden al tomar límites
al infinito.
𝐸[𝐻(𝑋)] es un promedio ponderado de los valores de 𝑯(𝑋), donde el factor de ponderación (el
"peso") está asociado a la probabilidad de 𝑿 vía 𝑃𝑋 (𝑥) o 𝑓𝑋 (𝑥) según el caso.
Como 𝑋 es una v.a., entonces 𝐻(𝑋) también lo es, pero si, por alguna razón, no interesa tener la función
de probabilidad o de densidad de la v.a. 𝐻(𝑋) para hacer pronósticos, sino sólo identificar un valor de
tendencia de los distintos valores posibles de 𝐻(𝑋) para usarlo como “pronóstico general”, podemos
“promediar los valores de 𝐻(𝑋)” ponderando por la frecuencia con que ocurre cada uno. Eso es 𝑬[𝑯(𝑿)].
𝑬[𝑯(𝑿)] es una constante (o indicador) que representa la “tendencia principal o promedio” o “en el
equilibrio” de los diferentes valores de la variable 𝑯(𝑿), es el “promedio” de la v.a. 𝑯(𝑿).
En Economía, 𝐻(𝑋) suele ser un “modelo económico” de alguna variable 𝑌 = 𝐻(𝑋), donde por alguna
razón, la variable económica 𝑋, además de responder a un proceso económico, tiene elementos de aleatoriedad, que no corresponden a efectos económicos sino pequeñas variaciones fortuitas, aleatorias, que
no son de interés para “el modelo” y hay que “eliminarlos”. Esto se hace “promediando”, esto es, escribiendo el modelo en términos de su “tendencia a la larga”, “a largo plazo” o “en el equilibrio”, en el
sentido que el proceso aleatorio que afecta a 𝑋 se supone ya estabilizado y entonces, para hacer análisis
económico o teoría económica, se puede trabajar tranquilamente con 𝐸 [𝐻(𝑋)], que está libre de la parte
aleatoria de 𝑋.
Ejemplo 10
Si 𝑋 = Número de trabajadores necesarios para hacer una tarea especializada es una v.a. discreta con
función de probabilidad
1
2
3
4
5
6
𝑥
𝑃𝑋 (𝑥)
0.25
0.3
0.2
0.15
0.05
0.05
Cada trabajador recibe un pago de 300 unidades monetarias por su trabajo y además por la maquinaria
empleada para hacer la tarea se paga un costo fijo de 500 unidades monetarias. Si 𝐻(𝑋) es el Costo total
de la tarea. Hallar el costo esperado o promedio de un trabajo e interprételo.
Solución:
𝑯(𝑿) = Costo total = 𝟓𝟎𝟎 + 𝟑𝟎𝟎𝑿 y queremos hallar 𝐸(𝐶𝑜𝑠𝑡𝑜) = 𝐸(𝐻(𝑋)):
52
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
6
𝑬(𝑯(𝑿)) = ∑ 𝐻(𝑥)𝑃(𝑥) = 𝐻(1)𝑃(1) + 𝐻(2)𝑃(2) + ⋯ + 𝐻(6)𝑃(6) =
𝑥=1
= 800 × 0.25 + 1,110 × 0.30 + ⋯ + 2,300 × 0.05 = 𝟏, 𝟐𝟖𝟎 unidades monetarias.
O disponiendo datos en una tabla para facilitar y ordenar el cálculo manual:𝐸(𝐻(𝑋)) = ∑6𝑥=1 𝐻(𝑥)𝑃(𝑥)
1
2
3
4
5
6
Total
𝑥
1
𝑃𝑋 (𝑥)
0.25
0.3
0.2
0.15
0.05
0.05
-800
1,100
1,400
1,700
2,000
2,300
𝐻(𝑥)
1,280
200
330
280
255
100
115
𝐻(𝑥)𝑃𝑋 (𝑥)
𝑬(𝑪𝒐𝒔𝒕𝒐) = 𝑬(𝑯(𝑿)) = 𝟏, 𝟐𝟖𝟎: El costo de un trabajo cualquiera estará “alrededor” de 1,280 u.m. o
si vemos las probabilidades en la tabla, 1,280 está entre el costo de 2 o 3 trabajos, que tiene
probabilidad total de 50%.
La palabra “alrededor” en este caso se interpreta como “probablemente”, a veces será menor y otras será
mayor, pero con “más frecuencia” estaría alrededor de 1,280 u.m. Esto sirve para hacer cálculos y presupuestos, por ejemplo, si nos encargan 10 tareas de este tipo, no sabemos cuál será el costo total final real
de este grupo de 10 tareas, pero sabemos que estará alrededor de 10×1,280 = 12,800 u.m.
Ejemplo 11
Se lanza un dado según la apuesta: Si sale el 1 se gana U$S 2, si sale el 6 se gana US$ 10, en otro caso se
pierde US$ 6. Sea 𝑋 el número que muestra el dado y sea 𝐻(𝑋) la utilidad, para el jugador, en esta
apuesta. Halle 𝐸[𝐻(𝑋)]. ¿Le conviene este juego al apostador?
Solución:
La función de probabilidad de 𝑋 es:
1
𝑥
𝑷𝑿 (𝒙)
1/6
2
1/6
3
1/6
4
1/6
5
1/6
6
1/6
2 𝑠𝑖 𝑥 = 1
Y 𝐻(𝑋) responde a 𝐻(𝑋) = {−6 𝑠𝑖 𝑥 = 2,3,4,5,6
10 𝑠𝑖 𝑥 = 6
Escribiendo en una tabla, para ordenar datos antes del cálculo:𝑬[𝑯(𝑿)] = ∑𝑥∈𝑅𝑋 𝐻(𝑥)𝑃𝑋 (𝑥)
𝑥
1
2
3
4
5
𝑷𝑿 (𝒙)
1/6
1/6
1/6
1/6
1/6
2
-6
-6
-6
-6
𝐻(𝑥)
Entonces, aplicando la definición del valor esperado:
1
1
1
1
1
1
𝐸[𝐻(𝑋)] = ∑𝑥∈𝑅𝑋 𝐻(𝑥)𝑃𝑋 (𝑥) = (2) × 6 + (−6) × 6 + (−6) × 6 (−6) × 6 (−6) × 6 + (10) × 6 =
−12
6
6
1/6
10
= −2.
Interpretando 𝐸[𝐻(𝑋)]:
• Si usamos la noción frecuencial de probabilidad, esperaríamos que de seis lanzamientos, en uno de
ellos ocurriera el 1 (por tanto se gana US$ 2), en otro se presentaría el 6 (ganándose entonces US$ 10)
y en el resto de casos se perdería (a razón de de US$ 6 por cada vez). O sea que al cabo de 6
lanzamientos, esperamos retirarnos de la mesa de juego con 12-24 =-12 US$. Es decir, en esta
apuesta, la tendencia es a perder a razón de US$12 por cada 6 jugadas.
• Si lanzáramos el dado 12 veces, la pérdida sería de US$ 24; Si jugamos 18 veces, perderíamos US$
36; en 36 jugadas, perderíamos US$ 72, etc. En general, si hacemos N lanzamientos, perderemos
(N/6)×12 = N×(12/6) = N×2 dólares en total.
• Es decir, podemos calcular un índice que indica la pérdida esperada por cada lanzamiento y permite
prever la pérdida en una cantidad general de lanzamientos.
Este índice es precisamente 𝐸[𝐻(𝑋)] = −2
El signo negativo muestra que la tendencia es a la pérdida, y el valor 2 indica el monto de ésta "por
jugada", para poder calcular la pérdida global en general.
53
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
•
𝐸[𝐻(𝑋)] = −2 no es un valor "real", sino sólo un índice que representa la tendencia de los valores
de 𝐻(𝑋), un índice útil para cálculos posteriores.
2.5.1 Casos más importantes de Valor Esperado
• La Media Poblacional 𝜇𝑋 : = 𝐸(𝑋). Es el "valor típico de 𝑋". Es el valor alrededor del cual “cae” 𝑋
con mayor probabilidad (50% o más). 𝝁𝑿 es una constante que usamos para representar a la
variable 𝑿
Ejemplo 12 (Media o valor esperado de una v.a. X)
Para 𝑋 = Número de trabajadores del ejemplo 8, tenemos 𝜇𝑋 ≡ 𝐸(𝑋) = ∑6𝑥=1 𝑥𝑃(𝑥). Ordenando en una
tabla:
0.35
𝑥
𝑷𝑿 (𝒙)
𝑥𝑷𝑿 (𝒙)
1
0.25
0.25
2
0.30
0.60
3
0.20
0.60
4
0.15
0.60
0.1
5
0.05
0.25
0.05
6
0.05
0.30
0.3
0.25
0.2
0.15
0
1
2
3
4
5
6
Total
1
2.60
𝑬(𝑿) = 𝟐. 𝟔
En promedio se necesitarán alrededor de 2.6 trabajadores (o sea entre 2 y 3 trabajadores)
• La Varianza Poblacional 𝜎𝑋2 ≡ 𝑉(𝑋): = 𝐸[(𝑋 − 𝜇𝑋 )2 ]. Es la distancia al cuadrado y promedio
entre un valor cualquiera de 𝑿 y 𝝁𝑿 . Mide la “variabilidad” presente en los valores de 𝑋.
2
2
2
2
2
2
Fórmula de cálculo para la varianza: 𝜎𝑋 = 𝐸[(𝑋 − 𝜇𝑋 ) ] = 𝐸(𝑋 ) − (𝜇𝑋 ) = 𝐸(𝑋 ) − [𝐸(𝑋)]
(luego demostraremos esta fórmula, pero la usaremos libremente).
• La Desviación Estándar 𝝈𝑿 = √𝝈𝟐𝑿 . 𝜎𝑋 se interpreta como la distancia promedio entre la variable 𝑋
y la constante 𝜇𝑋 que usamos para representar a todos los valores posibles de 𝑋. Mide el "margen de
error" de 𝜇𝑋 como representante de 𝑋:
El pronóstico para 𝑋 sería 𝑋 ≅ 𝜇𝑋 , pero este pronóstico no es exacto, tendrá un “margen de error”, este
margen de error se mide con 𝜎𝑋 , y en este caso, nuestro pronóstico para 𝑋, incluyendo margen de error
sería 𝑋 = 𝜇𝑋 ± 𝜎𝑋 o en forma de intervalo ⏟
𝜇𝑋 − 𝜎𝑋 ≤ 𝑋 ≤ 𝜇𝑋 + 𝜎𝑋 . Este intervalo tiene más de 50%
𝑉𝑎𝑙𝑜𝑟𝑒𝑠+𝑝𝑟𝑜𝑏𝑎𝑏𝑙𝑒𝑠 𝑝𝑎𝑟𝑎 𝑋
de probabilidad (alrededor de 70%), por eso se toma como “los valores más probables para X”
Nota: Por el momento, la varianza 𝜎𝑋2 será sólo un paso intermedio para hallar 𝜎𝑋 .
Ejemplo 13
Para 𝑋 = precio ganador en la privatización de una empresa pública (𝑋 en millones de unidades monetarias)
v.a. continua con 𝑓𝑋 (𝑥) = 2𝑥 0 ≤ 𝑥 ≤ 1
a) Halle el “rango de valores más probables para 𝑋”: 𝜇𝑋 − 𝜎𝑋 ≤ 𝑋 ≤ 𝜇𝑋 + 𝜎𝑋 y su probabilidad.
b) Si la privatización implica el pago de 5 mil unidades monetarias a una empresa tasadora y el pago de un
4% de la venta a una empresa encargada de la privatización ¿Cuál es el Ingreso esperado para el Estado?
54
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Solución:
+∞
𝑥3
1
𝟐
𝟐
a) 𝝁𝑿 = 𝑬(𝑿) = ∫−∞ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 = ∫0 𝑥2𝑥𝑑𝑥 = 2 3 ]10 = 𝟑 = 𝟎. 𝟔𝟕 millones. Como 𝝁𝑿 = 𝑬(𝑿) = 𝟑,
aplicando la propiedad 𝜎𝑋2 ≡ 𝑉(𝑋) = 𝐸(𝑋 2 ) − 𝜇𝑋2 , sólo necesitamos hallar 𝐸(𝑋 2 ):
+∞
1
𝑥4
1
𝟏
𝐸(𝑋 2 ) = ∫−∞ 𝑥 2 𝑓𝑋 (𝑥)𝑑𝑥 = ∫0 𝑥 2 2𝑥 𝑑𝑥 = [ 2 ] = 𝟐
 𝝈𝟐
𝑿
2 2
𝟏
0
𝟏
= 𝟐 − (3) = 𝟏𝟖 y por tanto 𝜎𝑋 =
√𝜎𝑋2
= √1/18 = 0.24.
𝟐
1
𝟐
1
El intervalo de ‘valores más probables’ de 𝑋 es o 𝜇𝑋 − 𝜎𝑋 ≤ 𝑋 ≤ 𝜇𝑋 + 𝜎𝑋 = 𝟑 − √18 ≤ 𝑋 ≤ 𝟑 + √18
𝟎. 𝟔𝟕 − 0.24 ≤ 𝑋 ≤ 𝟎. 𝟔𝟕 + 0.24 ≡ 0.67 ± 0.24 o sea [0.43, 0.91], i.e. esperamos un precio de
venta entre 430 mil y 910 mil unidades monetarias.
0.91
Además 𝑃(𝜇𝑋 − 𝜎𝑋 ≤ 𝑋 ≤ 𝜇𝑋 + 𝜎𝑋 ) = 𝑃(0.43 ≤ 𝑋 ≤ 0.91) = ∫0.43 2𝑥𝑑𝑥 = 0.6432 > 0.5
b) Sea 𝑌 = 𝐻(𝑋) = Ingreso del Estado 𝑌 = 𝐻(𝑋) = 𝑋 − (0.05 + 0.04𝑋) = 0.96𝑋 − 0.05 
+∞
1
1
𝐸(𝑌) = 𝐸(𝐻(𝑋)) = ∫−∞ 𝑯(𝒙)𝒇𝑿 (𝒙)𝒅𝒙 = ∫0 (0.96𝑥 − 0.05)𝟐𝒙 𝑑𝑥 = 0.96 ∫
⏟0 𝑥2𝑥𝑑𝑥 −
1
0.05 ∫
⏟0 2𝑥𝑑𝑥
1
𝐸(𝑋)
2
= 0.96𝐸(𝑋) − 0.05 = 0.96 × 3 − 0.05 = 0.59: el Estado “espera” recibir 590,000
unidades monetarias por la empresa, no será necesariamente esa cantidad exacta, recordemos, pero sí se
“espera” que recibir “alrededor” de esa cantidad.
Propiedad (demostración después):
Si 𝒀 = 𝒂 + 𝒃𝑿 ∀𝑿, entonces 𝑬(𝒀) = 𝒂 + 𝒃𝑬(𝑿) y 𝑽(𝒀) = 𝒃𝟐 𝑽(𝑿).
Si aplicamos esta propiedad a b) del ejemplo anterior, el resultado es más rápido:
𝑏
𝑎
2
⏞
⏞ 𝑋 −0.05
𝑌 = 0.96
𝐸(𝑌) = 0.96𝐸(𝑋) − 0.05 = 0.96( ) − 0.05 = 0.59 y además
3
1
𝝈𝟐𝒀 ≡ 𝑽(𝒀) = 𝟎. 𝟗𝟔𝟐 𝑽(𝑿) = 0.962 𝜎𝑋2 = 0.962 (18) = 𝟎. 𝟎𝟓𝟏𝟐 y 𝜎𝑌 = 0.96𝜎𝑋 = 0.96√1/18 = 0.226
o sea se espera que el ingreso del estado esté dentro de 𝜇𝑌 − 𝜎𝑌 ≤ 𝑌 ≤ 𝜇𝑌 + 𝜎𝑌 , que es el intervalo
[0.364 , 0.816]: El estado recibirá entre 364,000 y 816,000 u.m. netos
Proposición (Desigualdad de Tchebychev)
Si 𝑋 es v.a. con media 𝜇𝑋 y desviación estándar 𝜎𝑋 . Sea k una constante positiva dada, entonces:
1
𝟏
𝑃[|𝑋 − 𝜇𝑋 | < 𝑘𝜎𝑋 ] ≥ 1 − 𝑘 2 o equivalentemente 𝑷(𝝁𝑿 − 𝒌𝝈𝑿 < 𝑿 < 𝝁𝑿 + 𝒌𝝈𝑿 ) ≥ 𝟏 − 𝒌𝟐 ∀𝒌 > 𝟎
Por ejemplo:
1
= 0.75
22
1
𝑘 = 3 ⇒ 𝑃(𝜇𝑋 − 3𝜎𝑋 < 𝑋 < 𝜇𝑋 + 3𝜎𝑋 ) ≥ 1 − 2 = 0.89
3
Esta desigualdad muestra cómo 𝜇𝑋 puede “representar bien” a la “mayoría de valores de 𝑋” y también
cómo 𝜎𝑋 mide el “margen de error” asociado a ese uso de 𝜇𝑋 . Por ello el valor esperado es otra manera de
hacer pronósticos, pero “a largo plazo”, porque es un promedio:
𝑘 = 2 ⇒ 𝑃(𝜇𝑋 − 2𝜎𝑋 < 𝑋 < 𝜇𝑋 + 2𝜎𝑋 ) ≥ 1 −
Pronósticos para una v.a. 𝑿:
(1) Para corto plazo o para una situación de momento, se usa la probabilidad. Si el evento de interés, en
términos de 𝑋 tiene “alta” probabilidad, apostaremos por la ocurrencia de ese evento, pronosticaremos
que si ocurrirá.
55
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
(2) Para “largo plazo” o “a la larga” o “para situaciones repetidas” o “en el equilibrio”, usamos el valor
esperado, que nos da un valor alrededor de cual estará 𝑋 con mayor probabilidad.
Variable estandarizada de 𝑿 (clasificación de valores de una v.a. en tres categorías)
𝒁𝑿 =
𝑺𝒊 𝒁 > 𝟏: 𝑿 − 𝝁𝑿 > 𝝈𝑿 : 𝑿 > 𝝁𝑿 + 𝝈𝑿 ∶ 𝑿 𝒆𝒔𝒕𝒂 "arriba del promedio"
𝑿 − 𝝁𝑿
= { 𝑺𝒊 − 𝟏 ≤ 𝒁 ≤ 𝟏: 𝝁𝑿 − 𝝈𝑿 < 𝑿 < 𝝁𝑿 + 𝝈𝑿 : 𝑿 está "en el promedio"
𝝈𝑿
𝑺𝒊 𝒁 < −𝟏: 𝑿 − 𝝁𝑿 < −𝝈𝑿 : 𝑿 < 𝝁𝑿 − 𝝈𝑿 : 𝑿 𝒆𝒔𝒕á "debajo del promedio"
Variable 𝑿 “tipificada”:
𝑻 = 𝟓𝟎 + 𝟏𝟎𝒁𝑿 (Tiene media 50 y d. estándar 10)
Ejemplo 14 (Uso del valor esperado para controlar una v.a.)
El distribuidor de un solvente industrial tiene la política de comprar al inicio de la temporada de ventas
una existencia (‘stock’) de 𝑆 unidades de volumen a 4 unidades monetarias (precio unitario) y durante la
temporada no compra más de ese producto. En la temporada vende el producto a 7 unidades monetarias
por unidad de volumen; al final de temporada remata el sobrante a 3 unidades monetarias por unidad de
volumen.
Sabemos que la demanda durante la temporada (cantidad demandada) de solvente al distribuidor es una
1
v.a.c. 𝑋 con función de densidad 𝑓𝑋 (𝑥) = 100 𝑠𝑖 0 < 𝑥 < 100
a) Escriba la función de utilidad o “ganancia” 𝑈 = 𝑈(𝑋, 𝑆) del distribuidor
b) Determine el valor óptimo de 𝑆 que maximiza la Utilidad esperada 𝐸[𝑈(𝑋, 𝑆)].
Solución:
a) Sea 𝑈 la utilidad, entonces 𝑈 depende de 𝑆 y de 𝑋:
• Si 𝑋 ≤ 𝑆 ⇒ durante la temporada vende 𝑋 unidades y al final de la temporada remata (𝑆 − 𝑋)
unidades, de modo que 𝑈 = [7𝑋 + 3(𝑆 − 𝑋)] − 4𝑆 = 4𝑋 − 𝑆
• Si 𝑿 > 𝑺 ⇒ durante la temporada vende todo su stock 𝑆, quedando demanda insatisfecha por (𝑋 − 𝑆)
unidades de volumen. En este caso 𝑈 = 7𝑆 − 4𝑆 = 3𝑆
En resumen 𝑈 = 𝑈(𝑋, 𝑆) = {
4𝑋 − 𝑆 𝑠𝑖 𝑋 ≤ 𝑆
3𝑆
𝑠𝑖 𝑋 > 𝑆
b) 𝑈 tiene una componente aleatoria X y otra no aleatoria S y tomando valor esperado:
𝜙(𝑆) ≔ 𝐸[𝑈] = 𝐸[𝑈(𝑋, 𝑆)] que solo es una función de S ( 𝑋 “desaparece” al tomar valor esperado).
Calculemos 𝑆 de modo que maximice 𝜙(𝑆) para determinar una ‘tendencia óptima’ para la utilidad
U:
+∞
100
𝜙(𝑆) = 𝐸[𝑈(𝑋, 𝑆)] = ∫ 𝑈(𝑥; 𝑆)𝑓𝑋 (𝑥)𝑑𝑥 = ∫
−∞
100
𝑆
∫ 𝑈(𝑥; 𝑆)𝑓𝑋 (𝑥)𝑑𝑥 + ∫
0
𝑆
𝑈(𝑥; 𝑆)𝑓𝑋 (𝑥)𝑑𝑥 =
𝑆
100
= ∫ (4𝑥 − 𝑆)𝑓𝑋 (𝑥)𝑑𝑥 + ∫
0
𝐹𝑋 (𝑠)
𝑈(𝑥; 𝑆)𝑓𝑋 (𝑥)𝑑𝑥 =
0
𝑆
𝑆
𝑆
100
3𝑆𝑓𝑋 (𝑥)𝑑𝑥 = ∫ 4𝑥𝑓𝑋 (𝑥)𝑑𝑥 − ∫ 𝑆𝑓𝑋 (𝑥)𝑑𝑥 + ∫
1−𝐹𝑋 (𝑠)
0
0
3𝑆𝑓𝑋 (𝑥)𝑑𝑥 =
𝑆
𝑆
⏞𝑆
𝑆
⏞100
∫0 4𝑥𝑓𝑋 (𝑥)𝑑𝑥 − 𝑆 ∫0 𝑓𝑋 (𝑥)𝑑𝑥 + 3𝑆 ∫𝑆 𝑓𝑋 (𝑥)𝑑𝑥 = 4 ∫0 𝑥𝑓𝑋 (𝑥)𝑑𝑥 − 𝑆𝐹𝑋 (𝑆) + 3𝑆[1 − 𝐹𝑋 (𝑆)] =
𝑺
𝟒 ∫𝟎 𝒙𝒇𝑿 (𝒙)𝒅𝒙 − 𝟒𝑺𝑭𝑿 (𝑺) + 𝟑𝑺 =: 𝝓(𝑺) = 𝑬[𝑼(𝑿, 𝑺)], que explícitamente es una función
diferenciable de S.
Derivando con respecto a 𝑆 para maximizar 𝜙(𝑆) = 𝐸[𝑈(𝑋, 𝑆)]:
𝑑
(𝝓(𝑺)) = 𝜙′(𝑆) = 0 equivale a
𝑑𝑠
56
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝜙′(𝑆) = 4𝑆𝑓𝑋 (𝑆) − 4𝐹𝑋 (𝑆) − 4𝑆𝑓𝑋 (𝑆) + 3 = −4𝐹𝑋 (𝑆) + 3 = 0 ⇒
3
𝐹𝑋 (𝑆) = 4 es la condición que debe satisfacer 𝑆 y como 𝜙′′(𝑆) = −4𝑓𝑋 (𝑆) < 0, se trata de un
máximo.
1
𝑠 1
𝑆
3
𝑆
3
De 𝑓𝑋 (𝑥) = 100 𝑠𝑖 0 < 𝑥 < 100 ⇒ 𝐹𝑋 (𝑠) = ∫0 100 𝑑𝑥 = 100 ⇒ 𝐹𝑋 (𝑆) = 4 ⇒ 100 = 4 ⇒ 𝑺 = 𝟕𝟓 es el
“stock óptimo” 𝑆, el que maximiza la Utilidad esperada por temporada. Este es un ejemplo simple de
cómo podemos “controlar” indirectamente una variable aleatoria para que “en promedio” genere
resultados “óptimos” en términos económicos.
57
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
2.5.2 Propiedades del operador Valor Esperado.
El Valor esperado es una herramienta que se usa para hacer pronósticos, pero también para hacer teoría.
Como ya se mencionó, el economista elabora sus “modelos” en modo determinista principalmente, sin
considerar efectos de azar, y esto se hace elaborando tales modelos en “valor esperado”. O si el modelo
origina tiene algunas componentes económicas no aleatorias y otras aleatorias, se toma valor esperado al
modelo teórico y se elimina así la parte aleatoria, que se considera sólo “ruido” que no tiene componentes
sistemáticas sino sólo azarosas.
Por lo anterior, es importante estudiar las propiedades formales del valor esperado. En lo que sigue veremos
algunas.
Propiedad 1
Sea 𝑋 es v.a. y c una constante. Entonces se cumple que 𝐸(𝑐) = 𝑐
Pues (caso X discreta): aplicando la definición 𝐸(𝑐) = ∑𝑥∈𝑅𝑋 𝑐𝑃𝑋 (𝑥) = 𝑐 ∑
⏟𝑥∈𝑅𝑋 𝑃𝑋 (𝑥) = 𝑐
1
Propiedad 2
Sea 𝑋 v.a., a una constante dada y sea 𝐻1 (𝑋) función de X. Entonces 𝐸[𝑎𝐻1 (𝑋)] = 𝑎𝐸[𝐻1 (𝑋)].
Pues (para X discreta): Aplicando la def. cuando 𝐻(𝑋) = 𝑎𝐻1 (𝑋)
𝐸(𝑎𝐻1 (𝑋)) = ∑ 𝑎𝐻1 (𝑥)𝑃𝑋 (𝑥) = 𝑎 ∑ 𝐻1 (𝑥)𝑃𝑋 (𝑥)
𝑥∈𝑅𝑋
𝑥∈𝑅
⏟ 𝑋
𝐸(𝐻1 (𝑥))
Propiedad 3
Sea X v.a., a y b constantes dadas y sean 𝐻1 (𝑋) y 𝐻2 (𝑋) funciones de X. Entonces
𝐸[𝑎𝐻1 (𝑋) + 𝑏𝐻2 (𝑋)] = 𝑎𝐸[𝐻1 (𝑋)] + 𝑏𝐸[𝐻2 (𝑋)]
Pues (caso X discreta): Aplicando la definición de valor esperado al caso particular 𝐻(𝑋) = 𝑎𝐻1 (𝑋) +
𝑏𝐻2 (𝑋):
𝐸[𝑎𝐻1 (𝑋) + 𝑏𝐻2 (𝑋)] = ∑ (𝑎𝐻1 (𝑥) + 𝑏𝐻2 (𝑥))𝑃𝑋 (𝑥) =
𝑥∈𝑅𝑋
= ∑ (𝑎𝐻1 (𝑥)𝑃𝑋 (𝑥) + 𝑏𝐻2 (𝑥)𝑃𝑋 (𝑥)) = ∑ 𝑎𝐻1 (𝑥)𝑃𝑋 (𝑥) + ∑ 𝑏𝐻2 (𝑥)𝑃𝑋 (𝑥) =
𝑥∈𝑅𝑋
𝑥∈𝑅𝑋
𝑥∈𝑅𝑋
= 𝑎 ∑ 𝐻1 (𝑥)𝑃𝑋 (𝑥) + 𝑏 ∑ 𝐻2 (𝑥)𝑃𝑋 (𝑥) = 𝑎𝐸[𝐻1 (𝑋)] + 𝑏𝐸[𝐻2 (𝑋)]
𝑥∈𝑅𝑋
𝐸(∑𝑛𝑖=1 𝑎𝑖 𝐻𝑖 (𝑋))
𝑥∈𝑅𝑋
= ∑𝑛𝑖=1 𝑎𝑖 𝐸(𝐻𝑖 (𝑋))
Nota:
donde las 𝑎𝑖 son no aleatorias
Corolarios
(1) 𝐸(𝑋 − 𝜇𝑋 ) = 0. Pues aplicando las propiedades 1 y 3: 𝐸(𝑋 − 𝜇𝑋 ) = 𝐸(𝑋) − 𝐸(𝜇𝑋 ) = 𝜇𝑋 − 𝜇𝑋 = 0.
(2) 𝜎𝑋2 = 𝑉(𝑋) = 𝐸(𝑋 2 ) − 𝜇𝑋2 . Pues 𝑉(𝑋): = 𝐸[(𝑋 − 𝜇𝑋 )2 ] = 𝐸[𝑋 2 − 2𝑋𝜇𝑋 + 𝜇𝑋2 ] =
𝐸[𝑋 2 ] − 𝐸[2𝑋𝜇𝑋 ] + 𝐸[𝜇𝑋2 ] = 𝐸[𝑋 2 ] − 2𝜇𝑋 𝐸[𝑋]
⏟ + 𝜇𝑋2 = 𝐸[𝑋 2 ] − 2𝜇𝑋2 + 𝜇𝑋2 = 𝐸[𝑋 2 ] − 𝜇𝑋2 .
𝜇𝑋
(3) Si 𝑌 = 𝑎 + 𝑏𝑋 ∀𝑋, entonces 𝐸(𝑌) = 𝑎 + 𝑏𝐸(𝑋) y 𝑉(𝑌) = 𝑏 2 𝑉(𝑋).
Pues 𝐸(𝑌) = 𝐸(𝑎 + 𝑏𝑋) = 𝐸(𝑎) + 𝑏𝐸(𝑋) = 𝑎 + 𝑏𝐸(𝑋) ;
𝑉(𝑌) = 𝐸[(𝑌 − 𝐸(𝑌))2 ] =
𝐸[(𝑎 + 𝑏𝑋 − 𝑎 − 𝑏𝐸(𝑋))2 ] = 𝐸[(𝑏𝑋 − 𝑏𝐸(𝑋))2 ] = 𝐸[𝑏 2 (𝑋 − 𝐸(𝑋))2 ] =
𝑏 2 𝐸[(𝑋 − 𝐸(𝑋))2 ] = 𝑏 2 𝑉(𝑋) ≡ 𝑏 2 𝜎𝑋2 . Otra consecuencia es que 𝜎𝑌 = √𝑏 2 𝑉(𝑋) = |𝑏|𝜎𝑋 .
58
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Observación:
La propiedad (2) se conoce como “fórmula de cálculo de la varianza”. A veces será útil recordar que
𝐸(𝑋 2 ) = 𝜎𝑋2 + 𝜇𝑋2 .
Considerando al símbolo E[•] como un “operador”, resulta que tiene las propiedades de un “operador
lineal”, compartidas con otros operadores análogos y ya conocidos, como la derivada, por ejemplo.
Sin embargo, debe notarse que en general 𝐸[𝐻(𝑋)] ≠ 𝐻(𝐸[𝑋])
Ejemplo 15
Si el número X de trabajadores necesarios para hacer una tarea especializada es una v.a. discreta de la
cual se sabe lo siguiente
X
1
2
3
4
5
6
7
PX(x)
0.12
a
0.30
0.15
0.10
0.03
b
FX(x)
0.12
0.40
0.70
0.85
0.95
0.98
1
a) Halle los valores de a y b.
b) ¿Cuántos trabajadores esperaría necesitar para una de estas tareas?
c) Por realizar una tarea se cobrará 9,000 unidades monetarias, pero se necesitará alquilar maquinaria por
valor de 3000 unidades monetarias y además cada trabajador que participa en la tarea recibe un pago de
1,500 unidades monetarias. En este contexto ¿cuál sería función de la utilidad H(X) lograda por
realizar la tarea? ¿Cuál sería la utilidad esperada o promedio?
Solución:
a)
X
1
2
3
4
5
6
7
PX(x)
0.12
a
0.30
0.15
0.10
0.03
b
FX(x)
0.12
0.40
0.70
0.85
0.95
0.98
1
En el caso de X discreta, la probabilidad acumulativa se obtiene sumando probabilidades de menor a
mayor valor de x, o sea𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∑𝑥𝑗|𝑥𝑗≤𝑥 𝑃(𝑋 = 𝑥𝑗 ) = ∑𝑥𝑗|𝑥𝑗≤𝑥 𝑃𝑋 (𝑥𝑗 ), así tenemos que en
particular:
𝐹𝑋 (2) = 𝑃(𝑋 ≤ 2)) = 𝑃𝑋 (1) + 𝑃𝑋 (2) = 0.12 + 𝑎; pero de la tercera línea de los datos: 𝐹𝑋 (2) = 0.4,
luego 0.12 + 𝑎 = 0.4 ⇒ 𝑎 = 0.28;
También 1 = 𝐹𝑋 (7) = 𝑃(𝑋 ≤ 7) = 𝑃(𝑋 ≤ 6) + 𝑃𝑋 (7) ⇒ 1 = 0.98 + 𝑏 ⇒ 𝑏 = 0.02 y así podemos
escribir:
X
PX(x)
1
0.12
2
0.28
3
0.30
4
0.15
5
0.10
6
0.03
7
0.02
b) También nos piden el “valor esperado de X” 𝐸(𝑋) = ∑𝑥 𝑥 𝑃𝑋 (𝑥) = 1 × 𝑃𝑋 (1) + 2 × 𝑃𝑋 (2) + ⋯ +
7 × 𝑃𝑋 (7).
Mejor ordenamos en una tabla para facilitar cálculos:
x
1
2
3
4
5
6
7
Total
PX(x)
0.12
0.30
0.15
0.10
0.03
0.28
0.02
1
xPX(x)
0.12
0.56
0.90
0.60
0.50
0.18
0.14
3=E(X)
En promedio se necesitan unos tres trabajadores para realizar una tarea.
c) 𝑈𝑡𝑖𝑙𝑖𝑑𝑎𝑑 = 𝐻(𝑋) = 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 𝑡𝑜𝑡𝑎𝑙 − 𝐶𝑜𝑠𝑡𝑜 𝑡𝑜𝑡𝑎𝑙 = 9,000 − 3,000 − 1,500𝑋 = 6,000 − 1,500𝑋
y se ve que 𝐻(𝑋) es función lineal de la v.a. X, podemos aplicar propiedades lineales del valor
esperado:
𝐸(𝑈𝑡𝑖𝑙𝑖𝑑𝑎𝑑) = 𝐸(𝐻(𝑋)) = 𝐸(9,000 − 3,000 − 1,500𝑋) = 𝐸(6,0000 − 1,500𝑋) =
59
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
6,000 − 1,500𝐸(𝑋) = 6,000 + 1,500 × 3 = 1,500
Ejemplo 16
Un economista evalúa rentabilidades de inversiones en empresas locales y para la empresa “Construir”
encuentra que la rentabilidad anual (en puntos porcentuales) es una variable aleatoria continua X con
función de densidad 𝑓𝑋 (𝑥) = 𝑐√𝑥 1 ≤ 𝑥 ≤ 8 mientras que con la empresa “BankGroup” la rentabilidad
(también en puntos porcentuales) es v.a.c. 𝑌 con función de densidad 𝑔𝑌 (𝑦) = 𝑑(𝑦 − 1)2 1 ≤ 𝑦 ≤ 7 .
a) Halle las constantes c y d.
b) Una persona tiene un millón de unidades monetarias y no sabe si invertir en una cuenta a plazo fijo de
un año en un banco, donde le ofrecen 5 puntos porcentuales o si invertir en una de las dos empresas
¿Qué recomendaría usted? Justifique con estadística.
c) Si un inversionista quiere invertir en una de las dos empresas, dejando su inversión un buen tiempo en
la empresa que escoja ¿A largo plazo dónde convendría invertir?
Solución:
a) En el caso de Construir: 1 =
2𝑐
3
+∞
∫−∞ 𝑓𝑋 (𝑥) 𝑑𝑥
=
8
∫1 𝑐 √𝑥 𝑑𝑥
1
(16√2 − 1) = 14.42𝑐 = 1 ⇒ 𝑐 = 14.418 y 𝑓𝑋 (𝑥) =
+∞
7
=
8 1
𝑐 ∫1 𝑥 2
√𝑥
14.418
8
3
𝑑𝑥 = 𝑐 (
𝑥2
3
2
) =
2𝑐
3
1
(√83 − √1) =
1 ≤ 𝑥 ≤ 8.
7
6
Con BankGroup: 1 = ∫−∞ 𝑔𝑌 (𝑦) 𝑑𝑦 = ∫1 𝑑(𝑦 − 1)2 𝑑𝑦 = 𝑑 ∫1 (𝑦 − 1)2 𝑑𝑦 = 𝑑 ∫0 (𝑢)2 𝑑𝑢 =
𝑢3
6
1
𝑑 ( 3 ) = 72𝑑 ⇒ 𝑑 = 72 y finalmente 𝑔𝑌 (𝑦) =
(𝑦−1)2
72
0
1 ≤ 𝑦 ≤ 7.
(en la integral se hizo el “cambio de variable” 𝑢 = 𝑦 − 1 ⇒ 𝑦 = 𝑢 + 1, 𝑑𝑦 = 𝑑𝑢; (𝑦 = 1 ⇒ 𝑢 = 0);
7
6
(𝑦 = 7 ⇒ 𝑢 = 6) ⇒ ∫1 (𝑦 − 1)2 𝑑𝑦 = ∫0 (𝑢)2 𝑑𝑢); también se puede hacer desarrollando (𝑦 − 1)2 e
integrando después. Y
b) En este caso es una decisión para un año. Tendremos que calcular probabilidades 𝑃(𝑋 > 5), 𝑃(𝑌 > 5)
y sólo si al menos una de ellas es superior a 0.5 optaremos por invertir, y hacerlo en la empresa que
tenga mayor probabilidad de rendir más de 5%, caso contrario, lo mejor es poner el dinero en el banco:
3
En Construir: 𝑃(𝑋 > 5) =
8 √𝑥
∫5 14.42 𝑑𝑥
1
= 14.42 (
𝑥2
3
2
8
3
1
5
5
1 6 2
∫ 𝑢 𝑑𝑢
72 4
7 (𝑦−1)2
8
) = 21.63 (𝑥 2 ) = 0.53
En BankGroup: 𝑃(𝑌 > 5) = ∫5 72 𝑑𝑦 =
= 0.70; en ambos casos, hay más probabilidad
de superar la rentabilidad fija que ofrece el banco, pero en BankGroup esta probabilidad es mayor.
Recomendaría invertir en BankGroup y no depositar en la cuenta a plazo fijo que ofrece el banco.
c) Sobre dónde conviene invertir “a largo plazo”, esto se refiere al valor esperado o promedio de las
rentabilidades 𝑋 e 𝑌. Convendría aquella empresa con mayor rentabilidad esperada, y que sea positiva
por supuesto.
+∞
8
√𝑥
1
8
Rentabilidad esperada en Construir: 𝜇𝑋 = ∫−∞ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 = ∫1 𝑥 14.418 𝑑𝑥 = 14.418 ∫1 𝑥 3/2 𝑑𝑥 =
5
1
14.418
(
𝑥2
5
2
8
1
) = 36.045 (√85 − 1) = 4.99
1
+∞
𝟕
Rentabilidad esperada en BankGroup: 𝝁𝒀 = ∫−∞ 𝒚𝒈𝒀 (𝒚) 𝒅𝒚 = ∫𝟏 𝒚
𝟏
𝟔
𝟏
𝒖𝟒
∫ (𝒖 + 𝟏)𝒖𝟐 𝒅𝒚 = 𝟕𝟐 ( 𝟒 −
𝟕𝟐 𝟎
𝟔
𝒖𝟑
𝟑𝟗𝟔
𝟎
𝟕𝟐
) =
𝟑
(𝒚−𝟏)𝟐
𝟕𝟐
𝒅𝒚 =
= 𝟓. 𝟓; entonces le conviene invertir en BankGroup
60
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
2.6 Función Generatriz de Momentos y Cambio de Variable
2.6.1 Función Generatriz de Momentos
Definición 1
Si X es v.a., se define el “k-ésimo Momento Poblacional” denotado 𝑚𝑘 mediante 𝑚𝑘 = 𝐸(𝑋 𝑘 ) , 𝑘 =
0,1,2, … (𝑚𝑘 es la “media” de la k-ésima potencia de X); 𝑚1 = 𝐸(𝑋1 ) = 𝐸(𝑋) = 𝜇𝑋 , la “media de X”;
𝑚2 = 𝐸(𝑋 2 ) = 𝜎𝑋2 + (𝜇𝑋 )2 = 𝜎𝑋2 + 𝜇𝑋2
Definición 2
Si X es v.a., se define la Función Generatriz de Momentos de X, denotada 𝑀𝑋 (𝑡) mediante
𝑀𝑋 (𝑡) ≔ 𝐸(𝑒 𝑡𝑋 ) donde es variable no aleatoria o variable matemática, definida en un entorno de 0.
Nótese que 𝑀𝑋 (0) = 1.
Proposición 1
(𝑘)
𝑀𝑋 (0) = 𝐸(𝑋 𝑘 ) = 𝑚𝑘 , si existe el valor esperado.
Demostración:
•
∀
𝑍
𝑍𝑘
𝑟𝑒𝑎𝑙 𝑒 𝑍 = ∑∞
𝑘=0 𝑘! = 1 + 𝑍 +
(𝑡𝑋)𝑘
𝑡𝑘
𝑍2
𝑡
2!
+
𝑍3
3!
𝑡2
+. ..
𝑡3
•
𝑒 𝑡𝑋 = ∑∞
𝑘=0
•
Tomando valor esperado para tener 𝑀𝑋 (𝑡): = 𝐸(𝑒 𝑡𝑋 ):
𝑡
𝑡2 2 𝑡3 3
𝑡
𝑡2
𝑡3
𝑡𝑋
2
𝑀𝑋 (𝒕) = 𝐸(𝑒 ) = 𝐸 (1 + 𝑋 + 𝑋 + 𝑋 +. . . . ) = 1 + 𝐸(𝑋) + 𝐸(𝑋 ) + 𝐸(𝑋 3 )+. . ..
1!
2!
3!
1!
2!
3!
Derivando 𝑀𝑋 (𝑡) con respecto a t
•
(1)
𝑘!
𝑘
2
3
= ∑∞
𝑘=0 𝑘! 𝑋 = 1 + 1! 𝑋 + 2! 𝑋 + 3! 𝑋 +. . ..
𝑡1
𝑡2
𝑡1
𝑡2
𝑀𝑋 (𝑡) = 𝐸(𝑋) + 2 2! 𝐸(𝑋 2 ) + 3 3! 𝐸(𝑋 3 )+. . . . = 𝐸(𝑋) + 1! 𝐸(𝑋 2 ) + 2! 𝐸(𝑋 3 )+. .. Si evaluamos en
•
(1)
𝑡 = 0 llegamos a 𝑀𝑋 (0) = 𝐸(𝑋) = 𝑚1 .
Derivando dos veces 𝑀𝑋 (𝑡) con respecto a t
𝑡
𝑡
(2)
𝑀𝑋 (𝑡) = 𝐸(𝑋 2 ) + 2 2! 𝐸(𝑋 3 )+. . . = 𝐸(𝑋 2 ) + 1! 𝐸(𝑋 3 )+. .. y evaluando en 𝑡 = 0 llegamos a
(2)
(𝑘)
𝑀𝑋 (0) = 𝐸(𝑋 2 ) = 𝑚2 . Así, inductivamente se llega a 𝑀𝑋 (0) = 𝐸(𝑋 𝑘 ) = 𝑚𝑘
Proposición 2
Sean 𝑋 e 𝑌 son dos variables aleatorias entonces 𝑀𝑋 (𝑡) = 𝑀𝑌 (𝑡) ⇔ 𝐹𝑋 = 𝐹𝑌 (⇒ 𝑃𝑋 = 𝑃𝑌 𝑜 𝑓𝑋 = 𝑓𝑌 ).
La demostración de esta propiedad requiere técnicas fuera del alcance de este curso y no se hará aquí.
Esta propiedad significa que la función generatriz es como una huella dactilar de la distribución de la v.a.
en el sentido que si de 𝑋 conocemos 𝑓𝑋 y 𝑀𝑋 (𝑡), mientras que de 𝑌 sólo conocemos 𝑀𝑌 (𝑡), pero además
ocurre que 𝑀𝑌 (𝑡) coincide en forma general con 𝑀𝑋 (𝑡), entonces podemos decir que 𝑓𝑌 también
coincidirá en forma general con 𝑓𝑋 , que serán del mismo tipo o de la misma familia.
Ejemplo 17
1
Si 𝑃𝑋 (𝑥) = (2)𝑥 𝑥 = 1, 2, 3, . . . , ∞. Hallar 𝑀𝑋 (𝑡) y 𝜇𝑋 .
Solución:
𝑟
𝑗
Recordando la “serie geométrica”: ∑∞
𝑗=1 𝑟 = 1−𝑟 𝑠𝑖 0 < 𝑟 < 1
61
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
1
𝑥
𝑒𝑡
1
(𝑒 𝑡 /2)
∞
∞
∞
𝑡𝑥
𝑡𝑥
𝑥
𝑡 𝑥
𝑀𝑋 (𝑡) = 𝐸(𝑒 𝑡𝑋 ) = ∑∞
) = 1−(𝑒 𝑡 /2) (aplicando
𝑥=1 𝑒 𝑃𝑋 (𝑥) = ∑𝑥=1 𝑒 (2) = ∑𝑥=1(2 𝑒 ) = ∑𝑥=1 (
⏟
2
𝒓
t
la serie geométrica y tomando t de modo que (e /2) < 1). Entonces 𝑀𝑋 (𝑡) =
𝑒𝑡
2
𝑒𝑡
( )
1−( )
𝑒𝑡
= 2−𝑒 𝑡 𝑡 < 𝑙𝑛2
2
′
(𝑒 𝑡 /2)
′
Derivando con respecto a t: 𝑀 (𝑡) = [1−(𝑒 𝑡/2)]2 y evaluando en t=0 se obtiene 𝑀 (0) = 𝐸[𝑋] = 𝜇𝑋 =
(1/2)
[1−(1/2)]2
=2
2.6.2 Cambio de Variable (método de la distribución acumulativa)
“El problema del Cambio de Variable” es: Dada la v.a. 𝑋 e 𝑌 = 𝐻(𝑋), hallar la distribución de 𝑌 a
partir de la distribución de 𝑋.(distribución o sea la función de densidad o de probabilidad de H(X))
Hay varias alternativas de solución (una de ellas es usar 𝑀𝑋 (𝑡)). Nosotros exploraremos el caso en que 𝐻
tiene inversa (o sea 𝐻(𝑋) es creciente o es decreciente)
Sea 𝑮𝒀 (𝒚) la distribución acumulativa de 𝒀 = 𝑯(𝑿) y supongamos que 𝐻 es creciente. Si 𝐻 es
1
creciente, su función inversa 𝐻 −1 también es creciente (𝐻 creciente implica 𝐻 ′ > 0 y como (𝐻 −1 )′ = 𝐻 ′
entonces (𝐻 −1 )′ > 0, así que 𝐻 −1 resulta creciente). Recordando que una función creciente preserva las
desigualdades, en el caso de 𝐻 −1ocurre que: 𝑎 ≤ 𝑏 ⇒ 𝐻 −1 (𝑎) ≤ 𝐻 −1 (𝑏).
𝐺𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝐻(𝑋) ≤ 𝑦) = 𝑃(𝑋 ≤ 𝐻 −1 (𝑦)) = 𝐹𝑋 (𝐻 −1 (𝑦)), donde 𝐹𝑋 es la distribución
acumulativa de X. Conociendo 𝐺𝑌 (𝑦) podemos obtener la función de densidad 𝑔𝑌 (𝑦) o de probabilidad
𝑃𝑌 (𝑦) de Y mediante derivaciones o restas según sea el caso:
Si 𝑌 es discreta⇒ 𝑃𝑌 (𝑦) = 𝐺𝑌 (𝑦) − 𝐺𝑌 (𝑦 − 1) = 𝐹𝑋 (𝐻 −1 (𝑦)) − 𝐹𝑋 (𝐻 −1 (𝑦 − 1))
𝑑
𝑑
𝑑
Si 𝑌 es continua⇒ 𝑔𝑌 (𝑦) = 𝐺𝑌 (𝑦) = 𝐹𝑋 (𝐻 −1 (𝑦)) = 𝑓𝑋 (𝐻 −1 (𝑦)) × 𝐻 −1 (𝑦)
𝑑𝑦
𝑑𝑦
𝑑𝑦
−1
El caso en que 𝐻 es decreciente se trata de manera análoga. El método anteriormente usado se conoce
como Método de la Distribución Acumulativa y se puede ampliar al caso en que H no tiene inversa:
𝐺𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝐻(𝑋) ≤ 𝑦) = 𝑃(𝑋 ≥ 𝐻 −1 (𝑦)) = 1 − 𝑃(𝑋 < 𝐻 −1 (𝑦)) = 1 − 𝐹𝑋 (𝐻 −1 (𝑦))
Si 𝑌 es discreta⇒ 𝑃𝑌 (𝑦) = 𝐺𝑌 (𝑦) − 𝐺𝑌 (𝑦 − 1) = [1 − 𝐹𝑋 (𝐻 −1 (𝑦))] − [1 − 𝐹𝑋 (𝐻 −1 (𝑦 − 1))]
𝑑
𝑑
𝑑
Si 𝑌 es continua⇒ 𝑔𝑌 (𝑦) = 𝐺𝑌 (𝑦) = [1 − 𝐹𝑋 (𝐻 −1 (𝑦))] = −𝑓𝑋 (𝐻 −1 (𝑦)) × 𝐻 −1 (𝑦)
𝑑𝑦
𝑑𝑦
𝑑𝑦
Ejemplo 18
Para 𝑿 = precio ganador en la privatización de una empresa pública (𝑋 en millones de unidades monetarias)
v.a. continua con 𝒇𝑿 (𝒙) = 𝟐𝒙 𝟎 < 𝒙 ≤ 𝟏, sea 𝒀 = 𝑯(𝑿) = √𝑿 + 𝟏. Hallar la función de densidad de 𝑌.
Solución
▪ Primero especifiquemos el rango 𝑅𝑌 de 𝑌:
Como 0 < 𝑋 ≤ 1 ⇒ 0 < √𝑋 ≤ 1 y sumando 1 a ambos lados de la desigualdad tenemos
1 < √𝑋 + 1 ≤ 2 ⇒ 1 < 𝑌 ≤ 2 es el rango de la v.a. Y
▪ Ahora, sea 𝑦 ∈]1,2] y sea 𝐺𝑌 (𝑦) la distribución acumulativa de 𝑌. Entonces
𝐺𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(√𝑋 + 1 ≤ 𝑦) = 𝑃(√𝑋 ≤ 𝑦 − 1) = 𝑃(𝑋 ≤ (𝑦 − 1)2 ) = 𝐹𝑋 ((𝑦 − 1)2 ).
Derivando con respecto a 𝑦 obtenemos
𝑔(𝑦) = 𝐺𝑌′ (𝑦) = 𝐹𝑋′ ((𝑦 − 1)2 ) × 2(𝑦 − 1) = 𝑓𝑋 ((𝑦 − 1)2 ) × 2(𝑦 − 1). Ya vimos que 𝑓𝑋 (𝑥) = 2𝑥,
por tanto 𝑔(𝑦) = 2(𝑦 − 1)2 × 2(𝑦 − 1) = 4(𝑦 − 1)3 y así tenemos que
𝒈𝒀 (𝒚) = 𝟒(𝒚 − 𝟏)𝟑 𝒔𝒊 𝟏 < 𝒚 ≤ 𝟐 es la función de densidad de Y.
62
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Capítulo 3
Modelos de Datos
3.1 Distribuciones importantes
Modelos de datos
Dada una v.a. 𝑋, bajos supuestos razonables derivados de la observación, se puede deducir la función de
probabilidad o densidad de X: 𝑓𝑋 (𝑥) a la que llamaremos el “modelo de datos” de X.
Población de 𝑿
Si 𝑋 representa una variable aleatoria con función 𝑓𝑋 (𝑥) de probabilidad o de densidad, llamaremos
“Distribución de 𝑋” al conjunto {(𝑥, 𝑓𝑋 (𝑥))|𝑥 ∈ 𝑅𝑋 } y escribiremos 𝑋~𝑓𝑋 (𝑥) para resaltar el hecho de ser
𝑓𝑋 (𝑥) la función de distribución de 𝑋. En lo que sigue, estudiaremos los modelos de datos de uso más
frecuente en Estadística, estos modelos sirven para representar procesos más complejos, que tienen una o
más componentes aleatorias.
3.1.1 Principales Modelos de datos: Distribución Normal 𝐍(𝛍, 𝛔𝟐 )
Es el modelo más usado de variable continua. Se presenta de modo natural cuando se trabaja con la
distribución de variables que son ellas mismas, sumas de un número muy grande de variables aleatorias,
como es el caso de muchas variables económicas que son "agregados", como la demanda global por
ejemplo.
Definición y Parámetros
Sea 𝑋 v.a. continua y sean 𝜇 y 𝜎 > 0 constantes reales de valor conocido. Diremos que 𝑋 tiene
distribución normal de media 𝜇 y varianza 𝜎 2 , si la función de densidad de 𝑋 es de la forma:
𝑓𝑋 (𝑥; 𝜇, 𝜎 2 ) =
2
2
𝑒 −(𝑥−𝜇) /2𝜎
√2𝜋𝜎
− ∞ < 𝑥 < +∞.
Parámetros
Los parámetros característicos de esta función de densidad son 𝜇 y 𝜎 2 , pues se puede demostrar que
𝐸(𝑋) = 𝜇𝑋 = 𝜇 y 𝑉(𝑋) = 𝜎𝑋2 = 𝜎 2
Observaciones
La distribución normal de parámetros 𝜇 y 𝜎 2 se denota 𝑵(𝝁, 𝝈𝟐 ) y el que 𝑋 tenga o siga esta función de
densidad, se denota mediante 𝑿~𝑵(𝝁, 𝝈𝟐 ). “~" significa “tiene distribución”
Aunque el rango teórico es −∞ < 𝑥 < +∞, en la práctica se observa que el 99.9% de los casos cae en el
intervalo 𝜇 − 3𝜎 ≤ 𝑥 ≤ 𝜇 + 3𝜎 y el 100% cae en 𝜇 − 4𝜎 ≤ 𝑥 ≤ 𝜇 + 4𝜎
La gráfica de la distribución 𝑓𝑋 (𝑥) tiene forma de campana y es simétrica con respecto a 𝜇, con puntos de
inflexión en 𝜇 ± 𝜎 y asintóticamente (valores grandes de 𝑋, ya sea positivos o negativos) se "pega" al eje
𝑋 como se ilustra en la figura 1, más abajo:
𝑓𝑋 (𝑥; 𝜇, 𝜊2 ) =
2
2
𝑒 −(𝑥−𝜇) /2𝜎
√2𝜋𝜎
=
1
2
2
(√2𝜋𝜎)(𝑒 (𝑥−𝜇) /2𝜎 )
− ∞ < 𝑥 < +∞,
63
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Figura 1 Gráfico de una distribución normal de media 10 y varianza 9
𝑋~𝑁(𝜇 = 10, 𝜎 2 = 9)
Relación de la gráfica de 𝒇𝑿 (𝒙) con 𝝁 y 𝝈𝟐
(1) Si 𝝁 cambia y 𝝈𝟐 se mantiene fija, la distribución se "traslada" en la misma dirección que 𝝁.
Esto se debe a que 𝝁 indica la posición promedio de X, es el valor más frecuente y representativo de la
distribución. La figura 2 ilustra estos cambios de posición:
Figura 2 Cambios en la posición de 𝒇𝑿 (𝒙) cuando 𝝁 varía, manteniéndose constante 𝝈𝟐
0.25
0.20
0.15
0.10
0.05
0.00
-10
-8
-6
-4
-2
N(-3,4)
0
N(0,4)
2
4
6
8
10
N(3,4)
(2) Si 𝝁 se mantiene fija y 𝝈𝟐 crece, la distribución se "aplana"; en cambio si 𝝈𝟐 disminuye, la distribución se "angosta".
Esto se debe a que 𝝈𝟐 mide la dispersión o variabilidad de X alrededor de la media 𝝁. Como los puntos
de inflexión de la gráfica (los puntos donde cambia su dirección decreciente y comienza a tender a la
horizontalidad) son 𝝁 − 𝝈 y 𝝁 + 𝝈, si 𝝈𝟐 crece, estos puntos se alejan, pero como el área total debe
seguir siendo uno, la gráfica debe “aplanarse” para mantener el área en uno. Por otra parte, si 𝝈𝟐 disminuye, los puntos de inflexión se acercan y para mantener el área total sin cambio, la gráfica tiene
que “elevarse”. La figura 3 de abajo ilustra lo anterior:
64
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Figura 3 Cambios en la forma de 𝒇𝑿 (𝒙) cuando 𝝈𝟐 varía, manteniéndose constante 𝝁
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.00
-6
-4
2 /2𝜎 2
2)
𝑒 −(𝑥−𝜇)
-2
0
2
N(0,4)
N(0,1)
4
6
N(0,0.25)
1
− ∞ < 𝑥 < +∞
2
2
(√2𝜋𝜎)(𝑒 (𝑥−𝜇) /2𝜎 )
√2𝜋𝜎
Valores Esperados y Función Generatriz de Momentos:
𝑓𝑋 (𝑥; 𝜇, 𝜊
=
=
𝑡2 2
𝐸(𝑋) = 𝜇𝑋 = 𝜇, 𝑉(𝑋) = 𝜎𝑋2 = 𝜎 2 y 𝑀𝑋 (𝑡) = 𝑒 𝑡𝜇+ 2 𝜎
𝑡∈ℝ
Nota:
Derivando 𝑀𝑋 (𝑡) y evaluando en cero se comprueba que 𝜇𝑋 = 𝜇 y que 𝜎𝑋2 = 𝜎 2
𝑀𝑋′ (𝑡)
= (𝑒
𝑡𝜇+
𝑡2 2
𝜎
2 ) (𝜇
+ 𝑡𝜎
2)
⇒
𝑀𝑋′ (0)
= 𝐸(𝑋) = (𝑒
0𝜇+
02 2
𝜎
2
) (𝜇
+ 0𝜎 2 ) = 𝜇
El cálculo de probabilidades con distribuciones normales se simplifica gracias a una propiedad interesante
de la distribución normal y su corolario. Esta propiedad dice que ‘funciones lineales de variables normales
también tienen distribución normal’. Esta propiedad es una de las llamadas Propiedades reproductivas,
aplicables a funciones lineales.
Propiedad
Si 𝑋~𝑁(𝜇, 𝜎 2 ) y se define 𝑌 = 𝐻(𝑋) = 𝑎 + 𝑏𝑋, donde 𝑎 y 𝑏 ≠ 0 son constantes o no aleatorias, entonces
2 2
se cumple 𝑌~𝑁(𝑎⏟+ 𝑏𝜇 , 𝑏⏟
𝜎 ).
𝜇𝑌
𝜎𝑌2
Demostración
Basta hallar la distribución acumulativa de 𝑌 y derivar para verificar que se obtiene la f. de densidad de
una distribución normal. Veamos el caso 𝑏 > 0 (o sea 𝑌 = 𝐻(𝑋) 𝑒𝑠 𝑐𝑟𝑒𝑐𝑖𝑒𝑛𝑡𝑒):
𝑦−𝑎
𝑦−𝑎
𝐺𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑎 + 𝑏𝑋 ≤ 𝑦) = 𝑃 (𝑋 ≤ 𝑏 ) = 𝐹𝑋 ( 𝑏 ). Sabemos que si derivamos 𝐺𝑌 (𝑦)
obtenemos la función de densidad 𝑔𝑌 (𝑦) de Y. Entonces:
65
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝑦−𝑎
2
2
(
−𝜇)
(𝑦−(𝑎+𝑏𝜇))
𝑦−𝑎
−
− 𝑏 2
2(𝑏𝜎)2
2𝜎
𝑑𝐺𝑌 (𝑦) 𝑑𝐹𝑋 ( 𝑏 )
𝑦
−
𝑎
1
1
𝑦
−
𝑎
1
𝑒
𝑒
′
𝑔𝑌 (𝑦) =
=
=𝐹 𝑋(
) = 𝑓𝑋 (
)=
=
𝑑𝑦
𝑑𝑦
𝑏
𝑏 𝑏
𝑏
𝑏 √2𝜋𝜎
√2𝜋(𝑏𝜎)
2
que corresponde a una función de densidad normal de media 𝜇𝑌 = 𝑎 + 𝑏𝜇 y varianza 𝜎𝑌 = 𝑏 2 𝜎 2 , pues
recordemos 𝑊~𝑁(𝜇, 𝜎 2 ) ⇔ 𝑓𝑊 (𝑤; 𝜇, 𝜊2 ) =
2
2
𝑒 −(𝑤−𝜇) /2𝜎
− ∞ < 𝑤 < +∞
√2𝜋𝜎
Nota:
Lo anterior también se puede probar usando la función generatriz de momentos.
Distribución Normal Estándar
Propiedad
𝑋−𝜇
En el contexto de la propiedad anterior, si 𝑋~𝑁(𝜇, 𝜎 2 ) y definimos la v.a. 𝑍 = 𝜎 , entonces se cumple
que 𝑍~𝑁(0,1). (donde 𝑓𝑍 (𝑧; 0,1) =
2
𝑒 −(𝑧−0) /2
√2𝜋
=
2
𝑒 −𝑧 /2
√2𝜋
) (note 𝑍 =
𝑋−𝜇
𝜎
1
−𝜇
−𝜇
1
= (𝜎) 𝑋 + ( 𝜎 ) = ( 𝜎 ) + (𝜎) 𝑋)
Este corolario permite reducir el cálculo de una probabilidad en una distribución normal general, al
cálculo equivalente en una distribución 𝑁(0,1).
El proceso (llamado “estandarización”) se puede describir formalmente así:
𝑋−𝜇 𝑡−𝜇
𝒕−𝝁
𝑡−𝜇
𝑭𝑿 (𝒕) = 𝑷(𝑿 ≤ 𝒕) = 𝑃(𝑋 − 𝜇 ≤ 𝑡 − 𝜇) = 𝑃 (
≤
) = 𝑷 (𝒁 ≤
) = 𝐹𝑧 (
)
𝜎
𝜎
𝝈
𝜎
Por ejemplo, si 𝑋~𝑁(𝜇 = 10, 𝜎 2 = 32 ) 
𝑋−10
15−10
𝐹𝑋 (15) = 𝑃(𝑋 ≤ 15) = 𝑃(𝑋 − 10 ≤ 15 − 10) = 𝑃 (
≤
) = 𝑃(𝑍 ≤ 1.67) = 𝐹𝑧 (1.67)
3
𝑃(𝑋 ≤ 15) = 𝑃(𝑋 − 10 ≤ 15 − 10) = 𝑃 (
3
𝑋−10
3
≤
15−10
3
) = 𝑃(𝑍 ≤ 1.67)
Dada esta propiedad, la distribución 𝑁(0,1) adquiere singular importancia, así como la variable Z, razón
por la cual, esta distribución recibe el nombre de Distribución Normal Estándar y la variable Z se
llama Variable Normal Estándar. La distribución acumulativa de la variable Z ha sido tabulada y
permite calcular probabilidades relativas a cualquier variable normal.
El cálculo de probabilidades para una distribución normal es bastante sencillo si se usa algún
programa estadístico o una hoja de cálculo con opciones estadísticas. Por ejemplo con Excel:
Ejemplo 1.1 (uso de Excel)
Sea 𝑋~𝑁(𝜇 = 10, 𝜎 2 = 32 ), hallar 𝑃(𝑋 ≤ 12.5) y 𝑥0 tal que 𝑃(𝑋 ≤ 𝑥0 ) = 0.6825
66
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Solución:
Nos apoyaremos en Excel, usando el procedimiento Insertar función 𝒇𝒙 , según la secuencia de
comandos:
Para la probabilidad acumulada 𝑃(𝑋 ≤ 12.5) :
𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar una función:DISTR.NORM.N →Aceptar → X:
poner valor de X o seleccionar celda donde está el valor; Media: poner valor de µ o seleccionar celda
donde está el valor; Desv_estándar: poner valor de σ o seleccionar celda; Acumulado: 1 →Aceptar.
Aplicando esta secuencia a nuestro caso, obtenemos 𝑃(𝑋 ≤ 12.5) = 0.7977
Para valor 𝒙𝟎 que tiene una probabilidad acumulada 𝑝 :
𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar una función:INV.NORM →Aceptar →
Probabilidad: poner valor de 𝑝 o seleccionar celda donde está el valor; Media: poner valor de µ o
seleccionar celda donde está el valor; Desv_estándar: poner valor de σ o seleccionar celda; → Aceptar.
Aplicando esta secuencia a nuestro caso, obtenemos 𝑥0 = 11.4241
Cuando no se tiene a mano un programa estadístico o una hoja de cálculo, haremos cálculos
manuales, usando la Tabla Normal Estándar.
Uso de la Tabla Normal Estándar
La tabla de probabilidades acumuladas de la distribución 𝑁(0,1) tiene las áreas acumuladas o
probabilidades, para distintos valores de Z definidos hasta el nivel de las centésimas. La lectura de las
probabilidades es directa: basta con "entrar" a la tabla con el valor de Z al nivel de las décimas en la línea
horizontal correspondiente y en el cruce con la columna de las centésimas correspondientes, ubicar la
probabilidad acumulada:
Ejemplo 1.2 (Uso de la tabla normal estándar o tabla Z)
Si 𝑍~𝑁(0,1), hallar
(a) 𝑃(𝑍  1.96 ). Entramos a la tabla con c igual a 1 con 9 décimas y 6 centésimas (c=1.96):
Distribución Acumulativa Normal Estándar P(Z ≤ c)
c
0
1
2
6
7
0.0
0.5000
0.5040
0.5080
0.5239
0.5279
0.1
0.5398
0.5438
0.5478
0.5636
0.5675
0.2
0.5793
0.5832
0.5871
0.6026
0.6064
1.8
0.9641
0.9649
0.9656
0.9686
0.9693
1.9
0.9713
0.9719
0.9726
0.9750
0.9756
2.0
0.9772
0.9778
0.9783
0.9803
0.9808
2.1
0.9821
0.9826
0.9830
0.9846
0.9850
0.975
0
𝑃(𝑍  1.96 ) = 0.975 (Con Excel se obtiene lo mismo)
(b) 𝑃(𝑍 > 1.96 ) = 1 − 𝑃(𝑍  1.96 ) = 1 − 0.9750 = 0.025 (por complemento)
(c) 𝑃(𝑍  1.00 ) = 0.8413; 𝑃 (𝑍  1.52 ) = 0.9357; 𝑃(𝑍  − 1.52) = 0.0643
(d) 𝑃 (1.00 < 𝑍  1.96) = 𝑃 (𝑍  1.96) – 𝑃(𝑍  1.00) = 0.9750 − 0.8413 = 0.1337
67
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
c
0
1
2
5
6
7
0.0
0.5000
0.5040
0.5080
0.5199
0.5239
0.5279
0.1
0.5398
0.5438
0.5478
0.5596
0.5636
0.5675
0.8
0.7881
0.7910
0.7939
0.8023
0.8051
0.8078
0.9
0.8159
0.8186
0.8212
0.8289
0.8315
0.8340
1.0
0.8413
0.8438
0.8461
0.8531
0.8554
0.8577
1.1
0.8643
0.8665
0.8686
0.8749
0.8770
0.8790
1.7
0.9554
0.9564
0.9573
0.9599
0.9608
0.9616
1.8
0.9641
0.9649
0.9656
0.9678
0.9686
0.9693
1.9
0.9713
0.9719
0.9726
0.9744
0.9750
0.9756
2.0
0.9772
0.9778
0.9783
0.9798
0.9803
0.9808
Ejemplo 2
Si 𝑍 ~ 𝑁(0,1) hallar 𝑍0 tal que:
(a) 𝑃( 𝑍  𝑍0 ) = 0.8508
(b) 𝑃( 0 < 𝑍 ≤ 𝑍0 ) = 0.45
Solución:
(a) Por lectura "inversa" de la Tabla, esto es entrando con la probabilidad acumulada y después de ubicar
ésta, yendo a los bordes, se tiene que: 𝑍0 = 1.04
Distribución Acumulativa Normal Estándar P(Z ≤ c)
c
0
1
2
3
4
5
0.0
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.9
0.8159
0.8186
0.8212
0.8238
0.8264
0.8289
1.0
0.8413
0.8438
0.8461
0.8485
0.8508
0.8531
1.1
0.8643
0.8665
0.8686
0.8708
0.8729
0.8749
(b) 𝑃( 0 < 𝑍 ≤ 𝑍0 ) = 0.45
Aquí no se puede entrar a la tabla ni a Excel con 0.45 de probabilidad, pues ambos recursos trabajan con
𝑃( 𝑍 ≤ 𝑍0 ). Por la condición 0 < 𝑍 ≤ 𝑍0 se ve que 𝑍0 no es negativo y en ese caso podemos escribir
𝑃( 𝑍 ≤ 𝑍0 ) = 𝑃( 𝑍 ≤ 0) + 𝑃(0 < 𝑍 ≤ 𝑍0 ) = 0.5 + 0.45 = 0.95, entonces entramos con probabilidad 0.95
Distribución Acumulativa Normal Estándar P(Z ≤ c)
c
0
1
2
3
4
5
6
0.0
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.6026
1.4
0.9192
0.9207
0.9222
0.9236
0.9251
0.9265
0.9279
1.5
0.9332
0.9345
0.9357
0.9370
0.9382
0.9394
0.9406
1.6
0.9452
0.9463
0.9474
0.9484
0.9495
0.9505
0.9515
1.7
0.9554
0.9564
0.9573
0.9582
0.9591
0.9599
0.9608
Entrando a la tabla con una probabilidad acumulada 0.95, encontramos que no hay un valor exacto, pero
sí podemos ubicar las dos probabilidades acumuladas más cercanas (una por defecto y la otra por exceso)
que son 0.9495 y 0.9505, cuyos valores Z son 1.64 y 1.65 respectivamente. Por tanto, tomamos como va𝟏.𝟔𝟒+𝟏.𝟔𝟓
lor aproximado de Z0, el promedio simple de ambos, esto es 𝒁𝟎 ≅
= 𝟏. 𝟔𝟒𝟓 (este es un convenio
𝟐
68
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
que seguiremos en nuestro curso). Con Excel se obtiene lo mismo
Ejemplo 3
Si 𝑋 ~ 𝑁(10
⏟, ⏟
9 ) calcular 𝑃(𝑋  15) y 𝑥0 tal que 𝑃(𝑋 > 𝑥0 ) = 0.95
𝜇
𝜎2
Solución:
𝒕−𝝁
𝑋−𝜇
𝑷(𝑿 ≤ 𝒕) = 𝑷 (𝒁 ≤ 𝝈 ), con 𝑍 = 𝜎
Aquí tenemos que  = 10 𝑦 2 = 9. Es decir  = 3, por tanto, estandarizando
𝑋−10
15−10
15−10
𝑃(𝑋 ≤ 15) = 𝑃 ( 3 ≤ 3 ) = 𝑃(𝑍 ≤ 3 ) = 𝑃(𝑍 ≤ 1.67) = 0.9525;
c
0
1
6
7
8
0.0
0.5000
0.5040
0.5239
0.5279
0.5319
0.9
0.8159
0.8186
0.8315
0.8340
0.8365
1.0
0.8413
0.8438
0.8554
0.8577
0.8599
1.1
0.8643
0.8665
0.8770
0.8790
0.8810
1.2
0.8849
0.8869
0.8962
0.8980
0.8997
1.3
0.9032
0.9049
0.9131
0.9147
0.9162
1.4
0.9192
0.9207
0.9279
0.9292
0.9306
1.5
0.9332
0.9345
0.9406
0.9418
0.9429
1.6
0.9452
0.9463
0.9515
0.9525
0.9535
1.7
0.9554
0.9564
0.9608
0.9616
0.9625
𝒛𝟎
Finalmente 𝑃(𝑋 > 𝑥0 ) = 0.95𝑃(𝑋 ≤ 𝑥0 ) = 0.05𝑃(𝑋 ≤ 𝒙𝟎 ) = 0.05 = 𝑃 (𝑍 ≤
en la tabla Z con 0.05 de probabilidad acumulada:
𝒙𝟎 ≅ 𝟏𝟎 − 𝟑 × 𝟏. 𝟔𝟒𝟓 = 𝟓. 𝟎𝟔𝟓
𝒙𝟎 −𝟏𝟎
𝟑
≅
(−1.64)+(−1.65)
2
c
0
1
2
3
4
5
6
-4.0
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
-3.1
0.0010
0.0009
0.0009
0.0009
0.0008
0.0008
0.0008
-1.9
0.0287
0.0281
0.0274
0.0268
0.0262
0.0256
0.0250
-1.8
0.0359
0.0351
0.0344
0.0336
0.0329
0.0322
0.0314
-1.7
0.0446
0.0436
0.0427
0.0418
0.0409
0.0401
0.0392
-1.6
0.0548
0.0537
0.0526
0.0516
0.0505
0.0495
0.0485
-1.5
0.0668
0.0655
0.0643
0.0630
0.0618
0.0606
0.0594
⏞
𝒙𝟎 −𝟏𝟎
). Buscando
𝟑
= −𝟏. 𝟔𝟒𝟓 ⇒
Ejemplo 4
Un gestor tiene una cartera de inversiones donde la utilidad lograda 𝑋 (en miles de unidades monetarias)
es una v.a. continua con distribución normal de media 𝜇 = 500 y varianza 𝜎 2 = 502 .
a) El gestor tiene una deuda de 450 y espera cancelarla con la utilidad lograda con su inversión ¿Podrá
cancelar la deuda de esta manera? Use probabilidades para decidir.
b) Otra inversión posible para el gestor tiene una utilidad también con distribución normal, pero no se
conocen la media ni la varianza. El gestor cree que con probabilidad de 2/3 la utilidad de esta
inversión no pasará de 644 y con 2.5% de probabilidad la utilidad pasará de 796 ¿Cuánto vale la
utilidad esperada de esta segunda inversión y cuánto vale su desviación estándar?
69
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Solución:
𝑍
⏞
𝑋−500
450−500
a) Hallemos 𝑃(𝑋 > 450) = 1 − 𝑃(𝑋 ≤ 450) = 1 − 𝑃 ( 50 ≤ 50 ) = 1 − 𝑃(𝑍 ≤ −1) =
1 − 0.1587 = 0.8413 > 𝟎. 𝟓: sí podrá cancelar su deuda.
Distribución Acumulativa Normal Estándar P(Z ≤ c)
c
0
1
2
3
4
-4.0
0.0000
0.0000
0.0000
0.0000
0.0000
-3.9
0.0000
0.0000
0.0000
0.0000
0.0000
-1.5
0.0668
0.0655
0.0643
0.0630
0.0618
-1.4
0.0808
0.0793
0.0778
0.0764
0.0749
-1.3
0.0968
0.0951
0.0934
0.0918
0.0901
-1.2
0.1151
0.1131
0.1112
0.1093
0.1075
-1.1
0.1357
0.1335
0.1314
0.1292
0.1271
-1.0
0.1587
0.1562
0.1539
0.1515
0.1492
-0.9
0.1841
0.1814
0.1788
0.1762
0.1736
b) Sea 𝑌 la utilidad con la otra inversión. Nos dicen que 𝑌~𝑁(𝜇𝑌 , 𝜎𝑌2 ) y necesitamos hallar 𝜇𝑌 y 𝜎𝑌 . Son
dos incógnitas, por tanto necesitamos dos ecuaciones:
De “con probabilidad de 2/3 la utilidad de esta inversión no pasará de 644” tenemos 𝑃(𝑌 ≤ 644) =
0.67 ⇒
(644 − 𝜇𝑌 )
(644 − 𝜇𝑌 )
𝑃(𝑌 ≤ 644) = 𝑃 (𝑍 ≤
) = 0.67 ⇒ 𝐷𝑒 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑍 ∶
= 0.44 ⇒
𝜎𝑌
𝜎𝑌
𝟔𝟒𝟒 − 𝜇𝑌 = 𝟎. 𝟒𝟒𝜎𝑌
(𝟏)
Distribución Acumulativa Normal Estándar P(Z ≤ c)
c
0
1
2
3
4
5
6
7
8
9
0.0
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.6026
0.6064
0.6103
0.6141
0.3
0.6179
0.6217
0.6255
0.6293
0.6331
0.6368
0.6406
0.6443
0.6480
0.6517
0.4
0.6554
0.6591
0.6628
0.6664
0.6700
0.6736
0.6772
0.6808
0.6844
0.6879
0.5
0.6915
0.6950
0.6985
0.7019
0.7054
0.7088
0.7123
0.7157
0.7190
0.7224
De “con 2.5% de probabilidad la utilidad pasará de 796” tenemos 𝑃(𝑌 > 796) = 0.025 ⇒
𝑃(𝑌 ≤ 796) = 0.975
(796−𝜇 )
(796−𝜇𝑌 )
⇒ 𝑃 (𝑍 ≤ 𝜎 𝑌 ) = 0.975 ⇒ 𝐷𝑒 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑍 ∶
= 1.96 ⇒ 𝟕𝟗𝟔 − 𝜇𝑌 = 𝟏. 𝟗𝟔𝜎𝑌 (𝟐)
𝜎
𝑌
𝑌
Resolviendo (1) y (2) se tiene la respuesta:𝜇𝑌 = 𝟔𝟎𝟎 y 𝜎𝑌 = 𝟏𝟎𝟎
Ejemplo 5
En una región del país, el ingreso familiar es una v.a.c. 𝑋 con distribución normal de parámetros  = 300
y 2 = 1002
a) En la región sólo el 2.5% de las familias se considera de altos ingresos ¿Cuál ingreso 𝑋0 define a una
familia como de altos ingresos?
70
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
b) Si se considera que el costo de una Canasta Familiar mínima es 350 u.m. y el gobierno asegura que,
con su plan de reactivación, en cinco años sólo el 30% de las familias estará en Pobreza: ¿Cuánto
dinero adicional tendría que ganar cada familia para que lo anterior sucediera?
Solución:
𝑋 −300
𝑋 −300
a) Por dato 𝑃(𝑋 ≥ 𝑋0 ) = 0.025 ⇔ 𝑃(𝑋 ≤ 𝑋0 ) = 0.975 ⇔ 𝑃(𝑍 ≤ 0100 ) = 0.975 así que 0100 =
1.96 ⇒ 𝑋0 − 300 = 196 ⇒ 𝑋0 = 496
b) Sea 𝑌 el ingreso luego del plan de reactivación, entonces 𝑌 = 𝑋 + 𝑐 donde 𝑐 es el dinero adicional
en el ingreso de cada familia. Si el porcentaje en pobreza será 30%, entonces se cumpliría
𝑃(𝑌 < 350) = 0.3 o equivalentemente 𝑃(𝑋 + 𝑐 < 350) = 0.3 ⇒ 0.3 = 𝑃(𝑋 < 350 − 𝑐) =
350−𝑐−300
350−𝑐−300
50−𝑐
𝑃(𝑍 <
)
y
de
la
tabla
Z
tenemos
=
−0.525
⇒
= −0.525 ⇒ 𝑐 = 102.5
100
100
100
Ejemplo 5.5
En la producción de petróleo, la temperatura de destilación 𝑋 es importante para determinar la calidad del
producto final. Se sabe que 𝑋~𝑁(180, 2 ) y que en el 90% de los casos, esta temperatura no ha superado
los 194.8 grados centígrados. Además, el costo de producir un galón de petróleo es 10 unidades
monetarias (u.m.).
a) Halle el valor de 2 .
b) Si el petróleo se destila a una temperatura menor que los 190 grados, se vende como gasolina a 15
u.m. por galón. En otro caso el petróleo se convierte en aceite refinado, y se vende a 25 u.m. por
galón. Halle la utilidad esperada por galón de petróleo.
Solución:
194.8−180
14.8
14.8
a) 0.9 = 𝑃(𝑋 ≤ 194.8) = 𝑃 (𝑍 ≤
) = 𝑃 (𝑍 ≤ 𝜎 ) ⇒ 𝜎 ≅ 1.285 ⇒ 𝜎 = 11.518 ⇒ 𝜎 2 =
𝜎
11.5182 ⇒ 𝑋~𝑁(180, 11.5182 )
Distribución Acumulativa Normal Estándar P(Z ≤ c)
c
0
1
7
8
9
0.0
0.5000
0.5040
0.5279
0.5319
0.5359
0.1
0.5398
0.5438
0.5675
0.5714
0.5753
0.8
0.7881
0.7910
0.8078
0.8106
0.8133
0.9
0.8159
0.8186
0.8340
0.8365
0.8389
1.0
0.8413
0.8438
0.8577
0.8599
0.8621
1.1
0.8643
0.8665
0.8790
0.8810
0.8830
1.2
0.8849
0.8869
0.8980
0.8997
0.9015
1.3
0.9032
0.9049
0.9147
0.9162
0.9177
15 − 10 = 5 𝑠𝑖 𝑋 < 190
b) La utilidad es 𝑈 = {
y entonces 𝑈 es una v.a. discreta con sólo dos valores:
25 − 10 = 15 𝑠𝑖 190 ≤ 𝑋
𝑈 = 5 𝑠𝑖 𝑋 < 190 ⇒ 𝑃(𝑈 = 5) = 𝑃(𝑋 < 190) = 𝑃(𝑍 < 0.87) = 0.8078 y por complemento
𝑈 = 15 𝑠𝑖 𝑋 ≥ 190 ⇒ 𝑃(𝑈 = 15) = 𝑃(𝑋 ≥ 190) = 1 − 0.8078 = 0.1922 ⇒
0.8078 𝑠𝑖 𝑢 = 5
𝑃𝑈 (𝑢) = {
⇒ 𝐸[𝑈(𝑋)] = 5 × 0.8078 + 15 × 0.1922 = 6.922
0.1922 𝑠𝑖 𝑢 = 15
71
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Origen de la Distribución Normal
Proposición (Teorema del Límite Central)
Sean 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 variables aleatorias independientes con medias 𝜇1 , 𝜇2 , . . . , 𝜇𝑛 y varianzas
𝜎12 , 𝜎22 , ⋯ , 𝜎𝑛2 .
Sea 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 . Si el número n de sumandos es grande (𝒏 ≥ 𝟑𝟎), entonces 𝑇~𝑁(𝜇 𝑇 , 𝜎𝑇2 ), donde
𝜇 𝑇 = ∑𝑛𝑖=1 𝜇𝑖 y 𝜎𝑇2 = ∑𝑛𝑖=1 𝜎𝑖2 . La versión más formal, versión de Liapunov, de este teorema es:
Sean 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 variables aleatorias independientes con medias 𝜇1 , 𝜇2 , . . . , 𝜇𝑛 y varianzas
3
𝜎12 , 𝜎22 , ⋯ , 𝜎𝑛2 finitas tales que 𝜎𝑗2 > 0∀𝑗 y 𝐸(|𝑋𝑗 − 𝜇𝑗 | ) ≡ 𝛽𝑗 existe ∀𝑗. Además supongamos que 𝐵𝑛 =
1/3
(∑𝑛𝑗=1 𝛽𝑗 )
1/2
y 𝐶𝑛 = (∑𝑛𝑗=1 𝜎𝑗2 )
son tales que lim (𝐵𝑛 /𝐶𝑛 ) = 0.
𝑛→∞
Sea 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 . Si el número 𝑛 de sumandos es grande (𝑛 ≥ 30), entonces 𝑇~𝑁(𝜇 𝑇 , 𝜎𝑇2 ), donde
𝜇 𝑇 = ∑𝑛𝑖=1 𝜇𝑖 y 𝜎𝑇2 = ∑𝑛𝑖=1 𝜎𝑖2
Observaciones:
Este teorema permite atribuir normalidad de datos cuando la o las variables bajo estudio se pueden
considerar como la suma de un número grande de variables. En Economía o Gestión, por ejemplo, variables
como el producto nacional y la demanda agregada se asumen con distribución normal gracias al teorema
anterior.
No es requisito que las variables 𝑋𝑖 tengan ellas mismas distribución normal, es suficiente que la cantidad
n de sumandos sea grande. El teorema es válido incluso si las variables no son independientes.
La cantidad (𝒏 ≥ 𝟑𝟎) es un promedio; si las variables 𝑋𝑖 originales tienen distribución simétrica, es
posible que el teorema se cumpla con un n menor; en cambio si las distribuciones son asimétricas, n tendrá
que ser bastante mayor que 30 para que tenga vigencia el teorema.
Ejemplo 6
Una prueba tiene 40 preguntas o "items", y se calcula que en promedio, una persona demora una media
de  = 1.5 minutos por ítem, con una desviación estándar de  = 0.50 minutos. Si se desea poner un
tiempo límite 𝑻∗ para la prueba, de modo que el 90% de personas complete la prueba ¿Cuál sería el tiempo
𝑇 ∗ que debiera fijarse?
Solución:
Si definimos 𝑻 = ∑𝟒𝟎
𝒊=𝟏 𝑿𝒊 , donde 𝑿𝒊 es el tiempo usado en el i-ésimo ítem, como son n=40 ítems, asumiendo independencia entre tiempos, podemos aplicar el Teorema del Límite Central y decir que
40
40
2
2
2
2
2
𝑇~𝑁(𝜇 𝑇 = ∑40
𝑖=1 𝜇𝑖 = 40𝜇 = 60, 𝜎𝑇 = ∑𝑖=1 𝜎𝑖 = ∑𝑖=1 𝜎 = 40𝜎 = 10) o 𝑇~𝑁(𝜇 𝑇 = 60, 𝜎𝑇 = 10).
∗
∗
En este contexto, 𝑇 satisface la condición 𝑃(𝑻 ≤ 𝑇 ) = 0.90 o equivalentemente
𝑇−60
𝑇 ∗ −60
𝑻∗ −𝟔𝟎
𝑻∗ −𝟔𝟎
𝟎. 𝟗𝟎 = 𝑃(𝑇 ≤ 𝑇 ∗ ) = 𝑃(
≤
) = 𝑃(𝑍 ≤
). De la Tabla Z obtenemos
= 𝟏. 𝟐𝟖𝟓 ⇒
√10
√10
√𝟏𝟎
√𝟏𝟎
∗
𝑇 = 60 + 1.285√10 = 64.06 y Concluimos que el tiempo para la prueba debiera fijarse en unos 65
𝑻∗ −𝟔𝟎
minutos. Con Excel resulta
= 𝟏. 𝟐𝟖𝟐 ⇒ 𝑻∗ = 𝟔𝟒. 𝟎𝟓𝟒
√𝟏𝟎
Ejemplo 7
Si el número de trabajadores que tiene una pequeña empresa del sector metalmecánica es una variable
7−𝑥
aleatoria 𝑋 con función de probabilidad 𝑃𝑋 (𝑥) = 21 𝑠𝑖 𝑥 = 1,2,3,4,5,6.
a) ¿En promedio cuántos trabajadores tiene una empresa cualquiera? ¿Con qué la varianza 𝜎 2 ?
72
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
b) Si en un distrito hay 𝑛 = 36 pequeñas empresas de este sector y se desea estudiar la cantidad total 𝑇
de trabajadores 𝑇 = ∑36
𝑖=1 𝑋𝑖 del sector metalmecánica en el distrito ¿Cuál sería la media  𝑇 y la
2
varianza 𝜎𝑇 de T en el distrito? Asuma que hay independencia entre las empresas en cuanto al número
de trabajadores de cada una.
c) En el contexto de b), halle el percentil 67 de la distribución de la cantidad total 𝑇 de trabajadores del
sector metalmecánica en el distrito.
Solución:
a) Acomodando datos para facilitar cálculos, tenemos:
𝑥
1
2
3
4
5
𝑃𝑋 (𝑥)
0.29
0.24
0.19
0.14
0.10
𝑥𝑃𝑋 (𝑥)
0.29
0.48
0.57
0.57
0.48
2
𝑥 𝑃𝑋 (𝑥)
0.29
0.95
1.71
2.29
2.38
𝜇=
2.67 En promedio, una empresa tiene 2.67 trabajadores
2
𝜎 =
2.22 La varianza es 2.22
6
0.05
0.29
1.71
Total
1.00
2.67
9.33
b) Si hay 𝑛 = 36 pequeñas empresas, la cantidad total 𝑇 de trabajadores en el distrito es 𝑇 = ∑36
𝑖=1 𝑋𝑖 ,
donde 𝑋𝑖 el número de trabajadores de la empresa número i del distrito. En este contexto sabemos
36
36
36
2
2
que 𝜇 𝑇 = ∑36
𝑖=1 𝜇𝑋𝑖 = ∑𝑖=1 2.67 = 36 × 2.67 = 96.12 y 𝜎𝑇 = ∑𝑖=1 𝜎𝑋𝑖 = ∑𝑖=1 2.22 =
36 × 2.22 = 79.92
c) En b), como 𝑛 = 36 > 30 es “grande”, podemos aplicar el Teorema del Límite Central y decir que 𝑇
2
tiene distribución normal: 𝑇 = ∑36
𝑖=1 𝑋𝑖 ~𝑁(𝜇 𝑇 = 96.12, 𝜎𝑇 = 79.92) y por tanto, si 𝑇67 es el
(𝑇 −96.12)
(𝑇 −96.12)
percentil 67, entonces se cumple: 𝑃(𝑇 ≤ 𝑇67 ) = 0.67 ⇔ 𝑃 (𝑍 ≤ 67
) = 0.67 ⇔ 67
=
√79.92
0.44 ⇒ 𝑇67 = 100.053
73
√79.92
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
3.1.2 Principales Modelos de datos: Distribución Binomial 𝑩(𝒙; 𝒏, 𝒑)
Uso
Esta es la distribución que se presenta cuando contamos el número 𝑋 de veces que ocurre un determinado
evento 𝐴 sobre un total fijo de 𝑛 repeticiones u observaciones independientes de un experimento de cual 𝐴
es evento. Está asociada a las encuestas de satisfacción u opinión, pero no sólo a esto.
Ejemplo 8
(1) Se envía 𝑛 = 60 cuestionarios a 60 empresas para que cada una devuelva el cuestionario con datos
sobre empleo y se cuenta el número 𝑋 de cuestionarios devueltos. En este caso, el experimento es que
la empresa recibe el cuestionario y el evento es 𝐴 =“El cuestionario es devuelto por la empresa, con los
datos solicitados”.
(2) Una persona contesta totalmente al azar una prueba con 𝑛 = 20 preguntas de opción múltiple y
registramos el número 𝑋 de aciertos obtenidos por la persona. Aquí el experimento es que la persona,
ante una pregunta, marca al azar y el evento de interés es 𝐴 = “La persona acierta en la pregunta”.
(3) Se toma una muestra al azar de 𝑛 personas miembros de la PEA, se registra en cada una si está
desempleada y se cuenta el número 𝑋 de desempleados en la muestra. Aquí el evento de interés es 𝐴 =
“El entrevistado está desempleado”.
Orígenes y Parámetros
Formalmente esta distribución se presenta cuando se cuenta el número 𝑋 de veces que ocurre un
determinado evento 𝐴 , que tiene probabilidad 𝑝 = 𝑃(𝐴), cuando se repite 𝑛 veces independientemente,
el experimento aleatorio 𝜀 del cual 𝐴 es evento.
Proposición
Sea 𝐴 un evento que puede ocurrir con probabilidad 𝑝 (o sea 𝑝 = 𝑃(𝐴)) o puede no ocurrir con probabilidad 𝑞 = 1 − 𝑝 (esto es 𝑞 = 𝑃(𝐴𝐶 )). Si se repite 𝑛 veces, de forma independiente, el experimento 𝜀 del
cual 𝐴 es evento, y se define la variable aleatoria 𝑋 = Número de veces que ocurre 𝐴 en las 𝑛 repeticiones, entonces la función de probabilidad de 𝑋 es 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝐶𝑥𝑛 𝑝 𝑥 𝑞 𝑛−𝑥 𝑥 = 0,1,2, … , 𝑛.
Demostración:
𝑅𝑋 = {0,1,2, ⋯ , 𝑛}, ya que puede ocurrir que nunca se presente 𝐴, en cuyo caso 𝑋 será 0, o puede ocurrir
𝐴 una sola vez, y así hasta el otro caso extremo, en que 𝐴 se presenta siempre, en cuyo caso 𝑋 será 𝑛.
Ahora bien, que el evento 𝐴 se presente en 𝑥 veces específicas y que 𝐴𝐶 ocurra en las (n-x) veces
restantes, tiene probabilidad ⏟
𝑝 ×𝑝…× 𝑝 × ⏟
𝑞 × 𝑞 × … × 𝑞 = 𝑝 𝑥 𝑞 (𝑛−𝑥) ; y en total hay casos 𝐶𝑥𝑛 de este
𝑥 𝑣𝑒𝑐𝑒𝑠
(𝑛−𝑥) 𝑣𝑒𝑐𝑒𝑠
tipo, por lo que podemos escribir 𝑃(𝑋 = 𝑥) = 𝐶𝑥𝑛 𝑝 𝑥 𝑞 𝑛−𝑥 donde x es un valor genérico del rango de X
𝑅𝑋 = {0,1,2, … , 𝑥, … , 𝑛}, esto es 𝑃𝑋 (𝑥) = 𝐶𝑥𝑛 𝑝 𝑥 𝑞 𝑛−𝑥 𝑥 = 0,1,2, … , 𝑛
Nota: Binomio de Newton
Procediendo inductivamente, se puede probar que (𝑎 + 𝑏)𝑛 = ∑𝑛𝑘=0 𝐶𝑘𝑛 𝑎𝑘 𝑏 𝑛−𝑘 y aplicando esto al caso
particular 𝑎 = 𝑝 y 𝑏 = 𝑞: ∑𝑛𝑥=0 𝐶𝑥𝑛 𝑝 𝑥 𝑞 𝑛−𝑥 = (𝑝 + 𝑞)𝑛 = (𝑝 + (1 − 𝑝))𝑛 = 1 o sea ∑𝑛𝑥=0 𝑃𝑋 (𝑥) = 1.
De lo anterior viene el nombre de “Distribución binomial”.
Parámetros
Esta distribución está totalmente determinada si se conocen 𝒏 y 𝒑, por lo que estas cantidades se consideran
sus "parámetros" característicos.
Valores Esperados y función generatriz de momentos
Se puede probar que 𝐸(𝑋) = 𝜇𝑋 = 𝑛𝑝 y 𝑉(𝑋) = 𝜎𝑋2 = 𝑛𝑝𝑞. Además 𝑀𝑋 (𝑡) = (𝑝𝑒 𝑡 + 𝑞)𝑛 ∀𝑡 ∈ ℝ.
En efecto:
74
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
∑𝑛𝑥=0 𝑒 𝑡𝑥 𝐶𝑥𝑛 𝑝 𝑥 𝑞 𝑛−𝑥
𝑡𝑋 )
∑𝑛𝑥=0 𝐶𝑥𝑛 (𝑝𝑒 𝑡 )𝑥 𝑞 𝑛−𝑥
𝑡
𝑀𝑋 (𝑡) = 𝐸(𝑒
=
=
aplicando el Binomio de Newton, tomando 𝑎 = 𝑝𝑒 y 𝑏 = 𝑞.
=
(𝑝𝑒 𝑡
+ 𝑞)𝑛 , el último paso se obtiene
Derivando con respecto a t obtenemos 𝑀′ 𝑋 (𝑡) = 𝑛(𝑝𝑒 𝑡 + 𝑞)𝑛−1 𝑝𝑒 𝑡 y evaluando en t = 0 tenemos
𝑬(𝑿) = 𝜇𝑋 = 𝑀′ (0) = 𝑛(𝑝𝑒 0 + 𝑞)𝑛−1 𝑝𝑒 0 = 𝑛(𝑝1 + 𝑞)𝑛−1 𝑝1 = 𝑛(𝑝
⏟+ 𝑞 )𝑛−1 𝑝 = 𝑛 × 1 × 𝑝 = 𝒏𝒑.
1
′′ (0)
𝜎𝑋2
2)
2
2)
Análogamente 𝑀
= 𝐸(𝑋 y de ahí se obtiene
= 𝐸(𝑋 − (𝐸(𝑋)) .
Por ejemplo, si 𝑛 = 10 y 𝑝 = 0.2, entonces 𝐸(𝑋) = 𝜇𝑋 = 𝑛𝑝 = 10 × 0.2 = 2; 𝜎𝑋2 = 1.6
Observaciones:
(1) La variable aleatoria 𝑋 es llamada variable binomial y a su distribución de probabilidades la llamaremos
Distribución Binomial que se denota 𝐵(𝑥; 𝑛, 𝑝). El que la distribución de 𝑋 sea una binomial de
parámetros 𝑛 y 𝑝, se denota 𝑋~𝐵(𝑥; 𝑛, 𝑝)
(2) El parámetro 𝑛 determina la extensión del rango y 𝑝 la forma de la distribución: si 𝑝 = 0.5 la
distribución es simétrica, y conforme 𝑝 se aleja de 0.5 la distribución se hace asimétrica. Un gráfico
donde representamos mediante barras centradas en los distintos valores de 𝑋 las probabilidades que
asigna 𝐵(𝑥; 𝑛, 𝑝) ilustra lo que decimos:
.3
.4
.4
.3
.2
.2
b(x;n=10,p=0.8)
b(x;n=10,p=0.5)
b(x;n=10,p=.02 )
.3
.1
.1
.2
.1
0.0
0.0
0
1
2
3
4
5
6
x
p = 0.2
7
8
9
10
0
1
2
3
4
5
6
x
p = 0.5
7
8
9
10
0.0
0
1
2
3
4
5
6
7
8
9
10
x
p = 0.8
Ejemplo 9
Una petrolera efectúa perforaciones en una concesión del gobierno, en donde, según sus cálculos, tiene un
25% de probabilidad de dar con un pozo rentable al hacer una perforación.
Si la compañía asigna un presupuesto de 12 millones de unidades monetarias (u.m.) para gastar en
exploraciones. Sabiendo que necesita un mínimo de 4 cuatro pozos en explotación para tener ganancias, y
calcula un gasto de 2 millones de u.m. por perforación. ¿Con qué probabilidad tendrá ganancias?
Solución:
Sea  el experimento consistente en realizar la perforación de un pozo y sea A el evento “La perforación
resulta en un pozo rentable”. Entonces 𝑝 = 𝑃(𝐴) = 0.25 y 𝑞 = 1 − 𝑝 = 0.75; Si la compañía hace 𝒏
perforaciones y definimos la v. a. discreta 𝑋 = Número de pozos rentables en las 𝒏 perforaciones,
asumiendo independencia entre las perforaciones, tenemos que 𝑋 se ajusta al modelo binomial, esto es:
𝑋~𝐵(𝑥; 𝑛, 𝑝 = 0.25) y 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝐶𝑥𝑛 (0.25)𝑥 (0.75)𝑛−𝑥 𝑥 = 0,1,2, … , 𝑛
12
Dados los costos, la compañía puede realizar 𝑛 = 2 = 6 perforaciones (o sea 𝑋~𝐵(𝑥; 𝑛 = 6, 𝑝 = 0.25);
⇒ 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝐶𝑥6 (0.25)𝑥 (0.75)6−𝑥 𝑥 = 0,1,2, … ,6.
y para que haya ganancias, se necesita que el número de pozos rentables sea 𝑋 ≥ 4. Evaluando esta
75
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
probabilidad con 𝑃𝑋 (𝑥): 𝑃(𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎) = 𝑃(𝑋 ≥ 4) = 𝑃(𝑋 = 4) + 𝑃(𝑋 = 5) + 𝑃(𝑋 = 6) =
∑6𝑥=4 𝐶𝑥6 (0.25)𝑥 (0.75)6−𝑥 = ⏟
𝐶46 (0.25)4 (0.75)2 + ⏟
𝐶56 (0.25)5 (0.75)1 + ⏟
𝐶66 (0.25)6 (0.75)0 =
6!
4
2
6!
5
𝑃(𝑋=4)
1
6!
6
𝑃(𝑋=6)
𝑃(𝑋=5)
0
(0.25) (0.75) + 5!1! (0.25) (0.75) + 6!0! (0.25) (0.75) = 0.033; se puede decir que con 3.3% de
probabilidad, la compañía tendrá ganancias. Se deduce que casi con seguridad, no se logrará la rentabilidad suficiente. Note, estamos asumiendo que se hacen las 6 perforaciones; podría suceder que la petrolera
deje de perforar apenas se dé cuenta que no tendrá ese mínimo de 4 pozos, en ese caso el modelo vinomial no sería aplicable, sino otro el “Binomial negativo” o “De Pascal”, que veremos más adelante.
Con Excel: 𝑷(𝑮𝒂𝒏𝒂𝒏𝒄𝒊𝒂) = 𝑷(𝑿 ≥ 𝟒) = 𝟎. 𝟎𝟑𝟕𝟔
4!2!
Ejemplo 10
Una prueba de aptitud tiene 𝑛 = 20 preguntas de opción múltiple, siendo cinco las opciones (una correcta
y el resto no) por pregunta. Si una persona marca todo al azar y se define X = # total de aciertos, calcule la
probabilidad de que la persona acierte en:
a) Dos preguntas
b) Al menos en una pregunta
c) Entre 4 y 5 preguntas
Solución:
Identificando datos, tenemos:
1
𝐴= "La persona acierta en la pregunta"; 𝑝 = 𝑃(𝐴) = 5 = 0.2 y 𝑛 = 20
𝑋 = # total de aciertos en las n = 20 preguntas
Entonces, asumiendo independencia entre preguntas, se puede decir que X tiene distribución binomial, i.e.
𝑋~𝐵(𝑥; 𝑛 = 20, 𝑝 = 0.2), así 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝐶𝑥20 (0.2)𝑥 (0.8)20−𝑥 𝑥 = 0,1,2, . . . ,20 ⇔
20!
𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝑥!(20−𝑥)! (0.2)𝑥 (0.8)20−𝑥 𝑥 = 0,1,2, . . . ,20. Luego:
20!
a) Acierta 𝑋 = 2 veces: 𝑃(𝑋 = 2) = 2!(20−2)! (0.2)2 (0.8)20−2 =
20×19×18
2×18!
(0.2)2 (0.8)18 = 0.1369
b) Al menos en una pregunta  𝑋 ≥ 1;  𝑃(𝑋 ≥ 1) = 1 − 𝑃(𝑋 = 0) = 1 − 0.820 = 1 − 0.0115 = 0.9884
c) Entre 4 y 5 preguntas (4 ≤ 𝑋 ≤ 5) ⇒ 𝑃(4 ≤ 𝑋 ≤ 5) = 𝑃(𝑋 = 4) + 𝑃(𝑋 = 5) =
𝐶420 (0.2)4 (0.8)16 + 𝐶520 (0.2)5 (0.8)15 = 0.2182 + 0.1746 = 0.3928
Observación:
Como 𝐸(𝑋) = 𝜇𝑋 = 𝑛𝑝 = 20(0.2) = 4 y 𝑉(𝑋) = 𝜎𝑋2 = 𝑛𝑝𝑞 = 20(0.2)(0.8) = 3.2 ( por tanto 𝜎𝑋 =
1.78), podemos decir que si una persona contesta las 20 preguntas al azar, entonces ella puede tener entre
𝜇𝑋 − 𝜎𝑋 = 4 − 1.78 ≅ 2 y 𝜇𝑋 + 𝜎𝑋 = 4 + 1.78 = 6 aciertos.
Ejemplo 11
En el ejemplo anterior, si cada acierto vale 4 puntos y cada error cuesta 𝑁 puntos y se quiere que las personas que contesten al azar, en promedio, reciban puntaje 0 ¿Cuánto debe descontarse por cada error?
Solución:
Sea 𝑇 = Puntaje total, entonces 𝑇 = 4𝑋 − 𝑁(20 − 𝑋) = (4 + 𝑁)𝑋 − 20𝑁 y queremos 𝑁 tal que
𝐸(𝑇) = 0. Aplicando propiedades del valor esperado: 𝐸(𝑇) = (4 + 𝑁)𝐸(𝑋) − 20𝑁 y como 𝐸(𝑋) =
𝑛𝑝 = 20 × (1/5) = 4, entonces 𝐸(𝑇) = (4 + 𝑁) × 4 − 20𝑁 = 16 − 16𝑁 = 0 implica N = 1 , esto es,
se debe descontar un punto por cada error.
Cuando n es grande se complica el cálculo con la 𝐵(𝑥; 𝑛, 𝑝), pero si n es “grande” el Teorema del Límite
Central viene al rescate y origina la aproximación de la binomial a la normal.
76
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Proposición (Aproximación de la Distribución Binomial a la Normal)
𝜇
2
Si 𝑋~𝐵(𝑥; 𝑛, 𝑝)(𝜇 = 𝑛𝑝, 𝜎 = 𝑛𝑝𝑞) y 𝒏 es "grande", entonces se cumple que 𝑷(𝑿 ≤ 𝒌) ≈ 𝑃(𝑍 ≤
⏞
𝑘−𝑛𝑝
𝑛𝑝𝑞
⏟
√ 2
).
𝜎
Esta propiedad es consecuencia del Teorema del Límite Central, ya que 𝑋 puede verse como la suma de 𝑛
variables “binarias”: 𝑋 = ∑𝑛𝑗=1 𝑌𝑗 donde 𝑌𝑗 = 1 si ocurre A en la j-ésima repetición del experimento y
𝑌𝑗 = 0 si A no ocurre en la j-ésima repetición del experimento. En este contexto:
𝑦𝑗
0
1
𝜇𝑗 = 0 × (1 − 𝑝) + 1 × 𝑝 = 𝑝;
𝑃𝑌𝑗 (𝑦𝑗 )
(1 − 𝑝)
𝑝
σ𝑗2 = 𝐸(𝑌𝑗2 ) − 𝜇𝑗2 = 𝑝 − 𝑝2 = 𝑝(1 − 𝑝) = 𝑝𝑞
Si 𝒏 “grande” entonces 𝑇 = 𝑋 = ∑𝑛𝑗=1 𝑌𝑗 ~𝑁(𝜇 𝑇 , σ2𝑇 ) donde 𝜇 𝑇 = ∑𝑛𝑗=1 𝜇𝑗 = 𝑛𝑝, 𝜎𝑇2 = ∑𝑛𝑗=1 𝜎𝑗2 = 𝑛𝑝𝑞,
esto es 𝑿~𝑵(𝝁𝑿 = 𝒏𝒑, 𝝈𝟐𝑿 = 𝒏𝒑𝒒).
No hay un criterio único para decidir si 𝑛 es "grande", como se trata del TLC, 𝑛 ≥ 30 es “grande”, pero
incluso con valores como 𝑛 = 12, 𝑝 = 05, la aproximación funciona bien; nosotros usaremos el criterio
siguiente:
Si 𝒏𝒑 > 𝟓 y 𝒏𝒒 > 𝟓, consideraremos que n es "grande".(o sea se puede aplicar la aprox. Normal)
Corrección por continuidad: 𝑃(𝑋 ≤ 𝑘) ≈ 𝑃 (𝑍 ≤
(𝑘+0.5)−𝑛𝑝
√𝑛𝑝𝑞
). Se añade 0.5 porque 𝑋 es discreta y al
estandarizar como si fuese continua, se comete un pequeño error de aproximación, y la corrección lo disminuye. Con lo anterior, por ejemplo, dado que 𝑋 toma valores enteros:
(𝑏+0.5)−𝑛𝑝
(𝑎−1+0.5)−𝑛𝑝
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝑃(𝑋 ≤ 𝑏) − 𝑃(𝑋 ≤ 𝑎 − 1) ≈ 𝑃 (𝑍 ≤
)
−
𝑃
(𝑍
≤
)=
𝑛𝑝𝑞
𝑛𝑝𝑞
𝑃 (𝑍 ≤
(𝑏+0.5)−𝑛𝑝
√𝑛𝑝𝑞
) − 𝑃(𝑍 ≤
(𝑎−0.5)−𝑛𝑝
√𝑛𝑝𝑞
√
), o sea 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) ≈ 𝑃(
También: 𝑃(𝑋 = 𝑐) = 𝑃(𝑐 − 0.5 < 𝑋 ≤ 𝑐 + 0.5) ≈ 𝑃(
(𝑐−0.5)−𝑛𝑝
√𝑛𝑝𝑞
(𝑎−0.5)−𝑛𝑝
√
≤𝑍≤
√𝑛𝑝𝑞
(𝑐+0.5)−𝑛𝑝
<𝑍≤
√𝑛𝑝𝑞
(𝑏+0.5)−𝑛𝑝
√𝑛𝑝𝑞
).
)
.3
b(x;n=10,p=0.5)
Utilidad del “factor de corrección” (factor de corrección de Yates):
En el gráfico de al lado, de una 𝐵(𝑥; 𝑛, 𝑝), la altura de cada barra es
la probabilidad 𝑃(𝑋 = 𝑥) y el ancho se toma de modo que sea uno,
de esta manera, el área de cada barra es igual a 𝑃(𝑋 = 𝑥) y la suma
de áreas sería 𝑃(𝑋 ≤ 𝑘); la curva roja representa a una
𝑁(𝜇 = 𝑛𝑝, 𝜎 2 = 𝑛𝑝𝑞) y se ve que el área bajo la curva añade áreas
que no existen y deja de tomar áreas que sí existen, por ello el
“factor de corrección” de aumentar la base en 0.5, mejora la calidad
de la aproximación, en el sentido que mejora la coincidencia de las
probabilidades acumulada en algunos decimales.
.2
.1
0.0
0
1
2
3
4
5
6
k7
8
9
10
x
Ejemplo 12
Un “test” de competencias laborales tiene 60 preguntas de opción múltiple con 5 opciones por pregunta y
una persona marca todo al azar. ¿Con qué probabilidad acertaría en 15 preguntas o menos?
Solución:
1
Si A = “Acierta en la pregunta”, entonces 𝑝 = 𝑃(𝐴) = 5 = 0.2 y 𝑞 = 0.8; son 𝑛 = 60 preguntas. Sea
ahora 𝑋 = # de aciertos, entonces 𝑋~𝐵(𝑛 = 60, 𝑝 = 0.2), o sea
𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝐶𝑥60 (0.20)𝑥 (0.80)60−𝑥 𝑥 = 0,1,2, . . . ,60 y queremos hallar 𝑃(𝑋 ≤ 15).
77
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Como 𝑛𝑝 = 60 × 0.2 = 12 > 5 y 𝑛𝑞 = 60 × 0.8 = 48 > 5, se puede aplicar la aproximación normal
con 𝜇 = 𝑛𝑝 = 12 y 𝜎 = √𝑛𝑝𝑞 = √9.6
𝜇𝑋
𝑃(𝑋 ≤ 15) ≈ 𝑃(𝑍 ≤
⏞
(15 + 0.5) − 𝑛𝑝
) = 𝑃(𝑍 ≤
𝑛𝑝𝑞
⏟
√ 2
(15 + 0.5) − 12
) = 𝑃(𝑍 ≤ 1.13) = 0.8707
√9.6
𝜎𝑋
Ejemplo 13
En un instituto superior tecnológico hay 600 alumnos a la hora de almuerzo y cuatro cafeterías para
atenderlos. Cada alumno decide por su cuenta e independientemente de otros a cuál cafetería ir y
cualquiera de las cafeterías puede ser elegida por el alumno con la misma probabilidad.
a) Si la cafetería “Central” es una de las cuatro cafeterías del instituto y 𝑋 es el número de alumnos
(entre los 600) que decide ir a esa cafetería a almorzar ¿Cuál es la distribución de probabilidades de
X? Justifique e indique los parámetros de la distribución. ¿Cuántos alumnos espera recibir “Central”?
b) En a), si la cafetería prepara 160 almuerzos tipo menú básico y cada alumno que va a la cafetería
pidiera un menú “básico” ¿A partir de qué valor de 𝑋 no alcanzarán los básicos para satisfacer esta
demanda en la “Central”? Calcule el valor aproximado de la probabilidad del evento anterior.
c) En a), la cafetería quiere saber la cantidad k de “básicos” que debiera tener preparados para satisfacer
cualquier demanda que se presente con 90% de probabilidad. Halle el valor de k
Solución:
a) 𝑋~𝐵(𝑛 = 600, 𝑝 = 0.25), pues se ajusta al modelo binomial: El evento de interés 𝐴 es 𝐴 =“El
1
alumno decide ir a la cafetería Central” y 𝑝 = 𝑃(𝐴) = 4 = 0.25 (pues cada uno de los 600 alumnos
podría elegir cualquiera de las cuatro cafeterías)⇒ 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝐶𝑥600 (0.25)𝑥 (0.75)600−𝑥
para 𝑥 = 0, 1, 2, … ,600.
b) P(No alcanzan los “básicos”)= 𝑃(𝑋 > 160) = 1 – 𝑃(𝑋 ≤ 160).
Como evidentemente 𝑛 es "grande" (𝑛𝑝 = 150 > 5 y 𝑛𝑞 = 450 > 5), entonces aplicamos la
aproximación de la binomial por la normal, con 𝜇𝑋 = 𝑛𝑝 = 150; 𝜎𝑋2 = 𝑛𝑝𝑞 = 112.5. Haciendo
cálculos obtenemos:
𝜇𝑋
𝑃(𝑋 ≤ 160) ≅ 𝑃 𝑍 ≤
⏞
160 + 0.5 − 150
112.5
⏟
√ 2
𝜎𝑋
(
𝑃(𝑋 > 160) = 0.1611
= 𝑃 (𝑍 ≤
10.5
) = 𝑃(𝑍 ≤ 0.99) = 0.8389 ⇒
10.61
)
Distribución Acumulativa Normal Estándar P(Z ≤ c)
c
0
1
2
3
4
5
6
7
8
9
0.0
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.6026
0.6064
0.6103
0.6141
0.3
0.6179
0.6217
0.6255
0.6293
0.6331
0.6368
0.6406
0.6443
0.6480
0.6517
0.4
0.6554
0.6591
0.6628
0.6664
0.6700
0.6736
0.6772
0.6808
0.6844
0.6879
0.5
0.6915
0.6950
0.6985
0.7019
0.7054
0.7088
0.7123
0.7157
0.7190
0.7224
0.6
0.7257
0.7291
0.7324
0.7357
0.7389
0.7422
0.7454
0.7486
0.7517
0.7549
0.7
0.7580
0.7611
0.7642
0.7673
0.7704
0.7734
0.7764
0.7794
0.7823
0.7852
0.8
0.7881
0.7910
0.7939
0.7967
0.7995
0.8023
0.8051
0.8078
0.8106
0.8133
0.9
0.8159
0.8186
0.8212
0.8238
0.8264
0.8289
0.8315
0.8340
0.8365
0.8389
1.0
0.8413
0.8438
0.8461
0.8485
0.8508
0.8531
0.8554
0.8577
0.8599
0.8621
78
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
c) Si k es la cantidad de básicos, queremos k tal que 𝑃(𝑋 ≤ 𝑘) = 𝟎. 𝟗𝟎 ≅ 𝑃 (𝑍 ≤
Z resulta:
𝑘+0.5−150
√112.5
). De la tabla
Distribución Acumulativa Normal Estándar P(Z ≤ c)
c
0
1
2
3
4
5
6
7
8
9
0.0
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.6026
0.6064
0.6103
0.6141
0.3
0.6179
0.6217
0.6255
0.6293
0.6331
0.6368
0.6406
0.6443
0.6480
0.6517
0.4
0.6554
0.6591
0.6628
0.6664
0.6700
0.6736
0.6772
0.6808
0.6844
0.6879
0.5
0.6915
0.6950
0.6985
0.7019
0.7054
0.7088
0.7123
0.7157
0.7190
0.7224
0.6
0.7257
0.7291
0.7324
0.7357
0.7389
0.7422
0.7454
0.7486
0.7517
0.7549
0.7
0.7580
0.7611
0.7642
0.7673
0.7704
0.7734
0.7764
0.7794
0.7823
0.7852
0.8
0.7881
0.7910
0.7939
0.7967
0.7995
0.8023
0.8051
0.8078
0.8106
0.8133
0.9
0.8159
0.8186
0.8212
0.8238
0.8264
0.8289
0.8315
0.8340
0.8365
0.8389
1.0
0.8413
0.8438
0.8461
0.8485
0.8508
0.8531
0.8554
0.8577
0.8599
0.8621
1.1
0.8643
0.8665
0.8686
0.8708
0.8729
0.8749
0.8770
0.8790
0.8810
0.8830
1.2
0.8849
0.8869
0.8888
0.8907
0.8925
0.8944
0.8962
0.8980
0.8997
0.9015
1.3
0.9032
0.9049
0.9066
0.9082
0.9099
0.9115
0.9131
0.9147
0.9162
0.9177
𝑘+0.5−150
√112.5
= 1.285 ⟹ 𝑘 = 150 − 0.5 + 1.285 × √112.5 = 163.4 ⟹ 𝑘 ≅ 164 “básicos”.
79
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
3.1.3 Principales Modelos de datos: Distribucion Lognormal 𝑳𝒐𝒈𝑵(𝝁, 𝝈𝟐 )
Esta distribución aparece como una consecuencia del Teorema del Límite Central cuando los efectos del
azar no son aditivos sino multiplicativos, vía la toma de logaritmos. Por ejemplo, en finanzas, sea 𝑀 una
cantidad de dinero puesta en un fondo mutuo durante 𝑛 periodos, sin retirar nada. Suponga que la en cada
periodo, el interés que se gana es variable, cambia periodo a periodo, esto es 𝑟1 , 𝑟2 , 𝑟3 , … . , 𝑟𝑛 :
Después del periodo 1, el valor de la inversión o activo es 𝑀 + 𝑟1 𝑀 = 𝑀(1 + 𝑟1 ); luego del periodo 2, el
valor es 𝑀(1 + 𝑟1 ) + 𝑟2 𝑀(1 + 𝑟1 ) = 𝑀(1 + 𝑟1 )(1 + 𝑟2 ); análogamente, después del periodo 3, el valor
del activo es 𝑀(1 + 𝑟1 )(1 + 𝑟2 )(1 + 𝑟3 ) e inductivamente, al final de los n periodos el valor final del
activo es 𝑋 ≡ 𝑀(1 + 𝑟1 )(1 + 𝑟2 )(1 + 𝑟3 ) × … × (1 + 𝑟𝑛 ). Si como suele ser el caso, los intereses
resultan aleatorios entonces 𝑙𝑛𝑋 = 𝑙𝑛(𝑀(1 + 𝑟1 )(1 + 𝑟2 )(1 + 𝑟3 ) × … × (1 + 𝑟𝑛 )) = 𝑙𝑛𝑀 +
𝑙𝑛(1 + 𝑟1 ) + 𝑙𝑛(1 + 𝑟2 ) + 𝑙𝑛(1 + 𝑟3 ) + ⋯ + 𝑙𝑛(1 + 𝑟𝑛 ) = 𝑙𝑛𝑀 + ∑𝑛𝑖=1 𝑙𝑛(1 + 𝑟𝑖 ), y como 𝑟𝑖 es variable
aleatoria, su logaritmo neperiano 𝑙𝑛(1 + 𝑟𝑖 ) también es variable aleatoria.
Si el número de periodos 𝑛 es “grande”, aplicamos el T.L.C: ∑𝑛𝑖=1 𝑙𝑛(1 + 𝑟𝑖 ) tendrá distribución normal y
por tanto 𝑙𝑛𝑋 = 𝑙𝑛𝑀 + ∑𝑛𝑖=1 𝑙𝑛(1 + 𝑟𝑖 ), por ser función lineal de una variable que tiene distribución normal, que en este caso, como hemos visto, es ∑𝑛𝑖=1 𝑙𝑛(1 + 𝑟𝑖 ), ella misma, 𝑙𝑛𝑋 tiene distribución normal.
Este modelo apareció primero en Geología (“Ley de fragmentación de Kolmogorov”), para modelar el
tamaño final de una piedra de masa inicial M que sufría 𝑛 choques aleatorios, perdiendo en cada uno un
cierto porcentaje 𝑟𝑖 de esa masa. Luego se extendió la idea, como suele ocurrir en las ciencias, a
situaciones análogas, como el tamaño de tumores en medicina, o de las empresas luego de una fusión, y
en finanzas, como acabamos de ver. Lo básico es que no es 𝑋, sino 𝑙𝑛𝑋 quien tiene distribución normal.
Definición y Parámetros
Definición
Sea 𝑋 variable aleatoria continua con rango 𝑅𝑋 =]0, ∞[ y sean 𝜇 y 𝜎 2 > 0 constantes reales de valor
conocido. Diremos que 𝑋 tiene distribución Lognormal de parámetros 𝜇 y 𝜎 2 , si 𝒍𝒏 𝑿 tiene distribución
normal 𝑁(𝜇, 𝜎 2 ). Lo anterior se denota escribiendo 𝑋~𝐿𝑜𝑔𝑁(𝜇, 𝜎 2 ).
Parámetros
Los parámetros son 𝜇 y 𝜎 2 . Aunque la gráfica es asimétrica, la forma va cambiando con 𝜇
Distribución Lognormal
Distribución Lognormal
y=lognorm(x,0,1)
y=lognorm(x,1,1)
0.8
Distribución Lognormal
y=lognorm(x,3,1)
0.30
0.05
0.25
0.04
0.6
0.20
0.03
0.4
0.15
0.02
0.10
0.2
0.01
0.05
0.0
0.00
0
5
10
15
20
0.00
0
5
10
15
20
0
5
10
15
20
25
30
35
40
45
=0, 2=1
=1, 2=1
=3, 2=1
Observaciones
(1) Sea 𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) la distribución acumulativa de 𝑋. Entonces se cumple
𝒍𝒏 𝒙 − 𝝁
𝑭𝑿 (𝒙) = 𝑃(𝑋 ≤ 𝑥) = 𝑃 (𝒍𝒏
⏟
𝑿 ≤ 𝒍𝒏 𝒙) = 𝑃(𝑌 ≤ 𝑙𝑛 𝑥) = 𝑃 (𝒁 ≤
) 𝑝𝑢𝑒𝑠
𝝈
𝒀
𝑌 = 𝑙𝑛𝑋 ~𝑁(𝜇, 𝜎 2 ).
80
50
55
60
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
(2) De lo anterior, al calcular probabilidades de una distribución Lognormal, basta convertir el problema
en uno de cálculo de probabilidades en una distribución 𝑁(𝜇, 𝜎 2 ). En efecto:
𝑙𝑛 𝑥 − 𝜇
𝑙𝑛 𝑥 − 𝜇
𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) = 𝑃(𝑙𝑛 𝑋 ≤ 𝑙𝑛 𝑥) = 𝑃(𝑍 ≤
) = 𝐹𝑍 (
)
𝜎
𝜎
(3) Como 𝐹𝑋 (𝑥) = 𝐹𝑍 (𝑙𝑛 𝑥), derivando con respecto a 𝑥 tenemos:
𝑑
𝑑
𝐹 (𝑥) = 𝑓𝑋 (𝑥) = 𝑑𝑥 𝐹𝑍 (
𝑑𝑥 𝑋
𝑙𝑛 𝑥−𝜇
𝜎
la f. de densidad 𝑓𝑍 es 𝑓𝑍 (𝑧) =
𝑒
𝑙𝑛 𝑥−𝜇
) = 𝑓𝑍 (
−𝑧2 /2𝜎2
𝜎
1
2
2
1 𝑒 −(𝑙𝑛 𝑥−𝜇) /2𝜎
) 𝜎𝑥 = 𝑥
√2𝜋𝜎
𝑝𝑎𝑟𝑎 − ∞ < 𝑧 < ∞.
√2𝜋
𝑥 > 0, pues recordemos que
Lo anterior lleva a la proposición:
Proposición
La función de densidad de 𝑋 es 𝑓𝑋 (𝑥) =
2
2
𝑒 −(𝑙𝑛 𝑥−𝜇) /2𝜎
𝑥√2𝜋𝜎
𝑥>0
Valores esperados
𝑡2 2
Sea 𝑌 ≔ 𝑙𝑛 𝑋 ~𝑁(𝜇, 𝜎 2 )  𝑀𝑌 (𝑡) = 𝑒 𝑡𝜇+ 2 𝜎 . Pero también sabemos que
𝑡2 2
𝑡
𝑀𝑌 (𝑡) = 𝐸(𝑒 𝑡𝑌 ) =
⏟ 𝐸(𝑒 𝑡 𝑙𝑛 𝑋 ) = 𝐸(𝑒 𝑙𝑛 𝑋 ) = 𝐸(𝑋 𝑡 ) = 𝑒 𝑡𝜇+ 2 𝜎 .
𝑌=𝑙𝑛 𝑋
𝑡2 2
Es decir, 𝐸(𝑋 𝑡 ) = 𝑒 𝑡𝜇+ 2 𝜎 ∀𝑡 es una fórmula general para los esperados de las potencias de 𝑋.
1 2
Evaluando en 𝑡 = 1 obtenemos 𝜇𝑋 = 𝐸(𝑋) = 𝑒 𝜇+2𝜎 y en 𝑡 = 2 obtenemos 𝐸(𝑋 2 ) = 𝑒 2𝜇+2𝜎
2
Proposición
𝟏 𝟐
𝟐
Si 𝑋~𝐿𝑜𝑔𝑁(𝜇, 𝜎 2 ) entonces 𝝁𝑿 = 𝑬(𝑿) = 𝒆𝝁+𝟐𝝈 y 𝝈𝟐𝑿 = 𝑽(𝑿) = 𝒆𝟐𝝁+𝟐𝝈 − 𝒆𝟐𝝁+𝝈
𝟐
Observación:
Nótese que 𝜇 ≠ 𝐸(𝑋) y 𝜎 2 ≠ 𝑉(𝑋) en esta distribución. No existe la función generatriz de momentos de
la distribución 𝐿𝑜𝑔𝑁(𝜇, 𝜎 2 ), sin embargo, sus momentos sí se pueden hallar aplicando la fórmula vista
líneas arriba.
Origen de la distribución (Teorema del Límite Central para productos)
Sean 𝑊1 , 𝑊2 , ⋯ , 𝑊𝑛 , ⋯ variables aleatorias positivas e independientes con medias y varianzas finitas. Sea
P el producto de estas variables, i.e. 𝑃 = 𝑊1 × 𝑊2 × … × 𝑊𝑛 ≡ ∏𝑛𝑗=1 𝑊𝑗 . Si el número 𝑛 de factores es
grande (𝑛 ≥ 30), entonces se cumple 𝑃~Log𝑁(𝜇, 𝜎 2 ), donde 𝜇 = ∑𝑛𝑗=1 𝜇𝑗 y 𝜎 2 = ∑𝑛𝑗=1 𝜎𝑗2 , siendo
𝜇𝑗 = 𝐸(𝐿𝑛𝑊𝑗 ) y 𝜎𝑗2 = 𝑉(𝐿𝑛(𝑊𝑗 ))
Demostración:
Esto es consecuencia directa del Teorema del Límite Central para sumas de variables aleatorias que
dice:
“Sean 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 , ⋯ variables aleatorias independientes con medias finitas 𝜇1 , 𝜇2 , ⋯ , 𝜇𝑛 , ⋯ 𝜇𝑛 , ⋯ y
varianzas finitas 𝜎12 , 𝜎22 , ⋯ , 𝜎𝑛2 , ⋯. Sea 𝑇 = ∑𝑛𝑗=1 𝑋𝑗 . Si el número 𝑛 de sumandos es grande
(𝑛 ≥ 30), entonces bajo las condiciones de Liapunov, 𝑇~𝑁(𝜇 𝑇 , 𝜎𝑇2 ), donde 𝜇 𝑇 = ∑𝑛𝑗=1 𝜇𝑗 y
𝜎𝑇2 = ∑𝑛𝑗=1 𝜎𝑗2 ”
En efecto, de 𝑃 = 𝑊1 × 𝑊2 × … × 𝑊𝑛 ≡ ∏𝑛𝑗=1 𝑊𝑗 , tomando logaritmo neperiano resulta que 𝑙𝑛( 𝑃) =
𝑙𝑛(∏𝑛𝑗=1 𝑊𝑗 ) = 𝑙𝑛(𝑊1 × 𝑊2 × … × 𝑊𝑛 ) = ∑𝑛𝑗=1 𝑙𝑛( 𝑊𝑗 ) es la suma de n variables aleatorias (a saber
𝑙𝑛( 𝑊𝑗 )𝑗 = 1,2, . . . , 𝑛) y, si 𝑛 es “grande”, el Teorema del límite central es aplicable y 𝑙𝑛( 𝑃) tendrá
distribución normal y por tanto 𝑃 tendrá distribución lognormal.
Ejemplo 14
La cotización de una acción en la bolsa, después de cierto tiempo en el mercado de valores, es una v.a.c.
𝑋 con distribución LogNormal de parámetros  y 𝜎 2 .
81
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
a) Si 𝜇 = 5 y  = 1 ¿Con qué probabilidad la cotización será menor que 190 u.m.?
b) Un inversionista espera que el título se cotice a 1,100 u.m. aunque sabe que con 94% de probabilidad
el título no pasará de 3,200 u.m. ¿Cuáles son los parámetros 𝜇 𝑦 𝜎 2 de la distribución?
Solución:
a) 𝑋~𝐿𝑜𝑔𝑁(𝜇 = 5, 𝜎 2 = 1) ⇒ 𝑙𝑛𝑋~𝑁(𝜇 = 5, 𝜎 2 = 1) ⇒ 𝑃(𝑋 < 190) = 𝑃(𝑙𝑛 𝑋 < 𝑙𝑛 1 90) =
5.25−5
𝑃(𝑙𝑛 𝑋 < 5.25) = 𝑃 (𝑍 <
) = 𝑃(𝑍 < 0.25) = 0.5987 (Con Excel: 0.5976)
√1
1 2
b) “Espera que el título se cotice a 1,100 u.m.”⇒ 𝜇𝑋 = 𝐸(𝑋) = 𝑒 𝜇+2𝜎 = 1,100 ⇒
1
𝜇 + 2 𝜎 2 = 7 (I)
y de
“Sabe que con 94% de probabilidad el título no pasará de 3,200 u.m.” ⇒
8.1 − 𝜇
8.1 − 𝜇
0.94 = 𝑃(𝑋 < 3,200) = 𝑃(𝑙𝑛 𝑋 < 8.1) = 𝑃 (𝑍 <
) = 0.94 ⇒
= 1.55 ⇒
𝜎
𝜎
]8.1 − 𝜇 = 1.55𝜎 (II)
Resolviendo (I) y (II) se obtienen 𝜇 𝑦 𝜎 2 :
1
1
1
De (I) 𝜇 + 2 𝜎 2 = 7 ⇒ 𝜇 = 7 − 2 𝜎 2 y en (II) ⇒ 8.1 − 7 + 2 𝜎 2 = 1.55𝜎 ⇒ 𝜎 2 − 3.1𝜎 + 2.2 = 0 ⇒
3.1±√9.61−4×2.2
3.1±0.9
1.1
6.5
𝜎=
=
𝜎
=
⇒𝜎={
y𝜇={
2
2
2
5
Ejemplo 15
El Ingreso Familiar 𝑋 (medido en cientos de unidades monetarias) en una región es una v.a.c. con
distribución lognormal de parámetros  = 3 y 𝜎 2 = 1.
a) Si se considera que el costo de una canasta familiar mínima es 33.2 cientos de u.m. ¿En esta región
con qué probabilidad una familia estará en condición de pobreza?
b) Si se considera que el costo de una canasta familiar mínima es 33.2 cientos de u.m. y el gobierno
asegura que, con su plan de lucha contra la pobreza, en un año sólo el 30% de las familias estará en
Pobreza. ¿Cuánto dinero adicional tendría que ganar cada familia para que la afirmación del gobierno
se realizara?
Solución:
a) “En condición de pobreza” equivale a “Ingreso no cubre el costo de la canasta familiar” ⟺ 𝑿 < 𝟑𝟑. 𝟐
(𝑙𝑛𝑋−3)
3.5−3
y se pide 𝑃(𝑋 < 33.2) = 𝑃(𝑙𝑛𝑋 < 𝑙𝑛33.2) = 𝑃(𝑙𝑛𝑋 < 3.5) = 𝑃 ( 1 < 1 ) = 𝑃(𝑍 < 0.5) =
0.6915; es decir un 69.15% de la población de esta región está en pobreza. (Excel:69.24%).
b) Sea 𝑌 = 𝑋 + 𝑐 el ingreso luego del plan del gobierno, donde c es el ingreso adicional. Entonces 𝑐
satisfará:
𝑃(𝑌 < 33.2) = 0.3 ⟺ 0.3 = 𝑃(𝑋 + 𝑐 < 33.2) = 𝑃(𝑋 < (33.2 − 𝑐)) = 𝑃(𝑙𝑛𝑋 < 𝑙𝑛(33.2 − 𝑐) =
(𝑙𝑛(33.2 − 𝑐)) − 3
(𝑙𝑛(33.2 − 𝑐)) − 3
= 𝑃 (𝑍 <
) = 0.3 ⇒
= −0.525 ⇒ 𝑙𝑛(33.2 − 𝑐) = 2.475
1
1
⇒ (33.2 − 𝑐) = 𝑒 2.475 = 11.88 ⇒ 𝑐 = 33.2 − 11.88 = 21.32 cientos de unidades monetarias.
82
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
3.1.4 Principales Modelos de datos: Distribución de Poisson 𝑃(𝑥; 𝜆)
Definición y Parámetro
Definición.
Sea 𝑋 v.a. discreta, con rango 𝑅𝑋 = 0,1,2,3, ⋯. Sea 𝜆 > 0 constante conocida. Diremos que 𝑋 tiene
distribución de Poisson de parámetro 𝜆, lo que se denotará 𝑋~𝑃(𝑥; 𝜆), si su función de probabilidad es:
𝑒 −𝜆 𝜆𝑥
𝑃(𝑥; 𝜆) ≡ 𝑃𝑋 (𝑥) = 𝑥! ; 𝑥 = 0,1,2,3, ⋯
Notación. Como ya se dijo, la distribución se denotará 𝑃(𝑥; 𝜆).
Parámetro:
El único parámetro es  que determina la posición de la distribución y su forma: conforme  crece la
gráfica se desplaza a la derecha y se va haciendo simétrica con un máximo alrededor de 
.3
.10
.14
.12
.08
.10
.1
.08
P(X;18)
P(X;10)
P(X;2)
.2
.06
.04
.04
.02
.02
0.0
.06
0
4
8
12
16
20
0.00
24
0
4
8
12
16
20
0.00
24
0
4
8
12
20
24
X
X
X
=2
16
 = 10
 = 18
Observaciones:
(1) Recordemos que una definición alternativa de la función exponencial o una propiedad de ella es
𝑍𝑘
𝑒 𝑍 = ∑∞
𝑘=0 𝑘! , que se cumple para todo número real 𝑧.
(2) Aplicando (1) a 𝑃(𝑥; 𝜆) ≡ 𝑃𝑋 (𝑥) =
𝑒 −𝜆 𝜆𝑥
x!
𝑥 = 0,1,2,3, ⋯: ∑∞
𝑥=0
Es decir, P ( x;  ) es una función de probabilidad.
𝑒 −𝜆 𝜆𝑥
𝑥!
𝜆𝑥
−𝜆 𝜆
= 𝑒 −𝜆 ∑∞
𝑥=0 𝑥! = 𝑒 𝑒 = 1.
Valores Esperados y Función Generatriz de Momentos.
𝜇𝑋 = 𝐸(𝑋) = 𝜆; 𝜎𝑋2 = 𝑉(𝑋) = 𝜆 y 𝑀𝑋 (𝑡) = 𝑒 𝜆(𝑒
𝑡𝑥
𝑒 −𝜆 ∑∞
𝑥=0 𝑒
𝜆𝑥
𝑥!
= 𝑒 −𝜆 ∑∞
𝑥=0
(𝜆𝑒 𝑡 )𝑥
𝑥!
𝑡 −1)
𝑡
𝑡𝑥 −𝜆
𝑡 ∈ ℝ. Veamos: 𝑀𝑋 (𝑡) = 𝐸(𝑒 𝑡𝑋 ) = ∑∞
𝑥=0 𝑒 𝑒
= 𝑒 −𝜆 𝑒 𝜆𝑒 = 𝑒 𝜆(𝑒
𝑡 −1)
𝜆(𝑒 𝑡 −1)
respecto a 𝑡 y evaluando en 𝑡 = 0: 𝑀′𝑋 (𝑡) = 𝑒
obtiene 𝑀′′𝑋 (0) = 𝐸(𝑋2 ) = 𝜆 + 𝜆2 ⇒ 𝑉(𝑋) = 𝜆.
𝜆𝑥
𝑥!
=
que se cumple para todo t real. Derivando
𝜆(𝑒 𝑡 ) ⇒ 𝑀′𝑋 (0) = 𝐸(𝑋) = 𝜆; análogamente se
Orígenes
P ( x;  ) tiene dos orígenes, ambos relacionados, aunque uno de ellos es poco actual. La distribución surge
como aproximación a la distribución binomial (cuando n es grande y p tiende a 0) y también como
modelo de un proceso aleatorio.
Proposición 1 (Aproximación de la Binomial a la Poisson)
Sea una v.a. 𝑋~𝐵(𝑥; 𝑛, 𝑝), sean 𝑛 y p tales que n tiende a  , 𝑝 tiende a 0, de modo que el producto 𝑛𝑝
tiende a un valor fijo 𝜆. Entonces se cumple que 𝐵(𝑥; 𝑛, 𝑝) ≅ 𝑃(𝑥; 𝜆 = 𝑛𝑝)
83
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Nota:
Aunque se dice que la aproximación es válida si 𝑛 es “grande” y 𝑝 es “pequeño”, no hay regla fija (todo
depende del grado de aproximación que se desee); una muy usada es considerar que 𝑛 es grande y 𝑝 pequeño
si ocurre 𝑛𝑝 < 5. Este uso de la distribución fue importante antiguamente, cuando no se tenía a mano
calculadoras, pero sí tablas de la función exponencial.
Orígenes: Proceso de Poisson
Sea 𝐸 un evento que se presenta en puntos aleatorios del tiempo (o del espacio), de modo que son satisfechos
los siguientes supuestos:
(1) Para todo intervalo de longitud 𝑑𝑡 suficientemente pequeña, la probabilidad de observar una vez 𝐸 es
proporcional a 𝑑𝑡, i.e.:
𝑃(𝐸 𝑜𝑐𝑢𝑟𝑟𝑒 𝑢𝑛𝑎 𝑣𝑒𝑧 𝑒𝑛 [𝑡, 𝑡 + 𝑑𝑡[) = 𝑤𝑑𝑡 ∀𝑡 ∈ ℝ donde 𝑤 > 0 es constante de proporcionalidad.
(2) Para todo intervalo de longitud 𝑑𝑡 suficientemente pequeña, la probabilidad de observar más de una
vez 𝐸 es nula, i.e.: 𝑃(𝐸 𝑜𝑐𝑢𝑟𝑟𝑒 𝑚á𝑠 𝑑𝑒 𝑢𝑛𝑎 𝑣𝑒𝑧 𝑒𝑛 [𝑡, 𝑡 + 𝑑𝑡[= 0)
(3) Intervalos disjuntos son independientes en relación con la ocurrencia de 𝐸.
Si 𝑡 > 0 es un valor dado y definimos 𝑋 = # de veces que ocurre 𝐸 en el intervalo [0, 𝑡[. Entonces 𝑋 tiene
distribución de Poisson de parámetro 𝝀 = 𝒘𝒕: 𝑋~𝑃(𝑥; 𝜆 = 𝑤𝑡), i.e
𝑒 −(𝑤𝑡) (𝑤𝑡)𝑥
𝑃(𝑥; 𝜆 = 𝑤𝑡) ≡ 𝑃𝑋 (𝑥) =
, 𝑥 = 0,1,2, ⋯
𝑥!
Demostración:
Para 𝑥 = 0:
𝑃(𝑋 = 0 𝑒𝑛 [0, 𝑡 + 𝑑𝑡[) = 𝑃((𝑋 = 0 𝑒𝑛[0, 𝑡[ ) ∩ (𝑋 = 0 𝑒𝑛[𝑡, 𝑡 + 𝑑𝑡[)) =
𝑃(𝑋 = 0 𝑒𝑛[0, 𝑡[ ) × 𝑃(𝑋 = 0 𝑒𝑛[𝑡, 𝑡 + 𝑑𝑡[) (por el axioma (3) de independencia) ⇒
𝑃(𝑋 = 0 𝑒𝑛[𝑡, 𝑡 + 𝑑𝑡[) = 𝑃(𝑋 = 0 𝑒𝑛[0, 𝑡[ ) × (1 − 𝑃(𝑋 = 1 𝑒𝑛[𝑡, 𝑡 + 𝒅𝒕[) ( pues en [𝑡, 𝑡 + 𝑑𝑡[ , 𝐸 sólo
puede ocurrir a lo más una vez, por el axioma (1) ) .
Entonces:
𝑤𝑑𝑡
⏞ = 1 𝑒𝑛[𝑡, 𝑡 + 𝑑𝑡[ ) ⇒
𝑃(𝑋 = 0 𝑒𝑛[𝑡, 𝑡 + 𝑑𝑡[) = 𝑃(𝑋 = 0 𝑒𝑛[0, 𝑡[ ) − 𝑃(𝑋 = 0 𝑒𝑛[0, 𝑡[ ) 𝑃(𝑋
𝑃(𝑋 = 0 𝑒𝑛[𝑡, 𝑡 + 𝑑𝑡[) − 𝑃(𝑋 = 0 𝑒𝑛[0, 𝑡[ ) = −𝑃(𝑋 = 0 𝑒𝑛[0, 𝑡[ )𝑤𝑑𝑡 ⇒
𝑃(𝑋=0 𝑒𝑛[𝑡,𝑡+𝑑𝑡[)−𝑃(𝑋=0 𝑒𝑛[0,𝑡[ )
= −𝑤𝑃(𝑋 = 0 𝑒𝑛[0, 𝑡[ ) y si hacemos 𝑑𝑡 → 0:
𝑑𝑡
𝑑
𝑑𝑡
𝑃(𝑋 = 0 𝑒𝑛[0, 𝑡[ ) = −𝒘𝑃(𝑋 = 0 𝑒𝑛[0, 𝑡[ ); por comodidad sea 𝒚 ≡ 𝑷(𝑿 = 𝟎 𝒆𝒏[𝟎, 𝒕[ ) ⇒ llegamos
a la ecuación diferencial:
𝒅𝒚
𝒅𝒕
−𝑤𝑡
= −𝒘𝒚 ⇒
𝑑𝑦
𝑦
= 𝑤𝑑𝑡 ⇒ ∫
𝒅𝒚
𝒚
= ∫ 𝒘𝒅𝒕 ⇒ 𝒍𝒏(𝒚) = −𝒘𝒕 ⇒ 𝑦 = 𝒆−𝒘𝒕 ⇒
𝑃(𝑋 = 0 𝑒𝑛[0, 𝑡[ ) = 𝑒
= 𝑃𝑋 (0): en 𝑋 = 0 se cumple la proposición. Procediendo inductivamente, se
demuestra la proposición general.
Nota:
𝐸[𝑋]
𝑋
𝐸(𝑋) = 𝑤𝑡, entonces 𝑤 = 𝑡 = 𝐸[ 𝑡 ], de modo que podemos considerar a 𝑤 como el “Número promedio
de veces que ocurre 𝑬 por unidad de tiempo”. 𝑤 = "𝑡𝑎𝑠𝑎 𝑑𝑒 𝑜𝑐𝑢𝑟𝑟𝑒𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐸 𝑝𝑜𝑟 𝑢𝑛𝑖𝑑𝑎𝑑 𝑑𝑒 𝑡𝑖𝑒𝑚𝑝𝑜,
siempre es constante y se obtiene empíricamente. En el proceso de Poisson el valor de t lo define el usuario
según su interés y circunstancias, pero 𝑤 es fija.
El proceso descrito en el enunciado anterior se conoce como “Proceso Aleatorio de Poisson” y aunque se
ha enunciado en el tiempo, puede presentarse en el espacio. Como ejemplos de procesos que se pueden
modelar con el de Poisson, tenemos: La llegada de aviones a un aeropuerto; la llegada de clientes a una
ventanilla en un banco; La presencia de partículas de polvo en el aire; La presencia de burbujas en una
superficie recién pulida o barnizada; etc. Es el modelo más simple de un conjunto mucho más general de
84
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
modelos que describen ingresos y salidas de elementos a un sistema (pagos y órdenes de pago, solicitudes
y prestaciones) en el tiempo.
Ejemplo 16
Suponga que la cantidad de buques-tanque que llega a un puerto por día, se presenta de acuerdo con un
Proceso de Poisson, a una tasa de w=2 buques-tanque, en promedio, por día.
a)
¿Cuál es la probabilidad de que en un día, el número de buques-tanque que llega al puerto sea menor
de lo esperado?
b) El puerto sólo puede atender a 2 buques-tanque por día, y cualquier otro buque excedente, se envía a
un puerto vecino: ¿Qué porcentaje de los días, se enviarán buques al puerto vecino?
c) ¿Cuál sería la probabilidad de que Ud. llegue al puerto a medio día y encuentre que ya se llenó el
puerto?
Solución:
De las condiciones dadas, tenemos que la tasa de llegada es 𝑤 = 2. Sea 𝑡 > 0 valor dado y definamos
𝐸 =Llegada de un buque-tanque al puerto. En este contexto, la v.a.
𝑋 = Número de buques tanque que llegan entre 0 y 𝑡 tiene distribución de Poisson de parámetro 𝜆 =
𝑤𝑡 = 2𝑡. Entonces:
a) En este caso 𝑡 = 1 y 𝜆 = 𝑤𝑡 = 2, luego 𝑋~𝑃(𝑥; 𝜆 = 𝑤𝑡 = 2) y 𝐸(𝑋) = 2, es decir:
𝑃(𝑥; 𝜆 = 𝑤𝑡 = 2) ≡ 𝑃𝑋 (𝑥) =
𝑒 −2 2𝑥
𝑥!
𝑥 = 0,1,2, …
20
21
así que la probabilidad pedida es 𝑃(𝑋 < 2) = 𝑃(𝑋 ≤ 1) = 𝑃𝑋 (0) + 𝑃𝑋 (1) = 𝑒 −2 0! + 𝑒 −2 1! =
3𝑒 −2 = 0.41
b) Nos piden 𝑃(𝑋 > 2) = 1 − 𝑃(𝑋 ≤ 2);
22
𝑃(𝑋 ≤ 2) = 𝑃𝑋 (0) + 𝑃𝑋 (1) + 𝑃𝑋 (2) y como 𝑃𝑋 (2) = 𝑒 −2 2! = 2𝑒 −2 ⇒ 𝑃(𝑋 ≤ 2) = 3𝑒 −2 +
2𝑒 −2 = 5𝑒 −2 = 0.68; por tanto 𝑃(𝑋 > 2) = 1 − 𝑃(𝑋 ≤ 2) = 0.32: El 32% de los días se enviará
buques al puerto vecino.
1
c) Si llegamos en 𝑡 = 2 día, para que ya esté lleno el puerto, debe de haber ocurrido que en el intervalo
1
]0,1/2] (en la primera mitad del día) llegaron dos o más buques tanque. En este caso 𝑡 = 2 ⇒
1
1𝑥
𝑋~𝑃 (𝑥; 𝜆 = 𝑤𝑡 = 2 × 2 = 1) ⇒ 𝑃𝑋 (𝑥) = 𝑒 −1 𝑥! 𝑥 = 0,1,2, … y
𝑃(𝑋 ≥ 2) = 1 − 𝑃(𝑋 ≤ 1) = 1 − {𝑃𝑋 (0) + 𝑃𝑋 (1)} = 1 − 2𝑒 −1
= 0.26
Ejemplo 17
Las variaciones en el precio de una acción se presentan siguiendo un Proceso de Poisson a una tasa de 
= 5 variaciones por día.
a) ¿Con qué probabilidad la acción no experimentará cambios en un día? ¿Ocurrirán tres o más
variaciones?
b) Ud. llega a la Bolsa de Valores a medio día y observa que ya han ocurrido tres variaciones de precio
¿Con qué probabilidad, al final del día, habrán ocurrido más variaciones de lo esperado por día?
c) ¿Con qué probabilidad pasará más de ½ día hasta que recién se presente la 1era variación? ¿La 2da
variación?
Solución:
Aquí E = “Varía el precio del bien”, entonces para t días, con t fijo: Si X = Número de variaciones en el
intervalo ]0,t], entonces 𝑋~𝑃(𝑥; 𝜆 = 𝜔𝑡 = 5𝑡). Con esto en mente:
85
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
a) En t = 1 día, tenemos que 𝑋~𝑃(𝑥; 𝜆 = 𝜔𝑡 = 5 × 1 = 5) y
50
𝑃(𝑁𝑜 𝑐𝑎𝑚𝑏𝑖𝑜) = 𝑃(𝑋 = 0) = 𝑒 −5 0! = 𝑒 −5 = 0.0067; 𝑃(𝑋 ≥ 3) = 1 − 𝑃(𝑋 ≤ 2) = 1 −
( 𝑃(𝑋 = 0) +
50
51
52
𝑃(𝑋 = 1) + 𝑃(𝑋 = 2)) = 1 − {𝑒 −5 + 𝑒 −5 + 𝑒 −5 } = 0.875
0!
1!
2!
b) En t = 1 día esperamos 𝐸(𝑋) = 𝜆 = 5 variaciones de precio. Si se llega a medio día y ya ocurrieron
tres variaciones, entonces para que ocurran más variaciones de lo esperado (que es cinco
variaciones) en ese día, debieran ocurrir más de dos variaciones entre el medio día y el fin del día (o
sea en t = ½ día):
Sea 𝑌 = Número de variaciones en t = ½ día, entonces 𝑌~𝑃(𝑦; 𝜆 = 𝜔𝑡 = 5 × 0.5 = 2.5) y se
pregunta por 𝑃(𝑌 > 2) = 1 − {𝑃(𝑌 = 0) + 𝑃(𝑌 = 1) + 𝑃(𝑌 = 2)} = 1 − {𝑒 −2.5
2.52
2.50
0!
+ 𝑒 −2.5
2.51
1!
+
𝑒 −2.5 2! } = 0.456
c) P(Pasa más de ½ día hasta que recién se presente la 1era variación) = 𝑃(𝑌 = 0) con 𝑌 = Número de
variaciones en 𝑡 = ½ día, 𝑌~𝑃(𝑦; 𝜆 = 𝜔𝑡 = 5 × 0.5 = 2.5), así que
P(Pase más de ½ día hasta que recién se presente la 1era variación) = 𝑃(𝑌 = 0) = 𝑒 −2.5 = 0.082
P(Pase más de ½ día hasta que recién se presente la 2da variación) = 𝑃(𝑌 = 0) + 𝑃(𝑌 = 1) =
𝑒 −2.5 + 𝑒 −2.5
2.51
1!
= 3.5𝑒 −2.5=0.29
Ejemplo 18
El número 𝑋 de restaurantes que hay en una zona A tiene distribución de Poisson 𝑋~𝑃(𝑥; 𝜆) y se estima
que la probabilidad de que haya dos restaurantes es la misma que la probabilidad de que haya tres
restaurantes en esa zona. Calcule el valor de 𝜆. Si en una zona vecina B, recién abierta a la instalación de
restaurantes, el número de éstos tuviera similar distribución a la de A: ¿Diría que en B se abriría menos de
la mitad de los restaurantes de lo que se espera haya en A?
Solución:
𝑋~𝑃(𝑥; 𝜆) y 𝑃(𝑋 = 2) = 𝑃(𝑋 = 3) ⇒ 𝑒 −𝜆
𝜆2
2!
𝜆3
3!
= 𝑒 −𝜆 3! ⇒ 𝜆 = 2! = 3
Si 𝑌 =# de restaurantes en zona B, se sabe que 𝑌~𝑃(𝑦; 𝜆 = 3) y se pregunta si ocurrirá (𝑌 <
31
𝐸(𝑋)
𝐸(𝑋)
Como 𝐸(𝑋) = 3 ⇒ 𝑃 (𝑌 < 2 ) = 𝑃(𝑌 < 1.5) = 𝑃(𝑌 = 0) + 𝑃(𝑌 = 1) = 𝑒 −3 + 𝑒 −3 1! = 4𝑒
0.1991 < 0.5; no ocurrirá este evento.
86
).
2
−3
=
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
3.1.5 Principales Modelos de datos: Distribución Exponencial 𝑬𝒙𝒑(𝒙; )
Definición y Parámetro
Definición
Sea 𝑋 v.a.c. con rango 𝑅𝑋 =]0, ∞[ y sea 𝛽 > 0 una constante de valor dado (conocido). Diremos que 𝑋
tiene distribución exponencial de parámetro 𝛽 si la función de densidad de 𝑋 es 𝑓𝑋 (𝑥) = 𝛽𝑒 −𝛽𝑥 𝑥 > 0
Parámetro: 𝛽.
1
Notación: 𝑋~𝐸𝑥𝑝(𝑥; 𝛽) denota que 𝑋 tiene distribución exponencial. (𝑓𝑋 (𝑥) = 𝛽 𝑒 𝛽𝑥 𝑥 > 0)
Distribución Exponencial
Distribución Exponencial
y=exp(x,1)
y=expon(x,2)
Distribución Exponencial
y=expon(x,4)
2.0
2.0
5.0
4.5
4.0
1.5
1.5
3.5
3.0
1.0
1.0
2.5
2.0
1.5
0.5
0.5
1.0
0.5
0.0
0.0
0.748
1.495
2.243
0.0
0.748
2.990
1.495
2.243
2.990
=2
=1
0.748
1.495
=4
Valores Esperados y Función Generatriz de Momentos.
1
1
𝛽
𝐸(𝑋) = 𝜇𝑋 = 𝛽 y 𝑉(𝑋) = 𝜎𝑋2 = 𝛽2 , 𝑀𝑋 (𝑡) = (𝛽−𝑡) 𝑡 < 𝛽
Ejemplo 19
Si el ingreso empresarial en un país es una v.a. 𝑋 con distribución exponencial de parámetro 𝛽 y se
dispone un tributo nuevo de 15% para los ingresos superiores al promedio poblacional ¿Qué % de la
población pagará el impuesto?
Solución:
1
En este caso, 𝑋 = 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 , 𝑋~𝐸𝑥𝑝(𝑥; 𝛽) y se paga el impuesto si 𝑋 > 𝐸(𝑋) = 𝛽 ; nos pide hallar
1
𝑃(𝑋 > 𝛽).
1
1
1
1
Como 𝑃 (𝑋 > 𝛽) = 1 − 𝑃 (0 < 𝑋 ≤ 𝛽) = 1 − (𝐹𝑋 (𝛽) − ⏟
𝐹𝑋 (0)) = 1 − 𝐹𝑋 (𝛽) y 𝐹𝑋 (𝑥) =
0
𝑥
∫0 𝛽𝑒 −𝛽𝑢 𝑑𝑢
1
=
𝑃 (𝑋 > 𝛽) = 1
𝑥
(−𝑒 −𝛽𝑢 )0 = 1−𝑒 −𝛽𝑥 𝑠𝑖 𝑥 > 0, entonces: 𝐹𝑋
1
− 𝐹𝑋 (𝛽) = 1 − (1 − 𝑒 −1 ) = 𝑒 −1 = 0.38
∞
1
−𝛽𝑥
O también, integrando directamente:𝑃(𝑋 > 𝛽) = ∫1 𝛽𝑒
𝛽
pagará el impuesto.
87
1
(𝛽) = 1 − 𝑒
1
𝛽
−𝛽( )
∞
= 1 − 𝑒 −1 , luego:
𝑑𝑥 = [−𝑒 −𝛽𝑥 ] 1 = 𝑒 −1 = 0.38; el 38%
𝛽
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Orígenes: Proposición
Si en un proceso de Poisson, definimos 𝑇:= Tiempo que transcurre hasta que ocurre 𝐸 por primera vez,
entonces 𝑻 ∼ 𝐸𝑥𝑝(𝑡; 𝛽 = 𝑤), donde 𝑤 es la tasa de ocurrencias de 𝐸 por unidad.
Demostración
Es claro que 𝑅𝑇 =]0, ∞[ . Sea 𝑡 valor dado aunque arbitrario de 𝑅𝑇 y sea 𝐺𝑇 (𝒕) = 𝑃(𝑇 ≤ 𝒕) la distribución
acumulativa de 𝑇, evaluada en 𝑡.
(𝑇 ≤ 𝒕) “En [0, 𝒕[, 𝐸 ocurre 1 o más veces”. Si 𝑿 =# de ocurrencias de 𝑬 en [𝟎, 𝒕[, ya sabemos que
𝑋 ∼ 𝑃(𝑥; 𝜆 = 𝑤𝒕). Por tanto, si representamos con 𝐺𝑇 (𝑡) a la distribución acumulativa de 𝑇:
𝑮𝑻 (𝒕) = 𝑷(𝑻 ≤ 𝒕) = 𝑷(𝑿 ≥ 𝟏) = 𝟏 − 𝑷(𝑿 = 𝟎) = 𝟏 − 𝒆−𝒘𝒕 y derivando tenemos:
𝒈𝑻 (𝒕) = 𝑮′𝑻 (𝒕) = 𝒘𝒆−𝒘𝒕 , es decir 𝑻 ∼ 𝑬𝒙𝒑(𝒕; 𝜷 = 𝒘)
Observaciones:
También podemos ver a 𝑻 como el tiempo que transcurre entre dos ocurrencias sucesivas de 𝐸, pues
si apenas ocurre 𝐸, empezamos a medir el tiempo hasta la siguiente ocurrencia de 𝐸, o sea hacemos 𝑡 =
0, entonces 𝑇 equivale al tiempo que pasa hasta que 𝐸 ocurre por primera vez desde que empezamos a
medir el tiempo.
La distribución exponencial 𝐸𝑥𝑝(𝑥; ) se usa como modelo para tiempos de espera o tiempos de vida.
Ejemplo 20
Las variaciones en el precio de una acción se presentan siguiendo un Proceso de Poisson a una tasa de 
= 5 variaciones por día (asuma día laborable de 8 horas)
a) Si Ud. se pone a esperar todo el tiempo necesario hasta que ocurra la primera variación: calcule la
probabilidad de que Ud. deba esperar más de 4 horas.
b) Si Ud. se pone a esperar todo el tiempo necesario hasta que ocurra la primera variación. Calcule la
probabilidad de que Ud. deba esperar más del doble del tiempo esperado.
Solución:
Si definimos el evento 𝐸 = “Varía el precio del bien”,  = 5 variaciones por día (de 8 horas):
a) Si definimos T = Tiempo en días hasta que ocurre la primera variación, entonces:
𝑇~𝐸𝑥𝑝(𝑡; 𝛽 = 𝜔 = 5) → 𝑓𝑇 (𝑡) = 5𝑒 −5𝑡 0 < 𝑡 < ∞, y se pregunta por 𝑃(𝑇 > 0.5) =
∞
−5∞
) − (−𝑒 −5×0.5 ) = 𝑒 −2.5 = 0.082
∫0.5 5𝑒 −5𝑡 𝑑𝑡 = [−𝑒 −5𝑡 ]∞
0.5 = (−𝑒
b) Si definimos T = Tiempo en días hasta que ocurre la primera variación, entonces:
1
1
1
𝑇~𝐸𝑥𝑝(𝑡; 𝛽 = 𝜔 = 5), 𝐸(𝑇) = 𝛽 = 𝑤 = 5 = 0.2 se pregunta por 𝑃(𝑇 > 2𝐸(𝑇)) = 𝑃(𝑇 > 0.4) =
−2
[−𝑒 −5𝑡 ]∞
= 0.14
0.4 = 𝑒
88
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
3.1.6 Principales Modelos de datos: Distribución Gamma 𝚪(𝒙; 𝜶, 𝜷)
Función matemática Gamma
Denotada 𝛤(𝑝), la función matemática Gamma (evaluada en p), se define mediante
∞
𝜞(𝒑) = ∫𝟎 𝒚𝒑−𝟏 𝒆−𝒚 𝒅𝒚 𝒑 > 𝟎
Se puede probar que la integral anterior existe para todo p positivo.
Propiedades
(1) 𝛤(𝑝) = (𝑝 − 1)𝛤(𝑝 − 1) para 𝑝 > 1. (se prueba usando integración por partes)
(2) (𝒌) = (𝒌 − 𝟏)! si 𝑘 es entero positivo. (Aplicando (1) sucesivas veces)
𝟏
(3)  (𝟐) = √𝝅 (se prueba aplicando cambio de variable y sustitución trigonométrica)
∞
1
∞ 𝑦 𝑝−1 𝑒 −𝑦
∞
Nota: Como 𝜞(𝒑) = ∫𝟎 𝒚𝒑−𝟏 𝒆−𝒚 𝒅𝒚 ⇒ 1 = 𝛤(𝑝) ∫0 𝑦 𝑝−1 𝑒 −𝑦 𝑑𝑦 ⇒ ∫0 (
𝒇(𝒚): =
𝒚𝒑−𝟏 𝒆−𝒚
𝜞(𝒑)
𝛤(𝑝)
) 𝑑𝑦 = 1, es decir
puede considerarse una función de densidad.
Función de Densidad Gamma y Parámetros 𝚪(𝒙; 𝜶, 𝜷)
Definición
Sea 𝑋 v.a.c. con 𝑅𝑋 =]0, ∞[ y sean 𝛼 > 0 y 𝛽 > 0, constantes de valores dados (conocidos). Diremos que
𝑋 “tiene distribución Gamma, de parámetros 𝛼 y 𝛽”, lo que se denotará 𝑋 ∼ 𝛤(𝑥; 𝛼, 𝛽), si su función de
−
densidad es 𝑓𝑋 (𝑥) =
𝑥
𝑥 𝛼−1 𝑒 𝛽
𝛽 𝛼 𝛤(𝛼)
𝑥>0
Parámetros
Los parámetros son 𝛼 y 𝛽. La gráfica es asimétrica a la derecha, pero conforme crece 𝛼, la asimetría se
atenúa:
Distribución Gamma
Distribución Gamma
y=Gamma(x,2,4)
y=gamma(x,10,2)
0.50
0.25
0.00
0.0
2.5
5.0
7.5
10.0
Distribución Gamma
y=gamma(x,16,2)
0.30
0.30
0.25
0.25
0.20
0.20
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0.0
2.5
5.0
7.5
10.0
0.00
0.0
=2, =2
=10, =2
Valores Esperados y Función Generatriz de Momentos.
2.5
1
89
7.5
10.0
12.5
=16, =2
𝛼
𝐸(𝑋) = 𝜇𝑋 = 𝛼𝛽 y 𝑉(𝑋) = 𝜎𝑋2 = 𝛼𝛽 2 , que se deducen de 𝑀𝑋 (𝑡) = (1−𝛽𝑡)
Observaciones:
(1) La distribución exponencial es un caso particular de la Gamma.
5.0
1
𝑡<𝛽
15.0
17.5
20.0
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
(2) Tanto la distribución Exponencial como la Gamma se usan como modelos teóricos para distribuciones
asimétricas como Ingresos, Tiempos de Vida, Edades, etc.
Origen
La Gamma se presenta de modo natural en un proceso de Poisson, cuando medimos el tiempo entre varias
ocurrencias del evento E.
Proposición.
En un proceso de Poisson, sea 𝑇𝑘 el tiempo que transcurre hasta que ocurre 𝐸 por k-ésima vez. Entonces
𝑇𝑘 tiene distribución Gamma de parámetros 𝜶 = 𝒌 y 𝜷 = 𝟏/𝒘
Demostración:
La demostración es similar a la del origen de la distribución exponencial:
Lo principal es darse cuenta que los eventos (𝑇𝑘 ≤ 𝒕) y (𝑋 ≥ 𝑘), donde 𝑋 es el número de ocurrencias de
𝐸 en el intervalo ]0, 𝒕] (𝑋 ∼ 𝑃(𝑥; 𝜆 = 𝑤𝒕)). , son equivalentes y por tanto:
𝑥
−(𝜔𝑡) (𝜔𝑡)
𝐺𝑇𝐾 (𝒕) = 𝑃[𝑇𝑘 ≤ 𝒕] = 𝑃(𝑋 ≥ 𝑘) = 1 − 𝑃(𝑋 ≤ 𝑘 − 1) = 1 − ∑𝑘−1
.
𝑥=0 𝑒
𝑥!
Derivando 𝐺𝑇𝐾 (𝑡) con respecto a t, se obtiene 𝑔𝑇𝐾 (𝑡):
𝑘−1
𝑘−1
𝑑
𝑑
(𝜔𝑡)𝑥
𝑥𝜔(𝜔𝑡)𝑥−1
(𝜔𝑡)𝑥
𝐺𝑇𝐾 (𝑡) = 𝑔𝑇𝐾 (𝑡) = − ∑ (𝑒 −(𝜔𝑡)
) = − ∑ (𝑒 −(𝜔𝑡)
+ (−𝜔)𝑒 −(𝜔𝑡)
)=
𝑑𝑡
𝑑𝑡
𝑥!
𝑥!
𝑥!
𝑥=0
𝒌−𝟏
∑ (𝝎𝒆
𝑥=0
𝑘−1
−(𝝎𝒕)
𝒙=𝟎
𝒌−𝟏
𝑘−1
𝒙=𝟎
𝑥=1
(𝝎𝒕)𝒙
𝑥𝜔(𝜔𝑡)𝑥−1
(𝝎𝒕)𝒙
𝜔(𝜔𝑡)𝑥−1
−(𝜔𝑡)
−(𝝎𝒕)
−(𝜔𝑡)
) − ∑ (𝑒
) = ∑ (𝝎𝒆
) − ∑ (𝑒
)=
(𝑥 − 1)!
𝒙!
𝑥!
⏟
𝒙!
𝑥=0
𝑥(𝑥−1)!
𝒌−𝟏
𝒌−𝟐
𝒙=𝟎
𝒚=𝟎
(𝝎𝒕)𝒙
(𝝎𝒕)𝒚
𝑒 −(𝜔𝑡) (𝜔𝑡)𝒌−𝟏
−(𝝎𝒕)
−(𝝎𝒕)
∑ (𝝎𝒆
) −
⏟ ∑ (𝝎𝒆
)=𝜔
⇒
𝒙! 𝒚=𝒙−𝟏
𝒚!
(𝒌 − 𝟏)!
𝑔𝑇𝐾 (𝑡) = 𝜔
𝑒 −(𝜔𝑡) (𝜔𝑡)𝑘−1
(𝑘−1)!
=
𝒕
−𝟏
𝒈𝑻𝑲 (𝒕) =
𝒕𝒌−𝟏 𝒆 𝝎
𝟏
𝝎
( )𝒌 𝜞(𝒌)
(𝜔)𝑘 𝑡 𝑘−1 𝑒 −(𝜔𝑡)
(𝑘−1)!
𝑡
−1
=
𝑡 𝑘−1 𝑒 𝜔
1
( )𝑘 (𝑘−1)!
𝜔
𝑡
−1
=
𝑡 𝑘−1 𝑒 𝜔
1
𝜔
( )𝑘 𝛤(𝑘)
𝑡 > 0, es decir:
𝑥
𝒕 > 𝟎 que corresponde a una distribución Gamma 𝑓𝑋 (𝑥) =
−
𝑥 𝛼−1 𝑒 𝛽
𝛽 𝛼 𝛤(𝛼)
𝑥 > 0 de
1
parámetros 𝛼 = 𝑘 y 𝛽 = 𝑤
Ejemplo 21
En un modelo sobre hiperinflaciones, un analista propone que las subidas del precio de un bien se
presentan de acuerdo con un proceso de Poisson a una tasa de w subidas por periodo (tiempo en semanas),
y estima que la probabilidad de que en una semana ocurra una subida es el triple de la probabilidad de que
no ocurran subidas.
a) Halle la tasa w. ¿Cuántas subidas se espera en una semana? ¿Cuál es la probabilidad de que ocurran
más subidas de lo esperado?
b) Sea T = Tiempo que pasa hasta la primera subida de precio. Halle 𝑃(𝑇 > 𝑡) y la función de
distribución acumulativa de T: 𝐹𝑇 (𝑡) = 𝑃(𝑇 ≤ 𝑡) y por derivación, halle la función de densidad de T:
𝑓𝑇 (𝑡). Identifique la función de densidad de 𝑇 así como el tiempo esperado hasta la primera subida.
c) Por analogía a b), si ahora T = Tiempo que pasa hasta la segunda subida de precio, halle 𝐹𝑇 (𝑡) =
𝑃(𝑇 ≤ 𝑡), 𝑓𝑇 (𝑡) y 𝐸(𝑇).
d) Si cada subida es de 100𝑟% (0 < 𝑟 < 1) y al inicio de un mes, el precio es 𝑃0 ¿Cuánto se espera
que valga el bien a fin de mes, si éste tiene cinco semanas?
Solución:
a) Se trata de un proceso de Poisson en el tiempo: el “evento E que ocurre aleatoriamente en el tiempo”
sería E = “Sube el precio”. Y si 𝑋 = # 𝑑𝑒 𝑜𝑐𝑢𝑟𝑟𝑒𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐸 𝑒𝑛 𝑡 𝑠𝑒𝑚𝑎𝑛𝑎𝑠 ⇒ 𝑋~𝑃(𝑥; 𝜆 = 𝑤𝑡) y
90
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
por dato, para 𝑡 = 1 semana se estima que 𝑃(𝑋 = 1) = 3𝑃(𝑋 = 0) ⇔ 𝑒 −𝑤
𝑤1
1!
= 3𝑒 −𝑤
𝑤0
0!
⇔𝑤=3
b) Si 𝑇 = 𝑇𝑖𝑒𝑚𝑝𝑜 ℎ𝑎𝑠𝑡𝑎 𝑙𝑎 𝑝𝑟𝑖𝑚𝑒𝑟𝑎 𝑠𝑢𝑏𝑖𝑑𝑎 entonces
𝑃(𝑇 > 𝑡) = 𝑃(𝐸𝑛𝑡𝑟𝑒 0 𝑦 𝑡 𝑠𝑒𝑚𝑎𝑛𝑎𝑠 𝒏𝒐 ℎ𝑎𝑦 𝑠𝑢𝑏𝑖𝑑𝑎𝑠) = 𝑃(𝑋 = 0) donde definimos
𝑋 = 𝑑𝑒 𝑠𝑢𝑏𝑖𝑑𝑎𝑠 𝑒𝑛 𝑡 𝑠𝑒𝑚𝑎𝑛𝑎𝑠~𝑃(𝑥; 𝜆 = 𝑤𝑡 = 3𝑡) ⇒ 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝑒 −(3𝑡)
(3𝑡) 𝑥
𝑥 = 0, 1, … , ∞
𝑥!
Entonces 𝑃(𝑇 > 𝑡) = 𝑃(𝑋 = 0) = 𝑒 −3𝑡 .
De lo anterior, la función de distribución acumulativa de 𝑇 es 𝐹𝑇 (𝑡) = 𝑃(𝑇 ≤ 𝑡) = 1 − 𝑃(𝑇 > 𝑡) =
𝑑
1 − 𝑒 −3𝑡 y así 𝑓𝑇 (𝑡) = 𝑑𝑡 𝐹𝑇 (𝑡) = 3𝑒 −3𝑡 es la función de densidad de 𝑇 y es fácil verificar que 𝑓𝑇 (𝑡)
1
corresponde a una distribución exponencial 𝐸𝑥𝑝(𝑡; 𝛽 = 3), esto es 𝑇~𝐸𝑥𝑝(𝑡; 𝛽 = 3) y 𝐸(𝑇) = 𝛽
1
= 3; el tiempo esperado hasta que ocurra la primera subida del precio es 1/3 de semana.
c) Si ahora 𝑇 = Tiempo que pasa hasta la segunda subida de precio, entonces por analogía, 𝑅𝑇 =]0, ∞[ y
si tomamos un valor 𝑡 fijo en 𝑅𝑇 :
(𝑇 > 𝑡) ocurre si hasta la semana t inclusive no hay subida o hay una subida, no más; o sea:
𝑃(𝑇 > 𝑡) = 𝑃(𝐸𝑛𝑡𝑟𝑒 0 𝑦 𝑡 𝑠𝑒𝑚𝑎𝑛𝑎𝑠 ℎ𝑎𝑦 0 𝑜 1 𝑠𝑢𝑏𝑖𝑑𝑎) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) donde como en b)
𝑋 = # 𝑑𝑒 𝑠𝑢𝑏𝑖𝑑𝑎𝑠 𝑒𝑛 𝑡 𝑠𝑒𝑚𝑎𝑛𝑎𝑠~𝑃(𝑥; 𝜆 = 𝑤𝑡 = 3𝑡) ⇒ 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝑒 −(3𝑡)
(3𝑡) 𝑥
𝑥 = 0, 1, … , ∞
𝑥!
Entonces 𝑃(𝑇 > 𝑡) = 𝑃(𝑋 ≤ 1) = 𝑒 −3𝑡 + 𝑒 −3𝑡 3𝑡/1! y ahora la función de distribución acumulativa
de 𝑇 es 𝐹𝑇 (𝑡) = 𝑃(𝑇 ≤ 𝑡) = 1 − 𝑃(𝑇 > 𝑡) = 1 − 𝑒 −3𝑡 (1 + 3𝑡), luego:
𝑑
𝑓𝑇 (𝑡) = 𝑑𝑡 𝐹𝑇 (𝑡) = 3𝑒 −3𝑡 (1 + 3𝑡) − 𝑒 −3𝑡 × 3 = 9𝑡𝑒 −3𝑡 0 < 𝑡 < ∞; ( note que 𝑓𝑇 (𝑡) también se
puede escribir 𝑓𝑇 (𝑡) =
𝑡
− 1
( )
2−1
𝑡
𝑒 3
1 2
( ) (2−1)!
0 < 𝑡 < ∞, que coincide con una distribución Gamma
3
1
1
𝛤(𝑥; 𝛼 = 2, 𝛽 = (3) o sea 𝑇~𝛤(𝑥; 𝛼 = 2, 𝛽 = (3) .
∞
∞
2
Finalmente 𝐸(𝑇) = ∫0 𝑡 9𝑡𝑒 −3𝑡 𝑑𝑡 = 3 ∫0 𝑡 2 3𝑒 −3𝑡 𝑑𝑡 = 3. La integral anterior se puede hacer
aplicando “integración por partes”, pero una alternativa más práctica es usar de frente el valor
1
2
2
esperado de una distribución Gamma: 𝜇 = 𝛼𝛽 = 2 × 3 = 3 ⇒ 𝐸(𝑇) = 3 :Se espera que hasta la
segunda subida de precio pasen 2/3 de semana.
d) Al principio de mes el precio es 𝑃0 , analicemos:
Si hubiera sólo una subida durante el mes, el precio final sería 𝑃1 = 𝑃0 + 𝑟𝑃0 = 𝑃0 (1 + 𝑟).
Si hubiera dos subidas durante el mes, el precio final sería el del efecto acumulado de las dos subidas,
pues el crecimiento de 100𝑟% en la segunda subida ocurre no sobre 𝑃0 sino sobre 𝑃1 , o sea, si 𝑃2 es el
precio luego de la segunda subida del mes es 𝑃2 = 𝑃1 + 𝑟𝑃1 = 𝑃1 (1 + 𝑟) = 𝑃0 (1 + 𝑟) × (1 + 𝑟) =
𝑃0 (1 + 𝑟)2 .
Si hubiera tres subidas, extendiendo el razonamiento anterior, el precio final sería 𝑃3 = 𝑃2 + 𝑟𝑃2 =
𝑃0 (1 + 𝑟)3 . De este modo, procediendo inductivamente, en el caso ocurrieran 𝑋 subidas de precio en
el mes, si 𝑃𝑋 representa el precio a fin de mes, tendríamos que 𝑃𝑋 = 𝑃0 (1 + 𝑟) 𝑋 y se pregunta por
𝐸(𝑃𝑋 ) = 𝐸(𝑃0 (1 + 𝑟) 𝑋 ).
Sabemos que si 𝑋 = # 𝑑𝑒 𝑠𝑢𝑏𝑖𝑑𝑎𝑠 𝑒𝑛 𝑡 𝑠𝑒𝑚𝑎𝑛𝑎𝑠~𝑃(𝑥; 𝜆 = 𝑤𝑡 = 3𝑡), y en este caso 𝑡 = 5, luego:
𝑋
𝑋 = ~𝑃(𝑥; 𝜆 = 𝑤𝑡 = 15) ⇒ 𝐸(𝑃0 (1 + 𝑟) 𝑋 ) = ∑∞
𝑥=0 𝑃0 (1 + 𝑟) 𝑃(𝑥; 𝜆 = 15) =
𝑥
𝑥
[(1+𝑟)15]
𝑥 −15 15
∑∞
= 𝑃0 𝑒 −15 ∑∞
= 𝑃0 𝑒 −15 𝑒 (1+𝑟)15 = 𝑃0 𝑒 −15 𝑒 15+15𝑟 = 𝑃0 𝑒 15𝑟
𝑥=0 𝑃0 (1 + 𝑟) 𝑒
𝑥=0
𝑥!
𝑥!
𝑍𝑘
(aplicando la propiedad de la función exponencial 𝑒 𝑍 = ∑∞
𝑘=0 𝑘! ∀𝑧 ∈ ℝ).
91
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Ejemplo 22 (Proceso de Poisson en un espacio unidimensional)
El número de unidades de transporte que circula por una avenida de la ciudad se presenta a razón de W
vehículos/cuadra aproximadamente. Un economista de transporte está formulando un modelo al respecto
y en un muestreo, encuentra sobre 10 cuadras consecutivas, un total de 50 unidades.
a) ¿Cuál es el valor de w?
b) ¿Con qué probabilidad encontraríamos que entre dos unidades de transporte medien menos de 0.25
cuadras?
c) Un micro entra a la avenida y le informan que dos unidades de la misma línea le preceden. ¿Qué
distancia esperaría que medie o haya entre el micro entrante y el más cercano de los que lo preceden?
¿Del más alejado? ¿Con qué probabilidad serán las distancias mayores que lo esperado? Mida la
distancia en cuadras y asuma que el número de vehículos de esta línea en la avenida tiene una tasa igual
a la cuarta parte de la general
Solución:
a) Si 𝑋 =(tomamos como unidad la cuadra), entonces 𝑋~𝑃(𝑥; 𝜆 = 𝑤𝑡 = 10𝑤). Sabemos que 𝐸(𝑋) =
𝐸[𝑋]
𝑋
𝜆 = 𝑤𝑡 y 𝑤 = 𝑡 = 𝐸[ 𝑡 ] que define a 𝒘 como el “Número promedio de veces que ocurre 𝑬 por
50
unidad” y de los datos tenemos 𝟏𝟎𝒘 = 50 ⇒ 𝑤 = 10 = 𝟓 𝒗𝒆𝒉í𝒄𝒖𝒍𝒐𝒔/𝒄𝒖𝒂𝒅𝒓𝒂.
b) Sea T=Distancia entre dos vehículos, entonces 𝑇~𝐸𝑥𝑝(𝑡; 𝛽 = 𝑤 = 5) de acuerdo a la proposición
0.25
demostrada líneas arriba. Luego 𝑃(𝑇 ≤ 0.25) = ∫0 5𝑒 −5𝑡 𝑑𝑡 = (−𝑒 −5𝑡 )0.25
= 1 − 𝑒 −1.25 =
0
1 − 0.29 = 𝟎. 𝟕𝟏
c) En este caso la tasa 𝒘 = 𝟓/𝟒 = 𝟏. 𝟐𝟓 y podemos aplicar sucesivamente las proposiciones relativas al
origen de las distribuciones exponencial y gamma.
Si definimos 𝑇1 =Distancia entre el micro que entra a la avenida y el más cercano de los que lo
𝟏
𝟒
preceden, podemos ver que 𝑻𝟏 ~𝑬𝒙𝒑(𝒕; 𝜷 = 𝟓/𝟒) y además 𝑬(𝑻𝟏 ) = 𝜷 = 𝟓 = 𝟎. 𝟖 𝒄𝒖𝒂𝒅𝒓𝒂𝒔.
Análogamente si 𝑻𝟐 =Distancia hasta el micro más alejado=Distancia entre el micro entrante y el
𝟏
primer micro delante de todos, podemos ver que 𝑻𝟐 ~𝜞(𝒕; 𝜶 = 𝒌 = 𝟐, 𝜷 = 𝒘 = 𝟒/𝟓) (no confundir
𝟖
este parámetro 𝛽 con el de la exponencial). De lo anterior resulta 𝑬(𝑻𝟐 ) = 𝜶𝜷 = 𝟓 = 𝟏. 𝟔 𝒄𝒖𝒂𝒅𝒓𝒂𝒔
∞ 𝑡𝑒 −𝑡/(0.8)
∞
Finalmente 𝑃(𝑇1 > 0.8) = ∫0.8 𝟏. 𝟐𝟓𝒆−𝟏.𝟐𝟓𝒕 𝑑𝑡 = 𝑒 −1 = 0.37 y 𝑃(𝑇2 > 1.6) = ∫1.6
(0.8)2
𝑑𝑡 = 0.41
Nota: 𝑇1 𝑒𝑠 𝑒𝑙 𝑇 𝑑𝑒 𝑙𝑎 𝑝𝑎𝑟𝑡𝑒 𝑏)
Ejemplo 23
Para el ingreso diario 𝑋 (en cientos de unidades monetarias) de un taxista independiente, se asume como
modelo de datos una distribución Gamma: 𝑋~Γ(𝑥; 𝛼 = 2, 𝛽 = 0.45). Si 𝑛 = 32 taxistas se juntan para
formar una agencia de taxis y se desea saber cuál sería el valor del percentil 5 del ingreso total diario de la
agencia, obtenido juntando sus ingresos diarios, halle el valor de este percentil. Si se aumentara a 40 el
número de asociados ¿Cómo y en cuánto cambia el percentil 5?
Solución:
Sea 𝑋𝑖 = Ingreso diario del taxista #1 de la agencia, entonces 𝑋𝑖 ~Γ(𝑥𝑖 ; 𝛼 = 2, 𝛽 = 0.45) 𝑖 = 1, 2, … , 32.
Por tanto 𝜇𝑋𝑖 ≡ 𝜇𝑖 = 𝛼𝛽 = 2 × 0.45 = 0.9; 𝜎𝑋2𝑖 ≡ 𝜎𝑖2 = 𝛼𝛽 2 = 2 × 0.452 = 0.405 y si 𝑇 es el Ingreso
total diario de la agencia, entonces 𝑇 = ∑32
𝑖=1 𝑋𝑖 y como 𝑛 = 32 > 30 es “grande”, por el Teorema del
límite central se cumple
32
𝑇~𝑁 (𝜇𝑇 = ∑
32
𝜇𝑖 = ∑
𝑖=1
0.9 = 32 × 0.9 = 28.8, 𝜎𝑇2 = ∑
𝑖=1
32
𝑖=1
𝜎𝑖2 = ∑
32
0.405 = 32 × 0.405 = 12.96)
𝑖=1
𝑇~𝑁(𝜇 𝑇 = 28.8, 𝜎𝑇2 = 12.96) si denotamos 𝑡0.05 el percentil 5 de 𝑇, sabemos que se cumple
𝑡
−28.8
𝑡
−28.8
𝑃(𝑇 ≤ 𝑡0.05 ) = 0.05 = 𝑃 (𝑍 ≤ 0.05
) y de la tabla Z se tiene 0.05
≅ −1.645 ⇒
√12.96
√12.96
𝑡0.05 = 28.8 − 1.645√12.96 = 22.878
Si se aumenta a 𝑛 = 40 el número de asociados, entonces
92
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
∑40
𝑖=1 𝜇𝑖
∑40
𝑖=1 0.9
𝑇~𝑁(𝜇 𝑇 =
=
= 40 × 0.9
𝑡
−36
𝑃(𝑇 ≤ 𝑡0.05 ) = 0.05 = 𝑃 (𝑍 ≤ 0.05 ) ⇒
= 36, 𝜎𝑇2
𝑡0.05 −36
√16.2
√16.2
2
∑40
𝑖=1 𝜎𝑖
∑40
𝑖=1 0.405
=
=
= 40 × 0.405 = 16.2) y
≅ −1.645 ⇒ 𝑡0.05 = 36 − 1.645√16.2 = 29.379; el
percentil 5 aumenta en 6.501 cientos de u.m.
Ejemplo 24
Asuma que, en cierta avenida, los buses interprovinciales entran de acuerdo con un proceso de Poisson
(en el espacio lineal) de modo que su ubicación en la avenida se ajusta a un proceso de Poisson de tasa 
= 1 por kilómetro. En la avenida hay cuatro buses: Si 𝐷 es la distancia entre los dos buses más cercanos al
inicio de la avenida y 𝑍 es la distancia hasta el segundo bus más alejado desde el inicio ¿Ocurrirá que
𝐷 < 0.5? ¿Ocurrirá que 𝑍 < 𝐸(𝑍)?
Solución:
𝐷~𝐸𝑥𝑝(𝛽 = 𝜔 = 1) 𝑦 𝑍~Γ(𝑧; 𝛼 = 2, 𝛽 = 1/𝜔 = 1), luego (en la primera integral sobre D cambiamos
la variable de integración d por t para evitar confusión)
0.5
0.5
−0.5
𝑃(𝐷 < 0.5) = ∫0 𝜔𝑒 −𝜔𝑡 𝑑𝑡 = ∫0 𝑒 −𝑡 𝑑𝑡 = [−𝑒 −𝑡 ]0.5
= 0.39 > 0.5: No ocurrirá el evento.
0 =1−𝑒
𝑧 𝛼−1 𝑒 −𝑧/𝛽
𝑍~Γ(𝑧; 𝛼 = 2, 𝛽 = 𝜔 = 1) ⇒ 𝑓𝑍 (𝑧) =
= 𝑧 𝑒 −𝑧 0 < 𝑧 < ∞
𝛽 𝛼 Γ(𝛼)
2
𝐸(𝑍) = 𝛼𝛽 = 2 ⇒ 𝑃(𝑍 < 𝐸(𝑍)) = ∫0 𝑧 𝑒 −𝑧 𝑑𝑧 = [−𝑒 −𝑧 (𝑧 + 1)]20 = 1 − 3𝑒 −2 = 0.5939 > 0.5: Sí
ocurrirá este evento.
2
Nota: ∫0 𝑧 𝑒 −𝑧 𝑑𝑧 se obtuvo aplicando “integración por partes” haciendo 𝑢 = 𝑧, 𝑑𝑣 = 𝑒 −𝑧 ; pero también
se puede obtener directamente si definimos la v.a. 𝑋 = # 𝑑𝑒 𝑏𝑢𝑠𝑒𝑠 𝑒𝑛 [0,2] ⇒ 𝑋~𝑃(𝑥; 𝜆 = 𝜔𝑡 = 2) y
21
(𝑍 < 2) = (𝑋 ≥ 2) ⇒ 𝑃(𝑍 < 2) = 𝑃(𝑋 ≥ 2) = 1 − 𝑃(𝑋 = 0) − 𝑃(𝑋 = 1) = 1 − 𝑒 −2 − 𝑒 −2 = 1 − 3𝑒 −2.
1!
Esta idea siempre se puede aplicar con la distribución Gamma.
Ejemplo 25 (Proceso de Poisson en espacio bidimensional)
En una región plana, el número de mineros informales se ubica aleatoriamente en cualquier parte de la
región según un proceso de Poisson a una tasa de 𝑤 = 0.5 𝑚𝑖𝑛𝑒𝑟𝑜𝑠 por hectárea
a) Usted llega y se ubica en una zona que tiene 10 hectáreas y sabe que con más de 2 mineros en la zona,
a la larga ésta quedará inhabitable por contaminación ¿Ocurriría lo anterior?
b) En a) si usted se ubica en el centro de la zona ¿Con qué probabilidad en un radio de 10 metros no
habrá mineros?
c) En a) si se ubica en el centro de la zona y mide la distancia D hasta el minero ubicado más cerca de
usted, halle la distribución acumulativa 𝐺𝐷 (𝑑) = 1 − 𝑃(𝐷 > 𝑑) y su función de densidad 𝑔𝐷 (𝑑).
Solución:
Primero veamos el contexto general: se trata de un proceso de Poisson que se presenta en un espacio
plano, el evento es E = “Un minero informal se ubica o encuentra en una parte de la zona”; la tasa de
ocurrencias de E es 0.5 mineros por unidad de área (o sea 2 mineros por unidad de área) y la unidad es la
hectárea (10,000 mts2 o el área ocupada por un cuadrado de 100 mts. de lado).
a) Si 𝑋 = # de mineros informales en 𝑡 = 10 hectáreas, entonces 𝑋~𝑃(𝑥; 𝜆 = 𝜔𝑡 = 0.5 × 10 = 5) y hay
52
que calcular 𝑃(𝑋 > 2) = 1 − 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) = 1 − 𝑒 −5 − 𝑒 −5 5 − 𝑒 −5 2! =
1 − 0.125 = 0.875 > 0.5; sí ocurrirá que la zona quedará inhabitable por contaminación.
b) Ahora sea 𝑋 = # de mineros informales en el área cubierta por el radio de 10 metros. Como el área es
la de un círculo de radio 𝑟 = 10 𝑚𝑡𝑠, entonces el área es 𝑡 = 𝜋𝑟 2 𝑚𝑡𝑠.2 = 314.16𝑚𝑡𝑠.2 = 0.031416
hectáreas y hay que calcular 𝑃(𝑋 = 0) donde 𝑋~𝑃(𝑥; 𝜆 = 𝜔𝑡 = 0.5 × 0.031416 = 0.015708) ⇒
𝑃(𝑋 = 0) = 𝑒 −0.015708 = 0.9844
93
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
c) Si D = Distancia hasta el minero ubicado más cerca, 𝐺𝐷 (𝑑) = 𝑃(𝐷 ≤ 𝑑) = 1 − 𝑃(𝐷 > 𝑑) y el evento
(𝐷 > 𝑑) = (𝑋 = 0) donde 𝑋 =# de mineros informales en el área de un círculo de radio 𝑟 = 𝑑 𝑚𝑡𝑠., y
𝜋𝑑2
á𝑟𝑒𝑎 = 𝑡 = 𝜋𝑑 2 𝑚𝑡𝑠.2 = 10,000 = 10−4 𝜋𝑑 2 hectáreas, entonces 𝑋~𝑃(x; λ = ωt = 0.5 × 10−4 πd2 =
−5
2
5 × 10−5 πd2 ), tenemos 𝐺𝐷 (𝑑) = 1 − 𝑃(𝐷 > 𝑑) = 1 − (𝑋 = 0) = 1 − 𝑒 −5×10 𝜋𝑑 0 < 𝑑 y 𝑔𝐷 (𝑑) =
−5
2
−5
2
𝐺′𝐷 (𝑑) = 𝑒 −5×10 𝜋𝑑 10−4 𝜋𝑑 = (10−4 𝜋)𝑑𝑒 −(5×10 𝜋)𝑑 0 < 𝑑 es la función de densidad de 𝐷.
Principales distribuciones en Excel
94
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
3.1.7 Principales Modelos de datos: Distribución Geométrica 𝑮(𝒙; 𝒑) y Distribución Binomial
Negativa o de Pascal 𝑩𝑵(𝒙; , 𝒓, 𝒑)
Distribución Geométrica 𝑮(𝒙; 𝒑)
Definición y Parámetros
Sea X v.a. discreta, con rango 𝑅𝑋 = {1, 2, … , ∞}. Sean 𝑝 ∈]0,1[y 𝒒 = 𝟏 − 𝒑 de valores dados. Diremos
que 𝑋 tiene distribución geométrica de parámetro p , si su función de probabilidad es
𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝑝𝑞 𝑥−1 𝑥 = 1, 2, 3, ⋯ , ∞
Notación.
El que X distribución geométrica se denota escribiendo 𝑋~𝐺(𝑥; 𝑝)
Parámetro.
El único parámetro es 𝑝.
Observación:
𝑆𝑒𝑟𝑖𝑒
𝐺𝑒𝑜𝑚é𝑡𝑟𝑖𝑐𝑎
𝑝
𝑞
⏞
𝑝
∞
𝑥−1
𝒙
∑∞
= 𝑞 ∑∞
𝑥=1 𝐺(𝑥; 𝑝) = ∑𝑥=1 𝑝𝑞
𝒙=𝟏 𝒒 = 𝑞
1−𝑞
𝑝
= 𝑝 = 1 así que, en efecto, 𝐺(𝑥; 𝑝) es una fun-
ción de probabilidad.
Valores Esperados y Función Generatriz de Momentos
Se puede verificar que:
1
𝑞
𝐸(𝑋) = 𝜇𝑋 = 𝑝 y 𝑉(𝑋) = 𝜎𝑋2 = 𝑝2 . Lo anterior se obtiene a partir de la función generatriz respectiva, que
𝑝𝑒 𝑡
𝑡𝑥
𝑥−1
𝑡
𝑥
es 𝑀𝑋 (𝑡) = 1−𝑞𝑒 𝑡 , 𝑡 < −𝑙𝑛𝑞. En efecto: 𝑀𝑋 (𝑡) = 𝐸(𝑒 𝑡𝑋 ) = ∑∞
= 𝑝𝑞 −1 ∑∞
𝑥=1 𝑒 𝑝𝑞
𝑥=1(𝑒 𝑞) =
𝑞𝑒 𝑡
𝑝𝑒 𝑡
𝑝𝑞 −1 (1−𝑞𝑒 𝑡 ) = (1−𝑞𝑒 𝑡) si tomamos 𝑡 < − 𝑙𝑛 𝑞.
Como en la Binomial, en la Geométrica la gráfica depende de 𝑝:
0.6
0.6
G(x;p=0.2)
0.4
0.8
0.6
G(x;p=0.8)
0.8
G(x;p=0.5)
0.8
0.4
0.2
0.2
0.2
0.0
0.0
0.4
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
X
X
p = 0.2
p = 0.5
0.0
1 2 3 4 5 6 7 8 9 10
X
p = 0.8
Origen.
La Distribución Geométrica aparece como resultado de contar cuántas veces se debe repetir un experimento
hasta lograr que ocurra un determinado suceso 𝐴 por primera vez.
95
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Proposición
Sea 𝐴 un evento con probabilidad 𝑝 = 𝑃(𝐴) > 0. Supongamos que el experimento  asociado al evento, se
repite sucesivas veces hasta que ocurra 𝐴 por primera vez. Sea 𝑋:= # total de repeticiones de .
Entonces 𝑋~𝐺(𝑥; 𝑝).
Demostración
Es claro que 𝑅𝑋 = {1, 2, … , ∞}. Sea 𝒙 un elemento dado de 𝑅𝑋 :
(𝑋 = 𝑥) ocurre si y sólo si en cada una de las (𝑥 − 1) primeras repeticiones, ocurre 𝐴𝐶 y en la repetición
𝑥 -ésima ocurre A .
Sean los eventos 𝐴𝑖 = “En la repetición i ocurre 𝐴”, i =1, 2, 3,... entonces tenemos:
(𝑥−1)𝑣𝑒𝑐𝑒𝑠
(𝑥−1)𝑣𝑒𝑐𝑒𝑠
⏞𝐶 ∩ 𝐴𝐶 ∩ 𝐴𝐶 . . .∩ 𝐴𝐶 ∩ 𝐴 ) = ⏞
𝑃(𝑋 = 𝑥) = 𝑃(𝐴
𝑞 × 𝑞 × … .× 𝑞 × 𝑝 = 𝑞 𝑥−1 𝑝 que se obtiene aplicando
𝑥
1
2
3
𝑥−1
la regla del producto. Luego 𝑋 ∼ 𝐺(𝑥; 𝑝).
Distribución de Pascal o Binomial Negativa: 𝑩𝑵(𝒙; 𝒓, 𝒑)
Es una generalización de la Geométrica, que surge cuando se repite el experimento  hasta que ocurre 𝐴
por 𝒓 -ésima vez, donde 𝒓 es un entero positivo de valor fijo y conocido.
En este contexto, si 𝑋 ≔ # total de repeticiones, la f. de probabilidad de 𝑋 es:
𝑥−1 𝑟 𝑥−𝑟
𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝐶𝑟−1
𝑝 𝑞
𝑥 = 𝑟, 𝑟 + 1, 𝑟 + 2, ⋯ ∞
𝑥−1 𝑟−1
pues 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝑝 × (𝐶𝑟−1
𝑝
× 𝑞 𝑥−𝑟 ) 𝑥 = 𝑟, 𝑟 + 1, 𝑟 + 2, ⋯ ∞.
Nota:
1
𝑥−1 𝑟 𝑥−𝑟
𝑥−1 𝑥−𝑟
De * se deduce además que ∑∞
= 1 ⇒ ∑∞
= 𝑟 ∀ 0 < 𝑝 < 1, 𝑞 = 1 − 𝑝.
𝑥=𝑟 𝐶𝑟−1 𝑝 𝑞
𝑥=𝑟 𝐶𝑟−1 𝑞
𝑝
La función generatriz de momentos de 𝑋 resulta de:
𝑥−1
𝑡𝑥 𝑥−1 𝑟 𝑥−𝑟
𝑡𝑥 𝑥−1 𝑥 1
𝑟 ∞
𝑡 𝑥 1
𝑀𝑋 (𝑡) = 𝐸(𝑒 𝑡𝑋 ) = ∑∞
= 𝑝𝑟 ∑∞
𝑥=𝑟 𝑒 𝐶𝑟−1 𝑝 𝑞
𝑥=𝑟 𝑒 𝐶𝑟−1 𝑞 𝑞𝑟 = 𝑝 ∑𝑥=𝑟 𝐶𝑟−1 (𝑞𝑒 ) 𝑞𝑟 =
1
𝑥−1
𝑥−1
𝑥−1
𝑡 𝑥−𝑟 (
𝑡 𝑥−𝑟 (𝑒 𝑟𝑡 )
𝑡 𝑥−𝑟
𝑝𝑟 ∑∞
𝑞𝑒 𝑡 )𝑟 𝑞𝑟 = 𝑝𝑟 ∑∞
= 𝑝𝑟 (𝑒 𝑟𝑡 ) ∑∞
; tomando 𝑡 tal
𝑥=𝑟 𝐶𝑟−1 (𝑞𝑒 )
𝑥=𝑟 𝐶𝑟−1 (𝑞𝑒 )
𝑥=𝑟 𝐶𝑟−1 (𝑞𝑒 )
𝑥−1
𝑡 𝑥−𝑟
que 𝑞 𝑒𝑡 < 1, entonces según la nota anterior: ∑∞
=
𝑥=𝑟 𝐶𝑟−1 (𝑞𝑒 )
𝑥−1
𝑡 𝑥−𝑟
𝑀𝑋 (𝑡) = 𝐸(𝑒 𝑡𝑋 ) = 𝑝𝑟 (𝑒 𝑟𝑡 ) ∑∞
= 𝑝𝑟 (𝑒 𝑟𝑡 )
𝑥=𝑟 𝐶𝑟−1 (𝑞𝑒 )
𝒑𝒆𝒕
𝒓
1
𝑟 =
(1−(𝑞𝑒 𝑡 ))
1
𝑟
(1−(𝑞𝑒 𝑡 ))
𝑝𝑟 (𝑒 𝑟𝑡 )
y reemplazando en 𝑀𝑋 (𝑡):
𝑝𝑒 𝑡
𝑟
) ; 𝑞𝑒 𝑡 < 1 o
𝑟 = (
1−𝑞𝑒 𝑡
(1−(𝑞𝑒 𝑡 ))
equivalentemente: 𝑴𝑿 (𝒕) = (𝟏−𝒒𝒆𝒕 ) , 𝒕 < −𝒍𝒏𝒒. De lo anterior se obtienen lo valores esperados que son
𝒓
𝒓𝒒
𝑬(𝑿) = 𝝁𝑿 = 𝒑 y 𝑽(𝑿) = 𝝈𝟐𝑿 = 𝒑𝟐 .
BN(x;p=0.2,r=4)
0.0600
BN(x;p=0.4,r=4)
BN(x;p=0.8,r=4)
0.1400
0.1800
0.1600
0.1200
0.0500
0.1400
0.1000
0.0400
0.1200
0.0800
0.1000
0.0300
0.0800
0.0600
0.0200
0.0600
0.0400
0.0400
0.0100
0.0200
0.0200
0.0000
0.0000
4
6
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68
0.0000
4
6
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68
7
9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67
Figura 1 Distribución binomial negativa 𝒑 = 𝟎. 𝟐; 𝒑 = 𝟎. 𝟒; 𝒑 = 𝟎. 𝟖; 𝒓 = 𝟒.
96
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Esta función no está integrada aún en Excel, pero es sencilla de programar, como se ve en la figura 2 de
𝑥−1 𝑟 𝑥−𝑟
𝑥−1
abajo, donde se ha preferido desagregar la fórmula 𝑃(𝑋 = 𝑥) = 𝐶𝑟−1
𝑝 𝑞
en sus tres factores 𝐶𝑟−1
,
𝑟
𝑥−𝑟
𝑝 y 𝑞 de modo que se evitan errores. El signo $ delante del 4 se usa para “fijar” esa fila en los
cálculos donde figuran 𝑝 o 𝑟 de modo que al copiar la fórmula puesta en las celdas D4 a G4 a las celdas
en las siguientes filas, los valores 𝑝 = 0.2 y 𝑟 = 4 no se alteren.
Figura 2 Generación de la Distribución Binomial Negativa con Excel.
Ejemplo 26
Un consumidor está en un mercado con infinitos productores del mismo bien que le ofrecen el producto a
similar precio, pero con distintas modalidades de propaganda y trato al cliente, de modo que la elección
del consumidor no es inmediata sino aleatoria, con una probabilidad 𝒑 de que se decida por el productor
al cual está consultando sobre el bien. Sea 𝑋 el número de productores visitados por el consumidor:
¿Cuántas consultas se espera que haga esta persona? ¿Con qué probabilidad hará más consultas de lo
esperado?
Solución:
Sea  el experimento “El consumidor consulta acerca del bien con un productor del mercado” y sea A el
evento “El consumidor decide comprar el producto al hacer la consulta con el productor”. Por dato, 𝑝 =
𝑃(𝐴) > 0 es la misma en cualquier consulta y así tenemos que X puede verse como # total de repeticiones
de  hasta que ocurre 𝐴 por primera vez, y se ve que la v.a. se ajusta al modelo Geométrico, esto es
X  G ( x; p) sería un modelo de datos apropiado.
En el contexto anterior tenemos que 𝑬(𝑿) = 𝝁𝑿 = 𝟏/𝒑 y por tanto:
𝟏
1
𝟏
𝒑
[| |]
𝟏
𝑷(𝑿 > 𝑬(𝑿)) = 𝑷(𝑿 > 𝝁𝑿 ) = 𝑷(𝑿 > 𝒑) = 𝑷(𝑿 ≥ [| 𝒑 |] + 𝟏) = 𝒒
1
1
, donde [| 𝑝 |] denota el máximo
𝟏
entero no mayor que 𝑝. Por ejemplo, si 𝑝 = 0.3, entonces 𝑝 = 3.3 y así 𝑷(𝑿 > 𝒑) = 𝑷(𝑿 > 𝟑. 𝟑) =
𝑷(𝑿 ≥ 𝟒) = 𝟎. 𝟕𝟑 = 𝟎. 𝟑𝟒𝟑
Ejemplo 27
Un agente de AFP visita sucesivos potenciales clientes para afiliarlos a su AFP. En cada visita tiene una
probabilidad p de convencer al entrevistado de que se afilie.
a) Si X = Número de visitas hasta lograr el primer afiliado, halle 𝑃(𝑋 > 𝑥) y luego 𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥)
y 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥).
97
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
b) Resuelva a) si X = Número de visitas hasta lograr el segundo afiliado.
Solución:
a) 𝑅𝑋 = 1,2,3, …. y si tomamos un valor 𝑥 fijo en RX :
𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) = 1 − 𝑃(𝑋 > 𝑥) = 1 − 𝑃("En las x primeras visitas no afilia a nadie").
𝑃("En las x primeras visitas no afilia a nadie") =
𝑁𝑜 𝑎𝑓𝑖𝑙𝑖𝑎 𝑒𝑛 𝑣𝑖𝑠𝑖𝑡𝑎 1
⏞
(1 − 𝑝)
=
𝑁𝑜 𝑎𝑓𝑖𝑙𝑖𝑎 𝑒𝑛 𝑣𝑖𝑠𝑖𝑡𝑎 2
×
⏞
(1 − 𝑝)
𝑁𝑜 𝑎𝑓𝑖𝑙𝑖𝑎 𝑒𝑛 𝑣𝑖𝑠𝑖𝑡𝑎 𝑥
× …×
⏞
(1 − 𝑝)
𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) = 1 − 𝑃(𝑋 > 𝑥) = 1 − (1 − 𝑝)𝒙
= (1 − 𝑝)𝒙 ⇒
𝑥 = 1,2,3 ….
Finalmente:
𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝐹𝑋 (𝑥) − 𝐹𝑋 (𝑥 − 1) = [1 − (1 − 𝑝)𝑥 ] − [1 − (1 − 𝑝)𝑥−1 ]
= (1 − 𝑝)𝑥−1 − (1 − 𝑝)𝑥 = (1 − 𝑝)𝑥−1 (1 − (1 − 𝑝)) = 𝑝(1 − 𝑝)𝑥−1.
La función de probabilidad de X es 𝑷𝑿 (𝒙) = 𝒑(𝟏 − 𝒑)𝒙−𝟏 𝒙 = 𝟏, 𝟐𝟑, … que corresponde a una
distribución geométrica X  G ( x; p)
b) 𝑅𝑋 = 2,3,4 …. pues ahora sigue visitando hasta lograr un segundo afiliado, o sea, lo mínimo que debe
visitar es a dos clientes potenciales. Este es un caso donde calcular de frente 𝑃𝑋 (𝑥) es más sencillo que
calcular 𝐹𝑋 (𝑥) y luego restar:
𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝑃(𝐴 ∩ 𝐵), donde A = “En las (x-1) primeras visitas logra una afiliación” y B= “En
la visita x afilia al cliente”. Entonces:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴) = 𝑝 × (𝐶1𝑥−1 × 𝑝)(1 − 𝑝)(𝑥−2) = 𝑝2 𝐶1𝑥−1 (1 − 𝑝)(𝑥−2) y
(𝒙−𝟐)
𝑷𝑿 (𝒙) = 𝒑𝟐 𝑪𝒙−𝟏
𝒙 = 𝟐, 𝟑, 𝟒, ….es la función de probabilidad de X
𝟏 (𝟏 − 𝒑)
Este ejemplo en realidad corresponde a una distribución Binomial negativa 𝑩𝑵(𝒙; 𝒓 = 𝟐, 𝒑)
Ejemplo 28
Un vendedor ambulante trabaja ofreciendo su mercadería en la pista delante de un semáforo, cuando éste
detiene a los vehículos y entonces se desplaza de vehículo en vehículo ofreciendo su producto. Hay una
1
probabilidad 𝑝 = 3 de que acepten comprarle el bien que ofrece: ¿Ocurrirá que tenga que ofrecer su
producto en más de tres vehículos hasta lograr su primera venta? ¿Si le imponen una meta de lograr venta
como mínimo en 2 vehículos diferentes, tendrá que recorrer más de 3 vehículos?
Solución
1
1
Si 𝐴= Vende su producto, 𝑝 = 𝑃(𝐴) = 3 ; 𝑋 = # 𝑑𝑒 𝑣𝑒ℎí𝑐𝑢𝑙𝑜𝑠 ℎ𝑎𝑠𝑡𝑎 𝑙𝑎 1𝑒𝑟𝑎. 𝑣𝑒𝑛𝑡𝑎 ⇒ 𝑋~𝐺(𝑥; 𝑝 = 3)
y necesitamos
1
1 2 2
1 2
𝑃(𝑋 > 3) = 1 − 𝑃(𝑋 ≤ 3) = 1 − {𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3)} = 1 − { 3 + 3 (3) + 3 (3) =
1 − 0.704 = 0.296 < 0.5: No ocurrirá que tenga que recorrer más de tres vehículos hasta la 1era. Venta.
2 2
O también 𝑃(𝑋 > 3) = 𝑃(𝐸𝑛 𝑙𝑜𝑠 3 𝑝𝑟𝑖𝑚𝑒𝑟𝑜𝑠 𝑣𝑒ℎí𝑐𝑢𝑙𝑜𝑠 𝑛𝑜 𝑣𝑒𝑛𝑑𝑖ó 𝑛𝑎𝑑𝑎) = (3) = 0.296
1
Si 𝑌 = # 𝑑𝑒 𝑣𝑒ℎí𝑐𝑢𝑙𝑜𝑠 ℎ𝑎𝑠𝑡𝑎 𝑙𝑎 𝑟 = 2𝑑𝑎. 𝑣𝑒𝑛𝑡𝑎 ⇒ 𝑌~𝐵𝑁(𝑥; 𝑟 = 2, 𝑝 = 3) y se pide
1 2 2 2−2
𝑃(𝑌 > 3) = 1 − 𝑃(𝑌 ≤ 3) = 1 − {𝑃(𝑌 = 2) + 𝑃(𝑌 = 3)} = 1 − { 𝐶11 (3) (3)
1 2 2 1
+ 𝐶12 (3) (3) } =
7
1 − (27) = 0.741 > 0.5; Sí tendrá que recorrer más de tres vehículos hasta cumplir su meta.
2 3
1
2 2
O también 𝑃(𝑌 > 3) = 𝑃(𝐸𝑛 𝑙𝑜𝑠 3 𝑝𝑟𝑖𝑚𝑒𝑟𝑜𝑠 𝑣𝑒ℎí𝑐𝑢𝑙𝑜𝑠 𝑣𝑒𝑛𝑑𝑖ó 0 𝑜 1) = (3) + 𝐶13 (3) (3) = 0.741
98
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
3.1.8 Distribución Hipergeométrica 𝑯(𝒙; 𝑵, 𝑴, 𝒏)
Definición y Parámetros
Definición
Sea 𝑋 v.a. discreta, con rango 𝑅𝑋 = {0, 1, 2, … , 𝑛}. Sean 𝑁 y 𝑀 enteros positivos de valores dados, tales
que 𝑛 < 𝑀 < 𝑁. Diremos que 𝑋 tiene Distribución Hipergeométrica, de parámetros 𝑁, 𝑀 y 𝑛, si su función
de probabilidad es 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) =
𝑁−𝑀
𝐶𝑥𝑀 𝐶𝑛−𝑥
𝐶𝑛𝑁
𝑥 = 0, 1, 2, . . . , 𝑛
Notación.
El hecho de tener 𝑋 distribución Hipergeométrica lo denotaremos escribiendo 𝑋~𝐻(𝑥; 𝑁, 𝑀, 𝑛). Además
asumimos que 𝑛 < 𝑀 y 𝑛 < 𝑁 − 𝑀.
Parámetros.
Los parámetros son 𝑁, 𝑀 𝑦 𝑛.
Valores Esperados y Función Generatriz de Momentos.
𝑀
𝑀 𝑁−𝑀 𝑁−𝑛
𝐸(𝑋) = 𝜇𝑋 = 𝑛 𝑁 y 𝑉(𝑋) = 𝜎𝑋2 = 𝑛( 𝑁 )( 𝑁 )(𝑁−1 ). En cuanto a 𝑀𝑋 (𝑡), existe, pero su expresión es muy
complicada y resulta poco útil.
Origen de la Distribución Hipergeométrica: Muestreo sin reposición en poblaciones finitas.
Proposición
Sea una población compuesta de 𝑁 elementos, 𝑀 de los cuales poseen una cierta característica 𝐴. Si se
toma una muestra al azar y sin reemplazo de 𝑛 de los 𝑁 elementos, y se cuenta el número 𝑋 de casos en la
muestra que tienen la característica 𝐴, entonces 𝑋 es variable aleatoria con distribución 𝐻(𝑥; 𝑁, 𝑀, 𝑛).
Demostración:
M elementos (N-M) elementos
tienen A
no tienen A
x
(n-x)
Muestra de n elementos
Se ve que 𝑅𝑋 = {0, 1, 2, … , 𝑛} (asumiendo que 𝑛 < 𝑀 y 𝑛 < 𝑁 − 𝑀,
pues de lo contrario, 𝑋 no podría ser 0 o 𝑛).
Sea 𝑥 un valor cualquiera en 𝑅𝑋 , entonces (𝑋 = 𝑥) ocurre si y sólo
si en la muestra 𝑥 elementos tienen la característica 𝐴 y el resto
(𝑛 − 𝑥) no la tienen. Queremos calcular 𝑃(𝑋 = 𝑥). Apliquemos la
𝑛(𝑋=𝑥)
definición clásica de probabilidad, 𝑃(𝑋 = 𝑥) = 𝑛(𝑆) :
𝑛(𝑆) = 𝐶𝑛𝑁 , pues una muestra equivale a un subconjunto de tamaño
𝑁−𝑀
𝑛. Por otra parte, 𝑛(𝑋 = 𝑥) = 𝐶𝑥𝑀 𝐶𝑛−𝑥
, pues en la muestra debeUniverso de N elementos
mos tener x de los 𝑀 elementos que tienen 𝐴 y (𝑛 − 𝑥) de los
(𝑁 − 𝑀) que no tienen 𝐴 (ver el gráfico de arriba). Lo anterior se logra tomando primero 𝑥 elementos
de los 𝑀 con 𝐴, y hay 𝐶𝑥𝑀 maneras de hacer esto. Luego, tomamos el resto de la muestra (que son
𝑁−𝑀
(𝑛 − 𝑥) elementos) del conjunto de (𝑁 − 𝑀) elementos que no tienen 𝐴, y hay 𝐶𝑛−𝑥
maneras de hacer
esta última operación. Por tanto el número total de maneras en que puede ocurrir (𝑋 = 𝑥) es
𝑁−𝑀
𝑛(𝑋 = 𝑥) = 𝐶𝑥𝑀 × 𝐶𝑛−𝑥
.
De todo lo anterior, es inmediato que 𝑃(𝑋 = 𝑥) =
𝑁−𝑀
𝐶𝑥𝑀 𝐶𝑛−𝑥
𝐶𝑛𝑁
, 𝑥 ∈ {0, 1, 2, … , 𝑛} , que corresponde a la
función de probabilidad Hipergeométrica de parámetros 𝑁, 𝑀 𝑦 𝑛. Con esto termina nuestra deducción.
99
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Observación
Si el muestreo fuera con reemplazo, cambian tanto el numerador como el denominador:
𝑛(𝑆) = 𝑁 × 𝑁 × … × 𝑁 = 𝑁 𝑛 ; 𝑛(𝑋 = 𝑥) = 𝐶𝑥𝑛 × (𝑀)𝑥 (𝑁 − 𝑀)(𝑛−𝑥) ⇒ 𝑃(𝑋 = 𝑥) =
𝐶𝑥𝑛 ×(𝑀)𝑥 (𝑁−𝑀)(𝑛−𝑥)
𝑁𝑛
=
𝐶𝑥𝑛 ×(𝑀)𝑥 (𝑁−𝑀)(𝑛−𝑥)
𝑁 𝑥 𝑁 (𝑛−𝑥)
𝑀 𝑥
𝑁−𝑀 (𝑛−𝑥)
= 𝐶𝑥𝑛 ( 𝑁 ) (
𝑀
𝑁
)
y vemos que la distribución de 𝑋 ya no es
hipergeométrica, sino binomial 𝐵(𝑥; 𝑛, 𝑝 = ( 𝑁 )) . Por esta razón, si 𝑛 es pequeña en relación con 𝑁 y 𝑀,
al tomar la muestra sin reemplazo, 𝑁, 𝑀 𝑦 𝑁 − 𝑀 casi no varían de una extracción a otra y se puede
𝑀
aproximar 𝐻(𝑥; 𝑁, 𝑀, 𝑛) mediante 𝐵(𝑥; 𝑛, 𝑝 = ( 𝑁 )). Esta aproximación suele usarse cuando 𝑛 < 0.1𝑁.
En cualquier caso, la gráfica de 𝐻(𝑥; 𝑁, 𝑀, 𝑛) es similar a la de la distribución binomial. Esta distribución
también figura en Excel.
Ejemplo 29
Hay un total de N empresas que están en condición de morosas con la SUNAT. Un inspector tiene una
base de datos con 10 registros de empresas morosas y un colega suyo toma una muestra al azar de 8
empresas morosas y encuentra que X de ellas ya figuran en la base.
a) Para N = 20, verifique que X tiene distribución Hipergeométrica e identifique sus parámetros.
b) Para un valor general de N, construya la f. de probabilidad de X. Si resultó X=2 y Ud. sabe que N vale
40 o 20 ¿Cuál valor escogería?
Solución:
a) En el fondo es un problema de combinatoria simple:
Aquí 𝑁 = 20 y de ellas, 𝑀 = 10 están en la base de datos B y 𝑁 − 𝑀 = 10 no lo están. Se toman 𝑛 = 8 empresas al azar
del universo de 𝑁 = 20 empresas y en esta muestra de 𝑛 = 8, algunas de ellas, digamos 𝑋, están en la base B y las otras
(8 − 𝑋) no lo están (ver gráfico de abajo). 𝑋 es una v.a. discreta con rango
𝑅𝑋 = {0,1,2, … ,8} y su función de probabilidad es 𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) =
M=10 en Base (N-10)=10 fuera
de datos B
de base de datos B
10
𝐶𝑥10 𝐶8−𝑥
𝐶820
𝑥 = 0,1,2, … ,8.
En efecto, hay:
𝐶𝑥10 maneras de seleccionar x empresas dentro de las 10 de la base B.
10
𝐶8−𝑥
maneras de seleccionar el resto de la muestra fuera de B.
x
(8-x)
Muestra de n=8 empresas
𝐶820 maneras de seleccionar 8 empresas de muestra dentro del universo de
20 empresas morosas, y así se ve que 𝑃𝑋 (𝑥) =
10
𝐶𝑥10 𝐶8−𝑥
20
𝐶8
𝑥 = 0,1,2, … ,8
corresponde a una distribución Hipergeométrica:
Universo de N=20 empresas
morosas
𝑋~𝐻(𝑥; 𝑁 = 20, 𝑀 = 10, 𝑛 = 8).
b) Para un valor general de N, tenemos que:
𝑅𝑋 = {0,1,2, … ,8} y
𝑁−10
𝐶𝑥10 𝐶8−𝑥
𝑃𝑋 (𝑥) = 𝑃(𝑋 = 𝑥) =
𝑥 = 0,1,2, … ,8
𝐶8𝑁
Si resultó 𝑋 = 2 y tenemos que escoger entre 𝑁 = 40 o 𝑁 = 20; examinemos las dos opciones:
Si 𝑁 = 40, entonces 𝑃𝑋 (2) = 𝑃(𝑋 = 2) =
Si 𝑁 = 20, entonces 𝑃𝑋 (2) = 𝑃(𝑋 = 2) =
40−10
𝐶210 𝐶8−2
𝐶840
10
20−10
𝐶2 𝐶8−2
20
𝐶8
=
=
𝐶210 𝐶630
𝐶840
10
𝐶2 𝐶610
𝐶820
= 0.35
= 0.08
Es claro que con 𝑁 = 40 hay bastante más probabilidad de que ocurra 𝑋 = 2, que realmente es lo
que sucedió, por tanto nos inclinamos por 𝑁 = 40 como tamaño del universo de empresas morosas.
100
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
n
M N
8 10 40
x
0
1
2
3
4
5
6
7
8
P(x)
0.08
0.26
0.35
0.22
0.07
0.01
0.00
0.00
0.00
n M N
8 10 20
x
0
1
2
3
4
5
6
7
8
P(x)
0.00
0.01
0.08
0.24
0.35
0.24
0.08
0.01
0.00
H(x;N=40,M=10,n=8)
H(x;N=20,M=10,n=8)
0.40
0.40
0.35
0.35
0.30
0.30
0.25
0.25
0.20
0.20
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0.00
0
1
2
3
4
5
6
7
8
0
1
2
3
H(x;N=40,M=10,n=8)
4
5
6
7
8
H(x;N=20,M=10,n=8)
Figura 3 Distribuciones hipergeométricas 𝐻(𝑥; 𝑁 = 40, 𝑀 = 10, 𝑛 = 8) 𝑦 𝐻(𝑥; 𝑁 = 20, 𝑀 = 10, 𝑛 = 8)
Ejemplo 30
En una encuesta en el sector informal, la población consta de 𝑵 empresas, de las cuales 𝑀 de ellas son
Unipersonales. Se toma una muestra aleatoria de 𝒏 empresas, y se cuenta el número 𝑿 de empresas
𝑀
unipersonales en la muestra, optándose por aproximar la proporción poblacional desconocida 𝑝 ≔ ( 𝑁 )
𝑋
de empresas informales unipersonales, mediante la proporción muestral 𝑝̂ : = ( ) de empresas
𝑛
unipersonales en la muestra. Asumiendo muestreo sin reposición, calcule el valor esperado de 𝑝̂ .
Solución:
Es claro que 𝑋 se ajusta bien al modelo hipergeométrico, i.e. X  H ( x; N , M , n ) y por tanto 𝐸(𝑝̂ ) =
𝑿
1
1
𝑀
𝑴
𝐸 (𝒏) = 𝑛 𝐸(𝑋) = 𝑛 × 𝑛 ( 𝑁 ) = ( 𝑵 ) = 𝒑. Es decir, aunque la proporción 𝑝̂ variará de muestra en
𝑴
muestra, la tendencia es a coincidir con la verdadera proporción poblacional 𝑝 = ( 𝑵 ).
3.1.9 Distribución Uniforme 𝑼(𝒙; 𝜶, 𝜷)
Definición y Parámetros
Definición
Sea 𝑋 v.a. continua, con rango 𝑅𝑋 = [𝛼, 𝛽]. Diremos que 𝑋 tiene distribución uniforme en [𝛼, 𝛽], lo que
1
se denota 𝑋~𝑈(𝑥; 𝛼, 𝛽) si su f. de densidad es 𝑓𝑋 (𝑥) = 𝑈(𝑥; 𝛼, 𝛽) = 𝛽−𝛼 𝑠𝑖 𝛼 ≤ 𝑥 ≤ 𝛽
Parámetros. Los parámetros son 𝛼 y 𝛽
Valores Esperados y Función Generatriz de Momentos.
𝛽
1
1
𝑥2
𝛽
Aplicando la definición de valor esperado se obtiene 𝜇 = 𝜇𝑋 = ∫𝛼 𝑥 𝛽−𝛼 𝑑𝑥 = 𝛽−𝛼 ( 2 ) =
𝜎𝑋2 = 𝐸(𝑋 2 ) − (𝜇𝑋 )2 =
𝜎𝑋2
𝛽 2 +𝛼𝛽+𝛼2
(𝛽−𝛼)2
12
(𝛼+𝛽)2
𝛽
1
1
𝑥3
𝛽
1
𝛼
𝛽 3 −𝛼3
, pues 𝐸(𝑋 2 ) = ∫𝛼 𝑥 2 𝛽−𝛼 𝑑𝑥 = 𝛽−𝛼 ( 3 ) = (𝛽−𝛼) (
𝛼
(𝛽−𝛼)2
3
(𝛼+𝛽)
2
)=
y 𝜎2 =
𝛽 2 +𝛼𝛽+𝛼2
3
⇒
=
− 4 = 12 . En cuanto a 𝑀𝑋 (𝑡), aunque existe 𝑀𝑋 (𝑡) no es diferenciable en 𝑡 =
3
0 y por lo mismo no es de mayor interés.
101
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
=0,=1
=0,=2
=0,=5
Origen
Tiene un origen relativamente simple, en el contexto de probabilidad geométrica, cuando se toma un punto
al azar de un intervalo de longitud finita.
Proposición
Sea [𝛼, 𝛽] un intervalo de extremos dados. Si se toma un punto al azar del intervalo[𝛼, 𝛽] y se define
𝑋 = Valor obtenido, entonces 𝑋~𝑈(𝑥; 𝛼, 𝛽).
Demostración
Es claro que 𝑅𝑋 = [𝛼, 𝛽]. Sea ahora 𝒙 ∈ 𝑅𝑋 , entonces aplicando probabilidad geométrica tenemos:
𝐿𝑜𝑛𝑔𝑖𝑡𝑢𝑑(𝛼≤𝑋≤𝒙)
𝒙−𝛼
𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝒙) = 𝐿𝑜𝑛𝑔𝑖𝑡𝑢𝑑 ([𝛼,𝛽]) = 𝛽−𝛼 (pues 𝑋 ≤ 𝒙 ⇒ 𝛼 ≤ 𝑋 ≤ 𝑥)
Derivando 𝐹𝑋 (𝑥) con respecto a 𝑥 se obtiene el resultado:
𝑑
𝑑 𝒙−𝛼
1
𝑓𝑋 (𝑥) = 𝑑𝑥 𝐹𝑋 (𝑥) = 𝑑𝑥 (𝛽−𝛼) = 𝛽−𝛼 𝛼 ≤ 𝑥 ≤ 𝛽 o sea 𝑿~𝑼(𝒙; 𝜶, 𝜷)
Observación
Si el intervalo es abierto, el resultado no cambia, salvo que el rango de 𝑋 es 𝑅𝑋 =]𝛼, 𝛽[
Ejemplo 31
Sea 𝑋 v.a.c. tal que 𝑓𝑋 (𝑥) > 0 ∀𝑥 y sea 𝒀 = 𝐻(𝑋) = 𝐹𝑋 (𝑥) probar que 𝒀~𝑼(𝒚; 𝟎, 𝟏).
Solución:
Es claro que 𝑅𝑌 =]0,1[.
Sea 𝐺𝑌 (𝒚) la distribución acumulativa de 𝑌. Por definición 𝐺𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝒚) =
𝑃(𝐹𝑋 (𝑋) ≤ 𝒚) = 𝑃(𝐹𝑋−1 (𝐹𝑋 (𝑋) ≤ 𝑦)) = 𝑃 (𝐹𝑋−1 (𝐹𝑋 (𝑋)) ≤ 𝐹𝑋−1 (𝒚)) = 𝑃(𝑋 ≤ 𝐹𝑋−1 (𝒚)) =
𝐹𝑋 (𝐹𝑋−1 (𝒚)) = 𝒚, pues 𝑋 es continua y al ser 𝐹𝑋 creciente y siendo su derivada 𝑓𝑋 (𝑥) > 0 ∀𝑥, entonces
𝐹𝑋 es estrictamente creciente con inversa 𝐹𝑋−1 que también es creciente y preserva la desigualdad al ser
aplicada 𝐹𝑋−1 dentro de 𝐹𝑋 (𝑋) ≤ 𝑦.
𝑑
𝑑
Es decir 𝐺𝑌 (𝑦) = 𝑦 𝑝𝑎𝑟𝑎 0 < 𝑦 < 1 ⇒ 𝑔𝑌 (𝑦) = 𝑑𝑦 𝐺𝑌 (𝑦) = 𝑑𝑦 𝑦 = 1 𝑝𝑎𝑟𝑎 0 < 𝑦 < 1 ⇒
𝑌~𝑈(𝑦; 𝛼 = 0, 𝛽 = 1)
Observación
El ejercicio muestra que, en cierto sentido, una variable aleatoria 𝑋 continua puede transformarse en una
variable con distribución uniforme en el intervalo ]0,1[, de modo que para cada 𝑥 ∈ 𝑅𝑋 existe una
correspondiente 𝑦 ∈]0,1[.
102
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
La propiedad anterior permite usar la distribución uniforme en la “simulación” de valores de variables
aleatorias.
Recordemos, para tener un valor real o verdadero de una v.a. 𝑋, no queda más remedio que repetir el proceso
real que genera a 𝑋 y registrar el valor que se presente. Y a veces necesitamos muchos valores de 𝑋, lo que
puede demorar mucho tiempo o simplemente ser imposible. Una salida es “generar” un valor 𝑦 de una
𝑌~𝑈(𝑦; 0,1) y mediante la fórmula 𝒙 = 𝑭−𝟏
𝑿 (𝒚) obtenemos un “valor” 𝑥 que no es real, es “simulado”. Y
se puede repetir este proceso las veces que uno quiera, digamos 𝑛 veces, obteniendo así los “valores
simulados” de 𝑋 : 𝒙𝟏 , 𝒙𝟐 , … . , 𝒙𝒏 . Esta es la base de las “corridas” de modelos econométricos.
Por ejemplo, si 𝑋~𝐸𝑥𝑝(𝑥; 𝛽 = 1), sabemos que 𝑭𝑿 (𝒙) = 𝟏 − 𝒆−𝒙 𝒔𝒊 𝟎 < 𝒙 < ∞, luego generando un
valor 𝑦 de 𝑌~𝑈(𝑦; 0,1), tenemos 𝑦 = 1 − 𝑒 −𝑥 ⇒ 𝑒 −𝑥 = 1 − 𝑦 ⇒ 𝒙 = −ln(1 − 𝑦).
Si, digamos, resulta 𝑦 = 0.7 ⇒ 𝑥 = − ln(1 − 0.7) = 1.204 sería el valor “simulado” de la v.a.
𝑋~𝐸𝑥𝑝(𝑥; 𝛽 = 1)
Ejemplo 32
a) La cantidad demandada X de un bien es v.a.c. con distribución uniforme con media 𝜇 = 4 y varianza
4
𝜎 2 = 3, halle los parámetros 𝛼 y 𝛽 de la distribución.
b) Si 𝑋~𝑈(𝑥; 𝛼 = −𝜃, 𝛽 = 𝜃), 𝜃 > 0. Halle  de modo que 𝑃(|𝑋| < 2) = 𝑃(|𝑋| > 2).
c) Si la rentabilidad diaria (en puntos porcentuales) de una acción es v.a.c. con
1
1
1
𝑓𝑋 (𝑥) = 2 (𝑥 − ) 𝑠𝑖 − < 𝑥 < y una persona sabe que puede invertir una cantidad grande de
2
2
2
100,000 unidades monetarias en la bolsa dejándola por tres días y quiere tener una idea de cuánto
podría valer su inversión después de estos tres días.
(1) Pruebe que la v.a. 𝑌 = 𝐹𝑋 (𝑋) tiene distribución uniforme 𝑈(𝑦; 0,1)
(2) Use el resultado anterior para “simular” las rentabilidades en los tres días: 𝑥1 , 𝑥2 y 𝑥3 y estime el
valor final de los 100,000.
Solución:
𝛼+𝛽
En general, sabemos que si 𝑋 tiene distribución uniforme 𝑈(𝑥; 𝛼, 𝛽) ⇒ 𝐸(𝑋) = 𝜇𝑋 = 2 ; 𝑉(𝑋) =
𝜎𝑋2 =
(𝛽−𝛼)2
12
1
y 𝑓𝑋 (𝑥; 𝛼, 𝛽) = (𝛽−𝛼) 𝛼 ≤ 𝑋 ≤ 𝛽. En este contexto general:
4
a) Si X tiene distribución uniforme con media 𝜇 = 4 y varianza 𝜎 2 = 3, se cumple
𝜶 + 𝜷 = 𝟖 (I)
(𝛽−𝛼)2
𝛼+𝛽
2
=4⇒
4
y 12 = 3 ⇒ (𝜷 − 𝜶)𝟐 = 𝟏𝟔 (𝑰𝑰).
Resolviendo el sistema anterior y recordando que por definición 𝛼 < 𝛽, se llega a 𝛽 = 6 y 𝛼 = 2.
1
1
b) 𝑋~𝑈(𝑥; 𝛼 = −𝜃, 𝛽 = 𝜃), 𝜃 > 0 ⇒ 𝑓𝑋 (𝑥; −𝜃, 𝜃) = 𝛽−𝛼 = 2𝜃 − 𝜃 ≤ 𝑋 ≤ 𝜃.
Si se cumple que 𝑃(|𝑋| < 2) = 𝑃(|𝑋| > 2) y como se ve, (|𝑋| > 2)𝑐 = (|𝑋| < 2) ⇒ 𝑃(|𝑋| < 2) =
2 1
1
1
1
1
4
1
1 − 𝑃(|𝑋| < 2) ⇒ 𝑃(|𝑋| < 2) = 2 ⇒ ∫−2 2𝜃 𝑑𝑥 = 2 ⇒ 2𝜃 [𝑥]2−2 = 2 ⇒ 2𝜃 = 2 ⇒ 𝜽 = 𝟒
c) Para (1):
𝑥
𝑥
1
1
1
1
1 2
𝑓𝑋 (𝑥) = 2 (𝑥 + ) − < 𝑥 < ⇒ 𝐹𝑋 (𝑥) = ∫ 2 (𝑡 + ) 𝑑𝑡 = [(𝑡 + ) ] =
1
2
2
2
2
2 −1
−
1 2
1
2
1 2
1
2
1
1
(𝑥 + 2) − 2 < 𝑥 < 2, así que 𝐹𝑋 (𝑥) = (𝑥 + 2) − 2 < 𝑥 < 2 es la dist. Acumulativa de X.
1 2
Sea 𝑌 = 𝐹𝑋 (𝑋) = (𝑋 + 2) y 𝑅𝑌 = [0, 1];
sea 𝑦 ∈ 𝑅𝑌 ,así que si 𝐺𝑌 denota la función de distribución acumulativa de 𝑌, entonces
103
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝟐
𝟏
1
1
𝐺𝑌 (𝑦) = 𝑃(𝒀 ≤ 𝑦) = 𝑃 ((𝑿 + ) ≤ 𝑦) = 𝑃 (|𝑋 + | ≤ √𝑦) = 𝑃 (𝑋 + ≤ √𝑦) =
𝟐
2
2
2
1
1
1 1
2
𝑃 (𝑋 ≤ √𝑦 − ) = 𝐹𝑋 (√𝑦 − ) = (√𝑦 − + ) = (√𝑦) = 𝑦 0 ≤ 𝑦 ≤ 1 ⇒ 𝐺𝑌 (𝑦) = 𝑦
2
2
2 2
𝒅
𝒈𝒀 (𝒚) = 𝒅𝒚 𝑮𝒀 (𝒚) = 𝟏 𝟎 ≤ 𝒚 ≤ 𝟏 que coincide con una distribución uniforme 𝑼(𝒚; 𝟎, 𝟏).
Para (2):
𝑥1
𝑥1
Si 𝑥1 es la rentabilidad del primer día, entonces 𝑀1 = 100,000 + 100,000 100
= 100,000 (1 + 100
)
sería el valor después del primer día de bolsa;
Si 𝑥2 es la rentabilidad del segundo día, entonces
𝑥1
𝑥1
𝑥2
𝑥1
𝑥2
𝑀2 = 100,000 (1 + 100
) + 100,000 (1 + 100
) 100
= 100,000 (1 + 100
) (1 + 100
) sería el valor
después del segundo día de bolsa; extendiendo el razonamiento al tercer y último día de bolsa, el valor
después de este día, que sería el valor final es:
𝑥1
𝑥2
𝑥3
𝑀3 = 100,000 (1 + 100
) (1 + 100
) (1 + 100
).
Es claro que si realizamos el experimento verdadero, sabremos a ciencia cierta cómo salió la jugada,
pero si no queremos arriesgar y deseamos una estimación de 𝑀3 , podemos “simular” todo el proceso:
basta simular los valores 𝑥1 , 𝑥2 y 𝑥3 usando el resultado general de (1), para ello:
Generamos tres números aleatorios de la 𝑈(𝑦; 0,1) y obtenemos, por ejemplo 𝑦1 = 0.05; 𝑦2 =
0.85; 𝑦3 = 0.98; la generación de los números aleatorios se puede hacer ya sea con una calculadora
que tenga la opción de simular números aleatorios o algún programa como Excel. En este caso,
usamos la función de Excel = ALEATORIO() y se obtuvieron los números 0.05, 0.85 y 0.98.
Aplicamos el resultado de (1) y obtenemos los valores simulados de 𝑋 (rentabilidades “simuladas”),
𝟏
1
1
que serían 𝒙𝒋 = 𝑭−𝟏
𝑿 (𝒚𝒋 ) = √𝒚𝒋 − 𝟐 ⇒ 𝑥1 = √0.05 − 2 = −0.28; 𝑥2 = √0.85 − 2 = 0.42; 𝒙𝟑 =
𝟏
√𝟎. 𝟗𝟖 − 𝟐 = 𝟎. 𝟒𝟗 ⇒
̂3 = 100,000(1 + 𝑥1 )(1 + 𝑥2 )(1 + 𝑥3 ) = 100,000 × 0.9972 × 100.42 × 1.0043 = 100,569.4
𝑀
100
100
100
sería el valor final simulado de la inversión. No es el valor real, sólo una estimación. Naturalmente
con sólo una simulación del proceso el resultado es muy incierto, en verdad se hacen muchas simulaciones (unas mil) y se promedia, con lo que la estimación se hace más segura.
Si quisiéramos resolver el problema de manera “analítica”, tendríamos que hallar 𝐸(𝑀3 ), que no es
imposible pero sí bastante más pesado.
104
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Capítulo 4
Introducción al Análisis Exploratorio de Datos
4.1 Conceptos básicos
Recordemos del capítulo 1 del curso:
Población (de elementos)
Un conjunto de elementos (personas u objetos) que tienen alguna característica A que es de interés para la
toma de una decisión.
Variable
Es la característica que se registra o investiga. Específicamente es una representación numérica de una
característica o atributo A. Es el resultado de un proceso de medición; representaremos las variables usando
mayúsculas, como X, Y, etc.
Población Estadística (de una variable)
Colección de todos los registros o valores de una variable X, obtenidos al medir un atributo en la respectiva población de elementos, incluyendo repeticiones si las hubiere.
Distribución de frecuencias de una variable
Clasificación de los valores de una variable X según la frecuencia (número absoluto o porcentual de
casos) con que se presenta cada valor. La distribución nos muestra el comportamiento del atributo bajo
estudio en la población de elementos. Es la primera información que se tiene, con datos ya organizados y
estructurados.
Parámetro
Es una constante que, calculada sobre toda la población estadística de una variable X, la caracteriza en un
sentido determinado. Representa un aspecto específico del comportamiento de la variable X en la
Población de elementos.
Muestra
Una muestra es un subconjunto de una población estadística. La muestra nos proporciona información
acerca de la población, y la calidad de esta información depende de cómo se la ha tomado. Una manera de
lograr una buena representación de la población en la muestra, es elegir ésta mediante algún mecanismo de
sorteo o selección aleatoria que otorgue a cualquier elemento de la población de elementos, la misma opción
de ser seleccionado y registrar en él el valor de la variable X de interés. El conjunto de valores registrados,
digamos (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) es una muestra de la población estadística de X; aquí 𝑋𝑖 es el valor de X registrado
en el elemento # 𝑖 de la muestra de elementos.
Muestra Aleatoria (m.a.)
Si X es una variable aleatoria, una muestra aleatoria de tamaño n, es un grupo (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) de n
observaciones de X tomadas al azar e independientemente entre sí. Si la selección se hace mediante algún
sistema de sorteo se dice que es una "muestra probabilística", y si el sorteo es simple, se dice que es una
muestra aleatoria simple. En cambio, si el sorteo es de tipo complejo, por ejemplo, una sucesión de sorteos,
la muestra recibe otros nombres, dependiendo del sistema de sorteo.
Estadística
Es un valor calculado a partir de los datos de una muestra, que sólo depende los valores muestrales.
105
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Ejemplo 1
• Característica de Interés: Estrés crónico por sobrecarga laboral
• Variable X: Presencia de estrés crónico, codificada según Presente=1, Ausente=0
• Población = {U1, U2, U3, U4, ... , U400} los 400 trabajadores de una empresa financiera
• Población Estadística = {0,1,0, 1,...,0}, lo que significa que U1,U3 y U400, entre otros trabajadores, no
están estresados, y en cambio U2 y U4 entre otros trabajadores sí están estresados. La sucesión de 0 y 1
es muy larga y no permite ver ningún patrón. Es más informativo presentar una lista resumida que nos
proporciona el estado de la población en lo que a estrés crónico se refiere. Esa lista es la Distribución
de X en la Población que mostramos abajo, junto con una representación gráfica circular:
Distribución de X
X
N
0
250
1
150
Total
400
Figura 1 Distribución de presencia o ausencia de estrés crónico
%
62.5
37.5
100
1=Presente, 37.5
0=Ausente, 62.5
0=Ausente
1=Presente
• Parámetro: Basta un “descriptor”, como por ejemplo la “Incidencia de estrés crónico” =P = % de
casos en la población, que tienen e. crónico = 37.5%
• Si tomamos una muestra de tamaño 𝑛 = 6 trabajadores de esta población mediante un sorteo simple, y
obtenemos (𝑈1 , 𝑈3 , 𝑈9 , 𝑈30 , 𝑈25 , 𝑈400 ) y registramos X en cada uno y obtenemos (0,0, 1, 0, 1, 0),
2
entonces la estadística 𝑃̂ = % 𝑑𝑒 𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑒𝑠𝑡𝑟é𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 = 100 × 6 = 33.3% sería
una aproximación al parámetro P, o en la jerga estadística 𝑃̂ = 33.3% es la “estimación” del
parámetro P. La estimación 𝑃̂ no coincide exactamente con el parámetro P, pero se le aproxima.
Distribución de X (muestra)
X
n
%
0
4
66.7
1
2
33.3
Total
6
100
Figura 2 Distribución de presencia o ausencia de estrés crónico en la muestra
1=Presente, 33.3
0=Ausente, 66.7
0=Ausente
1=Presente
4.2 Estadísticas más importantes
Dada una m.a. (𝑋1 , 𝑋2 , … , 𝑋𝑛 ), de tamaño n, las estadísticas importantes son:
106
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Media muestral 𝑿.
∑𝒏
𝒋=𝟏 𝑿𝒋
Se define mediante 𝑿 =
y es el equivalente de la media poblacional 𝜇. Mide la “tendencia central”
𝒏
en la muestra, es un valor alrededor del cual está la mayoría de los valores observados de la muestra.
Ejemplo 2
̅ = 𝟏𝟏+𝟏𝟐+𝟏𝟐+𝟏𝟓+𝟏𝟕 = 𝟏𝟑. 𝟒
• En la serie de n = 5 notas: 11, 12, 12, 15, 17: 𝑿
𝟓
•
̅ = 𝟔𝟒𝟎.
En la serie de n = 5 ingresos mensuales: 400, 600, 600, 700, 900 la media es 𝑿
̅ = 𝟐, 𝟐𝟔𝟎 (un sólo valor extremo, 9000, altera 𝑿
̅
Y en la serie 400, 600, 600, 700, 9000 la media es 𝑿
y la hace poco representativa del conjunto de datos o de la “tendencia central”).
Propiedades:
• Tiene una fórmula analítica que hace fácil su tratamiento matemático. Por esto último, es la medida de
T. Central más usada en los análisis estadísticos.
• Bastante estable al muestreo. Se usa con fines descriptivos e inferenciales.
• Es el centro "de gravedad" de la distribución, que toma en cuenta no sólo las frecuencias sino también
los valores de los datos. Se la interpreta como "el valor típico" de la serie de datos, en el sentido
̅”
que “la mayoría de valores está alrededor de 𝑿
• Se ve afectada por "valores extremos" desbalanceados (valores muy alejados hacia la izquierda o hacia
la derecha del punto de tendencia central), como ya vimos en el ejemplo de los ingresos mensuales.
Propiedades formales de la Media Aritmética:
• 𝑛𝑋̅ = ∑𝑛𝑗=1 𝑋𝑗 que se obtiene despejando ∑𝑛𝑗=1 𝑋𝑗 en la definición de 𝑿.
• ∑𝑛𝑗=1(𝑋𝑗 − 𝑋̅) = 0 , pues:
∑𝑛𝑗=1(𝑋𝑗 − 𝑋̅) = ∑𝑛𝑗=1 𝑋𝑗 − ∑𝑛𝑗=1 𝑋̅ = ∑𝑛𝑗=1 𝑋𝑗 − 𝑛𝑋̅ = ∑𝑛𝑗=1 𝑋𝑗 − ∑𝑛𝑗=1 𝑋𝑗 = 0
Varianza muestral S2
Se define como la distancia cuadrado promedio entre un valor 𝑋𝑗 cualquiera de la serie y la media 𝑋̅ de la
serie. Su fórmula de definición es entonces: 𝑺𝟐 =
poblacional 𝜎 2 .
̅ 𝟐
∑𝒏
𝒋=𝟏(𝑿𝒋 −𝑿)
𝒏−𝟏
. Es el equivalente muestral de la varianza
El denominador es (𝑛 − 1) porque aunque hay n términos en la sumatoria que define 𝑆 2 , éstos no son todos
independientes, pues como ∑𝑛𝑗=1(𝑋𝑗 − 𝑋̅) = 0 , conociendo el valor de las (𝑛 − 1) primeras diferencias
(𝑋𝑗 − 𝑋̅), podemos obtener el valor de la última, despejándola de la igualdad
∑𝑛𝑗=1(𝑋𝑗 − 𝑋̅) = 0. Lo anterior se resalta diciendo que "en el cálculo de 𝑆 2 tenemos (n-1) grados de
libertad", pues realmente tenemos (𝑛 − 1) diferencias (𝑋𝑗 − 𝑋̅) independientes. S2 se interpreta como "el
promedio de las distancias al cuadrado entre los valores de la serie y el punto de tendencia central".
Cuanto mayor sea la varianza, mayor será la variabilidad promedio en la distribución.
Se demuestra que ∑𝑛𝑗=1(𝑋𝑗 − 𝑋̅)2 = ∑𝑛𝑗=1 𝑋𝑗 2 − 𝑛𝑋̅ 2 y a partir de ello se tiene una fórmula más práctica
para el cálculo de 𝑆 2 :
𝟐
𝟐
̅𝟐
∑𝒏
𝒋=𝟏 𝑿𝒋 −𝒏𝑿
2
Fórmula de cálculo de la varianza: 𝑺 =
⇒𝑆 =
𝒏−𝟏
Nota: La varianza va en las unidades de X al cuadrado
2
∑𝑛
𝑗=1(𝑋𝑗 −𝑋)
𝑛−1
𝟐
=
𝟐
∑𝒏
𝒋=𝟏 𝑿𝒋 −𝒏𝑿
𝒏−𝟏
Desviación estándar muestral S
Se define mediante 𝑆 = √𝑆 2 y se interpreta como la “distancia promedio entre un valor cualquiera de 𝑋𝑖
de la muestra y el punto de tendencia central 𝑋̅”.
La mayoría de los valores de la muestra (más de 50%) cae dentro del intervalo [𝑋̅ − 𝑆, 𝑋̅ + 𝑆].
107
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Ejemplo 3
En la serie de n = 8 casos de notas X:
Variable
𝑗
𝑋𝑗
𝑋𝑗2
Casos
1
2
3
4
Total
5
6
7
8
15
15
19
20
20
20
20
20
149
225
225
361
400
400
400
400
400
2811
∑𝑛𝑗=1 𝑋𝑗 = 149 ;
∑𝑛𝑗=1 𝑋𝑗 2 = 2811;
𝑋̅ = 18.6
𝑆2 =
y
2
̅2
∑𝑛
𝑗=1 𝑋𝑗 −𝑛𝑋
𝑛−1
=
2811−8×18.62
8−1
= 5.1
y
𝑆 = √5.1 = 2.3
Nota:
• Toda estadística es una variable aleatoria, pues puede tomar diversos valores, según la muestra que
ocurra, y estos valores dependen del azar, cuando los n casos en los cuales se registra la variable X de
interés, se seleccionan mediante algún sistema de sorteo.
• Toda estadística tiene alguna “distribución de probabilidades”, o sea una regla (o fórmula) que predice
la mayor o menos frecuencia relativa con que se presentan los posibles valores de la estadística. Por
𝜎2
ejemplo, si n es “grande”, aplicando el Teorema del límite central: 𝑋̅~𝑁(𝜇, ).
𝑛
4.3 Estadísticas más importantes en estadística descriptiva bidimensional
En economía se suele tomar muestras para estudiar el comportamiento conjunto de dos o más variables.
El caso bidimensional se presenta cuando se tiene dos variables estadísticas 𝑋 e 𝑌 que por teoría
económica deben mostrar cierto tipo de relación, por ejemplo 𝑋 = 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 e 𝑌 = 𝐶𝑜𝑛𝑠𝑢𝑚𝑜 o 𝑋 =
𝑃𝑟𝑒𝑐𝑖𝑜 𝑑𝑒 𝑢𝑛 𝑏𝑖𝑒𝑛 e 𝑌 = 𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒𝑚𝑎𝑛𝑑𝑎𝑑𝑎 𝑑𝑒𝑙 𝑏𝑖𝑒𝑛. En el primer caso se espera una relación
“directa”, esto es 𝑋 e 𝑌 tienden a subir o bajar juntas, mientras que en el segundo caso, 𝑋 e 𝑌 se espera
una relación “inversa”, es decir 𝑋 e 𝑌 van en dirección opuesta, a mayor valor del precio 𝑋 se espera una
menor cantidad demandada 𝑌.
Para estudiar la relación entre dos variables 𝑋 e 𝑌 se toma una muestra de n elementos o agentes
económicos (𝑈1 , 𝑈2 , … , 𝑈𝑖 , … , 𝑈𝑛 ) y se registra simultáneamente en cada uno las parejas de valores de 𝑋
e 𝑌 obteniendo la muestra aleatoria de n parejas (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), … , (𝑋𝑖 , 𝑌𝑖 ), … , (𝑋𝑛 , 𝑌𝑛 )
El tipo de relación más sencillo y frecuente es la relación lineal: tendencia de X e Y a seguir una línea
recta en el plano cartesiano 𝑋𝑌. Para cuantificar esta relación se usa el coeficiente de correlación de
Pearson.
4.3.1 Coeficiente de correlación de Pearson 𝒓𝑿𝒀
𝐹ó𝑟𝑚𝑢𝑙𝑎 𝑑𝑒 𝑑𝑒𝑓𝑖𝑛𝑖𝑐𝑖ó𝑛
Denotado 𝑟𝑋𝑌 , se define mediante 𝑟𝑋𝑌 =
⏞
̅
̅
∑𝑛
𝑖=1(𝑋𝑖 −𝑋)(𝑌𝑖 −𝑌)
(𝑛−1)𝑆𝑋 𝑆𝑌
𝐹ó𝑟𝑚𝑢𝑙𝑎 𝑑𝑒 𝑐á𝑙𝑐𝑢𝑙𝑜
=
⏞
̅̅
∑𝑛
𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋𝑌
(𝑛−1)𝑆𝑋 𝑆𝑌
Propiedades formales:
1. |𝑟𝑋𝑌 | ≤ 1
2. 𝒓𝑿𝒀 = 𝟎 ⇔ 𝑵𝒐 𝒆𝒙𝒊𝒔𝒕𝒆 𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏 𝒍𝒊𝒏𝒆𝒂𝒍 𝒆𝒏𝒕𝒓𝒆 𝑿 𝒆 𝒀
3. 𝑟𝑋𝑌 = 1 ⇔ ∃𝛼, 𝛽 > 0 𝑡𝑎𝑙𝑒𝑠 𝑞𝑢𝑒 𝑌 = 𝛼 + 𝛽𝑋
4. 𝑟𝑋𝑌 = −1 ⇔ ∃𝛼, 𝛽 < 0 𝑡𝑎𝑙𝑒𝑠 𝑞𝑢𝑒 𝑌 = 𝛼 + 𝛽𝑋
Interpretación
• Tipo de Asociación entre X e Y:
Si 𝑟𝑋𝑌 > 0 Existe Asociación Lineal Directa
Si 𝑟𝑋𝑌 < 0 Existe Asociación Lineal Inversa
Si 𝒓𝑿𝒀 = 𝟎 No Existe Asociación Lineal entre X e Y (puede haber asociación no lineal).
108
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
• Grado (la fuerza) de la Asociación Lineal:
|𝑟𝑋𝑌 | = 0 se interpreta como asociación nula
|𝒓𝑿𝒀 | ≅ 𝟎 se interpreta como asociación débil
|𝒓𝑿𝒀 | ≅ 𝟏 se interpreta como asociación fuerte
|𝑟𝑋𝑌 | = 1 se interpreta como asociación máxima
Criterio para el tamaño de las correlaciones
Cuándo los valores son "altos", "medianos" o "bajos", depende mucho de la naturaleza de las variables y
del área de trabajo.
En Economía, Contabilidad y Gestión una correlación en valor absoluto mayor o igual que 0.8 es
alta; En otras áreas como Educación, Ciencias de la conducta, humanas y sociales una correlación en
valor absoluto mayor o igual que 0.5 es considerada alta.
𝐹ó𝑟𝑚𝑢𝑙𝑎 𝑑𝑒 𝑑𝑒𝑓𝑖𝑛𝑖𝑐𝑖ó𝑛
𝑟𝑋𝑌
⏞
∑𝑛 (𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅)
= 𝑖=1
(𝑛 − 1)𝑆𝑋 𝑆𝑌
El rectágulo de bordes rojos es la zona “más
frecuente” para (𝑋, 𝑌), pero en este caso, los
puntos no se distribuyen con la misma
frecuencia dentro del rectángulo:
La frecuencia se concentra en la zona oval
sombreada, donde (𝑋 − 𝑋̅)(𝑌 − 𝑌̅) > 0
o sea cuando 𝑋 es “grande”: 𝑋 > 𝑋̅, 𝑌 también
es “grande”: 𝑌 > 𝑌̅; o cuando 𝑋 es “pequeño”: 𝑋 < 𝑋̅, 𝑌 también es “pequeño”:
𝑌 < 𝑌̅. Las parejas (𝑋, 𝑌) “tienden” a seguir
una recta, marcada en rojo, de pendiente positiva. Hay relación directa o creciente entre 𝑋 e 𝑌.
Por ejemplo, Precio y Oferta.
𝑌
𝑌̅ + 𝑆𝑌
𝑌̅
𝑌̅ − 𝑆𝑌
𝑋̅ − 𝑆𝑋
𝑋̅
𝑋̅ + 𝑆𝑋 𝑋
Figura 1 𝑟𝑋𝑌 > 0 indica relación directa entre las variables 𝑋 e 𝑌
𝑌
𝑌̅ + 𝑆𝑌
𝑌̅
𝑌̅ − 𝑆𝑌
𝑋̅ − 𝑆𝑋
𝑋̅
El rectágulo de bordes rojos es la zona “más
frecuente” para (𝑋, 𝑌), pero en este caso, los
puntos no se distribuyen con la misma
frecuencia dentro del rectángulo:
La frecuencia se concentra en la zona oval
sombreada, donde (𝑋 − 𝑋̅)(𝑌 − 𝑌̅) < 0
o sea cuando 𝑋 es “grande”: 𝑋 > 𝑋̅, 𝑌 es
“pequeño”: 𝑌 < 𝑌̅; o cuando 𝑋 es “pequeño”: 𝑋 < 𝑋̅, 𝑌 es “grande”: 𝑌 > 𝑌̅. Las
parejas (𝑋, 𝑌) “tienden” a seguir una recta de
pendiente negativa. Hay relación inversa o
̅
𝑋 + 𝑆𝑋 𝑋 decreciente entre 𝑋 e 𝑌.Por ejemplo, Precio
y Demanda.
Figura 2 𝑟𝑋𝑌 < 0 indica relación inversa entre las variables 𝑋 e 𝑌
109
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
𝑌
𝑌̅ + 𝑆𝑌
𝑌̅
𝑌̅ − 𝑆𝑌
Figura 3 𝑟𝑋𝑌
𝑌
𝑌̅ + 𝑆𝑌
𝑌̅
𝑌̅ − 𝑆𝑌
Figura 4 𝑟𝑋𝑌
El rectágulo de bordes rojos es la zona “más
frecuente” para (𝑋, 𝑌), pero en este caso, los
puntos se distribuyen con la misma
frecuencia dentro del rectángulo:
La frecuencia se concentra en la zona
circular sombreada, donde en algunos casos
ocurre que (𝑋 − 𝑋̅) > 0 y (𝑌 − 𝑌̅) > 0 y
con similar frecuencia en otros casos ocurre
que
(𝑋 − 𝑋̅) < 0 y (𝑌 − 𝑌̅) < 0
𝑋̅ − 𝑆𝑋
𝑋̅
𝑋̅ + 𝑆𝑋 𝑋 Las parejas (𝑋, 𝑌) “tienden” a seguir una
recta, marcada en rojo, de pendiente nula. No
Hay relación lineal entre 𝑋 e 𝑌. Por ejemplo,
Demanda de bienes “indiferentes”
= 0 indica que no hay relación lineal entre las variables 𝑋 e 𝑌
El rectágulo de bordes rojos es la zona “más
frecuente” para (𝑋, 𝑌), pero los puntos no se
distribuyen con la misma frecuencia dentro del
rectángulo:
La frecuencia se concentra en la zona
sombreada, donde en algunos casos ocurre que
(𝑋 − 𝑋̅) > 0 y (𝑌 − 𝑌̅) > 0 y con similar
frecuencia en otros casos ocurre que
(𝑋 − 𝑋̅) < 0 y (𝑌 − 𝑌̅) < 0 , pero las parejas
(𝑋, 𝑌) “tienden” a seguir una curva, marcada
en rojo. No Hay relación lineal entre 𝑋 e 𝑌 por
̅
̅
̅
lo que 𝑟𝑋𝑌 = 0 pero sí hay relación entre no
𝑋 − 𝑆𝑋
𝑋
𝑋 + 𝑆𝑋 𝑋
lineal entre 𝑋 e 𝑌. Por ejemplo, Ley de
rendimientos decrecientes.
= 0 no hay relación lineal entre 𝑋 e 𝑌, pero sí hay relación no lineal
Ejemplo 4
En un examen hay dos partes, una obligatoria y otra electiva, con igual puntaje (diez como máximo). Las
preguntas tocaban diversas aplicaciones de los mismos temas. Se concluyó que el examen estaba "bien
puesto" porque había similar puntaje promedio en sus dos partes. Si Ud. recibe la siguiente muestra de
notas y sus estadísticas correspondientes:
Alumno
A
B
C
D
E
P. Obligatoria X
8
4
9
3
10
P. Electiva
Y
6
7
7
8
2
¿Realmente el examen estuvo “bien puesto”?
F
7
6
G
6
5
H
2
6
I
2
7
J
5
6
M
5.60
6.00
D.E.
2.88
1.63
Solución:
Graficando las parejas de notas en un plano cartesiano XY:
Con Excel Diagrama de dispersión XY:
Insertar→ En Gráficos: Click en ícono Dispersión →Dispersión
: Se abre un recuadro en blanco
(“Área de gráfico”) → Dentro del Área de gráfico: Click con botón derecho de ratón: Seleccionar
datos→Agregar→Nombre de la serie: Poner un breve nombre descriptivo como Diagrama de dispersión
X Y(si lo deja en blanco Excel pondrá Serie 1); Valores X de la serie: resaltar con el mouse los valores de
110
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
X; Valores Y de la serie: resaltar con el mouse los valores de Y→Aceptar: aparece el gráfico con los
puntos (x,y).
Para editar: Cursor sobre el gráfico→Diseño de gráfico (en la cinta de opciones) → Click sobre Agregar
elemento de gráfico y seleccionar alguna opción para editar, como Títulos del Eje, o Leyenda, etc.
10
9
8
P. Electiva (Y)
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
P. Obligatoria (X)
Figura 1 Parejas de notas de cada caso de la muestra
El gráfico anterior (llamado Diagrama de dispersión) muestra que, al parecer, los que “salen bien” en la
parte obligatoria, tienden a “salir mal” en la electiva y viceversa. Ambas partes “se dan la contra”. El
examen no sería coherente, no estaría “bien puesto”.
Usando la fórmula de cálculo 𝑟𝑋𝑌 =
i
Alumno
P. Obligatoria Xi
P. Electiva
Yi
XiYi
̅̅
∑𝑛
𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋 𝑌
(𝑛−1)𝑆𝑋 𝑆𝑌
. Arreglando en una tabla para facilitar cálculos:
1 2 3 4 5 6 7 8 9 10
A B C D E F G H I J
8 4 9 3 10 7 6 2 2 5
6 7 7 8 2 6 5 6 7 6
48 28 63 24 20 42 30 12 14 30
Total
---311
Estadísticas
M
D.E.
5.60
2.88
6.00
1.63
---
𝑛 = 10, ∑10
𝑖=1 𝑋𝑖 𝑌𝑖 = 311. Haciendo cálculos:
∑ 𝑋𝑖 𝑌𝑖 − 𝑛𝑋𝑌 311 − 10 × 5.60 × 6.00 311 − 336
−25
𝑟𝑋𝑌 =
=
=
=
= −0.59
(𝑛 − 1)𝑆𝑋 𝑆𝑌
(10 − 1) × 2.88 × 1.63
42.26
42.26
El resultado estadístico es que la correlación es negativa y “grande” (al ser |𝑟𝑋𝑌 | > 0.5), para el área de
donde vienen los datos (área educacional). Hay una fuerte relación inversa entre las dos partes del
examen, las partes de esa prueba “se dan la contra”, si alguien sale bien en la parte obligatoria suele salir
mal en la electiva y viceversa. Por eso se concluye que el examen está “mal puesto”.
Correlación con Excel: Usamos la secuencia de comandos:
𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar la función: COEF.DE.CORREL →Aceptar →
Matriz1: resaltar los datos de X; Matriz2: resaltar los datos de Y→Aceptar.
Excel muestra el valor de 𝑟𝑋𝑌
111
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Alumno
P. Obligatoria Xi
A
8
B
4
C
9
D
3
E
10
F
7
G
6
H
2
I
2
J
5
P. Electiva
Yi
6
7
7
8
2
6
5
6
7
6
-0.5916
Arturo Calderón G:
=COEF.DE.CORREL(C3:L3,C4:L4)
Ejemplo 5
Para una selección de personal, un economista forma un equipo con tres evaluadores, a los cuales se les
dio una muestra de ensayo de n=7 expedientes de proyectos de inversión para que les otorguen puntajes
cuantitativos con notas que van de 0 a 16 y que miden de menos a más la calidad de proyecto. El
evaluador 3 es el más experto y sus juicios son totalmente aceptados. Los otros evaluadores están a
prueba. Los datos de la muestra de ensayo y sus estadísticas son:
Muestra de ensayo
Expediente A B C D F G J
Evaluador 1 14 8 5 10 3 6 9
Evaluador 2 10 9 11 10 12 11 13
Evaluador 3 9 10 10 11 12 12 14
Estadísticas
Media D. Estándar
7.857
3.625
10.857
1.345
11.143
1.676
¿Si tuviera que formar un jurado con
dos evaluadores: podrían estar los
evaluadores 1 y 2 juntos? ¿Si tuviera
que escoger a un evaluador entre 1 y 2
para que forme jurado con el evaluador
3: con quién se quedaría?
Solución:
Aplicando el mismo sistema gráfico del ejemplo anterior:
Para la pregunta ¿Pueden estar juntos los evaluadores 1 y 2?
Figura 1 Diagrama de dispersión de calificaciones de
Evaluador 1 vs calificaciones del Evaluador 2
El diagrama de dispersión XY muestra
que hay tendencia a relación inversa en
las evaluaciones: los evaluadores tienden
a discrepar.
16
Evaluador 2 (Y)
14
12
10
La respuesta sería no, porque los
evaluadores no concuerdan, se “dan la
contra”.
8
6
4
2
0
0
2
4
6
8
10
Evaluador 1 (X)
12
14
112
16
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Para la pregunta ¿Entre 1 y 2: Quién debe ser el acompañante del evaluador experto 3? Los diagramas
de dispersión muestran que debemos elegir al evaluador 2
16
16
14
14
12
12
Evaluador 2
Evaluador 1
Fig ura 1 Eva lua do res 1 y 2 co mpa ra do s co n eva lua do r 3 (experto)
10
8
6
10
8
6
4
4
2
2
0
0
0
2
4
6
8
Evaluador 3
10
12
Usando la fórmula de cálculo 𝑟𝑋𝑌 =
Expediente
Evaluador 1
Evaluador 2
Evaluador 3
Ev1Ev2
Ev1Ev3
Ev2Ev3
A
14
10
9
140
126
90
B
8
9
10
72
80
90
Muestra de ensayo
C
D
F
5
10
3
11
10
12
10
11
12
55
100
36
50
110
36
110
110
144
14
0
16
2
4
6
8
Evaluador 3
10
12
14
16
̅̅
∑𝑛
𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋 𝑌
(𝑛−1)𝑆𝑋 𝑆𝑌
G
6
11
12
66
72
132
J
9
13
14
117
126
182
Estadísticas
Media
D. Estándar
7.857
3.625
10.857
1.345
11.143
1.676
Suma(Ev1Ev2)
586
Suma(Ev1Ev3)
600
Suma(Ev2Ev3)
858
Correlaciones entre evaluadores
Ev1
Ev2
Ev1
1
Ev2
-0.38
1
Ev3
-0.35
0.82
Ev3
1
La correlación de las calificaciones de los evaluadores 1 y 2 es -0.38, negativa y aunque no es grande,
indica que tienden a darse la contra: no debieran estar juntos.
El evaluador 2 tiene correlación positiva y grande ( >0.5) con el experto evaluador 3, o sea tienden a coincidir, a concordar. El evaluador 2 debe acompañar al evaluador experto.
𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar la función: COEF.DE.CORREL →Aceptar →
Matriz1: resaltar los datos de X; Matriz2: resaltar los datos de Y→Aceptar.
Excel muestra el valor de 𝑟𝑋𝑌
113
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
̂ = 𝒂 + 𝒃𝑿
4.3.2 Regresión lineal simple 𝒚
Cuándo se usa
• El análisis de regresión lineal simple sirve para estimar el valor medio que podría tomar una variable
aproximándola linealmente con el valor que toma otra variable, la cual por lo usual es más simple de
medir.
• Se usa cuando hay razones teóricas que permiten decir que una variable X condiciona a la otra variable
Y en una relación de proporcionalidad (relación lineal) Y=f(X)
Y = Variable dependiente o respuesta. Es la variable predicha
X = Variable independiente o predictora. Es la variable en que nos apoyamos para predecir a Y. Por lo
general precede en el tiempo a Y o la precede en estatus teórico, su posición teórica es más básica que la
de Y. Por ejemplo:
Y = Habilidades sociales de la persona y X = Rasgo de personalidad Extraversión o
Y = Consumo mensual de la familia y X = Ingreso mensual de la familia.
(1) La condicionalidad es imprescindible para que el modelo sea aplicable, es una relación de precedencia
teórica o temporal de X sobre Y, por eso se dice que X condiciona a Y y no al revés.
(2) La relación de proporcionalidad implica que
En un diagrama de dispersión las parejas (𝑋, 𝑌) forman un nube de puntos ovalada que sigue una
dirección lineal
El coeficiente de correlación rXY, en valor absoluto, está más cerca de uno que de cero. Esto es, |rXY| es
“grande” dentro de los estándares de donde provienen los datos, claro está.
Es la condición (1) la que diferencia el análisis de correlación del análisis de regresión.
Bajo (1) y (2) podemos explicitar la relación entre X e Y mediante la fórmula 𝑦̂ = 𝑎 + 𝑏𝑋, donde 𝑦̂ es el
valor esperado de Y cuando conocemos el valor de X. No es el valor real pues además del efecto de X sobre
Y está el efecto de otros factores no controlados que se suman de manera aleatoria y generan una diferencia
entre el valor real Y y su valor esperado 𝑦̂. Lo anterior se describe con la fórmula 𝑌 = 𝑎 + 𝑏𝑋 + 𝜀 donde
𝜺 representa ese efecto azaroso acumulado, pero que se supone pequeño respecto del efecto de X en Y
̂ = 𝒂 + 𝒃𝑿
Interpretación del modelo 𝒚
a es la “ordenada en el origen” es el punto de corte con el eje de ordenadas o “eje y”, cuando X=0
b es la “pendiente”. Mide el grado de inclinación de la recta. Si es positiva, la recta es creciente. Si es
negativa es decreciente. Representa la variación que sufre Y si X se incrementa en una unidad. Es una
“tasa de cambio” análoga a una tasa de cambio monetaria. Tanto a como b son “parámetros” del modelo.
114
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Figura 1 Descomposición de Y según el modelo lineal
𝑌 = 𝑎 + 𝑏𝑋 + 𝜀
𝑦̂ = 𝑎 + 𝑏𝑋
Y
j > 0
a + bX
𝑦̂
X
X
Estimación de parámetros: Método de mínimos cuadrados
Para obtener estimaciones o aproximaciones de a y b, dados los valores de una muestra de n parejas (X,Y)
se asume que las n parejas son obtenidas independientemente unas de otras y que en la ecuación que
relaciona a Y con X en cada caso 𝑌𝑗 = 𝑎 + 𝑏𝑋𝑗 + 𝜀𝑗 , el término 𝜀𝑗 es residual pequeño. En este contexto
es natural tomar los valores de a y b tales que hagan mínimos los deferentes residuos 𝜀𝑗 . Una manera de
hacerlo es tomar a y b tales que minimice
∑𝒏𝒋=𝟏 𝜺𝟐𝒋 = ∑𝑛𝑗=1(𝑌𝑗 − 𝒂 − 𝒃𝑋𝑗 )2 , en la idea que, si la suma de cuadrados es pequeña, cada término será
más pequeño todavía. Este método da como resultados las fórmulas:
𝒃 = 𝒓𝑿𝒀
𝑺𝒀
𝑺𝑿
=
̅̅
∑𝑛
𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋 𝑌
⏟(𝑛−1)𝑆𝑋 𝑆𝑌
×
𝑆𝑌
𝑆𝑋
=
̅̅
∑𝑛
𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋 𝑌
2
(𝑛−1)𝑆𝑋
̅ − 𝒃𝑿
̅; 𝒚
̂ = 𝒂 + 𝒃𝑿
y 𝒂=𝒀
𝑟𝑋𝑌
Una medida de la bondad del ajuste del modelo a los datos, esto es, de cuán bien se puede representar a Y
con su estimación 𝑦̂, es el coeficiente de correlación lineal 𝑟𝑌𝑦̂ = |𝑟𝑋𝑌 | : Mientras más cercano esté a 1 (en
valor absoluto) mejor ajuste tendrá los datos a un modelo lineal.
También se suele usar el coeficiente R2 = rxy2, llamado también el coeficiente de determinación, pero que
no aplicaremos en estas notas.
Ejemplo 6
Una encuesta entre 11 comerciantes informales dio la siguiente información sobre su Ingreso semanal (en
dólares) y el Número de Horas de trabajo por semana
Caso
Horas X
Ingreso Y
1
40
60
2
30
55
3
48
72
4
60
79
5
42
80
6
44
60
7
70
90
8
72
99
9
60
90
10
54
80
11
60
86
Media
D.E.
52.7273 13.1232
77.3636 14.1794
a) ¿Podría predecirse el Ingreso a partir del Trabajo usando un modelo lineal? Justifique usando todas
las herramientas estadísticas que sean atingentes o apropiadas.
b) Una hipótesis que se hizo antes de tomar los datos era que, en este sector de informales, cada hora
semanal de trabajo adicional generaba un aumento en el ingreso de más de 50 centavos de dólar.
¿Hay evidencia a favor de la hipótesis?
c) Un informal decide trabajar una hora diaria adicional de lunes a sábado: ¿En cuánto aumentaría su
ingreso esperado?
d) El costo semanal de una canasta familiar mínima es US$ 125 y en un hogar, tanto el esposo como la
esposa son informales y trabajan igual: ¿Cuánto debe trabajar cada uno como mínimo para cubrir la
canasta familiar?
115
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Solución:
Naturalmente en este caso, el trabajo precede en el tiempo al ingreso, es decir, Horas X de trabajo es
la v. independiente y el Ingreso semanal Y es la variable dependiente. En este contexto, tenemos dos
herramientas para evaluar la aplicabilidad de un modelo lineal: el Diagrama de dispersión XY y el
coeficiente de correlación de Pearson rXY.
a)
La relación entre X e Y es lineal. Los puntos “siguen” o se sitúan
alrededor de una recta. Un modelo lineal representaría bien a los
datos, sí sería apropiado.
Figura 1 Diagrama de dispersión
de Ingreso semanal según Horas
de trabajo
120
Para la correlación rXY , tenemos las medias y desviaciones estándar,
es mejor usar la fórmula que sólo necesita hallar la suma de
100
Ingreso y
80
60
productos XY: 𝑟𝑋𝑌 =
40
20
∑ 𝑋𝑖 𝑌𝑖 −𝑛𝑋𝑌
(𝑛−1)𝑆𝑋 𝑆𝑌
Adecuando los datos:
0
0
10
20
30
40
50
60
70
80
Horas X
Caso
Horas X
Ingreso Y
Producto XY
1
2
3
4
5
6
7
8
9
10
11
40
30
48
60
42
44
70
72
60
54
60
60
55
72
79
80
60
90
99
90
80
86
2400 1650 3456 4740 3360 2640 6300 7128 5400 4320 5160
Reemplazando en la fórmula:𝑟𝑋𝑌 =
∑ 𝑋𝑖 𝑌𝑖 −𝑛𝑋𝑌
(𝑛−1)𝑆𝑋 𝑆𝑌
=
46,554−11×52.7273×77.3636
(11−1)13.1232×14.1794
Media
D.E.
52.7273 13.1232
77.3636 14.1794
Suma XY 46554
= 0.905 > 0.8 que es grande
para datos económicos (|rXY|>0.8).
Ambos métodos nos dicen que un modelo lineal de la forma 𝑦̂ = 𝑎 + 𝑏𝑋 sería adecuado para hacer
predicciones.
b) La pregunta afirma que en el modelo 𝑦̂ = 𝑎 + 𝑏𝑋 ocurre que la “pendiente” o tasa de cambio de Y
por X es b > 0.5
𝑆
14.1794
Necesitamos calcular 𝑏 = 𝑟𝑋𝑌 𝑆𝑌 = 0.905 × 13.1232 = 0.9773 ≅ 0.98 que en efecto, resultó mayor
𝑋
que 0.5. Sí hay evidencia a favor de la hipótesis.
c) Una hora diaria adicional de lunes a sábado son 6 horas semanales adicionales. Dada la proporcionalidad, podemos aplicar una regla de tres simple:
Por una hora adicional de trabajo semanal
→ b=0.98 dólares adicionales de ingreso
Por seis horas adicionales de trabajo semanal →6×0.98=5.86 dólares adicionales de ingreso. Su
ingreso esperado aumenta en 5.86 dólares.
d) Ya que ambos son informales y trabajan igual, su aporte al hogar es igual. Dividiendo entre dos el
costo de la canasta mínima, tenemos que cada uno debe aportar 125/2 = 62.5 y dado este ingreso Y,
debemos hallar la cantidad X de horas de trabajo por semana. Como 𝑦̂ = 𝑎 + 𝑏𝑋, sólo faltaría hallar
𝑎 = 𝑌 − 𝑏𝑋 = 77.38 − 0.98 × 52.73 = 25.8 y así tenemos completa la ecuación de predicción: 𝑦̂ =
25.8 + 0.98𝑋
Si 𝒀 = 𝟔𝟐. 𝟓 entonces de 𝟔𝟐. 𝟓 = 25.8 + 0.98𝑿 tenemos 𝑋 = (62.5 − 25.8)/0.98 = 37.45 horas de
trabajo semanales. Cada esposo debe trabajar unas 37.45 horas semanales como mínimo para cubrir el
costo de la canasta familiar mínima.
116
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Con Excel: Hay varias alternativas; las más simples son:
Para el Diagrama de dispersión XY:
Insertar→ En Gráficos: Click en ícono Dispersión →Dispersión
: Se abre un recuadro en blanco
(“Área de gráfico”) → Dentro del Área de gráfico: Click con botón derecho de ratón: Seleccionar
datos→Agregar→Nombre de la serie: Poner un breve nombre descriptivo como Diagrama de dispersión
X Y(si lo deja en blanco Excel pondrá Serie 1); Valores X de la serie: resaltar con el mouse los valores de
X; Valores Y de la serie: resaltar con el mouse los valores de Y→Aceptar: aparece el gráfico con los
puntos (x,y).
Para editar: Cursor sobre el gráfico→Diseño de gráfico (en la cinta de opciones) → Click sobre Agregar
elemento de gráfico y seleccionar alguna opción para editar, como Títulos del Eje, o Leyenda, etc.
Para la Pendiente b:
𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar la función: PENDIENTE→Aceptar →
Conocido_y: resaltar los datos de Y; Conocido_x: resaltar los datos de X →Aceptar.
Excel muestra el valor de 𝑏
Para el Intercepto a:
𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar la función: INTERSECCION.EJE→Aceptar →
Conocido_y: resaltar los datos de Y; Conocido_x: resaltar los datos de X →Aceptar.
Excel muestra el valor de 𝑎
Caso
Horas X
Ingreso Y
b
0.98
a
25.83
1
40
60
2
30
55
3
48
72
4
60
79
5
42
80
6
44
60
Arturo Calderón G:
=PENDIENTE(C4:M4,C3:M3)
Arturo Calderón G:
=INTERSECCION.EJE(C4:M4,C3:M3)
117
7
70
90
8
72
99
9
60
90
10
54
80
11
60
86
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Ejemplo 7 (Correlación)
En un trabajo relativo a la ansiedad ante la evaluación en alumnos universitarios de primer ciclo, un
economista y un psicólogo educacional tenían la hipótesis inicial que las horas dedicadas al estudio tenían
un rol protector contra este tipo de ansiedad y que lo mismo ocurría, aunque de menor manera, con la
satisfacción que tenía el alumno con las clases que recibía de sus profesores. Se tomó una pequeña muestra
aleatoria piloto de n = 10 alumnos, y se aplicó un test psicológico breve de Ansiedad y se registró la cantidad
semanal promedio de horas de estudio (aparte de las horas de clase y prácticas) así como las puntuaciones
en una escala de satisfacción con las clases (que mide cuantitativamente la satisfacción de menos a más).
Los datos individuales obtenidos así como algunas estadísticas de ellos son:
Datos
Alumno
1
2
3
4
5
6
7
8
9
10
Ansiedad
6
Estudio
1
Satisfacción 8
5
2
7
4
4
8
5
2
5
4
4
7
6
6
5
2
6
10
3
5
6
2
5
8
1
6
8
Estadísticas
D.
Media
Estándar
3.80
1.7512
4.10
1.8529
7.20
1.5492
a) Escriba cada hipótesis y evalúela gráficamente, escribiendo su respectiva conclusión (provisional por
tratarse de evaluaciones gráficas) y luego escriba una conclusión global sobre todas las hipótesis.
b) Evalúe cada hipótesis y escriba su conclusión general y final, basándose en estadísticas apropiadas.
c) Un revisor del estudio afirma que aunque concuerda con las hipótesis, faltaría agregar que las horas
de estudio y satisfacción además se refuerzan mutuamente. ¿Qué diría usted al revisor? Apóyese
con el uso de herramientas estadísticas.
Solución:
a) Desagregando el párrafo "las horas dedicadas al estudio tenían un rol protector contra este tipo de
ansiedad y que lo mismo ocurría, aunque de menor manera, con la satisfacción que tenía el alumno
con las clases que recibía de sus profesores" las hipótesis son:
Hipótesis 1: "Estudio protege contra la ansiedad" equivale a decir que hay relación inversa y fuerte
entre estudio y ansiedad.
Hipótesis 2: "lo mismo ocurría, aunque de menor manera, con la satisfacción que tenía el alumno con
las clases que recibía de sus profesores" puede interpretarse como:
(1) El estudio protege contra la satisfacción con las clases; pero eso no tendría sentido, estar satisfecho
con las clases no es algo como para ser evitado, mientras que estar ansioso sí es algo que uno preferiría evitar.
otra posible interpretación es:
(2) La satisfacción con las clases protege contra la ansiedad. Esto último sí tiene sentido y optamos
por esta interpretación.
Además se sostiene que lo anterior "ocurría de menor manera", esto es, la relación de satisfacción
con ansiedad es menos intensa que la relación entre estudio y ansiedad.
Estadísticamente (denotando la Ansiedad con Y, Estudio con X y Satisfacción con Z) las hipótesis
son:
Hipótesis 1: Hay relación inversa y fuerte entre estudio y ansiedad ( 𝑟𝑋𝑌 < −0.5))
Hipótesis 2: Hay relación inversa y fuerte entre satisfacción y ansiedad ( 𝒓𝒁𝒀 < −𝟎. 𝟓)
y
La relación (inversa) entre satisfacción y ansiedad es menos intensa o fuerte que la relación (inversa)
entre estudio y ansiedad esto equivale a |𝒓𝑿𝒀 | > |𝒓𝒁𝒀 |).
Sólo son necesarios dos diagramas de dispersión:
118
2020 Arturo Calderón G.
7
7
6
6
5
5
Ansiedad Y
Ansiedad Y
1Est 10 Introducción a la Estadística y Probabilidad
4
3
4
3
2
2
1
1
0
0
0
2
4
6
8
0
2
4
6
8
10
12
14
Satisfacción Z
Estudio X
Figura 1 Relación inversa entre Estudio y Ansiedad
Figura 2 Relación inversa entre Satisfacción y
Ansiedad
Resultado:
Salvo el caso del alumno 6 que se aleja de la tendencia general, la figura 2 muestra que conforme aumentan las horas de estudio, las puntuaciones en ansiedad tienden a ser menores.
La conclusión acerca de la hipótesis 1 es que sí hay evidencia de relación inversa y lineal entre Estudio y
Ansiedad.
Resultado:
En la figura 2 se observa también una relación inversa donde a mayor satisfacción con las clases se presentan menores puntuaciones en ansiedad, aunque hay algo más de dispersión, la tendencia es menos
clara.
La conclusión acerca de la hipótesis 2 sería que habría relación inversa entre Satisfacción y Ansiedad
pero no se podría evaluar cuán menor sería esta relación inversa comparada con la que existe entre
ansiedad y estudio.
Conclusión global:
Los gráficos de dispersión muestran una clara relación inversa entre Estudio y Ansiedad y también
una relación inversa entre Satisfacción y Ansiedad, pero no es evidente la supuesta relación "menos
intensa" en el caso de satisfacción con ansiedad. Necesitamos cuantificar para tener datos menos
subjetivos.
b) Como se mencionó en a), hay que precisar más y para ello es apropiado medir la asociación lineal con
los respectivos coeficientes de correlación de Pearson 𝑟𝑋𝑌 y 𝑟𝑍𝑌 :
Para la hipótesis 1:
𝑟𝑋𝑌 = −0.64 que es negativo y “grande” en valor absoluto (|𝑟𝑋𝑌 | = 0.64 > 0.5) según nuestra
convención para datos de Psicología. Esta hipótesis tiene evidencia a su favor, sí sería cierta.
119
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
Para la hipótesis 2: 𝑟𝑍𝑌 = −0.56 y como en la hipótesis 1, aquí también se presenta una correlación
negativa y grande, lo que corrobora la hipótesis 2.
Además aunque esta correlación es grande, es “menos grande” (en valor absoluto) que la correlación encontrada entre estudio y ansiedad, es decir, sí se cumple la parte de la hipótesis que dice que
el efecto protector contra la ansiedad que tiene la satisfacción con las clases, es menos fuerte que el
efecto protector del estudio.
Conclusión global:
Los gráficos y las estadísticas muestran que hay una fuerte relación inversa entre Horas de estudio
y Ansiedad y también relación inversa y fuerte entre Satisfacción con las clases y Ansiedad, siendo
esta segunda relación menos intensa comparada con la primera.
c) Para estudiar lo que dice el revisor, hay que ver si la relación entre estudio y satisfacción es directa
y fuerte, sólo así sería cierto que estas variables “se refuerzan mutuamente” como afirma el revisor.
Como es usual primero usamos un diagrama de dispersión:
El gráfico muestra una relación que es o nula
o muy débil, los puntos caen casi horizontalmente. El coeficiente de correlación es necesario para medir el grado de relación directa,
si la hubiera:
𝒓𝑿𝒁 = 𝟎. 𝟏𝟗 (|𝒓𝑿𝒁 | = 0.19 < 0.5 )
12
Satisfacción Z
10
8
6
4
2
0
0
2
4
6
8
Estudio X
𝐋a correlación entre Satisfacción y Estudio
aunque positiva es muy débil (debajo de
0.5) como para poder asegurar que la la
afirmación es cierta.
Le diría que está equivocado
Figura 3 Relación entre Estudio y Satisfacción
Ejemplo 8 (Regresión)
La Cadena de Farmacias Inti, una cadena emergente de farmacias, quiere determinar el efecto sobre sus
ventas, de una campaña de promociones y descuentos que acaba de implementar, pero medida en
términos de su posición con respecto a una cadena de farmacias ya establecida y conocida. Para hacer lo
anterior, tomó como referencia los gastos estimados en promoción y en ventas de farmacias de la
competencia, vecinas inmediatas a las de su propia cadena y entonces tanto sus gastos como ventas fueron
medidos como porcentaje de los gastos y ventas de la competencia. Obtenidos los datos para una muestra
de n = 15 farmacias de su cadena, ubicadas en distritos diferentes (por un periodo de un mes) obtuvo las
estadísticas de la tabla 1 que le dan para analizar:
Tabla 1 Datos y estadísticas de la muestra de Cadena de Farmacias Inti
Distrito
1 2
3
4 5 6
7 8 9
Indice de Promociones
95 92 103 115 77 79 105 94 85
Indice de Ventas
98 94 110 125 82 84 112 99 93
120
10
101
107
11
106
114
12
120
132
13 14
118 75
129 79
15
99
105
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
a) ¿Podría establecerse una relación entre estos índices? ¿De haberla, qué tipo de relación habría? Use
sólo las herramientas estadísticas adecuadas.
b) El gerente de Inti le pregunta si podría predecir el índice de ventas a partir del índice en promociones,
y de ser así, cuál sería la fórmula de pronóstico. Absuelva esta pregunta usando estadística.
c) La gerencia de Inti piensa que cuando iguale el gasto en promociones en Inti con el gasto en la cadena
rival, podría superarla en ventas ¿Qué le podría decir usted al respecto? Use estadística para contestar
y escriba su conclusión.
d) La cadena rival, enterada del estudio de Inti, decide, para el mes siguiente al del estudio, un gasto en
promociones de 120 mil unidades monetarias pues sabe que Inti sólo tiene presupuesto para 80 mil
unidades monetarias en promociones y espera que, con esta medida, las ventas de Inti no pasen del
70% de las ventas de la cadena. En Inti le preguntan qué pasaría ¿Qué podría decir usted?
Solución:
a) Debemos examinar los datos para ver si habría relación y de qué tipo: usaremos diagrama de dispersión para ver la posible relación y de acuerdo a ello, la correlación para medir si se trata de una relación lineal suficientemente fuerte como para establecer una relación de proporcionalidad (i.e.
asociación lineal)
140
El diagrama muestra una clara
relación lineal y directa entre el
índice de promociones X y el
índice de ventas Y.
Sí habría relación entre los
índices, sería lineal y directa.
Índice de ventas
120
100
80
60
40
20
Falta cuantificar para evaluar el
grado o
0
0
20
40
60
80
100
120
140
Indice de promociones X
Figura 1 Diagrama de dispersión de Indice X de promociones versus Indice Y de Ventas
intensidad de la relación. Usaremos el coeficiente de correlación lineal de Pearson 𝑟𝑋𝑌
𝒓𝑿𝒀 = 𝟎. 𝟗𝟗𝟑𝟓 que es mayor que 0.8 (nuestro “punto de corte” para correlaciones grandes con datos
de Gestión, Economía, etc.).
La relación entre los dos índices es lineal, directa o positiva y grande.
b) En el fondo el gerente pregunta si puede establecerse una fórmula del tipo 𝒚 = 𝑓(𝒙) , donde 𝒚 es el
índice de ventas de Inti y 𝒙 el índice de promociones. Para ello, como las promociones son previas a
las ventas, tendría sentido tomar 𝑌 = Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑣𝑒𝑛𝑡𝑎𝑠 y 𝑋 = Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑝𝑟𝑜𝑚𝑜𝑐𝑖𝑜𝑛𝑒𝑠, esto es al
índice de ventas como “variable dependiente”. Además, como en a) ya se confirmó que la relación es
lineal, una recta de regresión 𝑦̂ = 𝑎 + 𝑏𝑋 es la fórmula apropiada.
Con Excel:
𝑏 = 1.1488; 𝑎 = −7.9268
La fórmula de pronóstico sería:
̂
𝑦̂ = −7.9268 + 1.1488𝑋 o 𝐼𝑛𝑑.
𝑉𝑒𝑛𝑡. = −7.9268 + 1.1488𝐼𝑛𝑑. 𝑃𝑟𝑜𝑚.
(Se ha usado cuatro decimales por precaución, para evitar el efecto acumulativo del error de redondeo
asociado al uso de muestras muy pequeñas, o sea con n < 30).
c) Recordemos que el enunciado dice que “tomó como referencia los gastos estimados en promoción y
en ventas de farmacias de la competencia, vecinas inmediatas a las de su propia cadena y tanto sus
121
2020 Arturo Calderón G.
1Est 10 Introducción a la Estadística y Probabilidad
gastos como ventas fueron medidos como porcentaje de los gastos y ventas de la competencia” o sea
𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝐼𝑛𝑡𝑖
𝑉𝑒𝑛𝑡𝑎𝑠 𝑑𝑒 𝐼𝑛𝑡𝑖
que 𝑋 = 100 𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 ; 𝑌 = 100 𝑉𝑒𝑛𝑡𝑎𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 . En este contexto, “igualar el gasto en promociones en Inti con el gasto en la cadena rival” equivale a G𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝐼𝑛𝑡𝑖 = 𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 ⇒ 𝑋 =
̂ (𝑌) = −7.9268 +
100 y se pregunta ¿ 𝑌 > 100?. En la ecuación de regresión: 𝐼𝑛𝑑. 𝑉𝑒𝑛𝑡.
1.1488𝐼𝑛𝑑. 𝑃𝑟𝑜𝑚(𝑋) hacemos 𝑋 = 100 ⇒
𝑦̂ = −7.9268 + 1.1488 × 100 = 106.9572 > 100: Inti sí superaría en ventas a la cadena rival.
d) En este caso, recordando las definiciones vistas en c), si 𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 = 120; 𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝐼𝑛𝑡𝑖 =
80
80 ⇒ 𝑋 = 100 120 = 66.67 ⇒ 𝑦̂ = −7.9268 + 1.1488 × 66.67 = 68.6664 < 70 La respuesta es
que las ventas de Inti serán un 68.66% de las ventas de la cadena rival. O sea que sí serían inferiores
al 70% de lo que venda la rival.
122
Download