Uploaded by Aaron Robalino

estadistica2mas1

advertisement
Facultad de Ingeniería, Universidad de Cuenca
INTRODUCCION
A manera de introducción debe ser
mencionado que en la actualidad la
estadística es un elemento importante en
muchas áreas de la ciencia y el
conocimiento; y, con mayor razón en el
campo de la ingeniería e investigación,
pasando por el control de calidad y diseños
de nuevos procesos. Esto, sin dejar de lado
la estadística cuotidiana que nos inunda en
periódicos, revistas, noticieros y libros en
general.
Advertencia
En esencia, si bien no es posible eliminar
la incertidumbre y la posibilidad de un
juicio erróneo, se puede formular una
estrategia, sobre la base de reglas
probabilísticas asociadas a las hipótesis
de investigación que conduzca a una
decisión fundamentada en la información
recabada, conociendo el riesgo de error.
(Jean Thiébaux, 1994)
Vladimiro Tobar
14/3/2018
Estadistica e
investigación
El empleo del método científico en la
investigación, requiere del planteamiento
de hipótesis sobre un problema de
particular interés para el investigador. En
la actualidad estas hipótesis involucran ya
sea problemas de muestreo o diseño
experimental que empleando análisis
estadísticos conduzcan a probar dichas
hipótesis.
ESTADÍSTICA
La estadística puede concebirse
integrada por tres partes principales:
ESTADISTICA DESCRIPTIVA,
PROBABILIDAD Y
ESTADISTICA INFERENCIAL.
1
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
ESTADÍSTICA
DESCRIPTIVA
La Estadística descriptiva, es quizá la
parte más conocida de la estadística.
Incluye los métodos y técnicas
empleadas para la recopilación,
organización, análisis y presentación de
datos sobre determinada característica
o aspecto de interés.
Clasificación de
características
Cualitativas
Nominales
Ordinales
Cuantitativas
Discretas
Continuas
características
Características y
variabilidad
Se puede mencionar que virtualmente
todos los procesos y sistemas naturales
o artificiales exhiben variabilidad.
Siendo ésta el objeto de análisis
estadístico.
Variables
Las variables nos permiten
representar los posibles valores que
tomen las características.
El nivel y tipo de análisis a realizarse
dependerá del tipo de variable.
La clasificación de
características depende de su
sentido intrínseco, no de la
unidad de medicion o valor
con el cual sea representada
Vladimiro Tobar
2
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Representación de
distribuciones de
frecuencia.
Cuando hablamos de una característica,
en particular, la frecuencia es el número
de veces que se repite determinada
observación (cualitativas y cuantitativas
discretas), o el número de observaciones
que caen en un intervalo dado
(cuantitativas continuas). En razón de
que a cada posible valor de la variable le
corresponderá una frecuencia, el análisis
de su distribución se convertirá en uno de
los principales objetivos
Representación gráfica
(características cualitativas)
Very
S trong
29%
Very Strong
Mild
12%
Strong
Mild
0
2
4
6
Frecue ncia
8
10
S trong
59%
Las características cualitativas suelen representarse en gráficos
de barras (horizontales)
Un gráfico de pie, se emplea en general cuando se trata de
transmitir la idea de cómo de un todo se distribuyen sus partes
Vladimiro Tobar
(compendio/colonias)
Intensity rating
Mild
Strong
Very Strong
Total
Frecuencia
2
10
5
17
Frec. Rel
0.118
0.588
0.294
La representación tabular, incluye la
característica, la frecuencia, el total y la
frecuencia relativa.
Representación tabular
(características cuantitativas)
(compendio/auto2000)
Intensidad de coloni as
Intensidad de colonias
Representación tabular
(características
cualitativas)
Intervalo de clase Frecuencia
12.0
14.5
4
14.5
17.0
9
17.0
19.5
20
19.5
22.0
40
22.0
24.5
17
24.5
27.0
29.5
27.0
29.5
32.0
Total
9
4
3
106
F.Rel
0.0377
0.0849
0.1887
0.3774
0.1604
FRA
0.0377
0.1226
0.3113
0.6887
0.8491
0.0849
0.0377
0.0283
1.0000
0.9340
0.9717
1.0000
La representación tabular, incluye: intervalos
de clase, frecuencias, total, la frecuencias
relativas y frecuencias relativas acumuladas.
3
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Representación tabular
(características cuantitativas)
Representación gráfica
(características cuantitativas)
Número de intervalos:
k  n.datos
(Sturges) k = 1 + 3.32 log10 n

K, No menos de 5 ni más de 20

Ojiva:
La variable se ubica en el eje
horizontal de las x, y las
frecuencias en el eje vertical de
las y.
No deben quedar espacios
vacíos entre columnas.

Ojiva de mi llage de vehículos
40
30
20
10
0
1.2
1.0
0.8
0.6
0.4
0.2
0.0
9.5
12 - 14.5 14.5 - 17 17 - 19.5 19.5 - 22 22 - 24.5 24.5 - 27 27 - 29.5 29.5 - 32
Clase
Representación gráfica
(características cuantitativas)

Se asocia con función de
densidad (auto2000 pesos)
Se asocia con función de
distribución acumulada.
Vladimiro Tobar
Histograma de F.R.A (F.D.A.)
1.20
0.25
1.00
0.20
0.80
0.15
0.10
Interrupter
Speaker
Female
Male
Female
10
10
Male
5
15
Total interrupter
15
25
Interrupter según speaker
0.60
0.40
0.05
0.20
0.00
0.00
Total speaker
20
20
40
Gráfico side by side:
ojiva
Speaker
F .R .A .
F .r el
Histograma de F.rel (F. Densidad)
0.30
milla ge (Mi /ga l)
Tabla cruzada (compendio/inter)
2.4 - 2.8 2.8 - 3.2 3.2 - 3.6 3.6 - 4.0 4.0 - 4.4 4.4 - 4.8 4.8 - 5.2 5.2 - 5.6 5.6 - 6.0
2.4 - 2.8 2.8 - 3.2 3.2 - 3.6 3.6 - 4.0 4.0 - 4.4 4.4 - 4.8 4.8 - 5.2 5.2 - 5.6 5.6 - 6.0
weights (x1000 Lbs)
w eights (x1000 Lbs)
Male

Histograma de frecuencias
relativas acumuladas:
12.0 14. 5 17. 0 19. 5 22.0 24.5 27.0 29.5 32. 0 34. 5
Relación entre dos
características cualitativas
15
5
Male
Female
Histograma de frecuencias
relativas:
Es una línea no descendente,
que comienza desde cero en el Li
del primer intervalo y llega hasta
1 en el Ls del último intervalo
Millage de autos (mi/gal)
50
vehículos con
consumo menor
Seleccionar máximo y mínimo.
Amplitud de clase = (max-min)/k
Marca de clase = (Li + Ls)/2
Criterio de pertenencia a un intervalo:
x  intervalo si: Li < x  Ls
Frec uencia

Histograma de frecuencias:
Female
10
10
0
5
10
15
20
4
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Relación entre dos
características cuantitativas
Gráfico de dispersión:

Representación gráfica
apropiada
Principios de excelencia gráfica:

Se debe identificar adecuadamente la
variable independiente y la dependiente.
Salario según años de experiencia


120000
Salario
100000
80000

60000
40000
20000

0
0
10
Años
20
30
Practical Statistics by Example Using Ms Excel (T. Sincich)
Representación numérica.
Si bien una tabla o un gráfico nos dicen bastante sobre la
distribución de una variable, también es posible llevar una
distribución a un lenguaje matemático a través de su
representación numérica:
Representación gráfica
Histograma de F.rel (F. Densidad)
0.30
0.25
F .re l
0.20
0.15
0.10
0.05
0.00
2.4 - 2.8 2.8 - 3.2 3.2 - 3.6 3.6 - 4.0 4.0 - 4.4 4.4 - 4.8 4.8 - 5.2 5.2 - 5.6 5.6 - 6.0
Representación
numérica
x  3.5
  0.63
a  1 .0
La excelencia gráfica implica una bien diseñada
presentación de datos que provea sustancia,
estadística y diseño.
La excelencia gráfica es comunicar ideas
complejas con claridad, precisión y eficiencia.
La excelencia gráfica provee al observador el
mayor número de ideas en un corto intervalo de
tiempo con la menor cantidad de tinta.
La excelencia gráfica casi siempre incluye varias
dimensiones.
La excelencia gráfica requiere que se diga la
verdad acerca de los datos.
Idea transmitida por la
rep. numérica
Medidas de localización.
Medidas de tendencia central:
Media
 Mediana
 Moda

Medidas de posicionamiento:


Cuartiles
Percentiles
weights (x1000 Lbs)
Vladimiro Tobar
5
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Medidas de tendencia
central
Medidas de tendencia
central: Media
La media muestral viene dada por:
La media muestral viene dada por (asume los
datos concentrados en la marca de clase (xi):
x
fx
f
i i
x
i

Influenciada por presencia de valores
extremos.
La mediana:

Es el valor que ocupa la posición central en
una serie de datos ordenada.
Medidas de tendencia
central: Mediana
La mediana es el valor que ocupa la posición
central en una serie de datos ordenada:
~x  x n1/ 2  n impar
~x   x  x
n/2
n / 2 1  2  n par
Cuando los datos se encuentran agrupados:




Vladimiro Tobar
i i
i
La sumatoria de las desviaciones respecto de la media es cero
La sumatoria de los cuadrados de las desviaciones, respecto
de una constante A es mínima, cuando A es la media.
 Es el punto de equilibrio si consideramos cargas unitarias
colocadas en el eje x en cada valor que toma la variable
La media es fuertemente influenciada por la presencia de valores
extremos.

~x  x
 n 1 / 2  n impar
~x   x  x
n/ 2
n / 2 1  2  n par
Moda: es el valor de más alta repitencia

Propiedades:
fx
f


Medidas de tendencia
central: Mediana
La mediana exhibe una propiedad en que
la sumatoria de los valores absolutos de
las desviaciones, respecto de una
constante A es mínima, cuando A es la
mediana.
~x  Li   n 2  Fa  w


Donde:
 fm 
Li es el limite inferior de la clase mediana
Fa es la frecuencia acumulada hasta antes de la clase
mediana.
w es la amplitud del intervalo de clase mediana y
fm es la frecuencia de la clase mediana.
6
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Medidas de tendencia
central: Moda
La moda es el valor de más alta repitencia
(variables cualitativas y cuantitativas discretas).
Para el caso de variables cuantitativas
continuas, esta definición carece de sentido, no
obstante operativamente primero se define la
clase modal y luego la moda.
Clase modal es la clase de mayor repitencia.


 1 
 w
xˆ  Li  
 1  2 
x̂
Medidas de
posicionamiento
Percentiles (Pk): dividen una serie de datos ordenada en cien
partes:
Para nuestro propósito, existirán 101 percentiles comenzando por
P0 y terminando en P100
Para datos agrupados se pueden calcular de la siguiente forma:
 nk 100  Fa 
Pk  Li  
 w
fk


Medidas de
posicionamiento
Quartiles (Q1, Q2, Q3): dividen una serie de
datos ordenada en cuatro partes:
Q1, es el valor que tiene en su valor o bajo el al
25% de los datos y en su valor o sobre el al
75% de los datos
Q2, es el valor que tiene en su valor o bajo el al
50% de los datos y en su valor o sobre el al
50% de los datos
Q3 , es el valor que tiene en su valor o bajo el al
75% de los datos y en su valor o sobre el al
25% de los datos
Medidas de variabilidad.
Medidas de dispersión absolutas
Rango: max-min
 Rango intercuartil IQR: Q3 – Q1


Desviación media

Varianza:
La cual se constituye en la operativización matemática del cálculo
gráfico en la ojiva.
Para datos sin agrupar, una fórmula es:
Pk  X n1k
100
Vladimiro Tobar
1
 n  1k n  1k


100
 100


 X n 1k  X n1k 
1 
 100  2
100

2 

 xi    2  x2   2 ,
N
DM  
s2  
f i xi  x
n
f i  xi  x 
Desviación típica muestral
n 1
s
2


n
x2  x 2
n 1


fi xi  x 
n 1
2
7
Facultad de Ingeniería, Universidad de Cuenca
Medidas de variabilidad.
Medidas de dispersión relativas

Zscore 
DM
x
xi  x
s
s
x
Medidas de asimetría
Coeficiente cuartil de sesgo:
 ((Q3-Q2)-(Q2-Q1))/(Q3-Q1)

Coeficiente de asimetría:
3
a3 
Vladimiro Tobar
Zscore
Coeficiente de Variación
CV 

Otra medida de posición
relativa el Z score
Coeficiente de Desviación media
CDM 

14/3/2018
n
x x
M
  i   M 33/ 2
(n 1)(n  2)  s 
2
BASES MATEMATICAS
PARA PROBABILIDAD
Combinatoria

Principio fundamental: Si un evento A se
puede presentar de n1 formas diferentes y
si el evento B puede presentarse de n2
formas diferentes, los dos eventos en
conjunto pueden presentarse de n1*n2
formas diferentes. Ejemplo Cuenca
Guayaquil Manta, ejemplo computadores.
8
Facultad de Ingeniería, Universidad de Cuenca
Combinatoria
Permutaciones
Considerando un total de n elementos
distinguibles entre sí, se denominan
permutaciones al total de ordenamientos
diferentes de los n elementos.
Pn = n(n-1)(n-2) … 1 = n!
Ejemplo, en una competencia donde
intervienen, n=3 deportistas, el número total
de formas diferentes en las cuales pueden
terminar la competencia es de 6.
Combinatoria
Combinaciones
Considerando un total de n elementos
distinguibles, se denominan combinaciones
al total de grupos diferentes de tamaño r que
pueden formarse con los n elementos.
n!
 n
  
 r  r!n  r !
Ejemplo, en una alacena tengo n=5 snacks
diferentes: leche, un paquete de galletas, una
manzana, un chocolate y papas fritas. El
número total de grupos tres de estos snacks
que pueden traerse a la universidad es…
Vladimiro Tobar
14/3/2018
Combinatoria
Variaciones
Considerando un total de n elementos
distinguibles, se denominan variaciones, al
total de ordenamientos de los n elementos en
grupos de tamaño r.
Vnr = n(n-1)(n-2) … (n-r+1) = n!/(n-r)!
Ejemplo, en una alacena tengo n=5 snacks
diferentes: leche, un paquete de galletas, una
manzana, un chocolate y papas fritas. El
número total de formas diferentes en las
cuales pueden ingerirse tres de estos es…
Combinatoria (con
repetición de elementos)
Permutaciones
Considerando un total de n elementos de
clases: a,b,c … m, con na, nb, nc, … nm
repetidos de cada clase, de tal forma que: na
+ nb + nc + … + nm = n, el total de
permutaciones de los n elementos será:
n m , n c , n b , n a
Pn 
n!
n a ! n b ! n c ! n m !
9
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Combinatoria (con
repetición de elementos)
Variaciones
Combinatoria (con
repetición de elementos)
Combinaciones
Si se disponen de n clases de elementos:
a,b,c … n, cada una de ellas conteniendo al
menos r elementos, el total de ordenamientos
de los n elementos será:
vnr = nr
Si se disponen de n clases de elementos:
a,b,c … n, cada una de ellas conteniendo al
menos r elementos, el total de grupos que
pueden formarse con los n elementos será:
 n  r  1 n  r  1!
 

 r  r!n  1!
Combinatoria
Particiones
Considerando un total de n elementos
distinguibles entre sí, si se desea una
partición en grupos de tamaños: na, nb, nc, …
nm, de tal forma que: na + nb + nc + … + nm =
n, el total de posibles particiones será:
n m , n c , n b , n a
Vladimiro Tobar
Pn 
n!
n a ! n b ! n c ! n m !
PROBABILIDAD
Fenómenos Aleatorios
El fundamento matemático de la
estadística lo constituye el cálculo de
probabilidades, puesto que permite
modelar matemáticamente los fenómenos
aleatorios.
 Un fenómeno aleatorio es aquel que
pudiendo repetirse indefinidamente en
condiciones similares, no puede predecirse
el resultado de cada ensayo. De tal
manera que no existe una regularidad
determinística sino estadística.

10
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Algebra de Sucesos
(Teoría de Conjuntos)
Algebra de Sucesos
Operaciones
El conjunto  de todos los posibles
resultados de un fenómeno aleatorio se
llama espacio muestral.
 Se llama suceso o evento aleatorio a un
subconjunto de 
 A su vez cada uno de los posibles
resultados simples de un experimento
aleatorio se denomina suceso elemental  i







Vladimiro Tobar
Suceso cierto: aquel cuyos
resultados incluyen 
Suceso imposible: se llama suceso
imposible a aquel que no contiene
resultados en 
Diferencia: siendo A, B dos sucesos
en , el suceso diferencia A-B es el
conjunto de resultados que
pertenecen a A y no pertenecen a B
y es igual a AB’
Sucesos incompatibles: A, B son
sucesos incompatibles si AB= 




A AB B
A AB B

A
A’
Algebra de Sucesos
Ejemplo
Algebra de Sucesos
Operaciones

Unión: siendo A, B dos sucesos en ,
se llama unión AB al conjunto de
resultados que pertenecen a A ó a B
Intersección: siendo A, B dos sucesos
en , la intersección AB (ó AB), es el
conjunto de resultados que pertenecen
aAyaB
Complemento: siendo A un suceso
aleatorio en , se llama suceso
complementario A’ al conjunto de
resultados de  que no pertenecen a A
•
Consideremos el experimento en el que dos piezas son
examinadas a efectos de ver si cumplen o no con las
especificaciones. Los posibles sucesos elementales
serán:
1  (C, C), 2  (C, N ), 3  (N ,C), 4  ( N, N )
A
A-B
B
A
B
El espacio muestral será:
    1 ,  2 ,  3 ,  4 .
El evento A, en el que al menos una pieza cumple con las
especificaciones será:
A 
 1 ,  2 ,  3 
11
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Probabilidad, Axiomas
Probabilidad, Teoremas
Para un evento A, P(A) es su probabilidad, la cual
satisface los siguientes axiomas:
Partiendo de los axiomas, se obtienen los siguientes
teoremas:
1.- P(A) ≥ 0
1.- P(A’) = 1 – P(A)
No negatividad de la probabilidad.
2.- P() = 1
2.- P() = 0
3.- P(AB) = P(A) + P(B), si AB= 
3.- P(AB) = P(A) + P(B) – P(AB)
4.- P  
n

VARIABLES ALEATORIAS:
Introducción
La probabilidad es la herramienta matemática que
nos permite la modelación y análisis de
experimentos aleatorios.
Un experimento aleatorio podrá dar resultados
diferentes en cada ocasión, aun cuando se repita
en las mismas condiciones.
El espacio muestral es el conjunto de todos los
posibles resultados de un experimento aleatorio.


Vladimiro Tobar
Un espacio muestral es discreto cuando consiste de un
número finito o infinito contable de posibles resultados.
Un espacio muestral es continuo cuando sus posibles
resultados pueden ser cualesquier valor en un intervalo de
los números reales.
i 1

A i  

n

i 1
P ( A i ),
con
Ai

A
j
 
i j
VARIABLES ALEATORIAS
Una variable aleatoria es una función
que asigna un número real a cada
resultado en el espacio muestral de un
experimento. La variable aleatoria se
representa por X (mayúscula) y un
posible valor de la misma por x
(minúscula).
12
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
VARIABLES ALEATORIAS Y
Distribuciones de Probabilidad
VARIABLES ALEATORIAS Y Distribuciones
discretas de Probabilidad
A continuación se presenta un ejemplo sencillo de como se
puede modelar un experimento aleatorio con una distribución
de probabilidad: Sea el experimento aleatorio lanzamiento
de un par de dados:
Función de masa de probabilidad (Función de
densidad) de una variable aleatoria discreta, es una
función tal que:
x
f
2
3
4
5
6
7
8
9
10
11
12
15
25
50
55
73
96
69
70
48
31
8
F.rel
0.03
0.05
0.09
0.10
0.14
0.18
0.13
0.13
0.09
0.06
0.01
p
0.03
0.06
0.08
0.11
0.14
0.17
0.14
0.11
0.08
0.06
0.03
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
F.rel
p
2
3
4
5
6
7
8
9 10 11 12
VARIABLES ALEATORIAS Y Distribuciones
discretas de Probabilidad
VARIABLES ALEATORIAS Y Distribuciones
discretas de Probabilidad
Función de distribución acumulada (Función de
distribución) de una variable aleatoria discreta, se
define como:
La Esperanza Matemática o media de una variable
aleatoria discreta, se define como:
F ( x)  P ( X  x)   f  xi 
xi  x
De tal forma que cumpla con lo siguiente:
0 ≤ FX(x) ≤ 1
FX(-∞) = 0, FX(+∞) = 1
Si: a < b,  FX(a) ≤ FX(b)
  E ( X )   xf x 
x
La Esperanza matemática de la función de una
variable aleatoria discreta es:
E g  X    g ( x ) f x 
x
La varianza viene dada por:
 2  V ( X )  E  X       x    f x    x 2 f  x    2
2
2
x
Vladimiro Tobar
x
13
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Computadora
sin virus
Distribución Uniforme
discreta
Una variable aleatoria tiene distribución
uniforme discreta si cada uno de los posibles
valores de la variable tiene igual probabilidad.
Asumiendo la función definida entre los
enteros a y b, se tiene:
fX(xi) = 1/(b-a+1); a ≤ xi ≤ b
Con esperanza matemática y varianza:
  E( X ) 
b  a
2
2 
b  a  12  1
Una variable aleatoria tiene distribución binomial si:
Se trata de un experimento aleatorio en el cual se realizan n
ensayos Bernoulli, tales que:



Los ensayos sean independientes:
La probabilidad de éxito denotada por p, siendo 0<p<1, es
constante.
La variable aleatoria X consiste en el número de éxitos en los
n ensayos.
La función de masa de probabilidad está definida por:
 n
n x
f x     p x 1  p   x  0,1,2,3...n
 x
Vladimiro Tobar
Ensayo Bernoulli es un experimento aleatorio
con dos posibles resultados: A éxito y B,
fracaso. Se considera que los ensayos son
independientes, y que la probabilidad de éxito,
p es constante. Ejemplos:



En el lanzamiento de una moneda, sea A el evento
que salga cara.
En la transmisión de bits por un canal digital, sea A
el evento que el bit transmitido sea error.
En el nacimiento de un bebé, sea A que nazca
mujer.
12
Distribución Binomial

Distribución Binomial
Distribución Binomial
La esperanza matemática y varianza de una variable
aleatoria binomial vienen dadas por:
  E( X )  n p
 2  V ( X )  np(1  p)
Ejemplo:
Because not all airline passengers show up for their reserved seat,
an airline sells 125 tickets for a flight that holds only 120
passengers. The probability that a passenger does not show up is
0.10, and the passengers behave independently.
(a) What is the probability that every passenger who shows up can
take the flight?
(b) What is the probability that the flight departs with empty seats?
14
Facultad de Ingeniería, Universidad de Cuenca
Distribución de Poisson
Dado un intervalo de números reales (generalmente este
intervalo será el tiempo, longitud, área, etc.), si se asume que
conteos ocurren randómicamente en el intervalo, y si:

2.
3.
la probabilidad de más de un conteo en cada subintervalo es cero;
La probabilidad de un conteo en cada subintervalo es la misma para
todos los subintervalos y proporcional a su longitud; y
El conteo en cada subintervalo es independiente de otros
subintervalos;
entonces el experimento se denomina PROCESO POISSON
La variable aleatoria X que representa el conteo total en el
intervalo es una Variable Aleatoria Poisson con parámetro 
(promedio esperado de conteos en dicho intervalo); cuya
función de masa de probabilidad es:
f (x) 
ex
x!
x  0,1,2,3,....
La contaminación es un problema en la manufactura de discos de
almacenamiento óptico. El número de partículas contaminantes que
aparecen en un disco tiene una distribución de Poisson con una media de 0.1
partículas por centímetro cuadrado. El área de un disco en estudio es 100
cm2. Encuentre la probabilidad de que:

a) no exista contaminación en el disco
b) existan 12 partículas en el disco,
c) cuando más 8 partículas sean encontradas:
Sea X el número de partículas contaminantes en el área del disco en estudio,
se tiene:
E(X) =  =  x  = 0.1 part./ cm2 x 100 cm2 = 10 part. (en 100 cm2)
Vladimiro Tobar

a)

b)

c)
A menudo es necesario emplear el valor de , que es la media
esperada de conteos para un intervalo unitario.
La distribución de Poisson puede ser deducida a partir de la
distribución binomial, en el caso de que n es muy grande, p es
pequeño y el producto np tiende a una constante  :
10
0
e 10
 0.000045
0!
e10 1012
P ( X  12) 
 0. 0948
12!
8
e10 10i
P ( X  8)  
 0.3328
i!
i 0
P ( X  0) 
 

x 1
 n x
 n( n  1)(n  2)...(n  x  1)     n 
n x

 
Lim
x
 x  p 1  p   Lim 
x!
 n    
n   
n  
1 
p 0
p 0

np  
np 
 n
x 
 x
n
(
n
1
)(
n
2
)...(
n
x
1
)
e
e



  




Lim
nx
x!
n  
 x!
n
p 0
np  
La Esperanza matemática y la varianza son iguales a 
Distribución de Poisson: ejemplo

Distribución de Poisson
El intervalo puede ser particionado en subintervalos pequeños,
tales que
1.

14/3/2018
Otras distribuciones discretas
de probabilidad
Distribución Geométrica: siendo X el número de
ensayos Bernoulli hasta la obtención del primer éxito:
f x   1  p 
x 1
p  x  1, 2,3...
  E ( X )  1 p  2  (1  p) p 2
Binomial Negativa: siendo X el número de ensayos
Bernoulli hasta la obtención de r éxitos:
 x  1
1  p xr p r  x  r , r  1, r  2, r  3...
f x   
r

1


  E ( X )  r p  2  r (1  p) p 2
15
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Variables aleatorias continuas y
distribuciones probabilidad
Variables aleatorias continuas y
distribuciones de probabilidad
Si el dominio de definición de una variable aleatoria
X contiene un intervalo ya sea finito o infinito de
números reales, entonces X es una variable
aleatoria continua.
Función de distribución acumulada de una variable
aleatoria continua, se define como:
F ( x )  P ( X  x)   f t dt
x

Px  X  x  dx  f (x)dx
De tal forma que la función de densidad en
términos de la función de distribución es:
x x +dx
La función de densidad de una
variable aleatoria continua, es
una función tal que:
f x  
d x
f t dt
dx 
dF x 
f x  
 F ' x 
dx
f ( x)  0



f ( x )dx  1
Pa  X  b    f ( x)dx
b
a
Variables aleatorias continuas y
distribuciones de probabilidad
La Esperanza Matemática o media de una variable
aleatoria continua, se define como:
Distribución Uniforme continua
Una variable aleatoria continua X, definida en el
intervalo [a, b] tiene distribución continua uniforme si
la probabilidad de ocurrencia para cada subintervalo
(igual) dx en elf intervalo
es la misma.
(x)
X
k
  E ( X )   xf x dx


La Esperanza matemática de la función de una
variable aleatoria continua es:
E g  X    g ( x ) f  x dx

La varianza viene dada por:
Vladimiro Tobar
b
a
x   2 f  xdx   x2 f x dx   2



b
X
De tal forma que si la función de densidad f(x) = k:


 2  V ( X )  E  X   2  
a
k dx  1 
kx ba
 k  1 (b  a )  f ( x ) : a  x  b
A su vez la función de distribución sería:
F ( x )  PX  x  

x
a
x
1
xa
 t 
dt  


ba
b  a a b  a
16
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Distribución Normal
La distribución normal es la más conocida forma para modelar
experimentos aleatorios.
Originalmente fue descubierta en
1733 por De Moivre como extensión del problema binomial
cuando el número de ensayos tiende a infinito, no obstante esta
no fue reconocida sino hasta cien años después cuando K. F.
Gauss la redescubriera con un trabajo independiente.
Muchos experimentos aleatorios en los cuales intervienen
efectos aleatorios independientes, cada uno de estos influyendo
de igual forma en más o en menos, tienen generalmente
distribuciones normales.
Distribución Uniforme continua
F(x):
1
a
b
La esperanza matemática y varianza
son:
  E( X ) 
b  a 
2 
2
b  a 2
12
Distribución Normal N(0,1)
Distribución Normal N(,2)
De Moivre partiendo de una variable binomial
tipificada:
X b  np
La variable aleatoria X cuya función de densidad es:
n 
np (1  p )
f ( x) 
1
2

b
a
e
1
 x2
2
dx
Con lo que se obtienen la función de densidad y
función de distribución de la variable normal estándar
(de media 0 y varianza 1).
f ( z ) dz  P  z  Z  z  dz  
Vladimiro Tobar
e
1
 z2
2
2
dz
 ( x)  P( X  x)  
x

e
1  x 
 

2  
2
   x  
 2
Se conoce como distribución normal con parámetros 
y ; ó, N(, 2). Nótese que cuando =0 y =1, se
obtiene la distribución normal estándar.
No es difícil demostrar que la media y varianza de la
distribución normal son:
Logró demostrar que:
P a   n  b  
e
E(X)= 
V(X)= 2
1
 y2
2
2
dy
17
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Distribución Normal
Distribución Normal
2
=0,  =1
Las áreas más conocidas y que caracterizan a
una distribución normal son:
f ( x) 
e
1  x 
 

2  
0.4
A la derecha
se presentan
unos ejemplos
gráficos de
distribuciones
normales.
2
 2
Distribución Normal
2
=3,  =5
0.2
0.15
0.1
0.05
0
-5 -4
-3 -2
-1 0
1
2
3
4
5
6
7
8
9
z
d1
d2
d3
10
Transformación a variable N(0,1)
0.16
0.50
0.14
0.45
0.40
0.12
F. densidad
F. densidad
2
=4,  =2
0.3
0.25
Distribución Normal
Ajuste normal
0.35
0.10
0.30
0.25
0.08
0.20
0.06
0.15
0.04
0.10
0.02
0.05
0.00
0.00
-10
-5
0
5
Variable
Vladimiro Tobar
=2, 2=2
0.35
10
15
-10
-5
0
5
10
15
Variable
18
Facultad de Ingeniería, Universidad de Cuenca
Distribución
Exponencial
La distribución de Poisson nos sirve para modelar
una variable aleatoria discreta R igual al número de
eventos de un proceso Poisson que pueden suceder
en determinado intervalo de números reales. La
distribución exponencial, nos servirá para modelar la
longitud de intervalo X hasta que se produce el
primer evento desde cualquier punto de inicio. El
punto de incicio desde el cual se mida, no interesa,
puesto que la distribución de X sólo depende de que
los eventos sigan un proceso Poisson, mas no de su
posición.
R (long.=x)
X
Distribución Exponencial
Sea , la media de eventos de un proceso Poisson
por unidad de longitud (área, tiempo, etc), de tal
forma que el número de eventos para una longitud
dada x, es una variable aleatoria Poisson con media
x, así se tendrá que:
e x x
 e x
0!
Con lo que la función de distribución acumulada es:
0
P ( X  x)  P ( R  0) 
F ( x)  P ( X  x)  1  P ( X  x)  1  e   x , x  0
Y la función de densidad es:
f ( x)  e  x , x  0
X
Distribución Exponencial
Siendo , el parámetro de la distribución exponencial
igual a la media de eventos por unidad de longitud, la
esperanza matemática y varianza de la variable
aleatoria exponencial X, viene dada por:

b
u  x, dv   e x dx
E ( X )   x e x dx  Lim  x e x dx
0
0
b
du  dx,
v   e  x
b
x
x
 Lim  xe    e dx
0
b
14/3/2018




Distribución Exponencial
La vida de los reguladores de voltage de automóviles tiene una
distribución exponencial con media de seis años. Usted compra un
automóvil de segunda mano con cinco años de antigüedad, con un
regulador funcionando. Si planea tener el auto por seis años:
Cuál es la probabilidad de que el regulador falle mientras usted es el
dueño?
E ( x)    1     1 6
F ( x)  P ( X  6)  1  e
1
 6
6
 0.632
b
1


 Lim  xe x  e x 
b 

0
1 x  
1

 1
 Lim  x  e    xe x  e x 
b   e


0
b 
La distribución exponencial exhibe la llamada propiedad de carencia de
memoria, que consiste en:
P ( X  t1  t 2 | X  t1 )  P ( X  t 2 )
 0  0  1    1 
V ( X )  1 2
Vladimiro Tobar
19
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Otras distribuciones de
variables aleatorias continuas
Distribución Erlang: Sea X la variable aleatoria que representa el
intervalo en que se presentan r conteos en un proceso Poisson con
media >0, su función de densidad es:
f x ;  , r  

r x r 1e x
r  1!
; x0
y r  1,2,3 ...
La esperanza matemática y la varianza son:
  EX   r 
 2  V X   r  2
Distribución gamma: en el caso de una distribución Erlang, sin ser
necesariamente r un entero, pero r > 0, se tiene la siguiente función de
densidad:
f x ;  , r  

r x r 1e  x
r 
;
x0

r    x r 1 e x dx
El campo de la estadística inferencial
cubre los procesos y metodologías tales
que basados en el conocimiento de lo que
significan población y muestra y de cómo
estas se relacionan, partiendo de una
muestra se puedan estimar parámetros
poblacionales o establecer conclusiones
acerca de los mismos.
0
La esperanza matemática y la varianza son:
  EX   r 
Vladimiro Tobar
y r 0
ESTIMACIÓN PUNTUAL DE
PARAMETROS
 2  V X   r  2
Población y muestra:
Población.
Población y muestra:
Población.
Población: es el conjunto de todos
los resultados de las mediciones de
cierta variable en un universo sobre
el cual queremos establecer
conclusiones. El universo ha de
ser completamente definido con el
objeto de que pueda ser identificado
claramente, sin lugar a confusión.
Las poblaciones pueden ser finitas e
infinitas. Poblaciones finitas son las
que tienen un número finito contable
de resultados. En poblaciones
infinitas el número de resultados es
infinito
20
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Población y muestra:
Muestra.
Muestra aleatoria
Muestra: es (debe ser) un subconjunto de
la población objetivo. Sobre este punto,
hemos de resaltar que la muestra que se
pretenda tomar de una población, con el
objeto de analizarla estadísticamente, ha
de cumplir con una característica
importante: ser representativa de la
población. Para asegurar esto se debe
eliminar cualquier sesgo o facilitismo en
su selección.
En razón de que los procesos de análisis
estadístico se fundamentan en la
probabilidad y en distribuciones de
variables aleatorias, siempre se han de
preferir muestras aleatorias. De esta
forma, la selección de la muestra se
convierte en un experimento aleatorio, en
el que cada observación de la muestra es
el valor observado de una variable
aleatoria.
Población y muestra:
Muestra.
Muestreo aleatorio
Población objetivo
Población muestreada
no incluida en
marco para
muestreo
no
alcanzable
no
respuesta
Vladimiro Tobar
muestra
Marco para
muestreo
no elegible
para obtener
información
Por su forma el muestreo puede ser
considerado como con
remplazamiento y sin
remplazamiento en poblaciones
finitas o infinitas.
21
Facultad de Ingeniería, Universidad de Cuenca
Muestreo Sin
Remplazamiento
En el muestreo sin
remplazamiento,
cada vez que se
registra una
observación, esta
se excluye para
una siguiente
observación.
Vladimiro Tobar
14/3/2018
Muestreo Con
Remplazamiento
El considera que cada vez que se
registra una observación, su
probabilidad de ser nuevamente
seleccionada se mantiene la misma
para una siguiente observación.
Muestreo con y sin
remplazamiento
Parámetro vs. estimador
En casos prácticos, poblaciones
grandes pueden ser consideradas
infinitas; y, muestreo sin reemplazo
en dichas poblaciones puede
considerarse como muestreo con
reemplazo. A su vez un muestreo
con reemplazo sobre una población
finita, hace que la población pueda
considerarse como infinita.
Un aspecto clave a ser considerado es
que el investigador no está interesado en
una muestra, el interés es el de conocer
determinado parámetro poblacional .
El muestreo, permitirá encontrar un
estimador estadístico, el cual es variable
de muestra en muestra.
Serán las pruebas de hipótesis las que
permitan contrastar los estimadores con
los parámetros poblacionales.
22
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Ejemplo: Número de granjas
por condado (USA,1992).
Número de granjas por
condado: muestra
Histograma de una muestra
35
30
Frequency
4000
3500
3000
2500
2000
1500
1000
500
0
25
20
15
10
Bin
Número de granjas por
condado: Distribución muestral
D istribución de la po blación y distrib ución
muestral de media s
Bin
0
2
0
1
0
7000
6500
6000
5500
5000
4500
4000
3500
0
3000
775
745
715
685
655
625
595
0
0
3
2500
10
0
4
2000
20
0
5
1500
30
0
6
1000
40
7
500
Frequency
50
4 000
3 500
3 000
2 500
2 000
1 500
1 000
500
0
0
60
565
M
or
e
Número de granjas por condado:
Distribución de la población y
Distribución muestral
70
535
24
00
Tamaño de muestra: 109. Promedio de 622.9 granjas por condado.
Varianza de 217215.
Distribución muestral de Medias
505
20
00
Bin
Total 30780 condados, promedio de 625.5 granjas por condado. Varianza
de 240695
Frequency
16
00
12
00
80
0
0
40
0
6600
6000
5400
4800
4200
3600
3000
2400
1800
600
1200
5
0
0
Frequency
Histograma de la población
B in
Promedio de 628.9 granjas por condado. Varianza de 2032. (2201)
Vladimiro Tobar
23
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Distribucion muestral de
medias
Distribución muestral de
medias
Histograma
0.08
0.25
0. 2
0.06
Frecuencia
Fr ecuencia
Frecuencia
0.07
0.05
0.15
0.04
0. 1
0.03
0.02
0.05
0.01
INTERVALOS DE CONFIANZA
Si bien un estadístico muestral nos proporciona una
idea del valor de un parámetro poblacional, sólo es
conociendo las distribuciones de muestreo que
podemos entender la variabilidad que existe en un
estadístico muestral. Esta es la clave que nos
permite extender una estima puntual a una estima de
intervalo o intervalo de confianza.
Siendo  el parámetro poblacional de interés, la
forma general de expresar un intervalo de confianza
vendrá deducida de acuerdo con lo siguiente:
Vladimiro Tobar
178
174
170
166
162
158
154
150
146
139
142
142
136
133
138
134
130
130
126
122
118
114
110
106
98
102
94
0
90
0
La media de la distribución muestral de medias
es la media de las medias de las muestras.
La varianza de la distribución muestral de
medias, para el caso de muestreo con
reemplazamiento (o población infinita) es:
2X = 2/n.
Para muestreo sin reemplazamiento (población
finita), la varianza de la distribución muestral
de medias es:
2X = (2/n) ((N-n)/(N-1))
Intervalo de confianza para la
media de una distribución
normal, varianza conocida
Siendo X1, X2, X3, … Xn, una muestra aleatoria de
tamaño n, el teorema de límite central
_ señala que la
distribución de la variable aleatoria X , sería normal de
media  y varianza 2/n, entonces:
P(L  U) = 1-.
De tal forma que una vez seleccionada una muestra x1,
x2, x3, … xn, el intervalo de confianza para  será:
l  u
Donde: 100(1-)% será el nivel de confianza NC; y,
l y u se conocen como límites de confianza. Esto
indica con que probabilidad se puede encontrar al
parámetro poblacional entre L y U
24
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
IdC para la media de una
distribución normal, varianza
conocida
Considerando la variable estandarizada:
X 
 X    se tiene :
Z

X
X

n
P  z 2  Z  z 2   1  

 X     z   1
P   z 2 
 2


 n


IdC para la media de una
distribución normal, varianza
conocida
El intervalo de confianza para la media  de
una distribución normal, cuando su varianza
es conocida y se dispone de una muestra de
tamaño n, viene dado por:
x  z 2

 

   X  z 2
P  X  z 2
 1
n
n


n
   x  z 2

n
con lo que:
L  X  z 2

n
y U  X  z 2

n
IdC para la media de una
distribución normal, varianza
conocida
La interpretación del intervalo de confianza debe
hacerse considerando que si partiendo de una
muestra específica de tamaño n, se ha obtenido el
intervalo:


x  z 2
n
   x  z 2
n
IdC para la media de una
distribución normal, varianza
conocida
Una representación gráfica de los intervalos de
confianza se incluye a continuación:
o sea : l    u
Para otra muestra se obtendrá un intervalo diferente.
En este sentido, como ya se expresó antes, se
tendrá en general el intervalo de la forma L    U;
con L y U siendo variables aleatorias, por tanto 
podría o no estar incluida en cada intervalo. De aquí
que se espera que el 100(1-)% de los intervalos, así
generados, incluyan al parámetro poblacional
desconocido .
Vladimiro Tobar
25
Facultad de Ingeniería, Universidad de Cuenca
IdC para la media de una
distribución normal, varianza
conocida: tamaño de muestra
Uno de los aspectos más importantes a ser decididos de
forma previa al muestreo es el tamaño de muestra a ser
seleccionada. Para este efecto, debe previamente ser
conocido:
1.
Qué parámetro se desea estimar (en este caso la media ). El
2.
3.
4.
investigador debe definir claramente su interés.
Cuál es la varianza poblacional.
Cuál es el error admisible esperado
x
El NC para la estima.
El tamaño de muestra vendrá definido, entonces como:
 z  2
n  
 E




Si se trata de estimar un intervalo de confianza para
un parámetro poblacional cualquiera , tal que el
tamaño de muestra sea grande, y que:

se conozca un estimador insesgado para , cuya
distribución de probabilidad sea aproximadamente normal, y
la varianza de la distribución muestral pueda ser estimada a
partir de la muestra, entonces:
ˆ  z 2 ˆ    ˆ  z 2 ˆ
Vladimiro Tobar
IdC para la media de una
distribución normal, varianza
desconocida, n grande
Se puede decir en general que si la varianza es
desconocida, pero el tamaño muestral es grande, el
intervalo de confianza 100(1-)% puede ser obtenido
empleando s2 en lugar de 2 en las fórmulas de
intervalos de confianza cuando se conoce la
varianza. Esto debido a que la varianza muestral es
un estimador de la varianza poblacional, que no
cambiaría en mucho la distribución muestral.
Generalmente se recomienda un tamaño muestral n
de al menos 40.
2
Forma general de un IdC , n
grande

14/3/2018
x  z 2
s
s
   x  z 2
n
n
IdC para la media de una
distribución normal, varianza
desconocida
Para el caso en que la varianza poblacional
es desconocida y n no es grande, la situación
es diferente, por esta razón es necesario
hacer una asunción acerca de la distribución
de probabilidad de la población. Como se
había mencionado, esto no sería difícil para
muchas de las situaciones con que debamos
trabajar. No obstante, la distribución
muestral de la variable estandarizada, ya no
es normal, será una distribución t con n-1
grados de libertad.
26
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
IdC para la media de una
distribución normal, varianza
desconocida, distribución t
IdC para la media de una
distribución normal, varianza
desconocida
Siendo X1, X2, X3, … Xn, una muestra aleatoria
cualquiera de tamaño n de una población normal la
variable estandarizada:
Partiendo, entonces de la variable estandarizada, se
tiene:
 X  
T
S
T
X   ,
S
P t n 1, 2  T  t n 1,
n
Tiene una distribución t con n-1 grados de libertad,
cuya función de densidad viene dada por:
La media de la distribución t es cero y su varianza es
k/(k-2), con k > 2.
IdC para la media de una
distribución normal, varianza
desconocida
Luego el intervalo de confianza 100(1-)% para la
media, varianza desconocida y población normal,
cuando se conocen los datos de una muestra es:
x  t  2, n1
o sea : l    u
2
 1 


X    t

P  t n 1, 2 
n 1, 2   1  
S
n


S
S 

P X  t n 1, 2
   X  t n 1, 2
 1
n
n

L  X  t n 1,
l  x  t n 1,
s
s
   x  t  2, n1
n
n
luego :
n
2
2
S
n
s
n
y U  X  t n 1,
y u  x  t n 1 ,
2
2
S
n
s
n
IdC para la varianza de una
distribución normal, distribución 2
Siendo X1, X2, X3, … Xn, una muestra aleatoria cualquiera de
tamaño n de una población normal de media  y varianza 2, y
siendo S2 la varianza muestral, se tiene que:
X2 
n  1S 2
2
Tiene una distribución  2 con n-1 grados de libertad, cuya
función de densidad viene dada por:
Donde k son los grados de libertad.
La media de la distribución  2 es k y su varianza 2k.
La distribución  2 es una distribución Gamma con parámetros
=1/2 y r=k/2
Vladimiro Tobar
27
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
IdC para la varianza de una
distribución normal
IdC para la varianza de una
distribución normal
Sea s2 la varianza muestral de la muestra de tamaño
n tomada de una población normal:
Luego el intervalo de confianza 100(1-)% para la
varianza de una población normal, cuando se
conocen los datos de una muestra es:
X2 

n  1S 2 ,
2
n  1s 2   2
2
luego :

P  21 2 , n 1  X 2   2  2, n 1  1   



n  1S 2
  2  2 , n 1   1  
P  21 2 , n 1 
2



 n  1S 2

n  1S 2 
2
  2
  1
P 2
 1 2, n 1 
   2 , n 1
IdC para una proporción
poblacional, muestra grande
Hasta ahora se ha hablado de intervalos de confianza para
características cuantitativas, en el caso de que nos interese
una característica cualitativa, entonces nuestro enfoque será
sobre la proporción de muestras que cumple determinada
condición (éxito), de tal forma que se desea establecer
límites de confianza para la proporción poblacional (de
éxitos). Si la ocurrencia o no de un evento de interés es un
experimento bernoulli, el número X de casos favorables a la
presentación del evento, de entre los n de la muestra,
tomada de una población grande, sigue una distribución
binomial. Si nuestro interés se concentra en la proporción
poblacional, una estima puntual de ésta será el cuociente
X/n. En general este procedimiento puede ser empleado
siempre que la proporción poblacional p no sea próxima ni a
cero ni a uno; usualmente como regla rápida se debe
chequear que: np > 5 y n(1-p) > 5
Vladimiro Tobar
 2 , n 1

n  1s 2
 21 2 , n 1
IdC para una proporción
poblacional, muestra grande
Al tener X distribución binomial, se puede trabajar con
la variable estandarizada Z, cuya distribución es
aproximadamente normal estándar:
X  np
X n p
, dividiendo para n : Z 

np (1  p )
p (1  p)
n
P  z  2  Z  z  2   1   
Z




Pˆ  p

P  z 2 
 z 2   1  


p(1  p)


n



p(1  p)
p(1  p)
P  Pˆ  z 2
 p  Pˆ  z 2
n
n

Pˆ  p
p(1  p)
n

  1


28
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
IdC para una proporción
poblacional, muestra grande
Lo anterior implica que para definir el intervalo de
confianza para p se necesita conocer p. Por esta
razón se emplea la estima de p, X/n con lo que
queda:

Pˆ (1  Pˆ ) 
Pˆ (1  Pˆ )
 p  Pˆ  z  2
 1 
P  Pˆ  z 2


n
n


Luego, una vez tomada una muestra grande, el
intervalo de confianza está definido por:
pˆ  z 2
pˆ (1  pˆ )
 p  pˆ  z 2
n
pˆ (1  pˆ )
n
PRUEBAS DE HIPÓTESIS
Un aspecto de principal interés consiste en
fundamentar una decisión acerca de
determinado parámetro poblacional. En
situaciones comunes casi siempre existe una
idea o proposición clara, ya sea definida o
inferida sobre el valor de un parámetro
poblacional. En estos casos, se pretende
con apoyo de la inferencia estadística tomar
una decisión de rechazar o no dicha
proposición.
Vladimiro Tobar
IdC para una proporción,
tamaño de muestra
Cuando el parámetro de interés es la proporción poblacional
p, la selección del tamaño de muestra requiere el
conocimiento de: la varianza poblacional, el error admisible
esperado y el NC para la estima.
Sea el error esperado en la estima de p: E  Pˆ  p
El tamaño de muestra deducido es:
2
 z 2 
p(1  p)
 p1  p 
 n  

n
 E 
Cuando no se conoce p, se puede emplear la estima obtenida
en una muestra previa. En caso de no conocerse, se
recomienda trabajar con la mayor varianza admisible, esta es
cuando p=1-p=0.5
E  z 2
2
 z 2 
z 
 pˆ 1  pˆ ; ó, n  0.25  2 
n  

 E 
E




2
Hipótesis estadísticas
Las proposiciones acerca de los parámetros
poblacionales se denominan hipótesis estadísticas.
HIPOTESIS NULA: Las proposiciones que se
plantean describiendo el estado actual aceptado
como cierto acerca de los parámetros de una
población se denominan hipótesis nulas Ho.
Comúnmente esta hipótesis se plantea expresando
un valor del parámetro poblacional.
HIPOTESIS ALTERNATIVA: Las proposiciones
tentativas sobre los parámetros poblacionales, a
favor de las cuales se intenta conseguir evidencia
estadística se denominan hipótesis alternativas.
PRUEBAS DE HIPOTESIS: Es el procedimiento
estadístico que nos permite probar las hipótesis.
29
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Pruebas de hipótesis: regiones
de aceptacion y rechazo
Pruebas de hipótesis: errores
Error tipo I rechazar la hipótesis nula cuando es
verdadera
Error tipo II aceptar la hipótesis nula cuando es falsa.
REGION DE
ACEPTACION
REGION DE
RECHAZO
Valor crítico
0
Decisión
Aceptar Ho
Rechazar Ho
REGION DE
RECHAZO
correcto
Error tipo I
Error tipo II
correcto
Valor crítico
Pruebas de hipótesis ejemplo
Consideremos el ejemplo siguiente:
Se está interesado en la tasa de combustión de un
propelente sólido, del cual se dice que la tasa de
combustión es 50 cm/s y que nosotros pensamos que no es.
Entonces cualquiera de las siguientes hipótesis podrían ser
planteadas, de manera previa a la realización de la prueba:
Ho: = y Ha:  para un ensayo de dos colas
Ho: = y Ha: > (si se sospecha que la media es mayor)
Ho: =0 y Ha: < (si se sospecha que la media es menor)
• Que sucedería si al tomar una muestra, diga de tamaño 45
la media muestral da un valor menor a 50?, se puede
concluir algo?.

Una prueba de hipótesis puede especificarse de la
siguiente forma:
Ho: =0 y Ha: 0 para ensayo de dos colas
Ha: >0 ó
Ha: <0 para ensayos de una cola
 = Probabilidad de cometer error tipo I
 = P(rechazar Ho|Ho es verdadera)
 = Probabilidad de cometer error tipo II
 = P(aceptar Ho|Ho es falsa)
Vladimiro Tobar
Ho falsa
La probabilidad de cometer error tipo I se denomina
nivel de significación 
Pruebas de hipótesis: formas
de especificar Ho
Ho: =0 y
Ho: =0 y
Ho verdadera
•
La verdad no, puesto que sólo es una muestra y no
se ha definido una región de aceptación.
30
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Pruebas de hipótesis: ejemplo
Ahora bien, pudimos haber establecido una regla de
decisión bilateral tal que si la media muestral esta entre
48.5 y 51.5, no rechazamos la hipótesis nula de que la
media poblacional es 50.
Cuáles serían entonces  y  . El valor de  puede ser
calculado directamente, pero para el valor de  debemos
dar hipótesis alternativas fijas tales como =52.

 = P(rechazar Ho | Ho verdadera) =
  P( X  48. 5 o X  51. 5 |   50)

 = P(aceptar Ho | Ho falsa) =
  P(48.5  X  51. 5 |   52)

Que sucede si se amplia la región de aceptación?
  P( X  48 o X  52 |   50)
  P(48  X  52 |   52)
Pruebas de hipótesis:
procedimiento
Un procedimiento general para la prueba de
hipótesis es el siguiente:
1.
2.
3.
4.
5.
6.
7.
8.
Identificar el parámetro de interés.
Establecer la hipótesis nula.
Plantear la hipótesis alternativa.
Seleccionar el nivel de significación.
Establecer un estadístico de prueba apropiado.
Establecer una región de rechazo.
Calcular las cantidades muestrales y sustituirlas en la
ecuación para el estadístico de prueba.
Decidir si debe o no rechazarse Ho.
Prueba de hipótesis para la
media, varianza conocida
Prueba de hipótesis para la
media, varianza conocida
Las pruebas de hipótesis pueden ser realizadas tanto en la distribución
muestral de medias como en la distribución de la variable estandarizada,
siendo esta última una de las que comúnmente se utiliza.
Así pues, si se plantea que el parámetro de interés es la media poblacional
, las hipótesis estadísticas para un ensayo de dos colas serán:
Ho: =0 y Ha: 0
Una vez definido un nivel de significación 
El estadístico de prueba será:
En el caso de preferirse un procedimiento de prueba en
términos de la distribución muestral de la media, el
estadístico de prueba sería la media muestral, con el
siguiente
análisis:
_
Si X cae fuera del intervalo  0  Z 2  n ,  0  Z 2  n 
se rechazaría la hipótesis nula; y si, Zo cae dentro de
dicho intervalo, no se podría rechazar la hipótesis nula.
Z0 
X  0
 n
De tal forma que si Zo cae fuera del intervalo (–Z/2, Z/2) se rechazaría la
hipótesis nula; y si, Zo cae dentro del intervalo (–Z/2, Z/2) no se podría
rechazar la hipótesis nula.
Vladimiro Tobar
31
Facultad de Ingeniería, Universidad de Cuenca
Prueba de hipótesis para la
media, varianza conocida:
valor P
El valor P es el nivel de significación más pequeño que
conduce al rechazo de la hipótesis nula. P se calcularía
como:
21    z 0  dos colas

P   1   z 0  cola superior
  z 
cola inferior
0

14/3/2018
Prueba de hipótesis para la
media, varianza conocida: error
tipo II y tamaño de muestra
Es claro que al tener definido un tamaño de muestra y
un nivel de significación , el error tipo II , está
definido. En algunos casos se puede querer disminuir
a la vez los dos tipos de error; para eso, es necesario
especificar tanto , como  .
Supóngaes para esto que Ho es falsa y que el
verdadero valor de la media es . esto se traduce
en que:
X 
X  (   )  n
Z0 
0

0


 n
 n
Por tanto la distribución de Zo cuando H1 es verdadera
 n 
,1
Z 0 ~ N 
 

Prueba de hipótesis para la
media, varianza conocida: error
tipo II y tamaño de muestra
De lo anterior se deduce que la probabilidad de cometer
error tipo II viene dada por:
= P(–Z/2<Z0< Z/2) =


 n 
 n 
   z / 2 
   z / 2 
 
 



   z / 2 

De donde:
 n 
 
con     z  
n
Vladimiro Tobar
z
 /2
Prueba de hipótesis para la
media de una distribución
normal, varianza desconocida
De forma similar a la prueba de la media varianza conocida, para
un ensayo de dos colas, se tienen las hipótesis:
Ho: =0 y Ha: 0
El estadístico de prueba será:
T0 
X  0
S n
De tal forma que si To cae fuera del intervalo (–t/2,n-1, t/2,n-1) se
rechazaría la hipótesis nula; y si cae dentro de dicho intervalo, no
se podría rechazar la hipótesis nula.
 z   2
2

2
32
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Prueba de hipótesis para la
varianza de una distribución
normal
INFERENCIA ESTADÍSTICA
PARA DOS MUESTRAS
Las hipótesis a ser probadas en este caso son:
Ho:  =02 y Ha:   02
El estadístico de prueba será:
X 02 
n  1S 2
 02

2
2
De tal forma que si   cae fuera del intervalo  1  2, n 1 ,   2, n1
se rechazaría la hipótesis nula; y si cae dentro de dicho intervalo,
no se podría rechazar la hipótesis nula.

Inferencia para la diferencia
de medias de dos
distribuciones normales
Supóngase que se tienen dos poblaciones normales
con medias 1 y 2 desconocidas y varianzas 12 y 22;
y que, se requieren hacer inferencias acerca de la
diferencia de medias 1 - 2.
Deben distinguirse los siguientes casos:
Diferencias
de medias,
poblaciones
normales
Varianzas
conocidas
Varianzas
desconocidas
1 2 y 2 2
1 2 = 2 2 = 2
1 2  2 2
Hasta ahora se han visto inferencias
sobre un parámetro poblacional de una
población lo que a continuación se
incluye corresponde a inferencias sobre
la relaciones entre un parámetro
poblacional de dos poblaciones
diferentes.
Inferencia para la diferencia de
medias de dos distribuciones
normales, varianzas conocidas
Supóngase que se tienen dos poblaciones normales con
medias 1 y 2 desconocidas y con varianzas 12 y 22, y que
se requieren hacer inferencias acerca de la diferencia de
medias 1 - 2.
Sean X11, X12, X13, … X1n1, una muestra aleatoria de tamaño
n1, tomada de la población 1; y, X21, X22, X23, … X2n2, una
muestra aleatoria
_ de _tamaño n2, tomada de la población 2.
El estadístico: X1 – X2 es un estimador puntual de 1 - 2.
Pudiendo plantearse de acuerdo con la notación antes
empleada que:
   X  X   1   2  parámetro poblaciona l de interés
1
2
ˆ  X1  X 2  estimador del parámetro poblaciona l

 2ˆ   X2  X 
1
Vladimiro Tobar
2
 12
n1

 22
n2
 varianza del estimador
33
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Pruebas de hipótesis para la
diferencia de medias,
varianzas conocidas
IdC para la diferencia de medias
de dos distribuciones normales,
varianzas conocidas
Supongamos que estamos interesados en probar si la diferencia
de medias de dos poblaciones normales es igual a determinado
valor (usualmente 0), entonces nuestro interés recae en probar si
1 - 2 = 0.
Siendo las hipótesis estadísticas:
Ho: 1 - 2 = 0 y Ha: 1 - 2  0
Nuestro estadístico de prueba será:
Considerando la estandarización:
Z
ˆ 

 ˆ

X1  X 2   1   2  , se tiene :
 12
n1

 22
n2
P  z  2  Z  z  2   1   

 12  22
 12  22 

  1   2   X 1  X 2   z  2

P  X 1  X 2   z  2

n1
n2
n1
n2 

Z0 
Con lo que el intervalo de confianza para la diferencia
de dos medias poblacionales, varianzas conocidas es:
2
2
x 1  x 2   z 2  1   2
n1
n2
 1   2   x 1  x 2   z 2
 12
n1

n1  1S12  n2  1S22
n1  n2  2
n2
X1  X 2    0
 12

 22
n2
IdC para la diferencia de medias de
dos distribuciones normales,
varianzas desconocidas pero iguales
Considerando la estandarización:
Y con 12 = 22 = 2 ; y, siendo
Sp2 un estimador de 2 , se tiene:
T
X  X 2    1   2 
 1
Sp

1
1

n1 n2
X 1  X 2    1   2 
 12
n1

 22
n2
cuya distribución es aproximadamente t
con n 1  n 2  2  grados de libertad; luego :

P  t  2, n1 n 2  2  T  t  2 ,n1  n2 2  1   

1
1
1
1 

 1   2   X1  X 2   t  2 , n1 n 2  2 S p
 
P X1  X 2   t  2, n1 n 2  2 S p
n
n
n
n
1
2
1
2 

Con lo que el IdC para la diferencia de dos medias
poblacionales, varianzas desconocidas pero iguales es:
x 1  x 2   t  2, n  n  2 s p
1
Vladimiro Tobar

n1
Inferencia para la diferencia de medias
de dos distribuciones normales,
varianzas desconocidas pero iguales
S p2 
 ˆ
De tal forma que si Zo cae fuera del intervalo (–Z/2, Z/2) se
rechazaría la hipótesis nula; y si cae dentro de dicho intervalo, no
se podría rechazar la hipótesis nula.
 22
Supóngase que se tienen dos poblaciones normales con
medias 1 y 2 y varianzas 12 = 22 = 2 desconocidas; y
que, se requiere hacer inferencias acerca de la diferencia de
medias 1 - 2.
Sean X11, X12, X13, … X1n1, una muestra aleatoria de tamaño
n1, tomada de la población 1; y, X21, X22, X23, … X2n2, una
muestra aleatoria
_ de_tamaño n2, tomada de la población 2.
El estadístico: X1 – X2 es un estimador puntual de 1 - 2.
Un estimador de la varianza común 2 viene dado por:
ˆ  0

2
1
1
1
1

 1   2   x1  x2   t  2, n1  n2  2 s p

n1 n2
n1 n 2
34
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Pruebas de hipótesis para la
diferencia de medias, varianzas
desconocidas pero iguales
Inferencia para la diferencia de medias
de dos distribuciones normales,
varianzas desconocidas y diferentes
Supongamos que estamos interesados en probar si la diferencia
de medias de dos poblaciones normales de varianzas
desconocidas es igual a determinado valor 0 (usualmente 0),
entonces nuestro interés recae en probar si 1 - 2 = 0.
Siendo las hipótesis estadísticas:
Ho: 1 - 2 = 0 y Ha: 1 - 2  0
Si las varianzas son iguales, el estadístico de prueba será:
T0 
X 1  X 2    0
Sp
1
1

n1 n2
De tal forma que si T0 cae fuera del intervalo (–t/2,n1+n2-2 , t/2,n1+n2-2)
se rechazaría la hipótesis nula; y si cae dentro de dicho intervalo,
no se podría rechazar la hipótesis nula.
IdC para la diferencia de medias de
dos distribuciones normales,
varianzas desconocidas y diferentes
La distribución de T será aproximadamente t, con grados de
libertad definidos por:
2
2 2
 
Luego:
S
 S1 S 2 



 n1 n 2 
 
2

2
S2 n
1 n1
 2 2
n1  1
n2  1
2
P  t  2,  T  t  2 ,   1   

P X1  X 2   t  2 ,


S12 S 22

 1   2   X 1  X 2   t  2,
n1 n2
S12 S 22

n1 n 2
Con lo que el IdC para la diferencia de dos medias
poblacionales, varianzas desconocidas y diferentes es:
x 1  x 2   t  2,
Vladimiro Tobar
s12 s22

 1   2   x 1  x 2   t 2 ,
n1 n2
s12 s 22

n1 n2




Supóngase que se tienen dos poblaciones normales con
medias 1 y 2 y varianzas 12 y 22 desconocidas y
diferentes; y que, se requiere hacer inferencias acerca de la
diferencia de medias 1 - 2.
Sean X11, X12, X13, … X1n1, una muestra aleatoria de tamaño
n1, tomada de la población 1; y, X21, X22, X23, … X2n2, una
muestra aleatoria
_ de_tamaño n2, tomada de la población 2.
El estadístico: X1 – X2 es un estimador puntual de 1 - 2.
Las varianzas muestrales S12 ,y S22 son estimadores de las
varianzas 12 y 22; entonces, puede trabajarse con el
estadístico:
 X1  X 2   1   2 
T 
S12 S 22

n1 n2
Pruebas de hipótesis para la
diferencia de medias, varianzas
desconocidas y diferentes
Supongamos que estamos interesados en probar si la diferencia
de medias de dos poblaciones normales de varianzas
desconocidas es igual a determinado valor 0 (usualmente 0),
entonces nuestro interés recae en probar si 1 - 2 = 0.
Siendo las hipótesis estadísticas:
Ho: 1 - 2 = 0 y Ha: 1 - 2  0
El estadístico de prueba será:
T0 
X 1  X 2    0
S12 S 22

n1 n 2
De tal forma que si T0 cae fuera del intervalo (–t/2,  , t/2, ) se
rechazaría la hipótesis nula; y si cae dentro de dicho intervalo, no
se podría rechazar la hipótesis nula.
35
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Prueba t pareada
Un procedimiento de prueba para la diferencia de medias
poblacionales se emplea cuando el muestreo no es
completamente aleatorizado en cada población, sino que se
procede a tomar las muestras por pares. Para ilustrar esto,
supongamos que estamos interesados en probar la diferencia
en tiempos de secado de dos tipos de pinturas A y B. Para
emplear los procedimientos de prueba anteriores se debería
realizar un muestreo aleatorio de tiempos de secado en
diferentes superficies con la pintura A y otro muestreo aleatorio
con la pintura B. Para la prueba pareada, se toman
aleatoriamente n superficies, las cuales son pintadas una parte
con la pintura A y otra con la B; de esta forma se obtiene una
relación directa entre los tiempos de secado dentro de cada par,
con la ventaja de que la variabilidad entre superficies diferentes,
no infla la variabilidad total del estimador.
Prueba t pareada
Supóngase que se tienen dos poblaciones con medias 1 y
2 y varianzas 12 y 22 desconocidas; y que, se requiere
hacer inferencias acerca de la diferencia de medias 1 - 2.
Si una prueba pareada ha sido diseñada, se obtendrán n
pares de observaciones: (X11, X21), (X12, X22), (X13, X23) …
(X1n1, X2n2); luego, dentro de cada par se pueden calcular
las diferencias D
_ k = X1k - X2k.
El estadístico: D es un estimador puntual de D = 1 - 2.
La varianza D2 es:
 D2  V ( D )  V X1  X 2 
 V X1   V  X 2   2 covX 1 , X 2 
El estimador de la varianza D2 sería la varianza muestral
de las diferencias SD2
Prueba t pareada
Partiendo de la variable estandarizada, se tiene:
D   D  ,
T
SD
P t n 1,
2
luego :
n
 T  t n 1, 2   1   
S 
S

P D  t n 1, 2 D   D  D  t n 1, 2 D 
n
n

Prueba de Independencia en
tablas cruzadas
Cuando el objeto de nuestro estudio se centra en la
relación entre dos características cualitativas, la
pregunta de investigación común es si están
relacionadas de alguna forma. En este sentido, la
hipótesis estadística nula será de que las
características son independientes.
Con lo que el IdC para la diferencia de medias en
pruebas pareadas es:
d  t n 1, 2
Vladimiro Tobar
sd
n
  D  d  t n 1 , 2
sd
n
36
Característica 1
Facultad de Ingeniería, Universidad de Cuenca

14/3/2018
Prueba de Independencia en
tablas cruzadas
Prueba de Independencia en
tablas cruzadas


La frecuencia esperada en cada celda,
en condiciones de independencia viene
dada por:
1
2
.
i
.
r
1
O11
O21
..
Oi1
..
O r1
2
O12
O22
..
Oi2
..
Or2
Característica 2
j
..
O 1j
..
O 2j
..
..
..
O ij
..
..
..
Orj
..
..
..
..
..
..

c
O 1c
O 2c
..
Oic
..
Orc
A
B
n=

Prueba de Independencia en
tablas cruzadas
Para n grande, el estadístico:
Se distribuye aproximadamente como
2, con (r-1)(c-1) grados de libertad, lo
que proporciona un medio para probar
la hipótesis nula.
Si 20 > 2,(r-1)(c-1), entonces la hipótesis
nula será rechazada.
Vladimiro Tobar
E
15
(13.4)
11
(12.6)
B
23
(28.3)
32
(26.7)
R
17
(13.4)
9
(12.6)

55
26
55
26
107
52
REGRESIÓN LINEAL SIMPLE
120000
Salary
Considere los datos de sueldos 100000
.
versus años de experiencia.
80000
Si supongo fijo un valor de x
60000
se tendrán diferentes valores de 40000
Y. De tal forma que si existe un 20000
0
valor medio de Y para x dado,
0
5
10
15
20
puede ser expresada en términos de x, así:
E(Y|x) = Y|x = 0 + 1 x
Esto obviamente nos describe la media de los valores
de Y para cada x.
25
30
37
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
MODELOS DE REGRESION
Modelos de regresión
De lo anterior podemos plantear que si un modelo lineal es
conveniente, este puede generalizarse a:
Y = 0 + 1 x + 
Donde 0 + 1 x, es la parte determinística del modelo y  es un error
aleatorio que tiene media cero y varianza 2. Este modelo es
comúnmente conocido como Modelo de regresión lineal simple.
Si bien los modelos, pueden provenir de un análisis sobre las
condiciones teóricas de las relaciones entre las variables, en
muchos otros casos, esto debe ser juzgado sobre la base de los
datos y sus posibles tendencias.
Cuando un modelo lineal ha sido elegido, existen diferentes
formas de estimar los coeficientes 0 y 1 ;una de ellas consiste
en minimizar los cuadrados de las desviaciones de los valores
yi de la recta Y = 0 + 1xi .
En escencia, si podemos expresar observaciones de la forma:
yi = 0 + 1xi +  i ,
las deviaciones serán:
 i = yi – (0 + 1xi )
SALARIO
120000
100000
80000
60000
40000
20000
0
AÑOS DE EXPERIENCIA
0
5
10
15
20
25
30
Estimadores de mínimos
cuadrados
Para minimizar los cuadrados de los errores  i, se define
una función: L =   i2 = (yi – 0 – 1xi )2.
Las variables de interés en la misma, serán 0 y 1 cuya
variación generan diferentes familias de rectas. Por
tanto, para obtener los valores que minimicen L, se
deriva parcialmente con relación a 0 y 1, se obtienen
las siguientes ecuaciones:
L/0= – 2(yi – 0 – 1xi )
L/1= – 2(yi – 0 – 1xi ) xi
Luego igualando a cero estas ecuaciones, los
estimadores de 0 y 1, ˆ0 y ˆ1 vienen dados por:
Estimadores de mínimos
cuadrados
ˆ 0  y  ˆ1 x
n
i 1
2
n
1 n 
2
  xi    xi  x 
n  i1 
i 1
i1
1  n  n 
   y i   x i 
n
n  i1  i 1 
1  n  n 
Sxy   y i x i    y i   xi 
2
n
n
n
i 1

1
 i1  i 1 
 xi 2  n   xi 
Sxy
 i 1 
i 1
ˆ1 
Sxx
y x
i
ˆ1 
n
Sxx   x i 2 
i
Cada una de las observaciones será:
yi  ˆ0  ˆ1 xi  ei
Donde ei , son los residuales:
yˆ i  ˆ 0  ˆ1 xi
Vladimiro Tobar
 ei  yi  yˆ i
38
Facultad de Ingeniería, Universidad de Cuenca
14/3/2018
Estimadores de mínimos
cuadrados
Siendo SSE =  ei 2
Y debido a que dos grados de libertad se pierden al estimar 0 y
1, se puede demostrar que un estimador de la varianza 2
viene dado por:
ˆ 2  SS E (n  2)
SS E    y i  yˆ i    y i  ˆ0  ˆ1 x i 
SS E  SST  ˆ1 Sxy
2
2
Estimadores de mínimos
cuadrados
Las propiedades de los estimadores de mínimos
cuadrados son:
2
E ˆ1   1 ;
V ˆ1  
E ˆ0    0 ;
Sxx
 1 x2 

V ˆ0    2  
 n Sxx 
con :
SST    yˆi  y i 
2
Tests de hipótesis en
regresión
Uno de los test de hipótesis en regresión más
importantes es el test de la pendiente. Este
test tiene por objeto rechazar la hipótesis
nula de que la pendiente sea cero, puesto
que esto significa que el modelo como tal es
independiente de los valores de x.
Tests de hipótesis en
regresión
La hipótesis nula se plantearía como:
Ho: 1 = 1,0 y Ha: 1  1,0
Usualmente, 1,0 = 0
Luego el estadístico:
T0 
ˆ1  ˆ1, 0
ˆ 2 Sxx
Sigue una distribución t con n-2 grados de libertad.
De tal forma que si To cae fuera del intervalo
(–t/2,n-2, t/2,n-2) se rechazaría la hipótesis nula; y si
cae dentro de dicho intervalo, no se podría rechazar
la hipótesis nula.
Vladimiro Tobar
39
Download