Fundamentos de
do
Econometrı́a
Juan León Jara Almonte & Marcelo Manuel
Le
ón
&
Ga
ll
ar
Gallardo Burga
Prefacio
Este documento tiene como objetivo proporcionar una base
sólida en los fundamentos matemáticos y estadı́sticos necesarios
para la estimación y análisis de modelos de regresión lineal múltiple.
A través de una exposición clara y concisa, se exploran los conceptos
clave del álgebra matricial y los principios de optimización,
sentando las bases para la comprensión del modelo de regresión
do
multivariado y sus supuestos.
Se dedica especial atención a los factores que pueden comprometer la calidad de las estimaciones y la validez de las inferencias
Ga
ll
ar
estadı́sticas. En particular, se analizan en profundidad problemas
como la multicolinealidad, la heterocedasticidad, la autocorrelación
serial y los cambios estructurales. Para cada uno de estos problemas,
se presentan tanto la teorı́a subyacente como las pruebas estadı́sticas adecuadas y las estrategias de mitigación.
Adicionalmente, se abordan temas relevantes como la incorporación de variables cualitativas en los modelos de regresión, la importancia del diseño muestral y la aplicación del método de variables
&
instrumentales para abordar problemas de endogeneidad. Se presta
especial atención a la interpretación de los resultados y a la construcción de modelos que permitan analizar relaciones causales.
Le
ón
Para complementar la exposición teórica principal, se incluye
un anexo centrado en la teorı́a de la probabilidad y la estadı́stica.
En este anexo, se presentan los conceptos fundamentales de
probabilidades, distribuciones, estimación y teorı́a asintótica. Se
discuten las herramientas estadı́sticas clave que sustentan el análisis
econométrico expuesto en el texto principal, proporcionando un
marco sólido para la inferencia y el desarrollo de modelos
econométricos rigurosos. La discusión incluye el papel esencial que
juegan estos conceptos en la validación de los modelos, ası́ como en
la estimación precisa de parámetros y la evaluación de su robustez.
En resumen, este documento busca equipar al lector con las
herramientas necesarias para llevar a cabo un análisis de regresión
lineal múltiple de manera rigurosa y eficiente. A través de una
do
combinación de teorı́a, ejemplos prácticos y discusión de los desafı́os
comunes, se pretende fomentar una comprensión profunda de esta
Ga
ll
ar
técnica estadı́stica fundamental.
Juan León,
Profesor Auxiliar
del Departamento de Economı́a de la
Pontificia Universidad Católica del Perú
Marcelo Gallardo,
Asistente de investigación y docencia
de la Facultad de Ciencia e Ingenierı́a de la
Le
ón
&
Pontificia Universidad Católica del Perú
Agradecimientos
Agradecemos a Alexandra Quispe por su apoyo en la revisión de
este documento. Asimismo, agradecemos al profesor José Gallardo,
de la especialidad de Economı́a en la PUCP, cuyas notas de clase
de Microeconomı́a 1 fueron fundamentales, utilizando ejemplos
puntuales en el capı́tulo de optimización. Finalmente, el anexo de
teorı́a de la probabilidad e inferencia estadı́stica se basa en las
do
notas de los cursos de Estadı́stica Inferencial (Economı́a PUCP)
Le
ón
&
Ga
ll
ar
y Probabilidad y Estadı́stica I (Matemática PUCP).
LISTA DE SÍMBOLOS
N: conjunto de números naturales, N ≜ {1, 2, . . . }.
Z: conjunto de números enteros, Z ≜ {. . . , −3, −2, −2, 0, 1, 2, 3 . . . }.
Z+ : conjunto de números enteros positivos incluido el cero, Z+ ≜
{0, 1, 2, 3 . . . }.
Q: conjunto de números racionales.
do
R: conjunto de números reales.
R+ : conjunto de números reales mayores o iguales a cero.
Ga
ll
ar
R++ : conjunto de números reales estrictamente mayores a cero.
R+: conjunto de números reales mayores o iguales a cero unidos
con {∞}.
Ac : si A es un conjunto, Ac denota el complemento de dicho
conjunto.
A ⊂ B: el conjunto A está incluido en el conjunto B.
&
Rn : espacio euclidiano de dimensión n ∈ N.
||x||: si x es un vector del espacio vectorial V , ||x|| denota la norma
Le
ón
Euclidiana de dicho vector.
BRk σ−álgebra de Borel en Rk .
sup{A}: supremo del conjunto A.
ı́nf{A}: ı́nfimo del conjunto A.
4
t ↓ c: t tiende a c y t > c. Lo mismo aplica para sucesiones de
variables aleatorias Xn ↓ X. Se define de manera análoga t ↑ c y
Xn ↑ X.
∅: el conjunto vacı́o.
⊎: unión disjunta.
P lı́m: probabilidad lı́mite.
d
do
→: converge en distribución.
P
→: converge en probabilidad.
Var(·): varianza.
Cov(·, ·): covarianza.
Avar: varianza asintótica.
Ga
ll
ar
E[·]: valor esperado.
Le
ón
&
1A : función indicatriz, 1A (x) = 1 si x ∈ A y 0 caso contrario.
5
Índice general
do
Índice general
1. Álgebra Matricial
6
1
2
1.2. Matriz transpuesta y rango . . . . . . . . . . . . . .
10
1.3. Matriz inversa y determinante . . . . . . . . . . . .
15
1.4. Aplicaciones . . . . . . . . . . . . . . . . . . . . . .
21
Ga
ll
ar
1.1. Matrices y operaciones . . . . . . . . . . . . . . . .
2. Fundamentos de Optimización Estática
29
30
2.1.1. Condición de segundo orden . . . . . . . . .
33
2.2. Funciones de variable vectorial . . . . . . . . . . . .
36
&
2.1. Funciones de variable real . . . . . . . . . . . . . .
40
2.3. Lagrange y Karush-Kuhn-Tucker . . . . . . . . . .
42
2.4. Breve nota sobre la convexidad . . . . . . . . . . .
46
Le
ón
2.2.1. Condiciones de segundo orden . . . . . . . .
3. Modelo multivariado
50
3.1. El modelo k−lineal . . . . . . . . . . . . . . . . . .
51
3.1.1. Supuestos del modelo k−lineal . . . . . . . .
54
3.2. El problema de optimización . . . . . . . . . . . . .
56
Índice general
7
62
3.3. Análisis de los parámetros . . . . . . . . . . . . . .
67
3.3.1. Insesgadez de los parámetros . . . . . . . . .
68
3.3.2. Varianza de los parámetros estimados . . . .
70
3.3.3. Teorema de Gauss-Markov . . . . . . . . . .
75
3.4. Interpretaciones . . . . . . . . . . . . . . . . . . . .
78
3.4.1. Indicadores de ajuste global . . . . . . . . .
78
3.4.2. Parámetros estimados . . . . . . . . . . . .
84
3.5. Restricciones lineales . . . . . . . . . . . . . . . . .
93
3.5.1. Intervalos de confianza y t−Student . . . . .
98
3.5.2. Método de los residuos . . . . . . . . . . . .
99
do
3.2.1. Condiciones de segundo orden . . . . . . . .
Ga
ll
ar
3.5.3. Propiedades asintóticas . . . . . . . . . . . . 100
3.5.4. Estimador con restricciones . . . . . . . . . 105
4. Variables cualitativas
106
4.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . 107
4.2. Interacciones
. . . . . . . . . . . . . . . . . . . . . 113
5. Muestreo
5.1. Introducción y conceptos básicos
117
. . . . . . . . . . 118
&
5.2. Tamaño de muestra . . . . . . . . . . . . . . . . . . 119
5.2.1. Intervalos de confianza . . . . . . . . . . . . 120
Le
ón
5.2.2. Aplicaciones . . . . . . . . . . . . . . . . . . 123
5.3. Selección de la muestra . . . . . . . . . . . . . . . . 126
5.4. Diseños experimentales . . . . . . . . . . . . . . . . 130
6. Multicolinealidad
134
6.1. Análisis de la varianza . . . . . . . . . . . . . . . . 135
Índice general
8
6.2. Métodos de detección . . . . . . . . . . . . . . . . . 137
6.3. Soluciones ante casos de
multicolinealidad . . . . . . . . . . . . . . . . . . . 140
7. Estabilidad de los parámetros estimados
7.1. Residuos Recursivos
142
. . . . . . . . . . . . . . . . . 144
7.2. Test de Chow . . . . . . . . . . . . . . . . . . . . . 147
8. Heterocedasticidad
153
8.2. Métodos de detección de
do
8.1. Tests de normalidad . . . . . . . . . . . . . . . . . 154
Ga
ll
ar
heterocedasticidad . . . . . . . . . . . . . . . . . . 160
8.3. Métodos para corregir la
heterocedasticidad . . . . . . . . . . . . . . . . . . 166
9. Autocorrelación serial
181
9.1. Modelo autorregresivo AR . . . . . . . . . . . . . . 183
9.2. Modelo de medias móviles M A . . . . . . . . . . . 185
9.3. Contrastes estadı́sticos de
detección . . . . . . . . . . . . . . . . . . . . . . . . 186
. . . . . . . . . . . . . . . . . 190
&
9.4. Métodos correctivos
9.5. Mı́nimos Cuadrados No Lineales . . . . . . . . . . . 198
Le
ón
10. Endogeneidad
201
10.1. Variables Instrumentales . . . . . . . . . . . . . . . 202
10.2. Múltiples instrumentos 2SLS . . . . . . . . . . . . . 208
10.3. Método Generalizado de
Momentos . . . . . . . . . . . . . . . . . . . . . . . 211
Índice general
9
10.4. Instrumentos débiles . . . . . . . . . . . . . . . . . 216
10.5. Estimador de Wald . . . . . . . . . . . . . . . . . . 222
11. Máxima Verosimilitud
226
11.1. Estimación . . . . . . . . . . . . . . . . . . . . . . . 226
11.2. La cota inferior de Cramer-Rao . . . . . . . . . . . 235
11.3. Propiedades asintóticas . . . . . . . . . . . . . . . . 238
Apéndices
Ga
ll
ar
A. Elementos de teorı́a de la probabilidad
do
11.4. Computación . . . . . . . . . . . . . . . . . . . . . 241
244
245
B. Elementos de estadı́stica
290
C. Distribuciones usuales
306
Le
ón
&
Bibliografı́a
311
Capı́tulo 1
do
Álgebra Matricial
Ga
ll
ar
El álgebra matricial es una herramienta de gran utilidad
en econometrı́a y, en general, en economı́a. Este capı́tulo tiene
como objetivo presentar de manera resumida dicha herramienta,
manteniendo el rigor matemático y proveyendo ejemplos de
aplicación en economı́a. El enfoque es más práctico y se invita al
lector a ahondar en temas subyacentes, como lo son el Álgebra
Lineal o el Análisis en Espacios Vectoriales Normados. Véase por
ejemplo Axler (2015), Simon and Blume (1994) o Chavez and
&
Gallardo (2024).
La organización de este capı́tulo es la siguiente: en una primera
instancia, se definirán las diversas propiedades sobre el álgebra de
Le
ón
matrices. Enseguida, se presentarán propiedades de las matrices de
gran interés práctico: matriz transpuesta y rango de una matriz.
Luego, se abordarán las nociones de matriz inversa y determinante.
Finalmente, se estudiarán algunas aplicaciones de los conceptos
teóricos abordados en este capı́tulo.
1
Capı́tulo 1. Álgebra Matricial
1.1.
2
Matrices y operaciones
Definición 1.1.1. Una matriz, es un arreglo rectangular con
entradas reales1 :
a11 a12
a
21 a22
A ≜ [aij ] = .
..
..
.
am1 · · ·
· · · a1n
· · · a2n
.
..
...
.
· · · amn
columna del arreglo.
Ga
ll
ar
Ejemplo 1. Considere la siguiente matriz
1
0
2
.
A=
3π
ln(2,5)
−1,8
√
2
100
e
2 π
do
El elemento (aij ) denota al elemento de la i−ésima fila y j−ésima
Entonces, por ejemplo, a11 = 1, a21 = 3π y a33 = 100.
Definición 1.1.2. Una matriz tiene dimensión m × n cuando
el número de filas de dicha matriz es m ∈ N, y su número
&
de columnas es n ∈ N. El espacio de matrices (o conjunto de
matrices) de dimensión m × n, con entradas reales, se denota
1
Le
ón
Mm×n 2 . Eventualmente, si A ∈ Mm×n , se escribe A ≜ Am×n .
Si bien las entradas podrı́an tener elementos de C, funciones etc., nos
limitamos al estudio de matrices con entradas aij ∈ R.
2
Este conjunto es un espacio vectorial. Este concepto no se aborda en este
capı́tulo, pero puede ser de gran interés para el lector y se le invita a consultar
bibliografı́a relacionada al Álgebra Lineal. Véase Axler (2015) o Chavez and
Gallardo (2024).
Capı́tulo 1. Álgebra Matricial
3
Ejemplo 2. Sean las matrices:
1
5
8
9,4 0,2 3,2
.
A=
3,5 −6 , B =
10550 103 97 1,2
1,2 7
La matriz A tiene dimensión 3 × 2 mientras que la matriz B tiene
dimensión 2 × 4.
Enseguida, presentaremos algunas propiedades de las operaciones
finalmente, la multiplicación entre matrices.
do
usuales3 con matrices: la suma, multiplicación por escalar, y
Definición 1.1.3. Sean dos matrices A y B. Si estas matrices
Ga
ll
ar
tienen misma dimensión, es decir, si tienen el mismo número de
filas y el mismo número de columnas, definimos de la siguiente
Le
ón
&
manera la suma A + B:
b11 b12 · · · b1n
a11 a12 · · · a1n
a
b
b
·
·
·
b
a
·
·
·
a
2n
22
2n
21 22
21
+
A+B = .
.. . .
..
.. . .
..
..
...
.
.
.
.
.
.
bm1 · · · · · · bmn
am1 · · · · · · amn
a11 + b11 a12 + b12 · · · a1n + b1n
a +b
a
+
b
·
·
·
a
+
b
21
21
22
22
2n
2n
=
.
..
..
..
..
.
.
.
.
am1 + bm1
···
· · · amn + bmn
Por como se ha definido la suma entre matrices, claramente
A + B = B + A. Es decir, la suma entre matrices es una operación
conmutativa.
3
Existen otras como el producto Kronecker. Sin embargo, no lo estudiamos
en este texto.
Capı́tulo 1. Álgebra Matricial
4
Ejemplo 3. Considere las siguientes matrices
4
0 5,6
4 4,2
0
, B = 0 0,8 −2,4
A=
0,5
1
−2
0 4,7 3
0,3 2
11
2,3 2 1,3
.
yC=
54 88 1
Las matrices A y B tienen la misma dimensión (3×3), pero la matriz
do
C tiene dimensión 2 × 3. Por ende, pueden sumarse las matrices A
Ga
ll
ar
y B, pero no pueden ser sumadas con la matriz C. En este caso
8 4,2 5,6
A+B =
0,5 1,8 −4,4 .
0,3 6,7 14
La suma entre matrices es una operación asociativa. Esto es, si
se tienen 3 matrices A, B y C cuya dimensión es la misma, entonces
(A + B) + C = A + (B + C).
La matriz nula 0 de dimensión m×n, que corresponde a la matriz
cuyas entradas son iguales a cero, cumple la siguiente propiedad:
Le
ón
&
A + 0 = 0 + A = A.
0 0
a11 a12 · · · a1n
a
21 a22 · · · a2n 0 0
+
.
.. . .
..
..
... ...
.
.
.
0 ···
am1 · · · · · · amn
a11 a12
··· 0
· · · 0
a21 a22
= .
..
. . ..
.
. .
.
.
am1 · · ·
··· 0
· · · a1n
· · · a2n
.
..
..
.
.
· · · amn
Definamos ahora el producto de una matriz por un escalar.
Capı́tulo 1. Álgebra Matricial
5
Definición 1.1.4. Sea A ∈ Mm×n y α ∈ R. Definimos α · A = A · α
de la siguiente manera:
a11 a12 · · · a1n
αa11 αa12
a
21 a22 · · · a2n αa21 αa22
α·A=α· .
=
.. . .
..
..
..
...
.
.
.
.
am1 · · · · · · amn
αam1 · · ·
· · · αa1n
· · · αa2n
.
..
..
.
.
· · · αamn
matrices A y B como la suma de A con (−1) · B.
Ejemplo 4. Sea α = 5 y
−2
4
Ga
ll
ar
Entonces,
5,4
.
A=
−7432 88 2,1 0,3
3
do
Definiendo esta operación, podemos definir la resta de dos
15
−10 20 27
.
αA = 5A =
−37160 440 10,5 1,5
La multiplicación entre matrices es una operación más delicada
pues, a diferencia de los números, no es conmutativa y no siempre
&
puede efectuarse. Veamos.
Sean A ∈ Mm×n y B ∈ Mℓ×p dos matrices . Las matrices A y
Le
ón
B pueden multiplicarse en el sentido A × B, solo si n = ℓ.
Ejemplo 5. Sean las matrices,
5
4
5 12 −14 3
, B =
, C = 4 −1 .
A=
1
−3
−2 1
9 8
−18 11
Capı́tulo 1. Álgebra Matricial
6
Obsérvese que A ∈ M3×2 , B ∈ M2×4 y C ∈ M1×2 . Las
únicas multiplicaciones entre matrices posibles son A3×2 × B2×4 y
C1×2 × B2×4 .
Ya hemos visto cual es la condición necesaria para que puedan
multiplicarse dos matrices, esto es, que el número de columnas de
A sea igual al número de filas de B. Veamos ahora como se ejecuta
el producto matricial.
do
Definición 1.1.5. Formalmente, la multiplicación de dos matrices
se define de la siguiente forma:
Ga
ll
ar
Sea Am×n = (aij ) con 1 ≤ i ≤ m y 1 ≤ j ≤ n.
Sea Bn×p = (bij ) con 1 ≤ i ≤ n y 1 ≤ j ≤ p.
Entonces, C = A × B corresponde a la matriz cuyas entradas
están dadas por
cij =
m
X
aik bkj .
Le
ón
&
k=1
Figura 1.1 Multiplicación de matrices (1).
Capı́tulo 1. Álgebra Matricial
7
1·1+2·4=9
1
3
5
2
4
6
·
1
4
9
12
3
= 19
6
29
2
5
26
40
15
33
51
Figura 1.2 Multiplicación de matrices (2).
do
Note que si tenemos dos matrices A ∈ Mm×n y B ∈ Mn×p , el
producto C, es decir, la matriz generada por la multiplicación de A
Ejemplo 6. Sean
Entonces:
Ga
ll
ar
con B, pertenece a Mm×p .
5 6 1
.
A=
−2 15 y B =
3 4 2
3 8
1
10
5 6 1
A×B =
−2 15 ×
3 4 2
3 8
1 · 5 + 10 · 3
1 · 6 + 10 · 4
1 · 1 + 10 · 2
=
−2 · 5 + 15 · 3 −2 · 6 + 25 · 4 −2 · 1 + 15 · 2 .
3·5+8·3
3·6+8·4
3·1+8·2
10
Le
ón
&
1
Finalmente, operando, obtenemos
35 46 21
.
C =A×B =
35
48
28
39 50 19
Capı́tulo 1. Álgebra Matricial
8
El caso particular de matrices A ∈ M1×n y B ∈ Mn×1 son de
interés pues cuando se multiplica A × B, se obtiene la operación
producto interno entre dos vectores, la cual corresponde en Rn a
y1
n
y2
X
A × B = x1 x2 · · · xn × . ≜ x · y =
xi y i .
..
i=1
yn
do
Ya hemos mencionado que el producto matricial es una
operación delicada y más compleja que las operaciones usuales en
R. Sin embargo, también mencionamos que no es lo mismo, dadas
Ga
ll
ar
dos matrices A y B, efectuar A × B que B × A. Más aún, puede
ocurrir que no sea posible efectuar B×A, siendo sin embargo posible
efectuar A × B. No obstante, en caso sea posible, puede darse que
A × B ̸= B × A. Veamos.
Ejemplo 7. Considere las siguientes matrices
1 1
1 0
, B =
.
A=
3 2
−1 2
&
Si bien
A×B =
0 2
B×A=
1 1
Le
ón
tenemos que
1 4
5 3
,
.
Terminamos esta sección presentando 3 tipos de matrices que serán
de utilidad a continuación:
Capı́tulo 1. Álgebra Matricial
9
1. La matriz identidad I: una matriz cuyas entradas son cero
salvo en la diagonal, donde valen uno:
1 0 ··· 0
.
0 . . . . . ...
I = . .
.
.. . . 1 0
0 ··· 0 1
Obsérvese que cuando se multiplica esta matriz por una
multiplicación sea posible).
do
matriz A, se obtiene la misma matriz A (siempre y cuando la
Ga
ll
ar
2. Las matrices simétricas: matrices cuyas entradas son las
mismas en las coordenadas aij y aji . Por ejemplo:
a11 a12 a13 a14
a
a
a
a
12 22 23 24
A=
.
a13 a23 233 a34
a14 a24 a34 a44
3. Las matrices triangulares superiores4 : las matrices cuyas
Le
ón
&
entradas son iguales a cero por debajo de la diagonal:
t11 t12
···
t1n
..
0 ...
.
t
2n
T= . .
.
..
. . tn−1,n−1 tn−1,n
0 ···
0
tnn
En los casos anteriores, las matrices han sido cuadradas, i.e., el
número de filas es igual al número de columnas. De no haber sido
4
La definición es análoga para las matrices triangulares inferiores.
Capı́tulo 1. Álgebra Matricial
10
el caso, las definiciones pierden sentido. Note también que dadas 2
matrices cuadradas A y B de misma dimensión, siempre es posible
multiplicar A con B ası́ como B con A.
Ejemplo 8. La matriz Q
Q=
a b
c d
Matriz transpuesta y rango
Ga
ll
ar
1.2.
do
es una matriz cuadrada de orden 2 × 2.
En esta sección presentaremos las nociones de matriz transpuesta y rango, centrales para el desarrollo de la teorı́a de las matrices
no singulares (invertibles).
Definición 1.2.1. La transpuesta de una matriz Am×n , es la matriz
que se obtiene al intercambiar las filas y columnas de la matriz
A. Esta matriz se denota usualmente como AT . De manera más
analı́tica, la entrada aij toma el valor aji y la entrada aji toma
&
el valor aij . Más aún, si la matriz era de dimensión m × n, su
transpuesta será de dimensión n × m.
Le
ón
Ejemplo 9. Sean las matrices
a11 a12 a13 a14
a
a
a
a
b
b
b
b
11
12
13
14
21 22 23 24
.
A=
yB=
a31 a32 a33 a34
b
b
b
b
21
22
23
24
a41 a42 a43 a44
Capı́tulo 1. Álgebra Matricial
Entonces sus transpuestas son, respectivamente
a11 a21 a31 a41
b11
b
a
12 a22 a32 a42
12
T
AT =
y
B
=
a13 a23 a33 a43
b13
a14 a24 a34 a44
b14
11
b21
b22
.
b23
b24
Note que si tenemos una matriz A ∈ Mm×n , entonces,
multiplicarla por su transpuesta, siempre genera una matriz
A × AT = Qm×m
Ga
ll
ar
AT × A = Pn×n .
do
cuadrada. En este caso
Teorema 1. Sean A, B ∈ Mm×n y α ∈ R. Entonces
(A + B)T = AT + B T .
(A − B)T = AT − B T .
(AT )T = A.
&
(αA) = αAT .
Estas propiedades pueden ser probadas directamente y las
dejamos como ejercicios para el lector interesado. El siguiente
Le
ón
resultado sin embargo, es menos directo y por ello su prueba es
desarrollada.
Teorema 2. Sean A ∈ Mm×n y B ∈ Mn×p . Entonces
(AB)T = B T AT .
Capı́tulo 1. Álgebra Matricial
12
Demostración. Permı́tanos denotar (C)ij = cij . Tenemos entonces
((AB)T )ij = (AB)ji
X
=
ajk bki
k
=
X
(AT )kj (B T )ik
k
=
X
(B T )ik (AT )kj
k
do
= (B T AT )ij .
Ga
ll
ar
Ejemplo 10. Sean A y B las siguientes matrices
b11 b12
a11 a12 a13
, B = b21 b22 .
A=
a21 a22 a23
b31 b32
&
Mediante un cálculo directo de A × B obtenemos
a11 b11 + a12 b21 + a13 b31 a11 b12 + a12 b22 + a13 b32
.
AB =
a21 b11 + a22 b21 + a23 b31 a21 b12 + a22 b22 + a23 b32
Le
ón
Transponiendo, obtenemos
a11 b11 + a12 b21 + a13 b31 a21 b11 + a22 b21 + a23 b31
.
(AB)T =
a11 b12 + a12 b22 + a13 b32 a21 b12 + a22 b22 + a23 b32
Capı́tulo 1. Álgebra Matricial
13
Ahora, por otro lado,
a11 a21
b11 b21 b31
× a12 a22
B T AT =
b12 b22 b32
a13 a23
a11 b11 + a12 b21 + a13 b31 a21 b11 + a22 b21 + a23 b31
.
=
a11 b12 + a12 b22 + a13 b32 a21 b12 + a22 b22 + a23 b32
Ya habiendo expuesto la noción y propiedades de la matriz
do
transpuesta, seguimos con el concepto de rango de una matriz.
Definición 1.2.2. Decimos que los vectores {vℓ }nℓ=1 son linealmente
Ga
ll
ar
independientes (l.i.) si no existen escalares γ1 , ..., γn diferentes a cero
tales que
n
X
γℓ vℓ = 0.
ℓ=1
Contrariamente, si los vectores {vℓ }nℓ=1 son linealmente dependientes (l.d.), entonces existen γ1 , ..., γn no todos iguales a cero, tales
que
n
X
γℓ vℓ = 0.
ℓ=1
&
Alternativamente, existe al menos un vector vj en el conjunto de
Le
ón
vectores {vℓ }nℓ=1 que es combinación lineal del resto:
vj =
X
θℓ vℓ .
ℓ̸=j
Note que si la colección de vectores {vℓ }nℓ=1 contiene al vector
nulo, siempre es l.d.
Capı́tulo 1. Álgebra Matricial
14
Definición 1.2.3. El rango de una matriz Am×n corresponde al
número de columnas (o filas) linealmente independientes. Esto es,
si identificamos cada columna de la matriz A como vector en Rm :
a11 · · · a1j · · · a1n
a1j
a
a
21 · · · a2j · · · a2n
2j
A= .
=⇒ vj = .
..
..
..
..
..
.
.
.
am1 · · · amj · · · amn
amj
do
entonces el rango de A es el número de vectores vj linealmente
independientes. Note que, en cualquier caso, el rango será menor o
Ejemplo 11. Sea
Ga
ll
ar
igual a N = mı́n{m, n}.
2 1 3 0
.
A=
5
2
7
0
4 1 5 0
Vemos que la tercera columna es combinación lineal de las dos
2
1
3
5 + 2 = 7 .
4
1
5
&
primeras:
Por otro lado, la cuarta columna es combinación lineal del resto
2
1
3
5 + 2 − 7 = 03×1 .
5
1
4
Le
ón
también pues,
Finalmente, como la columna 1 no es múltiplo de la segunda, el
rango de la matriz A es 2.
Capı́tulo 1. Álgebra Matricial
1.3.
15
Matriz inversa y determinante
En el caso de los números reales, si tenemos x ∈ R, con x ̸= 0,
podemos encontrar un número y tal que xy = yx = 1. Este número
y = x−1 = x1 es conocido como la inversa de x. En el caso de las
matrices, existe una idea muy similar. Dada una matriz A ∈ Mm×n
nos preguntamos cuando es posible encontrar una matriz B tal que
A × B = B × A = I. Recordemos que una propiedad de interés
A ∈ Mn×n :
I × A = A × I = A.
do
de la matriz identidad I ∈ Mn×n es que, para cualquier matriz
Ga
ll
ar
Puesto que deseamos poder realizar la multiplicación A × B tanto
como la multiplicación B×A, la matrices A y B deben ser cuadradas
y de misma dimensión n × n. La matriz identidad resultante tendrá
entonces orden n × n: I ≜ In×n .
Definición 1.3.1. Dada una matriz A ∈ Mn×n , si B ∈ Mn×n es
tal que
A × B = B × A = I,
&
entonces la matriz B es la matriz inversa de A, y se denota A−1 .
Ciertamente, puede que dicha matriz A−1 no exista. Nos pre-
Le
ón
guntamos entonces ¿cuándo existe la matriz A−1 ? Para responder
esta pregunta, es necesario definir el concepto de determinante de
una matriz.
Definición 1.3.2. Sea A ≜ (aij ) ∈ Mn×n (R), definimos la
aplicación
det : Mn×n (R) → R,
Capı́tulo 1. Álgebra Matricial
16
conocida como determinante, de manera recursiva tal y como sigue:
Si n = 1, det(A) = |A| = a11 .
Si n > 1, definimos Aij como la matriz que corresponde a la
matriz A eliminando la fila i y la columna j 5 :
|A| = a11 |A11 | + ... + (−1)k+1 a1k |A1k | + ... + (−1)n+1 a1n |A1n |.
Ga
ll
ar
a11 · · · a1n
. .
..
. . ...
A=
an1 · · · an
do
Dada una matriz A,
usualmente se denota su determinante de la manera siguiente:
a11 · · · a1n
.
.
|A| = .. . . . .. .
an1 · · ·
Le
ón
Ejemplo 12. Sea
&
Es decir, det(A) ≜ |A|.
A=
a b
an
.
c d
Entonces, su determinante estará dado por
5
|A| = ad − bc.
Note que Aij ∈ Mn−1×n−1 (R).
Capı́tulo 1. Álgebra Matricial
Ejemplo 13. Sea
17
1 −2
B=
2
1
1
5
3
−1
.
2
Entonces, su determinante estará dado por
|B| = 1
1 −1
5
2
− (−2)
2 −1
1
2
+3
2 1
= 44.
1 5
do
La teorı́a del determinante de una matriz se extiende mucho
más allá de los ejemplo prácticos y la definición brindada. Se
puede ahondar desde la perspectiva de las formas multilineales
Ga
ll
ar
alternadas, introduciendo el concepto de permutación. Sin embargo,
este no es el objetivo ni será necesario para los siguiente capı́tulos.
El lector interesado puede consultar Girfone (2018) o Roman
(2008). Enseguida, vamos a presentar las principales propiedades
del determinante. Luego, usando esta nueva herramienta, podremos
caracterizar de manera sistemática el concepto de matriz invertible
y de matriz inversa.
&
Teorema 3. Sean A, B ∈ M(R), α ∈ R. Entonces
det(AB) = det(A) · det(B).
Le
ón
1
|A−1 | = |A|
.
|A| = (−1)p |σp (A)| donde σp (A) corresponde a la matriz que
se genera vı́a la permutación (intercambio) de columnas de la
Capı́tulo 1. Álgebra Matricial
18
matriz inicial A, siendo p el número de cambios. 6
|αA| = αn A.
|A| = |AΣi |, donde AΣi es la matriz A cuyas columnas corresponden a las columnas iniciales sumándoles combinaciones lineales de las otras.7 El mismo razonamiento se aplica al caso
de las filas.
La prueba de estas propiedades son consecuencia directa de
do
la Definición 1.3.2. Dado el enfoque de este texto, se deja como
ejercicio para el lector interesado demostrar las propiedades. Como
Ga
ll
ar
sugerencia, aplique inducción.
Definición 1.3.3. Una matriz es invertible o no singular si su
determinante es diferente de cero.
Definición 1.3.4. La matriz de cofactores asociada a una matriz
Por ejemplo
A=
7
1
4
3
−2
Por ejemplo,
2
4
−2
Le
ón
A=
3
1
0
, σp=1 (A) =
&
6
7
2
5 , AΣi = 3
2
1
4
−2
13
6
3
1
.
3
7
5
.
2
La matriz AΣi es prácticamente idéntica a la matriz A salvo que a la columna 2
se le sumó (vectorialmente) las columnas 1 y 3. Obsérvese que en ambos casos
el determinante es igual a 2.
Capı́tulo 1. Álgebra Matricial
19
A está definida de la siguiente manera8 :
[cof(A)]ij = (−1)i+j |Aij |.
Entonces,
2 4
.
A=
3
5
1
−1 2 3
1
[cof(A)]11 = (−1)1+1
5 1
= 13.
2 3
do
Ejemplo 14. Sea
Ga
ll
ar
Definición 1.3.5. Si A ∈ Mn×n es invertible, entonces su inversa
A−1 se define de la manera siguiente
A−1 =
1
cof(A)T .
|A|
&
Ejemplo 15. Sea por ejemplo la matriz
1 0 1
.
A=
4
3
1
1 2 4
Primero, calculamos el determinante y verificamos que no sea igual
a cero
8
3 1
Le
ón
|A| = 1
2 4
−0
4 1
1 4
+1
4 3
= 15.
1 2
Recordar que Aij es la matriz que resulta de eliminar la fila i y columna j
de A.
Capı́tulo 1. Álgebra Matricial
20
Enseguida, obtenemos los cofactores
[cof(A)]11 = 10
[cof(A)]12 = −15
[cof(A)]13 = 5
[cof(A)]21 = −10
[cof(A)]22 = 3
[cof(A)]31 = −3
[cof(A)]32 = 3
Ga
ll
ar
[cof(A)]33 = 3.
do
[cof(A)]23 = −2
Luego, la matriz de cofactores serı́a:
10 −15 5
.
cof(A) =
−10
3
−2
−3
3
3
Transponemos:
−10 −3
.
[cof(A)]T =
−15
3
3
5
−2 3
10
Le
ón
&
Finalmente, multiplicando por 1/|A|, se obtiene la inversa de A:
−1/5
A−1 =
1/5
1/5
−1
.
1/3 −2/15 1/5
2/3
2/15
Capı́tulo 1. Álgebra Matricial
21
Terminamos esta sección con una definición que es de gran utilidad
en la práctica. En la última sección, a través de tres ejemplos de
interés, exhibiremos 3 como las herramientas presentadas hasta el
momento son empleadas en el contexto económico.
Definición 1.3.6. Se dice que dos matrices A, B ∈ Mn×n son
semejantes si existe una matriz P no singular tal que
Note que dadas dos matrices semejantes,
Ga
ll
ar
det(A) = det(B).
do
P −1 AP = B.
En efecto, existe P invertible tal que
det(A) = det(P −1 BP ) = det(P −1 )det(B)det(P )
1
det(B)det(P ) = det(B).
=
det(P )
Con esto, hemos concluido nuestro breve repaso sobre el
determinante de una matriz y la inversa de una matriz. A
continuación, pasamos a las aplicaciones de estas herramientas, y
&
con ello, concluimos este breve capı́tulo.
Aplicaciones
Le
ón
1.4.
Si bien existen numerosas aplicaciones de la teorı́a desarrollada
en las secciones previas, presentamos tres que aparecen frecuentemente en la práctica. Empezamos con la aplicación en la determinación de conjuntos de vectores l.i.
Capı́tulo 1. Álgebra Matricial
22
Dado un conjunto finito de vectores {vℓ }nℓ=1 ∈ Rn , podemos
verificar que este conjunto es linealmente independiente definiendo
la matriz A como la matriz cuyas columnas corresponden a estos
vectores
h
i
A = v1 v2 · · · vn
do
y verificando que su determinante es diferente de 0.
1
2
Ejemplo 16. Sean los vectores v1 = y v2 = . Entonces,
2
4
1 2
.
A=
2 4
Ga
ll
ar
Calculando, se observa que |A| = 0. Uno puede verificar que, en
efecto, los vectores no son linealmente independientes pues v2 = 2v1 .
1
2
Ejemplo 17. Sean ahora los vectores v1 = y v2 = .
3
4
Tenemos que
A=
1 2
3 4
.
Luego, |A| = −1. Uno puede verificar que, en efecto, los vectores son
&
linealmente independientes pues no existe α ∈ R tal que v2 = αv1 .
Veamos ahora el tema de la resolución de sistemas lineales, es
Le
ón
decir, ecuaciones del tipo:
a11 x1 + ... + a1n xn = y1
a21 x1 + ... + a2n xn = y2
..
.
an1 x1 + ... + ann xn = yn .
Capı́tulo 1. Álgebra Matricial
23
Lo primero que se observa es que este tipo sistemas pueden
expresarse de la manera siguiente,
Ax = y
do
siendo x = (x1 , ..., xn )T (desconocido), y = (y1 , ..., yn )T (dato) y9
a11 a12 · · · a1n
a
a
·
·
·
a
21
22
2n
A= .
.
.. . .
..
..
.
.
.
an1 an2 · · · ann
Si |A| =
̸ 0, entonces el sistema puede resolverse, y su solución será:
Ga
ll
ar
x = A−1 y.
Ejemplo 18. Considere el siguiente sistema de ecuaciones lineales
2x1 + 3x2 − x3 = 1
4x1 + 2x3 = 2
x1 + x2 = 1.
Le
ón
&
Este sistema se expresa se la siguiente manera, de forma matricial:
y1
x1
2 3 −1
4 0 2 x2 = y 2 .
y3
x3
1 1 0
Entonces,
−1
−3
1
−1
x=A y=
−1 −1/2 4 2 = 2 .
1
3
−2 −1/2 6
9
1
1/2
Todos los parámetros siendo conocidos.
Capı́tulo 1. Álgebra Matricial
24
Pasamos a nuestra última aplicación. Si bien el enfoque a
continuación es informal10 , nos permite apreciar la importancia de
los conceptos presentados en este capı́tulo en el contexto de la teorı́a
Dado el sistema de ecuaciones
x
a b c
j
d e f y = k ,
z
g h i
ℓ
|
{z
}
=A
se tiene que, siempre y cuando A sea invertible,
Ga
ll
ar
j b c
1
x=
k e f
|A|
ℓ h i
do
microeconómica.
a j c
1
y=
d k f
|A|
g ℓ i
&
a b j
1
z=
d e k .
|A|
g h ℓ
Le
ón
A esto se le conoce como la regla de Cramer.
Ejemplo 19. Dado el problema de maximización de la utilidad11 ,
asumiendo que se satisfacen las condiciones de Inada para la función
10
Una justificación más rigurosa hace uso del teorema de la función implı́cita,
véase de la Fuente (2000).
11
En el siguiente capı́tulo ahondamos en temas de optimización.
Capı́tulo 1. Álgebra Matricial
25
de utilidad U (x, y), el problema se escribe
máx U (x, y)
s.a. : px x + py y = I.
Deseamos conocer
dx
dx
y
. Para simplificar usamos la notación
dI dpx
∂U
∂U
= Ux , y
= Uy .
∂x
∂y
Ga
ll
ar
∂L
= Ux − λpx = 0
∂x
∂L
= Uy − λpy = 0
∂y
∂L
= I − px x − py y = 0.
∂λ
do
De las condiciones de primer orden, obtenemos el siguiente sistema
Sacando diferenciales en estas tres ecuaciones, se obtiene
d(Ux − λpx ) = Uxx dx + Uxy dy − dλpx − λdpx = 0
d(Uy − λpy ) = Uyy dy + Uyx dx − dλpy − λdpy = 0
d(I − px x − py y) = dI − dxpx − xdpx − dypy − ydpy = 0.
&
Las condiciones de Inada aseguran que los bienes son normales y
las preferencias convexas Mas-Colell et al. (1995). Por ende:
Le
ón
Uxy > 0, Uxx , Uyy < 0.
Luego, el sistema el sistema de ecuaciones se convierte en
Uxx Uxy −px
dx
λdpx
.
Uyx Uyy −py dy =
λdp
y
−px −py
0
dλ
xdpx + ydpy − dI
Capı́tulo 1. Álgebra Matricial
26
Aplicando la regla de Cramer para obtener
dx
,
dI
considerando dpx = dpy = 0 (mantener precios constantes), se
calcula
1
dx =
|A|
0
Uxy
0
Uyy
−dI −py
−px
−py ,
0
Uxx
|A| = det
Uyx
−px
Uxy
−py
Uyy
Ga
ll
ar
do
donde
−px −py
0
= −Uxx p2y + Uxy px py + Uyx px py − Uyy p2x > 0.
{z
}
|
preferencias convexas, i..e, u cuasi cóncava
Luego,
dx
Uxy py − px Uyy
=
> 0.
dI
|A|
La desigualdad se obtiene teniendo en cuenta que la utilidad marginal es decreciente en cada bien Uxx , Uyy < 0, pero las derivadas
&
cruzadas, puesto que las preferencias se suponen convexas, son positivas Uxy , Uyx > 0 Mas-Colell et al. (1995).
dx
, considerando dpy = dI = 0
dpx
Le
ón
En relación a
1
dx =
|A|
λdpx Uxy
0
Uyy
xdpx −py
−px
−py .
0
Capı́tulo 1. Álgebra Matricial
27
Expandiendo el determinante del numerador,
−λp2y − xpy Uxy + xpx Uxx
dx
=
dpx
|A|
2
−λpy + x(Uyy px − Uxy py )
=
|A|
2
λpy
dx
=−
−x
< 0.
|A|
dI
Esta ecuación indica que cuando el precio de un bien aumenta, la
do
demanda por este bien se ve reducida por un efecto sustitución y
un efecto ingreso12 .
Ga
ll
ar
Si bien ya hemos concluido con los conceptos de álgebra
matricial que serán requeridos a continuación, existe aún una vasta
cantidad de tópicos por explorar. Estos, fundamentan algunos de
los resultados que serán obtenidos en capı́tulos posteriores, pero van
más allá del alcance de este libro. Por ejemplo, la diagonalización
de matrices, la ortogonalización de vectores, la descomposición
polar, la forma canónica de Jordan, etc. Estos temas pueden ser
explorados en Chavez and Gallardo (2024), Axler (2015) o Roman
(2008). Con respecto a los aspectos computacionales y numéricos
&
del álgebra matricial, la literatura es extensa y el estado del arte en
constante movimiento, ver por ejemplo Kalai et al. (2023). Entre
Le
ón
los métodos numéricos más relevantes, se pueden mencionar las
descomposiciones LU , QR y SV D, todas orientadas a resolver de
manera eficiente sistemas de ecuaciones de la forma Ax = b, ver
Suli and Mayers (2003); Quarteroni et al. (2000).
12
Este resultado gana en interpretación cuando se deriva la ecuación de
Slutsky.
Capı́tulo 1. Álgebra Matricial
28
En el siguiente capı́tulo, se abordarán otras herramientas que
serán de gran utilidad en los capı́tulos destinados propiamente a
la teorı́a econométrica. En concreto, en el siguiente capı́tulo se
discutirán los fundamentos de la optimización estática. Para una
Le
ón
&
Ga
ll
ar
do
discusión más detallada, consultar Sundaram (1996).
Capı́tulo 2
do
Fundamentos de
Ga
ll
ar
Optimización Estática
La optimización es una de las ramas más activas e importantes
de la matemática aplicada pues, sus aplicaciones en diversas
disciplinas, como la economı́a o la fı́sica, son de gran amplitud. En
este capı́tulo, haremos un repaso bastante breve de las principales
técnicas de optimización que serán muy útiles en el desarrollo de
futuros capı́tulos.
&
El famoso matemático Leonhard Euler (1707 - 1783) mencionó
que la noción de mı́nimo y máximo aparece naturalmente en la
gran mayorı́a de acontecimientos en el universo. Ciertamente Euler
Le
ón
hacı́a referencia a las aplicaciones en la fı́sica, pero, como veremos
más adelante, Euler acertó también en el cuadro de la economı́a.
Desde el problema de maximización de la utilidad hasta la recta de
mı́nimos cuadrados, los mı́nimos y máximos son de gran interés en
las diversas ramas de esta ciencia social.
29
Capı́tulo 2. Fundamentos de Optimización Estática
30
En una primera instancia, analizamos el caso de funciones a
variable real. Luego, extendemos el análisis a las funciones de varias
variables. Ciertamente, este capı́tulo juega el rol de un breve repaso
y no tiene intenciones de realizar una presentación exhaustiva o
integral de la teorı́a de la optimización1 . Para estudiar estos tópicos
con mayor profunidad, invitamos al lector interesado revisar Simon
and Blume (1994) o Sundaram (1996).
Funciones de variable real
do
2.1.
En esta sección consideramos funciones de variable real: f : R → R,
2
Ga
ll
ar
que son de clase C 2 , es decir, con segunda derivada ddxf2 = f ′′ (x)
continua. Nuestro objetivo será resolver
opt f (x)
s.a : x ∈ X ⊂ R.
Acá opt puede significar max o min. La pregunta de interés a
continuación es, dada una función y = f (x) con x ∈ [a, b] = I ≜
otro x ∈ X? Es decir:
&
X ⊂ R, ¿cómo encontrar x∗ ∈ I tal que f (x∗ ) ≥ f (x) para cualquier
Le
ón
f (x∗ ) = máx f (x).
a≤x≤b
Además, es muy pertinente preguntarse si dicho x∗ existe2 .
1
El lector interesado puede profundizar consultando Boyd and Vanden-
berghe (2004) o Lenberger and Ye (2021).
2
Al ser I un intervalo cerrado, es compacto en la topologı́a usual de R. Como
f es continua (pues es C 2 ) el problema de optimización tiene solución por el
Capı́tulo 2. Fundamentos de Optimización Estática
31
Teorema 4. Bajo los supuestos hechos sobre la función f y
suponiendo que el máximo existe y es tal que x∗ ∈ (a, b) (es decir
que x∗ pertenezca al interior del intervalo), entonces
f ′ (x∗ ) = 0.
Demostración. Por un lado, sabemos que, para ϵ > 0 suficiente-
f (x∗ + ε) ≤ f (x∗ )
f (x∗ − ε) ≤ f (x∗ ).
do
mente chico,
Ga
ll
ar
Dividiendo entre ϵ y haciendo ϵ → 0, concluimos que
f ′ (x∗ ) ≥ 0
f ′ (x∗ ) ≤ 0.
Es decir, f ′ (x∗ ) = 0.
El caso de un mı́nimo es análogo. Al Teorema 4 se le conoce
como Condición de Primer Orden.
Por el Teorema de Weierstrass (véase de la Fuente (2000)), dado
&
que [a, b] es compacto y f (·) continua, siempre existe un mı́nimo
y un máximo. Entonces, para encontrar dichos puntos, se obtiene
x∗ tal que f ′ (x∗ ) = 0 (pueden ser ciertamente varios puntos que
Le
ón
cumplan con esta condición), y se compara f (x∗ ) con f (a) y f (b).
Ejemplo 20. Sea f (x) = 1 − x2 . Ciertamente, como x2 ≥ 0 para
todo x ∈ R, máxx∈R f (x) = 1 y esto se obtiene en x∗ = 0. Por otro
teorema de Weierstrass. Para mayores desarrollos de este teorema, ver Abbott
(2015) para el caso uni-dimensional, y de la Fuente (2000) para el caso general.
Capı́tulo 2. Fundamentos de Optimización Estática
32
lado, f ′ (x∗ ) = 0:
f ′ (x∗ ) =
df
= −2x|x=0 = 0,
dx x=0
Ga
ll
ar
do
lo cual, de cierta forma, verifica el Teorema 4.
Figura 2.1 Función cuadrática.
Ejemplo 21. La función de costo total de un fabricante está dada
por:
C(q) =
q2
+ 3q + 400.
4
&
Acá C es el costo total de producir q unidades. ¿Para qué nivel de
producción q ∗ será el costo promedio por unidad mı́nimo? Como el
Le
ón
costo promedio por unidad es
C
q
400
= +3+
,
q
4
q
Capı́tulo 2. Fundamentos de Optimización Estática
33
para obtener el candidato a mı́nimo derivamos e igualamos a cero
d C
d q
400
=
+3+
dq q
dq 4
q
1 400
= − 2
4
q
2
q − 1600
= 0.
=
4q 2
Ga
ll
ar
do
Obtenemos q ∗ = ±40. Como q ≥ 0, nos quedamos con q ∗ = 40.
Figura 2.2 Función de costo medio.
Condición de segundo orden
&
2.1.1.
La condición de primer orden es una condición necesaria más
Le
ón
no suficiente. Es decir, si x∗ es un punto interior de X (véase la
definición de punto interior en de la Fuente (2000)) y es un máximo
(o mı́nimo), entonces f ′ (x∗ ) = 0. Sin embargo, no necesariamente
f ′ (x∗ ) = 0 implica que x∗ sea un óptimo. Más aún, el máximo o
mı́nimo puede encontrarse en el borde de X (extremos del intervalo
en caso X = I sea un intervalo acotado de la recta).
Capı́tulo 2. Fundamentos de Optimización Estática
34
Ejemplo 22. Sea f (x) = x3 e X = I = [−1, 1] ⊂ R. Ciertamente,
el máximo de la función es alcanzado en x = 1. Sin embargo,
f ′ (0) = 0.
El ejemplo anterior nos muestra que necesitamos condiciones
adicionales que aseguren que x∗ , tal que f ′ (x∗ ) = 0, sea un óptimo.
Teorema 5. Sea f : I ⊂ R → R una función dos veces diferenciable
en su interior. Entonces:
do
Si f ′ (x∗ ) = 0 y f ′′ (x∗ ) > 0, con x∗ ∈ I, entonces x∗ es un
mı́nimo local3 .
Ga
ll
ar
Si f ′ (x∗ ) = 0 y f ′′ (x∗ ) < 0, con x∗ ∈ I, entonces x∗ es un
máximo local.
Un criterio que permite analizar si se trata de un óptimo global
(sobre todo X) pasa por analiza la convexidad o concavidad de la
función. Al final de este capı́tulo se hará un breve comentario al
respecto.
Ejemplo 23. Sea nuevamente f (x) = 1 − x2 . Verifiquemos
&
mediante el último criterio que x∗ = 0 es un candidato a máximo
Le
ón
local. De acuerdo con la Teorema 5, como
d2 f
= −2 < 0,
dx2
x∗ = 0 es un máximo local.
3
La palabra local hace alusión a que nos movemos en una vecindad, i.e., un
intervalo abierto I = (x∗ − δ, x∗ + δ), del punto x∗ , para cierto δ > 0.
Capı́tulo 2. Fundamentos de Optimización Estática
35
Ejemplo 24. En estadı́stica, una de las distribuciones más
importantes es la distribución normal. La función de densidad4
asociada a esta distribución es
(x−µ)2
1
f (x) = √
e− 2σ2 ,
2πσ 2
donde µ es la media y σ 2 la varianza. Podemos verificar fácilmente
que x∗ = µ es un candidato a óptimo (máximo) local para f (x). En
efecto,
2
(x − µ)f (x)
(x − µ) − (x−µ)
√
e 2σ2 = −
.
σ2
σ 2 2πσ 2
Luego, evaluando en x∗ = µ, se obtiene f ′ (x∗ ) = 0. Ahora
do
f ′ (x) = −
Ga
ll
ar
bien, por medio del Teorema 5 podemos determinar que se trata
efectivamente de un máximo. Para esto, calculamos
f ′′ (x) = −
f (x) (x − µ)2 f (x)
−
.
σ2
σ4
Evaluando nuevamente en x∗ = µ, puesto que5
f ′′ (µ) = −
f (µ)
< 0,
σ2
concluimos entonces que f alcanza un máximo local cuando x es
igual a µ6 .
&
En la práctica, los fenómenos usualmente dependen de más de
una variable. Por ejemplo, la utilidad del consumo de una canasta
Le
ón
de bienes depende de n bienes: x1 , ..., xn , o la producción de una
empresa depende de diferentes factores de producción como el stock
de capital K o el trabajo L. Por ende, es de gran interés abordar
el caso más general donde f : Ω ⊂ Rn → R.
4
Ver apéndice sobre probabilidad e inferencia estadı́stica.
Recordemos que f (x) > 0 para todo x ∈ R.
6
La media: X ∼ N (µ, σ 2 ), E[X] = µ.
5
Capı́tulo 2. Fundamentos de Optimización Estática
2.2.
36
Funciones de variable vectorial
El caso de funciones en varias variables es análogo al caso de una
variable con la excepción que, la variable de entrada ya no es un
número real x, si no, un vector x = (x1 , ..., xn )T . En este caso,
buscamos resolver
opt f (x)
do
s. a : x ∈ Ω ⊂ Rn .
A continuación haremos uso de la notación ∂Ω (donde Ω es un
subconjunto de Rn y ∂Ω su borde) y argmax (y argmin). El lector
Ga
ll
ar
que no conozca esta notación puede consultar Chavez and Gallardo
(2024).
Teorema 6. Si
x∗ ∈ argmaxx∈Ω⊂Rn f (x), x∗ ∈ Ω/∂Ω
T
∗
∗
= 0.
y f es diferenciable, entonces ∇f (x∗ ) = ∂f∂x(x1 ) , ..., ∂f∂x(xn )
El resultado es análogo para el x∗ ∈ argminx∈Ω⊂Rn f (x).
&
Demostración. La prueba de este resultado, que generaliza el caso
de funciones de variable real, hace uso de las aproximaciones de
funciones de varias variables por su polinomio de Taylor. Veamos.
Le
ón
Si x∗ es un máximo local, existe una vecindad V de x∗ tal que
∀ x ∈ V ∩ Ω,
f (x) ≤ f (x∗ ).
La aproximación lineal de f (x) en una vecindad del punto x∗ es
f (x∗ ) + ∇f (x∗ )T (x − x∗ ).
Capı́tulo 2. Fundamentos de Optimización Estática
37
Pero entonces, como ∀ x ∈ V ∩ Ω ⊂ V ,
f (x∗ ) ≥ f (x∗ ) + ∇f (x∗ )T (x − x∗ ),
tenemos que
∇f (x∗ )T (x − x∗ ) ≤ 0.
Luego, como ∇f (x∗ )T es la derivada en la dirección x − x∗ , si existe
x tal que
do
∇f (x∗ )T (x − x∗ ) < 0,
entonces ∇f (x∗ )T en la dirección opuesta es positiva, contradicien-
Ga
ll
ar
do el hecho que x∗ es un máximo local. Por ende,
Le
ón
&
∇f (x∗ )T = 0.
Figura 2.3 Punto rojo estacionario.
Capı́tulo 2. Fundamentos de Optimización Estática
38
El razonamiento es análogo para un mı́nimo local y en la
literatura, x∗ tal que ∇f (x∗ )T = 0, es conocido como punto
estacionario. Finalmente, permı́tanos enfatizar que, ası́ como el
Teorema 4, el Teorema 6 provee únicamente una condición necesaria
más no suficiente. Es decir, bien podrı́a tenerse ∇f (x̃) = 0 sin que
x̃ sea un óptimo7 .
Ejemplo 25. Sea f (x1 , x2 ) = x21 + x22 .
do
∇f (x1 , x2 ) = (0, 0) =⇒ (x1 , x2 ) = (0, 0).
Ahora bien, el punto (0, 0), es en efecto un mı́nimo local (incluso
Ga
ll
ar
global) como puede apreciarse en la siguiente figura. Esto puede
deducirse también analı́ticamente de la expresión de f (x1 , x2 ). En
efecto, f (x1 , x2 ) ≥ 0 sobre R2 y f (0, 0) = 0. Ası́, se verifica el
Le
ón
&
Teorema 6.
Figura 2.4 Paraboloide.
Ejemplo 26. Sea f (x1 , x2 ) = x21 −x22 . Por un lado, ∇f (0, 0) = (0, 0)
implica que x1 = x2 = 0. Sin embargo, tal y como se aprecia en la
7
Véase el Ejemplo 26.
Capı́tulo 2. Fundamentos de Optimización Estática
39
siguiente figura, el punto (0, 0) no es ni un mı́nimo ni un máximo
Ga
ll
ar
Figura 2.5 Punto silla.
do
local (en la literatura se le conoce como punto silla de hecho).
Note que, para cualquier ε > 0, f (0, ε) < 0 = f (0, 0) < f (ε, 0).
El Ejemplo 26 enfatiza que, como en el caso de funciones real
valuadas, la condición ∇f (x∗ ) = 0 no es suficiente para asegurar
que x∗ sea un óptimo. Es una condición necesaria. Más aún, es
imposible determinar si se trata de un máximo o un mı́nimo. No
obstante, el siguiente resultado permite discernir entre ambos casos
Le
ón
mı́nimo local.
&
y verificar que un punto estacionario es en efecto un máximo o
Capı́tulo 2. Fundamentos de Optimización Estática
2.2.1.
40
Condiciones de segundo orden
Definición 2.2.1. Sea f : S → R, S ⊂ Rn una función clase
C 2 (S)8 . Definimos la matriz hessiana de f como
∂2f
∂2f
· · · ∂x1 xn
∂x21
..
..
.
.
Hf = .
.
. .
2
2
∂ f
∂ f
·
·
·
∂xn x1
∂x2
n
Teorema 7. Sea A = Hf (x∗ ), la matriz Hessiana de una función
do
f evaluada en un punto estacionario x∗ , y sean λ1 , ..., λn sus valores
propios.9 Entonces:
Ga
ll
ar
Si λi > 0 para todo i, x∗ es un mı́nimo local estricto.
Si λi < 0 para todo i, x∗ es un máximo local estricto.
Si λi ≥ 0 para todo i, x∗ es un mı́nimo local.
Si λi ≤ 0 para todo i, x∗ es un máximo local.
Si existe λi > 0 y λj < 0, x∗ es un punto silla.
&
Si λi > 0 para todo i, por el Teorema Espectral Axler (2015),
para cualquier x ∈ Rn , xT (Hf (x∗ )x > 0. El resultado es análogo en
los otros casos. Diremos, respectivamente, que la matriz hessiana es
9
Sus segundas derivadas parciales son continuas.
Como la función es clase C 2 , por el Teorema de Clairaut Tao (2016), la
Le
ón
8
2
2
f
f
segundas derivadas parciales cruzadas son iguales. Es decir, ∂x∂i ∂x
= ∂x∂j ∂x
.
j
i
Por ello, la matriz es simétrica. Aplicando el Teorema Espectral Axler (2015),
se concluye que la matriz posee n valores propios diferentes. Para la definición
de valores propios, consultar Simon and Blume (1994).
Capı́tulo 2. Fundamentos de Optimización Estática
41
positiva definida, negativa definida, positiva semidefinida, negativa
semidefinida o indefinida, si xT Hf (x∗ )x > 0, xT Hf (x∗ )x < 0,
xT H(x∗ )x ≥ 0, xT Hf (x∗ )x ≤ 0 o ninguno de los casos anteriores.
Usualmente, en la práctica, muchas de las funciones tienen como
dominio Ω ⊂ R2 . En dicho caso,
∗
∗
f11 (x ) f12 (x )
.
Hf (x∗ ) =
∗
∗
f21 (x ) f22 (x )
do
Aplicando el caso general (Teorema 7) a esta situación, dónde
Hf (x∗ ) ∈ M2×2 :
Ga
ll
ar
Si f11 (x∗ ) ≥ 0, y |Hf (x∗ )| ≥ 0, x∗ es un mı́nimo local.
Si f11 (x∗ ) > 0, y |Hf (x∗ )| > 0, x∗ es un mı́nimo local estricto.
Si f11 (x) ≤ 0, y |Hf (x∗ )| ≥ 0, x∗ es un máximo local.
Si f11 (x∗ ) < 0, y |Hf (x∗ )| > 0, x∗ es un máximo local estricto.
Si |Hf (x∗ )| < 0 x∗ es un punto silla.
hoc.
&
Si el determinante es cero, debemos efectuar una análisis ad-
Le
ón
Para la prueba, véase Simon and Blume (1994).
Ejemplo 27. Considere la función f (x1 , x2 ) = x21 +x22 −2x1 −x2 +1.
Resolviendo
2x1 − 2
0
= ,
∇f (x1 , x2 ) =
2x2 − 1
0
Capı́tulo 2. Fundamentos de Optimización Estática
42
obtenemos los puntos estacionarios. En este caso, hallamos
(x∗1 , x∗2 ) = (1, 1/2). Luego, la matriz hessiana de la función, en cualquier punto, es
Hf (x∗ ) =
2 0
0 2
.
Como f11 , f22 , |H| > 0, (1, 1/2) es un mı́nimo local.
Ejemplo 28. Sea ahora f (x1 , x2 , x3 ) = −2x21 − 5x22 − x23 + 4x1 x2 +
2x2 x3 + 4. Tenemos que,
do
−4x1 + 4x2
∇f (x) = ∇f (x1 , x2 , x3 ) =
−10x2 + 4x1 + 2x3 .
Ga
ll
ar
−2x3 + 2x2
Resolviendo ∇f (x) = 0, se encuentra que el único punto
estacionario x∗ = 0. La matriz hessiana en dicho punto es
−4 4
0
.
Hf (0) =
4
−10
2
0
2 −2
Como
&
p(λ) = −λ3 − 16λ2 − 48λ − 32
2.3.
Le
ón
tiene tres raı́ces negativas, concluimos que x∗ es un máximo local.
Lagrange y Karush-Kuhn-Tucker
Previamente, se ha enfatizado que, en un problema de optimización, la variable de optimización puede estar sujeta a una serie de
Capı́tulo 2. Fundamentos de Optimización Estática
43
restricciones10 . En esta breve sección, presentamos resultados relacionados con el caso en el cual Ω = {x ∈ Rn : h(x) = a ∈ Rm } o
Ω = {x ∈ Rn : g(x) ≤ b ∈ Rm }.
Teorema 8. Sean f, h1 , · · · , hm ∈ C 1 funciones de Rn en R.
Considere el siguiente problema de optimización:
máx f (x)
do
s. a. x ∈ Ch
con
Ga
ll
ar
Ch = {x ∈ Rn : h1 (x) = a1 , · · · , hm (x) = am }.
Suponga que x∗ ∈ Ch es un maximizador (o minimizador) local para
el problema de optimización. Si Dh(x∗ ) = Jx h(x∗ ) ∈ Mm×n es de
rango completo11 , entonces existen ν1∗ , · · · , µ∗m tales que (x∗ , µ∗ ) son
un punto crı́tico de
L(x, µ) = f (x) −
m
X
i=1
µi (hi (x) − ai ).
A un problema como el del Teorema 8 se le denomina problema
&
de Lagrange.
Teorema 9. Suponga que f, g1 , · · · , gk ∈ C 1 son funciones de Rn
Le
ón
a R. Suponga que x∗ ∈ Rn es un maximizador local de f sujeto a
g1 (x) ≤ b1 , · · · , gk (x) ≤ bk .
10
11
(2.1)
Esto es lo que implı́citamente se da a entender cuando se escribe x ∈ Ω.
A esto se le conoce como condición de regularidad.
Capı́tulo 2. Fundamentos de Optimización Estática
44
Por simplicidad suponga que las primeras k0 restricciones en (2.1)
se dan con igualdad. Entonces, si
∂g1 ∗
∂g1 ∗
(x ) · · ·
(x )
∂x1
∂xn
.
.
.
..
..
..
∂gk
∂gk0 ∗
0
∗
(x ) · · ·
(x )
∂x1
∂xn
tiene rango completo, y definimos
λj (gj (x) − bj )
do
existen λ∗1 , · · · , λ∗k tale que
j=1
Ga
ll
ar
L(x, λ) = f (x) −
k
X
∂L ∗ ∗
(x , λ ) = 0, ∀ i = 1, ..., n
∂xi
λ∗j [gj (x∗ ) − bj ] = 0, ∀ j = 1, ..., k
λ∗j ≥ 0, ∀ j = 1, ..., k
gj (x∗ ) ≤ λ∗j , ∀ j = 1, ..., k.
A un problema como el del Teorema 9 se le denomina problema
&
de Karush-Kuhn-Tucker.
Ejemplo 29. En el problema de maximización de la utilidad,
cuando u : Rn → R satisface las condiciones de Inada, el problema
Le
ón
pasa de tener la forma de un problema de KKT
máx u(x)
s. a. p · x ≤ I
x≥0
Capı́tulo 2. Fundamentos de Optimización Estática
45
a tener la forma de un problema de Lagrange12
máx u(x)
s. a. p · x = I.
Entonces, según el Teorema 8, si x∗ resuelve el problema de
maximización de la utilidad13
do
∂u ∗
(x ) = µpi
∂xi
n
X
pi x∗i = I.
i=1
i=1
con ai , αi > 0 para todo i y
se deduce que
Ga
ll
ar
Ejemplo 30. Si en el problema de maximización de la utilidad
n
Y
u(x1 , ..., xn ; θ) =
(xi − ai )αi , θ = (α, a)T ∈ Rn × Rn , (2.2)
Pn
i=1 αi = 1, aplicando el Teorema 8,
x∗i (θ, I) = ai +
"
n
X
#
αi
I−
p i ai .
pi
i=1
A la función de utilidad de la Ecuación (2.2) se le conoce como
Stone-Geary en honor a Richard Stone (Stone (1954)) y Roy Geary
&
(Geary (1950)).
Una extensión de los dos tipos de problemas presentados en esta
sección (Lagrange y Kuhn-Tucker) es el problema mixto. De manera
Le
ón
similar a las condiciones de segundo orden abordadas previamente,
existen condiciones de segundo orden para este tipo de problemas.
Estas condiciones involucran lo que se conoce como Hessiano orlado.
Véase Chavez and Gallardo (2024) o Simon and Blume (1994).
12
13
Esto se explica con detalle en Chavez and Gallardo (2024).
Es fácil verificar la condición de regularidad.
Capı́tulo 2. Fundamentos de Optimización Estática
2.4.
46
Breve nota sobre la convexidad
La convexidad es una propiedad matemática ampliamente
estudiante en matemáticas. Se estudia tanto la convexidad de los
conjuntos como la convexidad de las funciones. En esta sección,
brindamos algunas definiciones y teoremas centrales en la teorı́a de
la optimización. Es importante mencionar que la teorı́a del análisis
convexo se extiende al estudio de las funciones cuasi-convexas,
do
cuasi-cóncavas, ası́ como al estudio de los teoremas de separación,
al Lema de Farkas etc. resultados ampliamente usados en teorı́a
económica14 .
Ga
ll
ar
Definición 2.4.1. Decimos que un conjunto X ⊂ Rn es convexo si
∀ x, y ∈ X y θ ∈ [0, 1],
θx + (1 − θ)y ∈ X.
Definición 2.4.2. Decimos que f : X ⊂ R, con X convexo, es
convexa si ∀ x, y ∈ X y θ ∈ [0, 1]
f (θx + (1 − θ)y) ≤ θf (x) + (1 − θ)f (y).
&
Definición 2.4.3. Decimos que f : X ⊂ R, con X convexo, es
cóncava si ∀ x, y ∈ X y θ ∈ [0, 1]
Le
ón
θf (x) + (1 − θ)f (y) ≤ f (θx + (1 − θ)y).
Ejemplo 31. El conjunto presupuestario del problema del consumidor
B(p, I) = {x ∈ Rn : p · x ≤ I}
14
Como por ejemplo teorı́a del consumidor, equilibrio general, teorı́a de
contratos etc. Véase Mas-Colell et al. (1995).
Capı́tulo 2. Fundamentos de Optimización Estática
47
con p ∈ Rn++ e I > 0, es convexo15 .
Ejemplo 32. La función norma Euclidiana || · ||2 : Rn → R,
v
u n
uX
||x||2 = t
x2i
i=1
es convexa.
Ejemplo 33. Las funciones f (x) = x2k , k ∈ N y exponencial
do
g(x) = ex son convexas sobre R. Por otro lado, las funciones
h(x) = xa con a ∈ (0, 1) y ℓ(x) = ln x son cóncavas sobre su
Ga
ll
ar
dominio de definición.
Teorema 10. Sea f : X → R, con X ⊂ Rn convexo. Entonces,
P
dados x1 , ..., xk ∈ X y θ1 , ..., θk ≥ 0 tales que ki=1 θi = 1, f es
convexa si y solo si
f
k
X
i=1
θi xi
!
≤
k
X
θi f (xi ).
(2.3)
i=1
Se tiene un resultado análogo para el caso de funciones cóncavas.
&
A (2.3) se le conoce como desigualdad de Jensen16 .
Ejemplo 34. Usando la desigualdad de Jensen, es posible probar
la desigualdad media-aritmética:
Le
ón
n
Y
i=1
15
1
1/n
xi ≤
n
X
n i=1
xi .
Además, es compacto. Esto es, es acotado y cerrado. Puede considerar la
bola con la norma ||x||máx = máx1≤i≤n |xi | y B||·||máx (0, 2I/pmı́n ).
16
Esta desigualdad será estudiada en el apéndice de teorı́a de la probabilidad
en un contexto diferente.
Capı́tulo 2. Fundamentos de Optimización Estática
48
En efecto, dada la concavidad de ln(·),
n
X
ln xi
i=1
n
≤ ln
n
X
xi
i=1
n
!
.
Aplicando la función exponencial que es creciente y usando el hecho
Q
Pn
1/n
n
1
que ln
x
=
n
i=1
i=1 ln xi , concluimos.
n
Usualmente, es bastante complicado determinar la convexidad o
concavidad de una función a partir de su definición. Por ello, existen
do
maneras alternativas de identificar cuando una función es convexa
o cóncava, siempre y cuando la función en cuestión cumpla ciertas
Ga
ll
ar
condiciones (continuidad, diferenciabilidad).
Teorema 11. Sea f ∈ C 1 (X) con X ⊂ Rn convexo y abierto.
Entonces, es cóncava sobre X si y solo si para todo x, y ∈ X
f (y) − f (x) ≤ ∇f (x)(y − x).
Teorema 12. Sea f ∈ C 2 (X) con X ⊂ Rn convexo y abierto.
Entonces f es cóncava si y solo si Hf ≤ 0. Análogamente, f es
convexa si y solo si Hf ≥ 0.
&
Note que por medio del Teorema 12 es posible determinar la
optimalidad de un punto estacionario por medio de la convexidad
Le
ón
o concavidad de la función objetivo.
Esto concluye el breve repaso acerca de la teorı́a de la
optimización. Lo que se ha presentado en este capı́tulo es una
mera introducción. La teorı́a de la optimización se extiende
a los problemas de optimización en otros espacios (superficies,
variedades) y al estudio del análisis convexo (tanto en dimensión
Capı́tulo 2. Fundamentos de Optimización Estática
49
finita como infinita). Por otro lado, una vez obtenida una solución
x∗ = x∗ (α), donde α es un vector de parámetros17 a un problema
de optimización18 . Para una presentación completa de estos temas,
invitamos al lector consultar libros como Boyd and Vandenberghe
(2004), Sundaram (1996), de la Fuente (2000), Lenberger and Ye
(2021) o Chavez and Gallardo (2024). Aplicaciones sólidas de la
teorı́a económica se encuentran en, por ejemplo, Mas-Colell et al.
17
Le
ón
&
Ga
ll
ar
do
(1995).
Por ejemplo, en el clásico problema de maximización de la utilidad, el
vector de precios y el ingreso. En el caso de la minimización del costo, el nivel
de producción requerido y el vector de precios de los insumos. Un análisis similar
pero informal ya se hizo en el Capı́tulo 1 al introducir la regla de Cramer.
18
En ese sentido, consultar por ejemplo el Teorema de la Envolvente.
Capı́tulo 3
do
Modelo multivariado
Ga
ll
ar
Muchas de las relaciones en economı́a plantean modelos
determinı́sticos entre las variables, como por ejemplo
Y (K, L) = K α Lβ ,
donde α y β son dos parámetros positivos, K el stock de capital, L
el trabajo y Y la producción que se obtiene al emplear estos factores
de producción en una economı́a. Si bien esta relación es bastante
intuitiva, pues ciertamente la producción crece con el capital y con
&
el trabajo (YK , YL > 0), ¿cómo saber que valores deben tomar
los parámetros α y β? ¿Cuál es el rango de valores para estos
Le
ón
parámetros? Esta pregunta es de gran de interés pues, determina
propiedades como la concavidad o convexidad de la función
Y = Y (K, L).
A continuación, presentamos los fundamentos de una teorı́a
establecida que permite responder preguntas complejas en el ámbito
50
Capı́tulo 3. Modelo multivariado
51
de la econometrı́a. En primera instancia, se definirá el modelo
principal de este capı́tulo, junto con los supuestos necesarios para
establecer los resultados fundamentales subyacentes. Este análisis
se realizará mediante técnicas de álgebra matricial y optimización,
justificando ası́ la introducción previa de estos temas en los
Capı́tulos 1 y 2. Finalmente, se ofrecerán ejemplos prácticos que
consolidarán estos conceptos.
En este capı́tulo, se abordarán especı́ficamente el modelo
do
lineal k, la esperanza condicional, la interpretación geométrica, las
regresiones particionadas y los momentos del estimador de Mı́nimos
Cuadrados Ordinarios (MCO). Además, se analizará la bondad de
Ga
ll
ar
ajuste, se discutirán aspectos relacionados con los intervalos de
confianza y se mencionarán los supuestos del modelo, los cuales
serán tratados en profundidad en capı́tulos posteriores.
3.1.
El modelo k−lineal
Dada una variable aleatoria, esta puede descomponerse de la
siguiente forma:
&
Y = E[Y |X] + ε,
donde, recordemos E[Y |X] = E[Y |σ(X)] y, debido a la ley de
Le
ón
esperanzas iteradas, E[ε|X] = 0. El modelo k-lineal plantea que
E[Y |X] = Xβ = β0 +
k
X
βi Xi .
(3.1)
i=1
En la práctica, lo que se tiene es un conjunto de observaciones
{Yi }1≤i≤n y un conjunto de datos {Xji }1≤i≤n,1≤j≤k . La variable
Capı́tulo 3. Modelo multivariado
52
Y es una variable que buscamos predecir, mientras que Xj para
j = 1, ..., k, es una variable ((explicativa)). En el modelo k−lineal,
tal y como especifica la Ecuación 3.1, se adopta la siguiente forma
funcional1
Yi = β0 + β1 X1i + β2 X2i + · · · + βk Xki + εi , i = 1, ..., n.
(3.2)
Ga
ll
ar
do
Esta ecuación puede expresarse matricialmente como
β0
Y1
1 X11 X21 · · · Xk1
ε1
. .
.
β1
.
.
.
.. = ..
..
..
.. + ..
···
..
.
Yn
1 X1n X2n · · · Xkn
εn
βk
Yn×1 = Xn×(k+1) β(k+1)×1 + εn×1 .
En este modelo, se asume que ε ∼ N (0n , σ 2 In ).
Antes de continuar, permı́tanos hacer énfasis en algunos puntos.
Matemáticamente, lo que tenemos es un conjunto de puntos en un
espacio, usualmente Rp , donde X ∈ Mn×k representa el conjunto
de observaciones de las variables predictoras, Y es el conjunto
de observaciones de la variable dependiente y β es un vector de
&
parámetros. El objetivo es determinar los parámetros.
Ahora bien, Y1 , ..., Yn es una muestra aleatoria. Es decir, cada
Le
ón
Yi es una variable aleatoria y observamos una realización Yi (ω).
Lo mismo aplica para los Xki . Sin embargo, asumiremos que los
regresores son determinı́sticos, por lo que E[Y |X] = E[Y ] = Xβ, y
todo lo estocástico queda almacenado en ε.
1
La forma funcional es el término lineal, el error estocástico ε refleja la
incertidumbre en el modelo.
Capı́tulo 3. Modelo multivariado
53
Ejemplo 35. Supongamos que se busca estimar la producción en
función de las variables clásicas del modelo de la demanda agregada
Yi = β0 + β1 Ci + β2 Gi + β3 Ii + β4 (Xi − Mi ) + εi , i = 1, ..., n.
En esta ecuación, Yi es la producción, Ci el consumo, Gi el gasto
público, Ii la inversión y Xi − Mi la balanza comercial. Estas
últimas, son las variables explicativas en el modelo pues, en función
de estas uno predice la variable dependiente. Luego, el ı́ndice i
do
indica el elemento de la muestra considerado. Por ejemplo, cada
i determina un paı́s, un instante de tiempo (en dicho caso serı́a
parámetros β0 , β1 , β2 , β3 y β4 .
Ga
ll
ar
más apropiado denotar t en vez de i). El objetivo, es estimar los
El Ejemplo 35 nos invita a reflexionar sobre el tipo de datos
que se consideran en una regresión lineal. La siguiente definición es
clave para distinguir los tipos de datos que aparecen en la práctica.
Definición 3.1.1. Identificamos tres tipos de datos:
Datos transversales: se cuenta con solo una observación en
el tiempo para diferentes variables. Por ejemplo, los datos
&
recolectados en una encuesta {X1i , X2i , ..., Xki }1≤i≤n .
Series de tiempo: más de 2 observaciones en el tiempo:
Le
ón
X0 , X1 , ..., Xt , ..., XT . En estos casos tendrı́amos un modelo
del tipo
Yt = f (Xt , Zt , · · · , Wt ) + εt .
Datos panel o longitudinales: dos o más observaciones en el
tiempo del mismo individuo, paı́s {Xit }1≤i≤n,1≤t≤T .
Capı́tulo 3. Modelo multivariado
3.1.1.
54
Supuestos del modelo k−lineal
Enseguida, presentamos los supuestos del modelo (3.2). La hoja
de ruta en los siguientes capı́tulos consiste justamente en levantar
estos supuestos.
Teorema 13. En el modelo k−lineal se efectúan los siguientes
supuestos:
no se puede tener algo de la siguiente forma
Ga
ll
ar
Yi = β12 X1i + ln(β2 )X2i + εi .
do
El modelo de regresión es lineal en los parámetros. Es decir,
La muestra es aleatoria. Es decir, la selección de los datos
se lleva a cabo siguiendo metodologı́as especı́ficas que buscan
reducir el sesgo de selección y/o adaptarse a los objetivos del
estudio.
El valor esperado de los errores es igual a cero: E[εi ] = 0, ∀ i.
&
Más aún, como consecuencia
" n #
X
E
εi = 0.
i=1
Le
ón
Los errores tienen varianza constante: Var(εi ) = σ 2 , ∀ i.
Usualmente, el término de error está normalmente distribuido
εi ∼ N (0, σ 2 ), ∀ i. Esto contempla los dos supuestos previos.
No existe correlación entre las explicativas y los errores
medidos: X T ε = 0.
Capı́tulo 3. Modelo multivariado
55
No existe colinealidad perfecta entre las variables explicativas
incluidas en el modelo:
k
X
ℓ=1
γℓ Xℓ = 0 =⇒ γℓ = 0, ∀ ℓ.
Este supuesto es por ejemplo muy útil para asegurar más
adelante la invertibilidad de X T X.
En el caso de series de tiempo, los errores no tienen correlación
do
serial, es decir, no existe correlación entre los errores de
diferentes periodos de tiempo Cov(εt , εt+k ) = σk = 0. Para
Ga
ll
ar
corte transversal, Cov(εi , εj ) = σij = 0, ∀ i ̸= j.
El modelo está perfectamente identificado, esto es, el modelo
incluye todas las variables explicativas relevantes. Ası́,
E[β̂] = β
donde β̂ es el vector de parámetros que se estima. Para
asegurar esto, se realiza una revisión de literatura exhaustiva.
El número de observaciones debe ser mayor al número de
&
parámetros a estimar n > k.
Le
ón
Note que el supuesto de linealidad en los parámetros cubre casos
como el siguiente
Yi
e =
k
Y
j=1
eβj eXj eεi ,
Capı́tulo 3. Modelo multivariado
56
pues, sacando logaritmos en ambos lados, se obtiene
" k
#
Y
ln[eYi ] = ln
eβj eXj eεi
j=1
=
k
X
βj ln[Xj ] + εi .
j=1
Por otro lado, los supuestos de no colinealidad perfecta y el hecho
que n > k, aseguran que el rango de Xn×k sea k.
logarı́tmico
Ga
ll
ar
ln Yt = Xt β + δt + εt .
do
Ejemplo 36. Otro ejemplo de modelo de regresión lineal es el semi-
Este modelo cumple la linealidad en los parámetros, que son β y
δ. Note que el tiempo es un regresor. Por otro lado, el error es
denotado εt en vez de εi pues las observaciones son en el tiempo.
Finalmente, debe verificarse que E[εt ] = 0 y Var(εt ) = σ 2 , ∀ t.
3.2.
El problema de optimización
&
El método más frecuente usado para estimar los coeficientes de
una regresión lineal (k−lineal) es el Método de Mı́nimos Cuadrados
Ordinarios (MCO). ¿En qué consiste este método? Lo que buscamos
Le
ón
es, dadas las observaciones, determinar un vector de parámetros
que nos permita predecir la variable dependiente. Denotemos por β̂
los parámetros que se obtienen luego de la estimación2 . Entonces,
si X ∈ Rk es un conjunto de variables explicativas (usadas en
2
A continuación detallamos el origen del vector β̂.
Capı́tulo 3. Modelo multivariado
57
la estimación), la predicción para Y , dado dicho conjunto de
información, es
Ŷ = X β̂.
Cuando incorporamos una constante β0 , la primera componente de
X es un 1.
Luego, la perturbación asociada a la i−ésima observación es
igual a
do
ε̂i = Yi − XiT β̂.
Lo que se busca es que este error sea el más pequeño posible,
Greene (2015)
n
X
i=1
ε2i =
n
X
i=1
Ga
ll
ar
para todo i. Por ello, el MCO propone minimizar la siguiente suma
(Yi − XiT β)2 = (Y − Xβ)T (Y − Xβ)
respecto al vector de parámetros. Este programa de optimización
tiene una interpretación geométrica que discutiremos más adelante.
Ahora bien, notemos que
n
X
&
i=1
ε2i = ||ε||22 .
Cabe la pregunta, ¿por qué no escoger ||ε||pp con p ≥ 1 diferente
de 2. Sucede que al escoger, por ejemplo p = 13 , no se obtiene una
Le
ón
solución analı́tica exacta al problema de optimización, dada la no
diferenciabilidad del valor absoluto aparecen sub-diferenciales (ver
Boyd and Vandenberghe (2004)).4
Pn
||ε||1 = i=1 |εi |
4
Sin embargo, considerar | · | resulta ser un método insensible a outliers y
3
se le conoce como Regresión Robusta, ver Rau (2016).
Capı́tulo 3. Modelo multivariado
58
De este modo, el problema de optimización que buscamos
resolver, con la finalidad de encontrar los parámetros, es el siguiente:
n
X
mı́n Q(β) =
(Yi − XiT β)
i=1
k+1
s.a β ∈ R
.
Alternativamente, podemos escribir
s.a β ∈ Rk+1 .
do
mı́n Q(β) = (Y − Xβ)T (Y − Xβ)
Ga
ll
ar
Note que β ∈ Rk+1 pues se incorpora la constante.
Teorema 14. La solución al problema de minimización es
β̂ = (X T X)−1 X T Y.
Demostración. Expandiendo la función Q(β) se tiene
Q(β) = Y T Y − β T X T Y − Y T Xβ + β T X T Xβ
= Y T Y − 2β T X T Y + β T X T Xβ
&
= Y T Y − 2Y T Xβ + β T X T Xβ.
Aquı́ hemos usado que β T X T Y = Y T Xβ, pues, ambos términos
Le
ón
son escalares y la transpuesta de un escalar es el mismo escalar.
Ahora bien, por las condiciones de primer orden
∂Q(β)
= −2Y T X + 2X T Xβ = 0.
∂β
Luego,
X T Xβ = X T Y.
Capı́tulo 3. Modelo multivariado
59
Como X tiene rango completo, det(X T X) ̸= 0. Ası́, puede invertirse
y por ende5
β̂ = (X T X)−1 X T Y
1 X T
X Xi
N i=1 i
N
=
!−1
N
X
i=1
XiT Yi
!
Es posible que las ecuaciones, conocidas como ecuaciones
do
normales, X X β = X T Y no puedan resolverse invirtiendo X T X,
pues esta última puede no ser invertible. En dicho caso, se trabaja
Ga
ll
ar
con la pseudo-inversa de la matriz X (ver Laub (2005)).
Definición 3.2.1. Una regresión lineal simple es una relación de
la forma
Yi = β0 + β1 Xi + εi ,
siendo εi es un error aleatorio tal que εi ∼ N (0, σ 2 ). Este es un caso
particular de (3.2), donde k = 1.
Ejemplo 37. En el caso de una regresión lineal simple, los
&
estimadores obtenidos vı́a Mı́nimos Cuadrados Ordinarios se
obtienen resolviendo el siguiente problema de optimización:
n
X
ε2i = Q(β0 , β1 ) =
Le
ón
mı́n
i=1
n
X
i=1
la solución es
β̂0 = Y − β̂1 X.
5
El candidato a óptimo es justamente β̂.
(Yi − β0 − β1 Xi )2 ,
Capı́tulo 3. Modelo multivariado
β̂1 =
60
Pn
(Y −Y )(Xi −X)
i=1
Pn i
.
2
i=1 (Xi −X)
En efecto, las condiciones de primer orden son
n
X
∂Q(β0 , β1 )
= −2
(Yi − β0 − β1 Xi ) = 0
∂β0
i=1
n
X
∂Q(β0 , β1 )
= −2
Xi (Yi − β0 − β1 Xi ) = 0.
∂β1
i=1
de la segunda ecuación, se obtiene
i=1
Xi (Yi − β0 − β1 Xi ) = 0.
Luego,
0=
n
X
i=1
=
n
X
i=1
=
Ga
ll
ar
n
X
Xi Yi − β0 nX − β1
n
X
Xi2
i=1
Xi Yi − (Y − β1 X)nX − β1
n
X
2
n
X
Xi2
i=1
− nY X + β1 nX − β1
&
i=1
Xi Yi
!
do
Despejando β0 en la primera ecuación se tiene β0 = Y −β1 X. Ahora,
n
X
Xi2 .
i=1
y
Le
ón
Despejando, se obtienen
Pn
Pn
i=1 Xi Yi − nXY
i=1 (Yi − Y )(Xi − X)
β̂1 = Pn
Pn
2 =
2
2
i=1 (Xi − X)
i=1 Xi − nX
β̂0 = Y − β̂1 X.
Capı́tulo 3. Modelo multivariado
61
Antes de pasar a las condiciones de segundo orden, proveemos
una derivación alternativa del estimador de MCO desde la
estadı́stica y la ya anticipada interpretación geométrica.
Dado que E[ε|X] = 0, se sigue a partir de
Y = Xβ + ε
y multiplicando por X T en ambos lados
E[X T Y ] = E[X T Xβ + X T ε]
Ga
ll
ar
= E[X T X]β + E[X T ε]
| {z }
do
X T Y = X T Xβ + X T ε
=0
β = E[X T X]−1 E[X T Y ].
Ası́ pues, debido al principio de analogı́a Manski (1988)
1 X T
X Xi
N i=1 i
N
β̂M CO =
!−1
N
X
i=1
XiT Yi
!
.
Note que hemos usado las propiedades de la esperanza condicional
(véase Apéndice A)
&
Z
E[ε|X] =
Z
ε
Le
ón
E[E[ε|X]] = E[ε]
E[X T ε] = E[X T ε|X]
= X T E[ε|X]
= 0.
Capı́tulo 3. Modelo multivariado
62
Respecto a la interpretación geométrica, notemos que
Ŷ = X β̂
= X(X T X)−1 X T Y
= ProjX (Y )
donde ProjX es la matriz proyección del espacio generado vectorial
ε̂ = Y − X β̂
= (I − X(X T X)−1 X T )Y
Ga
ll
ar
= NX Y
do
por las columnas de X. Por otro lado,
donde NX es la matriz proyección en el espacio nulo de las columnas
de X. Note que las matrices proyección son idempotentes6 y
simétricas Axler (2015).
3.2.1.
Condiciones de segundo orden
Recordemos que para asegurarnos que β̂ se trata de un mı́nimo,
&
es necesario verificar la condición de segundo orden. Esto es,
verificar que, la matriz hessiana evaluada en el punto estacionario
β̂, es definida positiva, i.e., que dado cualquier vector v ∈ Rk+1 ,
Le
ón
v T (2X T X)v ≥ 0.
Demostración.
6
A2 = A.
∂ 2 Q(β)
= 2X T X.
∂β∂β T
Capı́tulo 3. Modelo multivariado
63
Luego, definiendo z = Xv ∈ Rn ,
v T (2X T X)v = 2z T z
=2
n
X
i=1
zi2 ≥ 0.
Ejemplo 38. En el caso de la regresión lineal simple, podemos
∂β0 ∂β1
siendo
∂ 2 Q(β̂0 , β̂1 )
∂β0 ∂β1
2nX
2n
,
=
P
n
2
2
X
2nX
i
i=1
∂ 2 Q(β̂0 , β̂1 )
Ga
ll
ar
el óptimo (β̂0 , β̂1 ):
2
∂ Q(β̂0 , β̂1 )
∂β02
HQ(β̂0 , β̂1 ) =
∂ 2 Q(β̂0 , β̂1 )
do
calcular directamente la matriz hessiana de Q(β0 , β1 ) evaluada en
∂β12
1X
X=
Xi .
n i=1
n
Tenemos que verificar que
Ciertamente
Le
ón
" n
X
&
∂ 2Q
= 2n > 0.
∂β02
Finalmente,
|HQ| = 4n
∂ 2 Q(β̂0 , β̂1 )
y |HQ(β̂0 , β̂1 )| son positivos.
∂β02
i=1
Xi2 − nX
2
#
= 4n
" n
X
i=1
#
(Xi − X)2 ≥ 0.
Con ello, concluimos que se cumple la condición de mı́nimo.
Ejemplo 39. Sean β̂1 y β̂2 el intercepto y la pendiente estimados,
respectivamente, de la regresión de Yi contra Xi para una muestra
Capı́tulo 3. Modelo multivariado
64
de n observaciones. Sean c1 y c2 dos constantes (c1 , c2 ̸= 0), β¯1 y
β¯2 el intercepto y la pendiente estimados, respectivamente, de la
regresión c1 Yi contra c2 Xi . Buscamos una expresión de β¯1 y β¯2 en
función de β̂1 , β̂2 y las constantes c1 , c2 . Al plantearse el modelo
Y i = β1 + β2 X i + εi
se estiman los parámetros β̂1 y β̂2 . Ahora, nos interesamos en la
regresión
do
c1 Yi = β1 + β2 c2 Xi + εi .
Para obtener los parámetros β 1 , β 2 via MCO, resolvemos el
problema de minimización
Ga
ll
ar
mı́n Q(β 1 , β 2 ) =
n
X
i=1
(c1 Yi − β 1 − β 2 c2 Xi )2 .
Aplicando condiciones de primer orden, obtenemos
n
X
∂Q
= −2
(c1 Yi − β 1 − c2 β 2 Xi ) = 0
∂β 1
i=1
n
X
∂Q
= −2
c2 Xi (c1 Yi − β 1 − c2 β 2 Xi ) = 0.
∂β 2
i=1
c1
n
X
i=1
Yi − nβ 1 − c2 β 2
Le
ón
y por ende
&
De la primera ecuación se obtiene la relación
n
X
Xi = 0
i=1
β 1 = c1 Y − c2 β 2 X.
Ahora, de la segunda condición de primer orden, y reemplazando
con la expresión de β 1
c2 c1
n
X
i=1
Xi Yi − (c1 Y − c2 β 2 X)
n
X
i=1
c2 Xi − c22 β 2
n
X
i=1
Xi2 = 0.
Capı́tulo 3. Modelo multivariado
65
Desarrollando se tiene
c1 c2
n
X
i=1
2
Xi Yi − c1 c2 nY X + c22 β 2 nX − c22 β 2
n
X
Xi2 = 0.
i=1
P
c1 c2 nY X − c1 c2 ni=1 Xi Yi
β2 =
P
2
c2 nX − c22 ni=1 Xi2
Pn
c1 c2
i=1 Xi Yi − nX · Y
P
=
2
n
2
2
c2
i=1 Xi − nX
c1
= β̂2 ,
c2
donde
Ası́ pues,
Ga
ll
ar
Pn
do
Luego, despejando β 2
i=1
β̂2 = P
n
Yi Xi − nY X
i=1 Xi − nX
2
.
β 1 = c1 Y − c2 β 2 X
c1
= c1 Y − c2 β̂2 X
c2
= c1 (Y − β̂2 X)
&
= c1 β̂1 .
Concluimos entonces que β 1 = c1 β̂1 y β 2 = cc12 β̂2 . Note que la
Le
ón
convexidad del paraboloide (función objetivo) asegura que se trata
de un mı́nimo.
Ejemplo 40. De manera similar al ejemplo anterior, sean ahora
β¯1 y β¯2 el intercepto y la pendiente estimados, respectivamente, de
la regresión Yi + c1 contra Xi + c2 . Obtengamos una expresión de
Capı́tulo 3. Modelo multivariado
66
β¯1 y β¯2 en función de β̂1 , β̂2 y las constantes ci . En este caso, la
especificación del modelo es la siguiente
Yi + c1 = β1 + β2 (Xi + c2 ) + εi .
Procedemos análogamente. Buscamos minimizar
Q(β 1 , β 2 ) =
n
X
i=1
(Yi + c1 − β 1 − β 2 Xi − β 2 c2 )2 .
do
Las condiciones de primer orden nos dan
Ga
ll
ar
n
X
∂Q
= −2
(Yi + c1 − β 1 − β 2 Xi − β 2 c2 ) = 0
∂β 1
i=1
n
X
∂Q
= −2
(Xi + c2 )(Yi + c1 − β 1 − β 2 Xi − β 2 c2 ) = 0.
∂β 2
i=1
De la primera ecuación, despejando para β 1 se obtiene
β 1 = Y + c1 − β 2 X − β 2 c2 .
Ahora, de la segunda ecuación, reemplazando con la expresión de
β 1 , se tiene
i=1
(Xi + c2 )(Yi + c1 − (Y + c1 − β 2 X − β 2 c2 ) − β 2 Xi − β 2 c2 ) = 0.
Simplificando
&
n
X
Le
ón
n
X
(Xi + c2 )(Yi + c1 − Y − c1 + β 2 c2 − β 2 Xi − β 2 c2 ) = 0,
i=1
se llega a la siguiente expresión
n
X
i=1
(Xi + c2 )(Yi − Y + β 2 X − β 2 Xi ) = 0.
Capı́tulo 3. Modelo multivariado
67
Desarrollando obtenemos
n
X
(Xi Yi −Xi Y +β 2 XXi −β 2 Xi2 +c2 Yi −c2 Y +β 2 c2 X −β 2 c2 Xi ) = 0.
i=1
Aplicando la suma a cada término
i=1
2
Xi Yi −nX·Y +β 2 nX −β 2
n
X
i=1
Xi2 +c2 nY −nY c2 +β 2 c2 nX−β 2 c2 nX.
Simplificando y despejando para β 2 se llega a
Pn
i=1 Xi Yi − nXY
β2 = P
2 = β̂2 .
n
2
X
−
nX
i
i=1
Ası́,
Ga
ll
ar
β 1 = Y + c1 − β 2 X − β 2 c2
do
n
X
= Y + c1 − β̂2 X − β̂2 c2
= c1 + β̂1 − β̂2 c2 .
3.3.
Análisis de los parámetros
Previamente ya se ha abordado el problema de la estimación
de parámetros desde un enfoque puramente algebraico y siguiendo
&
el método propuesto por MCO. Sin embargo, no nos hemos
preguntado si este método es el más adecuado, o si existen otros
Le
ón
métodos. Más aún, es de interés conocer las diferentes propiedades
de los parámetros estimados β̂ (estimadores). En ese sentido, vamos
a estudiar en la presente sección, la varianza y el valor esperado
de los parámetros estimados. Esto va a permitirnos introducir el
Teorema de Gauss Markov, el cual explica el interés de la estimación
de los parámetros usando este método.
Capı́tulo 3. Modelo multivariado
3.3.1.
68
Insesgadez de los parámetros
Recordemos que si A ∈ Mm×n y x : Ω → Rn ,
E[Ax] = AE[x]
Var(Ax) = AVar(x)AT .
Recordemos que los parámetros estimados tienen la siguiente
forma
Luego, usando que Y = (Xβ + ε),
β̂ = (X T X)−1 X T Y
Ga
ll
ar
= (X T X)−1 X T (Xβ + ε)
do
β̂ = (X T X)−1 X T Y.
= (X T X)−1 X T (Xβ + ε)
= (X T X)−1 X T Xβ + (X T X)−1 X T ε
= β + (X T X)−1 X T ε.
Teorema 15. Si β̂ es el vector de parámetros estimados vı́a MCO,
entonces
E[β̂] = β.
&
Demostración. Usando el resultado anterior, aplicando las propiedades del valor esperado y usando que E[ε] = 0, calculamos
Le
ón
E[β̂] = E[β + (X T X)−1 X T ε]
= E[β] + E[(X T X)−1 X T ε]
= β + (X T X)−1 X T E[ε]
= β + (X T X)−1 X T 0
= β.
Capı́tulo 3. Modelo multivariado
69
Ejemplo 41. Recordemos cuales son los parámetros estimados en
el caso del modelo bivariado
Pn
Pn
(Yi − Y )(Xi − X)
i=1 Xi Yi − nXY
β̂1 = Pn
= i=1
Pn
2
2
2
i=1 (Xi − X)
i=1 Xi − nX
β̂0 = Y − β̂1 X.
Ga
ll
ar
do
Veamos que E[β̂0 ] = β0 y E[β̂1 ] = β1
Pn
(Yi − Y )(Xi − X)
β̂1 = i=1
Pn
2
i=1 (Xi − X)
Pn
[(Xi − X)Yi − (Xi − X)Y ]
= i=1 Pn
2
i=1 (Xi − X)
Pn
(Xi − X)Yi
= Pi=1
n
(Xi − X)2
Pni=1
(Xi − X)(β0 + β1 Xi + ui )
= i=1 Pn
2
i=1 (Xi − X)
Pn
Pn
Pn
−
X)
X)X
(X
−
i
i
i
i=1 (X
i=1
i=1 (Xi − X)ui
= β0 Pn
+
β
+
.
P
1 Pn
n
2
2
2
(X
−
(X
−
(X
−
X)
X)
X)
i
i
i
i=1
i=1
i=1
&
Luego, aplicando la linealidad del valor esperado,
Pn
Pn
(X
−
(X
−
X)X
X)u
i
i
i
i
+ Pi=1
E[β̂1 ] = E β1 Pi=1
n
n
2
(X
−
(Xi − X)2
X)
i
Pn i=1
Pni=1
E[u
i]
i=1 E[(Xi − X)Xi ]
i=1 E[Xi − X]
= β1 Pn
+ Pn
2
2
i=1 (Xi − X)
i=1 (Xi − X)
Le
ón
= β1 .
Finalmente,
E[β̂0 ] = E[Y − β̂1 X] = Y − β1 X = β0 .
A esta propiedad, i.e., E[β̂] = β se conoce como insesgadez de los
parámetros.
Capı́tulo 3. Modelo multivariado
70
Ejemplo 42. Considere dos estimadores, β̂ y β̄, construidos para
estimar el parámetro poblacional β. El primer estimador β̂ es
el de Mı́nimos Cuadrados Ordinarios (que cumple con todos los
supuestos) y el segundo es otro estimador lineal e insesgado. Luego,
se construye un tercer estimador β ∗ que es una combinación convexa
de β̂ y β̄; es decir, β ∗ = δ β̂ +(1 − δ) β̄, con δ ∈ [0,1]. Este estimador
E[β ∗ ] = E[δ β̂ + (1 − δ) β̄]
= E[δ β̂] + E[(1 − δ) β̄]
Ga
ll
ar
= δE[β̂] + (1 − δ)E[β̄].
do
sigue siendo insesgado. En efecto
Como el estimador MCO es insesgado, ası́ como el estimador lineal
β̄, E[β̂] = β y E[β̄] = β. Ası́
δE[β̂] + (1 − δ)E[β̄] = δβ + (1 − δ)β = β.
Concluimos que β ∗ es insesgado. Más aún, esto nos permite concluir
que la combinación convexa de estimadores insesgados siempre
3.3.2.
&
provee un estimador insesgado7 .
Varianza de los parámetros estimados
Le
ón
Ya habiendo estudiado el valor esperado de los parámetros
estimados por MCO, nos interesamos en la varianza de dichos
parámetros.
7
A nivel de conjunto, el conjunto de estimadores lineales insesgados es
convexo.
Capı́tulo 3. Modelo multivariado
71
Teorema 16. Si β̂ es el vector de parámetros estimados por MCO,
entonces
Var(β̂) = σ 2 (X T X)−1 .
Demostración.
= E[(X T X)−1 X T εεT X(X T X)−1 ]
Ga
ll
ar
= (X T X)−1 X T E[εεT ]X(X T X)−1 .
do
h
i
Var(β̂) = E (β̂ − β)(β̂ − β)T
= E (β + (X T X)−1 X T ε − β)(β + (X T X)−1 X T ε − β)T
= E ((X T X)−1 X T ε)((X T X)−1 X T ε)T
Como
E[εεT ] = Var(ε) − E[ε]E[εT ] = Var(ε),
Var(β̂) = (X T X)−1 X T σ 2 IX(X T X)−1
= σ 2 (X T X)−1 X T X(X T X)−1
= σ 2 (X T X)−1 (X T X)(X T X)−1
= σ 2 (X T X)−1 I
Le
ón
&
= σ 2 (X T X)−1 .
Ejemplo 43. En el caso de la regresión lineal simple,
Pn
X2
σ2
2
,
Var(
β̂
.
Var(β̂0 ) = σ Pn i=1 i
1 ) = Pn
2
n i=1 (Xi − X)2
i=1 (Xi − X)
Note que el parámetro σ 2 sigue siendo a priori desconocido.
Capı́tulo 3. Modelo multivariado
72
Teorema 17. Se cumple que
σ̂ 2 =
n
1 X 2
ε̂ .
n − k i=1 i
Demostración. A partir de
ε̂T ε̂ = (n − k)σ 2 ,
σ̂ 2 =
ε̂T ε̂
n−k
ε̂T ε̂
E[σ̂ ] = E
n−k
1
E[ε̂T ε̂]
=
n−k
Ga
ll
ar
2
do
y ajustando por el número de grados de libertad,
= σ2.
Teorema 18. Para la estimación por MCO de Yi = β0 + β1 Xi + εi
para muestras grandes8 o v.a. normales, se cumple que
2
&
σ̂
. Ası́,
E[Yi ] = β0 + β1 Xi , Var(Yi ) = σ 2 = n−2
Le
ón
σ̂ 2
Y i ∼ N β0 + β1 Xi ,
.
n−2
E[β̂0 ] = β0 , Var(β̂0 ) = n
8
σ̂ 2
Pn
Pn
i=1 Xi
2
i=1 (Xi −X)
β̂0 ∼ N β0 ,
n
σ̂ 2
Pn
. Ası́,
Pn
2
i=1 Xi
2
i=1 (Xi − X)
.
Gracias al Teorema del Lı́mite Central Casella and Berger (2002).
Capı́tulo 3. Modelo multivariado
73
2
σ̂
E[β̂1 ] = β1 , Var(β̂1 ) = Pn (X
. Ası́,
−X)2
i=1
i
β̂1 ∼ N β1 , Pn
σ̂ 2
2
i=1 (Xi − X)
.
Demostración. Se sigue de los teoremas 15 y 16.
Ejemplo 44. Considere el siguiente modelo
donde
2
4
1
6
do
Yi = a1 X1i + a2 X2i + a3 X3i + εi
Ga
ll
ar
0
0 −1 0
0
−1
0
0
−4
−1 0 0
X = −1 3 1 , Y = −1 .
1 −2 0
3
3 −4 1
1
−3
−2 2 1
6
1 0
2
Con esta información, podemos obtener los parámetros estimados
&
y analizar las diferentes propiedades exhibidas previamente. Para
calcular los coeficientes estimados, usamos la fórmula
Le
ón
β̂ = (X T X)−1 X T Y.
Usando un software de cálculo, obtenemos
56 −7 2
T
.
X3×9
X9×3 =
−7
51
5
2
5 4
Capı́tulo 3. Modelo multivariado
Luego
74
41
T
Y9×1 =
X3×9
7
.
3
Ası́, finalmente,
−1
41
0,7585
β̂ =
−7 51 5 7 = 0,2337 .
2
5 4
3
0,0787
56 −7 2
La varianza de los errores está dada por
ε̂T · ε̂
n−k
Ga
ll
ar
σ̂ 2 =
do
con n el número de observaciones y k el número de restricciones.
Acá n = 9 y k = 3. Por ende,
ε̂T · ε̂ = (Y − Ŷ )T (Y − Ŷ )
= (Y − X β̂)T (Y − X β̂)
=
9
X
i=1
Ası́,
ε̂2i = 44,0283.
44,0283
= 7,3380.
9−3
Finalmente, con todos estos datos, podemos obtener la matriz de
&
σ̂ 2 =
Le
ón
varianzas y covarianzas del vector de parámetros :
Var(β̂) = σ̂ 2 (X T X)−1
0,1385
0,0294 −0,1060
.
=
0,0294
0,1702
−0,2275
−0,1060 −0,2275 2,1719
Capı́tulo 3. Modelo multivariado
3.3.3.
75
Teorema de Gauss-Markov
El siguiente resultado es de gran importancia desde un punto
de vista teórico pues, explica las ventajas del uso de la estimación
vı́a MCO. Primero requerimos de la siguiente definición.
Definición 3.3.1. Decimos que θ̂ es el MEL (Mejor Estimador
Lineal Insesgado) de θ si
θ̂ es insesgado, i.e., E[θ̂] = θ.
Pn
do
θ̂ =
i=1 ci Xi (lineal).
Ga
ll
ar
θ̂ es el estimador más eficiente entre todos los estimadores
lineales e insesgados que existen de θ (minimiza la varianza).
El MELI θ̂M ELI resuelve entonces
mı́n Pn c2 Var[X ]
i
i=1 i
P:
s.a : Pn ci E[Xi ] = θ.
i=1
Teorema 19. Teorema de Gauss Markov. En el modelo de
ellos recordemos
&
regresión lineal y bajo el cumplimiento de todos los supuestos; entre
E[ui ] = 0
Le
ón
Var(ui ) = σ 2 < ∞
Cov(ui , uj ) = 0, ∀ i ̸= j,
el estimador β̂ obtenido a través de MCO es el Mejor Estimador
Lineal Insesgado (MELI).
Capı́tulo 3. Modelo multivariado
76
Demostración. Asumamos por contradicción que existe otro estimador lineal, que denotaremos β̃, lineal e insesgado, cuya varianza
es mı́nima. Este es entonces de la siguiente forma
β̃ = AY, A = (X T X)−1 X T + C T ,
siendo C ∈ Mn×k , con al menos una entrada diferente de cero. De
este modo,
do
β̃ = (X T X)−1 X T Y + C T Y.
Luego, usando la expresión para Y = Xβ + ε, se tiene
Ga
ll
ar
β̃ = (X T X)−1 X T [Xβ + ε] + C T [Xβ + ε]
= (X T X)−1 X T Xβ + (X T X)−1 Xε + C T Xε + C T ε
= β + (X T X)−1 Xε + C T Xε + C T ε.
Luego, tomando el valor esperado, como β̃ es insesgado,
E[β̃] = β + (X T X)−1 X T E[ε] + C T Xβ + C T E[ε]
= β + C T Xβ = β.
&
Esto implica que C T X = 0k×k . Luego, calculamos la varianza
Le
ón
Var(β̃) = E[(β̃ − E[β̃])(β̃ − E[β̃])T ].
Usando que
(X T X)−1 X T (Xβ + ε) + C T (Xβ + ε) − β = (X T X)−1 X T ε + C T ε
Capı́tulo 3. Modelo multivariado
77
se tiene
Var(β̃) = E[((X T X)−1 X T ε + C T ε)((X T X)−1 X T ε + C T ε)T ]
= E[((X T X)−1 X T ε + C T ε)(εT X(X T X)−1 + εT C)]
= (X T X)−1 X T E[εεT ]X(X T X)−1 + (X T X)−1 X T E[εεT ]C
+ C T E[εεT ]X(X T X)−1 + C T E[εεT ]C.
Usando la igualdad E[εεT ] = σ 2 I,
do
Var(β̃) = (X T X)−1 X T σ 2 IX(X T X)−1
+ (X T X)−1 X T σ 2 IC + C T σ 2 IX(X T X)−1 + C T σ 2 IC.
= σ 2 (X T X)−1 X T X(X T X)−1 + σ 2 (X T X)−1 (C T X)T
Ga
ll
ar
+ σ 2 C T C(X T X)−1 + σ 2 C T C.
Luego, nuevamente, como C T X = 0k×k , la expresión previa se
simplifica, quedando
Var(β̃) = σ 2 [(X T X)−1 + C T C].
Como Var(β̂) = σ 2 (X T X)−1 , para que β̃ tenga menor varianza,
el término σ 2 C T C tiene que ser negativo. Sin embargo, esto no es
&
posible. Por ende,
Le
ón
Var(β̂) < Var(β̃).
Teniendo ya el grueso de los fundamentos teóricos de la estimación
vı́a MCO, podemos proceder al análisis de los resultados subyacentes a este método de estimación. En particular, vamos a analizar
los residuos observados y la interpretación de los parámetros estimados.
Capı́tulo 3. Modelo multivariado
78
3.4.
Interpretaciones
3.4.1.
Indicadores de ajuste global
Definición 3.4.1. Dadas las observaciones de la variable que quiere
ser predecida Yi , definimos la Suma de Cuadrados Totales como
n
X
SCT =
(Yi − Y )2 .
i=1
do
Definición 3.4.2. Análogamente dados los valores de la variable de
interés predecida Ŷi , definimos la Suma de Cuadrados Explicativos
como
Ga
ll
ar
n
X
SCE =
(Ŷi − Y )2 .
i=1
Definición 3.4.3. Finalmente, dados los valores de la variable de
interés predecida, Ŷi , y los valores originales de la variable de interés
Yi , definimos la Suma de Cuadrados Residuales como
SCR =
n
X
(Yi − Ŷi )2 .
i=1
&
Teorema 20. Se cumple
SCT = SCE + SCR
2
(Yi − Y ) =
Le
ón
n
X
i=1
n
X
i=1
(3.3)
n
X
(Ŷi − Y ) +
(Yi − Ŷi )2 .
2
i=1
Capı́tulo 3. Modelo multivariado
79
Demostración. Partiendo de las definiciones,
i=1
2
(Yi − Y ) =
=
=
n
X
i=1
n
X
i=1
n
X
(Yi − Ŷi + Ŷi − Y )2
(ε̂i + (Ŷi − Y ))2
ε̂2i + 2
i=1
=
n
X
i=1
n
X
|i=1
(Yi − Ŷi )(Ŷi − Y ) +
{z
=0
n
X
2
ε̂i +
(Ŷi − Y )2
}
i=1
i=1
Ga
ll
ar
= SCR + SCE.
n
X
(Ŷi − Y )2
do
n
X
Definición 3.4.4. Usando las definiciones (3.4.1), (3.4.2) y (3.4.3),
el R2 se establece mediante la siguiente ecuación,
R2 =
SCE
SCR
=1−
.
SCT
SCT
(3.4)
En otras palabras, el coeficiente de determinación R2 es el ratio
entre la variación explicada y la variación total, es decir, qué
&
proporción de la variación de la dependiente es explicada por la(s)
variable(s) explicativa(s).
Le
ón
Note que la ecuación (3.4) se deduce de la igualdad (3.3). En efecto
SCT = SCE + SCR
SCT
SCE SCR
=
+
SCT
SCT
SCT
SCR
SCE
1−
=
= R2 .
SCT
SCT
Capı́tulo 3. Modelo multivariado
80
De este modo, siguiendo la definición, si por ejemplo R2 = 0,48,
entonces, se está explicando el 48 % de la variabilidad de la variable
dependiente en el conjunto de datos. Ciertamente, mientras mayor
sea el R2 , menor es la fracción SCE/SCT , por lo que el ajuste
es mejor. En efecto, si SCE/SCT → 0, SCT ≫ SCE, i.e., la
variabilidad de la predicción es considerablemente inferior a la
variabilidad original de los datos, respecto a la media muestral. Por
otro lado, si R2 → 0, SCE ≃ SCT . O sea, la predicción tiene tanta
do
variabilidad como los datos inicial, el ajuste es por ello bastante
pobre.
El coeficiente de determinación, R2 , pertenece en general al
Ga
ll
ar
intervalo [0, 1]. No obstante, puede ocurrir que R2 < 0, por ejemplo,
cuando la especificación del modelo es incorrecta. En general, de
aquı́ en adelante, tendremos R2 ∈ [0, 1]. Por ende, el análisis se
verá limitado a si R2 ∼ 0 (mal ajuste), o si R2 ∼ 1 (buen ajuste).
Si bien no es claro que sea un buen predictor de ajuste, es muy
frecuente que se incorpore en las investigaciones Rau (2016).
En general, el R2 es bajo (menor a 0.5) en datos de corte
transversal en comparación con los datos que provienen de series
&
de tiempo. Por ello, no se le debe dar tanto peso al tamaño del R2
cuando se realiza análisis con este tipo de datos. Por el contrario,
Le
ón
cuando se trabaja con bases de datos temporales, se le suele dar
énfasis al tamaño del R2 .
Definición 3.4.5. El coeficiente de correlación de Pearson es una
medida de la dependencia lineal entre dos variables aleatorias
Capı́tulo 3. Modelo multivariado
81
cuantitativas. Se define matemáticamente de la siguiente manera
ρXY =
σXY
Cov(X, Y )
.
=p
σX σY
Var(X) · Var(Y )
En el caso de una muestra aleatoria de dos variables, {X1 , ..., Xn }
y {Y1 , ..., Yn }
rXY = qP
Pn
i=1 (Xi − X)(Yi − Y )
n
2
i=1 (Xi − X) ·
qP
n
2
i=1 (Yi − Y )
∈ [−1, 1].
de dependencia entre dos variables aleatorias.
do
El coeficiente de correlación de Pearson permite distinguir 5 casos
Ga
ll
ar
1. Si r = 1, existe una correlación perfecta entre las 2 variables,
cuando una de ellas aumenta, la otra también lo hace en
proporción constante.
2. Si 0 < r < 1, existe un correlación positiva. Mientras menor
sea r (r → 0), más débil será esta correlación. Si una aumenta,
la otra puede que también, pero la intensidad y certitud de
esto es cada vez menor conforme r → 0.
&
3. Si r = 0, no existe correlación alguna, si X aumenta, Y puede
aumentar, como decrecer o mantenerse constante. No se puede
realmente sacar conclusión alguna. Esto no significa que no
Le
ón
exista relación alguna entre las v.a. y por ende que estas sean
independiente. Puede ser simplemente que la relación sea no
lineal.
4. Si −1 < r < 0, existe un correlación negativa. Mientras
menor sea r en valor absoluto (r → 0), más débil será esta
Capı́tulo 3. Modelo multivariado
82
correlación. Si una aumenta, la otra puede disminuir, pero
la intensidad y certitud de esto es cada vez menor conforme
r → 0.
5. Si r = −1, existe una correlación negativa perfecta. Esto
señala una dependencia total entre las dos variables llamada
relación inversa. Cuando una de ellas aumenta, la otra
disminuye en proporción constante.
do
Teorema 21. El coeficiente de determinación R2 puede definirse en
el caso más simple de regresión lineal vı́a el coeficiente de correlación
de Pearson de la siguiente manera en el caso bivariado
2
Cov(X, Y )2
σXY
=
.
2 2
σX
σY
Var(X) · Var(Y )
Ga
ll
ar
R2 = ρ2XY =
Demostración. Recordemos que Ŷ = β̂0 + β̂1 X
SCE
SCT
Var(Ŷ )
=
Var(Y )
R2 =
=
Var(β̂0 + β̂1 X)
Var(Y )
Le
ón
&
β̂12 Var(X)
Var(Y )
2
Pn
Var(X)
i=1 (Yi − Y )(Xi − X)
=
Pn
2
Var(Y )
i=1 (Xi − X)
2
Cov(X, Y ) Var(X)
=
Var(X)
Var(Y )
Cov(X, Y )
=
Var(X) · Var(Y )
=
= ρ2XY .
Capı́tulo 3. Modelo multivariado
83
El coeficiente de determinación R2 puede obtenerse directamente haciendo uso de los parámetros estimados. En efecto,
R2 = 1 −
ε̂T ε̂
Y T Y − nY
2 = 1−
(Y T − β̂ T X T )(Y − X β̂)
Y T Y − nY
2
.
Desarrollando el producto,
Y T Y − Y T X β̂ − β̂ T X T Y + β̂ T X T X β̂
Y T Y − nY
2
Usando la expresión para β̂,
Y T Y − Y T X β̂ − β̂ T X T Y + β̂ T X T X(X T X)−1 X T Y
Ga
ll
ar
R2 = 1 −
.
do
R2 = 1 −
Y T Y − nY
2
.
Simplificando, se obtiene finalmente
2
R =1−
Y T Y − Y T X β̂
Y T Y − nY
2
=
Y T X β̂ − nY
Y T Y − nY
2
2
.
(3.5)
En el caso de la regresión lineal múltiple, es decir, el caso general,
el coeficiente de determinación R2 puede verse comprometido por
el uso excesivo de variables explicativas. En efecto, al incluir cada
&
vez más variables, ciertamente se va a reducir la variabilidad de los
datos predichos, pero sacrificando el principio de parsimonia. Es
Le
ón
por esto que se introduce una penalidad y se define el R2 ajustado.
Definición 3.4.6. Sea k el número de variables explicativas (sin
incluir la constante), n el tamaño de la muestra y R2 el valor que
se obtiene calculando (3.5). Entonces
n−1
2
Rajustado = 1 −
(1 − R2 ).
n−k−1
(3.6)
Capı́tulo 3. Modelo multivariado
84
Teniendo en cuenta la constante,
2
Rajustado
con constante = 1 −
n−1
(1 − R2 ).
n−k
(3.7)
De este modo, analizando la expresión (3.6), se deduce que si
k aumenta, el ratio (n − 1)/(n − k − 1) también y por ende el
2
disminuye. De esta manera, el R2 ajustado puede tomar
Rajustado
valores menores o iguales al R2 . Una diferencia principal entre el R2
ajustado y el R2 está en que este último solo toma valores entre 0
do
y 1, mientras el R2 ajustado puede tomar valores negativos debido
a que:
Ga
ll
ar
1. el número de variables explicativas se acerque al número de
observaciones; es decir, no se cuenta con grados de libertad
suficientes para la estimación de los parámetros. Usualmente
se recomienda un ratio de 10 observaciones por parámetro a
estimar.
2. el coeficiente de determinación es bajo: lo que indica que
se esta incluyendo simplemente variables irrelevantes en el
Parámetros estimados
Le
ón
3.4.2.
&
modelo de regresión.
Ya hemos atacado el problema del ajuste global, evaluando el
performance del modelo de manera general. Sin embargo, no
nos hemos interesado aún sobre el significado de los parámetros
estimados. En el caso más simple, en el que se tiene únicamente
dos parámetros,
Capı́tulo 3. Modelo multivariado
85
β̂0 corresponde al valor predicho para Yi cuando Xi = 0. Por
ejemplo, si Xi mide los años de educación y Yi el salario, β̂0
será el salario promedio para personas sin educación.
Por otro lado, β̂1 es la pendiente de la recta de regresión
muestral, nos indica en cuanto varia el valor predicho Ŷi ante
el cambio de una unidad de Xi . Usando el ejemplo anterior, β̂1
miden en cuanto se incrementa el salario por un año adicional
do
de estudios.
Cuando se tiene más de un regresor, cada β̂k , k > 0, mide en cuanto
varia el valor predicho para Y ante el incremento de una unidad de
Ga
ll
ar
Xk .
En caso la relación funcional no sea estrictamente lineal, como
por ejemplo9 ,
ln(wi ) =
m
X
βj X j + εi ,
j=0
el significado de los β̂j ya no es el mismo debido al la presencia del
ln(·).
El análisis debe entonces tener en cuenta si los regresores
&
son argumento de un logaritmo, o si la variable por predecir es
argumento de un logaritmo. Se tiene entonces los siguientes 4 casos.
Le
ón
Nivel - Nivel: X vs Y , ∆Y = β̂1 ∆X. O sea, el incremento de
una unidad en X hace incrementar Y en β̂1 unidades.
β̂1
log-Nivel: log X vs Y , ∆Y =
%∆X. O sea, el
100
incremento en 1 % en X Incrementa Y en β̂1 unidades.
9
Esta ecuación es conocida como la ecuación de Mincer.
Capı́tulo 3. Modelo multivariado
86
Nivel-log: X vs log Y , %∆Y = 100β̂1 ∆X. O sea, β̂1 mide en
que % incrementa Y ante el incremento de una unidad de X.
log − log , log X vs log Y , %∆Y = β̂1 %∆X. El coeficiente
mide en que porcentaje incrementa Y ante incremento en 1 %
en X. En este sentido, los βj representan elasticidades.
Note que el uso de logaritmos permite eliminar el efecto de
las unidades en los coeficientes y se emplea cuando la variable es
do
asimétrica. A menudo resulta útil calcular elasticidades utilizando
derivación logarı́tmica. Un resultado importante en este contexto
Ga
ll
ar
es presentado a continuación.
Teorema 22. Si y = φ(x), entonces
ε=
Siempre que x, y > 0,
dy x
dy/y
=
.
dx/x
dx y
ε=
d ln y
.
d ln x
Demostración. Aplicando la regla de la cadena,
Luego,
&
d ln y
d ln y d ln x
=
.
dx
d ln x dx
O sea,
Le
ón
1 dy
d ln y 1
=
.
d ln x x
y dx
d ln y
x dy
=
.
d ln x
y dx
Capı́tulo 3. Modelo multivariado
87
En este punto, una pregunta de interés es, ¿qué sucede si
β̂j = 0? Ciertamente si β̂0 = 0, significa que el promedio de
los datos predichos será cero cuando X = 0. Sin embargo, si
β̂j = 0 para j ̸= 0, ¿acaso la contribución marginal es de 0 %?
El siguiente estadı́stico permite estudiar este tipo de escenarios
y sus consecuencias. Pero antes, recordemos ciertos conceptos de
inferencia estadı́stica.
Definición 3.4.7. Hipótesis estadı́stica. Una hipótesis estadı́stide una o más variables aleatorias.
do
ca es cualquier enunciado que hagamos respecto a la distribución
Ga
ll
ar
Definición 3.4.8. Todo contraste de hipótesis sobre un parámetro
unidimensional θ posee la forma siguiente
θ1 ,
simple
> θ0 , a cola derecha
H0 : θ = θ0 , vs H1 : θ =
< θ0 , a cola izquierda
̸= θ , a dos colas.
0
&
Definición 3.4.9.
α = P(Error tipo 1) = P(Rechazar H0 |H0 es verdadera)
Le
ón
β = P(Error tipo 2) = P(Aceptar H0 |H0 es falsa).
Observe que estamos asumiendo por simplicidad que H0 toma
la forma de una igualdad (θ = θ0 ). Con mayor generalidad podemos
tener una hipótesis del tipo H0 : θ ∈ Ξ ⊂ Θ. En tal situación
α = sup P(Rechazar H0 ).
θ∈Ξ
Capı́tulo 3. Modelo multivariado
88
Un buen contraste deberı́a ser aquel por el cual α y β son mı́nimos.
Sin embargo, por lo general, ambas probabilidades están en relación
inversamente proporcional. Es por ello que la convención es fijar una
de estas medidas, especı́ficamente α, con el fin de encontrar el mejor
contraste, definido con aquel que para este α fijo, posea el menor
β, o equivalentemente, la mayor potencia
ϕ = P(Rechazar H0 |H0 falsa) = 1 − β.
do
Ejemplo 45. Ahora, veamos un caso concreto en el cual se hace
uso de los tests de hipótesis. Más adelante, se estudiará el concepto
Ga
ll
ar
de heterocedasticidad de los errores. Este concepto, hace referencia
a un problema que puede presentarse en la naturaleza de los errores
estimados ε̂i vı́a MCO. La hipótesis nula H0 en este caso, es que los
errores no presentan heterocedasticidad. Una forma de evaluar esta
hipótesis es aplicando un test estadı́stico conocido como el test de
White10 . En este último, se usa como estadı́stico la variable nR2 , la
cual se distribuye según una χ2 de parámetro q, correspondiente
al número de regresores. Si nR2 > χ21−α (q) (siendo α un nivel
de significancia fijado previamente), se rechaza la hipótesis nula.
&
Gráficamente, la Figura (3.1) nos muestra en qué consiste el test
de hipótesis, teniendo en cuenta una regresión con 2 variables base
10
Le
ón
y 3 variables adicionales (interacciones); de ahı́ q = 5.
Este será estudiado con detenimiento más adelante en el Capı́tulo 8.
89
do
Capı́tulo 3. Modelo multivariado
Figura 3.1 Gráfica del examen estadı́stico.
Ga
ll
ar
Note que el valor del estadı́stico (v.a. de la muestra) nR2 ∈ R
se obtiene previamente y simplemente se compara con el valor de
tablar de χ21−α (5), siendo α = 0,05 (o sea, significancia al 95 %)11 .
Definición 3.4.10. Definimos el F estadı́stico
F =
R2 /k
(1 − R2 )/(n − k − 1)
dónde n es el número de observaciones y k el número de parámetros
&
sin incluir la constante, como el ratio entre cuanto explican las
variables incluidas en el modelo y lo que explica los errores.
Le
ón
La hipótesis nula H0 de este estadı́stico es
β̂2 = β̂3 = ... = β̂k = 0.
Si F > Fα,n,n−k−1 , con α el nivel de significancia, rechazamos la
hipótesis nula H0 . Si F ≤ Fα,n,n−k−1 se acepta la hipótesis nula. En
11
Si fuese un examen de dos colas, α = 0,025.
Capı́tulo 3. Modelo multivariado
90
otras palabras, lo que se busca establecer mediante el estadı́stico F
es cuanto explican los regresores en conjunto. También es posible
evaluar la contribución marginal de cada variable individualmente
usando el estadı́stico t (test t de Student)12 . El siguiente ejemplo
permitirá afianzar estas nociones.
Ejemplo 46. Mediante STATA, en el siguiente cuadro presentamos
los resultados de una regresión lineal simple en la que se incluyen
dos regresores, ((El ı́ndice del tipo de cambio real bilateral )) y el ((PBI
do
de USA)), para estimar ((Las exportaciones no tradicionales de Perú
Ga
ll
ar
en millones de dólares)).
&
Figura 3.2 Regresión nivel-nivel, exportaciones (xnt) vs tipo de
cambio bilateral (itcrb07) y PBI de USA.
Le
ón
La Figura (3.2) nos indica un coeficiente de determinación R2
de 0.9611 y un R2 ajustado de 0.9600. Debido a que los datos
corresponden a una serie de tiempo, es importante analizar si
12
Para mayor información sobre los tests estadı́stico ver Casella and Berger
(2002).
Capı́tulo 3. Modelo multivariado
91
R2 ∼ 1. Al ser el caso, podemos afirmar que globalmente el
modelo cumple su función explicativa. Más aún, se logra explicar
aproximadamente el 96 % de la variabilidad de los datos. Luego,
la probabilidad que los β̂j sean iguales a cero es prácticamente
nula. Además, uno puede verificar con el valor de tablas que
F > Fα,n,n−k−1 , siendo n = 76 y k = 2. Con esto en mente,
procedemos a analizar individualmente los coeficientes βj . Tal y
como puede verse en la tabla.
do
1. Si el tipo de cambio bilateral (itcrb07) sube en una unidad,
las exportaciones caen en 32 millones de dólares.
Ga
ll
ar
2. Por otro lado, si el PBI de los estados unidos se incrementa
en 1 billón de dólares, las exportaciones se incrementarán en
0.22 millones de dólares.
Ambas interpretaciones son estadı́sticamente significativas pues el
estadı́stico t es mayor en valor absoluto al valor de tablas para un
nivel α = 0,05. Recordemos que la H0 es en este caso β1 = 0 y β2 = 0
(independientemente). Si t ≤ tα , se acepta la hipótesis, lo cual
implica que el parámetro puede ser igual a cero, i.e., no explicativo.
&
Otra forma de percatarse que los coeficientes son significativos
es analizando el intervalo de confianza. Este intervalo, establece
Le
ón
con un 1 − α de probabilidad, un rango de valores para βj . En
este caso, al 95 %, observamos que ninguno toma el valor de cero
pues 0 ̸∈ ICβj . En conclusión, para establecer la significancia del
modelo a nivel global, analizamos el R2 , R2 ajustado y el F de
Fisher. Enseguida, pasamos al análisis regresor por regresor. En
dicho análisis, se evalúa si el t es menor al valor de tablas, si la
Capı́tulo 3. Modelo multivariado
92
probabilidad de la hipótesis nula (βj = 0) es mayor a 0.05, o si el 0
pertenece al intervalo de confianza. Finalmente, luego de descartar
regresores no explicativos, se procede con la interpretación de los
parámetros según la especificación del modelo (nivel o logaritmos).
Por ejemplo, en (3.2), las escalas son nivel-nivel. En ese sentido, una
unidad adicional en Xj representa un incremento de βj unidades en
Yj . Sin embargo, si se tiene una especificación en logaritmos, como
do
por ejemplo
ln(xnt)t = β0 + β1 ln(itrb07)t + ln(pbiusa)t + ut ,
(3.8)
la interpretación cambia. La siguiente tabla , corresponde a dicha
&
Ga
ll
ar
regresión, (3.8).
Figura 3.3 Regresión log-log, exportaciones vs tipo de cambio
Le
ón
bilateral y PBI de USA.
En este caso, el R2 y R2 ajustado siguen indicando una
bondad de ajuste globalmente positiva. Al rededor del 90 % de
la variabilidad de los datos es explicada. Tanto globalmente como
individualmente el modelo es también estadı́sticamente significativo
Capı́tulo 3. Modelo multivariado
93
pues P > F (probabilidad de la hipótesis nula en relación al
estadı́stico de Fisher ) y P > t (probabilidad de la hipótesis nula
en relación al estadı́stico t de Student) son prácticamente nulas. El
cambio más notorio es el de los valores en los parámetros estimados.
Esto es sin embargo coherente con el hecho que se han tomado
logaritmos en (3.8), y por ende, la contribución ya no es marginal
pero más bien porcentual. Leemos que,
exportaciones caen en 0.85 % .
do
1. Si el tipo de cambio bilateral (itcrb07) sube en 1 %, las
2. Si el PBI de USA se incrementa en 1 %, las exportaciones se
3.5.
Ga
ll
ar
incrementarán en 2,9 % por ciento.
Restricciones lineales
En esta última sección, nuestro objetivo será analizar relaciones
funcionales lineales entre los parámetros. Recordemos que los
tests vistos previamente han sido H0 : βj = 0 (para cada j
independientemente) y H0 : βj = 0 (para cada j en conjunto). Sin
&
embargo, considere por ejemplo la siguiente regresión especificación
Le
ón
Yi = AKiα Lβi eεi ,
(3.9)
que es de hecho equivalente a
ln Yi = β0 + β1 ln Ki + β2 ln Li + εi .
(3.10)
Queremos verificar β̂1 + β̂2 = 1. Note que (3.9) corresponde a una
forma funcional Cobb-Douglas, i.e., se asume que la producción
Capı́tulo 3. Modelo multivariado
94
es igual a f (K, L) = AK α Lβ , y se multiplica por un término
estocástico eε , ε ∼ N (0, σ 2 ). Sacando logaritmos a la Ecuación 3.9
se obtiene (3.10); una forma lineal en las variables y se entiende
que, un incremento de 1 % en la cantidad de uno de los factores de
producción genera un incremento de β % en el nivel de producción
Y (donde β es el parámetro asociado al regresor). La hipótesis que
se busca contrastar tiene como objetivo analizar los rendimientos
a escala que presenta la función de producción implı́citamente
constantes, es decir
Ga
ll
ar
f (λK, λL) = λf (K, L), ∀ λ > 0.
do
definida. En este caso, analizar si f tiene rendimientos a escala
A continuación analizamos en detalle la técnica econométrica que
permite incorporar restricciones.
Definición 3.5.1. Definimos la matriz de restricciones R como la
matriz del sistema Rq×k βk×1 = rq×1 , siendo r un vector fijo y q
siendo el número de restricciones. Esta matriz es la que define las
restricciones lineales.
&
Ejemplo 47. En el caso presentado previamente (3.9), tenı́amos
Le
ón
β̂1 + β̂2 = 1.
Por ende, R = (1, 1)T , r = 1 y q = 1.
Recordemos que β̂ ∼ N (β, σ 2 (X T X)−1 ). A partir de esto se
deduce que Rβ̂ ∼ N (Rβ = r, Rσ 2 (X T X)−1 RT ). Más aún
−1
(Rβ̂ − r)T σ 2 R(X T X)−1 RT
(Rβ̂ − r) ∼ χ2 (q).
Capı́tulo 3. Modelo multivariado
95
Usando la relación13
σ̂ 2 =
q
ε̂T ε̂
n−k−1
tenemos
T
(Rβ̂ − r)
q
ε̂T ε̂R(X T X)−1 RT
n−k−1
−1
(Rβ̂ − r) ∼ Fq,n−k−1 .
Reemplazando con
q
(Y T Y − Y T X β̂)R(X T X)−1 RT
n−k−1
−1
Ga
ll
ar
finalmente
T
(Rβ̂−r)
do
ε̂T ε̂ = (Y − X β̂)T (Y − X β̂) = Y T Y − Y T X β̂,
(Rβ̂−r) ∼ Fq,n−k−1 .
(3.11)
La Ecuación 3.11 nos permite testear hipótesis reemplazando r.
Si el F calculado es mayor que el valor crı́tico Fα,q,n−k−1
rechazamos H0 . Esto significa que hay suficiente evidencia
estadı́stica para concluir que las restricciones Rβ = r no son
verdaderas. En otras palabras, las restricciones impuestas por
&
H0 no se ajustan bien a los datos.
Si F calculado es menor o igual al valor crı́tico Fα,q,n−k−1 , no
Le
ón
rechazamos H0 . Esto significa que no hay suficiente evidencia
estadı́stica para rechazar las restricciones Rβ = r. En otras
palabras, las restricciones impuestas por H0 son consistentes
con los datos.
13
Si incluimos la constante en el conteo n − k.
Capı́tulo 3. Modelo multivariado
96
Ejemplo 48. Se tiene el siguiente modelo de regresión
Yi = β0 + β1 X1i + β2 X2i + εi .
Ga
ll
ar
El objetivo es contrastar las siguientes hipótesis:
do
A partir de este último, se obtienen las matrices
1 2
4
6
1 0 −1
0
X = 1 0
0 , Y =
−1 .
1 −1 1
−4
1 −1 3
−1
H0 : β1 = 0 , β2 + β3 = 1.
Para esto, necesitamos calcular
−1
q
T
T
−1 T
T
(Rβ̂ − r) ∼ Fq,n−k−1 .
ε̂ ε̂R(X X) R
(Rβ̂ − r)
n−k−1
β̂ = (X T X)−1 X T Y
&
Primero, obtenemos β̂,
1
2
4
−1
Le
ón
1 1 1 1
1
1 0 −1
=
0
2 0 0 −1 −1 · 1 0
1 −1 1
4 −1 0 1
3
1 −1 3
T
287 269 205
= −
.
428 107 428
6
1 1 1 1
1
0
2 0 0 −1 −1 −1
4 −1 0 1
3
−4
−1
Capı́tulo 3. Modelo multivariado
97
Luego,
ε̂T ε̂
n−k
(Y − X β̂)T (Y − X β̂)
=
n−k
(Y − X β̂)T (Y − X β̂)
.
=
5−3
Var(ε̂) =
Reemplazando con
Ga
ll
ar
y despejando ε̂T ε̂, se obtiene
do
6
1 2
4
0 1 0 −1 −287/428
Y − X α̂ =
0
−1 − 1 0
269/107
−4 1 −1 1 205/428
−1
1 −1 3
ε̂T ε̂ ≃ 2,64.
Finalmente,
&
β̂
1
1 0 0
0
β̂2 = = r.
Rβ̂ =
0 1 1
1
β̂3
Le
ón
Ası́, reemplazando con los valores numéricos ya obtenidos, se tiene
que F ≃ 8,40.
Capı́tulo 3. Modelo multivariado
3.5.1.
98
Intervalos de confianza y t−Student
Cuando q = 1, denotando θ = Rβ = r y θ̂ = Rβ̂ 14
θ̂ − θ
p
∼ tn−k .
s2 R(X T X)−1 RT
Luego, si deseamos un intervalo del (1 − α) % de confianza para el
verdadero valor del parámetro θ, es suficiente con obtener las tablas
1−α
1−α=P
α/2
tn−k ≤ p
2
(
θ̂ − θ
s R(X T X)−1 RT
1−α
2
θ̂ − θ
1−α
2
)
do
2
e invertir el test. Esto es
de tn−1
(
≤ tn−k
1−α
2
Ga
ll
ar
= P −tn−k ≤ p
≤ tn−k
s2 R(X T X)−1 RT
n
h
io
1−α p
2
= P θ ∈ θ̂ ± tn−k
s2 R(X T X)−1 RT .
)
Recordemos que la distribución t de Student se utiliza cuando se
estima la media de una población normal con una muestra pequeña
y se desconoce la varianza poblacional. La distribución t de Student
con ν grados de libertad, denotada tν , es la distribución de la
variable aleatoria T = √Z
U/ν
donde Z ∼ N (0, 1) es una variable
&
aleatoria que sigue una distribución normal estándar, U ∼ χ2 (ν)
es una variable aleatoria que sigue una distribución chi-cuadrado
Le
ón
con ν grados de libertad, y Z y U son independientes. La función
de densidad de probabilidad de la distribución t de Student con ν
14
Si estamos considerando el modelo con k parámetros estimados incluyendo
la constante, los grados de libertad son n − k. Cuando no se considera la
constante, usamos n − k − 1.
Capı́tulo 3. Modelo multivariado
99
grados de libertad es
ν+1
2 − 2
Γ ν+1
t
2
1+
f (t; ν) = √
ν
νπ Γ ν2
donde Γ es la función gamma Casella and Berger (2002). La
distribución t de Student es simétrica respecto a t = 0. Para ν > 1,
ν
E[T ] = 0. Para ν > 2, Var(T ) = ν−2
. Para encontrar el valor crı́tico
1−α
2
, buscamos el punto t en el cual la integral acumulada de la
tn−k
Z t 1−α
2
n−k
1−α
.
2
Ga
ll
ar
−∞
f (t; n − k) dt =
do
densidad de probabilidad desde −∞ hasta t es igual a 1−α
:
2
Aquı́, f (t; n − k) es la función de densidad de probabilidad de la
distribución t de Student con n − k grados de libertad.
3.5.2.
Método de los residuos
Una alternativa para contrastar una serie de restricciones
lineales donde no se utilizan los coeficientes estimados β̂ es usar
la suma de residuos al cuadrado del modelo estimado dos veces.
&
En primer lugar, se estima el modelo sin las restricciones lineales y
luego el modelo con las restricciones lineales
Le
ón
Fq,n−k−1 =
SRCCR −SRCSR
q
SRCSR
n−k−1
con q el número de restricciones lineales, n el número de
observaciones, k el número de variables explicativas sin incluir la
constante, SRCCR la suma de cuadrados con restricciones y SRCSR
la suma de cuadrados sin restricciones.
Capı́tulo 3. Modelo multivariado
100
Cuando se asume que todos los coeficientes estimados de las
explicativas son iguales a cero [q = k], tenemos en dicho caso el
siguiente resultado
Fq,n−k =
SRCCR −SRCSR
k
SRCSR
n−k−1
SCE
= SRCk SR =
n−k−1
R2 /k
. (3.12)
(1 − R2 )/(n − k − 1)
Retomando el caso del Ejemplo 44, usando (3.12), y teniendo en
cuenta la ausencia de la constante en la especificación, se obtiene
3.5.3.
SRCCR −SRCSR
k
SRCSR
n−k
≃ 1,5.
Propiedades asintóticas
do
Fk,n−k =
Ga
ll
ar
Para abordar las propiedades asintóticas del estimador MCO,
debemos abordar algunos resultados preliminares. Algunos son
detallados en el apéndice de teorı́a de la probabilidad.
Pk
Pk
i
i
Teorema 23. Cramer-Wald. Si
i=1 λi X en
i=1 λi Xn →
distribución, entonces Xn → X en distribución.
Teorema 24. Teorema del Lı́mite Central de LinderbergLevy Multivariado. Sea X n el promedio muestral de {Xi }i=1,...,n
&
con E[Xi ] − µ y Var(Xi ) = Σ. Entonces,
√
n(X n − µ) → N (0, Σ)
Le
ón
en distribución.
Teorema 25. Si Xn → x0 en probabilidad y g : Rk → R es
continua en x0 , entonces
g(Xn ) → g(x0 )
en probabilidad.
Capı́tulo 3. Modelo multivariado
101
Teorema 26. Slutsky. Si Xn ∼ Yn , con Xn , Yn : Ω → Rk y
Xn → x0 en probabilidad, y Yn → Y en distribución, entonces
1. Xn + Yn → x0 + Y en distribución
2. XnT Yn → xT0 Y en distribución.
Teorema 27. Mann-Wald. Si Xn → X en distribución y g(x) es
g(Xn ) → g(X)
Ga
ll
ar
en distribución.
do
continua para todo x, entonces
Teorema 28. Método Delta. Sea θn un vector aleatorio asintóti√
camente normal (convergencia en probabilidad) con n(θn − θ0 ) →
N (0, Σ) en distribución y g(θ) ∈ C 1 (Vθ0 ) con Jacobiano
G0 =
Entonces,
∂g
.
∂θ θ=θ0
√
n(g(θn ) − g(θ0 )) → N (0, G0 ΣGT0 )
&
en distribución.
Demostración. De acuerdo con el Teorema del Valor medio, existe
Le
ón
θ̃n ∈ [θ0 , θn ] tal que
∂g
(θn − θ0 )
∂θ θ=θ̃n
√
√
∂g
n(g(θn ) − g(θ0 )) =
n(θn − θ0 ).
∂θ θ=θ̃n
(g(θn ) − g(θ0 )) =
Capı́tulo 3. Modelo multivariado
102
Dado que θn → θ0 en probabilidad, θ̃n → θ0 en probabilidad. Luego,
por el Teorema 25,
∂g
→ G0
∂θ θ=θ̃n
√
en probabilidad. Por otro lado, n(θn − θ0 ) → N (0, Σ) en
distribución. Luego, por el Teorema 26,
→ G0 N (0, Σ)
Recordemos que
Ga
ll
ar
= N (0, G0 ΣGT0 ).
1X T
X Xi
n i=1 i
n
β̂ = (X T X)−1 X T Y =
Ahora bien, Yi = XiT β + ϵi ,
do
√
√
∂g
n(g(θn ) − g(θ0 )) =
n(θ̃n − θ0 )
∂θ θ=θ̃n
!
1X T
X Yi
n i=1 i
!
.
!
n
1X T
β̂ =
X (Xi β + εi )
n i=1 i
!−1
!
n
n
1X T
1X T
β̂ = β +
X Xi
X ϵi
n i=1 i
n i=1 i
!
−1
n
√
1 T
1 X
√
n(β̂ − β) =
X Xi
Xi ϵi .
n i
n i=1
1X T
X Xi
n i=1 i
Le
ón
&
n
!−1
n
Por la ley débil de los grandes números,
1X T
Xi Xi → E[XiT Xi ] = D
n i=1
n
Capı́tulo 3. Modelo multivariado
103
en probabilidad. Luego, por el teorema de la continuidad, tenemos
que
1X T
X Xi
n i=1 i
n
!−1
→ D−1
en probabilidad. Como
√ X
n
n
n
1 X T
√
Xi ϵi =
XiT ϵi ,
n i=1
n i=1
E[Xi ϵi ] = E[Xi (Yi − Xi β)]
Ga
ll
ar
= E[XiT Yi ] − E[XiT Xi ]β
do
podemos aplicar el TLC y
= E[XiT Yi ] − E[XiT Xi ](E[XiT Xi ])−1 E[XiT Yi ]
= E[XiT Yi ] − E[XiT Yi ]
=0
Var(XiT ϵi ) = E[XiT ϵi ϵTi Xi ]
= E[ϵ2i XiT Xi ]
= C.
&
Luego, por el TLC,
Le
ón
√ X
n
n
X T ϵi → N (0, C)
n i=1 i
en distribución. Ası́, aplicando el Teorema 26,
!−1
!
n
n
√
1X T
1 X T
√
n(β̂ − β) =
X Xi
X ϵi
n i=1 i
n i=1 i
→ D−1 N (0, C) = N (0, D−1 C(D−1 )T )
Capı́tulo 3. Modelo multivariado
104
en distribución.
En capı́tulos posteriores15 , se levantarán los supuestos hechos
en este capı́tulo. Antes, veamos una regresión lineal con un proceso
iid:
Yi = βXi + ϵi ,
con E[ϵi ] = 0 y Var(ϵi ) = σ 2 . Luego, asumiendo que
C = E[ϵ2i XiT Xi ]
= E[ϵ2i ]E[XiT Xi ]
Ga
ll
ar
= σ 2 E[XiT Xi ]
| {z }
do
E[ϵ2i |Xi ] = E[ϵ2i ],
=D
y
Var(β̂) = D−1 CD−1
= [E[XiT Xi ]]−1 σ 2 E[XiT Xi ]E[XiT Xi ]−1
= E[XiT Xi ]−1 σ 2 .
Ahora bien,
√
15
Le
ón
por lo que
1 T
X X = E[XiT Xi ]
N
&
P lı́m
N (β̂ − β) → N (0, σ 2 D−1 ) = N
−1 !
1 T
0, P lı́m X X
.
N
En el siguiente capı́tulo se aborda un tipo de regresión en particular en
el cual los regresores son variables discretas, categóricas. En el subsiguiente,
el tema del muestreo. Ya en los que le siguen a este último, abordamos la
multicolinealidad, heterocedasticidad, autocorrelación y endogeneidad.
Capı́tulo 3. Modelo multivariado
105
La única diferencia con el modelo clásico yace en el hecho que ahora
−1
−1
escribimos P lı́m N1 X T X
en vez de N1 X T X .
3.5.4.
Estimador con restricciones
El problema de optimización en presencia de restricciones
do
lineales corresponde analı́ticamente a
mı́nβ (Y − Xβ)T (Y − Xβ)
PR :
s.a:
Rβ = r.
Ga
ll
ar
Luego, para resolver PR , se plantea el Lagrangiano del problema
L(β, λ) = (Y − Xβ)T (Y − Xβ) + λ(Rβ − r).
Mediante las condiciones de primer orden, se obtiene el siguiente
par de ecuaciones
∂L(β, λ)
= −2X T Y + 2X T Xβ + 2λT R = 0
∂β
∂L(β, λ)
= Rβ − r = 0.
∂λ
&
Finalmente, luego de ciertas manipulaciones algebraicas,
β̂ LRS = (X T X)−1 X T Y − (X T X)−1 RT (R(X T X)RT )(R(X T X)−1 X T Y − r)
Le
ón
= β̂ M CO − (X T X)−1 RT (R(X T X)RT )(Rβ̂ M CO − r).
Capı́tulo 4
do
Variables cualitativas
Ga
ll
ar
Imagine que se busca estimar el logaritmo del salario de un
trabajador. Una opción para ello es usar la ecuación de Mincer
Borjas (2000), cuya especificación tradicional es1
ln w = ln w0 + ρx1 + β1 x2 + β2 x22 .
(4.1)
En (4.1), w es el salario, w0 el salario promedio, x1 los años de
escolaridad, y x2 los años de experiencia laboral. Sin embargo,
en caso del Perú, podemos incluir un regresor adicional, x3 que
&
corresponde al sexo del trabajador. Es decir, x3 = {Hombre, Mujer}
y
Le
ón
ln w = ln w0 + ρx1 + β1 x2 + β2 x22 + β3 x3 .
(4.2)
Si bien w, x1 y x2 son variables que pueden tomar valores en R,
x3 no, es una variable cualitativa. Ciertamente no podemos decir
que un incremento en una unidad de x3 genera un incremento en
1
Incorporar β2 x22 se explica en la literatura. Véase por ejemplo Polachek
(2007).
106
Capı́tulo 4. Variables cualitativas
107
1 % del salario. ¿Cómo interpretar entonces β̂3 ? Este será uno de
los objetivos principales de este capı́tulo.
4.1.
Conceptos básicos
Definición 4.1.1. Variable cualitativa. Una variable cualitativa indica la presencia o ausencia de un atributo o cualidad. Por
ejemplo, sexo, raza, religión, región, nacionalidad, afiliación polı́ti-
do
ca, entre otros.
Ejemplo 49. Las siguientes ecuaciones representan especificacio-
Ga
ll
ar
nes en las cuales los regresores son variables dicotómicas x ∈ {0, 1},
i.e., 1 indica la ausencia (o presencia) de un atributo
Salarioi = β1 + β2 Sexoi + ϵi
Salarioi = β1 + β2 Urbanoi + ϵi
ln(Salarioi ) = β1 + β2 Sexoi + β3 Indı́genai + ϵi
Al igual que con variables independientes cuantitativas continuas, con variable cualitativas también se usa el método de Mı́nimos
&
Cuadrados Ordinarios para estimar.
Los supuestos del modelo en caso se incluyan variables no
Le
ón
continuas son:
Linealidad en X.
Homocedasticidad: E[ϵi ] = 0, Var[ϵi ] = σ 2 para todo i.
Normalidad: las muestras de cada grupo deben provenir de
poblaciones con distribución normal.
Capı́tulo 4. Variables cualitativas
108
Independencia de errores: no hay autocorrelación entre los
errores de cada una de las observaciones en la muestra.
Note que deben incluirse m − 1 categorı́as (si son m en total)
para evitar la colinealidad, y ası́ el modelo podrá ser estimable.
Ejemplo 50. Imaginemos que buscamos estimar el logaritmo del
salario en función de la región r en la cual el trabajador habita, es
r ∈ {Costa, Sierra, Selva}.
Si planteamos
do
decir,
Ga
ll
ar
ln wi = β1 + β2 Costai + β3 Sierrai + β4 Selvai + ϵi ,
como un individuo pertenece a una de las 3 regiones, se tiene (sin
pérdida de generalidad) que
1 1 0 0
1 0 1 1
X = . . . . .
.. .. .. ..
1 1 0 0
O sea,
&
X 2 + X3 + X 4 = X1 .
Le
ón
Sin embargo, esto viola el supuesto de multicolinealidad. Es por
ello que deben solo incluirse dos categorı́as y no las tres. A esto se
conoce como la trampa de las dummies.
Definición 4.1.2. La categorı́a a la cual no se asigna variable
dicotómica se conoce como categorı́a base, de comparación, de
Capı́tulo 4. Variables cualitativas
109
control, de referencia u omitida. Además, todas las comparaciones
se hacen respecto a dicha categorı́a de comparación.
En concreto,
Y i = β1 +
m−1
X
βj Xji .
j=2
El valor de β̂1 es el valor promedio de la categorı́a base. Luego,
β̂j − β̂1 = Y j − Y 1 . En efecto, β̂1 es el valor promedio de la variable
do
dependiente cuando la variable explicativa toma el valor de 0.
Ejemplo 51. Retomando el modelo que busca estimar el salario de
Ga
ll
ar
un individuo en función de la región en la cual habita, tendremos
Salarioi = β1 + β2 Costai + β3 Sierrai + ϵi .
En este caso, la categorı́a base es la región Selva. Si el individuo i
habita en la Costa, Costai = 1 y Sierrai = 0. Análogamente, si el
individuo pertenece a la Sierra, Costai = 0 y Sierrai = 1. Luego,
E[Salarioi |Costai ] = E[β1 + β2 Costai + β3 Sierrai + ϵi |Costai = 1, Sierrai = 0]
&
= β1 + β2
E[Salarioi |Sierrai ] = E[β1 + β2 Costai + β3 Sierrai + ϵi |Costai = 0, Sierrai = 1]
Le
ón
= β1 + β3
E[Salarioi |Selvai ] = E[β1 + β2 Costai + β3 Sierrai + ϵi |Costai = 0, Sierrai = 0]
= β1 .
De este modo, si por ejemplo, tenemos β1 = 1000, β2 = 950 y
β3 = 300, los trabajadores de la Selva ganan en promedio 1000
Capı́tulo 4. Variables cualitativas
110
soles, mientras que los de la Costa ganan 1950 soles y los de la
Sierra 1300 soles.
Ejemplo 52. Consideremos nuevamente el caso en el que se busca
estimar el salario en soles de los trabajadores peruanos. Esta vez,
se utiliza información de la educación (medida en años de estudio),
el sexo del trabajador y la región natural donde vive (Costa, Sierra
y Selva). La regresión lineal descrita es entonces
(4.3)
do
Sali = β0 + β1 Ei + β2 Si + β3 Sii + β4 Sei + ϵi ,
donde Sal es el salario, E los años de estudio, S el sexo (1 si
Ga
ll
ar
es hombre, 0 si es mujer), Si región sierra, Se región selva y ϵi
es el término de error aleatorio. Usando esta especificación (4.3),
podemos calcular el promedio de los salarios en función de la región
y la brecha salarial por sexo en cada región.
E[Sali |Si = 0, Costa] = β0 + β1 Ei + β2 (0) + β3 (0) + β4 (0)
&
= β0 + β1 Ei .
Le
ón
E[Sali |Si = 1, Costa] = β0 + β1 Ei + β2 (1) + β3 (0) + β4 (0)
= β0 + β1 Ei + β2 .
E[Sali |Si = 0, Sierra] = β0 + β1 Ei + β2 (0) + β3 (1) + β4 (0)
= β0 + β1 Ei + β3 .
Capı́tulo 4. Variables cualitativas
111
E[Sali |Si = 1, Sierra] = β0 + β1 Ei + β2 (1) + β3 (1) + β4 (0)
= β0 + β1 Ei + β2 + β3 .
E[Sali |Si = 0, Selva] = β0 + β1 Ei + β2 (0) + β3 (0) + β4 (1)
do
= β0 + β1 Ei + β4 .
Ga
ll
ar
E[Sali |Si = 1, Selva] = β0 + β1 Ei + β2 (1) + β3 (0) + β4 (1)
= β0 + β1 Ei + β2 + β4 .
Luego, definiendo SalH el salario de los hombres y SalM el salario
de las mujeres,
Costa:
E[SalH] = β0 + β1 Ei + β2
&
E[SalM] = β0 + β1 Ei
E[SalH] − E[SalM] = β2 .
Le
ón
Sierra:
E[SalH] = β0 + β1 Ei + β2 + β3
E[SalM] = β0 + β1 Ei + β3
E[SalH] − E[SalM] = β2 .
Capı́tulo 4. Variables cualitativas
112
Selva:
E[SalH] = β0 + β1 Ei + β2 + β4
E[SalM] = β0 + β1 Ei + β4
E[SalH] − E[SalM] = β2 .
En general, SalH − SalM = β̂2 . Es este parámetro el que mide
la brecha del salario por región. Note que, si se comparase
entre regiones, el resultado cambiarı́a.
do
Ejemplo 53. Con el objetivo de determinar si existen o no
diferencias en las calificaciones obtenidas por hombres y mujeres en
Ga
ll
ar
una determinada asignatura, a partir de 20 observaciones se estimó
el siguiente modelo
Notai = β0 + β1 Nota media Microi + β2 Géneroi + ϵi ,
donde la variable género toma el valor 1 si se trata de una mujer y 0
para un varón. Los resultados de la estimación fueron los siguientes
[ i = 25 + 0,75Nota media Microi + 20,5Géneroi + ϵi .
Nota
&
Luego,
E[Nota|Mujer] − E[Nota|Hombre] = 20,5.
Le
ón
Ası́, existe una diferencia en el esperado de la nota en función del
género: las mujeres obtienen 20.5 puntos (en promedio) por encima
que los hombres.
Capı́tulo 4. Variables cualitativas
4.2.
113
Interacciones
De momento, se han estudiado especificaciones de la forma
Yi = β0 + β1 X1i + β2 X2i + · · · + βk Xki + ϵi
donde Xji ∈ R o Xji ∈ {0, 1}. Sin embargo, regresando al modelo
(4.3), supongamos que se presume que la brecha salarial por sexo
no es homogénea en cada región, i.e., que Sali en función de Si
W = Si o Se.
do
depende de Wi , con
¿Cómo contrastar dicha hipótesis? Se implementan lo que se conoce
Ga
ll
ar
como interacciones.
Definición 4.2.1. Si en el modelo simplificado
Yi = β1 + β2 Xi + β3 Wi + ϵi ,
se presume que el valor de Yi en función de Xi depende de Wi , el
modelo se convertirı́a en
Yi = β1 + β2 Xi + β3 Wi + β4 Xi Wi + ϵi .
&
Se dice entonces que X interactúa con W .
Volviendo a (4.3), el modelo queda de la siguiente manera
Le
ón
Sali = β0 + β1 Ei + β2 Si + β3 Sii + β4 Sei + β5 Si Sii + β6 Si Sei + ϵi ,
si se presume una interacción entre el sexo del individuo y la región
en la que habita.
Cuando Xi y Wi son variables binarias, el impacto se mide
directamente en la suma de los coeficientes, en particular, la
pendiente para Xi serı́a igual a β̂2 + β̂4 Wi .
Capı́tulo 4. Variables cualitativas
114
Ejemplo 54. Suponga que se busca analizar el efecto de los años
de escolaridad de la madre sobre el estado nutricional de las niñas
y niños. No obstante, se presume que dicha relación puede ser
afectada por la condición de pobreza de la madre. En otras palabras,
lo que se plantea es que existe una diferencia en la pendiente (4.1),
o relación entre el estado nutricional y años de escolaridad, en caso
Ga
ll
ar
do
la madre sea pobre o no.
&
Figura 4.1 Diferencia en las pendientes.
El modelo en cuestión, teniendo en cuenta la interacción, es
Le
ón
Nutricióni = β0 + β1 Educación Madrei + β2 Pobrei
+ β3 Educación Madrei · Pobrei + ϵi .
De este modo, si el niño tiene una madre que es considerada Pobre,
Nutricióni = β0 + β1 Educación Madrei + β2 + β3 Educación Madrei + ϵi
= (β0 + β2 ) + (β1 + β3 )Educación Madrei + ϵi .
Capı́tulo 4. Variables cualitativas
115
Ası́, tanto el promedio como la pendiente se ven afectados. Note que,
en particular, el sentido de la relación entre el estado nutricional
del niño y la educación de la madre puede cambiar.
Ejemplo 55. En la Figura (4.2) se presentan los resultados de la
regresión
Yi = Talla para la edadi = β0 + β1 Madre trabajai
(4.4)
do
+ β2 Urbanoi + β3 Riquezai + ϵi .
En esta última, las variables tanto la variable Madre trabaja como
Urbano son binarias. Note primero que la variable Madre trabaja es
Ga
ll
ar
no significativa pues 0 ∈ IC = [β̂1 −δ, β̂1 +δ]. Luego, si i vive en una
zona urbana, en promedio, i tendrá un valor para Yi superior por 24
unidades2 al individuo ℓ que reside en una zona rural. Finalmente, la
riqueza es una variable que influye positivamente sobre la talla para
la edad. Concretamente, un incremento de una unidad en la riqueza
genera un incremento de 35 unidades en la talla para la edad. Sin
embargo, globalmente, para ser un modelo de corte transversal la
significancia es positiva (P > F ∼ 0). No obstante, al estudiar el
&
2
R2 y Radj
, nos percatamos que el modelo explica únicamente el
1,3 % de la variabilidad de los datos. Esto hace reflexionar sobre
bajo.
2
Le
ón
la especificación lineal utilizada pues es un valor considerablemente
Según la medida tomada para Y .
Capı́tulo 4. Variables cualitativas
116
do
Figura 4.2 Regresión talla para la edad, ENDES 2019.
El Ejemplo 54 se basa en los datos de la Encuesta Demográfica y
Ga
ll
ar
de Salud Familiar - ENDES (2019). La cantidad de datos observados
asciende a 14 847 individuos, número considerable considerando el
número de regresores en el modelo. Justamente, es en el siguiente
capı́tulo en el cual se abordarán los temas relacionados al tamaño
Le
ón
&
de la muestra, criterios de selección de muestra, entre otros.
Capı́tulo 5
do
Muestreo
Ga
ll
ar
El concepto de muestra surge por la necesidad de recolectar
información, datos, pero muchas veces, dada la gran cantidad
de elementos (personas por ejemplo) a las cuales se les extrae
la información, solamente es posible acceder a una parte del
total. En este capı́tulo se van a estudiar los conceptos básicos
del muestro y presentar algunos ejemplos en los cuales se puede
apreciar la importancia de esta técnica. En una primera instancia,
empezaremos con las definiciones elementales. Luego, analizaremos
&
el problema del tamaño de muestra. Enseguida, presentaremos
una de las dos formas de seleccionar una muestra: el muestreo
probabilı́stico. Se sigue con los diseños experimentales, esenciales
Le
ón
para el desarrollo, por ejemplo, de polı́ticas públicas o programas
sociales. Finalmente, concluimos con el estudio del método conocido
de remuestreo conocido como Bootstrap.
117
Capı́tulo 5. Muestreo
5.1.
118
Introducción y conceptos básicos
Definición 5.1.1. Muestra. Una muestra es un grupo de
individuos u objetos de la población usadas para hacer inferencia
de la misma. Esta se realiza por la falta de recursos o tiempo que
demora encuestar a toda la población.
Para la elaboración de una muestra es necesario un marco
do
muestral, definido a continuación.
Definición 5.1.2. Marco muestral. Es el listado de la población
objetivo. Por ejemplo: listado de la clase, registro de alumnos en la
Ga
ll
ar
universidad, listado de escuelas, entre otras.
La ventaja de las muestras aleatorias es que permiten realizar
generalizaciones sobre la población. La pregunta central que debe
ser formulada en este punto, es ¿qué factores influyen en la
representatividad de una muestra? En efecto, si se conocen dichos
factores, se pueden elaborar estudios de forma que se pueda, con
mayor certeza, generalizar sobre toda la población a partir de un
&
subconjunto de esta (la muestra). Grosso modo, son 3:
1. El tamaño de la muestra.
Le
ón
2. El método del muestreo.
3. La tasa de respuesta.1
1
La tasa de respuesta es una medida que indica el porcentaje de personas
que respondieron a una encuesta o estudio en comparación con el número total
de personas a las que se les solicitó participar.
Capı́tulo 5. Muestreo
119
En una primera instancia, se aborda el tema del tamaño de la
muestra. Veamos.
5.2.
Tamaño de muestra
A continuación, enunciamos una serie de resultados sin proveer
las demostraciones. Un análisis más detallado y especializado puede
do
encontrarse en Valdivieso (2020).
Teorema 29. El número de elementos en la muestra para una
variable aleatoria binaria, i.e., X ∈ {0, 1} es2
2
Ga
ll
ar
n=
2
p(1 − p)N
z1−α/2
2
p(1 − p)
N ϵ2 + z1−α/2
, p = 1/2 (poblacional).
z1−α/2 es el valor crı́tico de la distribución normal estándar correspondiente
a un nivel de confianza 1 − α. Se define como:
P(Z ≤ z1−α/2 ) = 1 − α/2
donde Z ∼ N (0, 1). Matemáticamente,
&
z1−α/2 = ı́nf {z ∈ R | Φ(z) ≥ 1 − α/2}
con Φ(z) siendo la función de distribución acumulada (CDF) de la
Le
ón
distribución normal estándar:
Φ(z) =
Z z
2
1
√ e−t /2 dt
2π
−∞
Para un nivel de confianza del 95
1 − α/2 = 0,975
y z0,975 ≈ 1,96.
Capı́tulo 5. Muestreo
120
Más aún, si N → ∞ (N el tamaño de la población)
n=
2
p(1 − p)
z1−α/2
ϵ2
.
(5.1)
Teorema 30. El número de elementos en la muestra para una
variable aleatoria continua (X ∈ R) es
n=
2
σ2N
z1−α/2
2
σ
N ϵ2 + z1−α/2
→
2
2
σ2
z1−α/2
ϵ2
.
(5.2)
Usualmente se toma
R
6
con R = X(n) − X(1) .3
(5.3)
do
σ2 =
Ga
ll
ar
Estos resultados se deducen a la hora de trabajar con intervalos
de confianza y variables pivote. Brindamos a continuación un breve
resumen sobre este tópico.
5.2.1.
Intervalos de confianza
Dada una muestra aleatoria {X1 , .., Xn } de una variable aleatoria
X ∼ θ ∈ Θ4 , nos interesa estimar θ no solo por su valor (punctual),
sino por un rango de valores que contengan a θ.
&
Definición 5.2.1. Diremos que las estadı́sticas L1 y L2 conforman
un intervalo de confianza IC = [L1 , L2 ] al 100(1 − α) % para θ si
P(L1 ≤ θ ≤ L2 ) = 1 − α.
Le
ón
3
Aquı́, X(i) denota el i-ésimo estadı́stico de orden de la muestra. Es decir,
X(1) es el valor más pequeño (mı́nimo) de la muestra, y X(n) es el valor más
grande (máximo) de la muestra.
4
La notación X ∼ θ indica que X se relaciona con una distribución a priori
no conocida vı́a el parámetro o vector de parámetros θ. Por ejemplo, media µ
o varianza σ 2 .
Capı́tulo 5. Muestreo
121
El procedimiento para estimar θ vı́a un parámetro es el siguiente.
1. Definir una variable pivote W = W (X1 , ..., Xn ; θ), adecuada,
esto es, que W solo dependa de la m.a. y de θ como único
valor desconocido, y que tenga distribución conocida.
2. Encontar a, b tal que
P(a ≤ W ≤ b) = 1 − α.
do
3. Despejar la inecuación para obtener
Ga
ll
ar
P(L1 = L1 (X1 , ..., Xn ) ≤ θ ≤ L2 = L2 (X1 , ..., Xn )) = 1 − α.
Es usual, sobre todo si la distribución de la variable pivote es
simétrica, tomar áreas iguales en las colas de la distribución de W .
Esto es, considerar a, b tal que
P(W ≤ a) = P(W > b) =
α
.
2
Usualmente la variable pivote W se forma partiendo del estimador
de máxima verosimilitud θ̂M V de θ aprovechando que asintóticamente se tiene θ̂M V ∼ N (θ, σθ2 ). Ası́, una variable pivote podrı́a
&
tomarse en la construcción de un IC aproximado para θ es
Le
ón
W =
θM V − θ
.
σθ
Teorema 31. Sea X1 , ..., Xn una muestra aleatoria de una variable
X ∼ N (µ, σ 2 ) y S 2 la varianza muestral
1. Para la media µ con varianza σ 2 conocida
σ
σ
IC = X − z1−α/2 √ ; X + z1−α/2 √ .
n
n
Capı́tulo 5. Muestreo
122
2. Cuando la varianza σ 2 es desconocida y se desea estimar µ
S
S
IC = X − t1−α/2 (n − 1) √ ; X + t1−α/2 (n − 1) √ .
n
n
X−µ
√ ∼ t(n − 1).
Acá la variable pivote es T = S/
n
3. Para estimar σ 2 usamos
#
"
(n − 1)S 2
(n − 1)S 2
;
.
IC =
χ21−α/2 (n − 1) χ2α/2 (n − 1)
2
do
Acá la variable pivote es W = (n−1)S
∼ χ2 (n − 1).
σ2
Si p denota la proporción de una población con caracterı́stica
Ga
ll
ar
A, y p = Xn la proporción en una muestra, con x el número de
elementos con la propiedad A en la muestra y n ≥ 30 el tamaño de
esta, entonces, X se distribuye como una variable aleatoria binomial
p−p
X − np
=q
∼ N (0, 1).
Z=p
p(1−p)
np(1 − p)
n
En este contexto, q p−p
es la variable pivote. El intervalo de
p(1−p)
n
r
&
confianza para p es
"
IC = p − z1−α/2
p(1 − p)
, p + z1−α/2
n
Le
ón
siendo p la proporción observada.
Teorema 32. Consideremos
N población total.
n población muestral.
r
#
p(1 − p)
,
n
Capı́tulo 5. Muestreo
123
p proporción en la población.
p proporción en la muestra.
Se cumple que
Z=q
p−p
q
p(1−p)
n
N −n
N −1
∼ N (0, 1).
Ası́, esta es una variable pivote. El intervalo de confianza al
do
100(1 − α) % para p es entonces
"
#
r
r
σ
N −n
σ
N −n
IC = p − z1−α/2 √
, p + z1−α/2 √
n N −1
n N −1
Ga
ll
ar
y el IC para la media poblacional µ
r
r
σ
n
σ
n
. (5.4)
IC = X − z1−α/2 √
1 − , X + z1−α/2 √
1−
N
N
n
n
Ası́, de (5.4) y las consideraciones en relación al rango de valores
y el valor de p, se deducen (5.1) y (5.2).
5.2.2.
Aplicaciones
Teniendo presente las expresiones (5.1) y (5.2), veamos algunos
&
ejemplos de aplicación directa y otros con contexto.
Ejemplo 56. En la siguiente tabla, podemos determinar usando p,
Le
ón
z1−α y ϵ el valor de n.
Confianza al 95 %5
p
Error muestral ϵ
Muestra n
1.96
0.5
0.01
9604
1.96
0.5
0.05
384
1.96
0.5
0.07
196
1.96
0.5
0.10
96
Capı́tulo 5. Muestreo
124
Entonces, si queremos representar a una población con un nivel
de confianza del 95 % y margen de error del 5 %, se necesita una
muestra de 384 observaciones.
Ejemplo 57. Del ejemplo anterior, si queremos retratar a la
población peruana bastarı́a con una muestra de 384 observaciones
%
Margen de error
Total
400
100
5%
Hombre
200
50
7%
Mujer
200
50
7%
Costa
200
Sierra
150
Selva
50
50
7%
38
8%
12
14 %
do
N
Ga
ll
ar
y tendrı́amos un margen de error del 5 %.
De esta manera, se puede apreciar que si quisiéramos hablar de la
población de la selva, el margen de error serı́a de 14 %6 . Por este
motivo, al momento de elaborar una muestra hay que pensar en los
grupos sobre los que se quiere sacar conclusiones.
&
En caso la población bajo estudio sea pequeña, se debe aplicar
la corrección por poblaciones pequeñas. En efecto, recuérdese que
Le
ón
para encontrar (5.1) y (5.2) se considera N → ∞. La formula es la
siguiente
n1 = donde:
6
n
0
n0 − 1
1+
N
Se despeja ϵ en términos de N : ϵ =
p
1,962 · 1/2(1 − 1/2)/N .
Capı́tulo 5. Muestreo
125
1. n0 es el tamaño de muestra original,
2. n1 es el tamaño de muestra corregido,
3. y N es el tamaño de la población.
Esta corrección se aplica para N < 10000.
Ejemplo 58. Asumamos que tenemos una población de 500
Confianza 95 %
p
ϵ
n0
n1
1.96
0.5
0.01
9604
475
1.96
Ga
ll
ar
de error son
do
habitantes. Los tamaños de muestra para los diferentes tamaños
1.96
1.96
0.5
0.05
384
217
0.5
0.07
196
141
0.5
0.10
96
81
Tal y como se puede apreciar en los ejemplos anteriores, la
fórmula del tamaño de muestra depende del tamaño de la población,
pero también, de como se seleccionan a los individuos. En efecto, en
función de esto, se tomará en consideración ciertas caracterı́sticas
&
sobre la distribución poblacional. A continuación, vamos a presentar
las diferentes formas de ejecutar un muestreo (seleccionar elementos
para muestra). Este proceso no es homogéneo y tiene importantes
Le
ón
consecuencias.
Capı́tulo 5. Muestreo
5.3.
126
Selección de la muestra
Definición 5.3.1. Tipos de muestreo.
Muestro probabilı́stico: se le da una probabilidad diferente
a cero a cada uno de los elementos o individuos que se
seleccionan de la población. Solo este tipo de muestreos
aseguran representatividad de la muestra que se obtiene de
do
la población (y por ende se puede hacer inferencia).
Muestreo no probabilı́stico: los individuos que se
seleccionan de la población no tiene una probabilidad de
Ga
ll
ar
ser elegidos. Es decir, al seleccionar se realiza siguiendo
ciertos criterios, procurando que la muestra sea representativa
quitando el factor aleatorio de por medio.
En este texto, nos interesamos exclusivamente por el muestro
probabilı́stico.
Definición 5.3.2. Muestro aleatorio simple (MAS). Es el tipo
de muestreo más simple. Se asigna con número o etiqueta a cada
&
miembro de la población, y después, se usa algún medio automático
para seleccionar a los individuos (generación de números aleatorios).
Le
ón
Las semillas permiten generar números aleatorios pero, manteniendo la aleatoridad, se puede repetir la selección.
Definición 5.3.3. Muestro aleatorio sistemático. Se seleccionan a los individuos de la siguiente manera. Se enumera / etiqueta
y se escoge aleatoriamente a un elemento entre 1 y n. Después,
Capı́tulo 5. Muestreo
127
definiendo
N
k = mı́n
,1
n
con N el tamaño de la muestra, se van seleccionando a los
individuos espaciados de k. Es decir, si el individuo seleccionado
aleatoriamente al inicio es i, el segundo es el de la posición i + k, y
ası́ sucesivamente.
Definición 5.3.4. Muestreo aleatorio estratificado. Permite
do
reducir el error muestral para un tamaño de muestra dado. La
idea es considerar categorı́as o grupos (estratos). Cada estrato
es homogéneo de acuerdo a una determinada caracterı́stica (sexo,
Ga
ll
ar
género...). La idea, es que todos los estratos estén representados
en la muestra. Finalmente, la distribución de la muestra en los
diferentes estratos se puede hacer simple (MAS) o proporcional de
acuerdo al tamaño de la población en cada estrato.
Definición 5.3.5. Muestreo por conglomerado. Es una técnica
de muestreo utilizada cuando hay agrupamientos naturales relativamente homogéneos en una población estadı́stica. En esta técnica,
la población total se divide en estos grupos (o clusters) - escue-
&
las, hospitales - y vı́a un MAS se selecciona a individuos de estos
grupos, previamente definidos.
Le
ón
Definición 5.3.6. Muestreos probabilı́sticos complejos. Los
muestreos complejos por lo general involucran dos o más etapas de
selección de la muestra o individuos bajo estudio. En otras palabras,
se cuenta con más de una unidad de muestreo. Por ejemplo, escuelas
→ aulas o secciones → estudiantes. Finalmente, al interior de cada
sub-categorı́a, se aplica un MAS.
Capı́tulo 5. Muestreo
128
Estos son esencialmente todas las metodologı́as relativas al
muestro probabilı́stico. Más adelante, veremos como estos se aplican
en casos muy concretos. Antes de pasar al estudio de los diseños
experimentales, brindamos una breve nota sobre el muestro no
probabilı́stico y sobre los pesos muestrales.
Como ya se mencionó, el muestro no probabilı́stico es el que
contempla cierta designación no aleatoria a la hora de seleccionar
los siguientes tipos de muestro no probabilı́stico.
do
los elementos para construir la muestra. Esencialmente, se tienen
Muestro por cuotas: se eligen por caracterı́sticas especı́ficas
Ga
ll
ar
(edad, género, niveles educativos). Se usa en encuestas de
opinión.
Muestreo intencional o por conveniencia: se selecciona
individuos de acuerdo a su accesibilidad o por ciertos criterios
especı́ficos de interés para, por ejemplo, anuncios etc...
Bola de nieve o en cadena: consiste en localizar algunos
&
individuos, los cuales posteriormente referirán a otros.
Muestreo de casos extremos: consiste en selecciona individuos alejados de la normalidad, por ejemplo, para seleccio-
Le
ón
nar personas sumamente violentas podrı́amos selecciona una
muestra de pandilleros.
Definición 5.3.7. Pesos muestrales. En ocasiones el número
de individuos u objetos muestreados por un determinado grupo es
mayor a la proporción que representan en la población. Entonces,
Capı́tulo 5. Muestreo
129
al realizar los estadı́sticos descriptivos de dicha muestra no van a
darnos resultados similares a los de la población, motivo por el
cual se requiere el uso de pesos muestrales. Entonces, los pesos
muestrales sirven para poder ajustar la muestra seleccionada y esta
pueda representar de manera adecuada a la población. El peso dado
es
wi =
1
,
pi
muestreos multi-etapas,
1 1 1
1
···
.
pi1 pi2 p i3
pik
Ga
ll
ar
wi =
do
donde pi es la probabilidad de selección del individuo7 . En caso de
Definición 5.3.8. Ajuste por tasa de no respuesta. Si uno o
más individuos no fueron cubiertos, se realiza la siguiente corrección
ai =
ni
Ni
siendo ni y Ni la cantidad encuestada finalmente y la población
objetivo inicial. Ası́, el peso final serı́a
&
w f = ai w i .
Ejemplo 59. Un estudiante de economı́a de la PUCP decide hacer
Le
ón
un estudio sobre el bullying a los estudiantes de secundaria en las
escuelas de Lima Metropolitana. Motivo por el cuál primero decide
estimar cuantos estudiantes necesita encuestar para poder hablar
de los estudiantes de escuelas públicas y privadas. Sus estimados le
dan que debe tener aproximadamente 400 estudiantes de escuelas
7
Es decir, x/N con x el número de individuos del grupo y N el total.
Capı́tulo 5. Muestreo
130
públicas y 400 de escuelas privadas. Para hacer su marco muestral
usa el padrón de instituciones educativas secundarias del Ministerio
de Educación para Lima Metropolitana y lo divide en públicas
y privadas. Luego, al interior de cada grupo decide seleccionar
de forma aleatoria un total de 40 escuelas y al interior de cada
escuela selecciona de forma aleatoria a una sección por grado y dos
estudiantes por sección también de forma aleatoria. De esta forma,
el estudiante lograrı́a encuestar un total de 800 estudiantes de Lima
do
Metropolitana. El muestro en cuestión corresponde ciertamente a
un muestreo probabilı́stico por conglomerados pues, se identifican
cadenas de grupos y se seleccionan elementos en función de estos
5.4.
Ga
ll
ar
últimos. Cabe resaltar que en cada selección, se emplea un MAS.
Diseños experimentales
En esta sección, abordamos los fundamentos y principales
conceptos que aparecen en el diseño de experimentos.
Definición 5.4.1. Tamaño del efecto. Es la magnitud del efecto
&
que se está estudiando, en el caso de un diseño experimental seria
la diferencia entre el grupo tratado y control.
Le
ón
Distinguimos las diferentes medidas para dicho tamaño de efecto.
1. Diferencia simple de promedios
XT − XC.
2. Diferencia estandarizada de los promedios.
Capı́tulo 5. Muestreo
131
a) La d de Cohen,
XT − XC
d=
, DEpooled =
DEpooled
r
σT2 + σC2
.
2
(5.5)
b) La g de Hedges,
g=
XT − XC
, DEpooled =
DEpooled
s
σT2 (nT − 1) + σC2 (nC − 1)
.
nT + nC − 2
(5.6)
c) La ∆ de Glass
do
sP
XT − XC
(XC − X C )
, DEC =
.
∆=
DEC
nC
(5.7)
Ga
ll
ar
El término pooled hace referencia a la pertenencia a un mismo
grupo (mismas caracterı́stica). Por otro lado, la letra C designa el
conjunto de control y T el conjunto tratado. Finalmente, note que
N = nC + nT > 2, (5.6).
En Cohen (1988), se indica que un tamaño de efecto es pequeño
si esta por encima de 0.2 DE pero debajo de 0.5 DE; es mediano
si se ubica por encima de 0.5 DE pero por debajo de 0.8 DE; y se
DE.
&
considera un tamaño de efecto grande si este es igual o mayor a 0.8
Ası́ como en el caso de las encuestas, es de interés conocer
Le
ón
el tamaño de muestra en el diseño de experimentos. Para ello,
necesitamos previamente introducir los siguientes dos conceptos, el
nivel de confianza y el poder de análisis (mencionados previamente
a la hora de estudiar los tests de hipótesis).
Definición 5.4.2. Nivel de confianza. Es el nivel de confianza
que se tiene de los resultados, es decir, nos indica la probabilidad
Capı́tulo 5. Muestreo
132
que tenemos de que el parámetro estimado se encuentre dentro del
intervalo asumido.
Definición 5.4.3. Poder de análisis. Es la probabilidad que tiene
la muestra para poder detectar el parámetro de interés y tamaño
de efecto deseado.
Usualmente, debido a la normalidad, usamos zα/2 en lo que
concierne el nivel de confianza y zβ/2 en lo que concierne el poder
do
de análisis.
A continuación se presenta la fórmula para el tamaño de muestra
Ga
ll
ar
por grupo asumiendo:
1. La variable de resultado sigue una distribución normal,
2. El número de observaciones por grupo es igual
3. Las varianzas de ambos grupos son iguales.
Teorema 33. Sea T E el tamaño de efecto, previamente determinado, entonces si la variable resultado es continua,
(σ12 + σ22 )[zα/2 + zβ ]2
.
T E2
&
n=
Siendo σi la desviación estándar de Xi ∼ N (µi , σi2 ), i.e. la v.a.
Le
ón
representativa del grupo i.
Teorema 34. Sea T E el tamaño de efecto, previamente determinado, entonces si la variable resultado es binaria,
n=
[p1 (1 − p1 ) + p2 (1 − p2 )][zα/2 + zβ ]2
.
T E2
(5.8)
Capı́tulo 5. Muestreo
133
Siendo σi la desviación estándar de Xi ∼ N (µi , σi2 ), i.e. la v.a.
representativa del grupo i, y pi la probabilidad de que la variable
resultado tome el valor del estado bajo estudio, relativa al grupo i.
Teorema 35. En caso se requiera hacer una desigual distribución
de tratados y controles, se debe de incorporar un parámetro
adicional que es el ratio entre grupos r = (n1 /n2 )
1. Variable de resultado continua,
(r + 1)(σ12 + σ22 )[zα/2 + zβ ]2
.
rT E 2
2. Variable de resultado binaria,
(r + 1)(p1 (1 − p1 )) + p2 (1 − p2 )[zα/2 + zβ ]2
.
rT E 2
Ga
ll
ar
n=
do
n=
Ejemplo 60. Se quiere estimar el tamaño de muestra necesario
para evaluar un programa relacionado al lavado de manos en niños
y niñas menores de cinco años. Se cuenta con la información que
este tipo de programas permiten reducir la incidencia de episodios
de diarrea en un 10 % en promedio para los grupos intervenidos.
Además, se cuenta con el dato que la prevalencia promedio de
&
episodios de diarrea en niños y niñas menores de cinco años es
de 30 % de acuerdo a la Encuesta Demográfica y de Salud Familiar
Le
ón
del 2020. Dado lo anterior nos preguntamos ¿cuál es el tamaño de
muestra necesario para poder evaluar el programa con un nivel de
confianza del 95 % y un poder de análisis del 70 %? Usando (5.8),
calculamos
[(0,3)(1 − 0,3) + (0,2)(1 − 0,2)][1,962 + 0,332 ]
n=
+ 1 = 147.
0,12
Capı́tulo 6
do
Multicolinealidad
Ga
ll
ar
Desde este capı́tulo en adelante, la hoja de ruta será sustancialmente diferente a lo abordado previamente. Hasta el momento, se
han presentado los detalles de la metodologı́a de estimación fundamental en econometrı́a, ası́ como sus variantes (datos no continuos)
y el concepto de muestro, altamente ligado al de la estimación pues
permite establecer una base sólida para el análisis empı́rico. Sin
embargo, el presente capı́tulo ası́ como los siguientes, abordan el
levantamiento de los supuestos, enunciados en el Teorema (13). En
&
particular, se analizará en este capı́tulo el supuesto de la no multicolinealidad, es decir, que no existe colinealidad perfecta entre las
variables explicativas incluidas en el modelo. Recordemos que la no
Le
ón
colinealidad perfecta se expresa matemáticamente de la siguiente
manera:
∄ γ1 , γ2 ..., γk ̸= 0 : γ1 X1i + γ2 X2i + ... + γk Xki = 0.
134
Capı́tulo 6. Multicolinealidad
135
Este supuesto evita que det(X T X) = 0. Sin embargo, es posible
que Corr(Xℓi , Xji ) ∼ 1, lo que harı́a que det(X T X) → 0. Por ende,
como
Var(β̂) = σ 2 (X T X)−1
en presencia de multicolinealidad respecto a la variable j,
6.1.
Análisis de la varianza
do
Var(β̂) · ej → ∞.
Dos o más variables independientes se correlacionan fuertemen-
Ga
ll
ar
te, por tanto, es difı́cil poder determinar cual explica la variable
dependiente. Caso extremo es que una variable sea combinación
lineal de otra (colinealidad perfecta). O sea,
X
γi Xi .
Xj =
i̸=j
Ejemplo 61. Consideremos el modelo de regresión
con
σ̂ 2
Var(β̂2 ) = Pn
2
i=1 (Xi − X)(1 − rXZ )
σ̂ 2
Var(β̂3 ) = Pn
2
i=1 (Zi − Z)(1 − rXZ )
Le
ón
Entonces
&
Yi = β1 + β2 Xi + β3 Zi + ϵi .
rXZ = qP
Pn
i=1 (Xi − X)(Zi − Z)
qP
n
n
i=1 (Xi − X)
Por ende, si rXZ → 1, Var(βi ) → ∞.
i=1 (Zi − Z)
.
Capı́tulo 6. Multicolinealidad
136
Si Var(β̂) aumenta, el error estándar aumenta, y por ende
t=
β̂
sd(β̂)
disminuye, con lo cual, la significancia individual del regresor
asociado, cae.
Ejemplo 62. Se tiene el siguiente modelo:
do
Yi = β1 + β2 Xi + β3 S1i + β4 S2i + ui
donde Y es el salario en soles, X representa la educación medida
en años de estudio, S1 es una variable binaria que toma el valor de
Ga
ll
ar
1 si i es hombre y 0 si es mujer, y S2 es una variable binaria que
toma el valor de 1 si i es mujer y 0 si es hombre. ¿Existe algún
problema para estimar dicho modelo? Sı́. El modelo anterior viola
el supuesto de colinealidad pues, dada la matriz
1 X1 S11 S21
1 X S
S
2
12
22
,
X = [1, X, S1 , S2 ] = . .
..
..
.. ..
.
.
1 Xn S1n S2n
&
bajo el modelo anterior, S1i + S2i = 1. Por ende, tendremos
que X T X no es invertible. Para arreglar el modelo, los podemos
Le
ón
transformar de la manera siguiente
Yi = β1 + β2 Xi + β3 S1i + ϵi ,
de modo que S1i = {1, 0}. Más aún, en este caso, β1 + β2 Xi + β3 =
E[Yi |S1i = 1]. Es decir, β3 equivale a un incremento (o reducción si
β3 < 0) de los salarios de los hombres respecto a las mujeres.
Capı́tulo 6. Multicolinealidad
6.2.
137
Métodos de detección
Ya hemos explicado la importancia del problema de la colinealidad entre las regresores. La pregunta de interés ahora es ¿cómo detectar este problema? Siguiendo el análisis anterior, ciertamente una
forma de efectuar aquello es estudiando la matriz de correlaciones
de las variables independientes antes de estimar el modelo e identificar si existen variables fuertemente correlacionadas (r > 0,90).
do
Otra forma es, al momento de realizar la regresión, identificar que
los coeficientes de la regresión son no significativos pero el modelo
de manera global es significativo. Es decir, t estadı́sticos bajos pero
Ga
ll
ar
un F estadı́stico o R2 alto. Finalmente, una prueba bastante común
es el Variance Inflation Test, el cual describimos a continuación.
Definición 6.2.1. Test de Inflación de la Varianza. Sea
VIFj =
1
1 − Rj2
con Rj2 el coeficiente de determinación de la variable j de la regresión de la variable j en función de las demás variables explicativas.
regresor j.
&
Si V IF → ∞, hay fuertes indicios de multicolinealidad, respecto al
Siguiendo el criterio de una correlación mayor a 0.9, usualmente
Le
ón
se establece que, para V IF > 10 (o sea Rj2 > 0,9), el problema de
la multicolinealidad está presente en el modelo.
Ejemplo 63. Considere el siguiente conjunto de datos a partir del
cual se estima el salario de los individuos en base a su edad en años
y a sus años de experiencia.
Capı́tulo 6. Multicolinealidad
138
Salario
Edad
Experiencia
2112
40
10
1967
38
10
1378
27
7
1842
34
9
1512
29
7
Al momento de realizar la regresión donde desea estimar los efectos
asociados de la edad y la experiencia en el salario, se encuentra que
do
ninguna de estas variables es significativa a pesar de que habrı́a
indicios de que el modelo en conjunto es bueno para estimar dicha
Estadı́stico
R2
Ga
ll
ar
variable.
Valor
0.98
P >F
0.0135
IC de la constante
[-42.18, 145.42]
IC de β1
[-334.11, 357.93]
IC de β2
[-744.56, 595.16]
&
Cuadro 6.1 Resultados del modelo de regresión
Le
ón
¿Qué es lo que podrı́a estar aconteciendo? Debido a una
baja significancia individual pero una alta significancia global,
se sospecha de un problema de multicolinealidad (siguiendo los
criterios establecidos previamente). Tal y como se sabe, existen
fundamentalmente tres formas que nos permiten detectar si se trata
de un problema de multicolinealidad.
Capı́tulo 6. Multicolinealidad
139
1. Contrastar la significancia global con la de los parámetros
uno por uno, esto es, al momento de realizar la regresión, se
observa si los coeficientes de regresión no son significativos
pero el modelo de manera global si es significativo, teniendo
un R2 alto.
2. Revisar la matriz de correlaciones de las variables independientes (explicativas). Si hay variables fuertemente correla-
do
cionadas (r > 0,90) se detecta colinealidad.
3. Aplicar el test de inflación de la varianza (VIF). Si el valor
hallado es igual o mayor de 10, esto indica que se presenta el
Ga
ll
ar
problema de colinealidad.
El primer indicio ya está establecido. Queda entonces por verse los
otros dos. Primero, se calcula la correlación entre las explicativas
(Xi =edad, Zi =experiencia), con N = 5
PN
(Xi − X)(Zi − Z)
qP
.
r = qP i=1
n
n
(X
−
(Z
−
X)
Z)
i
i
i=1
i=1
Se obtiene r = 0,978. > 0,90. Esto implica que (en efecto) se
&
hace frente a un problema de colinealidad. Finalmente, ya sea para
reforzar la hipótesis o emplear una forma de detección alternativa,
podemos calcular
Le
ón
VIFj =
En este caso, se obtiene
1
.
1 − Rj2
1
∼ 74 > 10.
1 − 0,9865
Por ende, se refuerza la idea de que existe un problema de
colinealidad entre la edad y la experiencia.
Capı́tulo 6. Multicolinealidad
6.3.
140
Soluciones ante casos de
multicolinealidad
Ya hemos visto que la multicolinealidad es un problema de gran
importancia a la hora de efectuar la estimación de los coeficientes
en una regresión lineal, debido al efecto sobre la varianza de
estos últimos. No obstante, queda la duda de cómo afrontar este
problema, o si para empezar, es posible. La respuesta a esta última
do
interrogante es afirmativa, existen diversas maneras de lidiar con
la multicolinealidad, y ese será el tema de esta breve sección. De
Ga
ll
ar
manera concisa, para solucionar la multicolinealidad, es posible:
1. Replantear el modelo a estimar, eliminando una de las
variables que ocasionan el problema de colinealidad.
2. En caso de tener un reducido número de observaciones, se
puede incrementar el tamaño de la muestra. De esta manera,
se espera que las observaciones adicionales permitan eliminar
la dependencia entre los regresore Xj .
&
3. Transformar las variables, ya sea diferenciándolas (Zji =
Xj − Xi ) o ponderando (Zj = wj Xj ) las variables en función
Le
ón
de alguna de las variables del modelo.
4. Generar ı́ndices sintéticos con las variables que presentan alta
colinealidad (por ejemplo: sumatoria normalizada, componentes principales, percentiles, ranking).
Definición 6.3.1. Un indicador sintético es la combinación de dos
o más indicadores simples o individuales (por ejemplo: años de
Capı́tulo 6. Multicolinealidad
141
escolaridad o ingreso per capita). De esta forma, los indicadores
sintéticos permiten condensar la información de un grupo de
variables altamente correlacionadas que reflejan un aspecto latente
detrás. En otras palabras son una suma ponderada de los diferentes
indicadores simples empleados. Matemáticamente,
ISi =
n X
k
X
wi Xij ,
j=1 i=1
k
X
Xi = 1,
i=1
do
n el tamaño de muestra respecto a los regresores en cuestión.
El inconveniente más señalado respecto a los indicadores
sintéticos es la determinación de los pesos wi . Usualmente, o se
Ga
ll
ar
le asigna el mismo valor a cada peso, i.e., wi = 1/k, o se fijan
pesos de manera ad-hoc, o bien en función de la correlación entre
las variables1 .
Finalmente, es importante mencionar que es posible efectuar otro
tipo de transformaciones afines2 (a parte de las diferencias y
√
ponderación) usando X(1) y X(n) (i.e., Xmı́n y Xmáx ) o X y SX .
Esto último consiste en normalizar cada una de las variables para
que varı́en entre los valores de 0 y 1. Ası́, al poner a las variables
&
en una misma escala es posible sumarlas y generar un indicador
sintético. Para ello, se computa
Xi − X(1)
Xi − Xmı́n
≜
Xmáx − Xmı́n
X(n) − X(n)
Le
ón
ZXi =
o bien (normalización clásica):
Xi − X
ZXi = √
.
SX
1
2
Mayor o menor correlación, mayor o menor el valor de − < wi ≤ 1
x → ax + b.
Capı́tulo 7
do
Estabilidad de los
Ga
ll
ar
parámetros estimados
En la estimación de los parámetros en el caso de enumeración
temporal (series de tiempo), i.e., Xi = Xt , t ≤ n, nos interesamos en
si los parámetros del modelo son los mismos para todo t. En efecto,
cuando estimamos una relación usando el MCO se considera que
el efecto marginal es fijo o el mismo para los diferentes periodos
de tiempo. Sin embargo, puede existir t∗ tal que t ≤ t∗ , β̂ = α̂
&
y para t > t∗ , β̂ = γ̂. Este tipo de cambio estructural en los
parámetros puede deberse a eventos externos significativos, cambios
en la polı́tica económica o cambios en el comportamiento de los
Le
ón
agentes económicos. Identificar y modelar adecuadamente estos
puntos de cambio es crucial para obtener estimaciones precisas.
Métodos como las pruebas de Chow Chow (1960) y la técnica de
regresiones segmentadas Bai and Perron (1998) son comúnmente
utilizados para detectar cambios estructurales en series de tiempo.
142
Capı́tulo 7. Estabilidad de los parámetros estimados
143
do
Observemos por ejemplo el siguiente gráfico.
Ga
ll
ar
Figura 7.1 ln(PBI) vs ln(Inversión privada).
En la Figura (7.1), se observa que la pendiente, dada por β tal que
ln(PBI)t = α + β ln(Inversión privada)t ,
no es la misma si consideramos t ∈ [1970 − 1990], a si consideramos
t ∈ [1991 − 2018]. Ciertamente el parámetro β va a depender de
la muestra que se tome, o sea, β depende de I, donde t ∈ I ⊂
{t0 , t1 , ..., T }. Sin embargo, nos preguntamos hasta que punto esto
&
serı́a meramente explicado por un factor aleatorio al considerar
periodos diferentes, i.e., cuando esta diferencia es estadı́sticamente
Le
ón
significante.
Definición 7.0.1. El tiempo t∗ es conocido como punto de quiebre,
y se puede originar por fenómenos naturales, crisis financieras,
implementación de Tratados de Libre Comercio, entre otros.
Hay dos formas de determinar el punto de quiebre t∗ :
Capı́tulo 7. Estabilidad de los parámetros estimados
144
1. Fijarlo de manera arbitraria basado en conocimiento previo
sobre el contexto del paı́s o tema que se está analizando. Por
ejemplo, teniendo en cuenta una crisis económica-sanitaria
(COVID 19), vigencia de TLC (Tratados de Libre Comercio),
etc.
2. El método de residuos recursivos, detallado en la siguiente
7.1.
Residuos Recursivos
do
sección.
Ga
ll
ar
Los residuos recursivos son un método para analizar la estabilidad
de los parámetros βj . Este método consiste en estimar el modelo
MCO de un modo recursivo, es decir, aumentando la muestra
paulatinamente. El error de predicción de Yt se obtiene de la
siguiente manera
T
T
β̂t−1 = (Xt−1
Xt−1 )−1 Xt−1
Yt−1 .
Esto es, los parámetros estimados con el set
&
{X1,1 , ..., X1,t−1 , ..., Xk,1 , ..., Xk,t−1 }.
Le
ón
Entonces, el error de predicción para la observación t serı́a
vt = Yt − Ŷt = Yt − Xt β̂t−1 .
(7.1)
Capı́tulo 7. Estabilidad de los parámetros estimados
145
Luego, a partir de (7.1), computamos el residuo recursivo normalizado wt :
t = k + 1, ..., n.
Yt − Xt β̂t−1
wt = q
T
σ 2 (1 + XtT (Xt−1
Xt−1 )−1 )Xt
vt
,
=q
T
Xt−1 )−1 )Xt
σ 2 (1 + XtT (Xt−1
(7.2)
(7.3)
E[vt |Xt ] = E[Yt − Xt β̂t−1 |Xt ]
Ga
ll
ar
=0
do
A la hora de computar (7.2), se tiene en cuenta que
y, que
T
Var(vt ) = σ 2 (1 + XtT (Xt−1
Xt−1 )−1 Xt ).
Enseguida, definimos lo que será la herramienta principal para
determinar la significancia estadı́stica de desvı́os sistemáticos en los
β.
Definición 7.1.1. Cumulative Sum Control Chart: CUSUM.
&
Es la suma acumulada de los residuos normalizados, y el CUSUM
cuadrado consiste en emplear los cuadrados de los residuos
normalizados. Ambos estadı́sticos permiten comprobar desviaciones
Le
ón
no aleatorias o desvı́os sistemáticos.
1 X
SRC
CUSUM =
wj , σ̂ =
σ̂ j=k+1
n−k
n
Pt
2
j=k+1 wj
2
P
CUSUMt = n
2
j=k+1 wj
, t = k + 1, ..., n.
Capı́tulo 7. Estabilidad de los parámetros estimados
146
En el caso del CUSUM, el estadı́stico debe estar alrededor de 0
en caso no existan desvı́os sistemáticos dado que el esperado de
los errores es 0. En el caso del CUSUM cuadrado, el estadı́stico
oscila entre 0 y 1. Los paquetes estadı́stico trabajan con estos
dos estadı́sticos, y, en función de estos, permiten determinar la
significancia estadı́stica del cambio en los parámetros estimados.
Concretamente, se proveen bandas de confianza, ilustradas en las
Ga
ll
ar
do
siguientes dos figuras.
Pn
j=k+1 wj .
Le
ón
&
Figura 7.2
Pt
w2
j
Figura 7.3 Pj=k+1
.
n
w2
j=k+1
j
Capı́tulo 7. Estabilidad de los parámetros estimados
147
En caso el CUSUM o CUSUM cuadrado se salga de las bandas,
se confirma la significancia estadı́stica del cambio estructural
en los parámetros (o sea, que efectivamente hay un quiebre).
Queda entonces claro que cuando se trabaja con datos que son
series temporales, puede pasar que exista un cambio structural
en la relación entre la variable dependiente y las independientes.
Este cambio estructural se puede deber a causas exógenas (por
ejemplo: fenómeno del niño, epidemia), o debido a cambios en la
do
polı́tica pública de un paı́s (por ejemplo: cambio en el sistema
de conversión del tipo de cambio) u otra causa exógena. A
continuación, presentamos el test estadı́stico por excelencia a la
7.2.
Ga
ll
ar
hora de determinar cambios estructurales en los parámetros.
Test de Chow
Primero, se estima la regresión con todos los datos y se obtiene la
sumatoria de residuos al cuadrado SRCCR 1
X
(Ŷt − Yt )2 .
&
t
Los grados de libertad de este estadı́stico es n1 + n2 − k − 12 ,
con k el número de explicativas en el modelo. En este modelo, se
Le
ón
acepta que los coeficientes son iguales en ambos periodos, por lo
que serı́a el modelo con restricciones. En segundo lugar, se estiman
los modelos para cada uno de los periodos donde se espera que
haya quiebre y se guardan la sumatoria de residuos al cuadrado
1
2
También llamado suma de cuadrados residuales SCR.
Siendo n1 y n2 el número de periodos en cada una de las 2 etapas.
Capı́tulo 7. Estabilidad de los parámetros estimados
148
de cada uno. Los grados de libertad de cada estadı́stico serán el
número de observaciones, menos la cantidad de parámetros menos
1 (constante). Esto es
SRCSR = SRCSR1 + SRCSR2 ,
con n1 + n2 − 2k − 2 grados de libertad. Finalmente, definimos el
estadı́stico
do
SRCCR − SRCSR
k+1
F =
.
(7.4)
SRCSR
n1 + n2 − 2k − 2
Con los instrumentos previamente calculados, ya es posible definir
Ga
ll
ar
en qué consiste el test de Chow, detallado en la siguiente definición.
Definición 7.2.1. Test de Chow. El estadı́stico (7.4) se compara
con Fk+1,n1 +n2 −2k−2 (valor de tablas o teórico). Acá k es el número
de parámetros (no cuenta la constante). La hipótesis nula es que los
parámetros son iguales ambos periodos (no hay cambio estructural).
Si Fcalculado > Ftablas se rechaza la hipótesis nula.
Luego de aplicar el test de Chow, en función de los resultados
&
(si se determina el cambio estructural), el modelo original puede
ser sustituido por un modelo con dummies. Esto es, si tenemos 2
periodos de tiempo, Di = 0 ∨ 1 (0 para el primer periodo, 1 para el
Le
ón
periodo dos). El modelo serı́a entonces
Yt = β0 + β1 X1t + β2 X2t + ... + βk Xkt + γ0 Dt
+
k
X
γi Di Xit + ϵt .
i=1
Se incluye γ0 Dt para analizar un cambio en el intercepto.
Capı́tulo 7. Estabilidad de los parámetros estimados
149
Ejemplo 64. Un investigador quiere estimar el ahorro en función
del ingreso disponible, para ello cuenta con datos anuales del ahorro
personal (S) y el ingreso disponible (I) para el periodo 1988-2005.
Luego, estima el siguiente modelo:
St = β1 + β2 It + ϵt .
El investigador obtiene los siguientes resultados,
Coeficiente
Error estándar
Constante
-1.082
0.145
It
0.118
0.009
R2
0.92
-
SRC
0.572
-
Ga
ll
ar
do
Variable
Tomando en consideración que a mediados del año 1997 se dio
una grave crisis financiera en Asia que afectó a varios paı́ses, el
investigador plantea la posibilidad de un cambio estructural en
dicho año. Por lo que, se desea analizar si ocurrió un cambio solo
en intercepto, o solo en pendiente, o en intercepto y pendiente a la
Le
ón
P
(It − I)2
P
(St − S)2
&
vez. Teniendo en cuenta los siguientes datos
P
(It − I)(St − S)
Periodo 1988-1996
1997-2005
28.2622
89.62
0.2022
2.2217
1.3291
13.4833
es posible, al 95 % de confianza determinar si ocurrió, a la vez, un
cambio en el intercepto y en la pendiente. En efecto, basta con
Capı́tulo 7. Estabilidad de los parámetros estimados
150
aplicar el test de Chow.
SRC =
n
X
t=1
=
n
X
t=1
=
=
n
X
t=1
n
X
t=1
(St − Ŝt )2
2
(St − S) −
(St − S)2 −
n
X
t=1
n
X
t=1
(St − S)2 − β̂22
(Ŝt − S)2
(β̂1 + β̂2 It − β̂2 I − βˆ1 )2
n
X
t=1
(It − I)2
do
Pm
2 X
n
2
t=1 (It − I)(St − S)
=
(St − S) −
(It − I)2 .
Pn
2
t=1 (It − I)
t=1
t=1
n
X
Ga
ll
ar
Note que se ha usado el hecho que β̂1 = S − β̂2 I y que β̂2 =
Pm
(It −I)(St −S)
t=1
Pn
. De ahı́,
2
t=1 (It −I)
SRCSR1 = 0,1396
SRCSR2 = 0,1931
SRCSR = 0,3327
y
= 5,039 > Ftablas.
&
Festadı́stico =
SRCCR −SRCSR
1+1
SRCSR
18−2−2
Se rechaza entonces la H0 , i.e., sı́ hubo un cambio estructural.
Le
ón
Veamos ahora si ocurrió un cambio solo en la pendiente o en ambas
y no solo en la pendiente. Para ello, definimos la siguiente variable
dicotómica
Dt =
1, si t ∈ [1988, 1996)
0,
t ∈ [1996, T ]
y consideremos los siguientes modelos.
Capı́tulo 7. Estabilidad de los parámetros estimados
151
Modelo
Especificación
SRC
Sin cambios
St = β1 + β2 It + ut
0.572
Cambio en β2
St = (β1 + β3 Dt ) + (β2 + β4 Dt )It + ut
0.332
Cambio en β1
St = (β1 + β3 Dt ) + β2 It + ut
0.563
Para poder realizas los exámenes estadı́sticos, recordemos que
F (0,95; 1; 14) = 4,6, F (0,95; 1; 15) = 4,54 , F (0,95; 2; 14) = 3.
estadı́stico F es
F =
SRCR −SRCI
q
,
SRCI
N −m
Ga
ll
ar
donde
do
Ahora, contrastamos el modelo 1 con el 3, es decir, H0 : β3 = 0. El
1. SRCR es la suma de cuadrados residuales en el modelo
restricto.
2. SRCI es la suma de cuadrados residuales en el modelo
irrestricto.
3. q el número de restricciones.
4. N el número de observaciones y m el número de parámetros
&
en el modelo irrestricto.
Le
ón
De ahı́, como q = 1, N = 18 y m = 3,
F =
0,572−0,362
1
0,562
15
= 0,257.
Ası́, como 0,257 < 4,54, no se rechaza la hipótesis nula, la
pendiente no cambia. Finalmente, para contrastar los modelos 2
Capı́tulo 7. Estabilidad de los parámetros estimados
152
y 3, procediendo de manera análoga, pero teniendo en cuenta que
m = 4,
F =
0,562−0,362
1
0,332
14
= 9,67 > 4,6.
Ası́, se rechaza la hipótesis nula, hay efectivamente un cambio en
Le
ón
&
Ga
ll
ar
do
pendiente.
Capı́tulo 8
do
Heterocedasticidad
Ga
ll
ar
Una forma informal pero concisa de resumir el contenido
trabajado y el que se va a trabajar en este capı́tulo, es la
siguiente: se estudia el modelo k−lineal y progresivamente, se
van levantando los supuestos. Ya hemos analizado el aspecto del
muestreo y la multicolinealidad. En este capı́tulo, nos enfocamos
en las propiedades de los errores ϵ. Concretamente, en aspectos
relacionados a la normalidad de los errores y su varianza.
1. E [
Pn
i=1 ϵi ] = 0.
&
Recordemos que
Le
ón
2. Var(ϵ2i ) = σ 2 , ∀ i = 1, ..., n.
Nos preguntamos primero, ¿qué sucede cuando los errores no
tienen varianza constante? Al asumir la normalidad del vector de
parámetros
β̂ ∼ N (β, σ 2 (X T X)−1 )
se pueden efectuar los tests estadı́sticos sobre estos últimos:
153
Capı́tulo 8. Heterocedasticidad
154
1. t−Student.
2. F -Fisher.
3. χ2 .
Más aún, en caso de normalidad, se tiene entonces que
f (Y |Xβ, σ 2 ) = √
(Y −Xβ)T (Y −Xβ)
1
2σ 2
.
e−
2πσ
Es decir, la variable dependiente condicionada al conjunto de
do
variables independientes sigue una distribución normal. El hecho
que los errores sigan una distribución normal permite asegurar que
su varianza es constante y que la media de los mismos es cero.
Ga
ll
ar
La hoja de ruta es la siguiente. En primer lugar, se explorará
de que manera es posible identificar la propiedad de normalidad de
los errores. Luego, se estudiarán formas de corregir la heterocedasticidad.
8.1.
Tests de normalidad
Una variable aleatoria X que sigue una distribución normal se
algunas definiciones.
&
caracteriza por una serie de propiedades. Primero, requerimos de
Le
ón
Definición 8.1.1. Sea F una ley de distribución relativa al
conjunto de datos {y1 , ..., yn }. El Q − Q plot es la representación
gráfica de los cuantiles teóricos de F
F −1 {1/(n + 1)}, F −1 {2/(n + 1)}, ..., F −1 {n/(n + 1)}.
versus los estadı́stico de orden y(1) ≤ y(2) ≤ ... ≤ y(n) .
Capı́tulo 8. Heterocedasticidad
155
Teorema 36. En caso F sea la distribución de una normal
N (µ, σ 2 ). Entonces, el Q − Q plot no es nada menos que una recta
de intercepto µ y pendiente σ.
Demostración. Sea
2
erf(x) = √
π
Z x
2
e−t dt.
0
Luego,
Z x
Ga
ll
ar
&
√
Φ−1 = µ + σ 2erf−1 (2p − 1), p ∈ (0, 1).
Le
ón
Ası́,
do
(u−µ)2
1
√ e− 2σ2 du
−∞ σ 2π
x−µ
1
−1
√
=
1 + erf
, x ∈ R.
2
σ 2
Φµ,σ2 (x) =
156
Ga
ll
ar
do
Capı́tulo 8. Heterocedasticidad
Figura 8.1 Gráfico Q − Q normal de datos N (0,1) generados
aleatoriamente .
Si bien la representación gráfica es bastante útil, no es un
método exacto, de máxima precisión e infalible1 . Por ello, se
introducen una serie de contrastes estadı́sticos fundamentados en
las siguientes propiedades.
Le
ón
1. E[X] = µX .
&
2
Teorema 37. Si X ∼ N (µX , σX
):
2
2. Var[X] = E[(X − µX )2 ] = σX
.
3 X−µX
3. µ3 = E
= 0.
σX
1
Después de todo, es un análisis visual.
Capı́tulo 8. Heterocedasticidad
4. µ4 = E
X−µX
σX
4 157
= 3.
En relación al Teorema (37):
1. La notación µX y σX hace énfasis en el hecho que X puede
venir de una muestra aleatoria.
2. µ3 = S se conoce como la asimetrı́a de X.
3. µ4 = κ se conoce como la curtosis de X.
do
4. De manera general, si X ∼ F , tal y como se precisa en el
Ga
ll
ar
apéndice de teorı́a de la probabilidad,
P xn P(x)
si la variable es discreta.
E[X n ] = R
xn dF (x), si la variable es continua.
(8.1)
Usando (8.1), es posible computar S y κ.
¿De qué manera podemos analizar si {Xi }ni=1 posee la propiedades señaladas en el Teorema (37)? Aplicando alguno de los siguientes tres tests estadı́sticos
1. Jarque-Bera.
Le
ón
3. Shapiro-Wilks.
&
2. Kolmogorov-Smirnov.
Veamos en qué consisten dichos contrastes estadı́sticos.
Definición 8.1.2. Jarque-Bera. La prueba estadı́stica de JarqueBera es una prueba de bondad de ajuste cuyo objetivo es comprobar
si una muestra de datos {Xi }ni=1 tiene la asimetrı́a y la curtosis de
una distribución normal. Se definen:
Capı́tulo 8. Heterocedasticidad
158
La hipótesis nula H0 : S = 0 y κ = 3 (la muestra se distribuye
normalmente).
La hipótesis alternativa H1 : S ̸= 0 y/o κ ̸= 3.
El estadı́stico
n 2 (κ − 3)2
S +
≃ χ2 (2)
JB =
6
4
donde n es el número de observaciones, S la asimetrı́a y κ la
do
curtosis.
A un nivel de significancia del 5 % el estadı́stico χ2 tiene como
Ga
ll
ar
valor crı́tico o de tablas de 5.99. Entonces, si el valor del estadı́stico
estimado es menor al de tablas, se acepta la hipótesis nula de
normalidad de la variable; en caso contrario, se rechaza la nula
y la variable seria no normal.
Ejemplo 65. Sea S = 0,06 y κ = 3,39. Entonces, para n = 7111
7111
(3,39 − 3)2
2
JB =
(0,06) +
= 49,30 > 5,99.
6
4
Ası́, se rechaza la H0 : la muestra no se distribuye normalmente.
&
Definición 8.1.3. Kolmogorov-Smirnov. Sean X1 , ..., Xn iid,
que toman valores en R y cuya función de distribución
Le
ón
FX (x) = P(X ≤ x)
es F . Recordemos que la función de distribución empı́rica (EDF)
de la muestra Fn se define como
1X
1{Xi ≤x} .
Fn (x) =
n i=1
n
Capı́tulo 8. Heterocedasticidad
159
Luego, definimos
Dn = sup |Fn (x) − F (x)|.
x∈R
De este modo, si F es la distribución de una normal, es posible
analizar si la muestra se distribuye según una normal si Dn → 0.
Definición 8.1.4. Shapiro-Wilks. El estadı́stico de contraste del
Pn
Pn
2
i=1 (Xi − X)
i=1 Xi , X(i)
2
el i-ésimo estadı́stico de orden y los
Ga
ll
ar
donde X = n1
W = Pn
i=1 ai X(i)
do
test de Shapiro-Wilks es
coeficientes ai se calculan de la siguiente manera:
(a1 , ..., an ) =
√
mT Σ−1
, C = ||Σ−1 m|| = mT Σ−1 Σ−1 m
C
donde m = (m1 , ..., mn )T los valores esperados de los estadı́sticos
de orden de variables aleatorias independientes e idénticamente
distribuidas según una ley normal, y Σ es la matriz de varianzas y
covarianzas de dichos estadı́sticos de orden.
&
La H0 se rechaza si W → 0. El valor de W puede oscilar entre
0 y 1. Para efectuar el contraste, se usan los valores de tabla, que
Le
ón
se calculan vı́a métodos más avanzados que escapan de los temas
abordados en este texto.
Los contrastes estadı́sticos Jarque-Bera, Shapiro-Wilks y KolmogorovSmirnov nos permiten identificar la normalidad de los errores aplicando dichos tests a los errores ϵ̂i = Yi − Ŷi . En caso no exista
normalidad en los residuos, uno de los causantes es la presencia
Capı́tulo 8. Heterocedasticidad
160
de heterocedasticidad. ¿Qué origina la heterocedasticidad? ¿qué es?
y ¿cómo detectarla? Estas interrogantes serán respondidas en la
siguiente sección.
8.2.
Métodos de detección de
heterocedasticidad
do
En los modelos de regresión lineales se dice que hay heterocedasticidad cuando la varianza de los errores no es igual en todas
las observaciones realizadas. Matemáticamente, es la negación del
Ga
ll
ar
siguiente enunciado
Var(ϵi |X) = σ 2 , ∀ i = 1, ..., n.
Las causas más comunes de la heterocedasticidad son
1. Una mala especificación del modelo: regresores omitidos.
2. Forma funcional incorrecta en las variables usadas en el
modelo: una de las variables tiene una relación no lineal con
&
la dependiente.
3. Un cambio estructural puede provocar una estimación errónea
de los parámetros. Esto se produce en algunas secciones de la
Le
ón
muestra y genera diversos problemas en el modelo.
Note que el último ı́tem ya fue analizado de forma extensiva
previamente. Queda entonces únicamente una interrogante: ¿cómo
se detecta la heterocedasticidad? Existen (por fortuna) diversos
métodos:
Capı́tulo 8. Heterocedasticidad
161
1. Un análisis gráfico de los errores estimados al cuadrado en
función de la muestra.
2. La prueba de Park.
3. La prueba de Glesjer.
4. La prueba de Breuch-Pagan-Godfrey.
5. La prueba de White.
do
El análisis gráfico consiste en estudiar si existe alguna relación
directa o patrón de los errores estimados al cuadrado ϵ̂2 en función
&
Ga
ll
ar
de X.
Figura 8.2 Heterocedasticidad: correlación errores. La figura ha sido
Le
ón
extraı́da de Gujarati and Porter (2010).
La presencia de un patrón son indicios de heterocedasticidad. Si
bien el análisis gráfico provee una buena primera forma de detectar
el problema, no constituye un método formal. Por ello, se recurre a
las pruebas estadı́sticas que detallaremos a continuación.
Capı́tulo 8. Heterocedasticidad
162
Definición 8.2.1. Prueba de Park. Primero, se estima vı́a MCO
Yi = β0 + β1 X1i + ... + βk Xki + ϵi .
Enseguida, se calcula
ϵ̂ = Y − Ŷ .
Esto es
ϵ̂i = Yi − Ŷi , ∀ i = 1, ..., n.
do
Enseguida, se efectúa la siguiente regresión
ln ϵ̂2i = α0 + ln X1i + ... + αp ln Xpi + ϵi
Ga
ll
ar
donde ui un error aleatorio “well behaved”(normalmente distribuido), y p ≤ k. Si los coeficiente son significativos, se confirma la
presencia de heterocedasticidad.
Ejemplo 66. Supongamos que se tiene el siguiente modelo
Y =salario promedio en miles de dólares y X =productividad
promedio en miles de dólares
Vı́a MCO se obtiene
&
Yi = β1 + β2 Xi + ϵi .
Le
ón
Ŷi = 1992,3452 + 0,2329Xi .
Los parámetros β̂1 = 1992,3452 y β̂2 = 0,2329 tienen respectivamente error estándar
ee = (936,4791)(0,0998).
Capı́tulo 8. Heterocedasticidad
163
Luego, t = β̂/ee(β̂). Ası́,
t = (2,1275)(2,333), R2 = 0,4375.
Los resultados revelan que el coeficiente de la pendiente estimado
es significativo en el nivel de 5 % con base en una prueba t de
una cola (umbral en 1.96). La ecuación muestra que, a medida
que aumenta la productividad laboral, por ejemplo, en un dólar,
el salario aumenta, en promedio, alrededor de 23 centavos de dólar.
Ga
ll
ar
ln ϵ̂2i = 35,817 − 2,8099 ln Xi
do
Ahora, en la regresión de los residuos sobre la explicativa, se obtiene
ee = (38,319)(4,216)
t = (0,934)(−0,667), R2 = 0,0595.
No hay una relación estadı́sticamente significativa entre ambas
variables. Según la prueba de Park, se puede concluir que no hay
heterocedasticidad en la varianza del error.
Definición 8.2.2. Prueba de Glesjer. La prueba de Glesjer
&
consiste en realizar un análisis de significancia a los parámetros
estimados del siguiente modelo
Le
ón
|ϵ̂i | = α0 + α1 X1i + ... + αp Xpi + ui .
Acá, ui ∼ N (0, σ 2 ).
A veces se efectúa la regresión
γ
γ1
|ϵ̂i | = α0 + α1 X1i
+ ... + αp Xpip + vi , γi = ±1/2.
Capı́tulo 8. Heterocedasticidad
164
Definición 8.2.3. Prueba de Breusch-Pagan-Godfrey. La
prueba de prueba de Breusch-Pagan-Godfrey consiste en lo siguiente. Dado el modelo de regresión lineal
Yi = β0 + β1 X1i + ... + βk Xki + ϵi , i = 1, ..., n,
suponemos que
σi2 = f (α0 + α1 Z1i + ... + αp Zpi )
do
con Zij ∈ {Xij }1≤j≤n . Es decir, una función no estocástica de un
subconjunto de los regresores. En particular, tomamos f (·) lineal
Ga
ll
ar
σi2 = α0 + α1 Z1i + ... + αp Zpi .
Si αj = 0, ∀ 1 ≤ j ≤ n, los errores son homocedásticos. Ahora bien,
queda la interrogante ¿de qué manera se implementa la prueba
usando lo datos (dado que los σi son parámetros)? Se procede de
la siguiente manera
Se estima vı́a MCO el modelo y se obtienen los ϵ̂i .
Se calcula σ̂2 =
Pn
2
i=1 ûi
.
n−k
ϵ̂2
&
Se define γi = σ̂i2 .
Efectuamos la regresión
Le
ón
γi = α0 + α1 Z1i + ... + αp Zpi + ui
con el objetivo de calcular la SCE =
Enseguida, definimos
Θ=
Pn
2
i=1 (γ̂i − γ) .
SCE
∼ χ2 (p − 1).
2
Capı́tulo 8. Heterocedasticidad
Si Θ =
SCE
2
165
> χ21−α (p − 1) se rechaza la hipótesis nula
(homocedasticidad).
Definición 8.2.4. Test de White. Dado el modelo
Yi = β0 + β1 X1i + β2 X2i + ϵi , i = 1, ..., n,
se estiman vı́a MCO los errores ϵ̂2i = (Yi −Ŷi )2 . Enseguida, se plantea
la regresión
do
2
2
ϵ̂2i = α0 + α1 X1i + α2 X2i + α3 X1i
+ α4 X2i
+ α5 X1i X2i + ui .
De este modelo se obtiene el R2 y se define el estadı́stico nR2 ∼
Ga
ll
ar
χ2 (q) (en este caso q = 5). Si nR2 > χ2 (q), se rechaza H0 : αj = 0,
∀ j.
Las pruebas de Park, Glesjer y Breusch-Pagan-Godfrey son
metodologı́as que permiten analizar la heterocedasticidad de los
errores. Sin embargo, en la práctica, es el test de White, el que se
usa con mayor frecuencia. Esto se explica debido a lo siguiente:
En los tests de Park y Glesjer se requiere saber qué variables
&
causan la heterocedasticidad.
La prueba de Glesjer requiere normalidad en los residuos.
Le
ón
Irónicamente, los errores vi en el caso de Park y Glesjer
pueden ser heterocedásticos o presentar autocorrelación serial.
Las pruebas de Breusch-Pagan-Godfrey y de White no
requieren que se conozca la fuente de heterocedasticidad y
tampoco requieren normalidad en los residuos.
Capı́tulo 8. Heterocedasticidad
166
La prueba de White detecta interacción entre las explicativas
en relación al término de error. Revelando un posible
problema de multicolinealidad.
Ya se poseen las herramientas para detectar el problema de
heterocedasticidad. Una vez detectada, ¿cómo corregirla? Esta
interrogante será abordada a continuación.
Métodos para corregir la
do
8.3.
heterocedasticidad
Ga
ll
ar
Recordemos que el problema de heterocedasticidad se debe a
que las varianzas no son constantes
Var(ϵi ) = σi2 , 1 ≤ i ≤ n.
Sin embargo, de momento, Cov(ϵi , ϵj ) = 0. De forma matricial, se
puede entonces expresar el problema de heterocedasticidad de la
siguiente manera:
σ12
Le
ón
&
0
E[ϵϵT ] = Σ = .
..
0
0
···
0
0
.
0
2
· · · · · · σn
σ22 · · ·
.. . .
.
.
Capı́tulo 8. Heterocedasticidad
167
Efectuando la siguiente transformación, la matriz de varianzas y
covarianzas se escribe como
ω1 0
0 ω
2
2
Σ=σ .
.
..
..
0 ···
···
0
0
= σ 2 Ω.
0
· · · ωn
···
..
.
(8.2)
El término ωi es el causante de la heterocedasticidad en los
do
errores estimados. ¿Qué implica esta situación para los parámetros
estimados mediante MCO? Recordemos una vez más que en el
Ga
ll
ar
modelo de k− variables, se tenı́a
β̂ = (X T X)−1 X T Y.
A pesar del problema de heterocedasticidad, E[β̂] = β. Sin embargo,
Var(β̂) = σ 2 (X T X)−1 X T ΩX(X T X)−1 ̸= σ 2 (X T X)−1 .
(8.3)
En resumen, si bien la presencia de heterocedasticidad no introduce
sesgo en los parámetros estimados, si origina problemas en la validez
eficiente.
&
de las inferencias estadı́sticas dado que el estimador deja de ser
A partir de dicha información, expresada por las ecuaciones
Le
ón
(8.2) y (8.3), y siguiendo White (1980), se ejecutan los siguientes
pasos para corregir el problema de heterocedasticidad. La estrategia
consiste en transformar el modelo original de tal manera que los
coeficientes estimados no cambien y solo sea la matriz de varianzas
y covarianzas del modelo la que cambie, de tal forma que los nuevos
errores estimados tengan varianza media 0 y varianza constante.
Capı́tulo 8. Heterocedasticidad
168
Para lograr este fin, se pre-multiplica a todas las variables del
modelo de regresión por una matriz P de dimensión n × n.
Y = Xβ + ϵ modelo original
P Y = P (Xβ) + P ϵ modelo transformado
Y ∗ = X ∗ β + ϵ∗ .
Con la transformación realizada, se puede apreciar que Y ∗ (=
P Y ) y ϵ∗ (= P ϵ) siguen siendo vectores de dimensión n × 1
do
con la diferencia que ahora cada observación de la variable Y ∗
es una combinación lineal de las n observaciones del vector Y ,
Ga
ll
ar
encontrándose los coeficientes de dichas combinaciones lineales
en la matriz P . Lo anterior también es aplicable para la matriz
de variables explicativas y los errores del modelo original. Por
otro lado, ninguna de estas nuevas variables tienen un significado
económico claro; sin embargo, dado el supuesto de linealidad, se
tiene que los coeficientes βj siguen siendo los mismos del modelo
original.
En relación a la matriz de varianzas y covarianzas de los errores,
&
ahora se tiene
Var(ϵ) = Var(P ϵ) = P Var(ϵ)P T = σ 2 P ΩP T .
Le
ón
Ası́, el objetivo es que P ΩP T = In .
Ahora bien, como Ω es una matriz simétrica, por la descomposición de Cholesky, existe una matriz cuadrada V triangular superior,
tal que Ω = V V T . Ası́, debemos tener P V V T P T = In , de donde,
P = V −1 .
Capı́tulo 8. Heterocedasticidad
169
Definición 8.3.1. Estimador de Mı́nimos Cuadrados Generalizados. El estimador de Mı́nimos Cuadrados Generalizados es
β̂ ∗ = (X ∗T X ∗ )−1 X ∗T Y ∗ .
(8.4)
Ası́, usando que X ∗ = V −1 X y Y ∗ = V −1 Y
β̂ ∗ = (X T (V −1 )T V −1 X)−1 X T (V −1 )T Y
= (X T Ω−1 X)−1 X T Ω−1 Y.
do
Entonces conociendo la fuente de la heterocedasticidad Ω, se puede
corregir el modelo.
Ga
ll
ar
Teorema 38. El estimador de Mı́nimos Cuadrados Generalizados
es
Es insesgado: E[β̂ ∗ ] = β.
Tiene matriz de varianzas y covarianzas : Var(β̂ ∗ ) =
σ 2 (X T Ω−1 X)−1 .
Hay que encontrar entonces la matriz Ω que será igual a V V T .
&
Una vez encontrada V , se pre-multiplica el modelo de regresión por
la inversa de esta matriz y luego se estima el modelo MCO con
las variables transformadas. Si se conoce la matriz Ω simplemente
Le
ón
se reemplaza en las formulas halladas para la estimación de los
coeficientes y la varianza.
Ejemplo 67. Considérese el modelo lineal
Yi = β0 +
k
X
j=1
βj Xji + ϵi .
Capı́tulo 8. Heterocedasticidad
170
La matriz de varianzas y covarianzas de los errores es
σ12
0
2
σ
2
Var(ϵi ) =
.
..
.
2
0
σn
Luego,
...
0
σn
−1
V =
1/σ1
σ1
0
σ2
...
0
σn
0
1/σ2
...
0
1/σn
= V V T.
.
1/σ1 X11 /σ1 · · · Xk1 /σ1
1/σ X /σ · · · X /σ
2
12
2
k2
n
X ∗ = V −1 X = .
..
..
.
1/σn
X1n
· · · Xkn /σn
&
y
σ2
Le
ón
Ası́
0
do
Σ=
σ1
Ga
ll
ar
Y1 /σ1
Y /σ
2
2
Y ∗ = V −1 Y = . .
..
Yn /σn
Capı́tulo 8. Heterocedasticidad
Con lo cual, a partir de (8.4)
P
P
n
1
i=1 σi
..
.
β̂M CG =
..
.
P
|
n
X1i
i=1 σi
Pn X1i2
i=1 σi2
n
1
i=1 σi
171
···
···
..
.
−1 P
Pn
Xki
i=1 σi
Pn X1i Xki
i=1
σi2
Pn
..
.
2
Xki
i=1 σi2
{z
(X ∗T X ∗ )−1
n
Yi
i=1 σi2
P
n X1i Yi
i=1 σ2
i
.
..
.
P
}|
n
Xki Yi
i=1 σi2
{z
=X ∗T Y
Ejemplo 68. Considere el siguiente modelo heterocedástico
}
do
Yi = β0 + β1 Xi + ϵi , n = 5, Var(ϵi ) = σ 2 Xi .
Y es el gasto en salud anual y X la renta anual de las familias. Lo
Ga
ll
ar
que nos estarı́a indicando las forma de los errores es que las familias
de rentas altas son las que tienen mayor variación en el gasto por
salud, a diferencia de las familias de bajos niveles de ingresos.
Supóngase que obtenemos los siguientes datos vı́a estimación MCO:
Familia (i)
Gasto Yi
Ingreso Xi
1
7.0
10
12.8
20
18.3
35
25.3
50
2
3
5
&
4
33.4
60
Le
ón
Nuestro objetivo es obtener β̂M CG . Primero, identificamos las
matrices Σ, Ω y V .
σX1
0
X1
0
σX
X
2
2
Σ=
,
Ω
=
..
..
.
.
0
σX5
0
X5
Capı́tulo 8. Heterocedasticidad
√
V =
X1
√
172
√
0
1/ X1
√
1/
X
2
−1
, V =
.
..
.
..
.
√
√
X5
0
1/ X5
0
X2
0
De ahı́, es posible computar directamente β̂M CG haciendo
β̂M CG = ((V −1 X)T (V −1 X))−1 ((V −1 X)V −1 Y ).
ϵ∗ = √ϵX y β0∗ = √1X :
∗
ϵ
√
X
Ga
ll
ar
Var(ϵ ) = Var
do
Sin embargo, haciendo el cambio de variable Y ∗ = √YX , X = √1X ,
1
Var(ϵ)
X
σ2X
=
X
=
= σ2.
Aplicando este cambio de variable, se aplica directamente el la
fórmula usual de los estimadores β = (X T X)−1 X T Y (pero post
&
transformación). Los datos transformados proveen la siguiente
tabla.
Gasto Yi∗
Ingreso Xi∗
1
2.214
3.162
2
2.862
4.472
3
3.093
5.916
4
3.678
7.071
5
4.312
7.746
Le
ón
Familia (i)
Capı́tulo 8. Heterocedasticidad
173
Finalmente,
2,125
.
β̂M CG = (X ∗T X ∗ )−1 X ∗T Y ∗ =
0,496
Puede ocurrir que no se conozca la posible fuente de heterocedasticidad en nuestro modelo; i.e., no se conoce Σ. En estos casos,
se puede usar el estimador de White:
do
Var(β̂) = (X T X)−1 X T E[ϵϵT ]X(X T X)−1 .
T
Usamos entonces el siguiente estimador White (1980), para X nΩX
1X 2
ϵ̂ Xi XiT .
n i=1 i
Ga
ll
ar
n
White demostró que esta estimación puede realizarse de forma que
las inferencias estadı́sticas sean asintóticamente válidas.
Ejemplo 69. Dado el modelo
Yi = β0 + β1 Xi + ϵi , , Var(ϵi ) = σi2
&
como los σi2 no son directamente observados, para calcular
Pn
(Xi − X)2 σi2
Var(β̂1 ) = Pi=1
n
2 2
i=1 (Xi − X)
Le
ón
se usa ϵ̂i en vez de σi2
En el caso general
Pn
Var(β̂1 ) = Pn
2 2
i=1 Xi ϵ̂i
2
i=1 (Xi − X)
2 .
Yi = β0 + β1 X1i + ... + βk Xki + ϵi , , Var(ϵi ) = σi2 .
Capı́tulo 8. Heterocedasticidad
174
La varianza para cada coeficiente es
Pn
2
i=1 ŵij ϵ̂i
Var(β̂j ) = Pn
2 2
i=1 ŵij
con ŵj los errores de la regresión de Xj en función de los demás
regresores.
A continuación, brindamos un ejemplo más completo que
permite sintetizar lo abordado en esta sección.
do
Ejemplo 70. Consideremos la siguiente especificación de función
de producción que depende únicamente del capital y el empleo:
Ga
ll
ar
Yi = β0 + β1 Ki + β2 Li + ϵi .
(8.5)
Acá Yi representa el valor agregado de la empresa medido en
millones de soles, Ki a los activos fijos de la empresa en millones
de soles y Li al número de trabajadores en millones de personas.
Recordemos que el test de White tiene como objetivo analizar si se
presenta el problema de heterocedasticidad, i.e., la varianza de los
errores no es constante en las observaciones:
&
Var(ϵi ) ̸= σ 2 , ∀ 1 ≤ i ≤ n.
Usando la regresión de la ecuación (8.5), el test de White consiste
Le
ón
en efectuar los siguientes pasos:
1. Se estima la regresión
Yi = β0 + β1 Ki + β2 Li + ϵi ,
vı́a MCO, y se obtienen los errores estimados ϵ̂i = (Yi − Ŷi ).
Capı́tulo 8. Heterocedasticidad
175
2. Luego, se elevan al cuadrado: ϵ̂2i = (Yi − Ŷi )2 .
3. Se efectúa la regresión de estos errores al cuadrado versus
las variables explicativas iniciales, sus interacciones, y sus
cuadrados. Para este modelo, dicha regresión serı́a:
ϵ̂2i = α0 + α1 Ki + α2 Li + α3 Ki Li + α4 Ki2 + α5 L2i + ui , (8.6)
donde ui es un término de error, aleatorio y bien comportado.
do
Se estima (8.6) vı́a MCO y se obtiene el R2 .
4. Se define el estadı́stico nR2 , con n el número de observaciones.
Ga
ll
ar
Este, sigue una distribución χ2 (q), con q el número de
términos en la regresión (sin contar la constante). En este
caso, q = 5.
5. Planteamos la hipótesis nula H0 : los errores no presentan el
problema de heterocedasticidad.
6. Si nR2 > χ21−α (q), se rechaza la H0 . Caso contrario, se acepta.
Acá α es la significancia.
&
La siguiente tabla resume el examen estadı́stico necesario para
Le
ón
obtener la información requerida:
Capı́tulo 8. Heterocedasticidad
176
do
Figura 8.3 Test de White vı́a Stata.
&
Ga
ll
ar
Con estos datos, es ahora posible graficar el examen estadı́stico:
Le
ón
Figura 8.4 Gráfica del examen estadı́stico.
A partir de esta información y los siguientes resultados, es
posible concluir sobre la heterocedasticidad.
177
Figura 8.5 Regresión para los û2i .
do
Capı́tulo 8. Heterocedasticidad
Ga
ll
ar
Supongamos ahora que, hay presencia de heterocedasticidad en
el modelo (no necesariamente en el conjunto de datos anterior).
Concretamente, Var(ϵi ) = cL2i , c > 0. Luego,
cL21 0
σ12 0 · · · 0
0 σ 2 · · · 0 0 cL2
2
2
Σ=.
= .
.
.
.
..
..
. . 0 ..
..
2
0 ···
0 · · · · · · σN
Le
ón
&
Factorizando la constante c
L2 0
1
0 L2
2
Σ = c .
.
..
..
0 ···
···
0
···
0
.
0
2
· · · cLN
···
...
0
= cΩ.
0
2
· · · LN
···
...
0
Recordemos ahora que, debido a que Ω es simétrica (por la
descomposición de Cholesky),
Ω = V V T.
Capı́tulo 8. Heterocedasticidad
178
Dada la presencia de términos nulos en todas las entradas de la
matriz a excepción de la diagonal, es posible identificar que dicha
matriz V estará definida de la siguiente manera
L1 0 · · · 0
0 L ··· 0
2
V = .
.
.. . .
..
.
.
0
0 · · · · · · LN
Asimismo2 ,
PPT = P2 =
0
..
.
Le
ón
2
Ω·
1/L21
0
1/L21
do
0
0
.
0
· · · 1/LN
···
...
···
0
1/L22 · · ·
..
...
.
0
···
0
···
0
0
= IN .
0
2
· · · 1/LN
1/L22 · · ·
..
...
.
···
0
0
0
2
· · · 1/LN
0
..
.
&
y
···
Ga
ll
ar
En efecto,
1/L1
0
0
1/L2
P = V −1 = .
..
..
.
0
···
De manera general, si D ∈ MN ×N es una matriz diagonal D =
(a11 , a22 , ..., aN N ), si ∀ i: aii ̸= 0,
−1
−1
D−1 = (a−1
11 , a22 , ..., aN N ).
Capı́tulo 8. Heterocedasticidad
179
De este modo, la matriz P cumple la propiedad deseada, i.e. :
P P T = Ω−1 . Ejecutemos ahora la transformación del modelo
Y ∗ = PY
X ∗ = P X = P [1, K, L]
ϵ∗ = P ϵ.
Calculamos
X∗ =
1/L2 · · ·
..
..
.
.
0
···
1/L1
0
1/L2 · · ·
..
..
.
.
0
···
ϵ∗ =
1/L1
0
0
..
.
· · · 1/LN
K1 /L1 1
K2 /L2 1
..
..
.
.
KN /LN 1
Le
ón
···
0
..
.
1/L1
1/L
2
= .
..
1/LN
0
Y1
Y1 /L1
Y Y /L
0
2 2 2
. = .
. .
0
. .
· · · 1/LN
YN
YN /LN
0
..
.
0
&
···
0
···
do
∗
Y =
1/L1
Ga
ll
ar
N ×N
1 K1
L1
1 K
L
2
2
.
..
..
..
.
.
1 KN L N
N ×3
N ×3
0
ϵ1
ϵ1 /L1
ϵ ϵ /L
0
2
2
2
. = . .
.
.
0 . .
ϵN /LN
ϵN
· · · 1/LN
0
..
.
1/L2 · · ·
..
..
.
.
0
···
Capı́tulo 8. Heterocedasticidad
180
El nuevo modelo tendrı́a entonces la siguiente formulación
∗
Yi∗ = β0 L−1
i + β1 (Ki /Li ) + β2 + ϵi
∗
yi = β0 L−1
i + β1 ki + β2 + ϵi .
La transformación del modelo permite corregir el problema de
do
heterocedasticidad. En efecto,
ϵi
1
cL2
∗
Var(ϵi ) = Var
= 2 Var(ϵi ) = 2i = c , ∀ 1 ≤ i ≤ N.
Li
Li
Li
Ahora, el nuevo modelo, que consiste en una transformación de
escala a una función de producción lineal Y = β0 + β1 K + β2 L + u,
Ga
ll
ar
expresa la producto medio en función del ratio capital-trabajo.
Este ratio es de sumo interés pues define la proporción del trabajo
destinada al uso del stock de capital (maquinarı́a etc.). En otras
palabras, define la asignación entre los factores de producción.
Como los parámetros iniciales β ′ s deben ser positivos (las funciones
de producción son cóncavas crecientes), el factor 1/L indica como
el producto medio se incrementa cada vez menos conforme el factor
trabajo aumenta3 . Esto confirma de cierta forma las condiciones
&
de Inada4 , supuesto clave sobre la función de producción en los
3
4
Le
ón
modelos de crecimiento.
La función f (L) = 1/L, L > 0 f : R++ → R++ es decreciente en L.
Véase la definición en Barro and Martin (2003)
Capı́tulo 9
do
Autocorrelación serial
Ga
ll
ar
El problema de una varianza no constante en los errores ya
fue abordado en el capı́tulo anterior. Sin embargo, se precisó que
en dicho caso, la matriz de varianza y covarianzas toma la forma
Σ = diag[σ12 , ..., σn2 ]. Esto a su vez implica que Cov(ϵi , ϵj ) = 0, i ̸=
j. En este capı́tulo, nos interesemos en el caso en el que los
datos provienen de una serie de tiempo. Esto es, una sucesión de
datos medidos en ciertos momentos y ordenados cronológicamente.
Usualmente, una serie de tiempo se denota de la siguiente forma
&
{Xt : t ∈ [t0 , T ]}.
Le
ón
Recordemos que uno de los supuestos del modelo de regresión
lineal es que los errores no tienen autocorrelación serial, es decir, no
existe correlación entre los errores de diferentes periodos de tiempo.
Definición 9.0.1. La autocorrelación serial se da cuando los
errores en el tiempo t no tienen covarianza nula con los errores
181
Capı́tulo 9. Autocorrelación serial
182
de tiempos pasados. Esto es
Cov(ϵt , ϵt−1 ) = E[ϵt ϵt−1 ] − E[ϵt ]E[ϵt−1 ] ̸= 0.
=0
Como es costumbre, la primera pregunta que surge en estos
casos (a la hora de levantar un supuesto del modelo k−lineal) es
qué es lo que origina el problema. En el caso de la auto-correlación
serial, esta puede tener como origen lo siguiente:
La existencia de ciclos o tendencias.
Ga
ll
ar
Presencia de relaciones no lineales.
do
La omisión de variables relevantes en el modelo.
Uso de modelos autoregresivos (la variable dependiente,
depende de sus rezagos).
Ahora, la segunda interrogante natural es ¿qué implica la autocorrelación? El estimador β̂ sigue siendo insesgado, pero deja de ser
eficiente:
σ2
&
σ
21
Var(ϵ) = E[ϵϵT ] = .
..
σ1T
σ21 · · · σT 1
.
σ 2 · · · ..
.
.. . .
..
. .
.
2
··· ··· σ
(9.1)
Le
ón
Note que en (9.1) se ha asumido homocedasticidad.
La hoja de ruta es la siguiente. En este capı́tulo se estudiarán
esencialmente dos tipos de modelos en los cuales la matriz
de varianzas y covarianzas toma la forma de (9.1). Luego,
se presentarán los contrastes de autocorrelación más usados.
Finalmente, se brindarán ejemplos, ası́ como métodos correctivos.
Capı́tulo 9. Autocorrelación serial
9.1.
183
Modelo autorregresivo AR
En general, la correlación entre momentos diferentes del tiempo
no se limita a dos periodos sucesivos, sino que se mantiene para
cualquier distancia entre esos dos momentos del tiempo. Esto se
conoce como Modelo Autorregresivo (de orden p) o AR(p).
= ut +
p
X
do
ϵt = ϕ1 ϵt−1 + ϕ2 ϵt−2 + · · · + ϕp ϵt−p + ut
ϕj ϵt−j
j=1
Ga
ll
ar
con ut ∼ N (0, σu2 ). El modelo AR(1) es un caso particular que
tiene la forma
ϵt = ρϵt−1 + ut , ut ∼ N (0, σu2 ) , |ρ| < 1.
En particular, cuando t → ∞,
ϵt =
t
X
ρi ut−i =⇒ lı́m ϵt =
t→∞
i=0
∞
X
ρi ut−i .
i=0
&
Ahora, el valor esperado del error ϵt es igual a cero:
" t
#
t
X
X
i
E[ϵt ] = E
ρ ut−i =
ρi E[ut−i ] = 0.
Le
ón
i=0
i=0
Capı́tulo 9. Autocorrelación serial
184
2
σ
Por otro lado, la varianza converge a 1−ρ
2:
Var(ϵt ) = lı́m Var
t→∞
=
∞
X
t
X
i=0
Var ρi ut−i
i=0
=
∞
X
ρi ut−i
!
ρ2i Var(ut−i )
i=0
ρ2i σ 2 =
i=0
σ2
.
1 − ρ2
do
=
∞
X
s 2
ρ σ
Finalmente, la covarianza de ϵt con ϵt−s , 1 ≤ s ≤ t, es 1−ρ
2 . En
Ga
ll
ar
efecto:
E[ϵt ϵt−1 ] = E[(ρϵt−1 + ut )ϵt−1 ]
= E[ρϵ2t−1 + ut ϵt−1 ]
= ρE[ϵ2t−1 ] + E[ut ϵt−1 ]
= ρVar[ϵt−1 ] = ρ
σ2
.
1 − ρ2
Usando que Cov(ϵt , ϵt−s ) = E[ϵt ϵt−s ] y
s
Le
ón
se tiene:
&
ϵt = ρ ϵt−s +
Cov(ϵt , ϵt−s ) = E
"
s−1
X
ρi ut−i ,
i=0
ρs ϵ2t−s +
s−1
X
ρi ut−i
i=0
!
ϵt−s
#
#
"
s−1
X
s 2 = E ρ ϵt−s + E ϵt−s
ρi ut−i
= ρs E[ϵ2t−s ] =
i=0
s 2
ρσ
.
1 − ρ2
Capı́tulo 9. Autocorrelación serial
185
Se ha considerado que t − s → ∞. En efecto,
"
# s−1
s−1
X
X
E ϵt−s
ρi ut−i =
ρi E[ut−i ϵt−s ] = 0.
i=0
i=0
Ası́,
1
ρ
2
σ
2
ρ2
Var(ϵ) = σ Ω =
1 − ρ2
.
..
ρT −1
· · · ρT −1
..
1 ···
.
..
...
.
...
ρ
··· ··· ρ
1
ρ
ρ2
(9.2)
do
Ga
ll
ar
Las expresiones obtenidas previamente son aproximaciones. En
efecto, la dimensión de la matriz (9.2) es T × T . Sin embargo, en
los cálculos anteriores, se ha asumido que T → ∞.
9.2.
Modelo de medias móviles M A
El modelo de medias móviles de orden q tiene la siguiente
estructura
&
ϵt = ut +
q
X
θi ut−i
i=1
donde los θi son los parámetros del modelo, y ut−i son términos
Le
ón
de error. Los modelos de media móvil o de memoria finita solo
mantienen la correlación entre perı́odos de tiempo determinados.
En un modelo de medias móviles de orden 1,
ϵt = ut + θut−1 , ut ∼ N (0, σ 2 ).
Capı́tulo 9. Autocorrelación serial
186
A diferencia de un proceso AR(1), no se necesita imponer supuesto
alguno sobre el coeficiente asociado a los errores rezagados1 . Por un
lado,
E[ϵt ] = E[ut + θut−1 ] = E[ut ] + θE[ut−1 ] = 0.
Por otro lado, la varianza es igual a
E[ϵ2t ] = E[(ut + θut−1 )2 ]
= E[u2t ] + 2θ E[ut ut−1 ] +θ2 E[u2t−1 ]
| {z }
| {z }
= σ 2 (1 + θ2 ).
=Var(ut )
do
=0
Ga
ll
ar
Por inducción, es posible probar que E[ϵt ϵt−1 ] = θσ 2 y E[ϵt ϵt−j ] = 0,
∀ j ≥ 2. Ası́,
1 + θ2
θ
0
···
0
..
θ
2
.
1
+
θ
θ
·
·
·
.
.
T
2
..
Var(ϵ) = E[ϵϵ ] = σ 0
θ
1 + θ2 ..
.
.
.
.
..
..
..
..
θ
2
0
···
···
θ 1+θ
Contrastes estadı́sticos de
&
9.3.
Le
ón
detección
Ya habiendo trabajado los dos modelos representativos del
problema de la autocorrelación serial, presentamos los contrastes
estadı́sticos, enfocándonos en los modelos autorregresivos. En
efecto, los contrastes que realizaremos, nos permitirán identificar la
1
Recordemos que |ρ| < 1.
Capı́tulo 9. Autocorrelación serial
187
presencia de un comportamiento autorregresivo AR(p) o de medias
móviles M A(q)2 . Esencialmente, se cuentan con las siguientes
pruebas:
Durbin-Watson.
Ljung-Bonx.
Breusch-Godfrey.
do
A continuación, usaremos la notación T = n.
Definición 9.3.1. Durbin Watson. El test de Durbin Watson
Durbin and Watson (1950) pone a prueba la existencia de un
Ga
ll
ar
comportamiento autorregresivo de los errores de orden 1. Es decir,
evidencia un AR(1).
ϵt = ρϵt−1 + ut , ut ∼ N (0, σ 2 ).
En este test H0 : ρ = 0 y H1 : ρ ̸= 0, |ρ| < 1. En caso ρ > 0, se dice
que la autocorrelación es positiva. Caso contrario, es negativa.
&
Luego, el estadı́stico de Durbin-Watson (DW) es
Pn
(ϵt − ϵt−1 )2
DW = t=2Pn 2
ϵt
Pn t=1
2
(ϵ − 2ϵt ϵt−1 + ϵ2t−1 )
= t=2 t Pn 2
t=1 ϵt
Le
ón
2
Pn
2
t=2 ϵt−1
2
t=1 ϵt
ϵ2
= 1 − 2ξ + 1 − Pn n 2 ∼ 2(1 − r) = d.
t=1 ϵt
ϵ2n − ϵ2n +
Pn
= 1 − 2r +
En general estos modelos son más complejos dado que los errores son no
observables.
Capı́tulo 9. Autocorrelación serial
Acá ξ =
188
Pn
t=2 ϵt ϵt−1
P
. A partir del valor del estadı́stico d, se contrasta
n
2
t=2 ϵt
la hipótesis nula usando la siguiente tabla.
Hipótesis nula
Si
Decisión
No hay autocorrelación positiva
0 < d < dL
Rechazar
No hay autocorrelación positiva
dL ≤ d ≤ dU
Sin decisión
No hay correlación negativa
4 − dU ≤ d ≤ 4 − dL
Rechazar
Sin decisión
do
No hay correlación negativa
4 − dL < d < 4
dU < d < 4 − dU
No hay autocorrelación
No rechazar
Ga
ll
ar
Los valores dL y dU dependen de n y el número de regresores.
Ahora bien, las principales limitaciones del contraste DurbinWatson son:
Sólo es válido para la autocorrelación de la perturbación
autorregresiva de orden 1.
Requiere n > 15.
Presenta zonas (rango de valores para d) de indeterminación.
&
Definición 9.3.2. Ljung-Box. Este test Ljung and Box (1978)
utiliza el coeficiente de correlación simple y sólo puede ser aplicado
Le
ón
cuando el conjunto de variables explicativas son todas exógenas. La
hipótesis nula es que no existe autocorrelación serial. El estadı́stico
Ljung-Box es
r
X
ρ2i
Q = n(n + 2)
∼ χ2 (r)
n
−
1
i=1
Capı́tulo 9. Autocorrelación serial
189
con
Pi
t=2 ϵt ϵt−1
ρi = P
.
i
2
t=2 ϵt
Usualmente el número de rezagos r ∼ n/4 y se rechaza la nula si
Q > χ21−α (r).
Definición 9.3.3. Breusch-Godfrey. A diferencia del contraste
anterior (Ljun-Box), el test de Breusch-Godfrey Godfrey (1978)
permite contrastar que los errores sigue un comportamiento
do
autorregresivo de orden p o de media móvil de orden q.
Primero, se estima el modelo3 Yt = β0 + β1 Xt + β2 Zt + ϵt .
Pp
i=1 ρi ϵt−i + ut .
Ga
ll
ar
Se plantea ϵt = α1 Xt + α2 Zt +
Al estimar el modelo para Yt , se obtienen los ϵ̂t y se efectúa
la regresión
ϵ̂t = αXt + αZt +
p
X
ρi ϵ̂t−i + ut .
i=1
Se obtiene el R2 . Luego, (n − p)R2 ∼ χ2 (p), y se efectúa el
test de hipótesis nula H0 : ρi = 0 usando dicho estadı́stico.
Antes de concluir con los aspectos teóricos y proceder con
&
algunos ejemplos, se presentan una serie de metodologı́as que
permiten corregir los problemas de autocorrelación serial. En
Le
ón
concreto:
Tomar primeras diferencias.
Usar el método iterativo de Cochrane-Orcutt.
Aplicar Mı́nimos Cuadrados Generalizados.
3
Usamos uno con dos regresores por simplicidad.
Capı́tulo 9. Autocorrelación serial
9.4.
190
Métodos correctivos
Definición 9.4.1. Primeras diferencias. Se plantea
Yt − Yt−1 = β1 (Xt − Xt−1 ) + (ϵt − ϵt−1 ),
i.e.,
∆Yt = β1 ∆Xt + εt
do
donde ∆ es el operador de diferencias.
El método de primeras diferencias se aplica cuando la correla-
Ga
ll
ar
ción excede 0.8.
Definición 9.4.2. Método iterativo de Cochrane-Orcutt.
De manera algorı́tmica, el método iterativo de Cochrane-Orcutt
consiste en lo siguiente.
Se estima el modelo original vı́a MCO.
Se guardan los residuos ϵ̂t y se corre la regresión ϵ̂t = ρϵ̂t−1 +ut .
(Esto se puede generalizar al caso AR(p).
&
Se obtiene el estimado de ρ.
Usar el parámetro ρ estimado para transformar las variables
Le
ón
y estimar el nuevo modelo por MCO.
Estas iteraciones se deben repetir hasta un nivel de convergencia considerado de antemano. Inicialmente ρ = 0
Capı́tulo 9. Autocorrelación serial
191
La transformación de las variables es la siguiente
yt∗ = yt − ρyt−1
x∗t = xt − ρxt−1
yt∗ = β0 (1 − ρ) + β1 x∗t + ut .
El procedimiento se repite hasta que (comúnmente)
|β i − β i−1 | < 10−5 .
Ga
ll
ar
P i−1
P i
< 10−5 .
( ϵ̂2t ) − ( ϵ̂2t )
do
|ρi − ρi−1 | < 10−5 .
En este contexto, i denota la iteración.
A continuación, veamos cuál es el estimador de MCOG para los
casos estudiados en este capı́tulo.
Definición 9.4.3. MCOG.
β̂M CG = (X T Ω−1 X)−1 X T Ω−1 Y
&
donde (para un AR(1))
1
Le
ón
ρ
2
Ω=
ρ
.
..
ρT −1
· · · ρT −1
.
..
1 · · · ..
.
.. . .
..
..
. .
.
.
.
..
.. . .
.
.
.
ρ
··· ··· ρ
1
ρ
ρ2
Capı́tulo 9. Autocorrelación serial
192
Si se conoce el valor de ρ, es posible calcular Ω−1 . En dicho caso,
Var(β̂M CG ) = σ 2 (X T Ω−1 X)−1 .
Si ρ es desconocido, usualmente se usa el estimador
PT
t=2 ϵ̂t ϵ̂t−1
r= P
.
T
2
t=2 ϵ̂t
A continuación, brindamos un ejemplo que integra los conceptos
abordados a lo largo de este capı́tulo.
do
Ejemplo 71. Se trata de estimar el efecto traspaso del tipo de
cambio al nivel de precios con el siguiente modelo:
(9.3)
Ga
ll
ar
ln Pt = α + β ln Et + εt ,
donde εt ∼ N (0, σ 2 ) y Cov(εt , εt−k ) = 0 para k ̸= 0. Se
decide tomar la cuarta diferencia a esta ecuación para expresar el
modelo en diferencias porcentuales anuales. La variable endógena
se transforma de la siguiente manera:
∆ ln Pt = ln Pt − ln Pt−4
con lo que el modelo se simplifica a:
&
∆ ln Pt = ∆ ln Et + ut
ut = εt − εt−4 .
Le
ón
Se asume una muestra de 11 observaciones trimestrales para las
variables. El modelo en diferencias presenta autocorrelación serial,
veamos esto a continuación. Primero,
Cov(ut , ut−k ) = E[(ut − E[ut ])(ut−k − E[ut−k ])]
= E[ut ut−k ].
Capı́tulo 9. Autocorrelación serial
193
E[ut ] = E[εt − εt−4 ] = E[εt ] − E[εt−4 ] = 0 − 0 = 0.
Analicemos caso por caso, para k = 0, 1, 2, 3, 4...
k = 0, t ≥ 4:
Cov(ut , ut−k ) = Cov(ut , ut )
= E[u2t ]
= Var(ut ) − E[ut ]2
do
= Var(εt − εt−4 ) − 02 .
Ahora, recordemos que Var(X − Y ) = Var(X) + Var(Y ) −
2Cov(X, Y ), X, Y dos variables aleatorias. Entonces,
Ga
ll
ar
Var(εt −εt−4 ) = Var(εt )+Var(εt−4 )−2Cov(εt , εt−4 ) = σ 2 +σ 2 −0.
Ası́, Cov(ut , ut−k ) = 2σ 2 .
k = 1, t ≥ 5:
Cov(ut , ut−1 ) = E[ut ut−1 ] = E[(εt − εt−4 )(εt−1 − εt−5 )].
Expandiendo el producto y aplicando la linealidad del valor
esperado, se obtiene
&
Cov(ut , ut−1 ) = E[εt εt−1 ]−E[εt−4 εt−1 ]−E[εt εt−5 ]+E[εt−4 εt−5 ].
Esto es igual a 0 pues Cov(εt , εt−k ) = 0 para k ̸= 0.
Le
ón
k = 2, t ≥ 6, análogamente
Cov(ut , ut−2 ) = E[ut ut−2 ]
= E[(εt − εt−4 )(εt−2 − εt−6 )]
= E[εt εt−2 ] − E[εt−4 εt−2 ] − E[εt εt−6 ] + E[εt−4 εt−6 ]
= 0.
Capı́tulo 9. Autocorrelación serial
194
k = 3, t ≥ 7:
Cov(ut , ut−3 ) = E[ut ut−3 ]
= E[(εt − εt−4 )(εt−3 − εt−7 )]
= E[εt εt−3 ] − E[εt−4 εt−3 ] − E[εt εt−7 ] + E[εt−4 εt−7 ]
= 0.
k = 4, t ≥ 8:
do
Covut , ut−4 ) = E[ut ut−4 ]
= E[(εt − εt−4 )(εt−4 − εt−8 )]
= −E[ε2t−4 ]
= −σ 2 .
Ga
ll
ar
= E[εt εt−4 ] − E[εt−4 εt−4 ] − E[εt εt−8 ] + E[εt−4 εt−8 ]
Para un trimestre, con 11 − (r − 1) observaciones (r = 4 en este
modelo), tendremos:
2σ 2
0
0
0
Le
ón
&
0
2σ 2
0
0
0
0
2σ 2
0
0
0
0
2σ 2
V =
2
0
0
0
−σ
0 −σ 2
0
0
0
0 −σ 2
0
0
0
0 −σ 2
−σ 2
0
0
0
−σ 2
0
0
0
σ2
0
0
0
2σ 2
0
0
0
2σ 2
0
0
0
2σ 2
0
0
0
0
0
0
2
−σ
0
0
0
2
2σ
.
8×8
Si deseamos extender el análisis a un año (4 trimestres), la matriz
195
preserva la misma estructura:
2σ 2
0
0
0 −σ 2 · · · 0
0
..
...
0 2σ 2
0
0
0
.
0
..
...
...
0
0
0
0
0
.
.
0
..
0
0
0
0
0 −σ 2
V =
2
−σ 2 0
0
0
2σ
0
0
0
.
..
2
..
.
0
0
0
2σ
0
0
.
2
2
.
0
.
−σ
0
0
0
2σ
0
2
2
0
0
· · · −σ
0
0
0 2σ
.
do
Capı́tulo 9. Autocorrelación serial
T −3×T −3
Ga
ll
ar
Ahora, ordenemos en función de su pertinencia los exámenes
estadı́sticos presentados previamente, en función del caso concreto
que se está analizando. El test de Durbin-Watson, dada su sencillez,
es de gran utilidad a la hora de analizar procesos AR(1). Esto es,
ut = ρut−1 + εt
siendo εt un error idiosincrásico. No obstante, en este tipo de
modelos,
&
Cov(ut ut−1 ) = E[ut ut−1 ]
= E[(ρut−1 + εt )ut−1 ]
Le
ón
= E[ρu2t−1 + εt ut−1 ]
= ρE[u2t−1 ] + E[εt ut−1 ]
= ρE[u2t−1 ]
= ρVar(u2t−1 ) ̸= 0.
En este modelo Cov(ut ut−1 ) = 0. Por ende, no es oportuno aplicar
Capı́tulo 9. Autocorrelación serial
196
el test de Durbin-Watson. Queda por analizar el test Llung-Box y
el test Breusch-Godfrey. Recordemos las siguientes caracterı́sticas:
Llung-Box: el número de rezagos a testear debe ser aproximadamente N/4 (no más). Proporciona la existencia de un
AR(p) o M A(q), pero, no da necesariamente el orden. Sin
embargo, nos permite ver la autocorrelación (normal y parcial), analizando entonces el grado de correlación.
do
Breusch-Godfrey: analizar el estadı́stico (N −p)R2 , el R2 proviniendo de la regresión donde ût es la variable dependiente.
Este examen estadı́stico sı́ nos permite encontrar el orden de
Ga
ll
ar
los rezagos.
Volviendo a nuestro modelo, para un trimestre, si se cuenta
únicamente con 8 observaciones, el test de Llung-Box no serı́a
relevante pues, solo podrı́amos testear 2 rezagos y ciertamente, la
covarianza de los errores no es igual a cero en errores con cuatro
unidades de diferencia temporal. Es por ello que el test de BreuschGodfrey serı́a el más apropiado. Le sigue sin embargo el LlungBox, puesto que el Durbin-Watson, no solo requiere más de 15
&
observaciones, pero además, restringe el estudio al modelo AR(1).
Ejemplo 72. A partir de la especificación Cobb-Douglas Y =
Le
ón
F (K, L) = K α Lβ , se plantea el modelo
Yt = AKtα Lβt eat ,
donde at es un error aleatorio. Luego, sacando logaritmos y usando
al notación xt = ln Xt :
yt = c + β1 ℓt + β2 kt + at .
Capı́tulo 9. Autocorrelación serial
197
Primero, estimamos el modelo vı́a MCO. Se resuelve
−1
1 ℓ1 k1
y1
ĉ
1 ··· 1
1 ··· 1
. . .
.
β̂1 = ℓ1 · · · ℓn .. .. .. ℓ1 · · · ℓn .. .
β̂2
k1 · · · kn
k1 · · · kn
yn
1 ℓn kn
Luego, a partir de esta estimación, se computan
Enseguida, se estima ρ en la regresión
Ga
ll
ar
ât = ρât−1 + εt .
do
ât = yt − ŷt = yt − (ĉ + β̂1 ℓt + β̂2 kt ).
A partir de ρ̂, se efectúan los cambios de variable
yt∗ = yt − ρ̂yt−1
ℓ∗t = ℓt − ρ̂ℓt−1
Le
ón
&
kt∗ = kt − ρ̂kt−1 .
Capı́tulo 9. Autocorrelación serial
198
Se repiten los pasos (j veces) hasta que, eventualmente,4
|ρ̂j − ρ̂j−1 | < 10−5
||β̂j − β̂j−1 || < 10−5
n
n
X
X
(û2t )j −
(û2t )j−1 < 10−5 .
t=1
9.5.
t=1
Mı́nimos Cuadrados No Lineales
do
Antes de terminar con el capı́tulo, vamos a comentar brevemente
el modelo de mı́nimos cuadrados no lineales. En este modelo,
Ga
ll
ar
relajamos el supuesto de que E(y|x, β) es lineal en parámetros y
asumimos que la forma funcional es conocida, E(y|x, θ) = g(x, θ),
donde g(x, θ) es conocida y diferenciable5 . La estimación se realiza
mediante la resolución del siguiente problema de optimización:
θ̂MCNL = argmin SN (θ)
donde
n
Usualmente, se utiliza una de las siguientes normas || · ||: dado x =
Le
ón
(x1 , ..., xd ) ∈ Rd
&
4
1X
SN (θ) =
(yi − g(xi , θ))2 .
n i=1
v
u d
uX
||x||2 = t
x2i
i=1
||x||1 =
d
X
i=1
|xi |
||x||máx = máx {|xi |}.
5
1≤i≤d
Por ejemplo, g(x, θ) = θ1 + θ2 eθ3 x .
Capı́tulo 9. Autocorrelación serial
199
Dado que no siempre existe una solución analı́tica, se usan métodos
numéricos como el algoritmo iterativo de Newton (ver Suli and
Mayers (2003)). Bajo la continuidad y diferenciabilidad de g(x, θ),
se aplica el teorema de Taylor de primer orden en torno de θ0 ,
obteniendo:
#−1 n
" n
X ∂g(xi , θ)
X ∂g(xi , θ) ∂g(xi , θ)
(yi −g(xi , θ0 ))
θ̂ = θ0 +
T
∂θ
∂θ
∂θ
θ
θ
θ
0
0
0
i=1
i=1
Ası́ vemos que Newton es un algoritmo iterativo, donde la fórmula
Ga
ll
ar
do
iterativa es
" n
#−1 n
X ∂g(xi , θ)
X ∂g(xi , θ)
∂g(xi , θ)
θ̂j = θ̂j−1 +
(yi −g(xi , θj−1 )).
∂θ
∂θT
∂θ
θ̂j−1
θ̂j−1
θj−1
i=1
i=1
Los pasos del algoritmo incluyen la selección de valores iniciales,
que pueden basarse en teorı́a, alteraciones de la función para
obtener una solución analı́tica, valores obtenidos por mı́nimos
cuadrados ordinarios, o gráficos de la función. Luego, se procede con
la iteración hasta que se cumpla una regla de parada, que puede ser
absoluta (||θj − θj−1 || < tolerancia, generalmente 10−6 ) o relativa
(
||θj −θj−1 ||
< tolerancia).
||θj−1 ||
Le
ón
&
Respecto a la distribución asintótica, tenemos que
" n
#−1
n
√
1 X ∂g(xi , θ) ∂g(xi , θ)
1 X ∂g(xi , θ)
√
n(θ̂−θ) ≈
(yi −g(xi , θ)).
n i=1
∂θ
∂θT
∂θ
n i=1
θ
θ
θ
Por otro lado, abreviando la notación,
∂g(xi , θ) ∂g(xi , θ)
T
E(gθi gθi ) = E
∂θ
∂θT
y
T 2
E(gθi gθi
ϵi ) = E
∂g(xi , θ) ∂g(xi , θ) 2
ϵi
∂θ
∂θT
Capı́tulo 9. Autocorrelación serial
200
De donde, la varianza asintótica es:
−1
−1
T
T 2
T
Vθ = E(gθi gθi
)
E(gθi gθi
ϵi ) E(gθi gθi
)
.
Definiendo,
n
n
1X
1 X ∂g(xi , θ) ∂g(xi , θ)
T
ĝθi ĝθi =
n i=1
n i=1
∂θ
∂θT
θ̂
θ̂
do
n
n
1 X ∂g(xi , θ) ∂g(xi , θ) 2
1X
T 2
ϵi =
ϵi ,
ĝθi ĝθi
n i=1
n i=1
∂θ
∂θT
θ̂
θ̂
Le
ón
&
Ga
ll
ar
la varianza asintótica estimada es:
" n
#" n
#−1 " n
#−1
X
X
1X
1
1
T
T 2
T
V̂θ =
ϵi
ĝθi ĝθi
ĝθi ĝθi
ĝθi ĝθi
.
n i=1
n i=1
n i=1
Capı́tulo 10
do
Endogeneidad
Ga
ll
ar
El análisis de datos con regresores endógenos (variables explicativas observables correlacionadas con términos de error no observables) es, probablemente un de las contribuciones fundamentales de
la econometrı́a a la estadı́stica. Si bien la endogeneidad puede surgir
de distintas fuentes como regresores con error de medida, selección
muestral, efecto tratamiento heterogéneo, etc. el término apareció
inicialmente en el contexto de ecuaciones simultáneas, por ejemplo,
ecuaciones de oferta y demanda. En este capı́tulo nos concentrare-
&
mos en el caso en que existe una ecuación lineal de interés, llamada
la ecuación estructural, y alguno de los regresores está correlacionado con el término de error. Una referencia clásica y completa para
Le
ón
este tema es Angrist and Pischke (2009).
201
Capı́tulo 10. Endogeneidad
10.1.
202
Variables Instrumentales
Considere el siguiente modelo lineal: Y = Xβ + ϵ donde
(X, Y ) representa una observación de dimensión (1 × (k + 1)),
β es un vector de parámetros y ϵ es un término de error no
observable. El supuesto de identificación fundamental de Mı́nimos
Cuadrados Ordinarios es que las variables explicativas no estén
correlacionadas con el término de error, esto es: E(X T ϵ) = 0.
do
Note que el parámetro poblacional β puede ser expresado en
momentos de las variables observables explotando el supuesto
recién presentado: X T T = X T Xβ + X T ϵ. Tomando valor esperado
Ga
ll
ar
= E[X T X]−1 E[X T Y ]. Dado que (X, Y ) es
tenemos que: β
observable, β es identificado. Recordemos que el principio de la
analogı́a para escoger un estimador dice que transformemos los
momentos poblacionales en momentos muestrales. Haciendo eso,
obtenemos el estimador MCO:
1X T
X Xi
n i=1 i
n
β̂MCO =
!−1
1X T
X Yi
n i=1 i
n
!
≡ (X T X)−1 X T Y.
&
Un ejemplo clásico de endogeneidad es el caso de la relación
entre educación y salario, donde la habilidad no observada está
Le
ón
correlacionada con la educación, sesgando ası́ los estimadores de
MCO. Veamos esto a detalle en el siguiente ejemplo.
Ejemplo 73. En la literatura económica, es común analizar
la relación entre educación y salario. Sin embargo, uno de los
desafı́os principales en esta estimación es la endogeneidad. La
Capı́tulo 10. Endogeneidad
203
habilidad innata de los individuos, que no es observable, puede
estar correlacionada tanto con la educación como con el salario,
generando un sesgo en las estimaciones. Consideremos el siguiente
modelo de salario:
ln(wi ) = β0 + β1 xi + ϵi
(10.1)
donde ln(wi ) es el logaritmo del salario del individuo i, xi es el
nivel de educación del individuo i y ϵi es el término de error. Si
do
la habilidad (Ai ) está correlacionada con la educación y afecta
directamente el salario, podemos expresar el salario como:
Ga
ll
ar
ln(wi ) = β0 + β1 xi + γAi + ui
(10.2)
donde ui es el nuevo término de error. Si Ai no se incluye en el
modelo y está correlacionada con xi , entonces xi está endógena
y la estimación de β1 estará sesgada. Para demostrar este sesgo,
partimos del modelo estimado:
ln(wi ) = β0 + β1 xi + ϵi
(10.3)
donde ϵi = γAi + ui . El estimador de mı́nimos cuadrados ordinarios
(MCO) de β1 es:
&
P
(10.4)
Sustituyendo ln(wi ) en el numerador:
P
(xi − x̄)(β0 + β1 xi + γAi + ui − ln(w))
P
β̂1 = i
.
2
i (xi − x)
(10.5)
x̄)(ln(wi ) − ln(w))
i (xi −P
.
2
i (xi − x̄)
Le
ón
β̂1 =
Separando los términos,
β̂1 = β1 +
P
i − x̄)(γAi + ui )
i (xP
.
2
i (xi − x̄)
(10.6)
Capı́tulo 10. Endogeneidad
P
204
(x −x)u
El término Pi (xii −x)2i es cero en promedio, ya que ui es ruido blanco
i
no correlacionado con xi . Sin embargo, el término
P
i (xi −x)γAi
P
no es
2
i (xi −x)
cero si xi y Ai están correlacionados. Por lo tanto, podemos escribir
P
(xi − x)Ai
β̂1 ≈ β1 + γ · Pi
(10.7)
2
i (xi − x)
El término
P
(x −x)Ai
Pi i
2
i (xi −x)
representa la correlación entre la educación
y la habilidad. Si esta correlación es positiva (lo cual es común, ya
que individuos con mayor habilidad innata tienden a obtener más
do
educación), entonces el estimador β̂1 estará sesgado hacia arriba.
La estimación de β1 en el modelo (10.3) estará sesgada si la
Ga
ll
ar
habilidad innata Ai está correlacionada con la educación xi . Este
sesgo surge porque la habilidad no observada, que afecta tanto a la
educación como al salario, no se incluye en el modelo, lo que lleva a
una correlación entre el término de error ϵi y la variable explicativa
xi .
Para corregir este sesgo, es necesario utilizar métodos econométricos como las variables instrumentales, que permiten aislar
la variación exógena en la educación que no está correlacionada con
&
la habilidad innata. Veremos esto a continuación.
Cuando se viola el supuesto de exogeneidad de las variables
Le
ón
explicativas con respecto al término de error, las variables X
incluyen un subconjunto de variables que son endógenas, lo
que significa que: E(X T ϵ) ̸= 0. Esto genera un problema de
identificación. No es posible encontrar una expresión del parámetro
poblacional β en función de momentos poblacionales de variables
observables a no ser que contemos con otro set de variables Z que
Capı́tulo 10. Endogeneidad
205
cumpla las siguientes condiciones: E[Z T ϵ] = 0 y E[Z T X] ̸= 0. Note
que implı́citamente estamos asumiendo que el producto Z T X es
realizable. Con esta nueva variable podemos proceder de la misma
manera que lo hicimos para MCO. Podemos pre-multiplicar la
ecuación estructural por Z T y obtener un sistema de ecuaciones:
Z T Y = Z T Xβ + Z T ϵ y por lo tanto obtenemos el siguiente sistema
de ecuaciones: E[Z T X]β = E[Z T Y ] donde E[Z T X] es de orden
K × K y E[Z T Y ] es de orden K × 1. Por lo tanto, la ecuación
do
representa un sistema de K ecuaciones con K incógnitas dadas por
β1 , β2 , ..., βK . Este sistema tiene solución única si la matriz E[Z T X]
es invertible, lo cual sucede si el rango de esta es completo e igual a
Ga
ll
ar
K. Luego, si tenemos una muestra aleatoria (Yi , Xi , Zi ) y siguiendo
el principio de la analogı́a tenemos que el estimador de variables
instrumentales está dado por:
1X T
Z Xi
n i=1 i
n
β̂IV =
!−1
1X T
Z Yi
n i=1 i
n
!
≡ (Z T X)−1 Z T Y.
Cuando buscamos instrumentos para una variable endógena, los
&
supuestos E[Z T ϵ] = 0 (exogeneidad1 ) y E[Z T X] ̸= 0 (relevancia2 .)
son igualmente importantes para identificar β. Sin embargo, hay
una diferencia, el supuesto E[Z T ϵ] = 0 no puede ser testeado. La
Le
ón
razón de esto es simple: no observamos ϵ como para realizar un test.
Por otra parte, el supuesto E[Z T X] ̸= 0 puede y debe ser testeado.
Más adelante veremos que es relativamente sencillo hacerlo y no
requiere más instrumental que un test-t o F . Cuando la correlación
1
2
Cov(Z, ϵ) = 0.
Cov(X, Z) ̸= 0.
Capı́tulo 10. Endogeneidad
206
de las variables instrumentales con las endógenas es pequeña se dice
que estamos en presencia de instrumentos débiles.
El método de variables instrumentales se implementa en dos
etapas. Primero, se realiza una regresión de Xi sobre Zi y se
guardan los valores predichos X̂i . Luego, se usa X̂i en vez de Xi
en Yi = β0 + β1 X̂i + ϵi .
A continuación un ejemplo de variable instrumental.
Ejemplo 74. Se cuenta con una muestra de niños y niñas entre dos
do
y cinco años a nivel nacional y se quiere predecir en qué medida
el estado nutricional de ellos y ellas influye en sus habilidades
Ga
ll
ar
cognitivas. Ası́, se plantea la siguiente ecuación:
vocabularioi = δ0 + δ1 nutricióni + δ2 edadi + δ3 mujeri
+ δ4 nsei + δ5 urbanoi + ϵi
(10.8)
1. vocabularioi representa las habilidades cognitivas medidas a
través del vocabulario del niño i.
2. nutricióni se refiere al estado nutricional del niño i, medido a
través de la talla para la edad.
&
3. edadi es la edad del niño i.
4. mujeri es una variable indicadora que toma el valor de 1 si el
Le
ón
niño i es una niña, y 0 si es un niño.
5. nsei representa el nivel socioeconómico del hogar del niño i.
6. urbanoi es una variable indicadora que toma el valor de 1 si
el niño i vive en una zona urbana, y 0 si vive en una zona
rural.
Capı́tulo 10. Endogeneidad
207
7. ϵi es el término de error.
En este caso, tenemos que la variable nutrición, que hace referencia
a la talla para la edad, serı́a una variable endógena que estarı́a
correlacionada con el término de error. Una variable que podrı́amos
usar como instrumento para este modelo es el estado nutricional de
la madre, medido a partir de la talla de la misma. Serı́a una variable
que está fuertemente correlacionada con el estado nutricional de
habilidades cognitivas de los niños y niñas.
do
los niños y niñas pero no con el término de error asociado a las
Las variables instrumentales han surgido como una técnica
Ga
ll
ar
importante en trabajos de investigación para corregir problemas de
endogeneidad. Por ejemplo, Angrist and Krueger (1991b) utilizan
el ((quarter of birth)) como instrumento de la educación para
estudiar el retorno de la educación. Angrist (1990b) emplea el ((draft
number)) de la loterı́a para servir en la guerra de Vietnam como
instrumento para la participación en la guerra, en el estudio del
impacto de servir en la guerra sobre el ingreso. Card (1995) usa
la proximidad a una universidad (college) como instrumento de la
&
educación de la persona para estimar el retorno a la educación.
Frankel and Romer (1999) utilizan la proximidad a otros paı́ses
Le
ón
y el tamaño como instrumentos del comercio internacional para
estudiar el impacto del comercio sobre el PBI.
Antes de continuar con la siguiente sección, discutamos acerca
de la consistencia del estimado IV. La consistencia de este estimador
sigue principalmente de la ley de los grandes números. Note que
podemos escribir el estimador de variables instrumentales como
Capı́tulo 10. Endogeneidad
208
sigue,
1X T
Z Xi
n i=1 i
n
β̂IV = β +
!−1
1X T
Z ϵi
n i=1 i
n
!
.
Luego, se deduce claramente que P lı́m β̂IV = β. Ahora bien,
√
podemos generar la expresión clásica ajustada por n:
√
n(β̂IV − β) =
1X T
Z Xi
n i=1 i
n
!−1
1 X T
√
Z ϵi
n i=1 i
n
!
do
donde el primer término del lado derecho de la ecuación convergerá
a E[Z T X] = MZX por la ley débil de los grandes números y el
Teorema Central del Lı́mite
Ga
ll
ar
segundo término converge en distribución a una normal por el
1 X T d
√
Z ϵi → N (0, V0 )
n i=1 i
n
donde V0 = E(ϵ2 Z T Z). Por lo tanto,
√
Múltiples instrumentos 2SLS
&
10.2.
d
−1
−1 T
n(β̂IV − β) → N (0, MZX
V0 (MZX
) ).
Sea Z la matriz de instrumentos de orden n × L y X la matriz
Le
ón
de variables independientes de orden n × K. Cuando hay más
instrumentos que variables endógenas (o más de un instrumento
para una variable endógena), tenemos el caso sobre identificado.
Esto significa que tenemos más ecuaciones que incógnitas en nuestro
sistema. Es prácticamente imposible encontrar una solución que
satisfaga todas las ecuaciones, excepto en casos muy particulares.
Capı́tulo 10. Endogeneidad
209
Una manera ineficiente de resolver este problema es eliminar
instrumentos, igualando ası́ el orden de las matrices Z y X. Sin
embargo, esto resulta en la pérdida de información valiosa. Otra
manera de resolver este problema es post-multiplicando la matriz
de instrumentos Z por otra matriz Λ de orden L × K. Luego, la
matriz ZΛ es de dimensión n × K.
Explotando la condición de identificación E[Z T ϵ] = 0, tenemos:
Podemos identificar β tomando el valor esperado:
Ga
ll
ar
β = [E(ΛT Z T X)]−1 E[ΛT Z T Y ]
do
ΛT Z T Y = ΛT Z T Xβ + ΛT Z T ϵ.
Siguiendo el principio de analogı́a, el estimador está dado por:
!−1
!
n
n
X
X
1
1
ΛT ZiT Xi
ΛT ZiT Yi ≡ (ΛT Z T X)−1 ΛT Z T Y.
β̂ =
n i=1
n i=1
El asunto por discutir es la matriz Λ. Esta puede ser desconocida,
por lo que necesitaremos un estimador de Λ. Suponiendo que
tenemos un estimador de Λ dado por Λ̂, el estimador generalizado
de variables instrumentales (GIV) o de método de momentos
&
generalizado (GMM) está dado por:
!−1
!
n
n
1X T T
1X T T
Λ̂ Zi Xi
Λ̂ Zi Yi ≡ (Λ̂T Z T X)−1 Λ̂T Z T Y.
β̂GIV =
n i=1
n i=1
Le
ón
Usualmente, Λ̂ = (Z T Z)−1 Z T X, que corresponde al estimador
MCO de la regresión de X sobre Z. Ası́, el estimador de mı́nimos
cuadrados en dos etapas (2SLS) es:
β̂2SLS = (X T Z(Z T Z)−1 Z T X)−1 X T Z(Z T Z)−1 Z T Y
= (X̂ T X̂)−1 X̂ T Y,
Capı́tulo 10. Endogeneidad
210
donde X̂ = Z(Z T Z)−1 Z T X. El nombre de mı́nimos cuadrados
en dos etapas (2SLS) proviene de la interpretación de Theil que
muestra que el estimador se puede obtener de la siguiente manera.
Planteamos las regresiones lineales
X = ZΛ + u
Y = X̂β + ϵ.
Ası́, se estima la primera etapa y se utilizan los valores estimados
r
1 T d
Z ϵ → N (0, V0 )
N
Ga
ll
ar
Luego, si
do
X̂ = Z Λ̂ = Z(Z T Z)−1 Z T X en la segunda etapa.
P
donde, nuevamente, V0 = E(ϵ2 Z T Z) y Λ̂ → Λ, se puede demostrar
que:
√
d
−1 T
n(β̂GIV − β) → N (0, [ΛT MZX ]−1 ΛT V0 Λ[ΛT MZX
] ).
Esta expresión depende de Λ, V0 y MZX . Aunque no se conozca Λ,
podemos estimarla como la proyección ortogonal de X sobre Z y,
en consecuencia, obtener la distribución asintótica del estimador
P
de 2SLS. Por la Ley de los Grandes Números, Λ̂ → Λ ≡
&
−1
[E(Z T Z)]−1 E(Z T X) = MZZ
MZX .
Reemplazando Λ̂ en la expresión anterior, obtenemos la varianza
Le
ón
asintótica del estimador de 2SLS:
√
d
−1
T
n(β̂2SLS − β) → N (0, σ 2 [MXZ
MZZ
MZX ]−1 ).
Para estimar σ 2 , definamos el residuo de 2SLS como ϵ̂ = Y −
X β̂2SLS . El estimador de σ 2 se define de la forma tradicional:
n
1 X 2
2
σ̂ =
ϵ̂ .
n − k i=1 i
Capı́tulo 10. Endogeneidad
211
Si ϵ y Z no son independientes, pero E[Z T ϵ] = 0, se puede estimar
consistentemente la matriz de varianzas y covarianzas usando
Eicker-Huber-White o Newey-West dependiendo si los errores son
autocorrelacionados, véase Wooldridge (2001).
El estimador de Eicker-Huber-White de la varianza asintótica
de β̂2SLS está dado por
Avar(β̂2SLS ) = (X̂ T X̂)−1
n
X
(X̂ T X̂)−1 .
do
i=1
ϵ̂2i ZiT Zi
!
Desde el enfoque numérico, en Stata, usando el comando ivregress
2sls con la opción vce(robust) nos proporcionará los errores
Ga
ll
ar
estándar de la matriz descrita anteriormente. También se puede
usar el comando ivreg2 con la opción robust, véase el Manual de
Stata.
10.3.
Método Generalizado de
Momentos
Un estimador alternativo a 2SLS en presencia de endogeneidad
&
y variables instrumentales es el estimador de GMM. Definamos las
condiciones de momento como
Le
ón
m(Z, X, β) = Z T (Y − Xβ)
donde Z es una realización del vector de instrumentos de L × 1 y
X es una realización del vector de variables endógenas de K × 1.
Suponiendo que L > K, tenemos un sistema sobre identificado;
Capı́tulo 10. Endogeneidad
212
véase Rau (2016). Dado el supuesto de identificación E[Z T ϵ] = 0,
tenemos que:
E[m(Z, X, β)] = 0.
Luego, el valor esperado de cada condición de momento es cero.
Además, recordemos que cada condición de momento poblacional
tiene su contraparte muestral dada por
1
1X T
Z (Y − Xβ) = Z T ϵ.
n i=1
n
n
do
m(Z, X, β) =
El problema que tenemos es el usual: ((la probabilidad de encontrar
una solución que satisfaga las L (siendo que tenemos K incógnitas)
Ga
ll
ar
es casi 0)) a menos que reduzcamos el orden multiplicando por
alguna matriz como se hizo en 2SLS. En el caso que L = K se
tiene un sistema exactamente identificado y la solución está dada
por m(Z, X, β) = 0, con lo cual se obtiene la misma solución que
β̂IV .
Para el caso sobre-identificado, el estimador de GMM es aquel
que minimiza la siguiente forma cuadrática:
β
&
mı́n m(Z, X, β)T W −1 m(Z, X, β)
donde W −1 es una matriz de L × L con lo cual el sistema es de
Le
ón
K × K.
Se define el estimador de GMM eficiente (EGMM) como aquel
que utiliza como matriz de ponderación:
W = Var(m(Z, X, β)) = E[ϵ2 Z T Z] = V0 .
Capı́tulo 10. Endogeneidad
213
Por lo tanto, en el caso que W = V0 , tenemos que β̂GMM minimiza
la siguiente expresión:
1
mı́n (Y − Xβ)T ZV0−1 Z T (Y − Xβ)
β n
luego,
β̂EGMM = [X T ZV0−1 Z T X]−1 X T ZV0−1 Z T Y.
Lo único que falta es un estimador consistente de V0 . Bajo el
supuesto de heterocedasticidad, podemos usar el estimador de
do
Eicker-White (véase Wooldridge (2001)), con lo cual la varianza
asintótica estarı́a dada por
Ga
ll
ar
T
Avar(β̂EGMM ) = (MZX
V0−1 MZX )−1
Luego, se puede implementar el estimador EGMM en tres etapas:
1. Se estima el modelo por 2SLS y obtenga los residuos de la
manera antes descrita ϵ̂ = Y − X β̂2SLS .
2. Se construye la matriz V̂0 = n1
P 2 T
ϵ̂i Zi Zi .
3. Se estima mediante EGMM, usando V̂0 como matriz de
&
ponderación.
En Stata, esto se puede implementar con el comando ivreg2 con
Le
ón
la opción gmm.
En el caso general, cuando los errores son heterocedásticos
y/o autocorrelacionados y V0 ̸= σ 2 MZZ , el estimador 2SLS (caso
particular del GIV) no tendrá la menor varianza asintótica. Para
obtener un estimador eficiente necesitamos escoger una matriz Λ
que minimice la varianza asintótica.
Capı́tulo 10. Endogeneidad
214
Luego queremos minimizar con respecto a Λ la siguiente
expresión:
Avar(β̂GIV ) = [ΛT MZX ]−1 ΛT V0 Λ([ΛMZX ]−1 )T .
Se puede demostrar que
Λ∗ = V0−1 MZX = arg mı́n Avar(β̂GIV (Λ)).
Λ
Pero en la práctica no podemos disponer de Λ∗ , incluso si
do
suponemos V0 conocida. Necesitamos un estimador consistente de
MZX . La Ley Débil de los Grandes Números nos garantiza que si
Λ̂∗ = V0−1
Ga
ll
ar
{Xi , Zi } son i.i.d con primer y segundo momento acotados,
1X T
P
Zi Xi → V0−1 MZX = Λ∗
n
Por lo tanto, el estimador generalizado de variables instrumentales
eficiente corresponde al estimador eficiente de método de momentos
y es igual a:
β̂EGIV = β̂EGMM = [X T ZV0−1 Z T X]−1 X T ZV0−1 Z T Y,
&
con distribución asintótica:
Le
ón
√
d
T
n(β̂EGMM − β) → N (0, (MZX
V0−1 MZX )−1 )
Siempre que se estima usando variables instrumentales en el
caso de sobre-identificación, es posible testear si los instrumentos
no están correlacionados con el término de error. En el caso de
GMM, esto se hace testeando que las condiciones de momento
muestrales, en conjunto, no sean diferentes de cero (en términos
Capı́tulo 10. Endogeneidad
215
estadı́sticos). Esto solo se puede realizar cuando se tienen más
instrumentos excluidos que variables endógenas, es decir, cuando
L > K. Este test de alguna manera testea la especificación
del modelo y las condiciones de ortogonalidad. Si rechazamos la
hipótesis nula (que el modelo está correctamente especificado y
que las condiciones de momento son válidas) uno debe preocuparse
porque los instrumentos no son limpios (están correlacionados con
el término de error); o el modelo está incorrectamente especificado
excluyen de la ecuación estructural).
do
en el sentido de las restricciones de exclusión (qué instrumentos se
En el contexto de GMM, este test se realiza usando el estadı́stico
Ga
ll
ar
J de Hansen (1982). Este estadı́stico no es más que la función
objetivo evaluada en β̂EGMM y se distribuye como χ2L−K , ası́:
d
J(β̂EGMM ) = nm(Z, X, β̂EGMM )T V̂0−1 m(Z, X, β̂EGMM ) → χ2L−K .
Un valor grande de J(β̂EGMM ), es decir, mayor al valor crı́tico
obtenido de la tabla, nos da indicios de que el modelo está mal
especificado o que los instrumentos no son limpios.
En Stata, el comando ivreg2 con la opción robust estima por
&
EGMM y además entrega el estadı́stico J. En el caso de 2SLS, existe
el test de Sargan (1958) para restricciones de sobre-identificación:
Le
ón
Sargan =
ϵ̂T ProyZ ϵ̂ d 2
→ χL−K .
ϵ̂T ϵ̂/n
Una manera sencilla de obtener el estadı́stico de Sargan es correr el
modelo por 2SLS, obtener ϵ̂, correr la regresión auxiliar de ϵ̂ sobre
todas las variables exógenas (X y Z) y obtener el R23 .
3
De hecho, es posible demostrar que Sargan = n × R2 .
Capı́tulo 10. Endogeneidad
216
En Stata, después del comando ivregress 2sls, se ejecuta
estat overid para que el programa nos entregue el estadı́stico
de Sargan.
10.4.
Instrumentos débiles
Cuando los instrumentos están débilmente correlacionados4 con
las variables endógenas, el uso de variables instrumentales (en
do
muestra finita) puede ser perjudicial (véase John Bound (1995)).
En presencia de instrumentos débiles, el estimador por variables
instrumentales puede estar sesgado en la misma dirección que el
Ga
ll
ar
estimador por MCO y puede no ser consistente John Chao (2005).
Además, los tests tienen una medida incorrecta y los intervalos de
confianza presentan problemas.
La medida de fortaleza de los instrumentos está dada por el
parámetro de concentración
ΛT Z T ZΛ
,
µ =
σϵ2
2
el cual está relacionado con el estadı́stico F de la primera etapa
4
&
para testear la hipótesis de relevancia Λ = 0.
Las complicaciones en general son por la no linealidad en la primera etapa
Le
ón
(si la relación entre los instrumentos y la variable endógena es curiosamente no
lineal, los instrumentos pueden ser débiles), outliers: dada la falta de resistencia
estadı́stica de OLS, la presencia de outliers puede llevar a que los instrumentos
sean débiles y/o correlación con la variable endógena en una subpoblación: si
los instrumentos están correlacionados con la(s) variable(s) endógena(s) solo
en una subpoblación y esta correlación se diluye en el total, los instrumentos
pueden ser débiles.
Capı́tulo 10. Endogeneidad
217
Considere el siguiente modelo para un regresor endógeno:
Y = Xβ + ϵ
X = ZΛ + u
El estimador 2SLS minimiza (Y − Xβ)T PZ (Y − Xβ) y se define
como
β̂2SLS = (X T PZ X)−1 (X T PZ Y ),
do
donde PZ es la matriz de proyección a las columnas del espacio
vectorial generado por las columnas de Z. Rothenberg (1984)
muestra que a medida que µ2 crece, el estimador 2SLS converge
donde
zϵ =
Ga
ll
ar
en probabilidad y su distribución es estándar5 :
ze + Seu /µ
σe
µ(β̂2SLS − β) =
σϵ
1 + 2zu /µ + Su u/µ2
ΛT Z T ϵ
√
;
σϵ ΛT Z T ZΛ
zu =
uT PZ ϵ
;
σϵ σu
Suu =
Sϵu =
ΛT Z T u
√
σu ΛT Z T ZΛ
u T PZ u
.
σu2
Es posible demostrar que bajo los supuestos de instrumentos fijos
&
y errores normales, zϵ y zu son variables aleatorias normales con
coeficientes de correlación ρ, y Sϵu y Suu son formas cuadráticas de
Le
ón
variables aleatorias normales con respecto a la matriz de proyección
PZ . Como las distribuciones de zϵ , zu , Sϵu y Suu no dependen del
tamaño de la muestra n, el tamaño de la muestra entra sólo a
través del parámetro de concentración µ2 . Note que µ2 juega el
rol del tamaño muestral, es decir, si µ2 es suficientemente grande
5
Siguiendo la notación en Rau (2016).
Capı́tulo 10. Endogeneidad
218
entonces se tiene la aproximación normal usual. Por otro lado, si
µ2 es pequeño, la distribución asintótica no es estándar.
Cuando µ2 = 0, entonces
2
σϵ
P lı́m(β̂2SLS ) = β +
ρ ̸= β.
σϵ2
Este caso extremo deja en evidencia cuán sensible puede ser el
estimador 2SLS a la fuerza de los instrumentos.
Para determinar la validez de un instrumento, es crucial
do
argumentar que no existe una relación directa entre el instrumento
y la variable dependiente. En el ejemplo anterior, es necesario
Ga
ll
ar
argumentar que la talla de la madre no influye en las habilidades
cognitivas de los niños y niñas más allá de su efecto a través del
estado nutricional de los mismos.
La validez de un instrumento puede ser evaluada mediante
el test de Stock and Yogo (2005), que examina el porcentaje de
sesgo aceptable. Usualmente, se recomienda utilizar un 10 % de
sesgo, con la hipótesis nula de que los instrumentos son débiles. Si
F1etapa > Valor crı́tico al 10 %, entonces el instrumento es robusto;
de lo contrario, es débil. Este test evalúa el ajuste conjunto de las
&
variables en la primera etapa de la regresión.
Otra prueba utilizada es el test de Sargan (1958), que verifica si
Le
ón
los instrumentos no están correlacionados con el término de error
del modelo en la segunda etapa de la estimación por variables
instrumentales (MC2E). Los pasos son:
1. estimar el modelo de MC2E y guardar los residuos,
2. realizar una regresión de los residuos con los instrumentos y
Capı́tulo 10. Endogeneidad
219
3. construir la prueba χ2 donde los grados de libertad son q − 1
(número de instrumentos menos uno). La hipótesis nula es
que los instrumentos son exógenos.
El test de Hansen (1982) es similar al de Sargan, pero utiliza errores
estándar robustos tanto en la estimación de los residuos como en la
relación de los instrumentos con los errores del modelo de MC2E.
En general, la selección de instrumentos adecuados es crucial
y puede ser evaluada mediante las pruebas mencionadas para
do
asegurar la validez de los resultados obtenidos John Bound (1995);
John Chao (2005); Douglas Staiger (1997); Hausman (1978);
Ga
ll
ar
Rothenberg (1984); John G. Cragg (1993); Stock and Yogo (2005).
Ejemplo 75. Para evaluar la validez de los instrumentos en un
modelo de variables instrumentales (IV), como vimos previamente,
se pueden utilizar varios tests. A continuación, se presenta
un ejemplo que muestra los resultados de varias pruebas de
Le
ón
&
identificación y sobreidentificación.
Figura 10.1 Stock y Yogo, Sargan.
Capı́tulo 10. Endogeneidad
220
El Underidentification test (Anderson canon. corr. LM statistic)
verifica si el modelo está subidentificado. En el ejemplo, el
estadı́stico de la prueba es 362.564 con un p-value de 0.0000,
lo que indica que el modelo no está subidentificado. El Weak
identification test John G. Cragg (1993) evalúa la fortaleza de los
instrumentos. En el ejemplo, el estadı́stico de la prueba es 202.316.
Según los valores crı́ticos de Stock y Yogo Stock and Yogo (2005),
que dependen del tamaño del sesgo que se quiera aceptar (10 %,
do
15 %, 20 %, 25 %), el valor crı́tico para un sesgo máximo del 10 %
es 19.93. Dado que el estadı́stico es mayor que este valor crı́tico, se
concluye que los instrumentos no son débiles. El Sargan statistic
Ga
ll
ar
(overidentification test) descrito por Sargan (1958), verifica si los
instrumentos están correlacionados con el término de error del
modelo. En el ejemplo, el estadı́stico de la prueba es 0.196 con un
p−value de 0.6576. La hipótesis nula es que los instrumentos son
exógenos, y dado que el p−value es mayor que 0.05, no se rechaza la
hipótesis nula, sugiriendo que los instrumentos son válidos. El test
de Hansen (1982) es similar al test de Sargan, pero utiliza errores
estándar robustos. Aunque no se muestra en la figura, es otro test
&
comúnmente utilizado para evaluar la sobreidentificación de los
instrumentos. En resumen, estos tests proporcionan una manera
Le
ón
robusta de evaluar la validez y fortaleza de los instrumentos en un
modelo de variables instrumentales, asegurando que los resultados
obtenidos sean fiables.
Previamente en este capı́tulo, hemos abordado temas cruciales
como las variables instrumentales, el método de estimación en dos
Capı́tulo 10. Endogeneidad
221
etapas (2SLS), el método de momentos generalizados (GMM), los
instrumentos débiles y los tests estadı́sticos relevantes. Si bien
no hemos tocado el estadı́stico de John G. Cragg (1993) ni el
método de máxima verosimilitud de información limitada (LIML),
permı́tanos comentar un poco al respecto. El estadı́stico de CraggDonald es fundamental para evaluar la fuerza de los instrumentos en
modelos de regresión, proporcionando un criterio importante para
determinar la validez de los instrumentos utilizados. Por otro lado,
do
el LIML6 es una técnica alternativa que, aunque menos común,
ofrece ventajas especı́ficas en ciertos contextos econométricos,
especialmente cuando los instrumentos son débiles o el número de
6
Ga
ll
ar
instrumentos es grande en relación al tamaño de la muestra. Con
Angrist and Krueger (1991a) en adelante AK, estiman el retorno a la
educación (ecuación de Mincer) utilizando como instrumento el trimestre
de nacimiento de las personas, basándose en los datos del Censo de 1980.
La justificación es la ley estadounidense que estipula que los niños pueden
comenzar el primer grado con seis años cumplidos al 30 de junio (empiezan
en agosto). Aquellos nacidos en el primer y segundo trimestre comienzan la
escuela en agosto con la edad ya cumplida. Dado que se puede abandonar la
escuela a los 16 o 17 años, los nacidos en el primer o segundo trimestre lo
&
harán antes de completar el año escolar, teniendo ası́ menos escolaridad que
los nacidos en el tercer y cuarto trimestre. Las variables dependientes son el
logaritmo del salario por hora, escolaridad y dummies por año de nacimiento,
Le
ón
y los instrumentos son dummies por trimestre de nacimiento, dummies por año
de nacimiento e interacciones entre ambas. AK demuestran que, aunque los
instrumentos pueden parecer débiles según algunos criterios, son válidos para
identificar el modelo. Además, comparan los resultados de 2SLS con LIML
y encuentran que mientras 2SLS converge a OLS cuando se utilizan muchos
instrumentos, LIML resulta ser más consistente.
Capı́tulo 10. Endogeneidad
222
estos fundamentos en mente, procederemos a explorar en detalle el
estimador de Wald en la sección siguiente.
10.5.
Estimador de Wald
Un caso particular de endogeneidad en el modelo de regresión
lineal ocurre cuando la variable endógena es binaria. Este escenario
es común en la literatura de evaluación de programas, ya que
do
frecuentemente hay un programa o tratamiento que no se asignó
aleatoriamente.
Ga
ll
ar
Supóngase que se tiene el siguiente modelo lineal:
Yi = α + βXi + ϵi
donde Xi es una variable binaria. Se puede observar que el
estimador OLS es un estimador de diferencias. Este estimador
representa la diferencia de medias condicionales de Y en X para
X = 1 y X = 0.
Para ilustrarlo un poco más, se debe notar que para lograr la
identificación de β, OLS asume que E[ϵi |Xi ] = 0. Esto implica que
&
la variable binaria Xi de tratamiento es independiente del nivel
medio condicional de los no observables. Es decir, en promedio, no
Le
ón
hay factores no observables que se relacionen con el hecho de recibir
o no el tratamiento. Esto se logra mediante aleatorización. Bajo
ese supuesto, el estimador OLS se puede expresar de la siguiente
manera:
Capı́tulo 10. Endogeneidad
223
Pn
i=1 (Yi − Ȳ )(Xi − X̄)
Pn
(X − X̄)2
Pn i=1 i Pn
Yi Xi
i=1 Yi (1 − Xi )
= Pi=1
− P
n
n
i=1 Xi
i=1 (1 − Xi )
β̂OLS =
= Ê[Y |X = 1] − Ê[Y |X = 0],
donde7
Pn
Yi Xi
Ê[Y |X = 1] = Pi=1
n
i=1 Xi
y
(10.9)
(10.10)
Ga
ll
ar
do
Pn
i=1 Yi (1 − Xi )
.
Ê[Y |X = 0] = P
n
i=1 (1 − Xi )
Ası́, el estimador OLS en este caso es un estimador de diferencias,
β̂OLS = ȲT − ȲC = Ê[Y |X = 1] − Ê[Y |X = 0].
En consecuencia, si Xi fuera un tratamiento producto de un
experimento aleatorio, el estimador OLS estima el efecto causal
del tratamiento sobre la variable de resultados Y .
Sin embargo, si E[ϵi |Xi ] ̸= 0, el tratamiento no proviene
de un experimento aleatorio y está correlacionado con alguna
&
caracterı́stica no observable del individuo i. Esto ocurre, por
ejemplo, si los individuos se autoseleccionan en un determinado
programa. En este caso, el parámetro β no está identificado y el
Le
ón
estimador de OLS es inconsistente y sesgado.
Por otro lado, si se dispone de una variable instrumental
binaria Zi que cumple con los supuestos fundamentales: E[ϵi |Zi ] =
7
Tenemos. E[Yi |Xi = 0] = α Por lo tanto, la diferencia en el valor esperado
de Yi entre aquellos con Xi = 1 y Xi = 0 es E[Yi |Xi = 1] − E[Yi |Xi = 0] =
(α + β) − α = β.
Capı́tulo 10. Endogeneidad
224
0 y E[Zi Xi ] ̸= 0, se puede identificar β y obtener un efecto
causal del tratamiento sobre Y mediante el estimador de variables
instrumentales,
Pn
(Yi − Ȳ )(Zi − Z̄)
β̂Wald = Pni=1
.
i=1 (Xi − X̄)(Zi − Z̄)
Este estimador también puede expresarse como un estimador de
diferencias pero con un ajuste en el denominador. Note que con un
β̂IV =
y
Ê[X|Z = 1] − Ê[X|Z = 0]
Pn
Yi Zi
Ê[Y |Z = 1] = Pi=1
n
i=1 Zi
Pn
i=1 Yi (1 − Zi )
Ê[Y |Z = 0] = P
n
i=1 (1 − Zi )
Pn
i=1 Xi Zi
Ê[X|Z = 1] = P
n
i=1 Zi
Ga
ll
ar
donde
Ê[Y |Z = 1] − Ê[Y |Z = 0]
do
poco de álgebra se obtiene:
Pn
i=1 Xi (1 − Zi )
Ê[X|Z = 0] = P
.
n
i=1 (1 − Zi )
&
Este estimador (β̂Wald ) se conoce como Estimador de Wald.
Ejemplo 76. La loterı́a de Vietnam. Angrist (1990a) estudia
Le
ón
el impacto de servir en la guerra de Vietnam en el salario de los
veteranos, años después. Esta pregunta es interesante porque existe
la hipótesis de que haber servido en Vietnam podrı́a compensar
la pérdida de experiencia en el mercado laboral. Sin embargo,
existe un problema de endogeneidad en la estimación de un modelo
Capı́tulo 10. Endogeneidad
225
de regresión lineal del efecto de haber servido en la guerra en
el salario. El problema de endogeneidad es claro, ya que las
personas que sirven voluntariamente en una guerra tienen otras
caracterı́sticas no observables que pueden estar correlacionadas con
habilidad, capital social, etc. Durante la Guerra de Vietnam se
realizaron cinco loterı́as en Estados Unidos para enviar jóvenes a
la guerra. Por ejemplo, la loterı́a de 1970 cubrió a jóvenes entre
19 y 26 años. Se sortearon números (sin reemplazo) del 1 al 365,
do
asignando cada número a una fecha de nacimiento (dı́a, mes).
Las personas eran llamadas según una secuencia de números (del
1 al 365) hasta cumplir la cuota requerida por el Departamento
Ga
ll
ar
de Defensa. Posteriormente, se realizaban exámenes médicos y se
seleccionaba a quienes irı́an a la guerra. Aquı́ se puede utilizar un
estimador de Wald. Se puede crear un instrumento binario (1 si se
tiene un número de sorteo bajo, 0 si es alto). Este instrumento
está correlacionado con servir en la guerra, pero no con otras
caracterı́sticas. Ası́, el estimador de variables instrumentales es:
Ê[Y |Z = 1] − Ê[Y |Z = 0]
Ê[X|Z = 1] − Ê[X|Z = 0]
&
β̂IV =
Note que el numerador es un estimador de diferencias, pero
no condicional en el tratamiento, sino en el instrumento. El
Le
ón
denominador proporciona la diferencia de las probabilidades de
ser tratado condicional al instrumento. En este caso, condicional
a tener un número bajo o alto de loterı́a.
Capı́tulo 11
do
Máxima Verosimilitud
Ga
ll
ar
A lo largo de este texto, la herramienta de estimación principal
ha sido la estimación vı́a Mı́nimos Cuadrados Ordinarios. Sin
embargo, en este capı́tulo, presentamos un segundo método de
estimación que resulta de gran interés en la práctica y que, si bien
no ha sido usado previamente, aparece con frecuencia en el análisis
estadı́stico y econométrico a la hora de, por ejemplo, trabajar con
modelos donde la variable de regresión es dicotómica (modelo de
11.1.
&
probabilidad lineal, Logit, Probit).
Estimación
Le
ón
Definición 11.1.1. Sea f (·|θ) con θ ∈ Θ ⊂ Rk una familia
paramétrica de distribuciones. Sea X = (X1 , ..., Xn ) una muestra
aleatoria iid de una distribución g(·|θ0 ) con θ0 ∈ Θ. Entonces, la
226
Capı́tulo 11. Máxima Verosimilitud
227
densidad conjunta es
f (x|θ) =
n
Y
i=1
g(xi |θ),
donde xi es la observación de Xi . Definimos la función de
verosimilitud de esta muestra aleatoria de la siguiente manera
Qn P (x |θ) variable discreta
i
i=1 Xi
L(θ|x) =
Q
n fX (xi |θ) variable continua.
i=1
i
do
Note que las distribuciones dependen desde ahora de un (vector)
de parámetros θ ∈ Θ ⊂ Rk . En ese sentido, podemos escribir,
Ga
ll
ar
teniendo en cuenta que X1 , ..., Xn son iid
f(X1 ,··· ,Xn ) (x, θ) =
n
Y
fX (xi , θ).
i=1
Eventualmente, para abreviar la notación, escribiremos L(θ).
Ejemplo 77. Sea
θ2 xe−θx , si x > 0
fX (x; θ) =
0,
en otro caso.
n
Y
Le
ón
Entonces,
&
La función de densidad de una variable aleatoria continua, θ > 0.
L(θ) =
i=1
=
n
Y
fXi (xi |θ)
θ2 xi e−θxi
i=1
= θ2n
n
Y
i=1
xi
!
e−θ
Pn
i=1 xi
.
Capı́tulo 11. Máxima Verosimilitud
228
Definición 11.1.2. Estimador de máxima verosimilitud. El
estimador de máxima verosimilitud
θ̂M V = ϕ(X1 , ..., Xn )
es el estimador que resuelve
máx
P:
s. a
L(θ)
θ ∈ Θ.
do
En relación al estimador de máxima verosimilitud, es posible
que la m.a. X1 , ..., Xn no sea iid. Por otro lado, usualmente es más
Luego, la CPO provee
Ga
ll
ar
sencillo maximizar ℓ(θ) = ln(L(θ)).
1 X ∂ℓ(θ̂M V ; xi )
= 0.
n i=1
∂θ
n
Ejemplo 78. Una variable aleatoria X posee la siguiente función
de densidad
f (x) =
1 e− xθ , si x ≥ 0
θ
0,
caso contrario.
&
Veamos que el estimador de máxima verosimilitud θ̂ es igual a la
media muestral. Primero, notemos que, efectivamente f (·) es un
Le
ón
densidad para θ > 0:
Z
Z ∞
1 −θx
f (x)dx =
e dx = lı́m (e−t/θ + 1) = 1.
t→∞
θ
R
0
Ahora, siguiendo la definición dada,
θ̂ ∈ argmaxθ∈Θ
n
Y
i=1
fXi (xi |θ).
Capı́tulo 11. Máxima Verosimilitud
229
Dado que ln(·) es una función creciente,
n
Y
θ̂ ∈ argmaxθ∈Θ ln
i=1
|
= ln
}
!
f (xi )
i=1
n
Y
e−xi /θ
θ
i=1
1 −
e
θn
!
Pn
i=1 xi
θ
Ga
ll
ar
= ln
{z
=K(θ)
n
Y
K(θ) = ln
fXi (xi |θ) .
do
Primero, calculamos K(θ)
!
1X
xi .
= −n ln θ −
θ i=1
n
Aplicando condiciones de primer orden,
−
Ası́,
n
θ̂
1 X
n
+
θ̂2 i=1
xi .
1X
xi .
n i=1
n
&
θ̂ =
Ejemplo 79. Sea (x1 , x2 , ..., xn ) una muestra aleatoria correspon-
Le
ón
diente a una distribución normal N S(µ, σ 2 ). La función de verosimilitud es
L(x1 , x2 , ..., xn ; µ, σ 2 ) =
=
n
Y
i=1
f (xi ; µ, σ 2 )
1
√
σ 2π
n
(11.1)
1
e− 2σ2
Pn
2
i=1 (xi −µ)
.
Capı́tulo 11. Máxima Verosimilitud
230
Computemos los estimadores de máxima verosimilitud de µ y σ 2
(que se denotan por µ̂ y σ̂ 2 ). Nuestro objetivo es resolver
máxµ,σ2 L(x1 , ..., xn ; µ, σ 2 )
P:
s.a. :
(µ, σ) ∈ Θ = R × R+ .
Un primer enfoque, para poder encontrar los candidatos a óptimos
locales, es aplicar directamente las condiciones de primer orden a
∂L
1 X
= 2
(xi − µ)2
∂µ
σ i=1
n
1
√
σ 2π
n
1
e− 2σ2
do
la función (11.1):
Pn
i=1 (xi −µ)
2
=0
Ga
ll
ar
Pn
2
∂L
−n
− 12
i=1 (xi −µ)
2σ
e
=
√
n+1
∂σ 2
(σ 2 ) 2 2π
Pn
2
1 Pn
2
i=1 (xi − µ)
√
+
e− 2σ2 i=1 (xi −µ) = 0.
(σ 2 )n/2 2π · (σ 2 )3/2
(11.2)
(11.3)
De (11.2), como la exponencial es siempre positiva, se tiene que
n
X
i=1
(xi − µ) = 0
Pn
i=1 xi
= x = µ̂.
&
n
1
Luego, teniendo en cuenta nuevamente que e− 2σ2
Pn
2
i=1 (xi −µ)
Le
ón
simplificando (11.3), obtenemos
Pn
(xi − µ)2
1
n
√ · i=1 3
√ n
=
σ
σ n 2π
σ n+1 2π
Pn
2
n
i=1 (xi − µ)
= n+1
n+3
σ
σ
n
X
2
mσ =
(xi − µ)2 .
i=1
>0y
Capı́tulo 11. Máxima Verosimilitud
231
Evaluando en el óptimo,
1X
σ̂ =
(xi − x)2 .
n i=1
n
2
Ahora bien, dada la estructura de la función de máxima verosimilitud, considerando sobre todo las condiciones de segundo orden, lo
más acertado es maximizar la función de log-verosimilitud, definida
de la siguiente manera
do
K(θ) = K(µ, σ 2 |x)
Ga
ll
ar
= ln(L(µ, σ 2 ; x1 , ..., xn ))
n
Pn
1
− 12
(xi −µ)2
i=1
2σ
√
e
= ln
σ 2π
n
√
n
1 X
= −n ln 2π − 2
(xi − µ)2 − ln σ 2 .
2σ i=1
2
Debido a las propiedades de la función logaritmo neperiano, K(θ)
posee los mismos óptimos, y de misma naturaleza, que L(x; θ)
Casella and Berger (2002).
Por ende, bastaba con aplicar las CPO a K(µ, σ 2 )
1 X
∂K
= 2
(xi − µ)2 = 0
∂µ
σ i=1
&
n
1 X
∂K
n
=
(xi − µ)2 − 2 .
2
2
2
∂σ
2(σ ) i=1
2σ
n
Le
ón
Despejando, se vuelven a obtener los candidatos a máximo local
1X
µ̂ =
xi = x
n i=1
n
n
n
n
1X
1X
1X
2
2
(xi − µ̂) =
xi −
xj
σ̂ =
n i=1
n i=1
n j=1
!2
1X
(xi − x)2 .
=
n i=1
n
Capı́tulo 11. Máxima Verosimilitud
232
Queda entonces por analizar las condiciones de segundo orden. Esto
es1 , verificar que D1 ≤ 0 y D2 ≥ 0, siendo Di los menores principales
de la matriz HK(µ, σ 2 ) ∈ M2×2 evaluada en θ̂ = (µ̂, σ̂ 2 ).
∂ 2K
n
=− 2
2
∂µ
σ
n
2
∂ K
1 X
∂ 2K
=
−
(xi − µ)
=
∂µ∂σ 2
∂σ 2 ∂µ
σ 4 i=1
∂ 2K
n
1 X
=
−
(xi − µ)2 .
∂(σ 2 )2
2σ 4 σ 6 i=1
HK(µ, σ 2 ) =
Por ende,
n
− 2
σ
Ga
ll
ar
Luego,
1 P
− 4 ni=1 (xi − µ)
σ
n
1 P
1 P
− 6 ni=1 (xi − µ)2
− 4 ni=1 (xi − µ)
4
σ
2σ
σ
n
D1 = H11 (K(µ̂, σ̂ 2 )) = − 2 < 0
σ̂
&
Ver Casella and Berger (2002).
Le
ón
1
do
n
.
Capı́tulo 11. Máxima Verosimilitud
233
y
do
D2 = det(H(K(µ̂, σ̂ 2 )))
!2
n
n
2
X
X
1
n
1
n
= 6 − 2 + 2
(xi − µ)2 − 2
(xi − µ)
σ
σ
σ i=1
σ
µ=x,σ 2 =σ̂ 2
i=1
!2
n
n 2
1 X
1 n2
= 6 − 2 + 2σ − 2
(xi − µ)
σ
σ
σ
σ
µ=x,σ 2 =σ̂ 2
i=1
!2
n
2
X
n
n
1
1
(xi − µ̂)
= 6 − 2 + 2 σ̂ 2 − 2
σ̂
σ̂
σ̂
σ̂
i=1
Ga
ll
ar
n
n
=− 2 − 6
σ̂
2σ̂
n2
= 6 > 0.
2σ̂
Concluimos entonces, a través de las condiciones de segundo orden,
que (µ̂, σ̂ 2 ) es en efecto un local.
Ejemplo 80. Supongamos que
Yi = β1 + β2 Xi + ϵi , ϵi ∼ N (0, σ 2 ).
&
En este caso, E[Yi |Xi ] = β1 + β2 Xi . Ası́,
L(θ) = L(β1 , β2 , σ)
fYi (yi |β, σ)
Le
ón
=
n
Y
i=1
n
Y
(Yi − β1 − β2 Xi )2
√
exp −
=
2σ 2
2πσ 2
i=1
1
n
1
1 X
= √
exp − 2
(Yi − β1 − β2 Xi )2
2
n
2σ i=1
( 2πσ )
!
.
Capı́tulo 11. Máxima Verosimilitud
234
Luego de resolver el problema de maximización para obtener los
estimadores, se llega a
con ϵ̂i = Yi − Ŷi = Yi − β̂1 − β̂2 Xi .
Ejemplo 81. En el modelo de k-variables,
do
β̂1 = Y − β̂2 X
Pn
Xi Yi − XY
β̂2 = Pi=1
2
n
2
i=1 Xi − nX
n
1X 2
2
σ̂ =
ϵ̂
n i=1 i
Ga
ll
ar
Yi = β1 + β2 X2i + β3 X23 + ... + βk X2k + ϵi ,
que matricialmente se expresa como
1 X21 X31 · · · Xk1
β1
ϵ1
Y1
. .
..
..
.. .. ..
.. = ..
.
.
···
. . + .
1 X2n X2n · · · Xkn
βk
ϵn
Yn
|
{z
}
=Yn×1 =Xn×k βk×1 +ϵn×1
&
tenı́amos que Ŷ = X β̂ y ϵ ∼ N (0n , σ 2 In ). Ası́,
(Y − Xβ)T (Y − Xβ)
1
2σ 2
.
L(θ) =
n e
(2nσ 2 ) 2
Le
ón
−
Las CPO proveen
β̂ = (X T X)−1 X T Y
σ̂ 2 =
ϵ̂T ϵ̂
.
n
Capı́tulo 11. Máxima Verosimilitud
11.2.
235
La cota inferior de Cramer-Rao
Teorema 39. Supongamos que θ es un parámetro determinı́stico
no conocido que debe ser estimado a partir de una muestra de
n observaciones iid con densidad f (x; θ). La varianza de cualquier
estimador insesgado θ̂ de θ es acotado inferiormente por la recı́proca
de la información de Fisher:
con
∂ℓ(X; θ)
∂θ
(11.4)
2 #
Ga
ll
ar
I(θ) = EX;θ
"
1
nI(θ)
do
Var(θ̂) ≥
siendo ℓ(x; θ) = ln L(θ; x) el logaritmo neperiano de la función de
verosimilitud y EX;θ el valor esperado con respecto a la densidad
f (x; θ) de X.
En el caso más general, si δ(X) es un estimador insesgado de
g(θ), (11.4) se convierte en
Var(δ) ≥
[g ′ (θ)]2
.
nI(θ)
&
Teorema 40. Asumiendo que se cumple la regla de Leibniz, se
tiene que
2
2
∂
∂
I(θ) = Var
ln f (X|θ) = −E
ln f (X|θ) .
∂θ
∂θ2
Le
ón
Demostración. Para simplificar la notación, escribimos ℓ(θ) =
Capı́tulo 11. Máxima Verosimilitud
236
Ası́,
Ga
ll
ar
do
ln f (x|θ). Luego,
Z ∂
∂
E
ℓ(θ) =
ℓ(θ) f (x|θ)dx
∂θ
∂θ
Z ∂
1
f (x|θ)
f (x|θ)dx
=
∂θ
f (x|θ)
Z ∂
=
f (x|θ) dx
∂θ
Z
∂
f (x|θ)dx
=
∂θ
∂
(1) = 0.
=
∂θ
∂
Ahora bien, como E ∂θ
ℓ(θ) = 0
Z ∂
∂
0=
ℓ(θ) f (x|θ)dx
∂θ
∂θ
Z 2
Z ∂
∂
∂
=
ℓ(θ) f (x|θ)dx +
ℓ(θ)
f (x|θ) dx
∂θ2
∂θ
∂θ
2
Z ∂
∂
∂
=E
ℓ(θ) +
ℓ(θ)
ℓ(θ) f (x|θ)dx
∂θ2
∂θ
∂θ
2
2
∂
∂
=E
ℓ(θ) + E
ℓ(θ) .
∂θ2
∂θ
Le
ón
&
2
2
∂
∂
E
ℓ(θ) = −E
ℓ(θ) .
∂θ
∂θ2
Finalmente, concluimos notando que
2 2
∂
∂
∂
Var
ℓ(θ) = E
ℓ(θ) − E
ℓ(θ)
.
∂θ
∂θ
∂θ
|
{z
}
=0
A continuación, probamos el Teorema de la cota inferior de
Cramer-Rao en el contexto más general, es decir, considerando g(θ).
Capı́tulo 11. Máxima Verosimilitud
237
Demostración. Sea
g(θ) =
ZZ
···
ZZ
δ(x)f (x|θ)dx.
(11.5)
Tomando la derivada respecto a θ en ambos lados de la Ecuación
11.5,
ZZ
ZZ
∂
f (x|θ)dx.
∂θ
ZZ
ZZ
∂
=
···
δ(x) ln f (x|θ)dx.
∂θ
∂
= E δ(X) ln f (X|θ) .
∂θ
′
···
δ(x)
do
g (θ) =
Ga
ll
ar
Ahora bien, como
∂
∂
E
ln f (X|θ) = nE
ln f (X|θ) = 0,
∂θ
∂θ
concluimos que
∂
g (θ) = Cov δ(X),
ln f (X|θ) .
∂θ
′
Debido a la desigualdad de Cauchy-Schwarz,
&
Cov(X, Y )2 ≤ Var(X)Var(Y ),
con igualdad solo si X = aY + b,
∂
[g (θ)] ≤ Var(δ(X))Var
ln f (x|θ)
∂θ
∂
= Var(δ(X)) · n · Var
ln f (X|θ)
∂θ
[g ′ (θ)]2
Var(δ(X)) ≥
.
nI(θ)
2
Le
ón
′
Capı́tulo 11. Máxima Verosimilitud
11.3.
238
Propiedades asintóticas
Recordemos que θ̂M V maximiza
1X
ln f (xi |θ).
n i=1
n
ℓn (θ) =
Definamos
ℓ(θ) = Eθ0 [ℓ(x|θ)],
Ga
ll
ar
distribución fuese continua,
Z
ℓ(θ) = ln f (x|θ)f (x|θ0 )dx.
do
donde θ0 es el parámetro de la muestra X1 , ..., Xn . En caso la
Por la ley de los grandes números,
ℓn (θ) → ℓ(θ).
Teorema 41. Para todo θ ∈ Θ,
L(θ) ≤ L(θ0 ).
&
Más aún, la desigualdad es estricta salvo que
Pθ0 (f (x|θ) = f (x|θ0 )) = 1.
Le
ón
Demostración. Consideremos
L(θ) − L(θ0 ) = Eθ0 [ln f (x|θ) − ln f (x|θ0 )]
= Eθ0 ln
f (x|θ)
.
f (x|θ0 )
Capı́tulo 11. Máxima Verosimilitud
239
Dado que ln t ≤ t − 1,
f (x|θ)
f (x|θ)
Eθ0 ln
≤ Eθ0
−1
f (x|θ0 )
f (x|θ0 )
Z f (x|θ)
=
− 1 f (x|θ0 )dx
f (x|θ0 )
Z
Z
= f (x|θ)dx − f (x|θ0 )dx
= 1 − 1 = 0.
do
Esto nos permite concluir.
Teorema 42. En el contexto descrito en este capı́tulo, si θ0 es tal
Ga
ll
ar
que para todo θ ̸= θ0 existe x con f (x|θ) ̸= f (x|θ0 )2 , el soporte3
de f (·|θ) no depende de θ y θ0 ∈ Θ◦ , entonces θ̂M L → θ0 en
probabilidad.
Teorema 43. Supongamos que se satisfacen las condiciones del
Teorema 42. Asumamos además que g(xi |θ) es clase C 3 (Θ), que se
cumplen las hipótesis del teorema de Leibiniz4 en el par (x, θ) y
∂ 3 ln g(xi |θ)
≤ M (x), E[M (Xi )] < ∞, ∀ i.
∂θ3
&
que5
2
La generalización es P{f (x|θ) ̸= f (x|θ0 ) > 0.
R
S tal que S dF = 1.
4
f (x, t) función tal que fx (x, t) es continua en t y x para alguna región del
3
Le
ón
plano que incluye a1 (x) ≤ t ≤ a2 (x), x0 ≤ x ≤ x1 . Supóngase además que
a, b ∈ U con [x0 , x1 ] ⊂ U . Entonces,
!
Z b(x)
Z b(x)
d
′
′
f (x, t)dt = f (x, b(x))b (x) − f (x, a(x))a (x) +
fx (x, t)dt.
dx
a(x)
a(x)
5
MX (t) = etX .
Capı́tulo 11. Máxima Verosimilitud
Entonces,6
240
√
n(θ̂M V − θ0 ) → N (0, Ig−1 (θ0 ))
con
Ig (θ) = Eθ
"
∂ℓ(θ|X)
∂θ
2 #
.
Las pruebas de los Teoremas 42 y 43 se encuentran en las
siguientes notas de clase.
Los resultados de esta sección se resumen en el siguiente
do
teorema.
Teorema 44. Sea X1 , ..., Xn una muestra aleatoria de una distri-
Ga
ll
ar
bución con parámetro θ. Sea θ̂M V el estimador de máxima verosimilitud de θ. Entonces, bajo ciertas condiciones de regularidad
estándares7 ,
1. θ̂M V es asintóticamente consistente, es decir, para todo ϵ > 0
lı́m P{|θ̂M V − θ| > ϵ} = 0.
n→∞
2. θ̂M V es asintóticamente insesgado, es decir,
lı́m E[θ̂M V ] = θ
en distribución.
6
7
θ̂
−θ
q MV
→ N (0, 1)
Var(θ̂M V )
Le
ón
3. Cuando n → ∞,
&
n→∞
La convergencia es en distribución.
Compacidad de Θ, existencia de E[supθ∈Θ|ℓθθ | ], θ0 ∈ Θ◦ , diferenciabilidad
y validez de la regla de Leibniz, entre otros.
Capı́tulo 11. Máxima Verosimilitud
11.4.
241
Computación
A continuación algunas técnicas para computar el estimado de
máxima verosimilitud. Seguimos fundamentalmente a Wooldridge
(2001) y Rau (2016). Esto además cierra el capı́tulo e invitamos al
lector consultar, por ejemplo, Weiss (1971), Self and Liang (1987)
o Wooldridge (2001) para una discusión más profunda y extensa
sobre los temas abordados en este capı́tulo.
1 X
ℓ(θ, x) = 0.
N i=1
N
Ga
ll
ar
EN [Lθ (θ̂N )] =
do
Lo que buscamos es θ̂N tal que
1. Búsqueda de grilla: se busca resolver máxθ∈[a,b] R(θ). Para
ellos se divide [a, b] en sub-intervalos {[a, θ1 ], · · · [θn , b]} y se
evalúa R en θi . Luego, se escoge donde R toma el valor más
grande (digamos θi ) y se escogen los intervalos [θi−1 , θi ] y
[θi , θi+1 ]. Se itera (se suele iterar) hasta que |R(θi )−R(θi+1 )| <
10−5 o |θi − θi+1 | < 10−5 .
2. Aproximación por polinomios: R(θ) = a + b(θ − θ0 ) + 12 c(θ −
&
θ0 )2 . La CPO provee θ∗ = θ0 − cb . Los coeficientes a, b y c se
obtiene aplicando una expansión de Taylor de orden 2. Esto
Le
ón
se repite para diferentes θ0 y se elige aquel que maximice la
función objetivo.
3. Búsqueda de lı́nea: dado un valor inicial θ1 y una dirección de
búsqueda δ, resolvemos
λ∗ = argmaxλ R(θ1 + λδ).
Capı́tulo 11. Máxima Verosimilitud
242
Luego, se toma θ2 = θ1 + λ∗ δ.
4. Forma cuadrática: planteamos
1
R(θ) = a + bT θ + θT Cθ,
2
con C simétrica. Luego,
∂R
= b + Cθ
∂θ
∂ 2R
= CT .
∂θ2
θ∗ = −C −1 b
Ga
ll
ar
θ∗ = θ1 − C −1 (b + Cθ1 )
do
R alcanza su máximo en θ∗ = −C −1 b. Notemos que
θ∗ = θ1 − Rθθ (θ1 )−1 Rθ (θ1 ).
Haciendo δ = −Rθθ (θ1 )−1 Rθ (θ1 ) y λ = 1, se aplica una
búsqueda lineal.
y λ1 . Ası́,
&
5. Newton-Raphson: sea
−1
2
∂ℓ
∂ ℓ
EN
(θ1 )
(θ1 )
δN R = −EN
∂θ2
∂θ
θk+1 = θk + δN R .
Le
ón
La derivación de Newton-Raphson se basa en una expansión
de Taylor de segundo orden de EN [ℓ(θ)] en θ1 .
6. Algoritmo BHHH (Brend-Hall-Hall-Hausman): se imputa en
la búsqueda lineal
∂ℓ
∂ℓ
∂ℓ
T
δBHHH = EN
(θ1 ) (θ1 )
EN
(θ1 ) .
∂θ
∂θ
∂θ
Capı́tulo 11. Máxima Verosimilitud
243
Finalmente, un criterio muy común de convergencia8 , es
||θi − θi−1 || < 10−5 .
Cuando la función de log verosimilitud es estrictamente cóncava,
entonces los métodos descritos funcionan por lo general bien9 pues
8
Le
ón
&
Ga
ll
ar
do
solo existe un único máximo global.
Tanto en econometrı́a como en otras disciplinas: fı́sica computacional,
quı́mica computacional etc.
9
Asumiendo diferenciabilidad del orden adecuado.
Le
ón
&
Ga
ll
ar
244
do
Apéndices
Apéndice A
do
Elementos de teorı́a de la
Ga
ll
ar
probabilidad
En este apéndice brindamos los fundamentos de la teorı́a de la
probabilidad que son de gran utilidad para tener un entendimiento
más profundo y adecuado de los temas desarrollados en este texto.
Asimismo, constituye una base sólida para el estudio de temas más
avanzados en econometrı́a. Este apéndice está basado en las notas
de clase de los cursos dictados en la PUCP, Análisis Real 2 (dictado
&
por el profesor Johel Beltrán) y Probabilidad y Estadı́stica (dictado
por el profesor Jonathan Farfán).
Le
ón
Definición A.0.1. Dado un conjunto Ω, un σ−álgebra sobre Ω es
una colección de conjuntos de Ω, F ⊂ P(Ω)1 tales que
1. Ω ∈ F
1
P(Ω) denota el conjunto potencia de Ω: todos los posibles sub-conjuntos
de Ω
245
Apéndice A. Elementos de teorı́a de la probabilidad
246
2. A ∈ F =⇒ Ac ∈ F
3. An ∈ F , ∀ n ∈ N =⇒
S
n∈N An ∈ F .
Definición A.0.2. Sea (Ω, F ) un espacio medible2 Una medida
sobre (Ω, F ) es una aplicación µ : F → R+ ∪ {∞}3 tal que
1. µ(∅) = 0
n∈N
n=1
do
2. si An ∈ F , ∀ n ∈ N y An ∩ Am = ∅, n ̸= m, entonces
!
∞
]
X
µ
An =
µ(An ).
Ga
ll
ar
Definición A.0.3. Una medida de probabilidad P sobre un espacio
de medida (Ω, F ) es una medida tal que
P : F → [0, 1]
y se cumple que P(Ω) = 1. A partir de esto se deduce que
1. P(A) + P(Ac ) = 1, ∀ A ∈ F .
P∞
S
2. {A1 , ..., An , ...} disjuntos dos a dos: P ( ∞
n=1 P(An ).
n=1 An ) =
&
3. P(A ∪ B) + P(A ∩ B) = P(A) + P(B).
4. P(A) + P(B − A) = P(A ∪ B).
S∞
P∞
Le
ón
5. P (
n=1 An ) ≤
n=1 P(An ).
A continuación, consideramos en todo momento un espacio de
probabilidad implı́cito (Ω, F , P).
2
3
Ω es cualquier conjunto y F un σ−álgebra.
Véase recta real extendida en Folland (1984).
Apéndice A. Elementos de teorı́a de la probabilidad
247
Definición A.0.4. Probabilidad condicional. Sea P una probabilidad. Entonces, la probabilidad de A dado B, con A, B ∈ F y
P(A), P(B) > 0 es
P(A|B) =
P(A ∩ B)
.
P(B)
Teorema 45. Regla de Bayes. Se cumple que
P(A|B) =
P(B|A)P(A)
.
P(B)
P(A ∩ B)
P(B)
P(A ∩ B)
P(B|A) =
.
P(A)
Ga
ll
ar
P(A|B) =
do
Demostración. Por definición,
Entonces,
P(A|B)P(B) = P(B|A)P(A) = P(A ∩ B).
P(A|B) =
P(B|A)P(A)
.
P(B)
&
Ası́,
Un
P(A) =
P(A ∩ Ak ).
Le
ón
Si tenemos A1 , ..., An ∈ F , y Ω =
n
X
k=1
k=1 Ak , entonces
Por otro lado, si P(Ak ) > 0
P(A) =
n
X
k=1
P(A|Ak )P(Ak ).
Apéndice A. Elementos de teorı́a de la probabilidad
248
Definición A.0.5. Sean Aλ con λ ∈ Λ eventos. Decimos que los
eventos son independientes cuando
!
n
n
\
Y
P
Aλk =
P(Ak ), ∀ n ∈ Z, ∀ λ1 , · · · , λk ∈ Λ.
k=1
k=1
Definición A.0.6. Sean A1 , A2 , · · · una sucesión de conjuntos.
Definimos
lı́mı́nf An =
∞ [
∞
\
n=1 k=n
∞ \
∞
[
Ak
Ak .
n=1 k=n
do
lı́m sup An =
Ga
ll
ar
Note que si ω ∈ lı́m sup An , entonces ω ∈ Ak para infinitos Ak . Por
otro lado, si ω ∈ lı́mı́nf An , ω ̸∈ Ak para un número finito de k’s.
Teorema 46. Se cumple que
1. lı́mı́nf An ⊂ lı́m sup An
2. Bn =
3. Cn =
S
T
k≥n Ak , entonces Bn ↓ lı́m sup An
k≥n Ak , entonces Cn ↑ lı́mı́nf An
&
Teorema 47. Primer Lema de Borel Cantelli. Sean A1 , A2 , · · · , An , ...
P
una sucesión de eventos tales que n P(An ) < ∞. Entonces,
Le
ón
P(lı́m sup An ) = 0.
Teorema 48. Segundo Lema de Borel Cantelli. Sean
A1 , A2 , · · · , An , ... una sucesión de eventos independientes tales que
P
n P(An ) = ∞. Entonces,
P(lı́m sup An ) = 1.
Apéndice A. Elementos de teorı́a de la probabilidad
249
Definición A.0.7. Un vector aleatorio es una función X : Ω → Rk .
Cuando k = 1, diremos que se trata de una variable aleatoria (v.a.).
Cuando trabajamos con Rk , consideramos, salvo que se diga lo
contrario, el σ−álgebra de Borel BRk Folland (1984).
Definición A.0.8. La ley o distribución de un vector aleatorio X
es una medida de probabilidad en (Rk , BRk ):
A → P(X −1 (A)).
do
PX : BRk → R
De hecho, dado A ∈ BR ,
Ga
ll
ar
Ejemplo 82. Sea X ∼ B(n, p). Entonces,
n k
PX {k} = P(X = k) =
p (1 − p)n−k , k = 0, ..., n.
k
PX : BR → R
X n
A→
pk (1 − p)n−k .
k
k∈A
Ejemplo 83. Sea X ∼ N (0, 1)
&
PX ([a, b]) = P(a ≤ X ≤ b) =
donde
Z b
a
φ(x)dx, ∀ a < b,
Le
ón
x2
1
φ(x) = √ e− 2 .
2π
Para poder integrar sobre todo los Borelianos, en relación al
Ejemplo 83.
A continuación, nos enfocamos en los vectores aleatorios
discretos. Esto es, aquellos que poseen la siguiente propiedad:
∃ A ⊂ Rk enumerable : P(X ∈ A) = 1.
Apéndice A. Elementos de teorı́a de la probabilidad
250
Definición A.0.9. La función de probabilidad de un vector
aleatorio discreto es
PX : A → R
x → P{X = x}.
Definición A.0.10. Sea A tal que P{X ∈ A} = 1, con A
E[X] =
n
X
xk PX (xk ) para el caso finito
k=1
E[X] =
∞
X
do
enunerable,. La esperanza de una variable aleatoria discreta es
xk PX (xk ) para el caso enumerable no finito.
Ga
ll
ar
k=1
Teorema 49. Sean X, Y dos variables aleatorias discretas y α ∈ R:
1. αX es discreta y E[αX] = αE[X]
2. E[X + Y ] = E[X] + E[Y ]
3. Si X ≤ Y (X(ω) ≤ Y (ω), ∀ ω ∈ Ω), entonces E[X] ≤ E[Y ]
&
4. Si g : R → R es Borel medible, entonces E[g(X)] =
P∞
Pn
k=1 g(xk )PX (xk )
k=1 g(xk )PX (xk ) (en el caso finito), E[X] =
(en el caso enumerable no finito).
Le
ón
Definición A.0.11. Sea X una v.a. tal que E[X] < ∞,
Var(X) = E[(X − E[X])2 ].
A
p
Var[X] se le conoce como desviación estándar y se le denota
σX .
Apéndice A. Elementos de teorı́a de la probabilidad
251
Teorema 50. Sea X una variable aleatoria discreta con media
finita. Entonces:
1. Si c ∈ R, Var(cX) = c2 Var(X).
2. Si c ∈ R, Var(X + c) = Var(X).
3. Var(X) = E[X 2 ] − (E[X])2 .
Abordamos a continuación la cuestión de la independencia de
vectores aleatorios, siempre en el caso discreto.
do
Sean Xλ : Ω → Rnλ , λ ∈ Λ una familia de vectores aleatorios.
Decimos que son independientes cuando
k
Y
Ga
ll
ar
P{Xλ1 = x1 , · · · , Xλk = xk } =
∀ k ≥ 2, ∀ λ1 , ..., λk ∈ Λ, ∀ xj ∈ R
nλj
i=1
P{Xλi = xi },
.
A continuación, abordamos el caso de vectores aleatorios que ya
no son necesariamente discretos.
Definición A.0.12. Sea X : Ω → Rk un vector aleatorio continuo.
Decimos que X es un vector aleatorio absolutamente continuo
−∞
&
cuando existe una función f : Rk → R+ tal que
Z a1
Z ak
Z a2
dxk f (x1 , · · · , xk ), ∀ a ∈ Rk .
P{X ≤ a} =
dx1
···
−∞
−∞
Le
ón
La función f es conocida como la densidad de X.
Note que4
PX (A) =
Z
f (x)dx
| {z }
A
, ∀ A ∈ BRk .
integral de Lebesgue
4
Más adelante definimos con rigor la integral de Lebesgue.
Apéndice A. Elementos de teorı́a de la probabilidad
252
Por otro lado, denotaremos
f (x) =
dPX
.
dx
Cuando X es una variable aleatoria absolutamente continua con
función de densidad f y g : Rk → R Borel medible,
Z
xf (x)dx
E[X] =
R
Z
E[g(X)] =
g(x)f (x)dx
do
R
Definición A.0.13. Sea X : Ω → Rk un vector aleatorio. La
Ga
ll
ar
función de distribución de X es la función F : Rk → R dada por
( k
)
Y
FX (a) = P{X ≤ a} = PX
(−∞, ai ] .
i=1
Teorema 51. Sea X una v.a.
1. 0 ≤ FX (t) ≤ 1, ∀ t ∈ R.
2. FX es una función no decreciente. En particular, existen los
lı́mites por la izquierda.
&
3. FX es continua por la derecha.
Le
ón
4. lı́mt→−∞ FX (t) = 0 y lı́mt→∞ FX (t) = 1.
Definición A.0.14. El σ−álgebra generado por un vector aleatorio
X : Ω → Rk es
σ(X) = {X −1 (B) : B ∈ BRk }.
Apéndice A. Elementos de teorı́a de la probabilidad
253
Si Xλ : Ω → Rnλ , λ ∈ Λ es una familia de vectores aleatorios, el
σ−álgebra generado por la familia es
σ({Xλ : λ ∈ Λ}) = σ({Xλ−1 (B) : λ ∈ Λ, B ∈ BRk }).
Definición A.0.15. Diremos que los vectores aleatorios {Xλ }λ∈Λ
son independientes si σ(Xλ ) son independientes.5
Para poder definir correctamente la noción de esperanza cuando
do
la variable aleatoria ya no es discreta ni absolutamente continua,
requerimos una definición formal de la integral de Lebesgue.
Para esto, recordemos algunos aspectos claves de la teorı́a de la
Ga
ll
ar
integración.
Sea (Ω, F , µ) un espacio de medida.
µ : F → [0, ∞]
µ(∅) = 0
A1 , A2 ,..., ∈ F
Ai ∩ Aj = ∅, ∀ i ̸= j : µ
[
k∈N
Ak
!
=
∞
X
µ(Ak ).
k=1
&
Definición A.0.16. Una función f : Ω → R es medible si
f −1 (B) ∈ F para todo A ∈ BR .
Le
ón
Definición A.0.17. Decimos que una función medible f es simple
cuando f toma una cantidad finita de valores. Es decir,
f (Ω) = {f (ω) : ω ∈ Ω}
es finito .
5
Para la noción de independencia de σ−álgebras, consultar Gall (2022).
Apéndice A. Elementos de teorı́a de la probabilidad
254
Definición A.0.18. Decimos que f es una función positiva cuando
f (ω) ≥ 0, ∀ ω ∈ Ω.
Sea f : Ω → R medible, simple y positiva. Entonces,
f (Ω) = {x1 , ..., xn },
n
X
Ak =
U
n
disjuntos 2 a 2
k=1 Ak = Ω
k=1
f (ω) =
Ası́ pues,
x1 ,
x 2 ,
si ω ∈ A1
Ga
ll
ar
Ω=
A1 , A2 , ...
do
y, si Ak = f −1 ({xk }):
si ω ∈ A2
..
.
x , si ω ∈ A .
n
n
f=
n
X
xk 1 A k .
k=1
6
Definimos
f dµ =
&
Z
Ω
6
Z b
a
xk µ(Ak ).
k=1
n
f (x)dx ≃
Le
ón
1
b−a
n
X
1
b−a
n
X
k=1
1 X
f (x∗k )(tk − tk−1 )
b−a
k=1
{z
}
|
promedio ponderado
(tk − tk−1 ) = 1 =
n
X
k=1
λk .
Apéndice A. Elementos de teorı́a de la probabilidad
255
Por convención, consideramos que
a · ∞ = ∞, a > 0
a · ∞ = 0, a = 0.
Si y1 , ..., ym ≥ 0 y B1 , ..., Bm ∈ F y
g=
m
X
yj 1Bj .
j=1
(toma a lo mucho 2m valores), positiva (yi ≥ 0) y
Z
m
X
gdµ =
yj 1Bj .
Ω
Ga
ll
ar
j=1
do
Entonces, g es medible (combinación lineal de medibles), simple
Sea f : Ω → R una función medible positiva.
R = R ∪ {−∞, ∞}
B(R) = {A = B ∪ C : B ∈ B(R) ∧ C ⊂ {−∞, ∞}}.
Definición A.0.19. Definimos
Z
Z
f dµ = sup
gdµ : g es medible simple positiva y g ≤ f .
Ω
Ω
Le
ón
&
Definición A.0.20. Dado A ⊂ R
sup A si A ̸= ∅ y A acotado superiormente
sup A = ∞
si A ̸= ∅ y A no es acotado superiormente
−∞,
si A = ∅.
Teorema 52. Sea f : Ω → R una función medible positiva. Para
cada n ≥ 1, sea
fn (ω) =
n −1
n2
X
k
1
+ n1f −1 (∞) .
k k+1
n f −1 ([ 2n , 2n ))
2
k=0
Apéndice A. Elementos de teorı́a de la probabilidad
Entonces, fn ↑ f . Esto es
f1 (ω) ≤ f2 (ω) ≤ · · ·
256
∀ω∈Ω
lı́mn→∞ fn (ω) = f (ω) , ∀ ω ∈ Ω.
Teorema 53. Sean f, g : Ω → R funciones medibles positivas.
1. Si α ≥ 0 entonces αf es medible positiva y
vale para simples.
R
f≤
R
f +g =
R
f+
g.
R
R
f
g. Lo mismo
Ga
ll
ar
3. Si f ≤ g, entonces
R
αf = α
do
2. f + g es medible positiva y
R
Teorema 54. Convergencia monótona. Sean f, f1 , f2 , ... funcioR
R
nes medibles positivas. Si fn ↑ f entonces fn → f .
Teorema 55. Fatou. Sea (Ω, F , µ) un espacio de medida y
f1 , f2 , ... : Ω → R funciones medibles positivas
Z
Z
lı́mı́nf fn ≤ lı́mı́nf fn .
Note que si definimos xn =
R
Ω
fn dµ ∈ [0, ∞],
n≥1
&
lı́mı́nf xn = sup ı́nf{xk : k ≥ n} = lı́m ı́nf{xk : k ≥ n}.
n→∞
Le
ón
Ası́, el lı́mı́nf de las integrales está bien definido. Por otro lado,
h(ω) = lı́mı́nf fn (ω) ∈ [0, ∞]
es una función medible bien definida.
Teorema 56. Fijamos (Ω, F , µ), espacio de medida. Sea f : Ω →
R una función medible positiva. Entonces
Apéndice A. Elementos de teorı́a de la probabilidad
257
a) La función ν : F → [0, ∞] tal que
Z
ν(A) =
f · 1A dµ
Ω
es una medida en (Ω, F ).
b) Si g : Ω → R es una función medible positiva, entonces
Z
Z
gdν =
g · f dµ.
Ω
Ω
do
Teorema 57. Cambio de Variable. Sean (Ω1 , F1 ) y (Ω2 , F2 )
espacios medibles y g : Ω2 → R una función medible positiva.
Ga
ll
ar
a) Si µ es una medida en (Ω1 , F1 ) entonces la función ν = µf −1 :
F2 → [0, ∞], tal que A → µ(f −1 (A)) es una medida en
(Ω2 , F2 ).
b)
R
Ω2
gdν =
R
Ω1
g ◦ f dµ.
Sea f : Ω → R una función medible. Definimos la parte positiva
de f y la parte negativa de f por
y
Le
ón
&
f + : Ω → R, f − : Ω → R
f (ω), si f (ω) ≥ 0
+
f (ω) =
0,
si f (ω) < 0
f − (ω) =
0,
si f (ω) > 0
f (ω), si f (ω) ≤ 0
Apéndice A. Elementos de teorı́a de la probabilidad
Cuando al menos una de las integrales
R
f +,
R
258
f − es finita,
decimos que la integral de f con respecto a µ está bien definida y
su valor es
Z
Z
Z
f dµ =
f dµ − f − dµ.
Ω
Ω
Ω
R + R −
Luego, cuando ambas f , f son finitas, decimos que f es
+
µ−integrable.
do
Teorema 58. Sea f : Ω → R una función medible. Entonces,
Z
f integrable ⇔
|f |dµ < ∞.
Ω
Ga
ll
ar
Teorema 59. Sean f y g funciones medibles integrables.
1. Si c ∈ R entonces cf es integrable y
Z
Z
cf = c f.
2. f + g es integrable y
3. Si f ≤ g entonces
R
R
f +g =
f≤
R
R
f+
R
g
R
R
g. En particular, | f | ≤ |f |.
&
4. Si A1 , ..., An ∈ F y A1 , ..., An son disjuntos dos a dos,
Z
n Z
X
f dµ.
f dµ =
S
n
k=1 Ak
k=1
Ak
Le
ón
5. Lo anterior vale para una colección infinita numerable
Z
∞ Z
X
f dµ =
f dµ.
S
∞
k=1 Ak
k=1
Ak
6. Si A1 , A2 , ... ∈ F y An ↓ A o bien An ↑ A, entonces
Z
Z
lı́m
f dµ =
f dµ.
n→∞
An
A
Apéndice A. Elementos de teorı́a de la probabilidad
259
Teorema 60. Sean f, g, f1 , f2 , ... : Ω → R funciones medibles tales
que
1. lı́mn→∞ fn = f .
2. |fn | ≤ g, para todo n ≥ 1
3. g es integrable.
Entonces lı́mn→∞
R
fn =
R
f.
do
Los resultados enunciados previamente valen si se agrega ((casi
seguramente)). Esto es, que la propiedad vale salvo eventualmente
Ga
ll
ar
en un conjunto N tal que µ(N ) = 0.
Los siguientes dos teoremas requieren de ciertos preliminares
que no vamos a presentar (teorema de Carathéodory, medida
producto, sigma álgebra producto). El lector puede consultar
Folland (1984).
Teorema 61. Tonelli. Sean (Ω1 , F1 , µ1 ), (Ω2 , F2 , µ2 ) espacios de
medida σ−finitos7 y f : Ω1 ×Ω2 → R una función F1 ⊗F2 −medible
&
positiva. Entonces:
1. Para cada x ∈ Ω1 , la función fx : Ω2 → R, y → f (x, y) es F2
Le
ón
medible y positiva.
2. La función φ : Ω1 → R tal que x →
medible.
7
Ωi .
R
Ω2
f (x, y)dµ2 (y) es F1
µi es medida sobre Ωi y existen {Aik }k≥1 tales que µ(Aik ) < ∞ y
S∞
i
k=1 Ak =
Apéndice A. Elementos de teorı́a de la probabilidad
260
3. Para cada y ∈ Ω2 , la función f y : Ω1 → R es F1 −medible
positiva.
4. La función ψ : Ω2 → R, y →
5. Y
Z
Ω1 ×Ω2
R
f y (x)dµ1 (x) es F2 medible.
Ω1
f (x, y)d(µ1 ×µ2 )(x, y) =
Z
φ(x)dµ1 (x) =
Ω1
Z
ψ(y)dµ2 (y).
Ω2
Teorema 62. Fubini. Sean (Ω1 , F1 , µ1 ), (Ω2 , F2 , µ2 ) espacios de
do
medida σ−finitos y f : Ω1 × Ω2 → R una función F1 ⊗ F2 medible
integrable. Entonces,
Ga
ll
ar
1. Para cada x ∈ Ω1 la función fx : Ω → R, y → f (x, y) es F2
medible.
2. fx es µ2 integrable µ1 -c.s.
3. La función φ : Ω1 → R tal que x →
R
Ω2
fx (y)dµ2 (y) definida
µ1 -c.s. es F1 medible y µ1 integrable.
4. Para cada y ∈ Ω2 , la función f y : Ω1 → R es F1 −medible.
&
5. f y es µ1 −integrable µ2 −c.s.
6. La función ψ : Ω2 → R tal que y →
R
Ω1
f (x, y)dµ1 (x) definida
7.
R
Le
ón
µ2 c.s. es F2 medible y µ2 integrable.
Ω1 ×Ω2
f (x, y)d(µ1 ×µ2 )(x, y) =
R
Ω1
φ(x)dµ1 (x) =
R
Ω2
ψ(y)dµ2 (y).
Antes de terminar con el breve repaso de teorı́a de la medida,
enunciamos el teorema de Radon-Nikodym. Enseguida, pasamos a
la definición de esperanza condicional en el caso general.
Apéndice A. Elementos de teorı́a de la probabilidad
261
Sean µ y ν medidas en el espacio medible (Ω, F ). Decimos que
ν es absolutamente continua con respecto a µ cuando
ν(A) = 0, ∀ A ∈ F , con µ(A) = 0.
Denotamos esta situación por ν ≪ µ.
Teorema 63. Radon-Nikodym. Sean µ y ν medidas σ−finitas
en el espacio medible (Ω, F ) tales que ν < µ.
do
dν
.
1. Existe f : Ω → R medible positiva tal que dν = f dµ: f = dµ
2. f es µ-única (si g es otra función, g = f c.s.)
Ga
ll
ar
Regresamos al mundo de la probabilidad. Sea (Ω, F , P) un
espacio de probabilidad y X : Ω → R una variable aleatoria. La
media o esperanza de X es definida por
Z
E[X] =
XdP.
Ω
Si X : Ω → Rk es un vector aleatorio y g : Rk → R es una
&
función Borel medible, entonces
Z
E[g(X)] =
g(x)
Rn
dPX (x)
| {z
}
.
medida que induce X
Le
ón
Definición A.0.21. Sean (Ω1 , F1 , P1 ), (Ω, F2 , P2 ) espacios de
probabilidad y X : Ω1 → Rk y Y : Ω2 → Rk vectores aleatorios.
Diremos que X e Y están idénticamente distribuidos si P1X = P2Y .
Denotamos esto por X ∼ Y .
Teorema 64. Si X ∼ Y , entonces:
Apéndice A. Elementos de teorı́a de la probabilidad
262
1. Si g : Rk → R es función Borel medible, entonces
g(X) = g(Y ).
2. Si k = 1, y las v.a son integrables, E[X] = E[Y ].
Teorema 65. Sean (Ω, F , P) un espacio de probabilidad y X :
Ω → R una v.a. positiva. Entonces
Z ∞
Z ∞
P(X ≥ x)dx.
P(X > x)dx =
E[X] =
do
0
0
Demostración. Tenemos que
Z ∞ Z
Z ∞
P(X > x)dx =
1X>x (ω)dP(ω) dx.
0
Ω
Ga
ll
ar
0
Ahora bien
>x
1, si X(ω)
| {z }
1X>x (ω) =
x∈[0,X(ω)
0, caso contrario.
&
Luego, por Tonelli
Z Z ∞
Z ∞ Z
1[0,X(ω)) (x)dx dP(ω)
1X>x (ω)dP(ω) dx =
0
Ω
ZΩ 0
X(ω)dP(ω)
=
Ω
Le
ón
= E[X].
Teorema 66. Sea X : Ω → R una variable aleatoria positiva.
Entonces
∞
X
n=1
P(X ≥ n) ≤ E[X] ≤ 1 +
∞
X
n=1
P(X ≥ n).
Apéndice A. Elementos de teorı́a de la probabilidad
263
Demostración. Para n ≥ 1, sea An = {n − 1 ≤ X < n}. Entonces,
definiendo Bn = {X ≥ n}8
Z
XdP
E[X] =
Ω
=
=
n=1
n=1
∞
X
An
∞ Z
X
n=1
∞
X
n=1
ndP
P(An )
n[P(Bn−1 ) − P(Bn )]
= lı́m
n→∞
n+1
X
k=1
"
k[P(Bk−1 ) − P(Bk )]
= lı́m P(B0 ) +
n→∞
≤ 1 + lı́m
n→∞
=1+
∞
X
do
≤
XdP
An
Ga
ll
ar
=
∞ Z
X
n
X
k=1
n
X
k=1
#
P(Bk ) − (n + 1)P(Bn )
P(Bk )
P(Bk ).
&
k=1
Le
ón
Respecto a la primera desigualdad,
"
#
m
X
E[X] ≥ lı́m
P(Bn ) − mP(Bm ) .
m→∞
n=1
Si E[X] = ∞ ya está. En caso E[X] < ∞, como Bm ↓ ∅, ν tal que
8
Bn−1 = An ∪ Bn .
Apéndice A. Elementos de teorı́a de la probabilidad
dν = XdP es finita9
Z
ν(Bm ) =
Bm
XdP ≥
Z
Bm
264
mdP = mP(Bm ) ≥ 0
=⇒ lı́m m · P(Bm ) = 0.
m
Ası́,
E[X] ≥
∞
X
P(Bn ).
n=1
do
Sean (Ω, F , P) un espacio de probabilidad y X1 , X2 , ..., Xn
variables aleatorias. Sea X = (X1 , X2 , · · · , Xn ) : Ω → Rn vector
Ga
ll
ar
aleatorio.
PX es una medida de probabilidad en (Rn , BRn ).
PX1 , ..., PXn son medidas de probabilidad en (R, BR ) y PX1 ×
· · · × PXn es una medida de probabilidad en
(Rn , BR ⊗ · · · ⊗ BR ) = (Rn , BRn ).
Teorema 67. Son equivalentes
&
1. X1 , ..., Xn son v.a. independientes
Le
ón
2. P(X1 ,...,Xn ) = PX1 × · · · × PXn .
Teorema 68. Si X1 , ..., Xn son variables aleatorias independientes
e integrables, entonces
E
9
Pues ν(Ω) =
R
" n
Y
i=1
XdP < ∞.
Ω
#
Xi =
n
Y
i=1
E[Xi ].
Apéndice A. Elementos de teorı́a de la probabilidad
265
Demostración. Consideramos X : (Ω, F ) → (Rn , BRn ) y g : Rn →
R, g(x1 , · · · , xn ) = x1 · · · xn . Entonces, X1 · · · Xn = g ◦ X. Ahora
R
R
Ga
ll
ar
R
do
bien, g̃(x1 , ..., xn ) = |x1 · · · xn |.
Z
E[|X1 · · · Xn |] =
g̃(X)dP
ZΩ
g̃(x)dPX (x)
=
n
R
Z
=
|x1 · · · xn |d(PX1 × · · · × PXn )(x)
Rn
Z
Z Z
···
|x1 | · · · |xn |dPXn (xn ) · · · dPX2 (x2 ) dPX1 (x1 )
=
R
R
R
Z
Z Z
=
· · · |x1 | · · · |xn−1 |
|xn |dPXn (xn ) · · · dPX2 (x2 ) dPX1 (x1 )
= E[Xn ] · · · E[Xn−1 ] · · · E[|X1 |] < ∞.
Ası́, X1 · · · Xn es integrable. Luego,
Z
Z
E[X1 · · · Xn ] =
h(X)dP =
Ω
g(x)dPX (x)
Rn
= · · · = E[Xn ] · · · E[X1 ].
&
Sean (Ω, F , P) un espacio de probabilidad y X : Ω → R una
variable aleatoria integrable. Recordemos que la varianza de X se
define como
Le
ón
Var(X) = E[(X − E[X])2 ].
Teorema 69. Sea X v.a.
a) Var(X) = E[X 2 ] − E[X]2 .
b) Var(X) ≥ 0. En particular, E[X 2 ] ≥ E[X]2 .
Apéndice A. Elementos de teorı́a de la probabilidad
266
c) Var(X) = 0, entonces X = E[X] c.s.
d) Var(cX) = c2 Var(X) para todo c ∈ R y Var(X +c) = Var(X).
e) Si X1 , ..., Xn son v.a. independientes e integrables tales que
E[Xj2 ] < ∞ para j = 1, ..., n. Entonces
Var(X1 + · · · + Xn ) =
n
X
Var(Xj ).
j=1
do
A continuación, algunas desigualdades clásicas en teorı́a de
la probabilidad que aparecen con frecuencia a la hora de hacer
Ga
ll
ar
inferencia estadı́stica desde la perspectiva teórica.
Teorema 70. Desigualdad de Markov. Sea X una v.a. y t > 0.
Entonces
P({|X| ≥ t}) ≤
E[|X|]
.
t
&
Demostración. Tenemos
Z
E[|X|] =
|X|dP
Ω
Z
Z
=
|X|dP +
|X|dP
{|X|≥t}
{|X|<t}
Z
≥
tdP = tP{|X| ≥ t}.
Le
ón
{|X|≥t}
Teorema 71. Desigualdad de Chebyshev. Sea X una variable
aleatoria integrable y t > 0, entonces
P(|X − E[X]| ≥ t) ≤
Var(X)
.
t2
Apéndice A. Elementos de teorı́a de la probabilidad
267
Demostración. Escribimos Y = X − E[X]
{|Y |≥t}
Ga
ll
ar
= t2 P({|Y | ≥ t}).
do
Var(X) = E[Y 2 ]
Z
=
Y 2 dP
Z
ZΩ
2
Y dP +
Y 2 dP
=
{|Y |≥t}
{|Y |<t}
Z
Z
t2 dP +
Y 2 dP
≥
{|Y |≥t}
{|Y |<t}
Z
t2 dP
≥
Teorema 72. Sean Z una variable aleatoria positiva, φ : [0, ∞) →
[0, ∞) estrictamente creciente y t > 0. Entonces,
P(Z ≥ t) ≤
E[φ(Z)]
.
φ(t)
&
Demostración. Tenemos
Z
Z
φ(Z)dP
φ(Z)dP +
E[φ(Z)] =
{Z<t}
{Z≥t}
Z
φ(t)dP
≥
{Z≥t}
Le
ón
= φ(t)P(Z ≥ t).
Teorema 73. Desigualdad de Jensen. Sean X una v.a. y
φ : R → R una función convexa tales que X y φ(X) son integrables.
Entonces,
E[φ(X)] ≥ φ(E[X]).
Apéndice A. Elementos de teorı́a de la probabilidad
268
A continuación definimos la función generadores de momentos y
la función caracterı́stica asociada a una variable o vector aleatorio.
Definición A.0.22. Sea X una v.a. La función generadora de
momentos de X es definida por
ψX (t) = E[etX ], ∀ t ∈ R.
Definición A.0.23. La función caracterı́stica de X es definida por
do
φX (t) = E[eitX ] = E[cos(tX) + i sin(tX)].
Teorema 74. Si E[eδ|X| < ∞] para algún δ > 0 entonces X (k) es
(k)
Ga
ll
ar
integrable y E[X k ] = ψX (0), ∀ k ∈ Z+ .
Teorema 75. Si E[|X|r ] < ∞ para algún r ∈ Z+ entonces φX es
de clase C r y
φX (t) = E[(iX)r eitX ], ∀ t ∈ R.
Demostración. Supongamos primero que r = 1.
Le
ón
&
E[ei(t+h)X ] − E[eiXt ]
φ(t + h) − φ(t)
=
t
h
Z
Z
1
itx
i(t+h)x
e
dPX (x) − e dPX (x)
=
h R
R
Z i(t+h)x
itx
e
−e
=
dPX (x)
h
R
Z itx ihx
e (e − 1)
=
dPX (x)
h
R
Z
eitx (eihx − 1)
=
ix
dPX (x).
ixh
R
Haciendo h → 0, y usando el TCD
φ(t + h) − φ(t)
lı́m
=
h→0
t
Z
R
ixeitx dPX (x).
Apéndice A. Elementos de teorı́a de la probabilidad
269
En efecto, para h ∈ (−1, 1), x ̸= 0
ixeitx
eihx − 1
−1 + cos(hx) + i sin(hx)
≤ ixeitx
ihx
hx
1 − cos(hx)
sin(hx)
+
≤ |ixe | ·
hx
hx
{z
} | {z }
|
itx
≤1
≤θ0
De este modo, como
Z
θ1 |x|dPX (x) = θ1 E[|X|] < ∞,
se sigue que
φ(t + h) − φ(t)
lı́m
=
h→0
h
Ga
ll
ar
R
do
≤ θ1 |x|.
Z
ixeitx dPX (x) = E[iXeitX ].
R
Ahora bien, para probar que es C 1 , tenemos
Z
ixeitx [eihx − 1]dPX (x).
φ(t + h) − φ(t) =
R
Como
&
|ixeitx [eihx − 1]| ≤ 2|x|
Le
ón
por el Teorema de la Convergencia Dominada
Z
lı́m φ(t + h) − φ(t) =
0dPX (x) = 0.
h→0
R
Sea ahora r ∈ Z+ . Primero, se cumple que E[|X|r+1 ] < ∞
implica E[|X|r ] < ∞. En efecto, en general, si 0 < α < β,
E[|X|β ] < ∞ =⇒ E[|X|α ] < ∞. Basta que probemos para α = 1
Apéndice A. Elementos de teorı́a de la probabilidad
270
pues siempre podemos tomar Y = |X|α y considerar Y γ , donde
γ = β/α > 1. Entonces,
E[Y ] =
Z
Y +
{Y ≥1}
≤
Z
Z
Y
{Y <1}
γ
Y +
{Y ≥1}
Z
Y
{Y <1}
≤ E[Y γ ] + 1 < ∞.
Otra forma es usando la desigualdad de Jensen: tγ para γ > 1 es
E[YNγ ] ≥ (E[YN ])γ .
do
convexa. Ası́,
Monótona
Ga
ll
ar
Ahora bien, haciendo N → ∞, por el Teorema de la Convergencia
E[Y γ ] ≥ (E[Y ])γ .
Ahora bien,
φ(r) (t + h) − φ(r) (t)
=
h
Luego,
Z
R
r itx
(ix) e
ihx
e −1
dPX (x).
h
ihx
e −1
(ix) e
→ (ix)r+1 eitx
h
ihx
−1
r itx e
≤ θ1 |x|r+1
(ix) e
h
Z
θ1 |x|r+1 dPX (x) = θ1 E[|X|r+1 ] < ∞.
&
r itx
Le
ón
R
Por el Teorema de la Convergencia Dominada
Z
φ(r) (t + h) − φ(r) (t)
lı́m
= (ix)r+1 eitx dPX (x)
h→0
h
R
= E[(iX)r+1 eitX ].
La continuidad de φ(r+1) se prueba de forma análoga.
Apéndice A. Elementos de teorı́a de la probabilidad
271
Note que
1. |φ(t)| ≤ φ(0) = 1, ∀ t ∈ R
2. φ es uniformemente continua.
3. Si a, b ∈ R, φaX+b (t) = φ(at)eitb .
4. φ(−t) = φ(t).
es, PX (B) = PX (−B).
Ga
ll
ar
Demostración. Inciso por inciso:
do
5. φ toma valores reales si y solo si X es una v.a. simétrica. Esto
1. |φ(t)| ≤ |E[eitX ]| ≤ E[|eitX |] = 1 = φ(0), ∀ t ∈ R.
2. |φ(t + h) − φ(t)| =
1|dPX (x).
R
R
eitx (eih − 1)dPX (x)
≤
R
R
|eihx −
3. φaX+b (t) = E[eit(aX+b) ] = eitb E[eitaX ] = eitb φ(ta).
4. φ(−t) = E[e−itX ] = E[eitX ] = E[eitX ] = φ(t).
Recı́procamente,
&
5. φ−X (t) = E[eit(−X) ] = φX (−t) = φX (t) = φX (t), ∀ t ∈ R.
Le
ón
φX (t) = φ−X (t) = φX (t) =⇒ φX (t) ∈ R.
Teorema 76. Sea φ la función caracterı́stica del vector aleatorio
X : Ω → Rn . Entonces,
Apéndice A. Elementos de teorı́a de la probabilidad
272
1. |φ(t)| ≤ φ(0) = 1.
2. φ es uniformemente continua.
3. Si a ∈ R y b ∈ Rn , entonces
φaX+b (t) = φ(at)eit·b , ∀ t ∈ Rn .
do
4. Las v.a. X1 , ..., Xn son independientes si y solo si φ(t) =
Qn
n
k=1 φXk (tk ), ∀ t ∈ R .
5. Si Y : Ω̃ → R es un vector aleatorio y φY = φ, entonces
Ga
ll
ar
Y ∼ X.
Las funciones caracterı́sticas son de mucha utilidad a la hora
de probar cuestiones relacionadas a la convergencia de variables
aleatorias. Esto se ilustra a continuación.
Teorema 77. Sean X1 , X2 , ... v.a. independientes e idénticamente
distribuidas (iid). Si
E[X1 ] = m < ∞
1X
Xk → m = Y
n k=1
| {z }
n
&
entonces
=Sn /n
Le
ón
en distribución.
Apéndice A. Elementos de teorı́a de la probabilidad
273
Demostración.
Sn
φSn /n (t) = E[eit n ]
h Pn itXk i
= E e k=1 n
" n
#
Y itXk
=E
e n
k=1
=
k=1
n
Y
itXk
E[e n ]
itXk
E[e n ]
k=1
Ga
ll
ar
itX1 n
= E[e n ]
n
t
= φX1
.
n
do
=
n
Y
Usando una aproximación lineal de primer orden,
n
n t
t
t
= 1 + im + o
.
φX1
n
n
n
Haciendo n → ∞,
lı́m φSn /n (t) = eitm = φY (t).
n→∞
&
Ası́, concluimos, pues la convergencia de las funciones caracterı́sticas implica la convergencia en distribución.
Le
ón
Teorema 78. Lı́mite central. Sean X1 , X2 , ... v.a. independientes
e idénticamente distribuidas (iid). Si E[X12 ] < ∞, E[X1 ] = m y
Var(X1 ) = σ 2 , entonces
Sn − mn
√
→ N (0, 1)
σ n
en distribución.
Apéndice A. Elementos de teorı́a de la probabilidad
Demostración. Sea Yk = Xk − E[Xk ] = Xk − m y Tn =
Sn − mn.
φ T√n =
σ
n
n
Y
k=1
274
Pn
k=1 Yk =
h itYk i
√
E eσ n
2
Como bσn2tn → 0,
Ga
ll
ar
do
h itY1 in
√
= E eσ n
n
t
√
= φY1
σ n
"
2
2 #n
1 2 2
t
t
t
√
+o
= 1+i·0 √ + i σ
σ2n
σ n 2
σ n
n
1 bn
t2
− + 2
.
= 1+
n
2 σ
t2
φ T√n → e− 2 = φZ (t).
σ
n
Seguimos con una breve discusión acerca de los espacios Lp . Esta
última nos permitirá abordar el tema de los modos de convergencia
de las variables aleatorias.
&
Sean (Ω, F , µ) un espacio de medida y p > 0. Definimos
Z
p
p
|f | dµ < ∞
L (Ω, F , µ) = f : Ω → R :
Ω
Le
ón
para f medible.
Teorema 79. El espacio Lp (Ω, F , µ) es un espacio vectorial10 .
10
Véase la definición en Axler (2015).
Apéndice A. Elementos de teorı́a de la probabilidad
275
Demostración. Dado que Lp (Ω, F , µ) es subconjunto de {f : Ω →
R}, solo debemos probar que f +λg ∈ Lp cuando f, g ∈ Lp y λ ∈ R.
|f + λg|p ≤ (|f | + |λg|)p
≤ (2 máx{|f |, |λg|})p
= 2p (máx{|f |p , |λg|p })
do
≤ 2p (|f |p + |λ|p · |g|p )
Z
Z
Z
p
p
p
p
p
|f + λg| ≤ 2
|f | + |λ|
|g| < ∞
Ga
ll
ar
f + λg ∈ Lp .
Teorema 80. Desigualdad de Young. Sean p, q > 1 tales que
1
+ 1q = 1. Si x, y ≥ 0, entonces
p
xy ≤
xp y q
+ .
p
q
Demostración. Si x = 0 o y = 0 es directo. Si x, y > 0, sean a = ln x
y b = ln y. Entonces,
&
xp y q
1
1
+
= eap + ebq ≥ ea+b = xy.
p
q
p
q
Le
ón
Estamos usando que x → ex es convexa.
Note, en relación a la desigualdad de Young, que también vale
P
que si p1 , · · · , pk > 0 y ki=1 p1i = 1 y x1 , · · · , xk ≥ 0, entonces
k
Y
i=1
xi ≤
k
X
xp i
i
pi
i=1
.
Apéndice A. Elementos de teorı́a de la probabilidad
276
Teorema 81. Desigualdad de Holder. Sean p, q > 1 tales que
1
+ 1q = 1 y f, g : Ω → R funciones medibles. Entonces
p
Z
|f g| ≤
Z
p
|f |
1/p Z
q
|g|
1/q
.
Además, cuando f ∈ Lp , g ∈ Lq , vale la desigualdad si y solo si
existen constantes a, b ≥ 0 tales que a2 + b2 ̸= 0 y b|f |p = a|g|q c.s.
do
R
Demostración. Primero, si |f |p = 0, f = 0 c.s., por lo que |f g| = 0
R
R
R
c.s. Análogo si |g|q = 0. En caso |f |p = ∞ o |g|q = ∞, también
Entonces,
R
Ga
ll
ar
tenemos la desigualdad.
R
R
En caso |f |p = |g|p = 1, por la desigualdad de Young
Z
Z
Z
1
1
p
q
1=
|f | +
|g| ≥ |f g|.
p
q
R
R
Si |f |p , |g|q ∈ (0, ∞), sean
g
f
f˜ = R
1/p , g̃ = R
1/q
|f |p
|g|q
|f˜|p =
R
|g̃|q = 1 y concluimos.
También vale que, dados p1 , · · · , pk > 0 con p11 + · · · + p1k = 1 y
&
f1 , · · · , fk : Ω → R funciones medibles, entonces
i=1
p
|fi |
Le
ón
k Z
Y
p1
i
≥
Z
|f1 · · · fk |.
Teorema 82. Desigualdad de Minkowski. Sean p ≥ 1 y
f, g ∈ Lp . Entonces,
||f + g||p ≤ ||f ||p + ||g||p .
Apéndice A. Elementos de teorı́a de la probabilidad
277
Demostración. Para p = 1 es consecuencia de la desigualdad
do
p
triangular. Para p > 1, sea q = p−1
y θ = pq = p − 1. Entonces,
Z
θ
||f ||p || · || |(f + g)| ||q ≥ |f | · |f + g|θ
Z
θ
||g||p · || |f + g| ||q ≥ |g| · |f + g|θ
Z
θ
(||f ||p + ||g||p )||f + g||p ≥ (|f | + |g|)|f + g|θ
Z
≥ |f + g|p .
Ga
ll
ar
¿Es || · ||p una norma en Lp ? Tenemos la desigualdad triangular
(Minkowski), homogeneidad y f = 0 =⇒ ||f ||p = 0. Sin embargo,
no tenemos que ||f ||p = 0 implique f = 0, podemos concluir solo
que f = 0 .c.s. Es por ello que frecuentemente se considera Lp / ∼:
el espacio Lp cocientado por la relación de equivalencia ((f = g c.s.
⇔ f ∼ g)).
Teorema 83. El conjunto de funciones simples es denso en Lp .
&
Demostración. Para la prueba véase Folland (1984).
Sea (Ω, F , µ) un espacio de medida. Para cada función f : Ω →
Le
ón
R definimos el supremo esencial de |f | como
||f ||∞ = ı́nf{a ∈ R : µ({|f | > a}) = 0}.
El espacio L∞ = L∞ (Ω, F , µ) es definido como el conjunto de
funciones medibles f : Ω → R tales que ||f ||∞ < ∞.
Teorema 84. Si 0 < p < q < r ≤ ∞, entonces
Apéndice A. Elementos de teorı́a de la probabilidad
278
1. Lq ⊂ Lp + Lr .
−1
−1
, con λ = pq −1 −r
2. Lp ∩ Lr ⊂ Lq y ||f ||q ≤ ||f ||λp ||f ||1−λ
.
r
−r−1
Demostración. Para (1), escribimos f = f 1{|f |≤1} + f 1{|f |>1} =
g + h. Entonces,
Z
Z
Z
r
r
|g| = |f | 1{|f |≤1} ≤ |f |q 1{|f |≤1} < ∞
Ga
ll
ar
do
=⇒ g ∈ Lr
Z
Z
p
|h| = |f |p 1{|f |>1}
Z
≤ |f |q 1{|f |>1} < ∞
=⇒ h ∈ Lp .
r−p
, β = q−p
, a = p(r−q)
, b = r(q−p)
. Por
Luego, para (2), sean α = r−p
r−q
r−p
r−p
Holder (Teorema 81),
|| |f |q ||1 ≤ || |f |a ||α || |f |b ||β .
Entonces,
|f |q ≤
Z
|f |p
&
Z
r−q Z
r−p
p(r−q)
|f |r
r(q−p)
q−p
r−p
Le
ón
= ||f ||p r−p ||f ||r r−p
p(r−q)
q(r−p)
||f ||q ≤ ||f ||p
r(q−p)
q(r−p)
||f ||r
.
Teorema 85. Si µ es una medida finita y 0 < p < q ≤ ∞, entonces
1
1
Lq ⊂ Lp y ||f ||p ≤ ||f ||1 qµ(Ω) q − p , para toda f : Ω → R medible.
Apéndice A. Elementos de teorı́a de la probabilidad
279
q
Demostración. Sean α = pq , β = q−p
. Se tiene que α1 + β1 = 1. Luego,
|| |f |p ||1 ≤ || |f |p ||α || 1 ||β
Z
pq Z q−p
Z
q
p
q
|f |
|f |
1
q−p
||f ||p ≤ ||f ||q (µ(Ω)) qp .
do
Continuamos este apéndice con el estudio de los modos de
convergencia.
Definición A.0.24. Sean (Xn ) una sucesión de variables aleatorias
Ga
ll
ar
y X una variable aleatoria. Decimos que Xn converge casi
seguramente (c.s) a X cuando
P{ω ∈ Ω : lı́m Xn (ω) = X(ω)} = 1.
n→∞
Se denota Xn → X c.s.
Definición A.0.25. Decimos que Xn converge a X en probabilidad
cuando
Esto es,
&
lı́m P(|Xn − X| ≥ ε) = 0, ∀ ε > 0.
n→∞
lı́m P(|Xn − X| < ε) = 1, ∀ ε > 0.
Le
ón
n→∞
Se denota Xn → X en P.
Definición A.0.26. Decimos que Xn converge a X en Lp con p > 0
cuando
1. X, X1 , X2 , X3 , ..., ∈ Lp
Apéndice A. Elementos de teorı́a de la probabilidad
280
2. lı́mn→∞ E(|Xn − X|p ) = 0.
Denotamos esta situación Xn → X en Lp .
Un caso interesante de la convergencia en Lp es el caso de la
convergencia en media cuadrática véase Rau (2016) o Casella and
Berger (2002).
Definición A.0.27. Decimos que Xn converge a X en distribución
(o en ley) cuando se cumple una (y por lo tanto todas) de las
do
siguientes condiciones
continuidad de FX .
Ga
ll
ar
1. lı́mn→∞ FXn (t) = FX (t), para todo t que es punto de
2. lı́mn→∞ φXn (t) = φX (t), ∀ t ∈ R.
3. lı́mn→∞ E[g(Xn )] = E[g(X)] para todo g : R → R Borel
medible y acotada. A esto se le denomina convergencia débil.
El siguiente teorema relaciona los modos de convergencia (casi
segura, en probabilidad, en Lp y en distribución).
una v.a. Entonces,
&
Teorema 86. Sean (Xn ) una sucesión de variables aleatorias y X
Le
ón
1. Si Xn → X c.s., entonces Xn → X en probabilidad.
2. Si Xn → X en Lp , entonces Xn → X en probabilidad.
3. Si Xn → X en probabilidad, entonces Xn → X en
distribución.
Apéndice A. Elementos de teorı́a de la probabilidad
281
Teorema 87. Si Xn → X en probabilidad, entonces existe una
subsucesión (Xnk )k∈N de (Xn ) tal que Xnk → X c.s.
Para la prueba de los Teoremas 86 y 87, consultar por ejemplo
Gall (2022). Por otro lado, como consecuencia del Teorema 87, dada
una sucesión de v.a., podemos concluir que son equivalentes
1. Xn → X en probabilidad.
a X c.s.
do
2. Toda sub-sucesión de Xn posee una sub-sucesión que converge
A continuación una serie de propiedades que se cumplen en
Ga
ll
ar
función del modo de convergencia:
Sean X, X1 , ..., Y, Y1 , ... : Ω → R variables aleatorias tales que
Xn → X c.s. y Yn → Y c.s. Entonces:
∀ c ∈ R, cXn → cX c.s.
Xn + Yn → X + Y c.s.
Xn Yn → XY c.s.
&
φ : R → R continua, entonces φ ◦ Xn → φ ◦ X c.s.
Sean X, X1 , ..., Y, Y1 , ... : Ω → R variables aleatorias tales que
Le
ón
Xn → X c.s. y Yn → Y en P. Entonces:
∀ c ∈ R, cXn → cX en P
Xn + Yn → X + Y en P
Xn Yn → XY en P
φ : R → R continua, entonces φ ◦ Xn → φ ◦ X en P.
Apéndice A. Elementos de teorı́a de la probabilidad
282
Sean p ≥ 1 y X, X1 , ..., Y, Y1 , ... v.a. en Lp . Entonces:
Si c ∈ R y Xn → X en Lp , entonces cXn → cX en Lp .
Si Xn → X en Lp y Yn → Y en Lp entonces Xn + Yn →
X + Y en Lp .
Si Xn → X en Lp y Yn → Y en Lq donde p1 + 1q = 1,
entonces Xn Yn → XY en L1 .
en distribución11 . Entonces:
cXn → cX en distribución
Ga
ll
ar
Xn + Yn → X + y0 en distribución
do
Sea c ̸= 0 y suponga que Xn → X en distribución y Yn → y0
Xn Yn → 0 en distribución (para y0 = 0).
Si g es continua, g(Xn ) → g(X) en distribución.
A los ı́tems 1 y 2 se les conoce como Teorema de Slutsky,
mientras que al ı́tem 4 se le conoce como teorema de MannWald.
&
Teorema 88. Sea (Xn )n∈N una sucesión tal que Xn → X en
probabilidad y tal que existe r ∈ (1, ∞) tal que {E[|Xn |r ]}n∈N es
acotada. Entonces, E[|X|r ] < ∞ y para todo p ∈ [1, r) la sucesión
Le
ón
(Xn )n∈N converge casi seguramente a X en Lp .
Llegamos finalmente al último tópico de teorı́a de la probabilidad que se expone en este apéndice: el concepto de esperanza
condicional.
11
Como y0 es una constante, entonces la convergencia es en probabilidad.
Apéndice A. Elementos de teorı́a de la probabilidad
283
Dada una variable aleatoria X integrable y G un sub σ−álgebra
de F , queremos encontrar una v.a. Y tal que
1. Y es G − medible.
2.
R
A
Y dP =
R
A
XdP, ∀ A ∈ G .
P : F → R, P|G : G → R es una medida de probabilidad en (Ω, G ).
R
Sean ν1 : G → R que hace A → A X + dP y ν2 : G → R que
R
hace A → A X − dP. Entonces, ν1 , ν2 ≪ PG . Por Radon-Nikodym,
A
Luego,
Z
XdP =
A
Ga
ll
ar
es G medible. Por otro lado, si A ∈ G
Z
Z
ν1 (A) =
Y1 dP|G =
Y1 dP.
do
dν1 = Y1 dP|G y dν2 = Y2 dP|G . Definimos Y = Y1 − Y2 . Por un lado,
A
Z
A
Y dP, ∀ A ∈ G .
Teorema 89. Sean X una v.a. integrable y G un sub-σ-álgebra de
F.
a) Existe una v.a. Y tal que
&
Y es G −medible.
R
R
Y
dP
=
XdP, ∀ A ∈ G .
A
A
Le
ón
b) Si Z es otra v.a. que cumple con las 2 condiciones, entonces
Z = Y c.s.
A Y se le conoce como la esperanza condicional de X dado G y
es denotada por E[X|G ].
Ejemplo 84. Si X = c constante, entonces E[c|G ] = c.
Apéndice A. Elementos de teorı́a de la probabilidad
284
Ejemplo 85. Si G = {Ω, ∅}, entonces E[X|G ] = E[X].
Pn
Ejemplo 86. Si Ω =
k=1 Bk
σ({B1 , B2 , ..., Bn }), entonces
E[X|G ] =
X 1≤k≤n
Ejemplo 87. Si Ω =
con B1 , ..., Bn ∈ F , G =
1
P(Bn )
Z
XdP 1Bk .
Bk
P∞
k=1 Bk con B1 , ..., Bn , ... ∈ F , y definimos
do
G = σ({Bk : k ≥ 1}), entonces
X 1 Z
E[X|G ] =
XdP 1Bk .
P(Bk ) Bk
k≥1
Ga
ll
ar
Ejemplo 88. Sea A ∈ F y G ⊂ F . La probabilidad condicional
de A dado G es definida como
P[A|G ] = E[1A |G ].
Teorema 90. Sean X, Z variables aleatorias integrables y G un
sub σ−álgebra de F .
1. Si α ∈ R, entonces E[αX|G ] = αE[X|G ].
&
2. E[X + Z|G ] = E[X|G ] + E[Z|G ].
Le
ón
3. Si X ≤ Z, entonces E[X|G ] ≤ E[Z|G ].
4. E(E[X|G ]) = E[X].
5. Si H ⊂ G , entonces
E[E[X|G ]|H ] = E[X|H ].
Apéndice A. Elementos de teorı́a de la probabilidad
285
6. Si Z ∈ G y ZX es integrable, entonces
E[ZX|G ] = ZE[X|G ].
7. Si X es independiente de G , entonces
E[X|G ] = E[X].
Teorema 91. Desigualdad de Jensen para esperanza condi-
do
cional. Supongamos que ϕ es una función convexa y X una variable
aleatoria sobre la cual se define la esperanza condicional respecto a
Ga
ll
ar
una σ-álgebra G. Entonces,
ϕ(E[X|G]) ≤ E[ϕ(X)|G].
En todo momento, se asume integrabilidad de.
Teorema 92. Sea (Xn ) una sucesión de v.a. integrables:
1. Si Xn ↑ X entonces E[Xn |G ] ↑ E[X|G ].
2. Si Xn ↓ X entonces E[Xn |G ] ↓ E[X|G ].
&
3. Si Xn ≥ 0, ∀ n ≥ 1 entonces
E[lı́mı́nf Xn |G ] ≤ lı́mı́nf E[Xn |G ].
Le
ón
n
4. Si |Xn | ≤ Z para todo n ≥ 1 y Xn → X, entonces
E[Xn |G ] → E[X|G ].
La prueba de los Teoremas 90, 91 y 92 se encuentran en Gall
(2022).
Apéndice A. Elementos de teorı́a de la probabilidad
286
Definición A.0.28. Sea (Ω, F , P) un espacio de probabilidad y X
una v.a. integrable. Si Y es una v.a. definimos
E[X|Y ] = E[X|σ(Y )].
Si Yi , i ∈ I son v.a., definimos
E[X|Yi , i ∈ I] = E[X|σ({Yi : i ∈ I})].
Teorema 93. Sean Y, Z variables aleatorias. Las siguientes
do
condiciones son equivalentes:
1. σ(Z) ⊂ σ(Y ).
Ga
ll
ar
2. Z es σ(Y )−medible.
3. Existe una función Borel medible g : R → R tal que Z =
g(Y ).
Para la prueba de este teorema, sugerimos consultar Gall (2022).
Como consecuencia tenemos que, si X es una v.a. integrable y Y
es una v.a. entonces
E[X|Y ] = g(Y ),
(A.1)
&
donde g : R → R es una función Borel medible. Luego, si y ∈ R y
g cumple (A.1), definimos
Le
ón
E[X|Y = y] = g(y).
Teorema 94. Sean X una v.a. positiva integrable y Y una v.a.
Sean PY la ley de Y y ν : BR → R,
Z
ν: A→
Entonces,
Y −1 (A)
XdP.
Apéndice A. Elementos de teorı́a de la probabilidad
287
1. ν es una medida en (R, BR ).
2. E[X|Y = y] = dPdνY (y).
Note que si y0 ∈ R es tal que P(Y = y0 ) > 0, entonces
E[X|Y = y0 ] = E[X|{Y = y0 }]
Z
1
=
XdP.
P{Y = y0 } {Y =y0 }
do
Teorema 95. Sean X, Y ∈ L2 . Entonces:
1. Las variables aleatorias X, Y, E[X|Y ], XE[X|Y ], E[Y |X]2 son
Ga
ll
ar
integrables.
2. Cov(X, Y ) = Cov(X, E[Y |X]).
3. Var[E[Y |X]] ≤ Var[Y ].
Demostración. Dado que X, Y ∈ L2 , sabemos que E[X 2 ] < ∞ y
E[Y 2 ] < ∞. Esto implica que tanto X como Y son integrables.
E[X|Y ] es integrable porque E[E[X|Y ]2 ] ≤ E[X 2 ] < ∞ (por
la desigualdad de Jensen para esperanzas condicionales).
&
XE[X|Y ] es integrable, dado que:
Le
ón
E[(XE[X|Y ])2 ] ≤ E[X 2 E[X|Y ]2 ]
≤ E[X 2 ]E[E[X|Y ]2 ]
≤ E[X 2 ]E[X 2 ] < ∞.
E[Y |X]2 es integrable ya que:
Z
Z
Z
2
2
E[Y |X] ≤ E[Y |X] = Y 2 < ∞.
Apéndice A. Elementos de teorı́a de la probabilidad
288
Para demostrar que Cov(X, Y ) = Cov(X, E[Y |X]), observamos
que:
Cov(X, Y ) = E[XY ] − E[X]E[Y ],
Cov(X, E[Y |X]) = E[XE[Y |X]] − E[X]E[E[Y |X]].
Dado que E[E[Y |X]] = E[Y ] y
concluimos que ambas covarianzas son iguales.
do
E[XE[Y |X]] = E[E[XY |X]] = E[XY ]
Finalmente, la varianza condicional satisface la desigualdad:
Ga
ll
ar
Var(E[Y |X]) = E[E[Y |X]2 ] − (E[E[Y |X]])2
= E[E[Y |X]2 ] − E[Y ]2
≤ E[Y 2 ] − E[Y ]2
que proviene directamente de la ley de la varianza total y la
desigualdad de Jensen.
Definición A.0.29. Definimos la varianza condiciones de una
&
variable aleatoria Y dada una variables aleatoria X como
Var[Y |X] = E[(Y − E[Y |X])2 |X].
Le
ón
La varianza es la desviación cuadrática esperada entre una
variable aleatoria (digamos, Y ) y su valor esperado. El valor
esperado puede considerarse una predicción razonable de los
resultados del experimento aleatorio. De hecho, el valor esperado
es la mejor predicción constante cuando las predicciones se evalúan
por el error cuadrático medio esperado. Ası́, una interpretación de
Apéndice A. Elementos de teorı́a de la probabilidad
289
la varianza es que proporciona el menor error cuadrático medio
posible.
Si tenemos conocimiento de otra variable aleatoria X que
podemos usar para predecir Y , podemos potencialmente usar este
conocimiento para reducir el error cuadrático medio esperado.
Resulta que la mejor predicción de Y dado X es la esperanza
condicional.
En particular, para cualquier función medible f : R → R:
do
E[(Y − f (X))2 ] = E[(Y − E(Y |X) + E(Y |X) − f (X))2 ]
= E[E{(Y − E(Y |X) + E(Y |X) − f (X))2 |X}]
Le
ón
&
Ga
ll
ar
= E[Var(Y |X)] + E[(E(Y |X) − f (X))2 ].
Apéndice B
do
Elementos de estadı́stica
Ga
ll
ar
En este apéndice nos concentramos en ciertos aspectos fundamentales de la inferencia estadı́stica. En particular, estudiamos las
distribuciones bivariadas, las distribuciones multivariadas y aspectos vinculados a las muestras aleatorias. Los temas de estimación
puntual y por intervalos son abordados a lo largo del cuerpo principal de este texto. Fundamentalmente seguimos a Casella and Berger
(2002) y para la estructura1 , las notas de clase del profesor Tomás
Rau de la Pontificia Universidad Católica de Chile (Rau (2016)).
&
En el Apéndice A, ya hemos definido formalmente lo que es una
variable aleatoria, su función de distribución y, cuando existe, la
función de densidad. Suponga que X es una v.a. con función de
Le
ón
distribución FX , y considere una variable aleatoria Y = aX + b
donde a > 0 y b ∈ R. Entonces,
FY (y) = FX
1
Secuencia de temas presentados.
290
y−b
a
.
Apéndice B. Elementos de estadı́stica
291
Además, si X es continua y posee función de densidad,
1
y−b
fY (y) = fX
.
a
a
Nos preguntamos a continuación si hay una forma sistemática de
analizar, dada una v.a. X, la distribución y densidad de Y = g(X),
con g una función Borel medible.
Teorema 96. Sea X una v.a. con distribución FX (x). Sea Y =
Entonces:
Ga
ll
ar
1. Si g es creciente sobre X 2 ,
do
g(X) y X = {x : fX (x) > 0} y Y = {y : y = g(x), x ∈ X }.
FY (y) = FX (g −1 (y)), y ∈ Y.
2. Si g es decreciente en X y X es continua,
FY (y) = 1 − FX (g −1 (y)), ∀ y ∈ Y.
La demostración y enunciado original del Teorema 96 se
&
encuentran en Casella and Berger (2002).
Ejemplo 89. Sea X ∼ U [0, 1] (véase el Apéndice C). Sea Y =
g(X) = − ln X. Entonces, como g es estrictamente decreciente
2
Le
ón
sobre R++ y g −1 (y) = e−y :
FY (y) = 1 − FX (g −1 (y)) = 1 − FX (e−y ) = 1 − e−y .
El soporte de f
Apéndice B. Elementos de estadı́stica
292
Teorema 97. Sea X con función de densidad fX (x) y Y = g(X)
con g una función monótona. Sean X = {x :
fX (x) > 0} y
Y = {y : y = g(x), x ∈ X }. Supongamos que fX es continua
sobre X y que g −1 ∈ C 1 (Y). Entonces,
fX (g −1 (y)) d g −1 (y) , si y ∈ Y
dy
fY (y) =
0,
caso contrario.
do
La prueba es simplemente derivar aplicando regla de la cadena.
Ejemplo 90. Sea fX (x) la densidad de X ∼ Γ(n, β):
1
xn−1 e−x/β , 0 < x < ∞.
(n − 1)!β n
Ga
ll
ar
fX (x) =
Sea g(x) = x1 . En este caso, X = Y = R++ . Si hacemos y = g(x),
entonces g −1 (y) = 1/y y
1
d −1
g (y) = − 2 .
dy
y
&
Ası́, de acuerdo con el Teorema 97
n−1
n+1
1 1
1
1
1
1
1
− βy
− βy
fY (y) =
=
e
e
.
(n − 1)!β n y
y2
(n − 1)!β n y
A continuación, abordamos el caso de las distribuciones bivariadas y multivariadas. Dicho análisis nos conduce al estudio de los
Le
ón
resultados presentados anteriormente en el caso más general.
Definición B.0.1. Un vector aleatoria bivariado es un vector
(X, Y ) es un vector (X, Y ) donde X e Y son variables aleatorias
(definidas en un espacio de probabilidad implı́cito (Ω, F , P)).
Apéndice B. Elementos de estadı́stica
293
En este caso, X : Ω → R2 induce un espacio de probabilidad
(R2 , BR2 , PX,Y ), donde
PX,Y (B) = P{ω ∈ Ω : (X(ω), Y (ω)) ∈ B}.
Definición B.0.2. Una función de distribución conjunta de (X, Y )
es la función FX,Y : R2 → [0, 1] definida por
FX,Y (x, y) = PX,Y ((−∞, x], (−∞, y])
Note que si conocemos FX,Y conocemos PX,Y .
do
= P{ω : X(ω) ≤ x, Y (ω) ≤ y}, (x, y) ∈ R2 .
Ga
ll
ar
Teorema 98. Una función F : R2 → R es una función de
distribución si y solo si
1. lı́mx→−∞ F (x, y) = 0 para todo y, lı́my→∞ F (x, y) = 0 para
cualquier x y donde lı́mx→∞,y→∞ F (x, y) = 1.
2. F no es decreciente, esto es, F (x′ , y ′ ) ≥ F (x, y) cuando
x′ ≥ x, y ′ ≥ y.
&
3. F es continua por la derecha.
Cuando (X, Y ) admite una densidad,
Le
ón
cuando (X, Y ) es discreto
FX,Y (x, y) =
XX
s≤x t≤y
cuando (X, Y ) es continuo
Z
Z
FX,Y (x, y) =
(−∞,x]
fX,Y (s, t), ∀ (x, y) ∈ R2
(−∞,y]
fX,Y (t, s)dsdt, ∀ (x, y) ∈ R2 .
Apéndice B. Elementos de estadı́stica
294
Note que fX,Y es densidad si y solo si Casella and Berger (2002)
para el caso discreto
X
f (x, y) = 1
(x,y)∈R2
para el caso continuo
Z Z
R
f (x, y)dxdy = 1.
R
Ga
ll
ar
do
Ejemplo 91. Sea (X, Y ) con densidad conjunta
6xy 2 , si 0 < x < 1, 0 < y < 1
f (x, y) =
0,
caso contrario.
Se cumple que
ZZ
f (x, y)dxdy =
R2
=
=
Z 1Z 1
Z0 1
Z0 1
6xy 2 dxdy
0
3xY 2y 2 |10 f y
3y 2 dy = 1.
0
&
A partir de la densidad conjunta, es posible recuperar las
densidades marginales fX (x) y fY (y). En efecto,
Le
ón
fX (x) =
X
fX,Y (x, y)
y∈R
en el caso discreto, y3
fX (x) =
3
Cuando
R
R
fX,Y (x, y)dy < ∞.
Z
R
fX,Y (x, y)dy.
Apéndice B. Elementos de estadı́stica
295
Definición B.0.3. Sea (X, Y ) un vector aleatorio con densidad
conjunta fX,Y y fX densidad marginal de X. Para cualquier x ∈ X 4 ,
la densidad condicional de Y dado X es
fY |X (y|x) =
fX,Y (x, y)
, ∀ y ∈ R.
fX (x)
El resultado es análogo cuando intercambiamos X por Y :
fX,Y (x, y)
, ∀ x ∈ R.
fY (y)
Esto aplica para el caso discreto como continuo.
do
fX|Y (x|y) =
Definición B.0.4. Sea (X, Y ) un vector aleatorio con densidad
Ga
ll
ar
fX,Y y marginales fX y fY . Si X, Y son independientes (véase el
Apéndice A), entonces
fX,Y (X, Y ) = fX (x)fY (y).
Esto aplica para el caso discreto como continuo.
Definición B.0.5. Sea (X, Y ) un vector aleatorio discreto y sea
g : R → R una función Borel medible. Para cualquier y tal que
fY (y) > 0, el valor esperado condicional de g(X) dado Y = y,
&
denotado E[g(X)|Y = y] está dado
Le
ón
E[g(X)|Y = y]
X
g(x)fX|Y (x, y),
x∈R
siempre y cuando g(X) sea integrable. Para el caso continuo esto
es análogo,
E[g(X)|Y = y] =
4
El soporte de fX .
Z
R
g(x)fX|Y (x|y)dx.
Apéndice B. Elementos de estadı́stica
296
En particular, la media condicional de X dado Y = y es
E[X|Y = y] y la varianza condicional de X dado Y = y es
E[X 2 |Y = y] − E[X|y]2 .
Definición B.0.6. Sea (X, Y ) un vector aleatorio bivariado con
densidad conjunta fX,Y . Sea g : R2 → R Borel medible. Entonces,
E[g(X, Y )] =
X
g(x, y)fX,Y (x, y).
do
(x,y)∈R2
Definición B.0.7. La covarianza de X e Y , con X, Y, XY ∈ L1 (Ω)
Ga
ll
ar
se define como
Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])]
= E[XY ] − E[X]E[Y ]
= Cov(Y, X).
Definición B.0.8. La correlación de X y Y ρXY es definido por
Cov(X, Y )
p
.
ρXY = p
Var(X) Var(Y )
X
E[X]
.
E =
Y
E[Y ]
Le
ón
media de (X, Y ) es
&
Definición B.0.9. Sea (X, Y ) un vector aleatorio bivariado. La
Definición B.0.10. La matriz de covarianza de (X, Y ) es
X
Var(X) Cov(X, Y )
.
Var =
Y
Cov(X, Y )
Var(Y )
Apéndice B. Elementos de estadı́stica
297
Teorema 99. Sea (X, Y ) un vector aleatorio bivariado. Si X e Y
son independientes, entonces Cov(X, Y ) = ρXY = 0.
Teorema 100. Si (X, Y ) es un vector aleatorio bivariado,
Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ).
La prueba es por definición.
Teorema 101. Desigualdad de Cauchy-Schwarz. Si X, Y ∈ L2
do
es un vector aleatorio bivariado, entonces
p
p
|E[XY ]| ≤ E[|XY |] ≤ E[X 2 ] E[Y 2 ].
Sea ahora (X, Y ) un vector aleatorio con distribución conjunta
Ga
ll
ar
conocida (distribución de probabilidad conocida) y definamos U =
g1 (X) y V = g2 (Y ), donde g1 , g2 son Borel medibles. Si B ⊂ R2 ,
entonces
(U, V ) ∈ B ⇔ (X, Y ) ∈ A = {(x, y) : (g1 (x, y), g2 (x, y)) ∈ B}.
Por ende,
P{(U, V ) ∈ B} = P{(X, Y ) ∈ A}.
A continuación vemos como computar P{(U, V ) ∈ B}. Para esto,
&
asumiremos que conocemos fX,Y (x, y). Sea
Le
ón
Entonces,
∂x
J(u, v) = ∂u
∂y
∂u
∂x
∂v
.
∂y
∂v
fU,V (u, v) = fX,Y (h1 (u, v), h2 (u, v))|J|
con x = h1 (u, v) y x2 = h2 (u, v) y
J(u, v) = |J(u, v)| =
∂x ∂y ∂x ∂y
−
.
∂u ∂v ∂v ∂u
Apéndice B. Elementos de estadı́stica
298
Ejemplo 92. Sea X ∼ Beta(α, β) y Y ∼ Beta(α + β, γ) variables
aleatorias independientes. Entonces,
fX,Y (x, y) =
Γ(α + β) α−1
Γ(α + β + γ) α+β−1
x (1−x)β−1
y
(1−y)γ−1 .
Γ(α)Γ(β)
Γ(α + β)Γ(γ)
Consideremos U = XY y V = X. Entonces, B = {(u, v) : 0 < u <
v < 1} y x = h1 (u, v) = v, y = h2 (u, v) = uv . Luego,
0
1
1
v
− vu2
1
=− .
v
Ası́,
u α+β−1 Γ(α + β + γ) α−1
u
1
v (1−v)β−1
1−
γ−1 .
Γ(α)Γ(β)Γ(γ)
v
v
v
Ga
ll
ar
fU,V (u, v) =
do
J=
A continuación pasamos al análisis de las distribuciones
multivariadas.
Definición B.0.11. Un vector aleatorio n−dimensional es un
vector X
= (X1 , · · · , Xk )T donde X1 , · · · , Xk son variables
aleatorias definidas en un mismo espacio de probabilidad. La
&
medida de probabilidad inducida en Rk por X es
PX (B) = P{ω ∈ Ω : X(ω) ∈ B}, B ∈ BRk .
Le
ón
Definición B.0.12. La distribución (conjunta) de un vector
aleatorio k−dimensional X es la función FX : Rk → [0, 1] definida
por
( k
)
Y
FX (x) = PX
(−∞, xi ] , x = (x1 , · · · , xk )T ∈ Rk .
i=1
Apéndice B. Elementos de estadı́stica
299
Definición B.0.13. Sea X un vector aleatorio k−dimensional con
distribución conjunta FX .
1. En caso X sea discreto con densidad fX 5
X
FX (x) =
fX (t), x ∈ Rk .
t≤x
2. En caso X sea continua con densidad fX
ZZ
ZZ
FX (x) =
···
fX (t)dt, x ∈ Rk .
t≤x
t = (t1 , · · · , tk )T y x = (x1 , · · · , xk )T .
do
Note que la notación t ≤ x simboliza t1 ≤ x1 , · · · , tk ≤ xk con
Ga
ll
ar
Definición B.0.14. Sea X un vector aleatorio discreto k−dimensional
con densidad conjunta fX . Sea g : Rk → R Borel medible. Entonces,
en caso g(X) sea integrable,
X
E[g(X)] =
g(t)fX (t).
t∈Rk
En caso X sea continuo, la situación es análoga y
Z
E[g(X)] =
g(x)fX (x)dx.
Rk
donde
Le
ón
&
En el caso más general, en el que g : Rk → Rp×m ,
E[g11 (X)] · · · E[g1m (X)]
..
..
..
,
E[g(X)] =
.
.
.
E[gp1 (X)] · · · E[gpm (X)]
E[gij (X)] =
Z
Rk
gij (x)fX (x)dx < ∞,
provisto que la integral esté bien definida.
5
fX (t) = P{X = t}.
Apéndice B. Elementos de estadı́stica
300
Definición B.0.15. Sea X : Ω → Rk . Entonces,
µ1
.
.
E[X] = µ =
.
µk
y
σ11 · · · σ1k
. .
..
. . ... .
Var(X) = E[(X − µ)(X − µ)T ] = Σ =
σk1 · · · σkk
do
Ga
ll
ar
En este contexto,
σij = Cov(Xi , Xj ), 1 ≤ i, j ≤ k.
Definición B.0.16. Sea X = (X1 , · · · , Xk )T un vector aleatorio
k−dimensional. Si a1 , · · · , ak , b1 , · · · , bk con constantes, entonces
" k
#
k
X
X
E
ai E[Xi ]
ai X i =
Cov
k
X
ai X i ,
j=1
bj X j
!
=
i=1
k X
k
X
ai bj Cov(Xi , Xj ).
i=1 j=1
&
i=1
i=1
k
X
Le
ón
En el caso especial en el que las Xi son independientes,
!
k
k
k
X
X
X
Cov
ai X i ,
bj X j =
a2i Var(Xi ).
i=1
j=1
i=1
Definición B.0.17. Sea
Y
X = ∈ Rk
Z
Apéndice B. Elementos de estadı́stica
301
con Y ∈ Rn y Z ∈ Rk−n . Esto es Y = (X1 , · · · , XnT ) y Z =
(Xn+1 , · · · , Xk )T . Entonces, sobre el soporte6 de Z
fY |Z (y|z) =
fY,Z (y, z)
, ∀ y ∈ Rn , ∀ z ∈ Rk−n ∩ supp(fZ (·))
fZ (z)
Esto tanto para el caso discreto como continuo.
A continuación, una de las caracterizaciones más usuales de la
independencia.
do
Definición B.0.18. Sean X1 , ..., Xn vectores aleatorios discretos o
continuos, no necesariamente de misma dimensión; Xi : Ω → Rki
Ga
ll
ar
con densidad fXi . Entonces,
fX1 ···Xn (x1 , · · · , xn ) =
n
Y
i=1
fXi (xi ), ∀ x1 , · · · , xn .
A continuación, una de las distribuciones multivariadas más
importantes y frecuentes en la práctica.
6
Le
ón
&
Definición B.0.19. Un vector aleatorio X = (X1 , · · · , Xk )T : Ω →
µ1
..
Rk está normalmente distribuido, con media µ =
. y varianza
µk
σ11 · · · σ1k
. .
..
. . ... , denotado X ∼ N (µ, Σ), si X es continuo y
Σ=
σk1 · · · σkk
con densidad conjunta dada por
1
1
T −1
exp − (x − µ) Σ (x − µ) , x ∈ Rk .
fX (x) =
(2π)k/2 |Σ|1/2
2
supp(fZ (·)).
Apéndice B. Elementos de estadı́stica
302
Teorema 102. Sea X ∼ N (µ, Σ) un vector aleatorio k dimensio-
nal. Si A ∈ Mm×k y b ∈ Rm . Entonces,
AX + b ∼ N (Aµ + b, AΣAT ).
Demostración. Por definición.
Sea
µ
Σ
Σ
1
11
12
,
X = [X1 , X2 ]T ∼ N µ = , Σ =
µ2
Σ21 Σ22
X1 ∼ N (µ1 , Σ11 )
X2 ∼ N (µ2 , Σ22 )
Ga
ll
ar
donde X1 : Ω → Rn y X2 : Ω → Rk−n . Entonces,
do
−1 T
X1 |X2 = x2 ∼ N µ1 + Σ12 Σ−1
22 (x2 − µ2 ), Σ11 − Σ12 Σ22 Σ12
T
−1
X2 |X1 = x1 ∼ N µ2 + ΣT12 Σ−1
11 (x1 − µ1 ), Σ22 − Σ12 Σ11 Σ12 .
Concluimos este apéndice con el tema de las muestras aleatorias.
Definición B.0.20. Sea X = (X1 , · · · , Xn ) un vector aleatorio n
&
dimensional. Las variables aleatorias X1 , ..., Xn se llaman muestra
aleatoria si es que son mutuamente independientes y además, tienen
caso,
Le
ón
la misma distribución (marginal). Esto se denota Xi iid. En dicho
FX1 ···Xn (x1 , · · · , xn ) =
fX1 ···Xn (x1 , · · · , xn ) =
n
Y
i=1
n
Y
i=1
FXi (xi ) =
fXi (xi ) =
n
Y
i=1
n
Y
i=1
F (xi )
f (xi ).
Apéndice B. Elementos de estadı́stica
303
Definición B.0.21. Dada una muestra aleatoria X1 , · · · , Xn y una
función medible T : Rn → Rm , el vector aleatorio
Y = T (X1 , · · · , Xn )
se llama estadı́stico, y su distribución se llama distribución muestral
de Y .
Ejemplo 93. Un ejemplo de estadı́stico es la media muestral:
1X
X=
Xi .
n i=1
do
n
Ga
ll
ar
Otro estadı́stico ampliamente usado es la varianza muestral
"
#2
n
n
n
X
X
X
1
1
1
(Xi − X)2 =
Xi −
Xi .
S2 =
n − 1 i=1
n − 1 i=1
n i=1
1
en la definición de la
Quizás llame la atención el factor n−1
varianza muestral: uno podrı́a anticipar un factor n1 . El motivo se
explica por el siguiente teorema.
Teorema 103. Sea X1 , · · · , Xn una muestra aleatoria tal que
&
E[X1 ] = µ y Var(X1 ) = σ 2 . Entonces,
1. E[X] = µ.
2
Le
ón
2. Var(X) = σn .
3. E[S 2 ] = σ 2 .
Apéndice B. Elementos de estadı́stica
304
Demostración. Inciso, por inciso:
"
#
n
1X
E[X = E
Xi
n i=1
" n
#
X
1
Xi
= E
n
i=1
1X
E[Xi ]
n i=1
n
=
1X
µ
=
n i=1
do
n
Luego,
Ga
ll
ar
= µ.
1X
Xi
n i=1
n
Var(X) = Var
!
n
X
1
= 2 Var
Xi
n
i=1
1 X
= 2
Var(Xi )
n i=1
n
σ2
.
n
Le
ón
&
=
!
Apéndice B. Elementos de estadı́stica
305
Finalmente,
"
= σ2.
Ga
ll
ar
Note que se ha hecho uso de la siguiente relación,
do
!#
n
X
1
2
E[S 2 ] = E
X 2 − nX
n − 1 i=1 i
" n
#
X
1
2
E
Xi2 − nX
=
n−1
" ni=1
#
X
1
2
2
E[Xi ] − nE[X ]
=
n − 1 i=1
" n
#
2
X
1
σ
2
2
2
=
(σ + µ ) − n
+µ
n − 1 i=1
n
E[Xi2 ] = Var(Xi ) + E[Xi ]2 = σ 2 + µ2 .
Esto concluye el apéndice sobre elementos de estadı́stica. A lo
largo del cuerpo principal de este documento se abordan otros
temas de la inferencia estadı́stica: los estimadores, los intervalos
Le
ón
&
de confianza etc.
Apéndice C
1. Binomial B(n, p)
a) P{X = k} =
Ga
ll
ar
do
Distribuciones usuales
n k
p (1 − p)n−k
k
b) MX (t) = (1 − p + pet )n
c) φX (t) = (1 − p + peit )n
d ) E[X] = np
e) Var[X] = np(1 − p).
&
2. Geométrica G(p)
a) P{X = k} = p(1 − p)k−1
t
Le
ón
pe
b) MX (t) = 1−(1−p)e
t
it
pe
c) φX (t) = 1−(1−p)e
it
d ) E[X] = p1
e) Var[X] = 1−p
p2
306
Apéndice C. Distribuciones usuales
307
3. Binomial negativa BN (r, p)
a) P{X = k} = pr (1 − p)k r+k−1
k
r
p
b) MX (t) = 1−(1−p)et
r
p
c) φX (t) = 1−(1−p)e
it
d ) E[X] = r(1−p)
p
e) Var[X] = r(1−p)
p2
do
4. Multinomial B(n, p1 , ..., pk )
d ) E[Xi ] = npi
Ga
ll
ar
n!
pn1 · · · pnk k
a) P{X = (X1 , · · · Xk ) = (n1 , ..., nk )} = n1 !···n
k! 1
n
P
k
ti
b) MX (t) =
p
e
i=1 i
n
P
k
itj
p
e
c) φX (t) =
j=1 j
e) Var[Xi ] = npi (1 − pi )
5. Poisson P(λ)
k −λ
e
a) P{X = k} = λ k!
t
&
b) MX (t) = eλ(e −1)
it
c) φX (t) = eλ(e −1)
Le
ón
d ) E[X] = λ
e) Var[X] = λ
6. Normal N (µ, σ)
a) P{X ∈ A} =
R
√ 1 e−
A 2πσ
(x−µ)2
2σ 2
dx
Apéndice C. Distribuciones usuales
308
σ 2 t2
b) MX (t) = eµt+ 2
σ 2 t2
c) φX (t) = eµit− 2
d ) E[X] = µ
e) Var[X] = σ 2
7. Uniforme U ([a, b])
a) P{X ∈ A} =
tb
R
A
1
dx
1[a,b] b−a
ta
itb
do
−e
b) MX (t) = et(b−a)
ita
d ) E[X] = a+b
2
2
e) Var[X] = (b−a)
12
8. Exponencial Exp(λ)
a) P{X ∈ A} =
λ
b) MX (t) = λ−t
R
A
λ
c) φX (t) = λ−it
e) Var[X] = λ12
1[0,∞) λe−λt dt1
&
d ) E[X] = λ1
Ga
ll
ar
−e
c) φX (t) = eit(b−a)
Le
ón
9. Gamma Γ(α, λ)
a) P{X ∈ A} =
b) MX (t) =
c) φX (t) =
1
FX (t) = 1 − e−λt
R
A
λ α
λ−t
α
λ
λ−it
α−1 −λx
1R++ λ(λx)Γ(α)e
dx
Apéndice C. Distribuciones usuales
309
d ) E[X] = αλ
e) Var[X] = λα2
10. Weibull W (α, λ)
R
a) P{X ∈ A} =
1
h
A πγ 1+ x−x0
b) φX (t) = ex0 it−γ|t|
c) E[X] = x0
12. Lognormal2
a) P{X ∈ A} =
σ2
b) E[X] = eµ+ 2
R
2
( γ )
i
Ga
ll
ar
11. Cauchy C(x0 , γ)
1
√
e−
1
A R++ xσ 2π
2
do
R
α
a) P{X ∈ A} = A 1R++ λα(λx)α−1 e−(λx) dx
P
n
tn
b) MX (t) = ∞
n=0 n!λn Γ 1 + α
P
(it)n
n
c) φX (t) = ∞
Γ
1
+
n
n=0 n!λ
α
(ln x−µ)2
2σ 2
dx
2
&
c) Var[X] = (eσ − 1)(e2µ+σ ).
Note que algunas distribuciones, como la Cauchy, Weibull o
Lognormal, no tienen definidas una función generadora de momento
Le
ón
o su varianza.
Por otro lado, recordemos los siguiente. Cuando tenemos
Z
P{X ∈ A} =
fX (x)dx,
2
A
Si X ∼ Ln(µ, σ 2 ), entonces Y = ln X ∼ N (µ, σ 2 )
Apéndice C. Distribuciones usuales
310
entonces decimos que fX (x) es la densidad de X. Además, para una
v.a. continua, podemos definir
F (x) = P{X ≤ x} =
Z x
fX (x)dx,
−∞
que resultar la función de distribución o densidad acumulada de X.
En el caso discreto,
FX (x) =
X
pX (t), pX (t) = P{X = t}.
do
t≤x
Notar que, en ambas situaciones fX (x) ≥ 0 (pX (t) ≥ 0) y
f (x) = 1
Ga
ll
ar
X
x∈R
X
pX (t) = 1, I enumerable infinito o finito.
t∈I⊂R
Le
ón
&
A I se le conoce como el soporte de X.
Bibliografı́a
do
Abbott, S. (2015). Understanding Analysis. Springer, 2 edition.
Angrist, J. (1990a). Lifetime earnings and the vietnam era draft
lottery: Evidence from social security administrative records. The
Ga
ll
ar
American Economic Review, 80(3):313–336.
Angrist, J. and Krueger, A. (1991a).
Does compulsory school
attendance affect schooling and earnings? Quarterly Journal of
Economics, 106(4):979–1014.
Angrist, J. and Pischke, J.-S. (2009). Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton University Press, 1
edition.
&
Angrist, J. D. (1990b). Lifetime earnings and the vietnam era draft
lottery: Evidence from social security administrative records.
Le
ón
American Economic Review, 80(3):313–336.
Angrist, J. D. and Krueger, A. B. (1991b). Does compulsory school
attendance affect schooling and earnings? Quarterly Journal of
Economics, 106(4):979–1014.
Axler, S. (2015). Linear Algebra Done Right. Springer, 3 edition.
311
Bibliografı́a
312
Bai, J. and Perron, P. (1998). Estimating and testing linear models
with multiple structural changes. Econometrica, 66(1):47–78.
Barro, R. and Martin, X. S. I. (2003). Economic Growth. MIT
Press, 1 edition.
Borjas, G. (2000). Labor Economics. McGraw-Hill, 2 edition.
Boyd, S. and Vandenberghe, L. (2004).
Convex Optimization.
do
Cambridge University Press, 1 edition.
Card, D. (1995). Using geographic variation in college proximity to
estimate the return to schooling. National Bureau of Economic
Ga
ll
ar
Research Working Paper, (4483).
Casella, G. and Berger, R. (2002). Statistical Inference. Thomson
Learning, 2 edition.
Chavez, J. and Gallardo, M. (2024). Álgebra Lineal y Optimización
para el Análisis Económico. Pre-published, 1 edition.
Chow, G. (1960). Tests of equality between sets of coefficients in
&
two linear regressions. Econometrica, 28(3):591–605.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral
Le
ón
Sciences. Lawrence Erlbaum Associates, 2 edition.
de la Fuente, A. (2000). Mathematical Methods and Models for
Economists. Cambridge University Press.
Douglas Staiger, J. H. S. (1997). Instrumental variables regression
with weak instruments. Econometrica, 65(3):557–586.
Bibliografı́a
313
Durbin, J. and Watson, G. (1950). Testing for serial correlation in
least squares regression: I. Biometrika, 37(3):409–428.
Folland, G. (1984). Real Analysis: Modern Techniques and Their
Applications. Wiley, 1 edition.
Frankel, J. A. and Romer, D. (1999). Does trade cause growth?
American Economic Review, 89(3):379–399.
Processes. Springer Verlag, 1 edition.
do
Gall, J.-F. L. (2022). Measure Theory, Probability, and Stochastic
Geary, R. (1950). A note on a constant-utility index of the cost of
Ga
ll
ar
living. The Review of Economic Studies, 18(1):65–66.
Girfone, J. (2018). Algebre Linéaire. Cepadues, 6 edition.
Godfrey, L. (1978).
Testing against general autoregressive and
moving average error models when the regressors include lagged
dependent variables. Econometrica, 46(6):1293–1301.
Greene, W. (2015). Econometric Analysis. Prentice Hall, 5 edition.
edition.
&
Gujarati, D. and Porter, D. (2010). Econometrı́a. McGraw Hill, 5
Large sample properties of generalized
Le
ón
Hansen, L. P. (1982).
method of moments estimators. Econometrica, 50(4):1029–1054.
Hausman, J. A. (1978).
Specification tests in econometrics.
Econometrica, 46(6):1251–1271.
Bibliografı́a
314
John Bound, David A. Jaeger, R. M. B. (1995). Problems with
instrumental variables estimation when the correlation between
the instruments and the endogenous explanatory variable is weak.
Journal of the American Statistical Association, 90(430):443–450.
John Chao, N. S. (2005). Consistent estimation with a large number
of weak instruments. Econometrica, 73(5):1673–1692.
John G. Cragg, S. G. D. (1993).
Testing identifiability and
Econometric
do
specification in instrumental variable models.
Theory, 9(2):222–240.
Ga
ll
ar
Kalai, A., Kanade, V., and Mansour, Y. (2023). Approximation in
learning, games, and auctions. arXiv preprint arXiv:2307.07970.
Laub, A. J. (2005). Matrix Analysis for Scientists and Engineers.
SIAM.
Lenberger, D. and Ye, Y. (2021). Linear and Nonlinear Programming. Springer Verlag, 5 edition.
Ljung, G. and Box, G. P. (1978). On a measure of lack of fit in
Manski, C. (1988).
&
time series models. Biometrika, 65(2):297–303.
Analog Estimation Methods in Economics.
Le
ón
Chapman and Hall, 1 edition.
Mas-Colell, A., Whinston, M., and Green, J. (1995). Microeconomic
Theory. Oxford University Press, 1 edition.
Polachek, S. (2007). Earning over the lifecycle the mincer earning
function and its applications. IZA, (3181).
Bibliografı́a
315
Quarteroni, A., Sacco, R., and Saleri, F. (2000).
Numerical
Mathematics. Springer, Berlin.
Rau, T. (2016). Teorı́a Econométrica I. Notas de clase, 1 edition.
Roman, S. (2008). Advanced Linear Algebra. Springer Verlag.
Rothenberg, T. J. (1984).
Approximating the distributions
of econometric estimators and test statistics.
Handbook of
do
Econometrics, 2:881–935.
Sargan, J. D. (1958). The estimation of economic relationships
Ga
ll
ar
using instrumental variables. Econometrica, 26(3):393–415.
Self, S. and Liang, K.-Y. (1987).
Asymptotic properties of
maximum likelihood estimators and likelihood ratio tests under
nonstandard conditions.
Association, 82(398).
Journal of the American Statistical
Simon, C. and Blume, L. (1994). Mathematics for Economists.
W.W Norton and Company, 1 edition.
&
Stock, J. H. and Yogo, M. (2005). Testing for weak instruments in
linear iv regression. Cambridge University Press.
Le
ón
Stone, R. (1954). Linear expenditure systems and demand analysis
an application to the pattern of british demand. The Economic
Journal,, 64(255):511–527.
Suli, E. and Mayers, D. F. (2003). An Introduction to Numerical
Analysis. Cambridge University Press, Cambridge.
Bibliografı́a
316
Sundaram, R. (1996). A First Course in Optimization Theory.
Camrbdige University Press, 1 edition.
Tao, T. (2016). Analysis 2. Springer, 3 edition.
Valdivieso, L. (2020).
Notas de Técnicas de Muestreo.
Fondo
Editorial PUCP, 1 edition.
Weiss, L. (1971). Asymptotic properties of maximum likelihood
Statistical Association, 66(334):345–350.
do
estimators in some nonstandard cases. Journal of the American
White, H. (1980). A heteroskedasticity-consistent covariance matrix
Ga
ll
ar
estimator and a direct test for heteroskedasticity. Econometrica,
48.
Wooldridge, J. (2001). Econometric Analysis of Cross Section and
Le
ón
&
Panel Data. MIT University Press, 1 edition.
0
You can add this document to your study collection(s)
Sign in Available only to authorized usersYou can add this document to your saved list
Sign in Available only to authorized users(For complaints, use another form )