\\
Algebra lineal aplicada
Tercera Edición
BENh B L y
Universlty o Wisconsin
JAMES W. DANIEL
University of Texas at Austin
Traducción:
Virgilio González Pozo
Ingeniero Químico-Consultor
Revisión Técnica:
Mary Glazman Nowolski
Maestra en Ciencias
Universidad Nacional Autónoma de México
PRENTICE-HALL HISPANOAMERICANA, S. A.
México, Englewood Cliffs, Nueva Delhi, Londres,
Río de Janeiro, Sidney, Singapur, Tokio, Toronto
4.'
"
EDICION EN ESPAÑOL
Hugo
EDITOR:
SUPERVISOR DE
TRADUCCION Y CORRECCION
F.Sánchez
Antonio
ESTILO:
DE
SUPERVISOR
DE
PRODUCCION:
Juan
Carlos
Hernández
Garcia
uzado Raymundo
DIRECTOR:
EDICION EN INGLES
Gondlez
hi' & $7 _';
P '
Editoriallproduction:
Nicholas
C. Romanelli
Manufacturing buyer: Harry Baisley
y Herrera
*: .;
L ,
ALGEBRA LINEAL APLICADA
Traducido de la tercera edición en inglés de:
APPLIED LINEAR ALGEBRA
Prohibida la reproducción total o parcial de estaobra,
por cualquier medio o método sin autorización escrita del editor
DERECHOS RESERVADOS O 1989 respecto a la primera edición en español por
PRENTICE-HALL HISPANOAMERICANA, S.A.
Enrique Jacob No. 20
53500 Naucalpan de JuArez, Edo. de Mexico
Miembro de la Cámara Nacional de la Industria Editorial, Reg. Núm. 1524
ISBN 968-880-173-9
Original
English
language
edition
published
by
Copyright 0MCMLXXXVIII by Prentice-Hall, Inc.
All Rights Reserved
ISBN 0-13-041260-0
O
yu(
PROGRAMAS EWCATIVOG
W.
CIUBACWO No.65 L O C U A
COL. ASTURW. DELEG. CUAUHTEMOC.D.F.
C.P.06850
rmo
IMPRESO EN MEXICO/PRINTED IN MEXICO
U
m
O
A Denise, Anna y John Ben
A Adam y Joshua, y Ann y Susan
Contenido
PREFACIO
xi
SOBREEL USO DE LAS COMPUTADORAS
Capítulo 1: ALGEBRA
MATRlClAL
xv
7
-~
l . 1~
Introducción
'
1.2
- -'1.3
1.4
! 1.5
1.6
i
1
Igualdad, suma y multiplicación por un escalar
Multiplicación de matrices 9
Inversade una matriz 23
Matrices
separadas
36
Prob1emas"varios 44
3
Capitulo 2: ALGUNAS APLICACIONES SIMPLES
Y PREGUNTAS 46
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
Introducción 46
Competencia entre negocios: cadenas de Markov 47
Crecimiento de la población: potencias de una matriz 55
Equilibrio enredes:ecuaciones lineales 60
Sistemasoscilatorios:eigenvalores
66
Modelos generales: mínimos cuadrados 73
Planeación de producción: programas lineales 81
Problemas varios 87
Capítulo 3: SOLUCION DE ECUACIONES Y CALCULO
DE INVERSAS:METODOS
90
"-
3.1 Introducción
90
' 3.2 Solución deecuacionesmediantela eliminación deGauss
91
vi¡¡
Contenido
3.3 Existencia de soluciones a sistemas de ecuaciones:
algunos ejemplos y procedimientos 104
3.4 Cómo encontrar una inversa mediante la eliminación de Gauss 109
3.5 Operacionesde renglón y matriceselementales
112
3.6 Selección de pivotes y eliminación de Gauss en la práctica 117
3.7 La
descomposic;h-LU
127
3.8 Medidas de trabajo y solución de sistemas ligeramente
modificados 138
3.9 Programas computacionalesparala eliminación deGauss
147
3.10 Problemas varios 150
CapítUlO 4: SOLUCION DE ECUACIONES Y CALCULO
DEINVERSAS:TEORIA
153
4.1 Introducción 153
4.2 FormareducidadeGauss y rango 154
4.3 Posibilidad de solución y conjuntos de soluciones
parasistemasdeecuaciones
162
4.4Inversas
y rango 171
4.5 Determinantes y sus propiedades 174
4.6 Representación de inversas y soluciones mediante
el uso dedeterminantes
185
4.7 Problemas varios 190
Capítulo 5 : VECTORES Y ESPACIOSVECTORIALES
194
5.1Introducción;vectoresgeométricos
194
5.2Concepto general deespaciosvectoriales
201
5.3 Dependencia lineal eindependencia lineal 208
5.4 Base, dimensión y coordenadas 216
5.5 Bases y matrices 230
5.6 Longitud y distanciaenespaciosvectoriales: normas
5.7Angulo enlosespaciosvectoriales:productosinteriores
5.8 Proyecciones ortogonales y bases: espacios generales
y Gram-Schmidt 252
5.9 Proyecciones ortogonales y bases: Rp, Cp, Q R
y mínimos cuadrados 261
5.10 Problemas varios 274
Capítulo 6: TRANSFORMACIONESLINEALES Y MATRICES
240
245
277
6.1 Introducción;transformacioneslineales
277
6 . 2 Representacionesmatriciales de transformaciones lineales
286
Contenido
6.3Normasdetransformaciones
lineales y matrices 292
6.4 Inversas de matrices perturbadas: condición de ecuaciones lineales
6.5 Problemas varios 308
ix
299
Capítulo 7: EIGENVALORES Y EIGENVECTORES:UNAPANORAMICA310
7.1 Introducción 310
7.2 Definiciones y propiedades básicas 316
7.3 Eigensistemas,factorizaciones y representaciones
de transformaciones 326
7.4 Transformaciones de semejanza; forma de Jordan 332
7.5 Matrices unitarias y semejanza unitaria; formas de Schur y diagonal
7.6 Programas decomputadoraparaencontrar eigensistemas 351
7.7Condicióndel
problema de los eigensistemas 353
7.8 Problemas varios 358
338
Capítulo 8: EIGENSISTEMAS DE MATRICES SIMETRICAS, HERMITIANAS
Y NORMALES,CONAPLICACIONES
361
8.1 Introducción 361
8.2Forma y descomposición deSchur; matrices normales 362
8.3 Eigensistemas de matrices normales 368
8.4 Aplicación: descomposición en valores singulares 375
8.5 Aplicación:mínimos cuadrados y pseudoinversa 385
8.6 Problemas varios 392
Capítulo 9: EIGENSISTEMAS DE MATRICES ARBITRARIAS GENERALES,
CON
APLICACIONES
394
9.1 Introducción 394
9.2FormadeJordan
396
9.3 Eigensistemas para matrices arbitrariasgenerales
404
9.4 Aplicación: evolución de sistemas discretos y potencias de matrices
9.5 Aplicación: evolución de sistemas continuos y exponenciales
de matrices 419
9.6 Aplicación: solución iterativa de ecuaciones lineales 430
9.7 Problemas varios 437
Capítulo lo! FORMAS CUADRATICAS Y CARACTERIZACIONES VARIACIONALE:
DE EIGENVALORES
440
10.1 Introducción 440
10.2 Formascuadráticas en Rz 443
10.3 Formascuadráticas en Rp y en @ p
450
409
x
Contenido
10.4 Valores extremos de formas cuad&icas: el principio de Rayleigh 459
10.5 Valores extremos de formas cuadráticas: el principio de minimax 468
10.6 Problemas
varios
474
Capítulo I I: PROGRAMACIONLINEAL479
11.1
Análisis de un ejemplosencillo
479
11.2 Un programa linealgeneral
495
11.3 Resolución de un programa linealgeneral
11.4 Dualidad 514
11.5 Problemas
varios
501
524
Apéndice I: RESPUESTAS A PROBLEMAS SELECCIONADOS 529
Apéndice 2: BlBLlOGRAFlA553
INDICE DE SlMBOLOS556
INDICE
ANALlTlCO
559
Prefacio
Plan general
El álgebra lineal es parte esencial de la herramienta matemática que se
requiere en la actualidad para el estudio de muchas áreas de las ciencias del
comportamiento, naturales, fisicas y sociales, de la ingeniería, los negocios, la
computación, y, por supuesto, de las matemáticas puras y aplicadas. Nuestro
objetivo en este libro es el de desarrollarlos conceptosfundamentales del álgebra
lineal, haciendo hincapié en los que tienen mayor importancia práctica e ilustrando su aplicabilidad mediante numerosos ejemplos y ejercicios. Sin embargo,
aunque seexpongan aplicaciones con propósitos ilustrativosy a fin de despertar
el interésdel lector, nuestra meta
principal es presentar matemáticas que puedan
aplicarse.
Hemos tenido gran cuidado en presentar la teoría del álgebra lineal de un
modo más bien general, aunque desde el punto de vista más concreto posible.
Por consiguiente, comenzamos con el manejo concreto del álgebra lineal y
vectorial (capítulo 1) y con la eliminación de Gauss (capítulo 3) antes de la teoria
de las ecuacioneslineales (capítulo4) o de las nociones abstractas delos espacios
vectoriales (capítulo5) y de las transformaciones lineales (capítulo6). De manera
similar, los eigensistemas y varias descomposiciones y formas canónicas relacionadas se presentan (capítulo7 y, con más detalle, en los capítulos 8 y 9) como
herramientas para facilitar el estudio de las transformaciones
lineales que modelan el comportamiento de sistemascomplicados.
Además de presentar brevemente cierto número de
aplicaciones en todo el
libro, hemos reunido en el capítulo 2 un conjunto especial de aplicaciones para
motivar el estudio del material posterior; suponiendo una familiaridad dellector
con el álgebra matricial básica del capítulo uno. Por otra parte, no sólo mostramos cómo surgen las matrices en la práctica sino que también formulamos
preguntas acerca delas matrices y de sus propiedades que despiertan interésen
ideas ulteriores. Los capítulos posteriores hacen referencia a estos ejemplos a
manera de estímulo; y para quienes prefieran omitirlo, el capítulo dos es de
hecho independiente del resto del libro.
Todo el texto se desarrolla a partir
de la nociónde las operaciones &mentales de renglón y de la eliminación de Gauss. El contenido del capítulo 3 es
xi
xi1
Prefacio
fundamental para casi todos los temas teóricos como aplicados. Es
tamente esencial que el estudiante aprenda estas técnicas.
absolu-
Novedades en la tercera edición
Creamos estanueva edición con el objetivo principal de facilitar el proceso
de enseñanzay aprendizaje con el libro. A excepción de algunos agregados, el
contenido es prácticamenteel mismoque elde la segundaedición; sin embargo,
se ha rediseñado la presentación para lograr mejor estilo y más acercamiento.
Las formastriangulares producidas por la eliminación de Gausscon frecuencia
ls de renglón reducido que se destacan en el trabajo teóricode las
reemplazan aa
ediciones anteriores.
Se han aumentado los conjuntos de problemas, pues estaedición (terceradel
inglés, primera en español) contienemás de 1100 problemas, a diferencia de los
pocos más de 600 de la segunda edición del inglés. AI final de cada sección,
aparece un conjunto deproblemas en lugar de estar esparcidos a través del texto
como ejercicios (mezcla de ejemplos y problemas). El primer apéndice contiene
respuestas o sugerencias paramás de un tercio delos problemas (indicados con
el símbolo D que precede al número del problema).
Enumeramos el material expuesto de manera consecutiva para que, por
(4.15) se encuentre entre ejemplo
el
4.14 y el teorema clave
ejemplo, el enunciado
4.16. En las secciones más largas aparecen lineamientos que indican cuáles
problemas pueden resolverseutilizando el material presentado hasta
ese punto.
AI inicio del capítulo 1 aparece también un breve repaso sobre los números
complejos ; los resultados se indican por separado para los casos complejos y
reales para quienes deseen concentrarse en uno u otro.
En esta edición aparecen muchos temas en el texto principal en vez de
aparecer únicamente en la sección deproblemas. Se le hadado, por tanto, mayor
importancia al teorema deCayley-Hamilton, el teorema de Perron-Frobenius,
la
y proyecciónmatricial,
descomposición-LU,lasproyeccionesortogonales
mejor aproximación, frecuencias fundamentales de sistemas oscilatorios, y así
sucesivamente. Asimismo se ha incluido material nuevo, con temas tales como
transformaciones adjuntas, métodos similares al de Karmarkar parala programación lined, teoría de las desigualdades lineales, convergenciade sucesiones
de vectores y matrices e isomorfismos.
Se han añadido ejemplos y algunos problemas (alrededor del 6 %I) que hacen
uso explícito de la programación por computadora para cálculos matriciales.
Aunque el libro aun pueda utilizarse completamente independiente de las computadoras, quienes deseen aprovechar
la programación por microcomputadoray
su procesador central encontrarán que
es fácil hacerlo. Para mayorinformación
al respecto, véase el material que sigue a este prefacio.
Nos damos cuenta de que este libro se ha utilizado en sus dos ediciones
previas para varios cursos. La nueva
edición se ha diseñado para continuar con
esta opción, quepor supuesto delega especial responsabilidad al instructor para
seleccionar el material apropiado. Se dan en seguida algunas indicaciones al
Prefacio
xill
respecto. Aquellos interesados en el uso
de las computadoras para apoyo de este
texto, también deberán examinar la sección antes mencionada.
Uso para los cursos elementales de álgebra lineal teórica
Quienes deseen hacer énfasis en las comprobaciones, según el enfoque
clásico del tipo teorema-demostración,
pueden hacerlo fácilmente. La teoría es
fundamental para el álgebra lineal aplicada y por tanto se presenta con gran
cuidado (y afecto). El curso estándar de segundo año, con duración de un
semestre, cubriría el capítulo 1 sobre álgebra matricial, secciones 1 a 5 del capítulo 3 sobre las técnicas para las ecuaciones e inversas, la mayor parte del
capítulo 4 sobre la teoría para las ecuaciones e inversas
(incluyendo determinantes); las secciones 1, 5, 7 y 8 del capítulo 5 sobre espacios vectoriales; las
primeras dos secciones sobre transformaciones
lineales en el capítulo 6, y
posiblemente las primeras tres secciones sobre eigensistemas en el capítulo 7 .
Esperamos que tales cursos
también incluyan algún material orientado hacia la
aplicación: la sección del capítulo 2 que ilustra una aplicación, ladescomposición-LU de lasección 3.7, y las normasy mínimos cuadrados de las
secciones 5.6
y 5.9 son buenas posibilidades.
Uso para los cursos elementales de álgebra lineal aplicada
Junto con las versiones intermedia/avanzada, los cursos introductorios de
álgebra lineal han sido el contextoprincipal en los cuales sehan utilizado las dos
ediciones previas de este libro durante cerca de
veinte años. Hay muchas
variaciones posibles en estos cursos, dependiendo las
de áreas deaplicación que
se desean enfatizar(¿ingeniería? ¿ciencias sociales? etcétera) y cuántas demostraciones se deberán llevar a cabo (¿ninguna? ¿teoremas clave seleccionados?
etcétera). A continuación bosquejamos un procedimiento básico que ofreceuna
buena selección.
El capítulo 1 sobre álgebra matricial deberá cubrirse cuidadosamente, seguido por dos aplicaciones del capítulo 2 (seleccionamos los que se relacionan
con los temas que más adelante se enfatizan). Procederíamos después con el
capítulo 3 sobre los métodos para ecuaciones e inversas,seguido por un ligero
tratamiento dela teoría en el capítulo 4 (especialmente en lo referente adeterminantes); la mayor parte del tiempo se usaría para explicar la teoría, con una
demostración instructiva ocasional presentada con detalles.
Haciendo hincapié en los hechos, más que en las demostraciones, se cubrirían espacios vectoriales y transformaciones lineales en los capítulos 5 y 6 (la
mayoría de las secciones); dándole bastantetiempo a los estudiantes para que
retengan los conceptos de dependencia eindependencia lineal.
Ya que el capítulo 7 presenta un amplio repaso de la teoría y uso de los
eigensistemas, por lo general lo cubriríamos en lugar de los capítulos 8 y 9, que
son más detallados y especializados, aunque estos capítulos sean una buena
alternativa paraquienes deseen ejercitarseen tipos particulares deaplicaciones.
xiv
Prefaclo
Dependiendo de la disponibilidad de tiempo, podríamos introducir algunos
temas de capítulos posteriores: mínimos cuadrados (sección 8.5), ecuaciones
diferenciales (sección 9 . 9 , formas cuadráticas (sección10.3) o programas lineales (sección l l . l).
Esto cubre una considerable cantidad de material y la clave para hacerlo
radica en darle importancia plena a los conceptos y técnicas; con este métodoel
material podrá cubrirse de manera considerablemente rápida.
Uso para cursos subsecuentes de álgebra lineal aplicada
En muchos cursos ha
se utilizado nuestro libro por estudiantes que ya tienen
alguna introducción al álgebra lineal -frecuentemente en un curso. En tales
cursos pueden usarse doso tres temas del capítulo 2 como primera motivación,
seguidos por un rápido repaso de los capítulos 1, 3 y 4 (depende de lo que el
profesor creaque el estudiante recuerda);
las secciones posterioresdel capítulo 3
sobre aspectos prácticosde la solución de ecuaciones-en particular la descomposición-LU-rara vez son delconocimiento del estudiante y deberán estudiarse a
conciencia.Después de repasarbrevemente la informaciónbásicasobre
espacios vectorialbs en la primera mitad del capítulo 5 , nos concentraríamos en
el material referente a normas, productos interiores, proyecciones y mínimos
cuadrados. De manera análoga en el caso del capítulo 6 que presenta material
sobre normas y matrices cambiadas y que muy probablemente resulte nuevo.
La base de tal curso deberá fundamentarse del capítulo 7 al 1 1 . De ello
depende igualmente el interés de los estudiantes y si aprendieron eigensistemas
en sus cursos previos de álgebra lineal.
Ben Noble y James W. Daniel
Sobre el uso de las computadoras
No partimosdel supuestodeque
los estudiantes o instructoresusarán
computadoras para apoyar
su aprendizaje o enseñanza del álgebra lineal. Como
siempre ha sido cierto, con las ediciones anteriores, este libro puede utilizarse
independientemente del aspecto computacional, independientemente
e
del inter& del estudiante por lacomputación. Sin embargo, observamos que cada
año es
mayor el número de estudiantes
en nuestras clasesque tienen conocimientos de
computación y están acostumbrados a utilizar computadoras -procesadores
centrales o microcomputadoras- para ayudarse ensus trabajos devarias maneras, incluyendo procesamiento de palabras, cálculo,
análisis de datos,y así por el
estilo.
seha escritoparafacilitar, a
Esta edición de Algebralinealaplicada
quienes lo deseen, el aprendizaje y enseñanza interactivoscon la computadora.
Ejemplos y problemas
Para reflejar el hecho de que actualmente se
realizan cálculos científicos en
computadoras, muchos de nuestros ejemplos numerados se basan en su uso.
Dicho material es independiente: suponemos que
no existe un conocimiento
computacionalporparte del estudianteo del instructor. El hecho de que utilicemos computadoras simplemente nos permite considerar y presentar ejemplos
mucho más reales e interesantes,que si tuviéramos que restringimos a ejemplos
arbitrarios que pueden ser resueltos enteramente a mano. Tales ejemplo$ se
indican en el margen por el símbolo tm.
De los más de 1100 problemas que presentamos,aproximadamente el 6% se
señala con el símboloR. La solución de estosproblemas requiere teneracceso a
material de computación,en particular aprogramas diseñados parafacilitar los
cálculos matriciales. Los estudiantes e instructores no deberán de escribir sus
propios programas parala soluciónde problemas de álgebra
lineal -los problemas involucran aspectos sutiles queno son obvios al inexperto. Se disponen de
programas magníficos esencialmente donde sepide: véanse secciones 3.9 y 7.6
sobre cómo obtener
programas de altacalidad para los cómputos matriciales. Ya
que en varias instituciones educativasse provee de centros de
microcomputadoxv
xvl
Sobre el uso de las cornputadoras
ras para el uso del estudiante, tratamos con un poco más de detalles algunos
programas excelentes que están disponibles para usarse en este medio.
MATLAB
Nuestro símbolo R proviene de la letrainicial en MATLAB, que significa
laboratorio matricial.A lo largo de algunos años, MATLAB fue desarrollado por
lineal y análisis
Cleve Moler; al principio para la enseñanza en cursos de álgebra
numérico, utilizando programas basados en aquéllos de los proyectos LINPACK y EISPACK (por sus siglas en inglés), descritos
en las seccionesdel texto
ya mencionadas. MATLAB salió al mercado, y fue ampliamente distribuido en
versión FORTRAN para computadorasde marco principal.Varias organizaciones comerciales desarrollaron versiones mejoradas para
aplicaciones especiales
tales como la teoría de control.
El siguiente paso evolutivo fueel PC-MATLAB -una versión de la segunda
generación; altamente optimizada del MATLAB, desarrollada especialmente
para el uso en la microcomputadoraIBM PC. A éste, asu vez, le han seguido
otras versiones para microcomputadora para usarse
con otros sistemas operativos y otras máquinas. Para simplificar, nos referimos a todo el aspecto de la
programación -desde marcos principales hasta lasúltimas versiones de microcomputadoras- por el término genérico “MATLAB”.
Personalmente hemos encontrado el MATLAB fácil de aprender (especialmente paraquien se intereselosensistemas de computación),
fácil de usar y muy
completo. Aún más, el MATLAB puede encontrarse en versiones especialesa
costos bastante rebajados para
su uso en la instruccion:[contacte can The
Math
Works,Inc.,Suite250,20NorthMainSt.,Sherborn,MA01770,(617)653-1415].
Uno no necesita aprender a programar con este sistema altamente
interactivo. Las matrices se insertan fácilmente; tecleando
flexible e
A=[123;456;789]
se crea precisamente la matriz de 3 x 3 que se espera. Tecleando
inv(A)
produce su inversa,
su valor característico,
su descomposición-LU, y así sucesivamente.Es por lo tanto tan fácil de usarque
es excelente para la asociación aun para
un curso primario de álgebralineal. Por
Sobre el uso de las computadoras
xvii
otra parte, e s una herramienta importante para cualquiera cuyotrabajo requiere
de cálculos matriciales, ya sea que involucren ecuaciones, sistemas
característicos, mínimos cuadrados, análisis de datos, procesamiento de señales o lo que sea.
Nos gusta elMATLAB. Se lo recomendamos. Y no tenemosningún interés
de tipo financiero en su éxito.
1
Algebra matricial
Este primer capitulo es fundamental: su meta es la de dar a conocer las
matrices y aquellas manipulaciones algebraicas basicas que el estudiante
completamente antes de seguir adelante.
Es importante
debe de entender
practicar la adicidny multiplicacidn de matriceshasta que estas operaciones se vuelvan automaticas. El teorema 1.44 es un teorema Clave, que
proporciona labase para m&odoscomputacionales posteriores;la demostracidn del teorema 1.35 es una demostracih clave porque ilustra un
argumento general útil.
I. I
INTRODUCCION
Las matrices representan herramientas convenientes para
la sistematización de
cálculos laboriosos, ya que proveen una notación compacta para almacenar
información y describir relaciones complicadas.
( l . 1)
Definicidn. Una matriz p X q (léase “ p por q ” ) es un arreglo rectangularA
de p q números (o símbolos que representan números) encerradosen corchetes cuadrados; los números en el arreglo sellaman elementos y están
colocados en p renglones horizontales y q columnas verticales. El elemento (i, j ) se denota como (A),I y es lo que se encuentra en el cruce del
i-ésimo renglón con la j-ésima columna, enumerando las
columnas de
izquierda a derechay los renglones de arriba abajo; si A es dep x 1 (una
matriz columna)o de 1 X 4 (unamatriz rengldn), entonces se utiliza(A)¡en
vez de (A)il 0 (A)li.
Las matrices se denotan con letras negritas
A, x, y así sucesivamente.
Mediante el último dispositivo nemónico de describirlos elementos ( i , j )de una
matriz utilizando subindices con letrasminúsculas de la letra negrita mayúscula
que denota a la matriz, escribimos la matriz generalp x q como
1
2
1
/ Algebra
matricial
Los elementos de las matrices pueden ser números reales o complejos;
aquellos lectoresqueestén inseguros sobrelas propiedades básicasde los
números complejos, pueden consultar el breve repaso del final de estapágina.
Debido a que frecuentemente
surgen matrices convarias estructuras especiales,
introducimos alguna terminología para describirlas.
(1.3)
Definicidn.
a) Unamatriz cuadradaA esp X q conp = q ;los elementos (i, i) para 1 5 i
5 p forman la diagonal principal de la matriz A.
b) Una matriz diagonal es una matriz cuadrada cuyos elementos queno
están en la diagonal principal son igualesa cero. Por diag(d,, . . . , d,) se
entiende quela matriz diagonalp x p cuyos elementos( i , i )equivalen a di
para 1 Ii S p .
c) Una matriz triangular inferior L de p x q satisface (L)ij= O si i <j , para
1 5 i 5 p y l 5 j 5 q .
d) Una matriz triangularsuperiorU depx q satisface(U)ij= O si i > j , para
l i i 5 p y l s j s q .
e ) Una matriz triangular inferior T o superior- unidad T es una matriz
triangular inferior (o superior) que satisface (T)ii= 1 para 1 5 i 5 min
( P , 4).
El uso de la notación matricial nos permite considerar un arreglo de muchos
números como un solo objeto, designado por un solo símbolo. Se pueden
númeexpresar así de manera concisa
relaciones entre los grandes conjuntos de
ros que surgen con frecuencia en las aplicaciones. Entre más complicado es el
más importante el heproblema, más útiles resultan las matrices. Quizá sea aún
cho de que las matrices proporcionan conocimientos queno podrían obtenerse
fácilmente -si es que se pudiera- mediante otros medios.
Un breve repaso sobre los números complejos. Recuerde que un número
complejo tiene la forma a + bi, donde ay b son números reales e i denota
Por lo tanto, 3 + 2 i , - 6 + 4.7i, y e - ni son números complejos.
También lo son todos los números reales r -ya que son iguales a r + 0i-y
todos los números imaginariospuros tipara t real -ya que son iguales a O +
t i . Los números complejos se suman y multiplican de manera muy parecida alos números reales,pero se debe teneren cuenta quei. i = - l. Así
m.
(3 - 2 i ) ( - 5
+ 7;) = -15 + 2 1 i + 10; - 1 4 i i = - 1 5 + 31; - 14(-1)
= - 1 + 31;.
I
1.2
Igualdad, suma y multiplicaci6n por un escalar
3
El conjugado Tde un número complejo z = a + bi es el número complejo
Z = a - bi. La magnitud IzI de un número complejo z = a + bi se define
como
IZI = Jzz=
&TP.
Por lo tanto para z = 3 - 2 i tenemos
T=3+2i
y
PROBLEMAS
IzI=J13.
1.1
D 1. Sea z1 = 2 - 34 z2 = -1 + 5;,
z, = 2;, y z, = -7. Evalúe lo siguiente,
escribiendo cada respuesta en la forma estándar a + b;, con a y b reales.
2. Demuestre que para todos los números complejos z y w ,ZW = m .
3. a) ¿Cuántos elementos hay en una matriz de p x q?
b) ¿Cuántos en su primer renglón?
c) ¿Cuántos en su últinla columna?
D 4. Sean
Dé cada uno de los siguientes:
b) el elemento(2, 2) de B 5
a) El elemento(1,2)de A
c) El elemento(2, 2) de A .L
d) (A)2l - -.
e) (B)23 -f) (A)32 ;7
5. Escriba la matriz general A de 3 x 2 con elementos ai, en la forma (1.2).
Escriba la matriz general B de 2 x 3 con elementos bi, en la forma (1.2).
6. Escriba la matriz general de 3 X 3 de cada tipo que se menciona en la
definición 1.3.
'i
-r
1.2
IGUALDAD, SUMA Y MULTIPLICACION POR UN ESCALAR
En la mayoría de las aplicaciones, las matrices deben combinarse de
varias
formas, de manera similar a como se combinan los números en aritmética. De
4
1
/
Algebra
matricial
hecho, senecesita de conceptos que correspondana las operaciones aritméticas
básicas de los números. En estasección se define la suma, la resta, la negación,
una forma de multiplicación, y -la clave para todos ellos- la igualdad.
(1.4)
Definición. Dos matrices A y B son iguales si y sólo si:
a) A y B tienen el mismo número de renglones y el mismo número de
columnas.
b) Todos los elementos correspondientes son iguales: (A),, = (B)ij para
toda i y j .
Esta definición utiliza lafrase “si y sólo si”, que se verá a lo largodel libro.
Recuerde que si P representa algún enunciado o condición y Q representa otro,
entonces “P si y sólo si Q” significa: ya sea queP o Q sea verdadero, también el
otro lo será; si cualquiera de los dos es falso, el otro también lo es. Como gemelos
siameses, P y Q siempre aparecen juntos.
Ahora podemos definir la suma matricial.
(1.5)
Definición. Dos matrices A y B se pueden sumar si y sólo si tienen el mismo
número p de renglones y el mismo número q de columnas. La suma A + B
de dos matrices p X q es la matriz p X q que se obtiene sumando los
elementos de A y B correspondientes. En símbolos,
(A
(1.6)
+ B)ij = (A)ij + (B)ij
para 1 I
i I
p
y
1 5 . j I q.
Ejemplo. Suponga que las matrices de 2 x 2 A, B y C son
Entonces,
A+B=B+A=
[’;“
A+C=C+A=A.
Propiedades de la suma de matrices
Para las dos matrices A y B anteriores, se vioque A + B = B + A . Ya que la suma
de matricesse realiza sumando sus elementos correspondientes (que sonnúmeros) y ya quea + b = b + a vale paralos números ay b puede esperarse queA + B
sea igual a B + A en el caso de las matrices. Una demostración rigurosa de este
hecho debe serun argumento que sea válido para todas las matrices A y B, para
todo entero positivop,para todo entero positivo q , para todas las matrices A de p
x q , y para todas las matrices B de p x q . El ejemplo 1.6 no es una demostración
general; sólo es válido cuandop = 2 y q = 2 , y aquellas matrices específicas A y B
dados en él.
1.2
/
Igualdad, suma y rnultiplicaci6n por un escalar
5
El argumento
[u
u]
+ [x
y] = [u
+ x u + y] = [x + u Y + u1 = [x Y1 + [u u1
tampoco es una demostración general; sólo prueba el resultado para matrices
arbitrarias de 1 x 2 (“arbitrarias” yaque u , u, x,y, pueden tomar cualquier valor
posible). Más adelante seda una demostración general. Aunque sean esenciales
algunos ejemplos específicos para nuestra comprensión, de las matemáticas,
debemos tener en mente la diferencia entre una demostración general y un
ejemplo específico.
Generalmente omitimos enunciar los
números de renglones y de columnas en los teoremas de las matrices,
suponiendo que son tales, que todas las operaciones indicadastienen
sentido.
Notación convencional importante.
(1.7)
Teorema (leyes de la adición). La suma de matrices es tanto conmutativa
como asociativa. Esto es:
a)A+B=B+A
b)A+(B+C)=(A+B)+C
(ley conmutativa)
(ley asociativa)
DEMOSTRACION
a) Laclave consiste en demostrar que( A + B), = (B + A), para toda i y j .
Para demostrar esto se utiliza la definición de la suma de matrices y la
conmutatividad de la suma de los números:
(A + B)ij = (A)ij + (B),
= (¿por qué?) (B)ij
+ (A)ij = (B + A)ij
para todai y j ; hemos demostrado que la adición de matrices es conmutativa.
b) Problema 5.
Ahora podrá resolver los problemas del 1 al 6 .
El cero y negación para las matrices
Hay másque aprender del ejemplo 1.6. Nótese quela matrizC, cuyos elementos
son iguales a O , se comporta de manera muy parecida a como lo hace el número
cero con respecto a la suma: A + C = A para todaslas matrices A, 2 x 2, al igual
que a + O = a. De manera más general, si A es una matriz arbitraria, p x q y O es la
matriz cero ( o nulo) p x q , cada uno de cuyos elementos es O , entonces
(1.8)
A+O=O+A=A.
6
1
I Algebra rnatricial
En el problema 8 se pide que demuestre la ecuación (1.8), y el problema 9
muestra otra manera en la que O se comporta como el número O .
Una vez que se conoce el cero, se puede visualizar la negación -a de un
número a como aquel número para el cual a + (-a) = O . De manera similar, para
una matriz A queremos que-A indique una matriz parala cual A + (-A) = O ; las
y de lamatriz cero muestran entonces que
-A
definiciones de la suma de matrices
debe ser la matriz cuyos elementos sean sólo las negociaciones de los de A:
( -A)ij = -(A)u. Y a partir de la negación,podemos definir la sustracciónpor
medio de A - B = A + (-B).
(1.9)
Definición.
a) La matriz p x q ceru (o nula), O, es aquella matriz p x q con
(O),,=O
para 1 s i ~p
1s j ~ q .
y
b) La negacidn -A de una matriz A es aquella matriz p x q con
(-A)ij=
-(A)ij
para 1 l i s p
y
1 Ijsq.
c) Se definela diferencia A - B de dos matrices
A y B si y sólo si ambos, A y
B son p x q , y entonces A - B es aquellamatrizp x q con A - B = A +
(-B) Y
(A - B)ij = (A)ij - ( B ) i j para 1 I i 5 p
y
1 I j I q.
Ahora podrá resolver los problemas del 1 al 12.
Múltiplos escalares de matrices
Parece natural escribirA + A como 2A, el producto delnlimero 2 y lamatriz A.
Por supuesto,
(A
+ A)ij = (A)ij + (A)ij = 2(A)ij,
así que también parece natural definir el producto 2A mediante ( M ) , = 2(A)u,
esto origina la definición general del productorA de un número r-ya sea real o
complejo- y una matriz A.
(1.10)
Definición. Sea A una matriz dep X q y r un número real o complejo
(frecuentemente llamado escalar). Entoncesel múltipfo escalar rA de Y y A
es la matriz p x q con
(1.1 1)
Igualdad, suma y multiplicacibn por
un
/
1.2
Ejemplo. Sean E y F 1 S matric5s de 2 x 3
’=[
-?
%
L i\I
-2
x
4
6
3 +21,
-7
I ,
-!\
Entonces
,
2E - 3F =
.
[:
[
-8
4x
-19
[2x - 3
16
24
, I
I
12+8¿
- 28
18+
- 34yi
3
-14
7
\. :
y
3
-4 J
-3; .
45,
+ 9;
1-
..
i‘’,
& 1
I
4E =
F=
~,
escalar
y
La suma, negación y sustracción de matricesse combinan con la multiplicación por medio de escalares de
una manera simple, como
puede mostrarse de las
definiciones de la igualdad de matrices y de las diferentes operaciones. En el
problema 15 se pide que demuestre lo siguiente.
( l . 12)
Teorema (leyesdel múltiplo escalar)
a) (r + s)A = rA + SA
b) r(sA) = (rs)A
c) r(A + B) = rA + rB
d) (-l)A = -A
e) OA = O
f)rO=O
Hasta ahora las matriceshan
se comportado de manera
muy similar a símbolos que representan números.Las sorpresas se han reservado para lasiguiente
sección, donde se considera la multiplicación de matrices por matrices.
PROBLEMAS
1.2
D 1. Interprete el enunciado A = B elemento por elemento para encontrar los
valores de x, y , z y w ,si
2. Suponga que P y Q representan, cada uno,un enunciado, y se sabe que
es un
hecho que“ P si y sólo si Q”. ¿Qué se puede concluir del hecho adicional de
que Q es falso?
3. Sean las matrices A, B, C, D, E y F definidas como
8
1
/
Algebra matriclal
Evalúe (o conteste “indefinido”).
b)B+F a)A+B
d ) D + Ec ) C + D
e)A+C
f) C + E y compare con E + C
8) (A + B) + F y compare con A + (B + F)
h)F+D
D 4. a) Demuestre que ( A + A)ij = 2 (A)i, para todas las matrices A de 2 x 3.
b) Demuestre el mismo resultado para todas las matrices p x 4.
5. Demuestre el teorema 1.7(b), la ley asociativa de la suma de matrices.
6. La traza tr(A) de una matriz A p x q es la suma de los elementos sobre la
diagonal principal de A. Demuestre que tr(A + B) = tr(A) + tr(B).
7. Sean lasmatrices de laAa l a F las mismasdel problema3. Evalúe (oconteste
“indefinido”).
a)A-D
b) -D
C ) -F
d)B-F
e)E-C
f) -(A - B)
8) -B - C
h) - B - A
i) -(A + B) y compare con -A - B
D 8. Demuestre (1.8): A + O = O + A = A para toda A.
9. Para matrices A p x q , demuestre que A = -A si y sólo si A es la matrizcero.
10. Demuestreque tr(A - B) = tr(A) - tr(B), donde tr(A) es la traza del
problema 6.
D 11. Examinando los elementos, demuestre que A + (-A) = O.
12. Examinando los elementos demuestre que A - A = O.
13. Sean las matrices de la A a la F las mismas del problema 3. Evalúe (o conteste
“indefinido”).
a) 5A
b) (2 - 3c’)B
c) (-3)C y compare con - (3C)
d) 2D - C
e) -lOE
0 6F
g) ( 2 + c ‘ F
h) OA
i) OB + C
D 14. Demuestre que ( - r ) A = --@A).
15. Demuestre el teorema 1.12 sobre las leyes de los múltiplos escalares.
1.3
16. Demuestre quetr(rA)
problema 6.
1.3
/
Multiplicaci6n de matrices
9
= r{tr(A)}, donde tr(A) es la traza definida en el
MULTlPLlCAClONDEMATRICES
Hay varias nociones diferentes del producto de dos matrices, dependiendo del
uso con el que seaplique elconcepto. Aquí se presenta la definición con el rango
más amplio de aplicaciones; para otras nociones sobre el producto, vea los
problemas 9 , 1 0 , 1 1 y 49. El producto AB de dosmatrices se definirá en términos
de los productos de los renglones de A y las columnas de B,así que primeramente
se define el producto uv entre una matriz de renglón de 1 X q , u y una matriz de
columna v de q X 1 .
Definición. Sea u de 1 x q y v de q x l . Entonces uv es la matriz 1 x 1 cuyo
( l . 13)
elemento es
, 1. > .
Por ejemplo,
[4
'y,
-1
31[-J
= [(4)(2)
+ ( - 1 N 1 ) + (3)(-5)1 = [-81
Observe queuv es una matriz 1 x 1 , no un número; en el ejemploanterior, el
no el número -8. Con base en esta definición
producto es la matriz [ -8
construimos aquélla para el caso general.
1,
(1.14)
Definición. Sea A una matriz p x q y B una matriz q x r . Entonces el producto AB se define como la matriz p X r cuyo elemento ( i , j ) es el
elemento de la matriz 1 x 1 que es el producto del i-ésimo renglónde A y la
j-ésima columna de B. Esto es,
Observe que, para que AB esté definido, el número de columnas en A debe
ser igual al número de renglones en B. No necesita memorizar esta regla tal y
como se presenta;sólo recuerde que semultiplican loselementos de izquierda a
derecha de un renglon de A por los elementos de arriba abajo deuna columnade
B, y que los elementos deben de terminarse al mismo tiempo. También puede
recordar que (p x r ) por ( r X q ) da O, x q ) -los términos centrales ( r ) deben
10
1
Algebra rnatrcial
/
concordar y además “cancelarse” en el resultado. Un ejemplo gráfico de c
encontrar el elemento (3,2) del producto C de una matriz A 6 x 5 y una matriz B
5 x 4es
Po
x
x
Tercer
renglón
x
x
x
x
x
x
x
x
~
x
x
x
x
x
x
x
x
X
’
X
X
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
X
X
X
X
X
x
x
x
x
A
r Segunda columna
X
Tercer
renglón
7 Segunda columna
C
-
B
+
El procedimiento es el de generarel producto AB multiplicando cada renglón
el
de A por cadacolumna de B. Una manera metódica de hacerlo es la de obtener
primer renglónde AB multiplicando el primer renglónde A por cada columna de
B ; después obtener el segundo renglón de AB multiplicando el segundo renglón
finalde A por cadacolumnade B ; y asísucesivamente,hastaobtener
mente el último renglónde AB multiplicando el último renglónde A por cada columna de B.
( 1 .15)
Ejemplo
[-: :I[:
3
-1
;I=[
-4
8
-8
5
14
41
Y
Es importante practicar el procedimiento de renglón-columna para la multiplicación de matrices hasta quese vuelva automático. Además, deberá ser capaz
de seleccionar inmediatamente elrenglón de A y la columna de B que se
combinan para dar un elemento particular de AB.
Ahora podrá resolver los problemas del 1 al 8.
Propiedades de la multiplicación de matrices
Se ha definido lo que es el productode matrices; la siguiente tarea es aprender
cómo se comporta -saber si es conmutativo, si es asociativo, etc. Considere
primero la conmutatividad: ¿Es AB = BA?
1.3
/
Multiplicacibn de matrices
11
Si
entonces se define tanto AB como BA:
Los productos AB y BA son bastante diferentes. En general y aun cuando se
defina el producto AB, no hay razón para que el producto BA esté definido: AB
tiene sentido si A es p x r y B es r x q , pero el producto BA no tiene sentido a
menos que p = q . Cuando por casualidad tanto AB como BA tienen sentido,
como enel caso anterior,no es necesario que ambas
sean p X q : si A es p X r y B
es r x p , entonces AB es p x p mientras que BA es r x r . Por último -vea los
problemas 12 y 13- aun y cuando AB y BA sean p x p , no necesariamente tienen
que seriguales (aunque en algunos casos podría serlo). Por lo tanto, el producto
de matrices no es conmutativo.
Esto significa que al multiplicar matrices, deberá de tener cuidado con el
orden delos términos en el producto. Paradistinguir el ordenen el producto AB,
se dice que A premultiplica a B o multiplica a B desde la izquierda; de manera
similar Bpostmultiplica a A o multiplica a A desde la derecha. Entonces, si desea
multiplicar ambos lados deuna ecuación X = Y por alguna matriz P, es importante que, ya sea que premultiplique ambos ladospor P o postmultiplique ambos
lados por P; PX = PY, por ejemplo, seráválido yaque X = Y implicaque X - Y =
O y por lo tanto
o = PO = P(X - Y) = PX - PY,
-
lo cual significa que PX = PY. (Hemos supuesto aquí la ley distributiva como
cierta, y será presentada en breve.)
Existe un caso especial en el queel orden de la multiplicación noes importante: cuando cadamatriz es alguna potencia entera positiva de la misma matriz
cuadrada. Definimos aquí las potencias del modo natural:
(1.16)
A' = A,
A2 = AA,
A3 = AAA,
A" = AA . ' . A (n factores).
Entonces sesigue claramente queATAs= A'+s = ASA'; esto es,A' y A8conmutan.
R ( l . 17)
Ejemplo. Aun para matrices relativamente pequeñas -2 x 2 o 3 x 3,
digamos- el cálculo a mano de potencias más que pequeñas de la matriz,
puede ser tedioso; para esto, un programa computacional como el MATLAB puede ser extremadamenteútil. En las secciones 2.2 y 2.3 se verá
que, en muchos tipos de aplicaciones,
es esencial aprender cómo las
potencias A' de una matriz cuadrada A específica, se comportan para r
grande entera. Para la matriz A de 2 x 2 abajo, las potencias A2 y A3 por sí
12
1
I
Algebra matricial
solas indican poco sobre el comportamiento de A' para un? r grande. Pero
el MATLAB, por ejemplo, calcula fácilmente las potenzias mayores e
indica que A' tiende a O a medida que r tiende a infinito. 3emostrar este
hecho es un reto que se enfrentará en u n capítulo posterior.
A = [ -0.18
0.6
A25 =
A100 =
[
[
AS0 =
-0.527
0.9971
0.670 '
-0.359
0.0009
0.001 5 1
-0.0005
0.0009 '
-
[
-
0.08I
-0.052
"ob",']'
Aunque la multiplicación de matrices no es conmutativa, si es distributivaA(B+C)=AB+AC
y
(B+C)A=BA+CA
-y asociativaA(BC) = (AB)C
-siempre que todos los productos tengan sentido. Antes de demostrar estas
leyes, introducimos una matriz que juega el mismo papel en el producto de
matrices que lamatriz cero en la suma de matrices. El número 1 tiene la
propiedad especial de que l a = a l = a para todos los números a; se busca
entonces una matriz con propiedades similares.
(1.18)
Defnicidn. La matriz identidad ( o unidad) r X r es la matriz diagonal 1, =
diag(1, . . . , 1 ) :
(Ir)ij = 1 si i = j ,
(I,)ij = O si i # j ,
de modo que
1
o
o
1
o ... o
f
:j.
o
o
1
O . "
o .'. o
1
I, =
o
o
o '.. 0
o
Eliminaremos el subíndice r cuando no se necesite.
Es fácil verque si A e s p x q , entonces I& = A. Esto significaque, las matrices I,
e I, juegan el mismo papel que el número 1 en la multiplicación.
1.3
I Multiplicaci6n de matrices
13
Ahora estamos preparados para enunciar
los hechos clave concernientes a
la multiplicación de matrices.
(1.19)
Teorema (leyesde lamultiplicación dematrices)
a) A(BC) = (AB)C
(ley asociativa)
b) A(B f C) = AB f AC
(ley distributiva)
ley distributiva)
(A +_ B)C = AC f BC
C) AI = A
(I es una identidad para la multiplicación)
IA = A
d) c(AB) = (cA)B = A(cB)
e) A0 = O
OB = O
f) Para una matriz A cuadrada:
(definición)
(A)’ = I
(definición)
(A)’ = A
(A)”” = (A)(A)”
(definición); (para n y m
(A)“(A)”=
enteros positivos)
g) La multiplicación de matrices no es conmutativa; por lo general AB no
es igual a BA.
h) En general la cancelación multiplicativa no es válida; si AB = AC (o BA
= CA), no se sigue necesariamente que B = C.
DEMOSTRACION. Cada prueba implica el demostrar que alguna matriz L es
igual a algunamatrizR mediante la definición1.4. Se demuestra por tanto la
igualdad de los elementos correspondientes.
a) S u p o n g a q u e A e s p x q , B e s q x r , y C e s r x s . E n t o n c e s p a r a l I i I p y
1 ‘ j IS , se tiene
(A(BC)),, =
=
t
t
k= 1
,(A)ik(BC)k,
k= 1
{
<A)ik
(por definición 1.14)
(B)kn<c)nj}
(por definición 1.14)
fl= 1
r
(AB),,(C),,
=
n= 1
(por definicicin 1-14)
= ((AB)Qij
(por definición 1.14)
que completa la demostración de a).
14
1
/
Algebra matricral
b) Sólo se demuestra la primera de las formas, A(B + C) = AB + AC,
dejando las demás parael problema 21. Para ser precisos, suponga que
A es p x r y, B y C son r x 4. Para la igualdadde los elementos para1 S i
S p y 1 Ij I4 , se tiene
(A(B + c)),~ =
i (A)ik(B + c)kj (por definición l . 14)
k= 1
=
(A)ik{(B)kj
+ (c)kj}
{(A)ik(B)kj
+ (A)ik(C)kj!
(aritmética)
+ i (A)ik(c)kj
(aritmética)
(por definición 1.5)
k= 1
r
=
k=l
(A)ik(B)k,
=
k= 1
k= 1
= (AB),,.
= (AB
+ (AC),j
+ AC),j
(por definición 1.14)
(por definición1.5)
lo cual completa la demostración de esta parte de b).
c), d), e) y f, se dejan como problemas
g) ya se ha demostrado con un ejemplo.
h) Mediante un ejemplo, se demostróque la primera ley de la cancelación
no se cumple. Sean
entonces AB y AC son iguales a C, de modo que AB = AC, pero B # C.
Esto, juntocon problemas, completa la demostración del teorema. m
Un punto clave quehay que recordar,es el ser cuidadosos con
el orden dela
(A + B)(A - B) pueden,
multiplicación de matrices. Las expresiones tales como
por supuesto, desarrollarse comoA2 - AB + BA - B2, pero los términes medios
no se cancelan.
Ahora podrá resolver los problemas del 1 al 24.
Transpuestas de matrices
Una operaciónmatricial que no tiene un análogo en la aritmética de los números
es lade obtener latranspuestao latranspuesta hermitiana de una matriz. La idea
1.3
I Multiplicaci6n de matrices
15
básica consiste en crear
una matriz nueva cuyos renglones sean lascolumnas de
la original, lo quesignifica que sus columnas serían
los renglones de la original;
para la transpuesta hermitiana, también se tomaría
complejo
el conjugado. Estas
operaciones serán muy útiles más adelante.
(1.20)
Definición. Sea A una matriz p X 4.
a) Latranspuesta ATde A es lamatriz 4 x p que se obtiene intercambiando
e
lprimer renglón se vuelve la primera
los renglones y columnas de A columna, y así sucesivamente. Esto es
(AT>ij=(A)ji
parallilq
y
1ljSp.
b) La transpuesta hermitiana AH de A es la matriz 4 x p que se obtiene
tomando el complejo conjugado de sus elementos en AT -la primera
conjugados del primer renglón
columna deAHconsiste en los complejos
de A, y así sucesivamente. Esto es,
( A H > i i =(A>ji
(1.21)
Para Ii I
q
y
1 < j<p.
Ejemplo. Sean A y B como se muestra abajo; entoncesAT,BT,AHy Bu son
como se indica.
Mediante la definición 1.20,
AH=[-:
a]
( = A TB)H, =
[2+3;
61 (#BT).
Las operaciones para las transpuestas interactúan de
un modo muy simple
con las operaciones aritméticas que ya fueron introducidas para las matrices.
(1.22)
Teorema (leyes
para
las
transpuestas)
a) (AT)”= A y (AH)H= A
b) (A f B)T = AT f BT y (A f B)H= AH f BH
C) ( c A ) ~
= cAT y ( c A ) ~= FAH
d) (AB)= = BTAT y (AB)H = BHAH(Observe el orden invertido)
DEMOSTRACION. a), b) y c) son inmediatas y se dejan en los problemas 28-30.
Considere d), que muestra un resultado un tanto sorprendente. Por preci-
16
1
/ Algebra matricial
sión, suponga que A es p x r y B es r x q , de manera que AB esté definida y
seap X q. Entonces, mediante ladefinición 1.20, (AB)*y (AB)Hson q x p ,
AT y AH son r x p , y BTy BH son q x r ; por lo tanto BTATy BHAHestán de
hecho definidas y son q x p. Ahora sólo es necesario demostrar la igualdad
de los elementos correspondientes. Se proporcionaron detalles sólo para el
caso de la transpuesta T. Para 1 .S i 5 q y 1 5 j 5 p ,
((AB)T)ij = (AB),,
(por definición1.20)
r
(A)jk(B)ki
=
(por definición
1.14)
k= 1
(BT)ik(AT)kj
=
(por
definición
1.20)
k= 1
= (BTAT)ij
(por
definición
1.14)
se ha demostrado la igualdad de los elementos (i, j ) de (AB)Ty de BTAT.
Observe que el teorema 1.22 d) puede extenderse arbitrariamente a los
productos de varias matrices. Por ejemplo,
(ABC)T= ((AB)C}T= CT(AB)T= CT(BTAT)= CTBTAT;
de manera similar, (ABCIH = CHBHAH.Vea los problemas 32 y 33.
Ahora podrá resolver los problemas del 1 al 33.
En términos de las transpuestas dematrices se pueden definir dos clases de
matrices muy importantes ”como se verá más adelante.
(1.23)
Definicidn. Una matriz A (cuadrada) para la cual AT = A, de modo que ( A)ij
= (A)ji para toda i y j , se dice que es s i m a c a . Una matriz B (cuadrada)
para la cual BH = B , de modo que (B)ij = ( B)ji para todai y j se dice quees
hermitiana.
La razón para escribir “matriz (cuadrada)” en la definición anterior es queuna
matriz simétrica (o hermitiana) debe ser cuadrada:Si A es p X q , entonces ATes q
X p , de modo que q debe ser igual a p para que A = AT.
(1.24)
Ejemplo. Considere las
matrices
3 + 2;
-6
1-
1.3
/
Multiplicaci6n de matrices
17
Entonces A es simétrica y hermitiana; B no es simétrica ni hermitiana; y C
es hermitiana pero no simétrica.
El producto de dosmatrices simétricas en general no es simétrico así como
tampoco el producto de dosmatrices hermitianas es, generalmente, hermitiano:
Si A = ATy B = BT,entonces (AB)T= BTAT= BA # AB en general, así que (AB)T
# AB y AB es no simétrica (ver problemas 38 y 39).
Si A es una matriz simétricap x p y B es una matrizp x 4 , entonces BTABes
simétrica, ya que
(1.25)
(BTAB)T= BTAT(BT)T
= BTAB;
de modo similar, BHABes hermitiana si A es hermitiana. Observe quela demostración (1.25) hace un uso poderoso de las propiedades generales de las matrices
que sehabían derivado anteriormente, sin tener queescribir en detalle las sumas
complicadas involucradas en el producto BTAB. Esto ilustra la conveniencia y
poder de la notación matricial y los resultados generales sobre matrices. A
medida que continuemos presentando material sobre matrices, se aprovechará
su poder de notación, evitando -cuando sea posible- escribir explícitamente los
elementos de las matrices. El estudiante deberá seguir también este procedimiento.
PROBLEMAS
1.3
1. a) Verifique cada producto.
[i
[;I
11
= [O].
b) Evalúe los productos.
[i
-¿]
[';l.
..
18
1
I Algebra matricial
2. Evalúe cada producto.
3. Calcule AB, AC, B
+ C , y compare AB + AC con A(B + C) para
D 4. Demuestre que si el tercer renglón de A equivale a cuatro veces su primer
renglón, lo mismo se cumple para aquellosrenglones de AB para toda B para
la cual esté definido el producto.
5. Demuestre que si la tercera columna deA equivale a dos veces su primera
columna, entonces lo mismo se cumple para aquellas columnas de BA para
toda B para la cual esté definido el producto.
6. Suponga que D = diag(d,, . . , , dp). Demuestre que DA se obtiene de la
matriz A p X q , con sólo reemplazar el renglón i-ésimo de A por diveces éI
mismo, para toda i. Enuncie y demuestre el resultado análogo para las
columnas de AD de la matriz A r X p.
D7. Suponga que A es p x q y que r es un número. Mientras que rA está por
supuesto definida, demuestre que
el producto dematrices[r]A tiene sentido si
y sólo si p = 1; demuestre que si p = 1, entonces r]A = rA. Enuncie y
verifique los resultados similares concernientes a A[r . (Nota:Esto muestra
que se debe tener cuidado al identificar I' con [r].)
8. Encuentre matricesredes X y Y 2 x 2 -ninguna de las cuales equivale a O. ,
para el cual XX + YY = O.
9. Un producto diferente de aquel de la definición l . 14 es importante en
muchas Breas de la ciencia y de la ingeniería; se define entre dos matrices
renglón 1 x 3 reales cualquiera
f
a = [al
a2
031
y
b=P I
b2
b31
(aunque igualmente podría definirse entre dos matrices de columna de3 X
1.) Este producto es llamado el producto cruz (o producto vectorial); se
denota mediante a x b, y se define como
1.3
I Multiplicaci6n de matrices
19
a x b = [a,b3 - a3b2 a,b, - a,bJ alb2- a2b,],
otra matriz de renglón 1 x 3 .
a) Demuestre que a x b = -(b x a), de modo que x no es conmutativa.
b) Demuestre que a x a = O para toda a.
c) Demuestre mediante un ejemplo que x no es asociativa.
d) Demuestre queno puede existir una “matriz identidad para X ” , esto es,
que no puede existir una matriz e especial 1 x 3 para la cual e X a = apara
toda a.
10. Un productodiferentede aquél de la definición 1.14 es importante en
muchas áreas de la ciencia y de la ingeniería; se define entre dos matrices
cualesquiera. Si A es p X 4 y B es rX S, entonces el producto Kronecker (o
producto tensorial)A O B se define comola matrizpr Xqs que contiene todos
los productos de un elemento deA con un elemento de B, dispuestos de un
modo especial: denotando (A por u ~los, primeros r renglones de A O B
se crean escribiendo a,,B seguido por a,,B a su derecha seguido por al$ a su
derecha . . . seguido por a l p a su derecha; los segundos renglones r se
generan de manera similar de allB, a,,B, y así sucesivamente;y esto continúa a lo largo del p-ésimo conjunto de r renglones. Por ejemplo,
5
8
6
9
24
21
30
32
36
40
a) Demuestre mediante un ejemplo que O no es conmutativo.
b) Demuestre mediante un ejemplo que 0no es asociativo.
c) Demuestre que[I] es una “matriz identidad”en el sentido de que
[ 11 O A
= A O [I] = A para toda A.
D 11. Un producto diferente deaquel de la definición 1 . 1 4 que esútil primordialmente en relación con el análisis discreto de Fourier (verproblemas 50 y 52)
se define elemento a elemento entre dos
matrices A y B cualesquiera p x 4
mediante la definición de
(A O B)ij = (A),(B),?
a) Demuestre que O es conmutativo.
b) Demuestre que O es asociativo.
c) Encuentre la “matriz identidad” E p X 4 para que E O A = A O E = A
para toda matriz A p X 4.
12. Encuentre una matriz A y una matriz B para que tanto AB como BA estén
definidas, para que AB y BA tengan la misma forma, pero que AB # BA.
13. Encuentre dos matrices A y B 2 x 2 con A # B pero con AB = BA.
D 14. Suponga queA es una matriz 2 x 2 que se conmuta con todamatriz 2 x 2.
Demuestre que A debe ser un múltiplo escalar de I,.
20
1
/
Algebra matricial
15. Calcule A2 y A3 para
16. Verifique que A(BC) = (AB)C si
D 17. a) Escriba explícitamente Iz.
b) Demuestre que I,A = A para toda A 2 x 3
18. a) Escriba explícitamente I,.
b) Demuestre que BI, = B para toda B 2 x 3.
W19. Utilice el MATLAB u otro programa para descubrir experimentalmente qué
le sucede a An para enteros positivos IZ grandes si A es:
(a)
(4
1
];.
[
[ o
[0:; ;:J.] [y ;:;I
(b)
-0.6
0.2
-0.16
0.6
OS1.2
(4
D 20. Determine, en términos del número real r, que le sucede a An para enteros
positivos II grandes si
21. Demuestre el teorema 1.19 b) -de modo distinto a la versión demostrada en
el texto- sobre la ley distributiva.
22. Demuestre el teorema 1.19 c) sobre I como una identidad multiplicativa.
23. Demuestre el teorema l . 19 d) sobre los múltiplos escalares de productos de
matrices.
D 24. Demuestre el teorema 1.19 e) sobre la multiplicación de matrices con O.
25. Calcule AT, BT, AB, (AB)T,y BTATy verifique que (AB)T = BTATsi
D 26. Evalúe:
a) [I
C)
2 3][-1
[ - 1 3 6][1
3 6IT
2 3IT
b) [I 2 3IT[-1
d) [-I 6IT[1
3
3 61
2 31
27. SupongaqueAesp x p y x e s p X l.MuestrequexTAxesdel X 1 . s i x = p Y ,
muestre que xTAx = yT(PTAP)y.
1.3
I Multiplicaci6n de matrices
21
28. Demuestre el teorema 1.22 a) sobre (AT)Ty (AH)H.
29. Demuestre el teorema 1.22 b) sobre (A k B)T y (A & B)H.
D 30. Demuestre el teorema 1.22 c) sobre ( c A ) ~y (CAY.
31. Demuestre la parte del teorema 1.22 d) que no fue demostrada, de que (ABY
= BHAH.
32. Demuestre que (ABCY = CHBHAH.
D 33. Demuestre la extensión del teorema 1.22 d) para aplicarse a un producto de
un número finito arbitrario k de matrices A,A2 * AK.
34. Demuestre que I, y la matriz cero O p X p son simétricas y hermitianas.
35. a) Demuestre que toda matriz diagonal es simétrica.
b) Demuestre que la matriz diagonal D es hermitiana si y sólo si todos los
elementos en D son reales.
36. Escriba explícitamente la matriz simétrica general 3 x 3 .
D 37. Escriba explícitamente la matriz hermitiana general 2 X 2.
38. Demuestre que AB no es necesariamente simétrica aunque
A y B sean
simétricas, utilizando
39. Demuestre mediante un ejemplo que AB podria ser simétrica cuandoA es
simétrica y B es simétrica.
40. a) Demuestre que A es simétrica si y sólo si AT es simétrica.
b) Demuestre que A es hermitiana si y sólo si AH es hermitiana.
41. a) Demuestre que si A es simétrica, entonces Az es simétrica
b) Demuestreque si A es simétrica, entoncesAn es simétrica paratodos los
enteros positivos n.
c) ¿Qué sucede en cuanto al inverso de a)?
42. a) Demuestre que si A es hermitiana, entonces A2 es hermitiana.
b) Demuestre que si A es hermitiana, entoncesAn es hermitiana para todos
los enteros positivos n.
c) ¿Qué sucede en cuanto al inverso de a)?
43. Verifique que BTAB es simétrica, de acuerdo con (1.29. si
y
B = [ -1
o3
"3
O '
44. Demuestre el análogo hermitiano de (1.25): BHAB es hermitiana si A es
hermitiana.
D 45. Se dice que una matriz A es antisimétrica si AT = -A.
a) Demuestre que una matriz antisimétrica debe ser cuadrada y que sus
elementos sobre la matriz diagonal deben ser ceros.
22
1
I Algebra matricial
b) Demuestre que, dadacualquier matriz cuadrada A, la matriz A - ATes
antisimétrica, mientras que A + AT es simétrica.
c> Escribiendo A = (A + AT)/2 + (A - AT)/2, demuestre que cada matriz
cuadrada puede ser escrita de maneralinica como la suma de una matriz simétrica y una matriz antisimétrica.
46. Si x es p x 1, demuestre que xHx es real (aun y cuando x tenga elementos
complejos).
47. Generalice el problema 45 para el caso de las matrices antihermitianas A,
para las cuales AH = -A.
D 48. Mediante la consideración de sus partes real e imaginaria pura demuestre
que toda matriz hermitianaes la suma de una matriz simétrica real eipor una
matriz antisimétrica real.
49. Un producto diferente de aquel en la definición 1.14 es importante en
muchas Breas de la ciencia y de la ingeniería, especialmente en los problemas
que involucran el procesamiento de señales discretas;
laconvolucia’n x * y se
define entre dos matrices renglón cualesquiera 1 x p
x = [x1
x2
...
.,I
Y
Y = [Y1
y a su vez es una matriz renglón de 1 x p :
(x * y>¡ = x1yi x 2 y i - 1
..
+ +
+
‘
Y2
. . . Ypl
xiy,
+ X¿+,Yp + Xi+2Yp-1 + . . . + XpY¿+l.
Para p = 2, tenemos simplemente
[x1
x21
* [ Y 1Y 2 1
= [XlY,
+ X2Y2
+ X2YlI.
xj] * [y, y ,
XlYZ
a)Encuentre la fórmula explícita para [x1x2
y3].
b) Demuestre que * es conmutativa para una p general.
c) Demuestre que * es asociativa para una p general.
d) Encuentre una “matriz identidad” e 1 x p tal que e * x = x * e = x, para
toda matriz x 1 x p.
e) Encuentre [3 1 2 61 * [ -2 1 3 13.
50. Una técnicaimportante en las matemáticas aplicadas es la deaproximar una
función dadaf(x) mediante unaserie deFourier: una sumatoria detérminos
de laforma sen kx o cos kx o, de modo equivalente, en forma compleja ekix =
cos kx + i sen kx. El análisis discreto de Fourier selecciona los coeficientes
ck de ekix de manera que: 1) toda ck,a excepción posiblemente de algunos
coeficientes N específicos, es cero,y 2) que la serie y la función originalf
son iguales en N valores de x igualmente espaciados. Con N = 3, por
ejemplo, se podría aproximarflx) para0 5 x S 27r mediantes(x) = co + cleix
+ c2eZix,con los coeficientes ck determinados mediante el requerimiento
f(x) = s(x) para x = x1 = O , x = xz = 27r/3, y x = x3 = 2(27r/3). Denotef(xd
mediante fi.
1.4
I Inversa de una matriz
23
a) Demuestre que estos requerimientos sobreck pueden expresarse como
fi
f2
f3
donde z =
+ + c2
= co + c1z + c2z2
= co + c1z2 + c2z4
= co
= cos 2n/3
= - 112
+4 1 2 .
c1
+ i sen 2x13
b) Demuestre que las ecuaciones anteriores pueden expresarse como f =
Zc, donde f = [fl f2
c = [co c1 c2IT,Y
i‘
z= 1
1
z
zq.
c) Utilice explícitamente el valor z anterior para encontrar Z.
d) O y * denotan los productosdefinidos en los problemas 1 1 y 49.
Demuestre que Z(x * y)T = ZxT O ZyT, primero para el caso de x =
[3 - 1 21 y y = [-2 2 31, y después para toda matriz
renglón 1 X 3 x y y.
D 51. En el problema 50 se examinó el análisis discreto de Fourier con N = 3 .
Suponga que, deun modo más general, se desea aproximarflx) para
O 5x 5
27r mediante una serie finita de Fourier s(x) utilizando N términos:
s(x) = co
+ cleiX + c2eZix + . . . + c N -le(N-l)iX
y que los ck se determinan mediante s(x,) = (xj), donde se toma x, =
(j - 1)(27r/N) para j = 1 , 2, . . . , N . Demuestre que el problema para
encontrar los coeficientes ck a partir de los valores dados fJ = fix,) es el
mismoqueelresolver
Zc = f, donde c = [co c1 . . . C N - 13’9.f =
VI .fi * * &IT, Y z es lamatriz N X N con (z),, = z+l)(k-l) y z =
e(Zff’N)i.
El producto Zc se llama la transformada discreta de Fourier de la
matriz renglón c y es de extrema importancia dentro de las matemáticas
aplicadas.
52. Sea Z una matriz N x N que genera la transformada discreta de Fourier
como en el problema 5 1 , y O y * denotan los productos definidos en los
problemas 1 1 y 49. Demuestre que Z(x * y)’ = ZxT O ZyT para todas las
matrices renglón x y y 1 x N .
1.4
INVERSA DE UNA MATRIZ
Las secciones anteriores extendieronlas
a matrices muchas ideas asociadas con
la aritmética de los números; una idea que se omitió fue el análogo matricial del
inverso recíproco: calcular 1/3 a partir de 3, o de manera más general, calcular
l / a de un número a diferente a cero.
24
1
I Algebra matricial
Una manera de describir el inverso o recíproco 1/a de a es la denotar que
1 / a es la solución x de la ecuación ax = 1 , donde por supuesto 1 es el “número
identidad para la multiplicaciónnumérica”: 1b = bl = b para todo número b. Ya
que las matrices identidad I (véase la definición 1.18) son “matrices identidad
para la multiplicaciónde matrices” -1B = BI = B para toda matriz B- el análogo
natural para encontraruna x que resuelva la ecuación ax = 1 y xu = 1 para una a
dada, esel de buscar una matriz X que resuelva AX = I y XA = I para unamatriz
A dada.
(1.26)
Definición. Sea A una
matriz dada.
a) Cualquier matriz L para la cual LA = I se llama inversa izquierdade A.
b) Cualquier matriz R para lacual AR = I se llama inversa derecha de A.
c) Cualquier matriz X para la cual XA = I y AX = I se llama inversa de A.
(Para distinguirla claramente, esa X con frecuencia se llama inversa
bilateral de A.)
Se puededeterminar cuál -si es que alguno- de estostipos de inversas tiene
una matriz A, mediante la solución de conjuntos de ecuaciones lineales; y las
soluciones de estas ecuaciones dan como resultado las inversas.
(1.27)
Ejemplo. Considere si existe una matriz inversa derecha R para la matriz:
Se busca entonces
R con AR = I. Para que R postmultiplique a la matriz A 2
X 2, R debe de ser 2 x q para cierta q , entonces AR será 2 x q . Pero se
q=2y
necesita que AR sea igual a una matriz identidad(cuadrada), así que
R debe ser 2 x 2. Se busca entonces una matriz R 2 x 2 de la forma
=[: w
‘]
buscando x, y , z , w para que AR = I, esto es
Multiplicando lasdos matrices del lado izquierdo e igualando loselementos
del producto con los elementos correspondientes de I se generan dos
conjuntos de ecuaciones lineales, uno que involucra sólo x y y, y el Otro
que incluye sólo a z y +v.
x-
z -w = o
y = l
x+2y=o
Y
z+2w=
1.
1.4
/
Inversa de una matriz
25
Estas ecuaciones se resuelven fácilmente con los métodos aprendidos en
algebra en la secundaria, y se produce exactamente una solución x =$, Y
- ;, = 3, y w = 3. Esto significa que hay exactamente una matriz
inversa derecha, que es
"
El argumento del ejemplo 1.27 que determinó que R es 2 x 2 también es
válido para un caso más general (problema 7):
(1.28)
Teorema Sea lamatriz A p X 4. Entonces:
a) Cualquier inversa derecha R de A debe de ser q x p .
b) Cualquier inversa izquierda L de A debe de ser q x p .
(1.29)
Ejemplo. Ver si existe una inversa derecha R para la matriz 2 X 3
A=[:
-; i].
Mediante el teorema I .28 R será 3 x 2, por lo que se buscanx, y , z , u , v , w
para que
que se traduce en las ec;uaciones
x-y+
z=1
x+y+2z=o
Y
u-u+
w=o
u+u+2w=1.
AI resolverlas, se demuestraque, por ejemplo,se pueden dar valores arbitrarios z = (Y y w = p para z y w ;resolviendo para las otras variables en
términos de (Y y p finalmente resultan un número infinito de inversas
derechas, una para cada selección de (Y y p ;
I
O
R=
En el ejemplo 1.27 se presentó una matriz con exactamente una inversa
derecha, y en el ejemplo 1.29 una con infinitamente muchas matrices inversas
26
1
/ Algebra matricial
derechas. AI demostrar cómose encuentran las inversas izquierdas, se examina
en seguida una matriz que no tiene ninguna.
Ejemplo. Sebuscaunainversaizquierda
(1.30)
L para
de LA = I se traduce que
x-3y=1
"x
z-3w=o
Y
+ 3y = o
+ 3w = 1.
-2
Cada conjunto de ecuaciones es inconsistente: el primero, por ejemplo,
buscaaxyayparalascualesl=x-3y,queesiguala-(-x+3y)=-(O)=
O, y ciertamente es imposible encontrar una x y y que hagan que 1 sea O.
(1.3 1)
Ejemplo. En los tres ejemplos anteriores se han utilizado matrices pequeñas porque resulta tedioso solucionar sistemas de ecuaciones a mano si
éstas involucran muchas variables. Existen muchos buenos programas
computacionales, sin embargo, que hacen esta tarea más fácil; el MATLAB por supuesto contiene estas facilidades,
y en especial esmuy fácil de
usar cuando la matriz es cuadrada. Como ejemplo, considere la matriz
simétrica A de 7 x 7 con (A)u = l/(i + j - 1):
- 1 1 1
1
_1 " 1
1
2
2
3
A=
3
4
_1 " 1
4
1
5
1
6
5
1
6
3
1
4
5
6
1
1
7
-
7
1
8
5
6
1
6
1
1
L
5
6
1
4
1
8
1
-
1
7
1
7
8
8
r9
1
7
1
1
1 L
9 1 0 .
1
1
9 1 0 1 1
1
1
1
1
1
1
7 S
9 110112
1
1
1
1
1
1
8
9
10
11
12
13-
"
1
7
El MATLAB tiene un comando X = inv(A) que buscauna inversa (bilateral)
de A y genera
8,820
-1,17649
- 1,176
X=
8,820
-29,400
48,510
-38,808
- 12,012
37,632
-317,520
1,128,960
-1,940,400
1,596,672
- 504,504
-317,520
2,857,680
- 10,584,000
18,711,000
- 15,717,240
5,045,040
- 29,400
48s 1O
12,012
- 38,808
1,128,960
- 10,584,000
- 1,940,400
1,596,672
- 15,717,240
40,320,000
-72,765,000
62,092,800
- 20,180,160
18,711,000
- 72,765,000
62,092,800
133,402,500 - 115,259,760
- 115,259,760
100,530,336
- 33,297,264
37,837,800
- 504,504
5,045,040
-20,180,160
37,837,800
- 33,297,264
1 1,099,088
1.4
I Inversa de una matriz
27
Estos cuatroejemplos ilustran la manera de encontrar inversasal igualque el
hecho de quelas inversas -una o vanas- pueden no existir. La teoría sobre las
inversas será presentada
más adelante; por el momento sólo se verán algunos de
estos desarrollos básicos:
(1.32)
Vista previa sobre
las
inversas
a) Para una matriz cuadrada A p x p, ya sea que:
1 . A tiene una inversa (bilateral) única,
o bien
2. A no tiene inversa derecha ni izquierda. Realmente, si una matriz
cuadrada A tiene ya sea una inversa izquierda o derecha, entonces
ésa es de hecho un inversa (bilateral).
b) Para una matriz no cuadrada A p X q con p # q:
1 . No es posible que A tenga una inversa (bilateral).
2. Si p < q , entonces A posiblemente no tenga una inversa izquierda,
pero posiblemente tenga una inversa derecha.
3. Sip > q , entonces posiblemente A no tenga una inversa derecha, pero
posiblemente sí tenga una inversa izquierda.
Se tienen suficientes herramientas amano para demostrar un teorema sobre
los diferentes tipos de inversas.
(1.33)
Teorema (inversasbilaterales). Sea A una matriz.
a) Si existen para A una inversa izquierda L y una inversa derecha R ,
entonces son iguales y son una inversa (bilateral).
b) Cualesquiera dos inversas (bilaterales) de A son idénticas.
DEMOSTRACION.
a) Sean L y R inversas izquierda y derecha, respectivamente, de A, de
manera que LA = I y AR = I. Entonces
L = LI = L(AR) = (LA)R = (1)R = R,
de modo que L = R , como se pedía y esta matriz sirve como inversa
izquierda y derecha -esto es, esuna inversa (bilateral).
b) Suponga que X y Y son inversas (bilaterales) de A. Entonces X es
también una inversa izquierda de A y Y es también una inversa derecha
de A; de la parte a), podemos concluir que X = Y.
Ahora podrá resolver los problemas 1 al 9.
28
1
Algebra matrlcial
/
Matrices no singulares
Los ejemplos anteriores y el examen previo en (1.32) muestran que las inversas
(bilaterales) son la excepción más que la regla. La propiedad de tenerla inversa
es tan importante que las matrices con tales inversas sedistinguen con un
nombre especial: el de no singulares.
(1.34)
Definicidn.
a) Una matriz no singular es una matriz (necesariamente cuadrada) A que
tiene una inversa X: para unaA no singularexiste una X con AX = XA =
I. Esta inversa se denota mediante A-l.
b) Una matriz singular es una matriz cuadrada que no tiene inversa.
La primera pregunta que surge con frecuencia cuando encontramos una
matriz cuadrada es "Les singular o no singular?" Más adelante se desarrollarán
herramientas teóricas para responder a estas preguntas, pero, computacionalmente, se responde tratando de encontrar una inversa con los métodos de los
ejemplos 1.27, 1.29, 1.30 y 1.31 -sin olvidar (1.32) a). Pero si de algún modo se
tiene una matriz X que sea "la mejor candidata" para la inversa A" de A,
puedeverificarla tan sólo con comprobar si AX = I y XA = I -que es la
herramienta clave utilizada en la demostración del siguiente teorema. En esa
demostración verificamos ambas ecuaciones AX = I y XA = I, aunque el examen
previo 1.32 a) -todavía sin demostrar- muestra que sólo tenemos que probaruna
ecuación.
(1.35)
Teorema. Sean A y B matrices no singulares p x p . Entonces:
a) AB es no singular y (AB)" = B-IA-'.
b) A-' es no singular y (A-l)-l = A.
c) AT y AH son no singulares con (AT)-' =
y (AH)-' =
1.4
/
Inversa de una matriz
29
La demostración anterior es clave porque es un modelo de demostraciones
de que unamatriz dada G es lainversa de una
matriz dada H; así, sólo demostramos que GH = I y HG = I. En algunos casos sólo se tiene H y parte del problema
consiste en determinar la fórmula para G. En a) del teorema 1.35, por ejemplo, si
sólo se diera H = AB y se tuviera que adivinar la fórmula para G, se razonaría de
la siguiente manera: es necesaria unaG tal que G(AB) = I; postmultiplicando esta
ecuación por B" cambia a GA = B-', y después, postmultiplicando esta ecuación por A" cambia a G = B"A",
dando un candidato para la inversa de AB.
Procederíamos entonces como en la demostración del inciso a), con el fin de
demostrar que nuestra suposición para la inversa es, de hecho, correcta.
Ahora podrá resolver los problemas del 1 al 23.
Matrices, inversas, y sistemas de ecuaciones
Recuerde que nuestra discusión se originó a partir de las inversas de matrices por
analogía con las inversas núméricas l / a para los números a. Un uso frecuente de
las inversas numéricas. es el de resolver ecuaciones: la ecuación 3x = 7 se
resuelve multiplicando ambos lados de la ecuación por 1/3 para obtenerx= 7/3.
En seguida examinamos la soluciónde ecuaciones matriciales Ax = b mediante el
uso de A-l.
Suponga que A es una matriz p X q de números conocidos, x es una matriz
columna de 4 x 1 de números desconocidos, y b es una matriz columna de p x 1,
de modo que la ecuación Ax = b tiene sentido comoun problema para encontrar
una matriz x desconocida que satisfaga esta ecuación. Para ver lo que esta
ecuación significa, se escribe en términos
de los elementos dea
l
s matrices A,
x, y b. Las definiciones de multiplicación de matrices e igualdad de matrices
revelan que
(1.36)
la ecuación Ax = b con A p X q conocida, con elementos (A), = a,, x q x 1
desconocida con elementos
(x)i = xiy b p x 1 conocida con elementos
(b)*= bi
30
1
/ Algebra matricial
es equivalente a
UflXl
a21x1
+
+
a12x2
u292
+ . . . + q q x q= b ,
+ . . + a+, =
b2
'
............
aplxl + ap2x2+ . . . + apqxq= b,
u n sistema de p ecuaciones lineales en las q incógnitas xl, x2, . . . , x*.
Así, Ax = b es una notación compacta para escribir
un sistema dep ecuaciones lineales en q incógnitas. La notación matricial compacta también indica un
método posible para solucionar tal sistema,
mediante analogía con lasolución de
3x = 7 multiplicando ambos ladospor 1/3:multiplique ambos lados de
Ax = b por
A" (si existe) para obtener una solución x = A"b. Por supuesto, esto sólo es
válido si A es no singular; en particular, A debe ser cuadrada: el número de
ecuaciones debe ser
igual alnúmero de incógnitas.El teorema 1.38 abajo explica
qué sucede para una matriz A no cuadrada con una inversa o derecha.
(1.37)
Ejemplo. Considere el sistema dedos ecuaciones lineales
2x - 3 y = - 13
x +4y=
10
con dos incógnitas x y y . Por (1.36), esto equivale a Ax = b si
En este caso,
se convierte en
Se puede comprobar que x = -2 y y = 3 que, efectivamente, resuelve el
sistema de ecuaciones.
La situación general que relaciona la solución de sistemas de ecuaciones
lineales con varias matrices es como sigue:
(1.38)
Teorema (ecuaciones e inversas). Sea Ax = b la representación del sistema
de p ecuaciones lineales en q incógnitas como en (1.36).
1.4
I Inversa de una matriz
31
a) Suponga queA tiene una inversa izquierda L. Siexisten soluciones x a la
lo tanto, existea
ecuación Ax = b, entonces deben ser iguales a Lb; por
lo mucho una solucibn, es decir, Lb, pero posiblemente no exista ninguna.
b) Suponga que A tiene una inversa derecha R. Entonces Rb es una
solución a Ax = b; por lot a n t o , existe al menos una sofucidn, es decir Rb,
pero podría haber más.
c) Suponga que A es no singular. Entonces existe exactamente una solucion a Ax = b, es decir A"b.
DEMOSTRACION
a) Si existe alguna solución x. a Ax = b, entonces por supuesto b = A x o .
Premultiplicando esta ecuación por L se tiene
Lb = L(Ax,) = (LA)x, = Ix, = X,,
que indica que x. debe ser igual a Lb si x. es una solución.
b) Para mostrar que Rb es una solución, sólo se comprueba si A(Rb) es
igual a b:
A(Rb) = (AR)b = Ib = b,
por lo tanto Rb es una solución.
c) Si A es no singular, entonces A" existe y sirve como una inversa izquierda y una inversa derecha de A. Ya que A" es una inversa
derecha, el inciso b) muestra que A-lb es una solución; ya que A" es
también una inversa izquierda, el inciso a) muestra que cualquier otra
solución también debe ser igual a A - lb.
Ahora se sabe que se pueden solucionar sistemas de ecuaciones mediante el
uso de matrices inversas. Pero ¿cómo se obtienen las matrices inversas? Mediante la solución de sistemas de ecuaciones -¡exactamente el mismo tipo de
problemas que se querían resolver desde un principio! En la práctica, como
después se mostraráen detalle, es, por lo general, mucho más eficiente resolver
el sistema de ecuaciones representado por Ax = b directamente, que calcular
primero A" y luego calcular A-lb; véase el problema 27. Sin embargo, el
concepto y representacion de la solución como x = A"b pueden ser muy
poderosos para el entendimiento de ciertos aspectos de algunos problemas.
PROBLEMAS
1.4
D 1. Determine directamente si existe una inversa izquierdaLparala matriz A del
ejemplo 1.29; si existe, encuentre L.
32
1
I
Algebra matriciai
2. Determine directamentesi existe una inversa derechaR para la matriz A del
ejemplo 1.30; si existe, encuentre R.
3. Demuestre que no existe una inversa izquierda ni una derecha para
D 4. Encuentre todas las inversas izquierdas posibles para la matriz A que aparece a continuación,y demuestre que no existe un inversa derechapara A.
!Dl 5. Utilice el MATLAB o algún programa similar para calcular XA y AX utilizando las matrices X y A del ejemplo 1.3 1 para probar si X es la inversa
exacta deA o sólo una aproximación numérica muy cercana. (Note quees
probable que la computadora no pueda representar de manera exacta a la
matriz A debido a las fracciones i,
$, , etc.)
!Dl 6. Utilice el MATLAB o algún programa similar para calcular la inversa de la
matriz A del ejemplo 1.31 y compare el resultado de su computadora con
la matriz X del ejemplo 1.3l .
7. Demuestre el teorema 1.28 sobre las inversas izquierda y derecha.
D 8. a) Demuestre que Les una inversa izquierda para
la matriz A si y sólo si LT es
inversa derecha para AT.
la
A si y sólo si RTes
b) Demuestre queR es una inversa derecha para matriz
una inversa izquierda paraAT.
9. La cancelación en las ecuaciones de matrices
es válida siexisten las inversas
apropiadas.
a) Suponga que A tiene una inversa izquierda y que AB = AC; demuestre
que B = C.
b) Enuncie y demuestre un resultado análogo para las inversas derechas.
D 10. Para cada una de las matrices siguientes, determine si es una matriz no
singular y -si lo es- encuentre su inversa.
11. Muestre que A es singular, donde
I
1.4
4
A=[-*
Inversa de una
matriz
33
6-1.
-3
D 12. Suponga que D = diag(d,, . . . , d p ) .
a) Si di # 0 para 1 Ii Ip, demuestre que D es no singular y que
D-' = diag(l/d,, . . . , l/dp).
b) Si algunos de los di= O demuestre que D es singular.
13. Demuestre que la matriz general A 2 x 2 mostrada abajo es no singular si y
sólo si su determinante A -que se define como A = u11u22- u12u21- no es
cero, y que A" es como se indica si A # O.
14. Complete la demostración del teorema 1.35 b) sobre la inversa de A-l.
D 15 Demuestre el teorema 1.35 c) sobre la inversa de AT y de A".
16. Si A es no singular, se puede definir la potencia matricial A' para enteros
negativos r -aunque ciertamente no como el producto de r factores de A
como se hizo para eilteros positivos r . Si n es un entero negativo y A es no
singular, entonces se define A" como (A- ')(-"), donde el exponente - nde la
inversa de A es ahora un entero positivo para el cual es válida la definición
original. Demuestre que, para unaA no singular, el enunciadoArAs = A " s es
verdadero para todo entero r y S (independientemente de su signo).
17. Supongaque A, B, y A + B son no singularesp x p. Demuestre queA-' + B-l
es también no singular, y que
(A-' + B-')-' = A(A + B)"B
y que esto a su vez es igual a B(A + B)"A.
9N 18. Utilice el MATLAB o algún programa similar para verificar la fórmula del
problema 17 cuando
A=
r 2 -1
O
2
-1
o
-1
j-k
01
Y
B=3L
D 19. Suponga que A es no singular.
a) Demuestre que A es simétrica si y sólo si A" es simétrica.
b) Demuestre que A es hermitiana si y sólo si A" es hermitiana.
20. Suponga que A, B y C son matrices no singularespx p. Demuestre que ABC
es no singular y que
(ABC)" = C"B"A-'.
34
1
I
Algebra matricial
D 21. Suponga que A l , Az, . . . , Ak son matrices no singulares p x p . Demuestre
que el producto AIAz . . . Ak es no singular y que
(AIA, . . . AJ'
'AL-',
= A;
'
. . A;
Ixll 22. Sea B la matriz simétrica 6 X 6 formada por los 36 elementos en la esquina
superior izquierda de la matriz A del ejemplo 1.31 -esto e s , (B),J = (.4),
para 1 5 i S 6 y 1 5 j S 6. Utilice el MATLAB o algún otro programa para
calcular lainversax deB y evaluar XB y BX para verificar si X es una inversa
exacta de B o sólo una buena aproximación numérica.
23. Utilice el MATLAB o algún programa similar para estudiar las matrices
simétricas 5 x 5
A,=
[ ; ; -: -p
o
o
o
z - 1
-1
O
z
-1
o
o
z
-1
-1o
-1
y obtener diferentes valores reales de z como sigue:
a) Demuestre que A, es no singular, encontrando su inversa.
b) Demuestre que A2 es no singular, encontrando su inversa.
c) Demuestre que A. es singular, intentando encontrar su inversa.
d) Disminuyendo lentamente el valor de z desde 2, y tratando de encontrar
los inversos de las matrices A,, encuentre el primer valor de z menor que 2
para el cual A, es singular.
(Nota: Las matrices A, en sus versiones p X p son importantes en la
solución numérica de ciertos tipos de ecuaciones diferenciales, especialmente para una p muy grande.)
D 24. Encuentrea
lsmatrices A, x y b para que la ecuación Ax = b sea equivalente aa
ls
dos ecuaciones lineales con
dos incógnitas x y y que se muestran abajo; además
utilice la matrizA-' dada para resolverparan y y ; demuestre que A-:, x y y son
correctas.
25. Encuentre las matrices A, x y b para quela ecuación Ax = b sea equivalente a
las dos ecuaciones lineales con dos incógnitas x y y ; calcule y use A-' para
resolver x y y.
3x-y=
2
-5x + y = - 4
D 26. Calcule A-' y utilícela para resolver la ecuación AX = B, donde
1.4
I
35
Inversa de una
matriz
Escriba los sistemas de ecuaciones lineales en términos de x, y , u y v que
sean equivalentes a AX = B.
9Jl 27. Considere elsiguiente sistemade 1Oecuaciones lineales con 10 incógnitasx,,
x2, . . . , x,o:
2x, - x,
-x1
=1
+ 2x, - x3
-x2 + 2x3 - x4
-x3 + 2x4 - x5
-x4 + 2x5 - x6
-x5 + 2x,
=1
=1
=1
=1
x,
=1
-x6 + 2x7 - x g
=1
-
-x7
+ 2xg - x9
=1
-xg + 2x9 - x l 0 = 1
-x9 + 2 X 1 0 = 1.
a) Encuentre las matricesA, x y b para que la ecuación Ax = b sea equivalente a
este sistema de ecuaciones.
b) Utilice el MATLAB
para calcular A" y la solución como el producto
de A"
y b; al introducir la instrucción flops del MATLAB tanto inmediatamente
antes como inmediatamente después
de este proceso de dos pasos, cuente el
número de operaciones en punto flotante involucradas al encontrar a x
mediante este método.
c) Utilice el MATLAB para encontrar x directamente, introduciendo la instrucción del MATLAB x = A\b, y utilice la instrucciónflops del MATLAB
como en el inciso b) para determinar el número de operaciones en punto
flotante involucradas al encontrar a x mediante este método.
d) ¿Cuál es m á s eficiente, el método del inciso b)o el método del inciso c)?
28. Considere el análisisdiscreto de Fourier descrito para N = 3 en el problema50
de la sección 1.3. La determinación de los coeficientescka partir de los valores
dadosf, requiere de la soluciónde Zc = fen la notaciónde eseproblema. SeaZ la
matriz 3 X 3 de los complejos conjugados de los elementos
de Z.
a) Demuestre que ZZ = ZZ = 31, y que Z - = f Z.
b) Para la matriz Z que se encontró explícitamente en el problema
50 c), utilice
explícitamente el incisoa) para encontrar Z - l .
c) Utilice Z" para resolver la ecuación Zc = f si f = [2 - 2 4IT.
36
1
/
Algebra matriclal
D 29. En el problema 50 d) dela sección 1.3, se enunció queZ(x *
= ZxTU ZyT
en la notación de ese problema.
a) Mediante el problema 28 demuestre que la convolución x * y puede
calcularse como sigue
(x * y)T = +Z(ZX"o Zy").
b) Verifique que la fórmula del inciso a) funciona correctamente cuandox =
[2 - 4 21 y y = [-2 6 41.
30. Considere la transformada general discreta de Fourier Zc de c como se
describió en el problema 5 1 de la sección 1.3. Como enel problema 28 de N =
3, muestre para cualquier N que ZZ = ZZ =
y Z" = (l/N)Z. Para
resolverlo tendrá que considerar los siguientes hechos: 1) Z" = 1; 2) (2)" = 1;
3)1+r+r2
+ ~ ~ - 1 = N s i r = l ; y 4 ) 1 + r + ~ + + ~ ~ ~ - 1 =
/ ( Y - 1) si r f 1.
31. Utilice el problema52 de la sección 1.3 y el problema 30 para mostrar quela
convolución x * y de dos matrices renglón de I x N puede calcularse como
e
-
.
D 32. Utilice el problema28 paraencontrarla formaexplícitadela serie de Fourier
e'" + c2c2,.y
como en el problema 50 de la sección 1.3, utilizando
e" = cos 1 + sen t ,
si los valores.6 = f ( x j ) son: a).f, = 0,,f2 = 4,f3 = 16; b)fl = 2, fi =V%
+
s ( s ) = ('(,
-(a+
1).
1.5
c 1
l,.f3 =
MATRICES SEPARADAS
En el ejemplo 1.27 de la sección anterior, las ecuaciones se tenían que resolver
para encontrar una inversa derecha dividida en dos conjuntos y cada conjunto
tenía sólo las variables formando una columna de la inversa derecha. Lo mismo
sucedía en el ejemplo 1.29. Por otra parte, en el ejemplo 1.30, las variables en
cada conjuntode ecuaciones formaban un renglón de la inversa izquierda-en vez
de una columna de la inversa derecha.
Estos ejemplos muestran que, en ocasiones, es útil pensar en una matrizpor
partes o separada en sus renglones o en sus columnas; esto se vio antes en la
definición del producto de matrices AB, donde de hecho separamos A en sus
renglones y B en sus columnas para poder formar el producto. De manera más
general, a veces es útil pensar en una matriz como formada por varias matrices
más pequeñas de diferentes formas. De este modo, se puede pensar en lamatriz
1.5
I Matrices separadas
37
en términos de sus columnas
c,
=[:I, =[;l.
c2
Y
c.=[-:]
escribiendo A = [C, C2C,] . O se puedepensar en A en términos de sus renglones
R, = [ 2 O - y R2 = [ 1 3 21 escribiendo
13
Incluso se podría escribir
donde A,, = [ 2 O], Alz = [ - 1 1 , A2, = [ 1 31, y Azz = [2]; así consideramos a la
matriz A separada del siguiente modo:
Observe el uso de las líneas punteadas para indicar la separación cuando los
elementos son números y no matrices.
(1.39)
Definkidn. Se dice que una matriz A es separada cuando se dibujan líneas
verticales punteadas que atraviesan la altura completa de la matriz entre
columnas seleccionadas y líneas horizontales punteadas que atraviesan lo
ancho de la matriz, dibujadas entre renglones seleccionados. Las pequeñas
matrices que seforman a partir de los elementos contenidos dentro de10s
rectángulos formados por estas líneas se llaman submatrices de la partición
o separación de A.
Suponga que dosmatrices A y B p x q se separan del mismo modo
mediante
A = [Al
A21
y
B = [Bl
B2],
donde A, y B, son p x r y Az y B2son p x ( q - r ) ; entonces resulta obvio que
A + B = [Al + Bl A, + B,].
De modo similar, suponga que una matriz A p X r se separa en
mientras que la matriz B r x q se particiona en
.
38
1
/
Algebra matricial
Resulta entonces claro que el producto AB puede separarse así:
AB=[ Al,B, + 4 2 B 2
A2 IB, + A 2 P 2
1
siempre y cuando las submatrices sean tales que cada uno de los productos y
sumas tenga sentido; para comprobar esto, sólo tiene que escribir el producto en
sus dos formas, regular y separada, mostrando los elementos individuales, y
verificar que los resultados sean iguales.
La regla general es como sigue:
(1.40)
Las matrices separadas pueden sumarse, restarse, multiplicarse entre sí y
multiplicarse por escalares comosi las submatrices fueran números, mientras que se conserveel orden correcto enlos productos y las separaciones
sean tales que las sumas, restas y productos estén bien definidos.
(1.41)
Ejemplo. Suponga que A seseparaen
A = [a,a,
columnas como
...
a,]
y x en renglones
Entonces Ax = xlal + x+a, +
(1.42)
+ x&.
Ejemplo. Es costumbre pensar en el producto AB como lamultiplicación
de los renglones de A por lascolumnas de B. También es posible visualizar
AB en términos de las columnas de A y los renglones de B. Suponga que A
se separa en sus columnas y B en sus renglones:
Cada aies una matriz columna, mientras que cadabi es una matriz renglón.
Según (1.40) se tiene
AB = a,b,
+ a,b2 + . . . + arb,,
que expresa el producto AB en términos de las columnas de A y los
renglones de B y no al contrario.
1.5
I
39
Matrices separadas
Las matrices separadas son útiles en una gran variedad de formas. Si un
sistema físico de interéspuede dividirse en varios subsistemas interconectados,
el comportamiento
del sistema completo puede describirse utilizando una matriz
grande separada detal modo que las submatrices que se encuentranloalargo de
la diagonal principal describan los subsistemas separados, y las submatrices
fuera dela diagonaldescriban las interconexiones. Estopuede ayudar a aclarar
la
estructura de un sistema grande y complicado.
Ahora podrá resolver los problemas del I al 15.
Matrices separadas e inversas
Nuestra discusión sobre las matrices separadas, se inició notando quelas ecuaciones surgidas al buscar inversas se dividían en conjuntos involucrando incógnitas separadas; ahora
se retomará aeste tema. Por ejemplo, al buscar una inversa
derecha R para una matriz A de p X q , intentamos resolver AX = I para una
matriz X (que sirva comoR). Separe X en sus columnas como X = [x1 x2 . x,]
y separe I en sus columnas [e, e, . ep]. De acuerdo a (1.40),el producto AX se
puede calcular como
-
ya que cada Axi es sólo una matriz columna, esta representación separa el
producto AX en sus columnas. Pero se quiere que AX sea igual a I , que se ha
separado en sus columnas ei. Por lo tanto AX = I es equivalente a
Ax, = e,, Ax, = e,,. . . ,Ax, = e,.
De acuerdo a (1.36), cada una de estas ecuaciones Axi = e(, es simplemente un
conjunto dep ecuaciones lineales con q incógnitas (los q elementos en la matriz
columna xi); observe que los coefiientes en cada conjunto de ecuaciones son
iguales -sólo los lados derechos difieren. Existe una situación similar para
encontrar inversas izquierdas.
Antes de enunciarformalmente estos resultados, necesitamos una
de definición.
(1.43)
Definición. La matriz columnaunidad i-ésima ei de orden p es la matriz
columna de p x 1 que es la i-ésima columna de la matriz identidad I, p X p :
para 1 5.j 5 p ,
= 1 si i = j y (eoj = O si i + j .
40
1
/ Algebra matricial
Ahora podemos resumir cómo, el problema de encontrar matrices inversas,
se reduce al problema de solucionar varios conjuntos de ecuaciones lineales,
cada una con la misma matrizde coeficientes. Más adelante esto resultará ser de
extrema importancia para el desarrollo de procedimientos computacionales
eficientes para la inversión de matrices en la práctica.
DEMOSTRACION
a) Se demostró en el material contenido antes de la definición 1.43
b) Sabemos que siendo L una inversa izquierda de A significa que LA =
I,. Entonces I, = Ir= (LA)T= A T T ,y la condiciónA T T= I, significa
que LT es una inversa derecha de AT.De este modo sepuede aplicar
el resultado del inciso a) que ya fue demostrado para AT, lo cual
demuestra el inciso b).
c) Sabemos que X es una inversa bilateral si y sólo si X es al mismo
tiempo inversa izquierda e inversa derecha. Ya que los incisos a) y b)
se han demostrado;X es una inversa bilateral siy sólo si secumple a)
con X = R y b) con X = L. w
PROBLEMAS
1.5
1. Encuentre la matriz A, 3 x 2 y la matriz Az 3 x I para que A sea separada
como A = [A, A,], donde
r1
2 -31
1.5
I Matrices separadas
41
D 2. Encuentre las submatrices B, y B2 en las que debe separarse la matriz B
indicada abajo para usar la regla general (1.40) y sumarla a la matriz A del
problema 1. Después calcule [A, + B, A2 + B,] y A + B directamente y
muestre que las sumas son iguales.
-:]
B=[-i
1 -2
=[-:I,
41 y A la matriz del problema 1. Calculede manera directa
y CA, y verifique que los productos sean los mismos.
4. Sean
Al
B, = [ 1
A,=[-:
41,
y
B,
3
=[-:
i],
:].
Evalúe cada una dea
lsexpresiones siguientestanto en forma separada como
directamente y verifique que los resultados sean los mismos
a) [Al
A,]'
D 5. Evalúe AB en forma separada y directamente, y verifique que los resultados
sean los mismos, donde
A=[ 4
2
-5
3 1I - 2
I 6
1
3
o
-1
I
2
-1
1
3
-1
6. Demuestre que, si B se separa como se indica, entonces BT es como se
indica.
D 7. Verifique(1.41) que Ax = x,al + . . . + x c q para
5
-1
31
A=[,
2
y
x=[-:]
-6
8. Demuestre (1.41) que Ax = x,a, + . . . + x$, en el caso general, compro-
bando que se satisface la definición de matrices iguales.
42
1
I
Algebra rnatrlcial
9. Verifique (1.42) calculando AB en términos de las columnas de A y de los
renglones de B para
10 Demuestre (1.42) calculando AB en términos de las columnas de A y de los
renglones de B en el caso general, mediante la comprobación de la definición
de matrices iguales.
D 11. Suponga que A, B y C son matrices cuadradas.
a) Si cualquiera de las tres matrices es singular, demuestre que la matriz
separada D = diag(A, B, C) que se indica es singular.
lstres matrices A, B y C son no singulares, demuestre
que la matrizD es
b) Sia
no singular y que su inversa es
D"
0"
como se indica abajo.
D=[g
O
L]
= diag(A",
y
B-', C-l),
D " = P A"
O
1
OB - '
O
c-
m12. Sean A, y A, las matrices 5 X 5 definidas en elproblema 23 de la sección 1.4 y
sea
a) Utilice el MATLAB para calcular D" mediante el uso del análogo del
método del problema 1 1 , introduciendo el comandoflops del MATLAB
inmediatamente antes e inmediatamente después de los cómputos; determine además cuántas operaciones de punto flotante se usaron para
invertir D con este método.
b) Utilice el MATLAB para calcular la inversa de D de manera directa,
nuevamente, utilizando el comando flops para medir el trabajo involucrado .
c) ¿Qué método es más eficiente?
D 13. Sea A una matriz no singular p x p , u y v matrices columnap x 1 , y d un
número. Demuestre quela matriz limitada h ,que se define en seguida, es no
singular si y sólo si elnúmero 6 que se define con 6 = d - vTA"u es diferente
de cero, y que la inversa de ;ies entonces como sigue:
1.5
I Matrices
separadas
43
donde B = A" + ( 1/8)A-luvTA", w = -( 1/8)A"u, zT = - ( 1 /S)vTA".
Además, demuestre queA-' = B - SwzT.(Observe que esto prueba que
una
vez quese conoce la inversa una
de matriz F dada, esfácil calcular la inversa
de una matriz obtenidaa partir deF, ya sea agregando un renglón o columna
a F o eliminando un renglón o columna de F.)
R 14. Considere la matriz simétrica
A 7 x 7 y su inversa dada en ejemplo
el
1.3 1 de
la sección 1.4.
a) Utilice el MATLAB o algún programa similar para encontrarla inversa de
la matriz 8 x 8, mediante el método del problema 13, que se obtuvo
agregando un renglón y una columna aA, que amplía el patrónobvio en
los elementos de A.
b) Utilice el MATLAB o algún otro programa similar para encontrar la
inversa de la matriz 6 x 6, mediante el método del problema 13, que se
obtuvo eliminando el séptimo renglón y la séptima columna de A.
15. Considere el producto Kronecker A 0 B, definido en el problema 10 de la
sección 1.3 para toda matriz A p x q y toda matriz B r X s.
a) Demuestre queun modo equivalente dedefinir el productoC = A O B es
como aquella matrizpr x q s separada enp q submatrices Cucada una r X
S, donde Cu = ( A ) a y
b) Demuestre que, para toda matriz A,
[l] O A = A 0 [l] = A.
c) Demuestre que, para toda matriz A, B y D,
AO(B+D)=AOB+AOD.
D 16. Utilice el método del teorema 1.44 c) para encontrarla inversa dela matriz A
mostrada abajo, y verifique que es una inversa izquierda y derecha.
A=[-'
1
"1
-7
17. Utilice el método del teorema 1.44 c) para encontrar la inversa de la matrizA
mostrada abajo, y verifique que es una inversa izquierda y derecha.
18. a) Encuentre la segunda columna de
muestra abajo.
la inversa de la matriz A, que se
44
1
I Algebra
matricial
-:-!]
b) Encuentre el tercer renglón de la inversa de A.
A=[-:
2
-1
D 19. Encuentre el segundo renglón de la inversa izquierda de
20. Sea A la matriz de 10 x 10 del problema 27 a) de la sección 1.4.
a) Utilice el MATLAB para calcular directamente A-I; introduciendo el
comando del MATLAB flops inmediatamente antes e inmediatamente
después de estaoperación, obtenga el número de operaciones en punto
flotante, utilizados para calcular A" de este modo.
b) Utilice elMATLAB paracalcular A-' resolviendo los 10 sistemas Axi = ei
como en el teorema 1.44 c) con las matrices de columna unidad e i ; use el
cornandoflops para medir el trabajo hecho en el cómputo A" mediante
este método.
c) ¿Qué método es más eficiente?
1.6
PROBLEMAS VARIOS
PROBLEMAS
1.6
1. Sea k # O un número diferente de cero; demuestre por inducción que para
todo entero positivo n:
{"Demostrar por inducción" significa: a) verificar para n = 1; b) demostrar
que si elresultado es verdadero para cualquiern, entonces es verdadero para
n + 1. }
D 2. a) Encuentre todas las matrices reales A para la cual ATA = O.
b) Encuentre todas las matrices B para la cual BHB = O.
D 3. Suponga que K es una matriz cuadrada con K = - K T y que I - K es no
singular, defina B como
B = (I + K)(I - K)-'.
Demuestre que BTB = BBT= I, o sea que B" es BT(dichaB se dice que es una
matriz ortogonal).
1.6
/
Problemas varios
45
D 4. Demuestre que:
a) Si A tiene un renglón de ceros completo, entonces A no tiene inversa
derecha.
b) Si A tiene una columna de ceros completa, entoncesA no tiene inversa
izquierda.
c) Si A es cuadrada y tiene ya sea un renglón completo o una columna
completa de ceros, entonces A es singular.
5. Si los elementos(A), de una matrizA son funcionesde una variablet, definimos
la derivada dA/dt como la matriz de derivadas: (dA/dt), = d(A),/dt.
a) Si AB está definida, demuestre que
b) Si A es no singular, diferencie AA" = I para obtener
D 6. Para una matriz cuadrada A, defina la traza de A, tr(A), comola suma delos
elementos sobre la diagonal principal de A. a) Demuestre que tr(AB) =
tr(BA). b) Demuestre que tr(S"AS) = tr(A) si S es no singular.
7 . Si en forma separada,
donde A y P son no singulares, demuestre que
A" =
[
- 2 P -
donde
W = (S - RP"Q)",
X = P"
+ P"QWRP".
De manera similar, si A y S son no singulares, demuestre que
en donde
X = (P - QS'R)",
W = S"
+ S"RXQS".
Si P y S son no singulares, demuestre directamente las
queformas son equivalentes. Compruebe que
(S - RP"Q)" = S" + S"RXQS",
un resultado útil en las aplicaciones. Vea el final de la subsección de la sección
3.8, donde la fórmula se deriva desde un punto de vista diferente.
2
Algunas aplicaciones simples
y preguntas
Este capítulo tiene dos metas: 7) mostrar el poder de las matrices en la
organizacidn y clarificacidn de conjuntos complicados de relaciones; y 2)
alentar algunas preguntas naturales sobrelas matrices que surgen delas
aplicaciones prdcticas -como una motivacidn para continuar con algunos
de los estudios posteriores.
Ya que el capítulo no contiene teoremas ni demostraciones, no contiene
de
material clave, y mds bien presenta una amplia variedad de aplicaciones
las matrices en diversos campos, algunosde los cuales serdn de importancia yde interés para la mayoría
de los estudiantes.
La información sobre las
matrices, necesaria para comprender este capítulo, es tan sdlo el Algebra
matrrcial presentada en el capítulo l .
Las secciones de este capítulo
se utilizan como una fuente de motivacidn
ejemplos para capítulos posteriores. Algunas de las preguntas que se g
ran en lassecciones 2.2,2.3y2.5 originan parte del material
losde
capítulos
7,8 y9. El capítulo 3se sustenta en las preguntas
de las secciones restantes
de este capítulo, elycapítulo 4en las secciones 2.4 y 2.6. El capítulo 8 hace
referencia a los artículos de la sección 2.6, mientras que el capítulo11 se
dedica a la sección 2.7.
2.1
INTRODUCCION
En muchas aplicaciones, la utilidad de las matrices surge del hecho de que
pueden representar un arreglo de muchos números como un solo objeto desig46
2.2
I Competencia entre negocios:cadenasde
Markov
47
nado mediante un solo símbolo, permitiendo que las relaciones entre las variables puedan expresarse deun modo conciso. En realidad, no
se realiza nada que
no pudiera hacerse sólo en términos de los elementos de las matrices, pero la
notación matricial con frecuencia hace que se vea más claramente la relación
esencial.
En la sección 2.2 se considerauna aplicación de las matrices en un modelo
simple de la situación en el mercado, en el los
cual
clientes cambian de abastecelas matrices en un modelo de competencia
dores; lasección 2.3 estudia el uso de
entre poblaciones. Ambas aplicaciones, en el lenguaje de las matrices, se reducen esencialmente,al estudio de la multiplicación de matrices y -de manera más
precisa- alcomportamiento de las potencias
positivas grandes de una matriz fija;
se generan preguntas sobre tales potencias paralas cuales se desarrollarán las
herramientas de uso necesarias.
La sección 2.4 examina una aplicación que conduce a algunas preguntas
sobre laresolución de sistemas deecuaciones lineales; el temaes el estudio del
equilibrio estático de redes, especialmente en marcos unidos con pasador.
Después seexamina un fenómeno oscilatoriosimple, un tema importante en
muchas áreasde la ciencia y la ingenieria. La sección 2.5 estudia la oscilación de
dos pesos atados por hilos; esto arroja preguntas sobre lasmatrices que depenlos valores de dichos parámetros, los
den de parámetrosy sobre cómo encontrar
cuales hacen que la matriz sea singular. Esto damotivo al estudio posterior de
los llamados eigenvalores.
Un tema que ocupa el total de las matemáticas aplicadas es eldel modelado:
¿Cómo se pueden construir modelos matemáticos que reflejen de manera, lo
suficientemente precisa, las propiedades del mundoreal? Uno delos aspectos de
este problema es: dadoque un modelo deuna situación del mundo real ha de ser
se
de cierto tipoy forma dependiendo de ciertos parámetros, ¿cómo determinan
los valores de estos parámetros?El método de los mínimos cuadrados se introduce en la sección 2.6 para iniciar este tema; surgen preguntas sobre si las
ecuaciones lineales que se generan tienen soluciones y -si las tienen- sobre cómo
encontrarlas
En la sección 2.7 se considera un modelo simplede la planeación de producción, que lleva a la necesidad de resolver lo que se llama un programa lineal.
Tales problemas dan un ejemplo excelente del poder de la metodología matricial.
2.2
COMPETENCIA ENTRE NEGOCIOS: CADENAS DE
MARKOV
Muchos modelos matemáticos en la ciencia, la ingeniería y los negocios tienen
que cubrir los aspectos de la oportunidad y el azar; no se puede saber con certeza
lo que harán nuestros competidores, la bolsa de valores, una partícula subatómodelos utilizan las herramientas matemáticas
mica, y así sucesivamente. Tales
de la reoría de la probabilidad para hacer, entre otras cosas,
predicciones sobre
el comportamientopromedio de estosmodelos. Se carece de espacio para tratar
la teoría de la probabilidad en este libro; en vez de ello se examina un modelo
48
2
/ Algunas aplicaciones simples y preguntas
simple determinístico-en lugar de probabilístico- que lleva a un aspecto clave de
los modelos probabilísticos: la cadena de Markov.
Un modelo de competencia entre tres lecherías
Se ilustra la noción de la cadena de Markov mediante la consideración de una
competencia entre lecherías que surten
el producto leche a ciertapoblación. Con
el tiempo, algunos clientes cambian de repartidor pordiferentes razones: publicidad, costo, conveniencia, etc. Se deseamodelar y analizar el movimiento de
los clientes entre los proveedores, suponiendo, por simplicidad, que la misma
fraccidn de los clientes cambiará de una lechería cualquieraa otradurante cada
periodo de tiempo (digamos, un mes).
Suponga que al comenzar nuestromodelo -digamos, el 3 1 de diciembre- las
tres lecherías, llamadas lecherías 1, 2 y 3 controlan las fracciones xo, y o y zo
(respectivamente) del mercado;suponiendo por simplicidad que estas lecherías
fueran las únicas repartidoras, se observaque las fracciones deben ascender 1:a
x0 + yo + zo = 1 .
Suponga que despuésde un mes lalechería 1 ha logrado mantener la fracción
a,,de sus propios clientes y además ha atraído las fracciones aI2de los clientes de
la lechería 2 y uI3de la lechería 3. Supóngase que el número total de clientes
permanece constante en,digamos, N , con lo que puede trasladarse auna fórmula
el hecho de queel número de clientes de la lechería después de un mes, esigual al
número de clientes que permanecieron en ella, más el número de clientes que
adquirió de la lechería 3.
adquirió de la lechería 2, más el número de clientes que
Sea x, lafraccidn del mercado que tiene la lechería1después de un mes y se tiene
entonces
xlN = all(xON)
+ a12(yON) + a13(z0N).
Se obtienen ecuaciones similares para el número de clientes
de las lecherías 2 y 3
después de un mes, en términos de sus nuevas partes y , y z,. Al separar estas
ecuaciones de N se obtiene:
(2.1)
+ a12y0 + a1320
y1 = a21x0 + a 2 2 Y 0 + a2320
z 1 = Q31X0 -k a 3 2 y 0 + a33z0,
x1
= allXO
donde aii = fracción de los clientes de la lechería i, conservada por la
lechería i.
a, =fracción delos clientes de la lecheríaj, perdidos por la lechería i(i# j).
Las matrices expresan esto de una manera concisa como
(2.2)
x 1 = AX,,
donde x, = [x, y , z , ] ~para r = O o 1 y (A)ij = aij.
I Competencia entre negocios: cadenasde
2.2
Markov
49
Ya que las fracciones ai,son partes del mercado, obviamente O 5 ail 5 1.
Observe también, quede los clientes originales de la lechería1, la fracción A , ,
permanece con la lechería 1, la fracción u2, pasa a la lechería 2, y la fracción a31
pasa a la lechería3; ya que estas fracciones deben considerar todos
los clientes
originales de la lechería 1, encontramos que a , , + aZ1+ a31 = l.Aplicar el mismo
argumento a las lecherías 2 y 3 produce el hecho de que
(2.3)
O S ai,5 1 para toda i y j , y la suma de las entradas en cada columna de
A es 1:
a,,
+ a,, +
para i = 1,2,3;
u3, = 1
en forma equivalente O I (A)ij I 1
para
toda
(A),, + (A)2i + (A)3i = 1
i y j, Y
para i = 1,2,3.
Se leconoce ala matriz A como la matriz de transicibn para elmodelo; observe
que en gran parte de la literatura, las matrices de transición se definen como la
transpuesta de nosotros.
Por simplicidad, se supone que lasfraccionesaU de clientes quecambian de
repartidores permanece igual cada mes. Si se utilizan x,, y , y z, como los
símbolos que designan las fracciones del total de clientes que conserva cada
lechería al final de r meses, entonces no sólo se tiene (2.2) para la transición
después de un mes sino también
x , + ~= Ax,
(2.4)
donde x, = [x,
y,
para r = O, 1,2,. . . ,
z,]~.
Ya que x2 = Ax, = A(Axo) = A2xoy de manerasimilar para xr, se obtiene de modo
general:
(2.5)
x, = Arxo para r = O, 1,2,. . . .
Ahora podrd resolver los problemas 1 y 2 .
Intuitivamente resulta obvio que las partes x, y,, z, del mercado deben
siempre sumar 1 ; se demuestra qce esto,
de hecho, se sigue dex, + yo + zo = 1 y
de las propiedades
de A. Para hacerlo,se utiliza el poder de
la notación matricial:
para que
se define l3como la matriz columna de 3 x 1 l3= [ 1 1 l]',
l:xr = [l
1
l][xr
y,
Z,]T = [x,
+ y, + z,].
50
1
,:
2
'
I Algunas aplicaciones simples y preguntas
'
j'
Por lo tanto, el problema radica en mostrar quelrx, = [l] para todar , lo cud se
hará en seguida. Ya que la suma de los elementos en cada columna de A es 1 ,
resultaclaroque
lTA=[l
Ya que [l] = l:xo,
1:A
1
1 ] = 1;.
= 1T, se razona que
ya que Ax, = xl, examinando el extremo izquierdo
y el extremo derecho de estas
igualdades, seobservaque [l] = lTxl. Al continuardeeste modo-unargumento
preciso requeriría de inducción- se concluye, comose deseaba, que [I] = l;x,
para toda r .
(2.6)
Ejemplo. Se consideraconcretamenteun ejemplo numérico parailustrar
las ideas anteriores. Suponga quex. son las partes iniciales del mercado y
que la matriz de transición A es
[CL;]
0.2
x. =
y
0.8
A=
0:;
0.2
Observe que(2.3) se cumple.Fácilmente -en especial si se usa el MATLAB
o algún programa similar- se obtiene x, = Axo, x2 = A x l , y así sucesivamente mediante la multiplicación de matrices; redondeados a tres decimales, algunos resultados representativos son
Al formar xI7= Ax,,, se encuentra quex17 = x167 que significa que de hecho
todas las x, para r L 16 son iguales, es decir, x16, como se dio arriba. En
otras palabras, las partes del mercado después de 16 meses se volvieron
constantes (al menos hasta tres decimales).
En 45,35 y 2Yo el mercado está
e n equilibrio.
Comportamiento limite y equilibrio
Se quiere averiguarsi el equilibrio alcanzado en el ejemplo 2.6 Ocurre de manera
más general que en ese caso especial. Se examina si las matrices columna x,
pudieran tender aalguna matriz columna límite x, a medida que r crece. Ya que
x,+ = Ax,, si xk tiende a x,, se sigue que x, = Ax,; de modo similar, ya que se
2.2
I Competencia entre negocios:cadenas de Markov
51
tiene lTxl = [l] para toda r , se sigue que, también, l ~ x ,= [I]. En resumen se
tiene lo siguiente:
(2.7)Si
las x, tiendenaun
= [xm ym
límite x,
AX, = X,
y
X,
zm
+ y, +
IT, entonces 1 6 0 4 1 5
Z ,
= 1.
Ya que A es 3 x 3 , la ecuación Ax, = xmrepresenta tan sólo un sistema de
tres ecuacionescon tres incógnitas; la última condición en (2.7) se combina con
un sistema de cuatro ecuaciones
lineales en las tres
esto para dar como resultado
incógnitas X,, y,, y z., Esto es,si x, tiende a un límite, los candidatosposibles
para el límite se pueden encontrar al resolver un sistemade cuatroecuaciones
con tres incógnitas.
(2.8)
Ejemplo. De modo concreto, considere nuevamente el modelo del ejemplo
2.6. Si las x, tienden a cierta X, -como parece entonces, x, satisface a
(2.7). Al escribir esas cuatro ecuaciones con tres incógnitas x,, y,, ,z,
se tiene
+ 0.2y, + O.lZ, = x,
0 . 1 +~ 0~. 7 +
~ 0.32,
~
= y,
0 . 1+
~ 0~ . 1 +~ 0.62,
~
=
x, + y, + z , = 1.
0.8x,
Z ,
Con algún esfuerzo sepodría usar álgebra de secundaria para resolver este
sistema de ecuaciones lineales, descubriendo que tiene exactamente una
solución, es decir
X,
= 0.45,
y, = 0.35,
Z,
= 0.20,
que es precisamente lo que seencontró experimentalmente en el ejemplo
2.6. Aún nose haprobado quelas x, tiendan, de hecho, aalgún límite, pero
si está demostradoque el Único límite posible es [0.45 0.35 0.20IT-ique de
ningún modo depende de las contribuciones iniciales en el mercado!
Volviendo al caso general, se debe recordar que todo límite posible de x,
debe satisfacer a (2.7). Para el caso general, se desea saber:
l . ¿Cómo se puede determinar si-como ejemplo
en el 2.8- las ecuacionesen
(2.7) tienen alguna solución?
2. ¿Cómo se pueden obtener estas soluciones?
52
2
I
Algunas aplicaciones simples y preguntas
Aun cuando se pudiera responder a estas preguntas, todavía no sabríamos si las
x, tienden de hecho a un límite. Aún queda la duda:
3. ¿Cómo se puede decir si xr tiende a un límite?
En estemomento se carece delas herramientas para responder a estas preguntas; en los capítulos 3 y 9 se desarrollarán los elementos necesarios.
Comportamiento límite de las potencias de matrices
Existe otro método para comprenderel comportamiento general de x,. Recuerde
que x, = A'x,;si se puede comprender el comportamiento de Ar para una r
grande, entonces se puede deducir el comportamiento de x, para una r grande.
(2.9)
Ejemplo. Considere la matrizA en el modelo del ejemplo 2.6. Los cálculos,
redondeados a tres cifras, muestran que
0.15
0.15
0.40
0.536 0.338
0.405
0.278 0.412
0.407
0.188
0.188
0.450
0.350
0.200
0.450
0.350
0.200
0.250
0.450
1
0.350 ,
0.200
y todas las potencias superiores a A son iguales a Al6 hasta tres cifras
decimales. En este caso en particular, resulta que A' tiende a una matriz
límite A,.
El ejemplo 2.9 muestra que se podría tener éxito en el estudio de x, estudiando a A' para una r grande. Agregamos una cuartapregunta a las anteriores
que deseábamos responder:
4. ¿Cómo se puede distinguir si las potencias A' tienden a un límite A,, y
cómo se le puede encontrar si existe?
Más adelante se conocerá la respuesta a esta pregunta así como la de las tres
preguntas anteriores.
Cadenas de Markov
El modelo general que seha consideradoes unejemplo sencillo de una cadena de
Markov (de primer orden). De manera más general, suponga que se desea
estudiar cierto sistema -tal como la competencia entre lecherías- el cual se
2.2
/
Competencia
entre
negocios:
cadenas de Markov
53
describe en cualquier momentoen el tiempo mediante los valores de p variables
-como las partes de mercado de p = 3. Si se escriben estos valores como los
elementos de una matriz, p x 1, x, en el r-ésimo instante de tiempo, entonces
estos uectores de estadox,describen el sistema. Entonces,
si A es una matrizp x
p , la ecuación x,+~= Ax, describe la evolución del estado del sistema en el
tiempo. Usualmente se desea conocer
el comportamiento de x, o A' para una r
grande; con frecuencia esto es
posible bajo suposiciones especiales deA -tales
como (3.3) además de condiciones adicionales.
PROBLEMAS
2.2
1. Demuestre quela ecuación matricial(2.2) expresa
a
lsrelaciones escritas en
(2.1)
2. Mediante inducción, demuestre que lasx,
= Arxode(2.5) se mantienen, dado
(2.4).
3. Suponga que -en lugar de lo que se dio en el ejemplo 2.6- las partes iniciales
x. en el ejemplo 2.6 son x. = [0.5 0.5 O
a) Después de un mes
b) Después de dos meses
3'.
D 4. Tres compañías, 1, 2 y 3, introducen al mercado simultáneamente marcas nuevas de pasta dental. Al principio, las acciones iniciales del mercado disponible son de 40, 20 y 40%, respectivamente. Durante el primer
año, la compañía 1 mantuvo el 85% de su clientela, obtuvo el 15% de la
clientela dela compañía 2, y el 5% de la compañía 3; la compañía 2 obtuvo el
5% de la clientela de la compañía 1, retuvo el 75% de su propia clientela, y
obtuvo el 5% de la de la compañía 3; y la compañía 3 obtuvo el 10% de la
clientela de la compañía 1, el 10% de la compañía 2 y retuvo el 90% de su
propia clientela. Suponiendo que el merca0 total que se comparteen estas
tres compañías no varía y que cada año se intercambian entre ellas las
mismas fracciones:
a) Escriba en la forma (2. I) cómo secambian las acciones del mercado
de
un año a otro.
b) Encuentre la matriz de transición A.
5. Para la situación descrita en el problema 4, calcule el estado de las acciones
del mercado
a) Después de un año.
b) Después de dos años.
D 6. Suponga que la ocupación de cada persona puede clasificarse como de
profesional, calificado, o no calificado. Suponga que siempre es cierto que:
de los hijos de profesionales, 70:; son profesionales, 20% son calificados,
y 10% son no calificados; de los hijos de personas calificadas, 60%son
54
2
/ Algunas aplicaciones simples y preguntas
calificados, 20% son profesionales, y 207; son no calificados; y de los hijos
de no calificados, 20% son profesionales, 30% son calificados y 50% son no
calificados. Suponga queel número total de personas
con una ocupación es
el mismo cada generación,y que enla generación actual, 35% son profesionales, 35% son calificados, y 30% son no calificados.
a) Escriba en la forma (2.1) cómo evoluciona el porcentaje de cadatipo de
ocupación de un año a otro.
b) Encuentre la matriz A de transición.
7. Para la situación descrita en el problema 6, encuentre la distribución de
trabajos:
a) Después de una generación
b) Después de dos generaciones
8. Para la matriz general A de (2.2), demuestre que l:A = 1;.
9. Demuestre por inducción que, para el modelo(2.3-4), lTxr = [l] para todar
2 1.
D 10. Resolviendo las ecuaciones de (2.7), encuentre el estado de equilibrio -si
existe- del mercado para la situación descrita en el problema 4.
11. Resolviendo las ecuaciones en (2.7), encuentrela distribución de equilibrio
-si existe- entre los tipos de empleados parala situación en el problema 6.
!Vi 12. Utilice el MATLAB o software similar para verificar el comportamiento de
x, mencionado en el ejemplo 2.6.
%J1 D 13. Utilice el MATLAB o software similar para comprobar experimentalmente
si las acciones del mercado en el problema 4 convergen en un conjunto límite
de acciones conforme pasa el tiempo.
%n 14. Utilice el MATLAB o software similar para comprobar experimentalmente
si la distribución de empleo en el problema 6 convergeen una distribución
límite conforme pasa el tiempo.
M
! 15. Utilice el MATLAB o software similar para comprobar experimentalmente
si las acciones del mercado en el problema 3 convergen enun conjunto límite
de acciones conforme pasa el tiempo.
16. Suponga quela matriz A mostrada abajo es la
matriz de transición para u n
problema del tipo que se considera en esta sección.
a) Demuestre que satisface (2.3).
b) Resolviendo las ecuaciones en (2.7), demuestre que hay infinitamente
muchas posiciones de equilibrio xm= [ a 1 - 2a a]T, para unaa arbitraria
con O Ia 5 0.5.
2.3
/
Crecimiento de la poblaci6n: potencias deuna
matriz
55
D 17. Demuestre que para la situación del problema 16, dada x,,, la secuencia de
estados x, no tiende a algún valor a menos que x, misma sea una posición
de equilibrio.
R 18. Utilice el MATLAB o algún software similar para verificar que las potencias
A' se comportan como se describeen el ejemplo 2.9.
R 19. Para la matriz A del problema 4,utilice el MATLAB o software similar para
determinar el comportamiento deA' para r grande.
!IR 20. Para la matriz A del problema 6, utilice el MATLABo software similar para
determinar el comportamiento deA' para r grande.
D 21. Para lamatriz A del problema 16, demuestre amano que las potencias A' no
convergen en ninguna matriz A,.
2.3
CRECIMIENTO DE LA POBLACION: POTENCIAS DE UNA MATRIZ
En la sección anterior se consideró un modelo de la evolución de un sistema; en
x,+~
= Ax, moldeabael comportamiento
del sistema y
dicho caso se encontró que
que la matriz A satisfacía algunas condiciones muy especiales (2.3) que son
comunes a las cadenas
de Markov. Enmuchas aplicaciones se puede moldear la
evolución de un sistema mediante x,+~ = Ax,., y sin embargo encontrar quelas
condiciones especiales (2.3) no se satisfacen; tales sistemaspueden exhibir un
comportamiento muy diferente del que se encontró en la sección anterior.
Consideramos un ejemplo simple para ilustrar esto.
Modelaje del crecimiento de una poblacidn
En estasección se creay estudia un modelo simple delcrecimiento de poblaciones a lo largo del tiempo. Imagine que se cuentala población en ciertos puntos
o cada mes, o cada segundo- siendo p i
discretos en el tiempo -talcomo cada año
el número deindividuos en la población en el punto i-ésimo del tiempo. Aquí no
es importante la naturaleza de estos individuos -personas, gallinas, bacterias,
etc.- sino su número. El modelo supone que la tasa de
natalidad b y l a tasa de
mortalidad d son independientes del tiempo, y que se conocen estos números.
Así que el número de individuos nacidos entre los tiempos i-ésimo y (i 1)-ésimo
individuos que muerenes dpi. Esto da
es tan sólo de bpi, mientras el número de
pi+ - p i = bpi - dpi, esto es
+
(2.10)
Como entonces
p i + l = (1
+ b - d ) p , para i = 1,2,. . . .
56
2
Algunas aplicaciones simples y preguntas
/
y así sucesivamente, se puede concluir que
(2.11)
p i + 1 = (1
+ b - d)'p,
para i = O, 1 , 2 , . . . ,
donde p1 es la población inicial. A partir de (2.11) se analiza fácilmente el
comportamiento dela población en el tiempo: a) si la tasa denatalidad excede la
tasa de mortalidad, entonces
1 + b - d > 1y p i tiende a infinito con i ya que (1 + b
- d)' tiende a infinito; b) si la tasa de mortalidad excede la tasa de natalidad,
entonces 1 + b - d < 1 y p i tiende a cero ya que (1 + b - d)" tiende a cero.
(2.12)
Ejemplo. Suponga la tasa de natalidad b = 0.2 mientras que la tasa de
mortalidad d = O. 1 ;entonces 1 + b - d = l . 1 y la población tiende a crecer.
Si la población inicial es p1 = 10,000, encontramos que p z = 11,000 (aproximadamente), p 3 = 12,100, p4 = 1 3 , 3 3 1 , ~=~14,641, plo= 21,435, pso =
970,137, ploo= 20,483,147, y así sucesivamente.Por otro lado,si la tasa de
natalidad b = O . 1 mientras que la tasa demortalidad d = 0.2 entonces 1 + b
- d = 0.9 y la población tenderá a desaparecer; comenzando con p 1
= 10,000 encontramos que (aproximadamente)p,= 9000, p 3 = 8100, p 4 =
7290, p 5 = 6561, plo = 4304, ps0 = 63, plo0 = 2 y así sucesivamente.
Observe que éstees tan sólo un modelo -y no necesariamente se obtienen
resultados cuantitativosprecisos de él. Por ejemplo, si 1 + b - d = 0.9 ypl = 10,
se encuentra que el modelo predice una población de 8.1 individuos en el tercer
instante de tiempo. Los números no son perfectos (las poblaciones reales constan de números enteros), pero el comportamiento cualitativo de una
población
decreciente es correcto.
Ahora podrd resolver los problemas del I al 5.
Poblaciones de competencia
El modelo simple anterior fue sólo un antecedente, para luego considerar la
situación un poco más compleja de dos poblaciones que compiten una contra
otra. Los números enestas poblaciones se denotanmediante Ziy Gi que pueden
visualizarse como el conteo de zorros y gallinas. Suponga que las gallinas, sin
zorros que las molesten, tienen una tasa de natalidad que excede a la tasa de
mortalidad; para ser
más específicos, suponga que en esta situación se tiene Gi+l
= 1 .2Gi. Sin gallinas para alimentarse, sería
de esperar que los zorros comenzaran a extinguirse digamos que Zi+,
= 0.6Zi.
Se quiere poner un modelo a lo que sucede cuando los zorros tienen éxito
devorando cierto número gallinas
de
encada periodo de tiempo, suponiendo que
esto permitiera un incremento en lapoblación de zorros proporcional al número
,
2.3
/
Crecimiento de la poblaci6n: potencias de una matriz
57
de gallinas devoradas. Para ser más específicos, suponga que Zi+l = 0.6Zt +
0.5Gi. La población de gallinas obviamente comenzará a decrecerdebido a los
zorros, de modo que se toma Gi+l= 1.2Gi - kZi, donde k representa la tasa de
gallinas devoradas por zorros;k permanece comovariable para estudiar el efecto
de diferentes tasas demortalidad. Suponiendo que existeun número inicial de
1000 gallinas y de 100 zorros, se obtiene como modelo:
(2.13)
Zi+l = 0.621 + 0.5Gi y
Gi+, = -kZi + 1.2Gi
para i = 1, 2, . . .
con Z, = 100 y G, = 1000.
Se utilizan matrices para analizar el comportamiento de estaspoblaciones conforme pasa el tiempo. Sean
el modelo (2.13) se convierte en
(2.14)
x i + l = Axi
para i = 1,2,. . . , con x, = [lo0
1000]T
Se sigue de (2.14) que xi+l = Axi = A(AxiPl) = A2xi-,, y así sucesivamente, de
modo que de hecho,
(2.15)
x i + , = A'x,
para i = O, 1,2,. . . .
De acuerdo con (2.15) el estudiar el comportamiento dexf conforme i crece es
equivalente a estudiar
el comportamiento delas potencias A*de A, de modo muy
parecido a comose hizo en la sección 2.2. Sin embargo, para el presente caso,
no
se tienen las condiciones adicionales (2.3) de la sección 2.2 que eran responsables del comportamiento simple de Ai en ese caso.De hecho, A' puede comportarse de manera muy diferente para diferentes valores de k.
(2.16)
Ejemplo. Considere nuestromodelo con k = 0.1, de maneraque
La tabla, abajo, muestra
los números aproximados de zorrosy gallinas en el
punto i-ésimo de tiempo para varios valores de i. El modelo verifica de
manera experimental lo que se esperaría: para una tasa de mortalidad k
baja, la población de gallinas crece sin límite y esto permite que la población de zorros también crezca sin límite. La tabla indica que, finalmente,
las dos poblaciones se igualan.
58
2
I Algunas aplicaciones simples y preguntas
4
i
31
5
2
8
6
1 2 1 6 2 100
0
30
Z , 100 560
931
1244
1523
1783
2292
3470
5107
7483
19,409
15,328,199
Gi lo00 1190
1372
1553
1739
1934
2367
3488
5111
7483
19,409
15,328,199
(2.17)
Ejemplo. Considere una tasade mortalidad de gallinas significativamente
la
de gallinas tienda a
mayor, k = O . 18; se verá que esto causa quepoblación
quedar exterminada,lo cual a su vez lleva a la muerte de loszorros -ambas
poblaciones se extinguen. Con k = 0.18, se tiene
La tabla, abajo,muestra los números aproximados de zorros
y gallinas en el
punto i-ésimo de tiempo para varios valores de i. El modelo verifica de
manera experimental lo que se esperaría: Ambas poblaciones tienden a
desaparecer.
i4
13
2
5
8
12
401630 20
Z , 100 560 927
1214
1434
1808
1854
1654
1371
713
312
343
G , lo00 1182
1317
1413
1477
1530
1400
1177
940
459
193
60 80 100
25 2
O
O
Estos dos ejemplos muestran que el modelo puede dar dos tipos de comportamiento radicalmente diferentes, para diferentesvalores de k . Se quiere saber:
l . ¿Cómo se puede determinar el comportamiento
de xia medida que
i crece
para cualquier valor específico de k?
Ya que (2.15) dice que el comportamiento dexi se determina por el comportamiento de las potencias Ai, de igual manera se quiere saber:
2. ¿Cómo se puede determinar el comportamiento de las potencias A' a
medida que i crece para cualquier valor específico de k?
Por el momento se carece de
las herramientas necesarias para responder
a estas
preguntas; en los capítulos 7 y 9 se desarrollarán las herramientas necesarias.
PROBLEMAS 2.3
1. Suponga que p i es la población de una sociedad en el instante i-ésimo, y
suponga, como en esta sección, que el número demuertes en el siguiente
periodo es dpi -proporcional al tamaño de la población. Sin embargo, su-
2.3
I
Crecimiento de la poblaci6n: potencias de unamatriz
59
ponga que la sociedad es “promiscua” en cuanto a que el número de
nacimientos es proporcional al número de posibles apareamientos entre dos
miembros de la sociedad. Demuestre que tal suposición lleva a un modelode
la forma
2. Suponga que en el problema 1, d = 0.3, b = 0.0008, y p1 = 1000. Determine
experimentalmente lo que sucede a la población.
D 3. De manera parecida a como se hizo con la “sociedad promiscua” del
problema 1, encuentre una interpretación para el modelo
4. Suponga que en el problema 3, b = 0.3, d = 0.0008 y p1= 1000. Determine
experimentalmente lo que sucede a la población.
D 5. Suponga que se están estudiandohongos de dostipos, A y B , y que sus tasas
de natalidad y mortalidad son, respectivamente, bA= 0.2, dA= 0.1, bB= 0.3
y dB = 0.15, y que las poblaciones iniciales son p A , , = 1000 y pB.1 = 10.
a) Demuestre que la población de los hongos del tipo B eventualmente
excederá a la del tipo A .
b) Aproximadamente ¿después de cuántos periodos de tiempo ocurrirá esto
por primera vez?
6. Utilice inducción para demostrar (2.15): xifl = A’x,
7. Suponga que en el ejemplo 2.16 secambian las poblaciones iniciales a G, =
100 y Z , = 1000. Encuentre cada población para i = 1, 2, 3, 4.
8. Explique si el modelo (2.13) tiene sentido:
a) si G, = O
b) si Z , = O
981 D 9. Suponga que en (2.13) el valor de k = O . 16. Utilice el MATLAB o software
similar para determinar lo que sucede con Ziy Gia medida que i tiende a
infinito.
981 10. Suponga que en(2.13) el valorde k = O . 16 como enel problema 9. Utilice el
MATLAB o software similar para determinar lo que sucede Ai
con
a medida
que i tiende a infinito.
11. Examinando (2.13), demuestre quesi la poblaciónde zorrostiende a desaparecer a medida que i tiende a infinito, entonces la población de gallinas
también tiende a desaparecer.
12. Utilice el MATLAB o software similar para experimentar con el modelo
(2.13), con elfin de determinar aproximadamente el valor de k para el que el
60
2
Algunas aplicaciones simples y preguntas
/
comportamiento cualitativocambia de un crecimiento ilimitado a una convergencia a cero.
2.4
EQUILIBRIO EN REDES: ECUACIONES LINEALES
La noción general de redes surge en una amplia variedad de Breas: circuitos
eléctricos en la ingeniería eléctrica; sistemas distributivos en el comercio y la
economía; estructuras de juntas articuladas en la ingeniería civil, y además se
considera un ejemplo de estructuras para ilustrar la utilidad de la notación
matricial dentro de tales problemas y para ver qué preguntas sobre matrices
surgen, de manera natural, a partir de la noción general de redes.
Una estructura plana dejunta articulada
Una estructura de junta articulada consta de miembros inflexibles conectado
entre sí de tal modo que se encuentran librespara girar en lasjuntas, de manera
parecida a un trípode. Por simplicidad, nos restringimos a estructuras planas:
todos los miembros se encuentran en un solo plano.
Considere una estructura articulada sencilla plana de cinco miembros, los
cuales se encuentran unidos en la única junta de la estructura. El extremo
opuesto al de la articulación para cada miembro está fijado a una pared vertical y
estos extremos permanecen en una línea vertical recta sobre la pared. (Puede
visualizar esto considerando la estructura como un soporte asegurado en la
pared de la que se cuelga una maceta.) La figura 2.18 muestra esta estructura.
(2.18)
2.4
I Eq;ilibrio
en redes: ecuaciones lineales
61
Las líneas con doble flecha numeradas del 1 al 5 en la figura, representan los
cinco miembrosunidos en el punto indicado con la letra A . Las flechas señaladas
comof, y f,representan fuerzas. aplicadas en la articulación A (de una planta
colgante, por ejemplo). 8, y 8, miden los ángulos que los miembros 2 y 3 forman
con la horizontal donde se encuentran con la pared vertical; 8, mide el ángulo
para el miembro i,y se observa queen la figura 8, y 8, son positivos, mientras que
O,, 04, y son negativos. Se desea responder a lapregunta: ¿Cuando seaplican
las fuerzasf, yf, a laarticulación A , a quéposición se moverá esa articulación?
Sea dl la distancia quela articulación se mueve en la dirección dela fuerzaf,,
y sea d , la distancia que cubre en la dirección de f,. Entonces el problema
consiste en determinar
d (que se define como [dl d , 3') a partir de
f (que sedefine
como [f,f, Suponga quelos pesos de 10s miembros son despreciables y que
sus longitudes y la configuración de la estructura son tales que no hay fuerzas
sobre los miembros cuando f,y f, son iguales a cero. Supongatambién que los
cambios en los ángulos debidos al cambio de posición de A bajo las fuerzas f,
son insignificantes.
Matemáticamente el modelo consiste en tres partes: 1) las fuerzas f crean
fuerzas compresivas(o extensivas) dentro delos miembros, y éstas pueden ser
relacionadas con fórmulas; 2) las fuerzas dentro de cada miembro causan expansiones (o compresiones) dentro del miembro, y éstas pueden ser relacionadas
con fórmulas; y 3) las elongaciones (o compresiones) dentro de cadamiembro
causan movimientos d en la articulación y éstos pueden ser relacionados con
fórmulas. Para la primera parte del modelo, se denota mediante ti la fuerza
extensiva (tensión) dentrodel i-ésimo miembro, de modo que ti es negativo si el
miembro se comprime. Cada fuerza ti está a lo largo de su miembro y lleva la
misma dirección que éste, lo cual permite descomponerla mediante trigonometría en la suma deuna fuerza horizontal y una fuerza vertical; y la suma de las
fuerzas horizontales para todos los miembros equilibra a la fuerza horizontalf,, y
la suma de las fuerzas verticales equilibra f,. En ecuaciones se tiene que
1').
Se denotó [f, f,
c
1' mediante f; denótese ahora [I, r, t, f 4 t , 1' mediante t y ,
8,
sen 81
-COS
-COS
8,
sene,
-COS
e,
sen 8,
-cos e,
sen 8,
-cos 8,
sen 8,
Entonces (2.19) puede expresarse de manera compacta como
(2.20)
At = f.
Ahora, en cuantolo que
a
serefiere a lasegunda parte delmodelo: la relación
de las fuerzas internas t con las expansiones o compresiones que causan. Su-
62
2
Algunas aplicaciones simples y preguntas
/
ponga que las fuerzas y elongaciones son tan pequeñas que sepuede aplicar la ley
de Hooke:la deformación e que resulta de una fuerza t es linealmente proporcional a t , con la constante k de proporcionalidad llamada elasticidad: e = kt.
Permítase que cadamiembro tenga una elasticidad diferente ki, de modo que su
expansión ei = kiti. Si se utiliza e para denotar
y K para representar la matriz diagonal 5 X 5, con (K)**= kl, entonces la
segunda parte del modelo (ei = kitipara i = 1 , 2 , 3 , 4 , 5 )puede expresarse como
(2.21)
e = Kt.
Sólo quedala tercera partedel modelo: relacionar las deformaciones e de los
miembros con el desplazamiento d que causan en la articulación. El desplazamiento horizontal d , y el desplazamiento vertical d, en la articulación deben ser
equivalentes al desplazamiento et en un ángulo O, para cada i ; interpretando esto al primer orden en d, da ei = -dl cos O*+ d, sen O, para 1 5 i 5 5. Si se escribe est0
como e = Bd para una matriz B, 5 x 2, se descubrirá queB es tan sólo AT,donde A
es la misma matriz que aparece en
(2.20). Por lo tanto, laúltima parte del modelo
se expresa como
e = ATd.
(2.22)
Al unir las tres porciones (2.20-2.22) del modelo, se tiene
(2.23)
At = f
e = Kt
e = ATd.
Recuerde que el objetivo era encontrar desplazamiento
el
d de laarticulación
en términos de las fuerzas f aplicadas. De (2.23) se ve que
f = At = A(K"e)
= (AK")e
= (AK")(ATd) = (AK"AT)d;
de que la
se ha supuesto aquí que las elasticidades ki son diferentes de cero, modo
matriz diagonal K es no singular (ver problema 12 en la sección 1.4). Recuerde
que A es 2 x 5 , K (y por lo tantoK") es 5 x 5, y ATes 5 x 2 ; de allí que el producto
AK"AT sea 2 x 2. Por lo tanto el modelo se reduce a
(2.24)
Hd
= f, de donde H = AK"ATes2
x 2,
que podrá reconocer como un sistema de dos ecuaciones lineales con dos
las fuerzas dadas enf.
incógnitas dl y d , el cual se desearesolver en términos de
2.4
(2.25)
/
Equilibrio en redes: ecuaciones lineales
63
Ejemplo. Para aclarar (2.24) considere un ejemplo específico. Suponga que
los ángulos Oide los miembros son:
= 30", g2 = 20", O3 = -30", 9, =
-45", 9, = -60" (aproximadpmente como en la figura 2.18). Suponga
también que todoslos miembros están hechos delmismo material y tienen
la misma elasticidad ki = 0.01. Mediante un breve cálculo se demuestra
que, en este caso, la matrizH de (2.24) es
De acuerdo al problema 17 de la sección1.4, esta matrizH es no singular ya
que
(313.336)(186.677)- (61.137)(61.137) # O
(es igual a 54,754.892). Pero comoH es no singular de modo que H" existe,
se puede resolver Hd = f de manera única para d en términos de f sin
f {ver teorema1.38 c) en la sección1.4 }.
importar el valor de las fuerzas
En este ejemplo específico, entonces, los desplazamientos
d se determinan
de manera única mediante las fuerzas f (como sugiere la intuición) y,
fácilmente, podemos calcular d a partir de f.
En elejemplo 2.25, la importante matrizH de (2.24) resultó serno singular.
¿Sucede esto siempre? Es decir, se desea contestar:
l . ¿AK"AT es siempre no singular?
2. si no, ¿cuáles son las condiciones de la estructura que hacen que la
matriz sea no singular?
Por el momento se carece delas herramientas necesarias para responder a estas
preguntas; enlos capítulos 3y 4 se desarrollaránlas que se requieran para ello.
Ahora podrá resolverlos problemas del I al 5.
Redes de manera mtis general
Aunque sólo sehan tratado estructuras planas de juntas articuladas, las
mismas
ideas se pueden aplicar de modo más general. Es posible, por ejemplo, tratar
estructuras no planas, estructuras convarias juntas, estructurascon conexiones
rígidas en lugar de articulaciones, y así sucesivamente. En todos los casos se
termina con tres conjuntos de ecuaciones análogos a (2.20-2.22) que pueden
combinarse con la relación fundamental (2.24).
64
2
I Algunas aplicaciones simples y preguntas
El mismo método es útil para redes diferentes a las estructuras, como se
mencionó al principio de esta sección; en otras redes, los conceptos de las
disciplinas relacionadas reemplazan los conceptos dedesplazamiento interno e,
de la fuerza interna t, del desplazamiento de la junta d, y de la fuerza aplicadaf.
Al modelar el flujo de bienes entre productores y consumidores, aparecen, por
supuesto, conceptos económicos,
mientras que al modelar el flujo de la electricidad vemos conceptos dela electrónica. Estos correspondena e, t, d y f como se
muestra a continuación:
Concepto
estructural
Deformación, e
Esfuerzo, t
Desplazamiento, d
Fuerza, f
Concepto
económico
Concepto
electrónico
Diferencia de precio
Flujo en el ramal
Precio
Flujo en el nodo
Diferencia de voltaje
Comente en el ramal
Voltaje
Comente en el nodo
En estosy otros casos de redes,
el resultado final es la relación fundamental
(d) de la red se determinaa
análogaa (2.24) que muestra cómo el comportamiento
partir de las acciones externas(f) que actúan sobre él.
Así que, desdeun punto de
vista computacional, las tareas principales en el análisis de redes son la generación de la matriz A, la generación de la matriz H, y la solución de sistemas de
ecuaciones definida por H (o la determinación de lasingularidad de H y de que el
sistema no tiene solución). Los métodos matriciales revelan la naturaleza común
de todo problema de redes, como la forma de resolverlos.
PROBLEMAS
2.4
1. Verifique que las ecuaciones (2.19) expresan el equilibrio de las fuerzas
horizontales y el equilibrio de las fuerzas verticales.
2. Verifique que la e = ATdde (2.22) representa correctamente larelación entre
extensiones de los miembros y desplazamientos de las articulaciones.
D 3. Supongaque en el ejemplo 2.25f ,= 1yf2 = 10;encuentre los desplazamientos
dl Y d2.
4. Suponga queen el ejemplo 2.25 se desea que los desplazamientos sean dl =
0.01 y d2= O . l . Encuentre las fuerzasf, y f2 necesarias para producir estos
desplazamientos.
5. En el ejemplo 2.25:
a) Encuentre H-l.
b) Escriba un fórmula que exprese a dl en términos de f ,y f.y otra expresando a d, en términos defl y f 2 , para valores generales defl yf2.
2.4
I
Equilibrio en redes: ecuaciones lineales
65
6. Unmodelo económico simple supone que una cierta oferta
de bienes a
individuos puede mantenerse en equilibrio mediante un conjunto apropiado
de precios paralos artículos; dadauna oferta deseada, elproblema es deter(I, 11,111, IVen la ilustración
minar losprecios. Suponga que cuatro personas
de abajo) producen y consumen los artículos; suponga que los individuos
reciben y envían artículos comose indica con las seis trayectorias( 1 , 2 , 3 , 4 , 5 ,
6, según se muestra abajo) -las flechas indican la dirección del flujo de los
productos. Son de hecho las diferencias en los precios las que llevan a las
diferencias en las ofertas, así
que se puede pensar en el precio de cada artículo
como un precio relativo-por ejemplo, en comparación con los del individuo
I V ; matemáticamente esto significa que se pueden considerar la oferta y el
#I
I
/
111
7
precio en I V como cero. Sean f,,f, y f3 los niveles de oferta (relativos)
deseados en I , I1 y 111, respectivamente, y sean d l , d y, d3 los precios de los
bienes (relativos); nuestro problema es determinar cada di a partir de lash.
Sea ti la cantidad debienes que fluyen a lo largo de la trayectoria i ; entonces la
oferta para cadaindividuo es igual a los bienes que entran menos los bienes
que salen -por ejemplo,f, = t3 + t , - t,. (Esto se expresará abajo como f =
At .) Se hace la suposición económica simple de que el flujo de bienes a lo largo
de la trayectoria, es directamente proporcional a la diferencia entre los
precios de los bienes en los extremos de las trayectorias; denotando estas
diferencias entreprecios mediante ei para la trayectoria i-ésima-de modo que
e3 = d , - d l y e, = d , - O por ejemplo- entonces se tiene que ti = ei/ki para
ciertas constantes ki de proporcionalidad conocidas. Demuestre queal igual
que en (2.23), este modelo se representamediante At = f, e = Kt, e = ATd-de
modo que d puede determinarse por medio de Hd = f para H = AK-'ATdonde en este caso tomamos
t = [tl
tt,,
t,
t,
tJT,
e = [ eee,,,
e,
e,
e,lT,
66
2
/
Algunas aplicaciones simples y preguntas
K es la matriz diagonal, 6 x 6con los elementos de ladiagonal
principal (K)¡¡
= ki, Y
-1
o
O
-1
A=[
o
-1
1
1
0
-
1
O
o
1
:].
1
o
1
D 7. Suponga que en el problema 6 los niveles de oferta relativos deseados son de
f, = lO,f, = 4 yf, = 12, y que las constanteskison iguales a 1. Encuentre los
precios relativos d necesarios para mantener estos niveles de oferta.
8. En la estructura plana articulada que se muestra abajo,el soporte enlajuntaA
está fijo, mientras que
el soporte en lajuntaB sólo puede moverse haciaarriba
o hacia abajo sobre la pared. Sean f, t, d y e las fuerzas aplicadas, fuerzas
internas, desplazamientosde las juntas y elongaciones de los miembros como
en el modelo para(2.18). Demuestre que(2.23) relaciona nuevamente estos
conceptos, donde ahora
x
f
,
1
1
A
0
0
0
0
1
o
o
-1
o
0
0
0
1
0 - 1
o
o
Jz
"
o
-
1
8
o
1
Jz
--
f5
f3
m 9. SI]ponga que en el problema 8 las elasticidades kt son iguales a 1 y que las
fuerzas aplicadas sonf, = O, fi= 1, f3 = - 10, f4 = 1 y fs = - 10. Utilice el
MATLAB o software similar para resolver las cinco ecuaciones lineales
(2.24) con cinco incógnitas d para obtener los desplazamientos d.
2.5
SISTEMASOSCILATORIOS:EIGENVALORES
En varias áreas de aplicación existen muchosfenómenos que presentan oscilaciones: las alas de los aviones, los puentes y los edificios altos oscilan con el
viento: la economía oscila (por ejemplo, entrela inflación y la deflación); y así
sucesivamente. Lógicamente,es importante entenderel comportamiento cuali-
2.5
I Sistemas
oscilatorios:
eigenvalores
67
tativo de estas oscilaciones: ¿se desprenderá
el ala, se desplomará el puente, se
vendrá abajo el edificio, se desmoronará
la economía? El estudio de modelos de
estos fenómenos, lleva comúnmente a problemas de matrices en los que se
necesita descubrir cuándo ciertas matrices,
que dependen de parámetros, serán
singulares.
Dos masas suspendidas y acopladas con resortes
Como una ilustración del fenómeno oscilatorio, consideramos movimiento
el
de
dos masas acopladas mediante un resorte y suspendidas del techo mediante otro
resorte, como en el diagrama de abajo; se suponeque el peso de los resortes es
insignificante. Los dos pesos tienen masas de m, y m2. Las doslíneas horizontales marcadas como “Reposo” indican las posiciones de las masas en reposo,
esto es, donde
las fuerzas regenerativasde los resortes y la fuerza dela gravedad
están en perfecto equilibrio.
Reposo -
Se desea modelar las oscilaciones verticales de las masas conforme pasa
el tiempo cuando no están en reposo. Para ello, se
introducen dos funciones de
tiempo t:X , ( ? )es el desplazamiento hacia abajo en el tiempo t de la primera masa
desde su posición de reposo,y X,(?)es el desplazamiento hacia abajo en el tiempo
t de la segunda masa desde su posición de reposo. Entonces las fuerzas que
actúan sobrela primera masa son: 1) la fuerza hacia arriba ejercidapor el primer
resorte, que se ha estirado una distancia X , ( t ) desde su punto de equilibrio; y
2) la fuerza hacia abajo ejercida por el segundo resorte, que se ha estirado una
distancia deX&) - X , ( t ) desde su punto de equilibrio; observeque la fuerza de
gravedad ya ha sido considerada en lasposiciones de reposo de lasmasas. Las
fuerzas sobre la segunda masa es la fuerza hacia arriba ejercidapor el segundo
resorte.
Se supone que los desplazamientos involucrados son lo suficientemente
pequeños para que la ley de Hooke sea válida para los resortes: La fuerza
regenerativa para cada resorte es igual a una constante ki multiplicada por el
68
2
Algunas aplicaciones simples y preguntas
/
estiramiento del resorte. Recordando la ley de Newton quedice que la fuerza es
igual a la masa por la aceleración resultante y, recordando además que la
aceleración es lasegunda derivada del desplazamiento&(t), se obtiene el modelo
matemático del sistema:
(2.26)
rn,X;' = - k , X ,
+ k,(X,
-
X,)
m,X;' = -k,(X, - X , ) ,
donde los signos primos indican una diferenciación con respecto a t .
El problema matemático consiste en encontrar las funciones X , y X 2 que
satisfagan a (2.26). La experiencia y la intuición dicen que los sistemas deben ser
oscilatorios: Tanto X , y X , deben oscilar entre valores positivos y negativos de
modo muy parecido a las funciones trigonométricas seno y coseno. Por lo tanto,
se decide ver si se pueden encontrar soluciones para (2.26) utilizando senos y
cosenos; y, de manera más precisa, se buscan soluciones de la forma
X , ( t ) = t l s e n o t + q l cos o t
(2.27)
X,(t) = t 2 s e n o t
+ q z cos ot,
donde t,,T ~,f2, , 9,y w son constantes quese deben determinar para que X , y X ,
resuelvan (2.26).
Si se sustituyen en (2.26) las expresiones para X , y X 2 de (2.27), diferenciando
conforme se requiera, y agrupando términos, se obtiene
{ -rnlo2t, -t k l t l + k , t , - k,t,} sen w t
+ { -rn,w2ql + k , q , + k,ql - k Z q Z }cos o t = O
{ -m2w242 + k , t , - k,(,}senot
+ { -m,w2q2 + k g 2 - k,q,} cos ut = O
para toda t
para toda t
Ahora, el Único modo en queA sen w t - B cos wt puede ser igual a cero para toda
t
es cuando A = B = O; esto significa que las expresiones anteriores dentro de
corchetes
deben ser iguales a cero:
{m}
(2.28)
así como
(-m1w2
+ k , + k,)q, +
(- kJq1
+ (-
(m202
=0
+ k,)q, = o.
2.5
I
Sistemas
oscilatorios:
eigenvalores
69
La notación matricial hará más claro lo que se requiere en (2.28). Se define
Observe que K y M son matrices conocidas, mientras que 5 y q son lasincógnitas
que se desean determinar demodo que X , y X , de la forma en (2.27) resuelvan
(2.26). Mediante el uso de estas matrices, se pueden reescribir las ecuaciones
necesarias para satisfacer (2.28) como
(K - w2M)< = O
(2.30)
y
(K - 02M)q = O.
Los sistemasde ecuaciones para 5 y para q son idénticos, ambos se representan
mediante la matriz de coeficientes K - w2M.
(2.31)
Ejemplo. Considéreseconcretamente un ejemplo para aclararestassituaciones. Suponga que las masas son m, = 10 y m, = 5, mientras que las
constantes de los resortes son k , = 80 y k , = 40. Entonces las matrices en
(2.29) son simplemente
Cada uno de los dos conjuntos de ecuaciones (2.30) tiene la forma
(120 - 1002)x -4Ox
~~
+ (40
40y = O
-
5 0 , ) ~= O.
~
Ahora podrá resolver los problemas del 1 al 4 .
Eigenvalores
Volviendo al problema general; se observa que cada uno de los sistemas de
ecuaciones en (2.30) es de la forma Ax = O, donde A es 2 x 2 y x es 2 x l . Resulta
obvio que una solución a tal sistema es x = O ; en este caso esto
hará que t1= t2=
q 1= = O y por lo tantoX,(t) = X,(t) = O , lo cual describe el estado de
reposo del
sistema en lugar de un estado oscilatorio.Por lo tanto, se necesitan soluciones
diferentes de O. De acuerdo al teorema 1.38 c) dela sección 1.4 sobre ecuaciones
e inversas, Ax = b para A tendrá exactamente una solución A"b si A es no
singular. Se quiere una solución para Ax = O diferente dex = O (=A"O si A es no
singular); entonces, para que esto suceda, A debe ser singular. Recuerde que
estamos utilizando A para indicar K - d M en (2.30). Entonces sededuce que,
r),
70
2
I Algunas aplicaciones simples y preguntas
(2.32)
<
paraque (2.30) tenga soluciones t y q diferentes de = = O {paraque
X , @ ) y X&) no sean idénticos a cero }, la matriz K - 02Mdebe sersingular.
Recuerde quese conocen K y M -ver (2.28)- pero quew es desconocida: se trata
de escoger o (junto con 5 y q ) a modo de que(2.27) dé soluciones a (2.26). Por lo
tanto, el problema es:
(2.33)
Seleccione o2para que K - 02M sea singular.
El problema de determinar un número A para el cual K - AM sea singular se
conoce comoun problema de eigenvalor, y tal A se conoce comoun eigenvalor.
(2.34)
Ejemplo. Considere el sistema concreto del ejemplo 2.31. De acuerdo a lo
que se acaba de hacer, el problema es escoger o para que K - wZM sea
singular, donde
K-mZM=
120 - 1002
-40
[
-40
40 - 5 0 ’
1.
El problema 13 en la sección 1.4, da u1,a condición necesaria y suficiente
para los elementos, para que una matriz 2 x 2 sea singular. En este caso,
esto se vuelve
(120 - 100~)(40- 50’) - (-40)( -40)
O.
Esto es, ~ O ( W ~-) ~1000 (o2)+ 3200 = O; factorizando este polinomio
cuadrático en 02,la ecuación se reduce a 50(02 - 4)(02 - 16) = O. Por lo
tanto, o2 = 4 y o2 = 16 son los eigenvalores para este problema. Esto
significa que los únicos valores posibles para o son +2, -2, +4 y -4; pero
éstos son sólo valores posibles en cuanto a lo que se refiere a encontrar
soluciones diferentes de cero5 y q para (2.30) se tiene que comprobarsi, en
realidad se puede resolver para 5 y q diferentes de cero. Observe que como
lo que apareceen las ecuaciones es w2 en lugar de o sólo se debeexaminar
o = + 2 y o = +4. Del mismo modo, el cambiar el signo de o es lo mismo
que cambiar el signo de y t2en (2.27), así que sólo se consideran los
valores positivos de o.
Para o = 2, las ecuaciones para 5 son 806, - 406, = O y -405, + 205, =
O, cuyas soluciones son 5, = a arbitraria y t2= 2a; de manera similar las
ecuaciones para q llevan a 7,= p arbitraria y 7, = 2p.
Para w = 4, por otro lado, las ecuaciones para son, en su lugar,
el
cuyas soluciones son t1 = y arbitraria y t2= - y ; de manera similar, las
ecuaciones para q llevan a 7,= 6 arbitraria y 7,= -6.
2.5
I
Sistemas oscilatorios: eigenvalores
71
Volviendo a la situación general, se observa que para poder satisfacer (2.33)
para la matriz K - 02M 2 x 2, se tendráque resolver una ecuación para o2igual
que en elejemplo 2.34; entonces se tendráque ver si, con losvalores específicos
encontrados para w , se puede resolver (2.30) para ,$ y q diferentes de cero. Para
una t medidadigamos, ensegundos, y las soluciones tales como sen of y cos wt se
repiten cada 27r/o segundos -esto es,o/27r veces por segundo. El número w/27r”
es, por lo tanto, lafrecuencia de oscilación. Si se tuvieran p masas en lugar de
sólo dos comoen elmodelo, las matrices K y M seríanp x p en lugar de 2 x 2. Así
que, de manera más general, se desea saber:
l . ¿Cómo se puede saber si existen números o reales que hagan que K 02M sea singular y determine las frecuencias de oscilación?
2. Si se encontraran tales números o,¿cómo se puede saber si se puede
encontrar una x diferente de cero para que (K - w2M)x = O?
Por elmomento se carece
de las herramientas necesarias para responder a estas
preguntas generales; en los capítulos 7 y 8 se desarrollarán las que se requieran.
para ello.
Ahora podrá resolver los problemas del 1 al 6 .
Solución del problema de las masas oscilatorias
Aún no se ha demostrado cómo esteanálisis matricial permite resolver el problema de las masas acopladas; por simplicidad, se examinará el caso concreto
tratado en los ejemplos 2.26 y 2.34.
En el ejemplo 2.34 se encontraron soluciones diferentes de cero para (2.30)
con w = 2, t1y & dependientes deun número arbitrario(Y y vl y v2dependientes
de un número arbitrariop. De modo similar, se encontraron soluciones diferentes de cero con o = 4 dependiente de los números y y 6. Si se sustituyen estos
valores en las expresiones (2.27) para las funciones X,(t) y &(t) que describen el
comportamiento del sistema de dos masas, se obtiene
X , ( t ) = c( sen 2t + p cos 2t
y
X , ( t ) = 2cr sen 2t + 28 cos 2t,
X , ( t ) = y sen 4t + 6 cos 4t
y
X , ( t ) = - y sen 4t - 6 cos 4t
como pares de soluciones a (2.26) para todo valor de (Y,
p , y y 6. Combinando
estos pares sepueden obtener soluciones que describan
los movimientos de las
masas una vez quese conoce comocomienzan las oscilaciones. Para
ver esto, se
las soluciones anterioescribe x(t)como la matriz columnaX(t) = [Xl(t) X2(t)IT;
res pueden entonces expresarse como
72
2
Algunas aplicaciones simples y preguntas
/
(2.35)
I + ~ [cos411
-sen -cos
4t 4t
x(t)=.[
sen 2tI + ~ 4t
sen
[2t
cos
2tcos2 2tsen2
para cualquier valor arbitrario de (Y,
p, y y 6. Sólo se necesitan escoger estos
valores para cumplir las condiciones iniciales de las masas.
(2.36)
Ejemplo. Suponga que a
ls masas comienzan con la masa superior colocada una unidad por debajo de su punto de reposoy la masa inferior colocada
cinco unidades por debajo de su punto de reposo; estorequiere queX,(O) =
1 y &(O) = 5. Suponga además que se acaba de soltar
cada masa, de modo
que no se le aplica alguna velocidad inicial; esto requiere queX;(O) = X;(O)
= O . Si se aplican estas condiciones en t = O en la soluciónrepresentada por
p, y y 6 deben satisfacer a
(2.35), se encuentra que (Y,
p+ 6=1
2p-
6=5
2a + 4y = o
4a - 4y =
o,
de donde se encuentra que(Y = O, y = O, p = 2 y 6 = - 1 . Esto nos da la
solución para el movimiento de los pesos para toda t :
X,@)= 2 cos 2t - cos 4t
X,(t) = 4 cos 2t + cos 4t.
PROBLEMAS
2.5
1. Verifique que los miembrosderechos de las ecuaciones
en (2.26) representen
de manera adecuada las fuerzas que actúan sobre las masas.
2. Verifique que (2.28) se sigue de sustituir las expresiones de (2.27) en las
ecuaciones de (2.26) y utilizar el hechode que A sen wc B cos wt = O para
+
toda t implica que A = B = O .
3. Suponga que en el modelo de esta sección m, = 12, m, = 16, k , = 36 y k, = 48.
Encuentre las matrices y ecuaciones análogas a las del ejemplo 2.31.
D 4. El comportamiento de lamolécula triatdrnica lineal -una molécula con tres
átomos arregladosen línea- se puede modelar mediante tres masas conectadas por dos resortes como se
muestra abajo, dondela masa central tiene una
masa M y las otras masa m. Como en el modelo básico de esta sección, las
funciones X , miden los desplazamientos de las masas desde puntos de reposo;
se ignora la gravedad, y los resortes se suponen sin peso.
2.6
1 Reposo
I
Modelos generales: mínimos cuadrados
I Reposo
73
I Reposo
a) Demuestre que las ecuaciones que expresan “masa por aceleración
igual a fuerza” en este caso son
rnX;l= - k ( X , - X,)
MX;’ = k(X1- 2x2 + X,)
rnXi = - k ( X , - X J .
b) Sustituya las expresiones similares a aquéllas en (2.27) -debe incluir
una expresión para X , utilizando los coeficientes t3y qr en las ecuaciones de arriba y derive las ecuaciones análogas a aquéllas en (2.28)
y (2.30).
5. Para el modelo del problema
3 , encuentre los valores de o,tiy q icomo sehizo
en el ejemplo 2.34.
D 6. Para el modelo del problema 4 , suponga que k = 12, m = 2 y M = 6 . Encuentre los valores de o,tiy q ide modo parecido a como se hizo en el
ejemplo 2.34.
7. Verifique para el ejemplo 2.36:
a) Que los valores encontrados a,p, y y 6 resuelven lasecuaciones dadas
para esos números.
b) Que las funciones X , y X, encontradas, satisfacen las ecuaciones
diferenciales (2.26) utilizando los valores relevantes de mi y de ki.
c) Que las funciones X1 y X , satisfacen las condiciones requeridas en
t = o.
8. Encuentre X & ) y X,(?) de manera explícita, para
el modelodel problema 3 con
el fin de obtener X,(O) = O, X,(O) = 1, Xl(0) = X;(O) = O.
2.6
MODELOSGENERALES:MlNlMOSCUADRADOS
Como se ha indicado en las secciones anteriores, la modelación es una parte
central delas matemáticas aplicadas. Frecuentemente,uno supone ciertaforma
general para un modelo y después debe determinar los varios parámetros en
dicha forma, de manera que el modelo esté tan cerca de la realidad como se
74
2
I Algunas
aplicaciones
simples
y preguntas
pueda. Un método muy usado es el metodo,de los mínimos cuadrados,en el cual
uno escoge los parámetros de modo que minimicen lasuma delos cuadrados de
los errores en la representación del modelo a partir de datos conocidos; este
método es también fundamental en el análisis estadístico de datos, de manera
particular, en lo que se conoce como andisis de regresidn.
Ajuste de líneas rectas a datos
Podría decirse que la forma más simple de un modelo es una línea recta: se
modela la manera en que cierta variable y de interés depende de cierta r por la
forma
yzaabt
(2.37)
donde a y b son los parámetros a determinar, y se escribe " =" en lugar de "= "
porque el modelo (2.37) es sólo una aproximación. Para poderaeleccionara y b a
fin de reflejar experiencia, se requiere de ciertos datos; por lo tanto, se supone
que se tienen p pares de medidas de los valores de t y y que hemos encontrado
apareados.
(2.38)
(ti,yi) para 1 5 i 5 p son los datos obtenidos por experiencia.
La tarea es seleccionar a y b tales que (2.37) trabaje lo mejor posible, en cierto
sentido, para igualar losdatos de (2.38); una vez determinados a y b -si reflejan
adecuadamente los datos- se puede considerar el uso del modelo (2.37) para
predecir los valores de y para otros valores de r.
(2.39)
Ejemplo. Si un cuerpose mueve en una línea perfectamente recta, con
velocidad perfectamente constante, entonces su posición y a lo largo de la
línea en el tiempot se da de modo exacto mediante y = y o + ut, donde y,, es
la posición del cuerpo enel tiempo t = O y u es la velocidad constante. Por
supuesto, en el mundo físico, muy seguramente el cuerpo tendrá ligeras
variaciones en su velocidad y el modelo yo + v t no describirá exactamente
la posición y. Suponga que se ha medido la posición y de u n cuerpo en
particular en cincomomentos diferentes y que sehan obtenido los siguientes datos:
r l O
3
5
8
10
y 1 2
5
6
9
11
Representando estos datos en una gráfica con ejest y y , se puede ver que,
como se esperaba, los puntos casi se encuentran sobre una línea recta:
I
2.6
c
I
I
2
4
Modelos generales: mínimos cuadrados
1
6
I
8
I
10
75
> I
La tarea es escoger y o y v para que y = y o + ut en los cinco puntos de
los datos; ya que la ecuación y = y o + ut entre t y y tiene una línea recta como su representación gráfica, geométricamente, se trata de encontrar una
línea recta que se acerque más
lo posible a los cinco puntos sobre la gráfica
de arriba.
+
En el caso general, se desea escogera y b para que a bt se acerque lo más
posible a la reproducción de los datos de (2.38). Para cualquier selección de los
parámetros a y b, su error se mide en la producción de los datos en el punto del
dato ( t i , y * ) mediante el i-ésimo residuo.
(2.40)
l i = yi - (U
+ bti)
y se mide el error totalen la reproducción delos datos, mediante la suma delos
cuadrados de los residuos:
P
P
(2.41)
S(a, b) =
I:
i= 1
{yi - (U
=
i= 1
+ bti))’.
Se utiliza la notación S ( a , b) para enfatizar que el error depende delos parámetros desconocidos a y b. Ahora se muestra que,para determinar a y b de modo
que el error total S sea lo más pequeño posible, se deben encontrar a y b que
satisfagan
76
2
I Algunas aplicaciones simples y preguntas
donde
Desarrollando los términos de (2.41), acomodándolos, y utilizando por conveniencia la notación aü y pi de (2.42), se encuentra que
Si se completa el cuadrado en la expresión de arribacon respecto ala variable a
se obtiene
-28,
+ 2cr,,b
+ términos independientes de a.
Debido a que el
Único término que involucra a a en S(a,b ) es el que se encuentra
entre llaves,y ya que sedesea minimizar a S(a,b) con respecto de a , y ya que el
positivo, se minimiza S(a, b) conrespecto de a
coeficiente de all dees
haciendo que el término = O. Pero = O convierte ala primera ecuación en
(2.42); del mismo modose completa el cuadrado con respecto de b para producir
la segunda ecuación.
{e}
{a}
(2.43)
Ejemplo. Considere nuevamente el problema del ejemplo 2.39, Utilizando
las fórmulas de (2.42), se encuentra que
all= 5, aI2= azl= 26, az2= 198, p1
= 33 y p2 = 227. Minimizando la suma de los cinco errores elevados al
cuadrado {yi - ( y o +
esentoncesequivalente al hechoderesolver
+ 26v = 33
26y0 + 1 9 8 ~= 227.
5y0
Al resolver estesistema resulta y o = 2.01 y z1 = 0.88, la línearecta determinada por estos valores se graficó en la figura del ejemplo 2.39 para demostrar lo bien que se ajusta el modelo de los datos.
En estepunto se sabeque, con el finde ajustar un modelo de línea rectay= a
+ bt a los datos (2.38), se necesita resolverlas dos ecuacioneslineales con dos
incógnitas a y b de (2.42). En el caso especialdel ejemplo 2.43 se encuentraque
estas ecuacionestienen de hecho una solución;no se sabe,sin embargo, queen
general, esto sea verdadero. Se desea saber:
l . ¿Siempre tienen solución las ecuaciones en (2.42)? Más adelante se verá
que la respuesta es “sí”.
2.6
I
Modelos generales: mínimos cuadrados
77
Ahora pod& resolver los problemas del I al 3 .
Ya que (2.42) da dosecuaciones con dos incógnitas, el problema puede expresarse mediante notación matricial; de hecho también se puede expresar con
notación matricial toda el álgebra resultante de (2.42).
Definase
Entonces, seleccionar a y b para que a + bti z yi para 1 i 5 p es 10 mismo
que seleccionarx para que Ax = y. En estanotación, S -la suma delos cuadrados delos residuos ries el número [S] = rTr; por simplicidaden lanotación, esto
se escribe como S = rTr. Esto es, se busca minimizar
(2.45)
minimizar S = rTr = (y - AX)^(^ - Ax).
Sorprendentemente, las definiciones de all,a12,azl,aZ2,
p1y p2muestran que
(2.46)
Estas matrices aijy pi son precisamente las del sistema de ecuaciones (2.42). Por
lo tanto, en notación matricial, el sistema de ecuaciones(2.42) que se tiene que
resolver para determinar a y b es tan sólo
(2.47)
ATAx = ATy,
donde se conocen A y y y se tiene que encontrar x. Formalmente -repetimos:
formalmente- las ecuaciones (2.47) se obtienenpremultiplicando Ax = y porATy
reemplazando = por =.
Ahora podrá resolver los problemas del I al 8.
Ajuste de datos mediante expresiones más generales
Hasta ahora todo el desarrollo se
ha hecho aproximando datos mediante líneas
rectas. Pero la notación matricial revela otra manerade visualizar lo que se está
78
2
I Algunas aplicaciones simples y preguntas
haciendo. En la notación matricial se ha dadouna matriz A y una matriz y -ver
(2.44)- y se quiere encontrar la matriz x para que Ax= y. Recuerde ahora el
ejemplo 1.41 de la sección 1.5; ese ejemplo mostró que, en general,
Ax = x l a l
+ x,a2 + . . + xqaq,
donde los números xi son los elementos de la matriz x, q X 1 y las matrices
q = 2, y por
columna a i ,p x 1 sonlas columnas de la matriz A , p X q . En este caso
lo tanto, se trata de escogerx,(que es igual a a) y x2(que es igual ab) de modo que
y = xlal + x2a2donde
Este problema general surge de manera frecuente; se requiere
(2.49)
Dado A real p x q y y real p x 1, encuentre x q x 1 para que Ax = y;
éste es el problema (lineal) general de mínimos cuadrados.
(2.50)
Ejemplo. Suponga quese decide aproximar los datos (ri, y i ) del ejemplo
2.39 mediante una expresión cuadrática enlugar de lineal: y = a + b? + ct2.
Esto es equivalente a hacer Ax = y, donde
I~i :2],
1
A =
O
10
1
2
O
x=[!],
100
y
y=
~~.
11
En el caso general (2.48), como enel caso del ajuste de datos mediante una línea
recta, se define el residuo para cualquier x como
(2.51)
r=y-Ax
y se busca x para
(2.52)
minimizar rTr = (y - AX)^(^ - Ax).
2.6
/
Modelos generales: mínimos cuadrados
79
El material posterior demostrará que la solución a (2.47) resuelve (2.52), igual
A es la
que en el caso
especial del ajuste mediante línea recta, excepto que ahora
matriz p x q de (2.48). Sin embargo, con la información que ahora se tiene, se
necesita saber:
2. ¿Por qué la solución de x en (2.47) resuelve (2.52)?
Aún más, existen preguntas sobre si (2.47) siempretiene una solución, sobre la
forma de encontrarla, y sobre lo que pasa cuando los datos son complejos:
3. ¿Tiene siempre ATAx = ATy una solución para x?
4. ¿Cómo se puede resolver para x de manera eficiente y precisa?
5. ¿Qué sucede si ambos A y y son complejos?
Los capítulos 5 y 8 permitirán responder a estas preguntas.
PROBLEMAS 2.6
1. Para y,, = 2 y v = 1, encuentre los residuos ri en el ejemplo 2.43.
2. Existen situaciones en las que algunos residuos se les debe darmayor peso
en el errortotal S que a otros; estolleva a rninirnos cuadrados ponderados.
Suponga que se define -en lugar de S ( a , b) de (2.41)- a
"(a, b) =
P
wit-:
para pesos positivos dados wj.
i= 1
Demuestre que lasecuaciones para la determinación de a y b y la minimización de W ( a ,6) sigue siendo las de (2.42), y que excepto las auy pise definen
de modo diferente:
con definiciones análogas para pj (introduciendo wi en l a s sumatorias).
D 3. La tabla de abajo muestra lapoblación estadounidense aproximada en
millones cada diez años desde 1900 hasta 1980. Encuentre las ecuaciones
(2.42) que resultarían de intentar ajustar estos datos al modelo
(población en millones) = a + b (afío)
Año
192019101900
19801970
1930
196019501940
226.5
203.2
179.3
150.7
131.7
123.2
Pob.
105.792.0 76.0
4. Verifique que (2.46) se cumple para A y y como en el ejemplo 2.43.
80
2
I Algunas aplicaciones simples y preguntas
5. Para el método de los mínimos cuadrados ponderados descrito en el pro-
blema 2, muestre que la ecuación matricial análoga a (2.47) es A W A x =
ATWy,donde W es la matriz diagonal con elementos en
diagonal
la
principal
de ( W ) i i= wi.
D 6. Suponga quelos datos del ejemplo 2.39 se reemplazan por los valores de cy y
mostrados abajo; ajuste una línea recta a los datos.
w
7. La relación entre los grados Fahrenheit F y los grados Celsius C es de la
forma F = a + bC para a y b adecuadas. Debido a medidas inexactas, la tabla
de abajo no refleja perfectamente esta relación. Utilice el método de los
mínimos cuadrados para encontrar valores aproximados para
a y b a partir
de los datos proporcionados.
F
-1
2
10
15
C
32
36
51
57
8. Si A esp X q y y esp x 1, el comando delMATLAB x = Aly calculade hecho
la solución de mínimos cuadrados x para Ax = y por un método muy preciso.
a) Utilice el comando delMATLAB para resolver parael modelo de mínimos cuadrados del problema 3 en lugar de resolver (2.47)
b) Utilice el modelo obtenido para predecir la población en 1990.
xi, demuestre que la
solución de los mínimos cuadrados para el problema general (2.48) puede
obtenerse resolviendo ATAx = ATy (A, y reales).
D 10. Encuentre la solución de mínimos cuadrados a Ax = y, donde
9. Completando cada vez el cuadrado de una variable
11. Encuentre todas las soluciones mínimos
de
cuadrados paraAx = y y muestre
que ATA es singular, donde
j-;
1
L 1 -2
2.7
/
Planeaci6n de producci6n: programas lineales
81
9.R 12. Suponga queen el modelo de la competencia entre lecherías ejemplo
del
2.6
sección 2.2,no se conoce elmodo de calcular la nueva fracción de mercado
de la lechería
1 a partir de las fracciones anteriores,
no que
si sólo se sabe que
x1 = ma+ pya+ yz, para parámetrosa,p y y desconocidos. Suponga que se
han recolectado datos que muestran que las acciones
iniciales del mercado
de[0.2 0.3 0.5]Tllevanax, =0.3,que[0.3 0.2 0.5]Tllevaax, = 0.3,que[0.4
0.3 0.3IT llevaa x , = 0.4, que [0.1 0.1 O.8ITlleva a0.2 y que [0.7 0.2 0.1IT
lleva a0.6. Utilice el MATLAB o software similar con el método mínimos
de
cuadrados para determinar los valores aproximados de a , p y y .
D 13. Encuentre explícitamente las ecuaciones ATAx = ATy para el modelo del
ejemplo 2.50.
W14. Utilice elMATLAB o software similar para resolver para el ajuste cuadrátic0 del ejemplo 2.50.
9.R 15. Utilice elMATLAB o software similar para encontrar el ajuste cuadrático de
mínimos cuadrados a los datos poblacionales del problema 3 ; prediga la
población en 1990.
16. SupoRga que A o y o ambos son posiblemente complejos, de modo que la
suma de los cuadrados de las magnitudes de los residuos debe evaluarse
como F r en vez de rTr.De hecho, entonces, las ecuaciones que determinan
una solución de mínimos cuadrados x para Ax = y se convierten enAHAx =
AHy en vez de ATAx = ATy como en (2.47). Demuestre esto para el caso
especial del ajuste de datos posiblemente complejos
(2.38) mediante (2.37)
con a y b posiblemente complejos.
2.7
PLANEACION DE PRODUCCION: PROGRAMAS LINEALES
En muchos problemas prácticos se nospide cumplir alguna tarea deuna manera
óptima (o casi óptima): paraminimizar costos, para minimizar esfuerzos, para
maximizar ganancias, etc. Los modelos matemáticos de muchos de estos problemas se llamanprogramasmatemúticos;aquíla palabra “programa” se utiliza
en el sentido de “plan de acción”en vez de como “programa computacional”.
De estos programas los más simples son los programas lineales; y aunque
simples, han tenido una gran
aplicación e impacto en muchas áreas del comercio
y del gobierno. Se presenta aquí
un ejemplo simple de unaprograma lineal y su
solución.
Un problema de planeación de producción
Al intentar decidir cómo asignar la capacidad de manufacturar entre varios
productos, una industria, por
lo general, estáinfluenciada por muchos factores,
incluyendo, por supuesto, el deseo de una
lograr
utilidad razonable. Se considera
82
2
I
Algunas aplicaciones simples y preguntas
ahora un modelo muy simplificado de tal situación en la que se supone que el
m i c o deseo es el de maximizar utilidades.
Suponga que una planta industrial tiene tres tipos de máquinas ( M , , M 2 y
M,), cada unade las cuales debe usarse para manufactura
la
de los productos de
la planta, de los que existen dos tipos (PI y P,). El problema es decidir cuánto
producir de cada producto cada semana, de
modo que se maximicen las utilidades semanales. Se suponeque, de cada
unidad de cada producto manufacturado,
se tiene una utilidad fija,de modo que la utilidadtotal es simplemente la suma de
las utilidades de cadatipo P , y P,, y la utilidad de cada uno se obtiene, simplemente, multiplicando la utilidad porartículo por el número de artículos manufacturados. Específicamente, se supone que la utilidad por artículo hecho para el
producto P , es de$40, mientras que paraP, es de$60. Se observa claramente que
el fabricante simplemente debe producir lo más posible; aquí la palabra “posible” resulta clave, ya que, es lógico que el fabricante está limitado por las
capacidades de los tipos de máquina M , , M , y M , que se tienen que utilizar. Por lo
tanto, se debe suponer que seconoce la cantidad de tiempo disponible en cada
máquina y también la cantidad de tiempo que se requiere en cadamáquina para
hacer cada tipo de producto. Específicamente, suponga que un artículo de P I
requiere de doshoras en las máquinas de tipo M , y una hora en cada una de las
máquinas de tipo M , y M,, mientras que un artículo de P , requiere de una hora en
cada unadelas máquinas de tipo M , y M2pero tres horas en M,. Además suponga
que el número de horas disponible cada semana enlas máquinas de los tipos M , ,
M , y M3 es 70,40,y 90, respectivamente. Todas estas suposiciones se resumen
en (2.53)
(2.53)
TipodeHorasnecesariasparaHorasnecesariasparaHorastotales
máquina
una
unidad
de P I
una
unidad
de
P2
M I
M2
M3
disponibles
1
1
2
1
1
Ganancia por unidad de
P I = $40
70
40
3
90
Ganancia por unidad dep , = $60
En seguida, sea x, el número de unidades de P , que deben producirse cada
semana, mientrasque x, denota el número de unidades de P,. Ya que cada unidad de
P , requiere de dos horasen las máquinas de tipo M , mientras que cada unidad
de P, requiere de sólo una hora, entonces, se requiere de 2x, + x2 horas en las
máquinas de tipo M , ; ya que sólo se disponen de 70 horas en estas máquinas, se
necesita
2x, + x I70
Razonando de manera similar con respecto a los tipos limitados de las máquinas
P,, se observa
de tipo M , y M3 y al tiempo necesario para producirx,de P , y x2 de
2.7
/
Planeaci6n de producci6n: programas lineales
83
también que es necesario que
Ya que es imposible producir un número negativo de unidades también se
requiere que
x1 2
o,
x2 2
o.
Para calcular la utilidad resultante de nuestroplan de producción, recuerdeque
la utilidadde cada unidad de P , es de40, así que xlunidades dan una utilidad de
OX,; de modo similar, x2 unidades de P , dan una utilidadde 60x2,de maneraque
la utilidad total es de40x, + 60x2. De modo que la versión matemática de nuestro
problema de producción es como sigue:
(2.54)
maximizar M = 40x, + 60x2
donde x1 y x2 deben satisfacer las restricciones
(2.55)
2x,
+ x2 I 7 0
x1
+
x2 I 4 0
X 1 i3x2 I 90
o
x2 2 o.
x1 2
Este esun problema típico de programación
lineal que involucra laoptimización
de cierta función lineal de ciertas incógnitas sujetas a restriccioneslineales que
limitan los valores permisibles de las mismas; tales problemas se estudiarán
después más de cerca y se aprenderá a resolverlos mediante métodos matriciales. Por lo pronto nos limitamos a reescribir el programa lineal en notación
matricial y a utilizar métodos gráficos para resolver el problema.
Con el fin de expresar las ecuaciones anteriores en notación matricial, se
requiere de los siguientes conceptos. Se diceque una matriz P es mayor que Q ,
escrito como P > Q , cuando P y Q tienen el mismo número de renglones y de
columnas, y cada elementode Pes mayor queel elemento de Q correspondiente.
Definiciones similares se cumplen para 2 , < y I. Si P > Q , se dice que P es
positivo. Si P 2 Q , se dice que P es no negativo.
Si se introduce
(2.56)
84
2
I
Algunas aplicaciones simples y preguntas
entonces el problema descrito en (2.54) y (2.55) puede denotarse fácilmente
mediante
(2.57)
maximizar M = cTx,
donde x debe satisfacer las restricciones
x 2 O.
Ax I b,
(2.58)
(Hablando en un sentido estricto, cTx es una matriz 1 x 1, pero se adopta la
convención de que cTxpuede también denotar el elemento de la matriz.)
Se cumplirán las mismas formas de ecuaciones si se tienen p máquinas
diferentes que producen q productos. Entonces A es una matriz p x q , y su
elemento (i, 13 representa el número de horas en la máquina i requeridas para
producir una unidad del productoj. Elnúmero total de horas disponibles formará
una matriz columnap X 1, y la matriz de utilidades c y la matrizx que representa
los números de unidades producidas, serán matrices columna q x 1.
Ahora podrá resolver los problemas del 1 al 4 .
Interpretación geométrica y solución
Más adelante se aprenderánmétodos matriciales para resolver programas lineales generales delas formas en (2.57)-(2.58). Porloprontose
describirá el
problema específico en (2.54)-(2.55) de manera geornétrica (o gráfica) para
visualizar los hechos; así mismo, se podrá resolver el problema mediante este
método.
Para tratar laprimera desigualdad en (2.55), se observa que2 x 1 + xz = 7 0 es
la ecuación de una línea recta -vea la figura 2.59. La desigualdad 2 x 1 + x2 S 70
significa que el punto
(x,, x2)debe encontrarseen o por debajode la línea recta.
De modo similar, las otras dosdesigualdades en (2.55) definen mediosplanos en
los que deben encontrarse
los puntos (x,, x2)permisibles. Las desigualdadesx, L
O , xz L O significan que (x,, x2) deben encontrarse en el primer cuadrante. El
resultado neto es que las desigualdades confinan el punto (x,, xq) a una región
poligonal cuyo límite se encuentra sombreado en(2.59). Para cualquier valor de
M dado, la ecuación (2.54), es decir 1M = 40x, + 60x2,define una línea recta. Las
tres líneas punteadas en (2.59) representan esta línea recta. Las tres líneas
punteadas en (2.59) representan esta línea recta para M = O, 1200,2400. El valor
de M que correspondea cualquier punto sobre una línea dada es una constante,y
las líneas son paralelas. Para maximizar M debe alejarse lo más posible en una
dirección perpendicular a estas líneas -en (2.59) en la dirección de la flecha cerca
del origen- sin abandonar la región permitida. De este modo se alcanzará el
punto 9,que es la intersección de
X,
+ 3x2 = 90,
X,
+ x2 = 40,
2.7
I
Planeach de producci6n: programas lineales
85
esto es,x1 = 15, x, = 25. El valor de Mcorrespondiente es
de 2100. Partiendo de
la figura geométrica, es lógico que dos de las relaciones en (2.55) son ahora
igualdades y una es estrictamente una desigualdad. En términos del problema
original de planeación de producción, se obtiene una utilidad máxima de $2100
semanales al producir 15 unidades de P , y 25 unidades de P , cada semana; las
máquinas del tipo M , y M3 se utilizan a su máxima capacidad cada semana, pero
sólo se usan 55 horas de tiempo en las máquinas M,, 15 horas menos de su
capacidad. El fabricante deberá considerar vender
el
algunas de las máquinas M 1
ya que la capacidad de la máquina M , puede reducirsesin reducir la utilidad (ver
problema 5).
(2.59)
a xI
40x I
40xI
XI
= 40
Para problemas como éstos, es necesario saber:
l . ¿Siempre existen soluciones?
2. ¿Cómo se pueden
encontrar soluciones de unmodo eficiente y preciso?
Tales preguntas se responden en el capítulo1 1, utilizando unagran cantidad de la
información de los capítulos 3 y 4.
PROBLEMAS
2.7
1. Deduzca la segunda y tercera restricciones de (2.55).
2. Una dieta balanceada debe consistir de, al menos, cantidades mínimas de
ciertos nutrientes. Suponga que de un conjunto dado de alimentos, desea
86
2
/
Algunas
aplicaciones
simples y preguntas
determinar una dieta de costo mínimo que satisfaga los requerimientos
mínimos propios de ciertos nutrientes; en particular, suponga que la tabla,
abajo, da el costo y niveles de nutrientes en cadauno de tresalimentos y que
se debecumplir con los requerimientos mínimos que seenlistan de la manera
más barata posible.
Nutriente I
Nutriente 2
costo
Número mínimo de
Alimento 3 unidades
requeridas
Alimento 1
Alimento 2
2
1
1
40
I
70
1
40
3
90
60
Denote mediante yl,y, y y3 las cantidades de cada uno de los tipos de
alimentos en ladieta. Muestre queel problema se modelapara encontrary,,
Y , Y Y3 Y con esto
D 3. Exprese el modelo del problema dos en notación matricial.
4. a) Mediante la resolución de conjuntos de dosecuaciones lineales con dos
incógnitas, encuentre las coordenadas x 1 y x2 de cada uno de los puntos
Y, 9,9,
9,y O de (2.59).
b) Evalúe M en (2.54) en cada uno de estoscinco puntos, y observe que el
punto que dael mayor valor de estoscinco, es el mismo punto encontrado
al resolver el programa lineal (2.54)-(2.55).
D 5. Suponga que el fabricante en elejemplo principal decide eliminar la capacidad excesiva vendiendo algunas máquinas tipo M , de modo que sólo se
dispongan de 55 horas por semana de la máquina M , . Demuestre que aún es
posible seguirel plan de producción de x1 = 15 y x, = 25, y que sigue siendo el
plan óptimo.
6. Suponga que en el problema 5 el dinero obtenido de laventa de las máquinas
M , se utiliza para comprar suficientes máquinas M3 para incrementar el
número de horas disponibles de la máquina M 3 a 100 horas por semana en
lugar de 90. Encuentre el nuevo programa óptimo de producción x l , x2 Y la
utilidad máxima asociada; ¿,produjo este cambio un incremento en las utilidades?
2.8
/
Problemas varios
87
7. Suponga que en los problemas 5 y 6 , en lugar de que el dinero de laventa de
las máquinas M , sea usado para comprar máquinas M , se utilice para
comprar máquinas M 2 , para incrementar el tiempo disponible por semana de
la máquina M 2 a 50 horas por semana en lugar de 40. Encuentre el nuevo
horario de producción óptimo x,, x,; ¿produjo este cambio un incremento en
las utilidades?
D 8. Suponga que en (2.59) M se cambia por M = loxl + 4 0 ~ Encuentre
~.
el
programa de producción óptimo x,, x2.
9. Suponga que en (2.59) M se cambia por M = 90x, + 4 0 ~ Encuentre
~ .
el
programa de producción óptimo xl, x2.
D 10. Encuentre los números c y d tales que, si se cambia M a M = cx, + dx, en
(2.59) el programa de producción óptimo ocurra en 2, donde x, = 30 y x2 =
10.
+
11. Suponga que en (2.59) M se cambia por M = 50x1 5ox2. Demuestre que
existe un número infinito de planes de producción óptimos, es decir, x1 = a y
x2 = 40 - a para cualquier a que satisfaga 15 Ia 5 30.
2.8
PROBLEMASVARIOS
PROBLEMAS
2.8
1. Si una matrizA , 3 x 3 cumple con las condiciones apropiadas además de (2.3),
es posible demostrar que las potencias de AT tienden a una matriz A, conforme r tiende a infinito; en particular suponga que la condición adicional es
que la matriz A sea estrictamente positiva: (A)u L d para ciertonúmero d >
O . (Nota: d probablemente no pueda ser mayor que 4; ¿por qué?)
a) Sea u , , ~el elemento ( i , j )de A':
= a , , i j ;sean m, y M , los elementos
más pequeño y más grande respectivamente a,,IIen el primer renglón de
AT. Escribiendo los elementos del primer renglón de Arfl = ATA en
términos de los elementos del primer renglón de A' y de las columnas de
A , demuestre que
m,,, 2 M,d
+ m,(l - d)
y
M , + , Im,d + M r ( l - d).
b) Entonces, deduzca que (M,,, = m,,,) I(1 - 2d)(M, - m,).
c) Deduzca que M , - m, tiende a cero a medida que r tiende a infinito.
d) Demuestre que los números M , decrecen: M , 2 M , 2 M,. . . ,que los m,
crecen: m, Im, Im3. . . , y que m, y M , forman sucesiones acotadas.
e) Concluya que tantoM,como m,convergen, y al mismo límite:esto es, el
primer renglón de A' converge a un renglón de la forma [ a a a] para
cierta a.
88
2
I Algunas aplicaciones simples y preguntas
f) Demuestre que, aplicando el mismo tipo de argumento a los renglones
segundo y tercero de A' se prueba que A' converge a cierta matriz de la
forma
r
2. Generalice el teorema y lademostracióndel problema 1 para matricesp x p .
3. Para explicarel comportamiento de
las poblaciones de zorrosy gallinas en el
modelo del ejemplo 2.16 (donde k = 0.1):
a) Demuestre que
Zi+l - Gi+l = 0.7(Zi - Gi) y 5Git.l - Zi+l = 1.1(5Gi - ZJ.
b) Deduzca que (2, - G,) tiende a cero mientras que 5Gi - Zi tiende a
infinito cuando i tiende a infinito.
c) Concluya que tanto Zicomo Gi tienden a infinito.
4. Para explicar el comportamiento
de las poblaciones de zorrosy gallinas en el
modelo del ejemplo 2.17 (donde k = 0.18):
a) Demuestre que
O.lGi+l - 0.06Zi+, = 0.9(0.1Gi - 0.062;)
b) Deduzca que O.lGi - 0.06Zi tiende a cero cuando i tiende a infinito.
c) Deduzca que 2Gi - 2, tiende a cero.
d) Concluya que tantoZicomo Gi tienden a cero.
5. Suponga que x es una matriz columnap x 1, con elementos (x)i = x, y quefes
una función de valor real de las p variables x,, x2, . . . , x,. Se denota
Ax,, . . . ,x,) mediantef(x), y se define la matriz columna, p x 1 df/dx de
derivadas parciales defcon respecto a sus variables de la forma: ( df/dx)i =
af/axi.
a) Sif(x) es cTx,donde c es una matriz columna constantep x 1, demuestre
que i?f/dx = c.
b) SiB es una
matriz simétricap x p yflx) es (elelemento en la matriz 1 x 1)
xTAx, demuestre que dfjdx = 2Ax.
c) Dados A p x q y y p x 1, para que x sea solución del problemade mínimos
cuadrados (2.52) se requiereque df/aX = O, dondeflx) es(el elemento en
la matriz 1 x 1) (y - AX)^(^ - Ax). Utilice a) y b) para mostrar que esta
condición en la derivada es tan sólo ATAx = ATy.
2.8
I
Problemas varios
89
6. Los siguientes temas generales -y referencias bibliográficas asociadas-
están muy relacionados con elmaterial cubierto en este capítulo.Es posible
discutir el uso de matrices en estas áreas ya sea de manera
superficial
(basado en el material del primer capítulo y en una brevehojeada a algunas
referencias), o de modo profundo (basado en material de capítulos posteriores y de un examen detallado de las referencias
y otras fuentes).En un nivel
asignado por su profesor, utilice las referencias sugeridas u otras, para
discutir los usos de matrices en una de las siguientes áreas.
Cadenas de Markov -Karlin (17); y Kemeny y Snell (19 y 20).
Equilibrio en redes -Martin (25); Robinson (29); y Strang (34).
Circuitos eléctricos-Senturia y Wedlock (32); Strang (34); Tropper (35);
y Weiss (37).
Dinámica y ecuaciones diferenciales -Bellman y Cooke (7); Braun (8);
Frazer, Duncan y Collar (10); Hurty y Rubinstein (16); y Strang (34).
Mínimos cuadrados en modelado y estadística -Albert (5); Graybill (12);
Linnik (22); Rao (28); Searle (31); y Walpole y Myers (36).
Programación lineal -Dantzig (9); Hadley (14); Karmarkar (18); y Simonnard (33).
Economía -Karlin (17); Kemeny y Snell (19 y 20); Kemeny, Snell y
Thompson (21); Maki y Thompson (23); y Schwartz (30).
Ingeniería y ciencias-Amundsen (6); Haberman(13); Heading (15); Pipes
(27); Searle (31); Strang (34); Tropper (35); y Weiss (37).
Ciencias sociales y del comportamiento-Haberman (13); Kemeny y Snell
(19 y 20); Kemeny, Snell y Thompson (21); y Maki y Thompson (23).
7. Una vez que haya estudiado algunos de los capítulos posteriores, podrá
discutir eluso de matrices y del álgebra lineal en otras áreas diferentesa las
que se sugieren en el problema6; este problemaes
una tarea paraesas fechas
posteriores. Al igual que en
el problema6,utilice las referencias paradiscutir
uno de los siguientes temas.
Pseudoinversas -Albert (5); y Nashed (26).
Programación no lineal "angasarian
(24).
Teoremas dela alternativa paradesigualdades lineales "angasarian (24).
Cálculos con matrices esparcidas -Bjork, Plemmons y Schneider (38);
Bunch y Rose (39); Duff y Stewart (41); George y Liu (45); y Rose y
Willoughby (5 1).
Métodos iterativos para la solución de ecuaciones lineales -Hageman y
Young (47); y Varga (54).
Solución de problemas de mínimos cuadrados -Golub y Van Loan (46);
Lawson y Hanson (49); y Stewart (53).
Cálculo de eigensistemas -Golub y Van Loan (46); Parlett (50); Stewart (53);
y Wilkinson (56).
Matrices no negativas -Varga (54).
3
Solución de ecuaciones
y cálculo de inversas: métodos
Este capítulo constituye el corazón metodológico del libro;
las herramientas de la eliminación de Gauss,
las operaciones elementales de renglón
y la
sustancia hacia atrds se utilizardn virtualmente en cada capítulo subsecuente y deber&?, porlo tanto, ser dominadas por completo. El teorema
los argumentos
3.34 es un teorema clave porque es la base de muchos de
teóricos del capítulo4. Las secciones 3.6,3.8 y3.9 serdnde mucho inter&
para aqudllos que tengan una orientación de tipo computacional, mientr
que la materia de la sección 3.5 es de importancia para aqubllos con una
orientación de tipo teórico aplicado o computacional. La sección 3.7 se
encuentra en algún lugar entre estos dos; sin embargo,
se deben conocer
los teoremas cluve 3.48 y 3.53 sobre la descomposición-LU como una
alternativa de la eliminación de Gauss.
3.1
INTRODUCCION
En elcapítulo 2, se proporcionó amplia evidencia sobre los sistemas de ecuaciones lineales que surgen a partir de la aplicación de las matemáticas en diversas
áreas; esecapítulo, al igualque el capítulo 1 -véase por ejemplo, el teorema 1.38
sobre ecuaciones e inversas- demuestran también que las matrices y sus inversas
están íntimamente relacionadas con el problema de la solución de sistemas de
ecuaciones lineales. En este capítulo se desarrollará la metodología matricial
para resolver sistemas de ecuaciones y encontrar inversas; aquí se enfatiza el
c ó m o : cómo descubrir si un sistema tiene solución o si una matriz tiene inversa: cómo encontrar tales solucioneso inversas y así sucesivamente. Entoncesen el
capítulo 4 se reexaminarán algunos de estos procedimientos y problemas desde
90
3.2
/
Soluci6n de ecuacionesmediante
la eliminaci6n de Gauss
91
un punto de vista teórico para poder desarrollar un fundamento lógico riguroso
para los problemas prácticos.
3.2
SOLUCIONDEECUACIONESMEDIANTE
LA ELlMlNAClON DE GAUSS
El método de laeliminación de Gauss es un procedimiento directo pero poderoso
para la reducción de sistemas de ecuaciones lineales a una forma reducida
sencilla que se resuelve fácilmente por sustitución. Observe que muchos autores
utilizan “eliminación de Gauss” para referirse tanto a la reducción como a la
sustitución que le sigue, mientras que aquí sólo se hace referencia a la reducción.
Para introducirlo, se empieza ignorando la notación matricial y escribiendo
detalladamente las ecuaciones; más adelante se traducirá lo que se está
haciendo
allenguaje matricial. Observe que hayun número de variantes igualmente
efectivas en la eliminación de Gauss; se
presenta una en detalle y algunas otras se
mencionan en problemas posteriores.
Eliminación de Gauss para ecuaciones
Considere el sistema de ecuaciones lineales
+ 2x2 - 4x3
- 3 X 1 + 6x2 + 3x3
(3.1)
-2xi
-
6x4 = -4
-
15x4 = - 3
+ 17x4=
x1 + x 2 + I l x , + 7x4 =
5x1“8x2
-
x3
9
7.
Para aplicar la eliminacion de Gauss
a (3. 1), se utiliza laprimera ecuación de (3.1)
para eliminar x, de las otras tres ecuaciones.Para hacer los cálculos más sencillos, primero se divide la primera ecuación por el coeficiente -2 de xl, obteniendo de allí una ecuación equivalente en la cual el coeficiente x, es I :
(3-2)
x 1 - x2
+ 2x, + 3x4 = 2.
Después, seutiliza esta ecuación para eliminar x1 de las últimas tres ecuaciones
de (3.1)
Nota. Esto sepuede hacer de dosformas aparentemente diferentes: 1) por
sustitución o 2) mediante lacombinación de ecuaciones.
Por sustitución, se
resuelve (3.2) para obtener x, en términos de las otras variables y luego
sustituir con esta expresión a x1 en cada una de las otras ecuaciones; por
ejemplo, la segunda ecuación de (3.1) se convierte en
- 3(2
+ x2 - 2x,
-
3x4)
+ 6x2 + 3x3 - 15x4 = - 3,
92
3
I
Soluci6n de ecuaciones y cAlculo de inversas: rnbtodos
que, después de combinar términos, resulta 3x2 + 9x3 - 6x4 = 3. Con el
procedimiento combinado, se agrega a cada una de las ecuaciones siguientes un múltiplo apropiado de la primera, seleccionado de tal modo, que el
coeficiente de x1 se vuelve cero en lanueva ecuación. Por ejemplo, multiplique la primera ecuación nueva (3.2), mentalmente por 3 y sume el
resultado a la segunda ecuación de (3.1); obtendrá
-3x1
+ 6x2 + 3x3 - 15X4 + @)(X,
-
x2
+ 2x, + 3x4) = - 3 + (3)2,
que, después de combinar términos, es tan sólo 3x2 + 9x, - 6x, = 3
exactamente como en el primer procedimiento. Los dos procedimientos
siempre dan elmismo resultado. Ya que
es más fácil de organizar computacionalmente el procedimiento de combinación de ecuaciones y no requiere
del intercambio de términos sino de cruzar el
signo de igualdad, siempre se
usará este método. Por lo tanto.
(3.3)
cuando se dice “utilice la ecuación A para eliminar la variable B de la
ecuación C ” , se quiere decir“reemplace la ecuación C por sí misma, más
aquel múltiplo de la ecuación A que daría una nueva ecuación que no
contendría explícitamente a la variable B ” .
Volviendo a la eliminación de Gauss en (3.1): la tarea era usar la ecuación
(3.2) para eliminar x1 de cadauna de las otras tresecuaciones. El resultado es
(3.4)
+ 2x, + 3 x 4 =
3x2 + 9x3 6x4 =
x, - x 2
-
2
3
-3x2 - 1 lx, + 2x4 = - 1
2x2 + 9x3 + 4x4 =
5.
Observe que las últimas tres ecuaciones en (3.4) involucran sólo las tres incógnitas x2, x3y x4 mientras que la primera ecuación permite el cálculo directo dex1
una vez que se hayan encontrado xp, x3y x4 de las ecuaciones inferiores.
El siguiente paso es reducir las tres ecuaciones inferiores con tres incógnitas
a dos ecuaciones con dos incógnitas. Primero, se divide la nueva segunda
ecuación de (3.4) entre su coeficiente 3 , con el fin de simplificar la aritmética;
esto permite que a la segunda ecuación la reemplace
x2 + 3x, - 2x4 = 1.
Ahora utilice esta segunda nueva ecuación para eliminar la segunda variable x2
de las últimas dos ecuaciones -por ejemplo, reemplace la tercera ecuación de
3.2
I Solucidn de ecuaciones mediante la eliminacidn de Gauss
93
(3.4) por sí misma más tres veces la segunda ecuación más nueva (3.5). Esto
reemplaza el conjunto (3.4) de cuatro ecuaciones por
x1 - x2 + 2x3 + 3x4 = 2
x2 + 3x3 - 2x4 = 1
-2x, - 4x4 = 2
3x3 + 8x4 = 3.
Ahora se tienen que manejar las últimas dos ecuaciones con dos
incógnitas
con el mismo proceso. Divida la tercera ecuación de (3.6) entre -2, reemplazando esta ecuación por x3 + 2x4 = - 1; entonces utilice esta ecuación para
eliminar x3de la cuarta ecuación de (3.6). Después de dividir esta nueva cuarta
ecuación entre el nuevo coeficiente 2 encontrado para x4,se ha reducido finalmente el sistema
(3.7)
x1 - x2 + 2x3 + 3x4 =
x2 + 3x3 - 2x4 =
2
1
x3 + 2x4 = -1
x‘$=
3.
Esto completa la eliminación de Gauss, dando la firma reducida (3.7) de las
define de manera
ecuaciones originales (3.1). La expresión “forma reducida” se
precisa en el capítulo 4; el término describe una forma que resulta dela eliminación de Gauss.
Se utiliza ahora la sustitución en reversa para producirla solución de (3.7)
como sigue. La última ecuación en (3.7) tiene, clara y exactamente, una solución: x4 = 3. Ahora, para la sustitución en reversa: al sustituir
x4 = 3 en la tercera
ecuación de (3.7) se tiene
= -1 - 2x4
-1 - 2(3) = -7;
sustituyendox4 = 3 y x3 = -7 en la segunda ecuación de (3.7)se obtiene xz = 28; y
una última sustitución en reversa en la primera ecuación de (3.7) da como
resultado x1 = 35. Si, como comprobación, se sustituyen estos valores en el
una
sistemaoriginal (3. l), se observará que, efectivamente, se obtuvosolución.
Ahora podrá resolver los problemas 1 y 2 .
Eliminación de Gauss para matrices aumentadas
Al realizar en el ejercicio anteriorla eliminación de Gauss, todoslos cálculos se
hicieron con los nhrneros-los coeficientes y el miembro derecho de lasecuacio-
94
3
/
Soluci6n de ecuaciones y calculo de Inversas:metodos
nes- en lugar de usar para ello los símbolos xi, aunque ciertamente se continuó
escribiendo las xi. Se puede ahorrar una cantidad considerable de escritura
trabajando solamente con los números y evitando reescribir las variables todo el
tiempo; sólo se debe tener cuidado de no perder la pista de qué números son
coeficientes de cuáles incógnitas, o de cuáles corresponden a qué miembro
derecho. Las matrices son ideales para esto.
En lugar de manipular las ecuaciones, se opera con la matriz aumentada
[A b] que se forma añadiendo la columna b del lado derecho a la matriz A de
coeficientes, para formar una matriz separada; para el ejemploanterior la matriz
aumentada es
(3.8)
-2
-3
5
1
2
6
-8
1
-4
-6 II - 4
I
-15 I -3
I
17 1I
9
3
-1
11
7 1
7
El primer paso en la aplicaciónde la eliminación de Gauss para las ecuaciones en (3.1) fue reemplazar la primera ecuación por sí misma dividida entre -2;
en términos de la matriz de coeficientes y de los lados derechos de las ecuaciones, esto significa simplemente reemplazar el primer renglón
[-2
2
-4
-6
-41
por sí mismo dividido entre -2:
[l
-1
2 3 121.
Observe que esto es tan só!o la matriz d e números que aparece en la primera
ecuacidn nueva (3.2). El siguiente paso, utilizando el método de ecuaciones fue
utilizar la nueva primera ecuaci6n para eliminar x1de las otras tresecuaciones;
para matrices, esto significa que se usa primer
el
rengE6n nuevo para eliminar los
elementos en la primera columna de los otros tres renglones. Observe que
(3.9)
cuando se dice “utilice el renglón A para eliminar el elemento en la columna
B del renglón C,” se quiere decir “reemplace el renglónCpor sí mismo más
el múltiplo del renglón A que daráun nuevo renglón con un elemento cero
en la columna B” ;
observe la similitudcon el lenguaje en (3.3) utilizado
para describir la eliminación
de ecuaciones. Al usar el primer renglón nuevo [ 1 - 1 2 3 I 21 para eliminar 10s
elementos en la primera columna de los otros tres renglones de (3 2 ) se reemplaza
a la matriz aumentada (3.8) por
(3.10)
1
O
-1
3
2
9
31
-61
2
3.2
I Soluci6n de ecuaciones mediante la eliminaci6n de Gauss
95
Observe que (3.10) es precisamentela matriz aumentada de (3.4).Después se
reemplaza el segundo renglón
[O
3 9
-6 131
en (3.10) reemplazado por sí mismo y dividido entre 3 -es decir
[O
3
1
-2
11
-después utilice ese nuevo segundo renglón para eliminar los elementos en la
columna 2 de los últimos dos renglones de (3.10); esto da
(3.11)
Observe que (3.11) es precisamente
la matriz aumentada de (3.6).
Reemplace el
tercer renglón de (3.11) con é1 mismo dividido entre -2, y utilice este nuevo
renglón para eliminar el elemento en la columna 3 del último renglón, dando
como resultado
(3.12)
1
O
Reemplazando el último renglón
finalmente la matriz reducida
-1
O
2
31
O
2 1 6
con el mismo dividendo entre 2, se obtiene
(3.13)
Esto completa la eliminación de Gauss, dando la forma reducida (3.13) de la
matriz aumentada original (3.8). Observe que (3.13) es precisamentela matriz
aumentada para (3.7) Si no se hubiese realizado la eliminación ena
ls ecuaciones, al llegar a estepunto se hubiera interpretado (3.13) como la matriz aumentada de un sistema de ecuaciones
-es decir (3.7)- se hubiera escrito el sistema,
y
después se hubiera usado la sustitución en reversa para obtener la solución al
sistema de ecuaciones original.
96
3
Soluci6n de ecuaciones y cblculo de inversas: rn6todos
/
El hecho de resolver el sistema (3.1) de dos manerasdiferentes pudo haber
oscurecido la facilidad de uso de laeliminación de Gaussen lamatriz aumentada.
Considere otro ejemplo ilustrativo.
(3.14)
Ejemplo. Considere las tres ecuaciones lineales contres incógnitas
En seguida se escribe la matriz aumentada
(3.15)
.l.
[; : ;I 'l.
-3
-2
1
-3
-31
-3
2
-3
1
I
31
o
Reemplace el primer renglón con éI mismo divididoentre -3 y utilice este
nuevo primer renglónpara eliminar los elementog en la primera columna de
otros dos renglones, lo que da
o
-4
2
-1
Reemplazando el segundo renglón de esta nueva matriz aumentada con
éI mismo dividido entre 4 y utilizando el nuevo renglón para eliminar el
elemento en la ségunda columna del último renglón,da comoresultado una
matriz que -después de dividir su último renglónentre 5- a su vez da como
resultado de la eliminación de Gauss la matriz reducida
Si se interpretaesta última matriz reducida como la matriz aumentada para
un sistema de ecuaciones, entoncesla última ecuación da claramente xg =
O-.2; realizando la sustitución en reversa y poniendo este resultado en la
segunda ecuación, da que x2 = 0.35; nuevamente, realizando la sustitución
en reversa conestos dosresultados en laprimera ecuación dax, = 0.45. Si
sustituye estos resultados en el sistema original de ecuaciones,verá que la
eliminación de Gauss aplicada a la matriz aumentada ha producido verdaderamente una solución.
3.2
I Solucibn de ecuaciones mediante la eliminacibn de Gauss
97
Ahora pod& resolver los problemas del 1 al 5.
Intercambios en la eliminación de Gauss
En cada uno de los casos anteriores se ha procedido de un modo sistemático,
utilizando los renglones (o ecuaciones) de arriba hacia abajo para eliminar
valores en las columnas (las variables) de izquierdaa derecha.Sin embargo, esto
no es necesario,en algunos casos esimposible, y en loscálculos prácticos-como
se verá posteriormente- con frecuencia es imprudente. Si desde el principio se
usa un renglón diferente del primero para realizar la eliminación, notacionalmente es más fácil intercambiar este renglón con elprimero y después proceder
de la manera acostumbradacon este nuevo primer renglón; observe que intercambiar dos renglones es lo mismoque escribir las ecuaciones
en diferente orden
-lo cual ciertamente no tiene ningún efecto sobre las soluciones (vea teorema
4.12).
(3.16)
Ejemplo. Considerenuevamenteel sistema detresecuaciones
con tres
incógnitas del ejemplo 3.14 y su matriz aumentada (3.15). Suponga que se
del primero para eliminar
decide utilizar el tercer renglón de (3.15) en lugar
en la primera columna - q u i d porque ya tiene un 1 como primer elemento.
Por lo tanto se intercambian el primero y tercero renglones, obteniendo
-3
-3
:].
3;
1 -3
-2
2
I
lI
- 3 ; -3
El reemplazar este nuevo primer renglón por é1 mismo dividido entre su
primer elemento 1,por supuesto no cambia nada; se usa este
primer
renglón para eliminar loselementos en la primera columna delos otros dos
renglones y esto da
[:
O
-3
-4
-12
3
7
j
:l.
61 - 3
Simplemente para demostrar que se puede hacer,
suponga que decide
utilizar el tercerrenglón para la eliminación en la segunda columna; por lo
tanto intercambie el segundo y tercero renglones actuales para obtener
98
3
/
Soluci6n de ecuaciones y calculo de inversas: rn6todos
Reemplazando este segundo renglón por sí mismo dividido entre -12 y
utilizando el nuevosegundo renglón resultante paraeliminar el elemento en
la segunda columna del último renglón, se obtiene una matriz que -después
de dividir su Último renglón entre 5- da, a su vez, laforma reducida final
(Observe que esto es diferente de la matriz reducida que se obtuvo en el
ejemplo 3.14;sin embargo, se obtendrá la misma solución para las ecuaciones). Si se interpreta esta matriz reducida como la matriz aumentada de
un sistema de ecuaciones, la última ecuación da por supuestox g = 0.2; la
sustitución en reversa produce x2 = 0.35 y x1 = 0.45 - exactamente la
misma solución que se obtuvo en el ejemplo 3.14 sin intercambios.
El ejemplo 3.16 ilustra el hecho de que es posible intercambiar ecuaciones;
en algunos casos es necesario:
(3.17)
Ejemplo. Considere el sistema decuatro ecuaciones lineales con cuatro
incógnitas
+
- 2 ~ 1 4x2 - 2x3 - 6x4 =
4
+ 6x3 + 10x4 = 1
"2x1 + 6x2 + xq= 1
2x, - 5x, + 4x3 + SX, = -3.
3x1 - 6x2
-
La matriz aumentada es
-2
4
2
-5
-2
-6
4
I -3
Reemplazando el primer renglón
por sí mismo dividido entre -2 y haciendo
uso del primer renglón resultante paraeliminar loselementos en laPrimera
columna de los últimos tres renglones da como resultado
1
-2
o
-1
1
31-2
3.2
I Soluci6n de ecuaciones mediante la eliminaci6n de Gauss
99
Ya que el elemento(2,2) de estamatriz es cero, sepuede usar el segundo
renglón para eliminar en la segunda columna: no importa por cuánto se
multiplique el segundo renglón, alsumar el resultado un
a renglón inferior,
el cero en el segundo elemento del segundo renglón deja sin cambio el
segundo elemento delrenglón inferior. Existe la necesidad de intercambiar
el segundo renglón con el tercero o con el cuarto.
Hasta ahoralos ejemplos ha., demostrado quesiempre es posible y a veces
necesario intercambiar renglones cuando se utiliza la eliminación de Gauss; se
deja a las secciones 3.6 y 3.9 demostrar el hecho de que a veces es prudente
hacerlo en los cálculos prácticos.
Ahora pod& resolver los problemas del I al 9 .
Eliminación de Gauss para matrices aumentadas en general
Hasta aquí, sólo se han visto ejemplos de sistemas de ecuaciones, dematrices
la situación y
aumentadas y de eliminación de Gauss; ahora se examinará
procedimiento generales. Vuelva a ver (1.36) en la sección 1.4, donde se demostró que el sistema general
(3.18)
de p ecuaciones lineales con 4 incógnitas era equivalente a Ax = b parap X 4 A
con (A)o =
X 4 X 1 con ( x ) t = x, Y b p X 1 con (b), = b j . La eliminación de
Gauss para matrices opera en la matriz aumentada [A b]:
(3.19)
Definición. La matriz separada [A b] es la matnzaumentada del sistema
de ecuaciones descrito Ax = b.
La eliminación de Gauss procedeentonces a eliminar en las columnas comen2, y demás sucesivamente; se
zando con la columna 1, siguiendo con la columna
usa el renglón rj para eliminar en la columnaj,
y además sepuede intercambiar un
renglón inferior con el renglón r,-ésimoantes de la eliminación. Se puede describir el proceso utilizando columnas sucesivas "(3.20)- o renglones -ver (4.1).
(3.20)
La eliminación de Gauss con intercambios en la matriz aumentadap X (4 +
1) [A b] procede como se indica a continuación:
100
3
I
Solucidn de ecuaciones y calculo de inversas: metodos
l . Seaj = 1 y rl = 1;utilice el renglón rj para eliminar en la columnaj la
de
matriz aumentada actual como se indica en los pasos del 2 al 6.
2. Seleccione un renglónde entre los renglones numeradosr,, r, + 1, . . . ,p
para su uso en la eliminación de la columnaj; llame a este renglón i, de
modo que el elemento (i, j ) -llamado pivote- en la matriz aumentada
actual sea diferente de cero. Si no hay elementos diferentes de cero en
esta parte inferior de la columnaj,entonces no se requiere de eliminación: ponga rj+l = rj para utilizar el mismo renglón, y salte directamente
al paso 6.
3 . Intercambie los renglones i-ésimo y rj-ésimo.
4. Reemplace este nuevo renglón r,-ésimo por sí mismo dividido entre el
pivote (su elemento diferente de cero en su columnaj-ésima).
5. Utilice este nuevo renglón rj-ésimo para eliminar los elementos en la
columnaj-ésima en los renglones rj + 1, r, + 2, . . . , p . Ponga rj+l= r, +
1 para utilizar el siguiente renglón.
6. a) Si j 5 q y r,+l 5 p , entonces aún es posibleseguireliminando:
incremente j en 1 y vuelva al paso número 2.
b) En caso contrario,se ha completado la eliminación de Gauss: vaya al
paso número 7.
7. Interprete la matriz reducida final como la matriz aumentada para un
sistema de ecuaciones y proceda a encontrar las soluciones, si existen,
mediante la sustitución en reversa.
Este bosquejo se aplica para p ecuaciones con q incógnitas, donde p no es
necesariamente igual a q . Todos los ejemplos presentados han tenidop igual a q ;
la sección 3.3 proporcionará más ejemplos generales.
Ahora podrá resolver los problemas del 1 al 1 2 .
Eliminación de Gauss-Jordan
Antes de ver más ejemplos de la eliminación de Gauss, se considera
una modificación de este proceso que -aunque ineficiente para cálculos prácticos- con
frecuencia es útil para propósitos teóricos.
En la eliminación de Gauss, se utiliza un renglón en particular (ecuación)
para eliminar, pero sólo enlos renglones (ecuaciones) por abajo de eserenglón
(ecuación). Si se escoge eliminar también en los renglones (ecuaciones) por
arriba de ese renglón (ecuación), el proceso se llama eliminación de GaussJordan. Se mostrarámás adelante que el método deeliminación de Gauss-Jordan
involucra más aritmética que el método de eliminación de Gauss,por lo tanto,se
introduce más como unaherramienta teórica que comouna herramienta computacional. Vea, sin embargo, el problema 14.
3.2
(3.21)
I Soluci6n de ecuaciones mediante la eliminaci6n de Gauss
101
Ejemplo. Considereel empleo de la eliminación deGauss-Jordanpara
resolver (3.1); ya que el primer paso es idéntico al del método de la
eliminación de Gauss, laeliminación de Gauss-Jordanen la matrizaumentada original (3.8) lleva primeramente a(3.10). Después de queel segundo
renglón en (3.10) se divide entre3, el segundo renglón resultante seutiliza
para eliminar por arriba de este renglón así como por abajo; esto da
Ahora se reemplazael tercerrenglón por sí mismo dividido entre -2 y el
resultado se utiliza para
eliminar por arriba de esterenglón al igual
que por
abajo, y esto da
eliminar por arriba
Dividir el último renglón entre 2 y usar el resultado para
de é1, produce
1
O
O
0
1
0
0
0
1
0
0
0
,o
o
o
1
Interpretar estocomo la matriz aumentada para
un sistema de ecuaciones,
produce un sistema resuelto demodo trivial con la misma solución encontrada anteriormente mediante la eliminación de Gauss.
La eliminación de Gauss-Jordan siemprelleva a un sistema resueltotrivialmente, como se encontró en el ejemplo 3.21; en esencia, la eliminación de
Gauss-Jordan realizala sustitución en reversa dela eliminación de Gauss conforme avanza, en lugar de esperar hasta el final. Repitiendo la eliminación
la
de
de Gauss-Jordan resultaen el uso de más aritmética para obtener solución
un sistema de ecuaciones que la
eliminación de Gauss; vea sin embargo el problema 14.
102
3
I
Soluci6n de ecuaciones y c~lculode inversas: mbtodos
PROBLEMAS 3.2
D 1. Resuelva cada uno de los siguientes sistemas de ecuaciones mediante la
eliminación de Gauss para ecuaciones.
(b) x1 + 2x, - 5x3 + x4 = 3
(a) 3x, - x2 + x 3 = - 1
+
+ 4x3 -2X4 = 2
4x1 + x2
6x3 + 3x4 = 11
5x, + 9x2 20x3 + x4 = 10
9x1 - 2x2
X3 = -9
2x1
3x,
x2 - 2x3 = -9
+
- 3x2
-
-
2. Utilice la eliminación de Gauss para ecuaciones para resolver
+ x2 +2x3 + x4= 5
4x, + 3x2 + 7x3 + 3x4 = 8
2x1
- 8 ~ 1-
6x1
x2 -
x3
+3 x 4 ~ 4
+ x 2 + 2 x 3 - x4 = 1.
3. Cada una de las siguientes matrices es una matriz aumentada para un sistema
de ecuaciones; escriba el sistema.
o
o
41
D 4. Utilice la eliminación de Gauss para matrices aumentadas para resolver
5. Utilice la eliminación de Gauss para matrices aumentadas para resolver
- 3 ~- 6y
+ 9~ = O
~ + 4 y +Z =
2~
6
+ 8y + 32 = 13.
6. Complete la solución del sistema de ecuaciones del ejemplo 3.17.
7. Intercambie la segunda y tercera ecuaciones del problema4 antes
de comen-
zar la eliminación de Gauss para matrices aumentadas; verifique que la
3.2
I Soluci6n de ecuaciones mediante la eliminaci6n de Gauss
103
solución obtenida resuelve tanto el conjunto
original de ecuaciones como
el
conjunto con las dos ecuaciones intercambiadas.
D 8. a) Utilice la eliminación de Gauss para matrices aumentadas en
o
3x-y”z=
+ + 62 = 4
- 6 ~ 2y
2 x +y + 6 ~ = 1 3
para obtener tanto forma
la reducida del sistema como la solución; tendrá
que intercambiar la segunda y tercera ecuacionesdespués de eliminarx.
b) Intercambie la segunda y tercera ecuaciones antes de usar la eliminación
de Gauss para matrices aumentadas para obtener la forma reducida del
sistema y la solución; no se requiere deningún intercambio para la eliminación.
c) Compare las formas reducidas de las ecuaciones y soluciones de los dos
métodos a) y b).
9. Utilice la eliminación de Gauss para matrices aumentadas para resolver
2 x -y + 2 2 +
3
3w=
6~ = 2
-4x+ 6y- 32-
6 ~ Y- + ~ z + 5 w = 9
4x - 2y
+ 62 + 12w = 12.
D 10. Utilice la eliminación de Gauss para matrices aumentadas para resolver
- 2 ~- 4 y + 2 ~ 6~ =
O
3~ + 6y - 22 + 1 3 =~
6
+ 14w =
12
2x + 4 y
4~
+
~
J
- 72
J
= - 10.
11. Utilice la eliminación de Gauss para matrices aumentadas para resolver
2~
+ 6y - 42 =
4
-x-3y+5z=
4
- 3 x - 9y + 42 = -1 1.
D 12. Encuentre todas las matrices columna
b, 3 X 1 para las que existeal menos
9
una solución a Ax = b y encuentre todaslas soluciones x asociadas con esab,
donde
104
3
I
Soluci6n de ecuaciones y cAlculo de inversas: rnbtodos
13. Resuelva los dos sistemas de ecuaciones
del problema 1 mediante la elimina-
ción de Gauss-Jordan paramatrices aumentadas.
14. Considere el siguiente proceso para resolver las ecuaciones
Ax = b. Primero
realice la eliminación de Gauss para matrices aumentadas. Después, comenzando en la derecha de abajo y trabajando hacia la izquierda, elimine por
arriba de la diagonal principal como se haría en la eliminación de GaussJordan.
a) Demuestre que esto
produce la misma matriz aumentada resultante que
si
se hubiera hecho la eliminación de Gauss-Jordan desde el principio.
b) Muestre que la aritmética que se requiere es la misma que cuando se
realiza la eliminación de Gauss seguida por la sustitución en reversa.
c) Explique por qué este método involucra menos trabajo que cuando se
.
realiza laeliminación deGauss-Jordandesdeel principio.
d) Utilice esto en (3.1).
3.3
EXISTENCIA DE SOLUCIONES A SISTEMAS DE ECUACIONES:
ALGUNOS EJEMPLOS Y PROCEDIMIENTOS
Cada sistema de ecuaciones consideradoen la sección 3.2 tenía tantas ecuaciones como incógnitas, y los métodos de eliminación vistos siempre arrojaban una
solución. Sin embargo, los métodos trabajan de un modo más general.
El número de soluciones
Primero considere el caso, aparentemente simple, de una sola ecuación ax = b
con una incógnita x ; inmediatamente se tiende a decir que la solución de esta
ecuación es x = b / a , pero de hecho existen tres posibilidades:
1. Si Q # O, entonces x = b / a tiene sentido, y ésta es lalinica solución de
esta ecuación.
2 . Si a = O, entonces existen dos posibilidades:
a) Si b # O, entonces, en la ecuación, sepide encontrar x tal que Ox = b
# O, y no existe una solución x . Se dice que “no existe solución” o
que “la ecuación es inconsistente” ya que implica que O = b # O , lo
cual es una contradicción.
b) Si b = O, entonces hay infinitamentemuchas soluciones: Cada
númerox esuna solución ya que Ox = O = b sin importar el valor dex.
Es sorprendente que las tres posibilidades -exactamente una (zínica) solución, ninguna solución, o infinitamente muchassoluciones- se cumplen para dos
ecuaciones con dos incógnitas. Por ejemplo las ecuaciones
x1 + x2 = 2
X I - x2 =
o
3.3
I
Existencia de soluciones a sistemas de ecuaciones: algunos ejemplos y procedimientos
105
tienen una solución única,
+ x2 = 2
x1 + x2 = 1
x1
son inconsistentes, y
+ x2 = 2
2x1 + 2x2 = 4
x1
tienen infinitamente muchas soluciones,es decir x1 = k , x2 = 2 - k , para toda k .
Aún más sorprendente esel hecho de que, precisamente,las mismastres posibilidades se cumplen parap ecuaciones con q incógnitas: exactamente una (única)
solución, ninguna solución, o infinitamente muchas soluciones. Esto se demostrará más adelante; porel momento, se puede confiar en que mediante la
eliminación de Gauss, se pueden descubrir todas (si las hay) las soluciones a
cualquier sistema concreto de ecuaciones.
Eliminacidn de Gauss y la existencia de soluciones: ejemplos
(3.22)
Ejemplo. Considere lastresecuaciones
con tres incógnitas
+ 2x2 - 5x3 = 2
2x, - 3x, + 4x3 = 4
x1
4x1
+ x2 - 6x3 = 8.
La matriz aumentada es
-5
2
1 - 6 1 8
la eliminación de Gauss reduce esto a
2
o
o
-5
O10
que se interpreta como
la matriz aumentada parael sistema de ecuaciones
x,
+ 2x2 - 5x3 = 2
x2 - 2x3 = O
ox, = o.
Esta última ecuación -en la que, por lo general, seconfia para determinar
se resuelve mediante x3 = k para cualquier número k arbitrario. La
xr
106
3
I Solucibn de ecuaciones y cAlculo de inversas: mktodos
sustitución en reversa dax, = 2k, x1 = 2 + k y se puede escribir
la solución
como
Por lotanto, existeninfinitamente muchas soluciones,las cuales se encontraron mediante la eliminación de Gauss.
(3.23)
Ejemplo. Considere las tresecuacioneslineales
x1
+ 2x,
-
x3
con cuatro incógnitas
+ 2x4 = 4
+ 7X, + x 3 + x4 = 14
+ 4x4 = 17
3x1 + 8x2 2x1
cuya matriz aumentada es
7
1
2
2
3
8
2 I 41/14
4\17
-1
1
-1
aplicando la eliminación de Gauss, esta matriz se reduce a
Esto se puede interpretar como la matriz aumentada para
x1
+ 2x2 - x3 + 2x4 = 4
x2 + x3
x.$ = 2
-
ox, = 1.
Esta última ecuación -en laque por lo general se confia para determinarx4pide encontrar una x4 tal que Ox, = 1. No puede existir tal x4, así que el
sistema de ecuaciones no tiene solución.
Estos ejemplos y problemas muestran que, en general, no es posible determinar si las ecuaciones tienen una, ninguna, o infinitamente muchas soluciones
sólo a partir de los nimeros de las ecuaciones o incógnitas. Puede suceder que
dos ecuaciones con 10 incógnitas sean inconsistentes,mientras que 10 ecuaciones con dos incógnitas tengan una solución única. La eliminación de Gauss es
el
método para determinar cuál de las situaciones prevalece.
3.3
I Existencia de soluciones a sistemas de ecuaciones: algunos ejemplos y procedimientos
107
Ahora podrti resolver los problemas del 1 al 7 .
Primera variable y primera columna
En el ejemplo 3.22 fue posible asignar un valor arbitrario ax3,pero lasvariables
restantes se determinaban por completo por ese valor. Esto genera la pregunta
de (una vez que seha aplicado la eliminaciónde Gauss) cómo distingue
se
a qué
variables se les pueden asignar valores arbitrarios, y cuáles, entonces, están
completamente definidas. Uno de los métodos se describe fácilmente en términos de primeras variables (o primeras columnas).
(3.24)
Definición. La primera variable en una ecuación es la primera (leyendo de
izquierda a derecha) variable en esa ecuacióncon uncoeficiente diferente a
cero. Laprimera columna para un renglón de una matriz, es lacolumna que
contiene elprimer elemento (teyendo deizquierda a derecha)diferente de
cero en ese renglón.
En el capítulo 4 se desarrolla la teoría necesaria para apoyar la siguiente
regla:
(3.25)
Vista previaa la solución de ecuaciones. Después de completar laeliminación de Gaussen la matriz aumentada[A b] del sistemade ecuaciones Ax
= b, encuentre las primeras variables y (primeras columnas) de las ecuaciones reducidas (matriz aumentada reducida). Entonces.
1. No existen soluciones si y sólo si la última columna es una primera
columna para cierto renglón.
2. Si la última columna no es una primera columna para algún renglón:
a) Existe una solución única si y sólo si cada variable es una primera
variable para alguna ecuación.
b) Existen infinitamente muchas soluciones si y sólo si hay algunas
variables que no sean primeras variables; a cadauna de estas variables no primeras sele puede asignar un valor completamente arbitrario,entonces cada primeravariableestácompletamentedeterminada en términos de los valores asignados a las variables no
primeras.
(3.26)
Ejemplo. Considereel sistema de ecuaciones del ejemplo 3.22, donde se
aplica la eliminación de Gauss asu matriz aumentada. Lasprimeras columnas en la matriz reducida resultante sonlos números 1 y 2; laúltima
columna, número 4, no es una primera columna como tampoco lo es la columna 3. Ya que x3 no es una primera variable, de acuerdo a (3.25) 2) b)
hay infinitamente muchas soluciones: se puede asignar un valor arbitrario a
108
3
/
Soluci6n de ecuaciones y calculo de inversas:metodos
x3, en términos del cual los otros estánperfectamente detcmninados, Esto
concuerda con lo que se encontró anteriormente en el ejcmplo 3.22.
3.3
PROBLEMAS
D 1. Utilice la eliminación de Gauss para resolver
2 ~ - 3 y = -1
3
2 x y+ =
x-3y=
-2.
2. Utilice la eliminación de Gauss para resolver
2x - 3y = - 1
2x+
y=
3
2.
x -y =
3. Utilice la eliminación de Gauss para resolver
2 x -3 y =
-4x+
-1
6 y = -2
1 2~ 18y = -6.
D 4. Utilice la eliminación de Gauss para resolver
+ 2x2 - 3x, + x 4 =
2x1 + 5x2
=
- 14x3 + 8x4 =
-2X1 - 3x2 + 14x3 + 2X4 =
o
x1
X1
8
-
15
10.
5. Utilice la eliminación de Gauss para resolver
-x1
+ x2 =
1
3x1 - 2x2 = - 1
2x1 - x2 =
1.
6. Dé un ejemplo de a) un sistema con menos ecuaciones que incógnitas pero
sin solución; b) un sistema con menos ecuaciones que incógnitas pero con
infinitamente muchas soluciones (vea también el problema 7).
7. Explique por qué se puede encontrar un sistema de dos ecuaciones con tres
incógnitas con exactamente una solución.
3.4
I C6mo encontrarunainversamediante
la elirninaci6n de Gauss
109
8. Cada una de las matrices que se muestran abajo, es la forma reducida que
resulta de la eliminación de Gauss para matrices aumentadas de cierto
sistema de ecuaciones. Para
Cada matriz: 1) identifique sus primeras columnas; 2) identifique sus primeras variables; 3) utilice la regla de (3.25) para
concluir a partir de 1) y 2) si el sistema general tiene exactamente una,
infinitamente muchas o ninguna solución.
9. Para cada una de las formas reducidas de las matrices aumentadas del
problema 8, escriba el sistema de ecuaciones que representa dichasmatrices
y utilice la sustitución en reversa para resolver, si es posible, el sistema.
D10. Encuentre todaslas matrices X, 3 x 4, para las cualesAX = O, donde A es
[-;-; -a].
1 -2
A=
11. Suponga queA es la matriz del problema 10 y que B y C son matrices, 3 x 4
tales que AB = AC. ¿Qué puede concluir a partir dela relación entre B y C ?
(Vea el problema 10.)
3.4
COMO ENCONTRAR UNA INVERSA MEDIANTE
LA ELlMlNAClON DE GAUSS
En el capítulo 1 se demostró que las inversas de matrices y los sistemas de
ecuaciones estaban estrechamente relacionados de varias maneras; en el teorema 1.38 de la sección 1.4 se explicó el modoen quelas inversas proporcionan
información sobre lasolución de ecuaciones, mientras que enel teorema 1.44 se
explicó cómo encontrar inversas mediante la solución de varios sistemas de
ecuaciones. Ya que se acaba dedesarrollar la eliminación de Gauss como un
método sistemático para resolver sistemas de ecuaciones, se puede aplicar al
problema de encontrar inversas -gracias al teorema 1.44.
De acuerdoal teorema 1.44, se puede construir una inversa derechaR de A
como
R = [rl
r,
. . . r,]
si cada ri resuelve Ari = ei. De modo similar se puede construir una inversa
izquierda L con
LT = [11
1,
. . . l,]
110
3
I
Solucidn de ecuaciones y cdlculo de inversas: metodos
si cada Ij resuelve Aq?,= ej. Y, por supuesto, si A es cuadrada (p = 4)y no sin
gular, entoncesse puede encontrar la inversa bilateral A" ya sea como R o L.
Para cualquier inversade éstas, el problemacomputacional
es similar:
(3.27)
Dada una matriz general C y n matrices columna b,, b,, . . . , b,, resuelva
los n sistemas de ecuaciones
Cxi = bi para 1 5 i S n para las n soluciones x,,
xz, . * . , x,.
Para encontrar una inversa derecha R de A; considere C = A; para encontrar
una inversa izquierda L de A, considere C = AT,en cualquier caso, las bi son
matrices columna unitarias eidel orden apropiado.Sin embargo, la situación en
(3.27), surge también en otras circunstancias. Por ejemplo, la ecuación Cx = b
puede modelar algún sistema físico, con b representando entradas conocidas
yx
salidas desconocidas {vea (2.24), donde b describe las fuerzas externas en
una
estructura y x describe su desplazamiento resultante}; entonces esposible que
(3.27) represente un proyecto en el cual se desea examinar la respuesta del
sistema a una variedad de entradas.
Se podría atacar (3.27) un sistema de ecuacionesa la vez: formar la matriz
aumentada [C b,] y usar la eliminación de Gauss para obtener x,; formar
C b, y usar la eliminación de Gauss para obtenerx,; . . . ;y por último formar
C b, y usar laeliminación deGauss para obtenerx., Esto espoco eficaz por la
siguiente razón: las operaciones realizadasen la fase dela eliminación, anteriores a la sustitución en reversa (dividir un renglón entre una constante, intercambiar dos renglones, sumar el múltiplo de un renglón al múltiplo del otro) están
completamente determinadas por los coeficientes
en las ecuaciones y son independientes del miembro derecho. Por supuesto los miembros derechos de la
ecuación entran en los cálculos, pero no afectan a las operaciones realizadas;
esto significa que, dados todos los miembros derechos al principio como en
(3.27), se puede realizar la eliminación completacon todos los miembros derechos al mismo tiempo. Esto es:
t 3
(3.28)
Para resolver (3.27), realice la eliminación de Gauss en la matrizmiltiploaumentada [C b,b2
*
b,], interpretelaforma reducida como la
matriz múltiplo-aumentada para n sistemas reducidos, y resuelva cada
sistema reducido mediante sustitución en reversa.
(3.29)
Ejemplo. Suponga que se necesita resolver Cxi = bi para i = 1 , 2 , 3 , donde
-
Se forma la matriz múltiplo-aumentada [C b, b2 b3] y se realiza la
eliminación como sigue:
3.4
/ Cbmo encontrarunainversamediante
la elirninacibndeGauss
111
entonces,
0.5 1 1.5 1 2.5 j 1.5
1 12 j 3 j 1
1
[:
entonces,
j
0.5 1 1.5 1 2.5
lS]
I
0.5 I 0.5 0.5 I -0.5
j
y finalmente,
0.5 1.5 j 2.5 j
1 1 1 1 1 1 - 11.51.
Esto se interpreta como
la matriz múltiplo-aumentada para tres sistemas de
ecuaciones, y para cada solución se sustituye en reversa. Por ejemplo, el
primero es
x1
+ 0 . 5 ~ 2= 1.5
x2 = 1,
que da fácilmente la primera solución como x1 = [ l 13.' AI manejar el
segundo sistema de forma similar se obtiene x2 = [2 1IT. La tercera solución es x3 = [2 - 11'.
El método (3.28) puede ser muy efectivo al resolver (3.27);por ejemplo, si
p = 4 = 50 y n = 10, (3.28) involucra, únicamente, alrededor del 15% del trabajo
que representa resolver cada uno de los 10 conjuntos de 50 ecuaciones con 50
incógnitas repitiendo el proceso de eliminación completo en un conjunto de
ecuaciones a la vez.
PROBLEMAS 3.4
b 1. Encuentre la inversaderechaR dela matrizA que se muestraabajo,aplicando
la eliminación de Gauss a la matriz múltiplo-aumentada,
[A
e1
e2
e31 = [A
y verifique que R es una inversa bilateral.
A=[-!
21
4
131
-:l.
-1
112
3
I Solucidn de ecuaciones y c21lculo de inversas: rn6todos
2. Utilice la eliminación de Gauss en la matriz múltiplo aumentada para encon-
[: -q
trar las inversas derechas de las matrices que se muestran abajo.
(a)
42
6
2
(b)
[: : -:] [-; ;:l.
11
[-;-;-;I
[-I -!] [-;
3. Utilice la eliminación de Gauss en la matriz múltiple-aumentada para encontrar las inversas izquierdas de las matrices que se muestran abajo.
(a)
2 -4
(b)
2 --6
:].
D 4. Utilice la eliminaciónde Gaussen la matriz múltiplo-aumentada para encontrar las tres soluciones xl,x2, xg, de Axi = bi para i = 1, 2, 3 , donde
A=[-. 2
6
-22
- 819
ti], b,;[jI],
b2=[I%],
b3=[:!].
5. Un distribuidor de alimentos naturistas desea crear dossuplementos alimenticios en polvo, uno (para adultos) quecontenga un 100% del RMD (requerimiento mínimo diario) de calcio, vitamina D y fósforo, y el segundo (para
niños) que contenga75,100 y 75% respectivamente, del RMD. Se dispone de
tres compuestoscomerciales para crear estasmezclas especiales; 1 gramo de
estos compuestos contienela fracción del RMD mostrada abajo.
Calcio
Vitamina D
Fósforo
Compuesto 1
Compuesto 2
Compuesto 3
0.15 RMD
0.26 RMD
0.15 RMD
0.23 RMD
0.27 RMD
0.28 RMD
0.26 RMD
O
RMD
0.08 RMD
Determine cuántos gramos de cada compuesto debenmezclarse para cada
uno de los suplementos alimenticios, de modo que cada uno cumpla exactamente con los contenidos del RMD ya descritos, mediante el planteamiento
de dos sistemasde tres ecuaciones con tres incógnitas y el uso de la matriz
múltiplo-aumentada.
3.5
OPERACIONES DE RENGLON
Y MATRICES ELEMENTALES
La eliminación de Gauss se introdujo en la sección 3.2 como una forma de
manipular ecuaciones; más adelante se vio en términos de matrices, como un
proceso para aplicar a matrices aumentadas. De hecho, el proceso en sí puede
3.5
I Operaciones de rengl6n y matrices
elementales
113
expresarse en términosmatriciales como la multiplicación por una sucesión de
matrices; esto resulta ser una herramienta esencial en el estudio de algunos
problemas de matrices.
Operaciones de renglón
La eliminación de Gauss consiste en una secuencia de operaciones
simples en los
renglones de una matriz aumentada. Estasmismas operaciones simples pueden
utilizarse para aprender mucho sobre matrices diferentes
de las matrices aumentadas como se verá más adelante, y por sí mismas, son de gran interés.
(3.30)
Definición. Unaoperaciónelementalde
renglón (a veces llamada sólo
operación de renglón) en una matriz A es cualquiera de los tres tipos de
operaciones siguientes:
1. Intercambio de dos renglones de A.
2. Reemplazo de un renglón r de A por cr para algún número c # O.
3. Reemplazo de un
renglón rl de A por la suma r1+ crzde ese renglón y el
múltiplo de otro renglón rz de A.
Se ha asegurado que uno de los usos dela notación matricial es el de expresar
relaciones u operaciones complicadas en forma concisa; aquí se usará para
operaciones elementales de renglón.
Matrices elementales
(3.31)
Definición. Una matriz elemental, p X p es una matriz que se produce
aplicando exactamenteuna operación elemental de renglón a I,. Eit es la
matriz elemental que seobtiene mediante el intercambio los
de renglones
i-ésimo yj-ésimo deI,. Ei (c)es la matriz elemental obtenida multiplicando
el i-ésimo renglón de I, por c # O. Ei, ( c ) es la matriz elemental que se
renglón al i-ésimorenglón de I,, donde
obtiene sumandoc veces el j-ésimo
i #j.
Los siguientes son ejemplos de matrices elementales, 2 x 2:
De éstos, los tres primeros son ilustraciones directas2 x 2, de las tres matrices
elementales básicasElz,El ( c ) ,y E12( c ) .Desde luego, la cuarta es sólo IS,en la
que se puede pensar como E12(0);debido a esta posibilidad, I, por sí misma
siempre es una matriz elemental.
114
3
Soluci6n de ecuaciones y cAlculo de inversas: metodos
/
Considere ahora lo que sucede cuando se premultiplicacualquierA,matriz
2
+ q por una de estas matrices elementales de muestra.Por ejemplo, considere
E12(c)A:
Esto es lo mismo que aplicar a A precisamente la operación derenglón que se
aplicó a I2 para obtener lamatriz elemental Elz(c) que premultiplicó a A. Estas
dos operaciones siempre producen el mismo resultado.
(3.32)
Teorema (operaciones de renglón y matrices elementales). Suponga que E
es una matriz elemental, p X p que se produce aplicando una operación
elemental derenglón a I,, y que A es una matriz p X 4.Entonces EA es la
matriz que resulta de la aplicación deesa misma operación elemental de
renglón en A.
DEMOSTRACION. Se probóel resultado para matrices elementales
E,(c) y las
demostraciones paralos otros dos tipos de matrices elementales se dejar
para los problemas. Observe que EiJ(c)= I, + ce,e;, donde ei y el son las
acostumbradas matrices unitarias columna de ordenp . Por lo tanto,
Eijc)A = (Ip
+ ce,ejT)A = A + ceiejTA.
Ahora eTA, por la definición de multiplicación de matrices, es tan sólo el
j-ésimo renglón de A ; por la misma definición, ei multiplicado por este
renglón es tan sólo una matriz p X q cuyo i-ésimo renglón es igual a
Por lo tanto, ceieTAes
este renglón y cuyos otros elementos son todos cero.
tan sólo la matrizpX 4 cuyo i-ésimo renglón es c multiplicado por elj-ésimo
iguales a cero; sumando esto
aA
renglón de A y cuyos otros elementos son
se realiza la operación renglón
de
que se discute a matriz
la
A tal y como se
afirmó.
Este teorema dice,por ejemplo, quela eliminación de Gauss consiste en una
un uso
secuencia de premultiplicaciones por matrices elementales; se hará
decisivo deesto más adelante, asícomo del hecho de que las matrices elementales son no singulares:
(3.33)
Teorema (matrices elementales y la no singularidad). Cada matriz elemental es no singular, y su inversa, por sí misma es una matriz elemental. De
modo más preciso:
a) E;' = EJI. . ( = EIJ. . )
b) E,(c)- = E,(l/c) con c # O
c) EiXc)" = Eij(-c) con i # j
3.5
I Operaciones de rengl6n y matrices elementales
115
DEMOSTRACION. Recuerde que con el fin dedemostrarqueunamatriz
cuadrada G es no singular y que tiene una matriz particular H como su
inversa, es necesario demostrar que GH = HG = I. En este caso, las
matrices G dadas son matrices elementales, al igual que sus matrices
inversas H; por lo tanto se puede aplicar el teorema 3.32.
a) Para demostrarque Eji es la inversa de Eo, primero considere EoEji. Ya
que Eo es una matriz elemental, el teorema3.32 dice que este producto
es elmismo que intercambiar los renglones i-ésimo yj-ésimo deEji-que
lógicamente da I. Un argumento similar muestra queEjiEo también es
igual a I, lo que demuestra a).
b) La demostración, muy parecida a a) se deja para el problema 3.
c) La demostración puede
modelarse como la de a), pero se selecciona otro
método. Observe que E&) = I ceieT, donde ei y ej son las matrices
unitarias columna acostumbradas. Entonces,
+
EiJc)EiJ-c) = (I + ceieT)(I- ceieT) = I
= I - c2ei(eTe.)e?
I l J
+ ce.eT - ce.eT
I J
1 1 -
c2e.eTe.eT
1 J I J
= I - c2ei[O]eT
=I-O=I,
ya que i # j . El producto en el orden inverso también produce I,
mediante el mismo argumento. I
Ahora se reunirán varios hechos a su disposición:
l . Cada operación elemental derenglón es equivalentea la premultiplicación por una matriz elemental. (Ver teorema 3.32.)
2. Cualquier secuencia de operaciones elementales de renglón es equivalente a premultiplicarla por el producto de una sucesión de matrices
elementales. {Vea 1) arriba.}
3. Cada matriz elemental es no singular. {Ver teorema 3.33.)
4. Un producto dematrices no singulares es no singular. {Ver teorema 1.35
a) y problema 21, ambos en la sección 1.4.)
Estos hechos juntos demuestran el siguiente teorema clave:
Estos resultados serán básicos para nuestro análisis del uso de las operaciones
elementales de renglón para resolver una amplia variedad de problemas.
116
3
I
Soluci6n de ecuaciones y cAlculo de inversas: rn6todos
PROBLEMAS 3.5
1. Demuestre el teorema 3.32 para matrices elementales EU.
D 2. Demuestre el teorema 3.32 para matrices elementales Ei(c), c # o.
3. Demuestre el teorema 3.33 b).
4. Si B se deriva de A aplicando una secuencia de operaciones elementales de
-
-
renglón a A, entonces se dice que B es renglón-equivalente a A y esto se
escribe como B A. Demuestre que
es una relacion de equivalencia
verdadera en el conjunto de todas las matrices p X q en el sentidode que :
a) A A para toda A
b) Si B A, entonces A B.
c) Si A B y B C, entonces también A C .
N
--
-
-
-
5. Suponga que A es una matriz,p X p y que, cuando la eliminación de Gauss se
aplica para reducir alguna matriz aumentada [A b] a su forma reducida, el
proceso puede llevarse a cabo exitosamente hasta su término para producir
una matriz reducida [U b'] (que significa que U es unitaria triangular superior). Demuestre quetal matriz U es no singular, y utilice el teorema clave 3.34
para demostrar que A es, por lo tanto, no singular.
D 6. Utilice la eliminaciónde Gauss parareducir la matriz aumentada H mostrada
abajo, a la forma reducida G . Para cada operación elemental de renglón
realizada, encuentre la matriz elemental correspondiente. Encuentre una
matriz no singular F de modo que FH = G .
H - E
ai:].
7. Sea A, p X q y considere lapostmultiplicación por matrices elementales, q X
q. Demuestre que
a) La postmultiplicación por Eu intercambia las columnas i-ésima yj-ésima
de A.
b) La postmultiplicación por Ei c ) multiplica la i-ésima columna de A por
c # o.
c) Lapostmultiplicación por Eu c ) suma c veces lai-ésima columna de A a la
j-ésima columna de A.
D 8. Suponga que A es p x p y no singular. Utilice el problema 7 para demostrar
que :
a) Si A' se obtiene de A intercambiando dos renglones de A, entonces A' es no
singular y su inversa puede obtenerse intercambiando las columnas COrrespondientes de A-l.
b) si A' se obtiene a partir de A, multiplicando el renglón i-ésimo
de A por c #
O , entonces A' es no singular y su inversa puede obtenerse dividiendo la
columna i-ésima de A-l entre c ; y
3.6
I Selecci6n de pivotes y elirninaci6n de Gauss en la prhctica
117
c) Si A' se obtienea partir deA sumando c veces el renglónj-ésimo de A a su
renglón i-ésimo, entonces A' es no singular y su inversa puede obtenerse
restando c veces la columna i-ésima de A" de su columnaj-ésima.
3.6
SELECCION DE PIVOTES Y ELlMlNAClON
DE GAUSS EN LA PRACTICA
Ahora se consideraun aspecto práctico importante de
la solución de p ecuaciones lineales con p incógnitas mediante la eliminación de Gauss. En ejemplos
anteriores -ver ejemplos 3.16 y 3.17 de la sección 3.2- se ha demostrado que,
por
lo general, esposible y a veces necesario,intercambiar ecuaciones al realizar la
eliminación de Gauss;por supuesto, la necesidad surge cuando un elemento que
se pretende usar como el siguiente pivote, es igual a cero.
En los cálculos prácticos, sin embargo, suele ser inteligente intercambiar
ecuaciones, aun cuando no se enfrenten con un pivote cero. Este hecho puede
resultar extraño, ya que la eliminación de Gauss siempre produce el (mismo)
resultado correcto sin importar qué sucuencia de pivotes diferentes de cero se
utilice: pero esto supone que la aritmética se lleve a cabo con exactitud, y las
computadoras en las que se resuelvenlos sistemas de ecuacionesen la práctica
rara vez realizan una aritmética exacta. Este hecho sobre la aritmética computacional inexacta afecta de manera drástica
la eliminación de Gauss -y cualquier
otroalgoritmocomputacionaly requierequesereexaminelaselección
de pivotes. Esta sección se concentra en el aspecto práctico de la solución de
sistemas de ecuaciones lineales cuando la aritmética realizada no es exacta;
observe que, por lo común, la aritmética es inexacta
aun para cómputosllevados
a cabo manualmente con notación decimal.
Aritmética en punto flotante
Por logeneral las computadorasy calculadoras representan el cero exactamente
como O; los números diferentes de cero, por lo general, se presentan como el
loe, donde
producto de unaparte fraccionariade t dígitosf y un factor de escala
O . 1 5 I f I 5 1 y e está restringida a cierto rango de números enteros.En muchas
microcomputadoras con coprocesadores matemáticos,t es 16 y de modo general
e está restringida a -308 5 e I308. Por simplicidad, se supondrá quee puede
tomar cualquier valor entero. La condición de f significa que el primer dígito
diferente de cero def ocurre inmediatamente a la derecha del punto decimal; los
números que se representan en esta forma se llaman números en puntoflotante
de digito-t.Por lotanto, la representación en punto flotante de3-dígitos de 0.05
es 0.500 x 10".
Para manejar números tales comof = 0.333 . . . con una expansión decimal
infinita o aun con números que requieren de un número dedígitos muy grande en
su representación decimal, en la práctica deben reemplazarse con números muy
cercanos pero con un menor número dedígitos. Aunque algunas computadorasy
118
3
/
Soluci6n de ecuaciones y c~%culode inversas: metodos
calculadoras sólo truncan los dígitos no deseados, la mayoría redondean el
número.
(3.35)
Definición. Para redondear un número diferente decero x a tdigitos en
puntoflotante: 1) representex en la notación de punto flotantecomox =fx
10" con O . 1 5 If\< 1, de modo que el primer dígito
def(a la derecha del punto
decimal) sea diferente de cero;2) retenga comof, los primeros t dígitos def;
3) si el ( t + 1)-ésimo dígitodefes O , 1, 2 , 3 o 4 , entonces defina la versión
redondeada -(x)- de x como.f, x 1Oe; 4) en caso contrario, incremente el
y defina la versión redondeada
t-ésimo dígito def, en 1 paraproducir yo,,
-(x> de x como fb x 10'. Cero se redondea a cero: -(O> = O.
Habiendo introducido esta terminología, se puede describir el modelo de
aritmética computacional en punto flotante de t-dígitos.En este modelo, por
número computacional se quiere decir ya sea O o un número (en punto flotante)
representado exactamente por una parte fracciona1 de, a lo mucho, t dígitos con
un factor a escala. En estemodelo, el resultadode cualquier operación aritmética
básica (+ , - /, X ) entre dosnúmeros computacionalesu y u 41se define como el
resultado de redondear a t dígitos (en punto flotante), o el resultado que se
obtendría con aritmética perfecta:
.t
(3.36)
Definiciún. Sean u y u números computacionales, y sea @ cualquiera de las
operaciones aritméticas básicas + , - , /, o X . Entonces elresultado para t
dígitos en punto flotante u @ u se define como -<u @ u>.
(3.37)
Ejemplo. Suponga que t = 2, de modo que sólo se tienen dos dígitos, y se
evalúan (3 + 3) - 5. Primero, 32 se evaluará como
(0.666 . . .
> = 0.67;
después 0.67 + 0.67 se evaluará como
40.67 + 0.67> = 41.34> = 1.3;
después
4 se evaluará como
30.333 . . . )- = 0.33;
y por último a la expresión general (3 + 3) -
+ se le dará el valor de
3 1 . 3 - 0.33> = 40.97)- = 0.97.
Observe que laexpresión "equivalente" 5 + ($ - $) se evaluaría de modo
*ente,
como 1.O -que es también el valor en aritmética perfecta. La
aritmética de 16 dígitos del MATLAB evalúa la expresión original exactamente como 1; Como un ejemplo más realista de su aritmética, evalúa
i+i+*+
6 "6
++'i
como 1 +
en lugar de 1.
3.6
I
Selecci6n de pivotes y eliminaci6n de Gauss en la practica
119
Ahora podrá resolver los problemas 1 y 2 .
Método de eliminación de Gauss en la aritmética computacional
Se utilizarála aritmética computacionalmodelo para ilustrar la importancia de la
selección de pivotes cuando eliminación
la
de Gauss serealiza en la prácticaen
computadoras. Por simplicidad, suponga quet = 2, esto es, que se tiene aritmética de dos dígitos;los mismos argumentos surgen con una t = 16 más realista,
pero la suposición de t = 2 hace que aquéllos sean más transparentes.
Considere el sistema de ecuaciones
x1 - x2 = o
(3.38)
O.Olx,
+ x2 = 1.
Observe que cada coeficientey lado derecho en (3.38) es un número computacional de dos dígitos: 0.01, por ejemplo, se representa como O . 10 X 10". La
solución exacta de(3.38) es x: = x: = 1/1.01 = 0.990099 . . . ; lo mejor que sele
podría pedir a la eliminación de Gauss enuna computadora de dosdígitos sería
obtener los números computacionales de dos
dígitos más cercanos a x: y x:, es
decir x; = x; = 0.99. Veamos qué tan bien lo hace.
(3.39)
Ejemplo (sin intercambios).Supongaquese
realiza la eliminación de
Gauss sin intercambios, usando la primera ecuación paraeliminar0.01 de la
segunda. Sumar-0.01 veces la primeraecuación
ala segunda produce(1
0.01) como el nuevo coeficiente dex,,pero en aritmética de los digitos esto
se debe evaluarcomo 1.O1 = 1.O. De modo que el sistema reducido se
calcula como
+
>
x1 - x2 = o
x2 = 1.
(3.40)
Lasustituciónenreversa(enaritméticacomputacional)
da la solución
aritmética computacionalx1 = x, = 1.O -una muy buena aproximación a la
mejor posible de x; = x; = 0.99.
Ejemplo (intercambiando). Ahorasuponga que se realiza eliminación
la
de
Gauss después de intercambiar las ecuaciones a
O.Olx,
+ x2 = 1
x1 - x2 = o.
Añadiendo -100 veces la primera ecuación a la segunda,
da en la segunda
nueva ecuación un coeficiente parax,
igual a-100 + (- 1) y un lado derecho
120
3
/
Soluci6n de ecuaciones y ciilculo de inversas: mktodos
nuevo de -100, para evaluarse nuevamente en aritméticacomputacionalde
dos dígitos; se obtiene -< - lOl> = - 100, de modo que el sistema reducido calculado es
O.Olx, +
x, =
1
- loox, = -100.
La sustitución en reversada primero x, = 1 (aún una muy buena aproximación a la mejor de x; = 0.99) y entonces x1 = O (una aproximación
incomparable con la mejor de x; = 0.99).
Estos dosejemplos ilustran que, en la aritmética en punto flotante, pivotes
diferentes pueden producir respuestas dramáticamente diferentes en la eliminación de Gauss, que
algunas de estasrespuestas pueden ser muy aceptables, pero
que otras pueden ser completamente inaceptables. Nuestro problema es entender estefenómeno con el fin de evitar pivotes que llevan a respuestas pobres.
Anúlisis de error en reversa
Considere nuevamente la aplicación de la eliminaciónde Gauss a (3.38) sin hacer
intercambios, como enel ejemplo3.39. Si la segunda ecuación en (3.38) hubiese
~ 0.99X2,
~
entonces con aritméticaperfecta en
este sistema alterado se
sido 0 . 0 1 +
habría producido la misma forma reducida que se obtuvo conaritmética computacional en el ejemplo 3.39. Por lo tanto:
el efecto de utilizar aritmética computacional de dos dígitos para llevar a
cabo laeliminación de Gauss sin intercambiar en (3.38) es exactamente el
mismo que seproduciría al usar aritmética exacta enel sistema levemente
cambiado
x1 -
x2 =
o
+
0 . 0 1 ~ ~O.99X2 = 1.
Por otro lado, considere nuevamente la aplicación de la eliminación de
Gauss a (3.38) con intercambio, como en el ejemplo 3.40. Al igual que arriba,
se desea encontrarun sistema que, con aritmética perfecta, se reduciráa lo que se
obtuvo en el ejemplo3.40 en aritmética de dosdígitos. Imagine que se reemplaza
el término x1 - x, por x1 - ax,; ¿qué valor debería tener a para que, con
aritmética perfecta en la eliminación como en elejemplo 3.40 resultara igual a
- 100como coeficiente dex, enlas ecuaciones reducidas? En aritmética perfecta
se tiene como segunda ecuación en elconjunto reducido tan sólo - (100 + a)xz=
- 100; por lo tanto es necesario -(lo0 + a) para igualar a - 100, de manera que
a = O. Por lo tanto:
el efecto de utilizar aritmética computacional de dosdígitos para llevar a
cabo laeliminación de Gauss con intercambios en (3.38) es precisamente el
3.6
/
Selecci6n de pivotes y eliminaci6n de Gauss en la practica
121
mismo que se produciría al usar aritmética exacta en un sistema muy
cambiado
=O
O.Olx, + x2 = 1.
X1
El análisis ha mostrado que paralas dos maneras de aplicar la eliminación de
Gauss en (3.38), la solución calculada puede visualizarse como la solución
exacta a un problema perturbado (es decir, cambiado); este método sellama
andlisis de error en reversa: la “culpa” de los errores en el resultado de un
proceso enuna computadora seregresa a los datos en lugar de al procesoo a la
aritmética computacional.
El análisis de erroren reversa es fundamental en la matemática aplicada en lo
general, y particular en el análisis de procedimientos computacionales. Los
datos utilizados en los cómputos yason por lo general inexactos debidoa errores
experimentales y de modelaje; si el análisis de erroren reversa puede mostrar
que lasolución calculada esla solución exacta aun problema en el cual
los datos
han sido cambiados por cantidades aproximadamente iguales en tamaño a los
errores que existenya en losdatos, entonces el resultado
de la computadora no
hacreado errores mayores,que aquéllos ya inherentes al problema. Esto permite
la conclusión de que el resultado de
la computadora estan bueno como razonablemente pueda pedírsele.
no se ha demostrado que laeliminación
de Gauss
Sin embargo, observe, que
siempre da una solución exacta a un problema ligeramente perturbado -al
contrario: Lasolución del ejemplo 3.40 es la solución exacta a un problema muy
perturbado. Nuestroproblema consiste en descubrir una estrategia para
realizar
los intercambios -esto es, para seleccionar pivotes- para la cual es válido el
hecho anterior. Con una estrategia apropiada,el intercambiar puede mejorar los
hechos en lugar de producir un desastre como en el ejemplo 3.40.
Es posible que se tenga la impresión de quela razón por la cual la solución sin
intercambios fue satisfactoria, mientras que
la solución intercambiada no lo fue,
se relaciona con el hecho de que
el elemento (1, 1) -es decir 1- utilizado como el
pivote para obtenerla primera solución es mucho más grande que elelemento (2,
1) -es decir 0.01- utilizado como pivote para obtenerla segunda solución. Por lo
tanto, bien se puede sugerir la regla: “Evite pivotes pequeños”. Esta noes una
regla mala, pero no puede aplicarse indiscriminadamente. Para visualizar esto,
suponga que se reescala (3.38) multiplicando la primera ecuación por
multiplicando la segunda por 102, reemplazando x1 por x1 = 102zl, y reemplazando xz por xz = 10-2z,. Esto da como resultado
(3.41)
z1 - O.o001z, =
lOOZ, +
22 =
o
loo.
122
3
/
Soluci6n de ecuaciones y calculo de inversas: metodos
Si cree que los pivotes pequeños son malos y los utiliza en el elemento
mayor 100, en aritmética de dos dígitos se obtiene
z, = 100 y entonces
z1 = O, que a su vez da lamisma solución errónea dex1 = O y x2 = 1 que se
pivotes pequeños noes
encontró en el ejemplo3.40. La estrategiade evitar
necesariamente exitosa.
Ahora podrá resolver los problemas del I al 4 .
Estrategia de selección de pivotes
Considerando las ecuaciones equivalentes (3.38) y (3.41) que difieren sólo en
escala, se demuestra que el hecho de evitar pivotes pequeños no es necesariamente una buena estrategia: dio buenos resultados en (3.38) pero resultados
pobres en (3.41). Otra manera de visualizar esto sería que evitarpivotes pequeños podna ser una buena estrategia si se escalaran las ecuaciones de modo
“apropiado”. Con “escalar” nuevamente se quiere decirmultiplicar cada ecuación por una constante diferente de cero y reemplazar cada variable por un
múltiplo diferente de cero de una nueva variable. Muchos -no todos- buenos
programas computacionales para la solución de sistemas de ecuaciones lineales
(ver sección 3.9), escalan las ecuaciones de algún modo antesde usar la eliminación de Gauss; los pivotes pequeños se evitan entonces mediante una de dos
estrategias:
l . Pivoteo parcial,en el cual las incógnitas se eliminandel modo común xl,
x2, . . . , x, y en el cual el pivote para la eliminación con xi es el
coeficiente de xi en las ecuaciones enumeradas i, i + 1, . . . ,p que tiene
el mayor valor absoluto.
2. Pivoteo completo, en el que las incógnitas no se eliminan necesariamente en el orden acostumbrado. La primera variable eliminada es
aquella variable xi con el coeficiente mayor (en valor absoluto), y ese
coeficiente se utiliza como pivote. La variable r-ésima eliminada es
aquella variable con el coeficiente mayor (en valor absoluto) que el de
todas aquellas p - r + 1 variables aún sin eliminar, en las ecuaciones p r + 1 restantes y ese coeficiente se utiliza como el pivote.
La experiencia indica que enla práctica, por lo general,
es suficiente utilizar
un pivoteo parcial; las ventajas posibles del pivoteo completo tienden a ser
abrumadas por las desventajas de una “contabilidad” incrementada en su implementación y el hecho de tener que examinar (p - r + 1)2 coeficientes para
3.6
I Selecci6n de pivotes y eliminacibn de Gaussen la practica
123
determinar en cada ocasión el pivoteo en vez
sólo de
revisarp - r + 1 como en el
pivoteo parcial. Los sistemas de ecuacionessurgen
que en la práctica-adiferencia de aquéllos creados para
los libros de texto con elfin de ilustrar las anomalías- con frecuencia parecen tener un escalamiento “natural” interconstruido
que impide que el pivoteo parciallleve a una selección desastrosa de pivotes; en
topografía, por ejemplo, raramente miden
se
algunas distancias enmillas y otras
en pulgadas. Otro factor
es que es innecesario encontrar me
eljor pivote; sólo es
necesario evitar pivotespésimos.
También existen razones teóricas para usar pivoteoparcial o completo. El
análisis de error en reversa puede ser utilizado para demostrar que lasolución
calculada x’ resuelve exactamenteun sistema perturbadoen el queel tamaño de
las perturbaciones (“tamaño” se mide en relación a los coeficientesoriginales)
se relaciona con el tamañolosdepivotes utilizados durante la eliminación. En la
práctica, los pivotes rara vez se vuelven grandes. De hecho:
(3.42)
La eliminación de Gauss con pivoteo parcial realizado en aritmética en punto
flotante det dígitos produce una solución aproximadax’, p X 1, para Ax =
b que es la solución exacta a un problema perturbado A’x‘ = b, donde en
la prácticaes por lo general el caso que
el mayor elemento dela perturba~ 1 0 ”veces,
~
que el mayor
ción A - A‘ no es mayor,alrededorde
elemento de A.
Por lo tanto, siA se escala demodo que todossus elementos sean de aproximadamente elmismo tamaño, entonces la
eliminación de Gauss con pivoteo
parcial
produce la solución exacta a un sistema de ecuaciones, cada uno de cuyos
coeficientes, por lo general, está sólo ligeramente perturbado de su valor correc to.
La necesidad de exhibir la A‘ en (3.42) hace difícil ilustrar (3.42) con un
ejemplo realista. Sin embargo, existe una consecuencia derivada de(3.42), que
r =b por sí misma es interesante y más fácil de ilustrar. Si se calcula el residuo
Ax‘ para ver qué tanto se acercax’ a la solución de Ax = b, entonces de (3.42)
se puede escribir
r = b - Ax‘ = b - A x ’
+ A x ’ - Ax‘ = (A‘- A)x’.
De esto se puede concluir a partir de (3.42) que
(3.43)
La eliminación de Gauss con pivoteoparcialrealizadoenaritméticaen
punto flotantede t dígitos produce una solución aproximada x’,p X 1 para
Ax = b que es la solución exacta a un problema perturbado Ax‘ = b - r
donde enla práctica se da por
lo general el caso de que el
mayor elemento
en r no es mayor que ~ 1 0 veces
” ~
el mayor elemento en A por el mayor
elemento en x’.
124
3
Solucidn de ecuaciones y cAlculo de inversas: metodos
/
9R (3.44)
Ejemplo. Consideresolucionar Ax = b, donde
-4
7
1
4
-2
-8
8
-1
7
4
5
6
2
-8
6
4
7
5 -3
3
8
-3
4
-6
-46
6
51
-1
8
"7
-2
-3
-6
-5
-5
4
8
-6
2
-1
-8
2
-50
-1
1 -9
8 -6
2
1
3
-63
-7
9
9
-2
-9
7
-5
-48
1
-6
53
3
1
9
9
5
9
-9
2
3
A=
71
5
-3
3
-7
2
6
-60
-4
9
-6
8
-7
2
4
-4
8
7
1
-61
-3
4
5
5
y
b=
10
4
-6
-3
-2
9
-8
1
9
5
-5
-73
7
-7
se resolvió el sistema utilizando MATLAB y tuvo lugar una x' cuyo elemento
mayor es dealrededor 0.3; y a que p = 10 y el elemento mayor en A es de 73, se
espera de(3.43) que elelemento mayor del residuo r = b - Ax' deba ser menor
que alrededor de (10)101-16(73)(0.3),que es aproximadamente 2.2 x
Con el
MATLAB se calculó el residuo r -usando aritmética computacional, y, por lo
tanto, se obtuvo un resultado imperfecto- teniendo como elemento mayor a
aproximadamente 2 x
bastante menor que ellímite superior de (3.43).
PROBLEMAS 3.6
D 1. Evalúe en aritmética de punto flotante de dos dígitos:
a) (+++)++.
b) (0.58 + 0.53) - 0.53.
c) 0.58 + (0.53 - 0.53)--compare este resultado con el de b)
2. Evalúe en aritmética de punto flotante de dos dígitos:
a)
b) 3(+)
3. Considere el sistema (3.41) -una versión escalada de (3.38).
a) Encuentre su solución exacta.
b) Encuentre la mejor aproximación de dos dígitos para esta solución.
c) Encuentre la solución que se obtiene de la eliminación de Gauss en
aritmética de punto flotante de dos dígitos, suponiendo que el mayor
coeficiente de cualquier variable se usa como el primer pivote.
3.6
I Selecci6n de pivotes y eliminaci6n de Gaussen lapractica
125
D 4. Utilizando aritmética de punto flotante
de dos dígitos,aplique la eliminación
de Gauss sin intercambios para resolver el sistema
+
-0.61~1 + O.23X2 = 0.48.
0 . 9 8 ~ ~o.43X2 = 0.91
b) Compare su resultado con la solución real x: = 0.005946 . . . , xf =
2.102727 . . . y con la aproximación de dos dígitos posible x; = 0.0059,
x; = 2.1;
c ) Utilice el análisis de error en reversa y encuentre un sistema perturbado
del cual la eliminación de Gaussen aritmética perfectaproduciría x; y x;
como la solución real.
(Observe que los errores absolutospequeños en las respuestas numéricas
representan de hecho errores relativos grandesy podrían no ser aceptables.)
5. Identitique el elemento que se utilizaría como el primer pivote en: 1) pivoteo
cada una de las matrices aumentadas mostraparcial y 2) pivoteo completo para
das abajo.
3
I 10
61 3
c)
2
[:
3
21 1
I
D 6. Demuestre que el residuo b - Ax es pequeño aun parala inaceptable
solución aproximadade (3.41) que se encuentraen el libro; demuestreque la
regla general (3.43) se cumple para este caso.
7. Muestre que el residuo b - Ax es pequeño aun para la solución aproxima3.39; verifiquequelareglageneral
da a (3.38) encontradaenelejemplo
(3.43) se cumple para este caso.
8. Demuestre que cada uno de los tres pivotes diferentesdel mayor en (3.41)
-incluyendo el más pequeño, 0.0001-da una aproximación satisfactoria a
x: y x; en aritmética de punto flotante de dos dígitos.
D 9. La regla general (3.43) indica que la solución calculada produceun pequeño
residuo; intuitivamente esto significa que “la solución casi resuelve Ax =
126
3
/
Solucidn de ecuaciones y c ~ l c u l ode inversas:rn6todos
b”, lo que puede ser diferente del enunciado “la solución calculada está
cerca dela solución verdadera”. Para visualizar esto. considere el sistema
0 . 8 9 ~+~o.53X2 = 0.36
0 . 4 7+
~ ~0 . 2 8 ~=~0.19,
cuya solución exacta es x: = 1, x: = - 1. Demuestre que la “solución
aproximada” x1 = 0.47, x2 = -0.11 tiene un pequeño residuo y por lo tanto
“casi resuelve” la ecuación, aunque la solución aproximada está lejos de la
solución real. Este es un ejemplo de un problema mal acondicionado -ver la
sección 6.4.
Ixlp 10.
a) Utilice el MATLAB o software similar para obtener una solución aproximada x’ para el sistema del problema 9.
b) Encuentre el error x’ - x* entre la solución calculaday lasolución real.
c) Compare el tamaño de esteerror con el tamaño del residuo r = b - Ax‘,
pero con el fin de calcular r de modo exacto, observe que
y calcule r como A(x* - x’). Nuevamente esto demuestra que
el sistema
está mal acondicionado.
11. Ni el pivoteo parcial ni elpivoteo completo están garantizados para producir
buenos resultados. Para visualizar esto, muestre que ambos producen resultados poco satisfactorios cuando se aplica la eliminaciónde Gauss en
aritmética de punto flotante de t dígitos a
2x, + x2 + x3 = 1
+ EX2 + EX3 = 2E
x1 +
EX) = E
x1
EX2 -
cuando E es muy pequeño y se le conoce con exactitud. Demuestre que al
reescalar mediante z 1 = .x1/€, z 2 = x2,z 3 = x3 y dividir la segunda y tercera
ecuación entre E para obtener
2EZ1 + z2 + z3 = 1
21
21
+ + z3 = 2
+ z2 z3 = 1
z2
-
se logra que ambos métodos funcionen satisfactoriamente.
3.7
3.7
I La descomoosici6n-LU
127
LA DESCOMPOSICION-LU
Hasta ahora se
ha enfatizado en el proceso de la
eliminación de Gauss;el énfasis
en esta sección se hará sobre el resultado -que es lo que se consigue con la
eliminación de Gauss. Los hechos básicos se resumen
en (3.56) y se ilustran en
los ejemplos 3.45 y 3.55.
Recuerde delejemplo 3.17 que laeliminación de Gausssin intercambios no
siempre puede completarse satisfactoriamente porque pueden aparecer ceros
sobre ladiagonal principal. Ya que esmás fácilde comprender,primero se trata
la
de
el caso en que tales ceros
no aparecen y se puede llevar a cabo eliminación
Gauss satisfactoriamente sin intercambios.
LU y eliminación de Gauss sin intercambios
Es fácil enunciar el resultado principal:
Si la eliminación de Gauss en la matriz A, p X p puede completarse
satisfactoriamente como en (3.20) pero sin intercambios, entonces el proceso es equivalente a escribir
A como un producto LU de una matriz triangular inferior L y una matriz triangular superior U (vea la definición 1.3)
Recuerde el proceso (3.20) de la eliminación de Gauss, pero en el caso
especial cuandoA esp X p, todos los pivotes son diferentes de cero,
y no se usan
intercambios. Al eliminar en la i-ésima columna, primero se dividen los elementos deli-ésimo renglón entre el pivote, el elemento (i, i) de la matriz en suforma
parcialmente reducida; denote estei-ésimo pivote como aii.Entonces se reemplaza el renglónj-ésimo (paraj > i) por el renglónj-ésimo
más un múltiplomji del
i-ésimo renglón a modo de producirun cero enel elemento (j,i); los números mJi
se conocen como multiplicadores. Las matrices triangulares involucradasen el
producto antesmencionado se define a partir de los
números producidos durante
la eliminación.
(3.45)
Ejemplo. Considere la matriz A, 4 x 4 utilizada para introducir la eliminación de Gauss en la sección
3.2; vea (3 3).Una matriz triangular inferior L y
una matriz unitaria triangular superior U. U son simplemente la forma
reducida (3.13)de A producida durante la
eliminación. Los elementos dela
diagonal principal de L son los pivotes: (L),, = aif;los elementos subdiagonales de L sonlosnegativos de los multiplicadores: (L), = -mjt. Se
pueden leer los multiplicadores mji y los pivotes ai{de los pasos (3.Q
(3.10),(3.1l),(3.12)enlaeliminación:a,,= -2,mzl=3,m3,= -5,ym,,=
-lde(3.8);az,= 3,m32=3,ym,z= -2de(3.10);a3,= -2,ym4,= -3de
= 2 de (3.12). Al formar L y U como se describió y después de
(3.11): y
128
3
I
Soluci6n de ecuaciones y cAlculo de inversas: metodos
comprobar la multiplicación, queda claro que la descomposición de A
como A = LU es correcta:
A
(3.46)
-2
2
es igual a
-4
U
Por
L
ya que
-6
3
Esta es la
descomposición LU de A. De ella se puede derivar unadescomposición triangular relacionada. Sea Do la matriz diagonal formada por los
pivotes; en este caso
Do = diag( - 2, 3, - 2, 2).
Ya que A = LU = LD; 'D,U, también se puede escribir A = LOUo,donde
Lo = LD;' y U. = DoU. Se encuentra Lo a partir de L dividiendo cada columna
esa columna, mientrasque U. se encuentraa partir de U
de L entre el pivote en
multiplicando cada renglón de U por el pivotede ese renglón. A = LOUoes la
descomposición LOUode A:
(3.47)
es igual a
A
-2
-3
2
6
-4
-6
3
-15
Por
Lo
9
1
0
U
3
ya que
9
-6
Primero se describió la eliminación de Gauss como ladivisión del renglón
entre el pivote, con el fin de obtener un 1 en ese elemento; esto hace los
cálculos más fáciles a mano. Por otro lado, enlos programas computacionales, por lo general no se divide primero entre este pivote, sino que se comienza a eliminar. El efecto es que la forma reducida que se obtienees la U.
de arriba en este caso,en lugar de U; los elementos en Lo por debajo de la
diagonal principal sontan sólo los negativos de los multiplicadores utilizados duranteesta forma de eliminación. Antes se mostró cómo encontrarLo
y U. a partir de Do, la matriz diagonal formada de los elementos de la
diagonal principal de L. A la inversa, al tener Lo y Uo, se podría encontrar
L = L a o y U = DolUo, donde Do es la matriz diagonal que se forma de
los elementos de la diagonal principal de U.
En el ejemplo3.45 se pudo descomponer A como A = LU y como A = LOUo,
donde L es la matriz triangular inferior con elemento no cero en la diagonal
3.7
/
La descomposici6n-LU
129
principal y U es la matriz unitaria triangular superior, donde Lo es la matriz
unitaria triangular inferior y U. es lamatriz triangular superior conelementos en
la diagonal principal no cero. El siguiente teorema dice queesto puede hacerse
siempre y cuando la eliminación de Gauss puedacompletarse sin intercambio, y
lo caracteriza cuando esto ocurre; la demostración, un tanto teórica, puede
quedar omitida por la mayoría de los lectores.
(3.48)
(3.49)
La demostración se hace por inducción enp. Sip= 1 y A = [a],
entonces L = [ a ] ,U = [ 11, Lo = [ 13, U,, = [ a ] ,y a # O si y sólo si los pivote(s)
-esto es,a- es no cero. Suponga que el teorema es verdadero parap - 1 y
que A es p X p . Efectúe la eliminación de Gauss para A, mediante la
eliminación únicamente de los primeros p - 1 renglones usando las primeras p - 1 columnas y luego regresando para eliminar los elementos en el
renglón inferior en cada columna de izquierda a derecha; esto es equivalente a la eliminación de Gauss común. La primera parte de este proceso
involucra eliminación de Gauss regular para Ap-l, una matriz (p - 1 ) x (p
- 1) para la cual se supone que se cumple el teorema. Detal modo,
completar la eliminación de Gauss para A es equivalente a completarla en
los primeros p - 1 renglones y después terminarla; completarla en
es
DEMOSTRACION.
130
3
I
Solucibn de ecuaciones y cAlculo de inversas:rnbtodos
equivalente a Ap-l = L’U’ de la forma apropiada. Considere tratar de
escribir A = LU con L y U como sigue:
= L U ’ , que por su construcdonde a,, = (A),,. Esto requiere que
ción resulta cierto; L’u = w , lo cual se cumple si y sólo si U = L”lw, ya que
L’ es no singular (los elementos en su diagonal principal son los pivotes
no cero); ITU’ = vT, que secumple si y sólo si IT= vW”l ya que U‘ es no
singular; y a,, = ITu + a, que secumple si y sólo si a = app- ITucon ITy u
como ya han sido determinados. Esto da ladescomposición LU deseada.
En seguida se relacionaladescomposiciónconlaeliminación
de Gauss. La eliminación (como se modificó para tratar primero con
los primeros p - 1 renglones) redujo los primeros p - 1 renglones de A de
[A,-, w] a [U‘u] sin alterar el último renglón [v’ a,] de A. Al eliminar
ahora en este último renglón, simplemente se agrega al último renglón
cierta combinación lineal de los primeros p - 1 nuevos renglones [U’ u] a
modo de tener [OT app]:
zT[U’
u]
+ [v’
a,,] = [O’
cr,,],
que dacomo resultado zT = - v W ‘ - ~= -IT(es decir,el nuevo renglón en la
descomposición LU que ya se ha encontrado es el negativo del renglón de
multiplicadores, como se indicaba) y
u,, = a,,
+ zTu = a,, - ITu,
que esigual a a, el nuevo elemento en ladiagonal principalencontrado para
L. Este pivote a,, = a será diferente de cerocomo se requiere si y sólo si L
es no singular; ya que U es no singular y L = A V ’ , L es nosingular siy sólo
si A lo es -10 cual es la condición para A, = A que se necesitaba. La
construcción de Loy U. a partir de L y de U demuestra la equivalencia de las
dos descomposiciones triangulares. w
Ahora podrá resolver los problemas del 1 al 10.
LU y eliminación de Gauss con intercambios
En el ejemplo 3.17 se revela que no toda matriz puede reducirse mediante
eliminación de Gauss sin intercambios. Sin embargo, si se permiten los inter-
3.7
I La descom~osici6n-LU
131
cambios de renglones, toda matriz no singular puede reducirse mediante eliminación de Gauss a una matriz unitaria triangular superior; esto puede relacionarse como en el teorema clave 3.48 con una descomposición triangular. Sin
estándar (3.20) puede realizarse a cabopero
embargo, siA es singular, el proceso
no producirú una matriz unitaria triangular superior.
(3.50)
Ejemplo. Considerela matriz quees evidentemente singular
Con o sin intercambios, la eliminación de Gauss reduce esto a una matriz
triangular superior R con un cero sobre la diagonal principal en lugar del
uno deseado. Un argumento simple (problema 19) muestra quetal vez no
matriz triangular inferior por
pueda escribirseA como el producto de una
una matriz unitaria triangular superior. De modo que A no puede descomponerse en A = LU como en el teorema 3.48; pero A si puede descomponerse en A = L,U,del segundo tipo, en el teorema con Lo unitaria triangular inferior,sise permiten elementos cero sobre
la diagonalprincipal deU,:
A = LOU,
con Lo = I y U, = A
en este caso.
En el ejemplo 3.50 se deja entrever que la segunda descomposición -A =
LOU,con U, posiblemente singular (como A), y Lo unitaria triangular inferiorpermite que exista la descomposición de ciertas matrices singulares (la razón
en Lo y U,) sin intercambios. Y , por supuesto, si A fuese no singular
para la
de modo que los elementos diagonales de U, fueran diferentes de
cero, se podrían
construir L y U de Lo y U, mediante el uso de la matriz diagonal Do(que se forma
de los elementos en la diagonal principal de U, en este caso)usando (3.49). Pero,
¿qué pasa si ocurren intercambios? Nuevamente, es fácil enunciar los hechos
básicos :
","
Si la eliminación de Gauss en la matriz A, p x p puede completarse
el
es
satisfactoriamente como en (3.20)con intercambios, entonces proceso
equivalente a escribir una modificación de A llamada A' (= A con sus
renglones reordenados) como un producto LU de una matriz triangular
inferior L y una triangular superior U.
Para verificar este enunciado para laeliminación de
Gauss con intercambios,
imagine que, de algún modo, se sabe antes del proceso de eliminación qué
132
3
I Soluci6n de ecuaciones y cSlculo de inversas: rnktodos
intercambios tendrán que hacerse, y que esos intercambios se realizan en los
renglones de lamatrizoriginal A, obteniendo una matriz A', antes decomenzar
la efiminacidn. El hecho es que la eliminación de Gauss puede entonces realizarse en A' sin intercambios, y que se usan exactamente los mismos pivotes y
multiplicadores para A' que para A, y que resultaexactamente lamisma forma
reducida de A' que deA. Por lotanto se puede utilizar la información del teorema
clave 3.48 para entender los efectos de laeliminación de Gauss con intercambios,
visualizándola con eliminación de Gauss sin intercambios sobre una matriz
obtenida de la original permutando -es decir, reordenando- sus renglones. Una
definición ayudará a hacer más precisa esta reordenación.
(3.51)
Definicidn. Unamatriz depermutación P , p X p es cualquier matrizp X p
que resulta depermutar-es decir, reordenarel orden de los renglonesde I,.
De modo más preciso: Cada renglón de P contiene exactamente un elemento diferente de cero, esdecir 1; y cada columna de P contiene exactamente un elemento diferente de cero, es decir l .
La sola definición de la multiplicación de matrices aclaró el hecho de que
premultiplicar una matriz A por una matriz elemental daba el mismo resultado
que aplicar la operación elemental de renglón correspondiente a A. De manera
similar, resulta claro que premultiplicar A por una matriz de permutación P
produce el mismo resultado que permutar los renglones de A exactamente del
mismo modo en el cual los renglones de I, para producir P.
(3.52)
Teorema (matrices de perrnutación). Sea P unamatriz de permutación.
Entonces:
a) Para cualquier A, PA puede obtenerse a partir de A permutando los
renglones de A exactamente comose permutaron los renglonesde I para
obtener P.
b) P es no singular, y P" = P*: PPT = PTP = I.
DEMOSTRACION
a) Esto se sigue fácilmente de las definiciones de la multiplicación de
matrices y de matrices de permutación.
b) Separe P en sus renglones rl, . . . ,r,, que son tan sólo los renglones e:
de I en cierto orden. Entonces PT tiene como sus columnas r:. La
definición de lamultiplicación de matrices implica que el elemento (i,j)
de PPTes tan sólo (el elemento en la matriz 1 x 1) rirjT, y esto es1 si i = j y
O si i # j ; esto es, PPT = I. Un argumento similar en términos de las
columnas de P demuestra que también P T = I .
Considere una vez más la eliminación de Gauss con intercambios.
3.7
I La descomposici6n-LU
133
(3.53)
(3.54)
DEMOSTRACION. Si A puede escribirse como A = PTLUcomo ena), entonces ciertamente A es no singularya quePT, Ly U son no singulares. La
demostración del resto del teorema se hace por inducción en p . Parap =
1, el resultado es justamente el mismo que en el teorema clave 3.48.
a) Suponga que a) es verdadero parap - l . Si A es nosingular, entonces
su primera columna es diferente de cero y los renglones pueden
permutarse de modo que el nuevo &mento (1, 1) sea diferente de
cero, entonces se puede llevar a cabo la eliminación de Gauss del
modo usual enesa columna. La matriz O, - 1) X o) - 1) que
permanece para su reducción también es no singular ya queA es no
singular y se ha transformado a esta forma parcialmente reducida
mediante matrices elementales (no singulares). Mediante la hipótesis
inductiva, puede llevarse a cabo el resto de
la eliminación de Gauss
con intercambios, siendo el resultado una forma reducida unitaria
triangular superior para A. Pero este proceso de eliminación es
equivalente (se omite la demostración) a la eliminación sinintercambios en PA, y entonces el teorema clave 3.48 se aplica a PA, obteniendo los resultados que se requieren.
b) Problema 18. m
134
3
I
Solucidn de ecuaciones y cBlculo de inversas: mbtodos
(3.55)
Ejemplo. Como se indica, la eliminación de Gauss comienza con un intercambio en lamatriz A que se muestra abajo, pero
un poco más adelante se
topa con un pivote cero:
[
O
4
-4
-8
:] [
-10
z] [i 8 !].
4
4
0
intercambio,
-4
-8
-10
m 3 ]= 2
Después, en la eliminación de Gauss estándar (3.20), se usaría el elemento
(2, 3), 4 como un pivote y se eliminaría el 2; sin embargo, esto no llevará a
una descomposición L U . La modificación que se necesita para demostrar
el teorema clave 3.53 b) requiere que, en caso deencontrar una columna
inferior cero como en la
segunda columna de este caso,
se brinque simplemente esa columna (es decir, que tome los multiplicadores igualesa cero) y
continúe a la siguiente columna y el siguiente renglón. En este caso, esel
elemento (3, 3),de modo que se hacompletado la eliminación. Se obtiene
la descomposición LOUoA = PTLoUomediante la formación de P como la
matriz de permutación que intercambia los dos renglones superiores, U.
como la forma triangular superior a la cual se hareducido A y Lo como una
matriz unitaria triangular inferior cuyos elementos son los negativosde los
multiplicadores. En este caso, esto daA = PTLoUocomo sigue:
PT
por
Lo
Por
u,
1
igual a A:
O
0
como puede comprobarse mediante multiplicación.
Los detalles de las demostraciones oscurecenun tanto las ideas básicas, así
que se resume
(3.56)
l . A es no singular si y sólo si A puede escribirse en una descomposición
L U , A = PTLU siendo P una matriz de permutación, U una matriz
unitaria triangular superior, y L una matriz triangular inferior con ele-
mentos en la diagonal principal diferentes de cero.
2. Cada matriz A, p X p , puede escribirse como una descomposición LOUo,
A = PTLoUocon P una matriz de permutación, Lo una matriz unitaria
triangular inferior(y por lo tanto no singular), y U. una matriz triangular
superior. A es no singular si y sólo si U. es no singular.
3 . Para A no singular, las descomposiciones LU y LOUode 1) y 2) pueden
relacionarse mediante (3.54).
3.7
I La descomposici6n-LU
135
4 . Estas descomposiciones pueden encontrarse a partir de la
eliminación
de Gauss.
PROBLEMAS 3.7
D 1. Para la matriz A que se muestra abajo, realice la eliminación de Gauss sin
intercambios y dé los multiplicadores m,,, m31
y m32,y los pivotes all,aZ2
y
al igual que las matrices elementales que logran que se realice cada
operación de renglón.
I:1
A=[!
-:]
2. Verifique (3.46).
3. Verifique (3.47).
D 4. Demuestre que una matriz triangular inferiorL es no singular si y sólo si los
elementos de su diagonal principal son todos diferentes de cero.
5. Demuestre que cada matriz unitaria triangular superiornoes
singular y que
su inversa es unitaria triangular superior.
D 6. Demuestre queel producto demuchas matrices arbitrariasunitarias triangulares superiores (o inferiores) es unitario triangular superior (o inferior).
7. Demuestre que la inversa de una matriz triangular inferior (o superior) no
singular -ver problema 4- es triangular inferior (o superior).
8. Demuestre que el producto de muchas matrices arbitrarias triangulares
superiores (o inferiores) es triangular superior (o inferior).
9. Para cada matrizA mostrada abajo, encuentresu descomposición LU, A =
LU y verifique que LU = A.
2
-1
12
o
7
7
3
-6
-11
-31
D 10. Suponga queA = L,U1 = L,U, son dos descomposicionesLU de A, teniendo
ambas matrices Li elementos no cero en ladiagonal principal. Mediante el
examen deL;'L1 y U,U;', muestre queL, = L2y U, = U2. En otras palabras,
la descomposición LU, A = LU de una matriz A no singular es única.
11. Para cada matrizA mostrada abajo, encuentresu descomposición L U , A =
PTLU realizando la eliminación de Gauss con intercambios.
136
3
/
Soluci6n de ecuaclones y cBlculo de inversas: metodos
6
-4
-12
3
14
-4
11
-16
12. La matriz A se define mediante la descomposición LU mostrada abajo.
Realice la eliminación de Gauss sin intercambios y verifique que los multiplicadores, pivotes, y forma reducida final son como los contenidos en la
descomposición L U .
A = L U = [ - i- 6
O
:]
O
13. Para cadauna de las matrices del problema 11, para el cual se encontróA =
PTLU, calcule la descomposición LU sin intercambios; para la matriz A'
que sedefine como A' = PA y verifique que se obtienen las mismas matrices
L y U.
D 14. Demuestre que la descomposición L U , A = PTLU no es única niaun para las
matrices no singulares, encontrando dosde tales descomposiciones diferentes para
15. En las aplicaciones, muchas matrices son esparcidas: la mayoría de sus
elementos son cero. Enmuchos casos son matrices de banda,es decir, que
sus elementos diferentes de cero están en una banda vecina a la diagonal
principal. Una matriz tiene un ancho de bandainferior 1si ( A)ii = O paraj <
i - 1 y ancho de banda superior u si (A)u = O para j > i f u. Una matriz con
ancho de banda superior e inferior 1 se llama tridiagonal.
a) Demuestre que si se realiza la eliminación de Gauss para producir la
descomposición LU sin intercambios para una matriz tridiagonal A, A =
LU, entonces L tiene un ancho de banda inferior 1 y U un ancho de banda
superior l .
b) Demuestre que si se requiere de intercambios, entonces U puede tener
ancho de bandasuperior 2 mientras que L puede tener ancho de banda
inferior p - 1 para A = PTLU, p X p .
c) Generalice a) y b) para matrices generales de banda.
16. Encuentre la descomposición LOUode cada matriz del problema 11 a),
b) Y c).
D 17. Encuentre la descomposición LOUode A si A es:
3.7
I
La descomposici6n-LU
137
18. Demuestre el teorema clave 3.53 b) como sigue, mediante inducción en p,
donde el resultado está claro
parap = 1 . Suponga que es verdaderoparap 1 y sea A, p x p.
a) Demuestre quéeliminación en la primera columnade A es equivalente a
premultiplicar primero A por una matriz de permutación P, y después por
una matriz unitaria triangular inferior L, cuyos únicos posibles elementos
en la subdiagonal, diferentes de cero, están
en la primera columna y son
los negativos de los multiplicadores m; ya que la matriz restante (p - 1) X
(p - 1) puedeescribirsecomo
P’TL’U’ con L‘ unitariatriangular
inferior mediante la hipótesis inductiva, demuestre que este producto
puede ser separado como P2L2U2,dando
LIPIA = P2L2U2,
donde
Premultiplicando por PTL;
esta ecuación cambia a
P,TPIA = PTL; 1PzL2U2.
b) Muestre que L; se parece a L, a excepción de que los multiplicadores
m se reemplazan por -m.
c ) Tomando ventaja de la estructura especial de los términos PT, L; l , P,,y
L2 a la derecha y usando multiplicación separada, demuestre que esta
ecuación puede escribirse como
donde m’ = Pm; siendo ésta la PA = LOU,deseada
19. Mediante la multiplicación e igualación de elementos, demuestre que la A
abajo no puede escribirse como A = LU:
138
3.8
3
I Solucibn de ecuaciones y calculo de inversas: metodos
MEDIDAS DE TRABAJO Y SOLUCION
DE SISTEMAS LIGERAMENTE MODIFICADOS
Unmodelo matemático dado de cierto sistema de interés, comúnmente se
utiliza de manera extensa para explorar
a
ls propiedades de esesistema: se puede
examinar lasalidadel sistema para varias entradas diferentes;se pueden estudiar
los efectos deligeras modificacionesen el propio modeloy así sucesivamente. Si
el modelo involucra un sistema de ecuaciones lineales, entonces tales sondeos
requieren la solución de varios sistemas de ecuaciones que difieren muy ligeramente uno de otro: se puede requerir de soluciones para variosmiembros
derechos diferentes pero la misma matriz de coeficientes; se puede requerir de
soluciones después de unos pocos cambios en los coeficientes; y así sucesivamente.
En tales situaciones que involucran ecuaciones lineales, por lo general es
posible ahorrarse una cantidad de trabajo haciendo uso de cálculos anteriores
para resolver, más adelante, sistemas de ecuaciones ligeramente modificados.
Con el finde visualizar el menor esfuerzo posible, primero es importante saber
qué trabajo involucra la solución de sistemas de ecuaciones lineales.
Medidas de trabajo para eliminación y sustitución en reversa
Suponga que elproblema es resolver para x en Ax = b, donde A es p x p , b es p x
1, y x es p X l . ¿Cuánto esfuerzo involucra la eliminación de Gauss para producir un sistema reducido,y cuánto involucra la sustitución en reversa para producir
x? Por supuesto, el esfuerzo mayor está en la aritmética -las sumas, restas,
multiplicaciones y divisiones esenciales al proceso. Para la mayoría de las
calculadoras y computadoras, al igual que para las personas las sumas y restas
consumen aproximadamente el mismo tiempo, pero son apreciablemente más
rápidas que las multiplicaciones y divisiones(cuestanaproximadamente
lo mismo). Por lo tanto, al medir el trabajo se contará la suma/resta separadamente de las multiplicaciones/divisiones pero se agrupará aquél en estas dos
categorías.
Considere laeliminación de Gauss en lacolumna k de la matriz A , p X p ; se
contabilizará el trabajo de procesar b más adelante. El renglón que contiene el
pivote debe dividirse entre ese pivote; se puede evitar dividir el pivote entre sí
mismo ya que se conoce que la respuesta es 1. Por lo tanto, se realizarán p - k
divisiones. A cada renglón de abajo se le debe sumar un múltiplo m del renglón
pivotal; el múltiplom es tan sólo el negativodel coeficiente que se busca eliminar
(por lo tanto, la obtención de m es gratuita) y no se tiene que calcular ese
3.8
/
Medidas de trabajo y soluci6n de sistemas ligeramente modificados
139
elemento eliminado ya que se sabe que el resultado esO . Por lo tanto, se deben
realizar p - k multiplicaciones y p - k sumas para cada uno de los p - k renglones
debajo del renglón pivotal.
El costo total de la eliminación de Gauss es la sumatoria de todos estos
costos:
Usando los hechos de que
1+2+...+n="-
+
n(n 1)
n(n
2
y
+ 1)(2n + 1)
1+4+...+n2=
7
6
se puede calcular el trabajo totalcomo p 3 / 3 - p / 3 multiplicaciones/divisiones y
p 3 / 3 - p2/2 + p / 6 sumas/restas.
Por supuesto, resolver Ax = b requiere que se procese b y también que se
realice la sustitución en reversa; esto se expresa fácilmente en términos de la
descomposición L U , A = PTLU del teorema clave 3.53. Ax = b significa que
PTLUx = b; entonces LUX = Pb, lo que se escribe comoLy = Pb y Ux = y, cada
una de las cuales es simplemente u n sistema triangular que puede resolverse
inmediatamente con sustitución hacia adelante o en reversa. La matriz columna
y es precisamente lo que se hubiera obtenido si se hubieran realizado todos los
pasos de eliminación en b durante la eliminación de Gauss.
(3.57)
Pararesolver Ax = b dadala descomposición L U , A = PTLU:
1. Permute los elementos de b para obtener b' = Pb.
2. Resuelva el sistema triangular inferior Ly = b' para y mediante la
sustitución hacia adelante.
3 . Resuelva el sistema unitario triangular superior Ux = y para x mediante
la sustitución en reversa.
(3.58)
Ejemplo. Consideresolucionarelsistema
de ecuacionesdelejemplo
usando (3.57); la descomposición LU, PTLU de A es
1
-2
1
O
-2
o
1
O
O
3.17
3
-2
2.2
1
Ya que b = [4 - 1 1 -3IT y b' = Pb es tan
sólo
b' =
- 3 1 - 13.' Se calcula fácilmente la solución y de Ly = b como y =
[ -2 - 1 - f - 1IT, y la solución x a Ux = y se obtiene fácilmente comox =
[ 1 1 2 - 11. Esto resuelve verdaderamente el sistema de ecuaciones en el
ejemplo 3.17.
[4
140
3
Soluci6n de ecuactones y calculo de inversas:rn6todos
/
Es fácil contabilizar el trabajo involucrado en (3.57) para una m
' triz A, p x p .
El paso 1 involucra intercambios pero nada de aritmética.
En el paso 2 se requiere encontrar (y)k en el orden de k = 1, 2, . . . , p . AI
encontrar (y)k los k - 1 valores anterioresde y se sustituyen, se multiplican por
un
coeficiente, y se restanal miembro derecho; entonces unadivisiónproduce(y)k.Por
lo tanto, para cada k el costoes dek multiplicaciones/divisiones y k - 1 sumas/restas. Esto da un costo total de p ( p + 1)/2 multiplicaciones/divisionesy p ( p - 1)/2
sumas/restas para el paso 2.
En el paso 3 se requiere encontrar(x)k en el orden de k = p , p - 1 , . . . , l. El
trabajo es similar al del paso2 a excepción de que la igualdad (u},, = 1 elimina la
necesidad de una división para cada variable. De allí que
costoeltotal seap(p - 1)/2
multiplicaciones/divisiones y p ( p - 1)/2 sumas/restas.
Ahora se pueden calcular fácilmente loscostos combinados de los tres pasos
de (3.57).
(3.59)
Teorema (trabajo en eliminación y solución). Suponga que A es una matriz no
singular, p X p . Entonces:
a) El costo de calcular la descomposición LU, A = PWJ de A es
p 3 / 3 - p / 3 multiplicaciones/divisiones y
p 3 / 3 - p2/2 + p / 6 sumas/restas
b) Dada la descomposición LU, el costo de resolver Ax = b mediante el
proceso de (3.57) es de
p 2 multipticaciones/divisiones y
p 2 - p sumas/restas
Los puntos claves a observar son que el trabajo en
la eliminación de Gauss
para producir ladescomposición LU varíacon el cubodep, mientras que el costo
de resolver un sistema-una vez que se dispone de ladescomposición LU- varía
con el cuadrado de p . El costo total para un solo sistema, por lo tanto, varia con
p3: Duplicar el número de ecuaciones y variables hace que el trabajo sea ocho
veces mayor. Sin embargo, observeque el costo de multiplicar simplemente dos
matrices p x p es dep3
multiplicaciones yp3 - p 2 sumas -ambas mayores que en
( 3 . 5 9 ) .Observe también, queel resolver un solo sistema de 100 ecuaciones con
100 incógnitas requiere de 343,300 multiplicaciones/divisiones y 338,250 sumas/restas- una tarea enormepara la mayoría de los seres humanos, por lo que
es importante resaltar que muchas microcomputadoras realizan 10,000 operaciones aritméticas por segundo, y podrían hacer esto en aproximadamente 70
segundos, mientras que las supercomputadoras modernas requerirían de una
pequeñísima fracción de segundo.
Puede usarse el mismo tipo de análisis para contabilizar el trabajo en la
eliminación de Gauss-Jordan; el costo total para resolver un solo sistema de p
ecuaciones lineales conp incógnitas esp3/2 + p 2 / 2multiplicaciones/divisionesy
3.8
I Medidas de trabajo y soluci6n de sistemas ligeramente modificados
141
p3/2 - p / 2 sumas/restas. Aquí los términos dominantes son p 3 / 2 contra p3/3
para la eliminación de Gauss; en la eliminación de Gauss-Jordan se consume
alrededor de50°/0 más del tiempo que en la eliminación de Gauss para resolver
un sistema de ecuaciones. De hecho, se sabeque ningún método que utilice sólo
operaciones de renglón (o de columna)puede tomar menos trabajo paramatrices
generales que la eliminación de Gauss.
Ahora podrá resolver los problemas del 1 al 6 .
Modifwación de los miembros derechos en ecuaciones
Suponga ahora que es necesario resolver A x t = bi con varios miembros derechos
diferentes bi, i = 1, 2, . . . , n ; esto podría fácilmente ocurrir en un estudio de
diseño, como se indicó antes. Si desde el comienzo se conocen todas las bi,
entonces, de acuerdo a (3.28), simplemente se pueden usar la eliminación de
Gauss y la sustitución en reversa en la matriz múltiplo-aumentada
En estudios de diseño y otras aplicaciones, sin embargo, se desconoce con
los resultados
frecuencia elsiguiente miembro derecho bt+lhasta haber obtenido
xidel miembro derecho presente; por lo tanto, no se puede proponer la matriz
múltiplo-aumentada.Peroaún
así se desea evitar realizar la eliminación de
Gauss otra vez para cada uno de los n diferentes sistemas p X p , ya que esto
costaría alrededor de n(p3/3) operaciones aritméticas de acuerdo al teorema
(3.59).
La descomposición LU de A proporciona una resolución eficiente a este
problema. Primero se calculala descomposición LU, A = PTLU de A, y después
se utiliza (3.57) en cada uno de los lados derechosbt conforme se vadisponiendo
de ellos. De acuerdo a las medidas de trabajo en el teorema (3.59):
(3.60)
Se puede obtener la descomposición LU: A = PTLU de A y resolver
n conjuntos de ecuaciones diferentes Axi = bi, para 1 Ii 5 n a un costo
total de
p3/3 - p / 3 + np2 multiplicaciones/divisiones, y
p3/3 - p2/2 + p / 6 + n(p2 - p ) sumas/restas
Una de las razones
para querer resolverAxt = bi para varias bt podría ser la
de obtener la inversa A-l, ya que
A"
= [x1
x2
. . . xP]
142
3
I
Soluci6n de ecuaciones y calculo de inversas: metodos
si bi = ei, la matriz columna unitaria de orden p -ver teorema clave1.44. En este
caso n = p y las medidas de trabajo en (3.60) son de aproximadamente 4p3/3
operaciones. Sin embargo, cada ei es un tanto especial, ya que, básicamente,
contiene ceros. Si se puede evitar sumar los ceros y evitar multiplicar y dividir
por ceros, se puedereducir bastante el trabajo al aplicar (3.57) a estos miembros
derechos ei especiales. El resultado es:
(3.61)
La inversa de una matriz no singular, p X p puede calcularse mediante la
eliminación de Gauss y la sustitución en reversa con
p 3 multiplicaciones/divisiones, y
p 3 - 2p2 + p sumas/restas
Aquí hay un hecho sorprendente que se sigue de estas medidas de trabajo:
No importa el número n de sistemas Ax+= bi que se necesiten resolver con la
misma matriz A, ya que siempre involucra menor esfuerzo en el caso de una A
general encontrar la descomposición LU de A y utilizar (3.57) para cada lado
derecho, que elcalcular A" mediante eliminación de Gauss y después calcular
cada xi como A-'bi. Vea el problema 7 . Esta esuna de las razones por las queen
la práctica, es raro quela inversa A-l sea realmente útil -la mayor parte de lo que
se puede lograr con A" puede lograrse de manera más eficiente a través de otros
medios, tales como la descomposición L U . Por supuesto, existen excepciones,
como cuandoA tiene una estructura muy especial o cuando realmente necesitan
verse los elementos en A-l; aun así es una buena regla general.
~
~~
~
Ahora podrá resolver los problemas del 1 al 7 .
Modqicación de los coefiientes en las ecuaciones
Ahora se pondrá atención al caso en el cual no b sino A cambia de algún modo
un tanto simple. Si se cambia el papel que juega unavariable en particular o una
ecuación en un modelo, por ejemplo, entonces quizá sea necesario investigar
cómo resolver sistemas después de haber cambiado un renglóno una columna de
una matriz. Es fácil describir esta situación en lenguaje matricial. Para reemplazar lai-ésima columnacide A por la matriz columna c;, sólo se necesita sumar a A
ia matriz (c; - ci)eT; sumar por otro lado ei(ri - rJTen su lugar, reemplaza el
i-ésimo renglón ri p o r ri.
(3.62)
Ejemplo. Sean
A=
3.8
I Medidasdetrabajo y soluci6n de sistemas ligeramente modificados
Por lo tanto
A + de: =
[
:]+ [!]
143
3 -1
o -2
1
2
Mientras que
A+e2dT=[t
[l
O O]
2
-1
2
-1
-1
:]+[:I['
21 -1
ll]=[;
o -2
:].
o -2
De maneramás general, considere sumar a A una matriz (construida de unas
cuantas matrices columna y unas cuantas matrices renglón) de la forma CR,
donde C es p x n y R es n X p , con n mucho menor que p . El siguiente resultado
describe la inversa de la nueva matriz A' = A + CR y, quizá lo más importante,
cómo obtener la solución x' de A'x' = b de la de Ax = b.
(3.63)
Teorema (inversas de matrices modificadas). Supongaque A e s p X p y no
singular, que C es p x n y R es n x p con n Ip (por lo general n mucho
menor que p ) , y que la matriz K = I, + RA-'C n X n es no singular.
Entonces:
a) A' = A + CR es no singular, y
b) La solución x' de A'x' = b puede expresarse entérminos de la solución
x de Ax = b como
X' = X - A"CY"Rx.
c) Dada A-', se puede calcular A" mediante a) con aproximadamente
3np2 + 2n2p + n3/3 multiplicaciones/divisiones y un número comparable de sumas/restas.
d) Dada la descomposición L U , A = PTLU, y la solución x de Ax = b, se
puede calcular x' mediante b) con aproximadamente np2 + n2p + n 3 / 3
multiplicaciones/divisiones y un número comparable de sumas/restas.
DEMOSTRACION
a) SeaH la inversade A' mencionada; debe demostrarse queA'H = HA' =
I, -esto es, el problema 8.
144
3
/
Soluci6n de ecuaciones y ctdculo de inversas:rn6todos
b) X' = A"' b = ( A - l - A - l C K - l R A - l ) b = A-lb-A-lCK-lRA-lb
= x - A"CK-'Rx,
como se enunció.
c) y d) se basan en las medidas de trabajo antes mencionadas y en el hecho
de que requiere alrededor de rst
(y un número similar
S X t
de sumas)
calcular
producto
el por
una
matriz
-&te es el problema 9. m
(3.64)
Ejemplo. Se ilustra el punto sobre las medidas de trabajo del teorema 3.36.
Suponga que p = 100 y n = 5; suponga que yase ha obtenido la descomposición LU de la matriz A, 100 x 100. Ahora, suponga que es necesario
resolver Ax"= b para alguna matriz columna b. Si se ignora elteorema 3.63
y se aplica la eliminación de Gauss a A'x' = b, se requiere de alrededor de
p3/3 multiplicaciones/divisiones,(= 333,000). Suponga que enlugar deello
se utilizael teorema3.63 b). Primero, se necesitax, lasolución aAx = b; ya
que setiene la descomposición LU de A; esto se puede obtener a un costo
de alrededor de p 2 multiplicaciones/divisiones.Entonces se puede usar el
método del teorema 3.63 d) con elfin de obtener x' con un costo de
alrededor de np2 + n2p + n3/3 multiplicaciones/divisiones. El esfuerzo
total con este método es, por lo tanto, de aproximadamente
multiplicaciones/divisiones -ahorrando alrededor del 80% con respecto al
primer método. Parap = 100 y n = 2, como otro ejemplo, el ahorro es de
alrededor del 90Y0:el método directo toma aproximadamente 10 veces más
tiempo.
A primera instancia puede parecer que las circunstancias del teorema 3.63
aparecen raras veces en la práctica, pero éste no es elcaso. Con mucha frecuencia, modelos extremadamente grandesde sistemas complicados -grandes edificios, redes de distribución eléctrica, grandessistemas económicos, etc., consisten en un número pequeño de subsistemas muy grandes y casi independientes,
con un pequeño número de interconexiones entre ellos. El teorema 3.63 puede
usarse con frecuencia en este caso,
siendo A la representación de la situación en
la que los subsistemas son realmente independientes con C y R proporcionando
los ajustes que reflejen las interconexiones. Por ejemplo, con sólo dos subsistemas, se podría tener que resolver un sistema de 2000 ecuaciones con 2000
incógnitas, con una matriz de coeficientes A' y la forma separada no estándar
siguiente:
1OOO1OOO
.A.
iooo( B
A'= 1000([0
,A.
O
D]
"
990 IO
10 990
A
A
A
A
O O E O
[O F O O]'
3.8
I Medidas de trabajo y soluci6n de sistemasligeramentemodificados
145
con lasdimensiones de los bloques como se indican. Sea A la primera de las dos
matrices separadas, y suponga que B y D -y por lo tanto A- son no singulares. Se
concibe B como la representación
de las relaciones internas dentrode un subsistema grande,D como la relación interna dentrodel otro subsistema grande,
yEy
F como las interconexiones entre los dos subsistemas.
Como en el teorema3.63,
se puede escribir A' con A' = A CR,donde
+
to
C=
iooo(
990 10 10 990
10
"1
F O
y
A
A
R = 10( o
I
A
A
[ o o oo]'
lO(0
I
En tales circunstancias los ahorros al usar el teorema3.63 pueden ser enormes:
pueden resolverse algunos problemas que quizá no pudieran resolverse de
modos más directos.
Se han desarrollado varias técnicas especiales basadas esencialmente en
este método,las cuales tienen una amplia variedad de áreasde aplicación. Esta
idea básica lleva, por ejemplo, al método de rompimientoen análisis de reses, a
métodos de matrices de capacitancia
para la solución numérica directa de
ciertas ecuaciones diferenciales, avarios métodos modernos para la optimización de programación no linealrestringida y no restringida, y a ciertasimplementaciones del método simplex en la programación lineal
PROBLEMAS 3.8
b 1. Demuestre quecon elfin de multiplicar una matriz r X S por una matrizs X t ,
se requieren de, a lo mucho, rst multiplicaciones y rt(s - 1) sumas.
2. Utilice las fórmulas
1+2+...+n=-
n(n
+ 1)
2
Y
1 + 4 + . . . + n2 =
n(n
+ 1)(2n + 1)
6
para demostrar el teorema3 S9 a).
3. Utilice las fórmulas dadas en el problema 2 para demostrar el teorema
3.59 b).
4. Deduzca las medidas de trabajo enunciadasen el texto para laeliminación de
Gauss-Jordan.
146
3
/
Soluci6n de ecuaciones y ct~lculode inversas: metodos
D 5. Utilice el teorema 3.59 a) para calcularel número de multiplicaciones/diviLU y resolver un
siones que se necesitan para encontrar la descomposición
sistema de ecuaciones para una matriz p x p , si:
a) p = 10
d) p = 70
b) p = 30
e) p = 90
c) p = 50
6. Considere la descomposiciónL U , A = PTLU que se encontró en elejemplo
3.45 de la sección 3.7. Para dicha matriz A, utilice (3.57) para resolver
A x = b = [-4
5
13 20IT
y verifique que la x encontrada resuelve las ecuaciones originales.
D 7. Demuestre que el trabajo que se requiere para obtener la descomposición
L U , A = PTLU para una A general es siempre menor que el que se requiere
para calcularA" mediante la eliminación de Gauss,y utilícelo para resolver
k sistemas A x i = bi para 1 5 i 5 k , y calcular xicomoxi = A"bi para 1 5 i 5 k .
8. Complete la demostración del teorema 3.63 a).
9. Complete la demostración del teorema 3.63 c) y d).
10. Supongaquep = 1000 y n = 10. Al igual que como en el ejemplo 3.64, calcule
el ahorro al usar el método del teorema 3.63 d) para resolver A'x' = b.
D 11. Sea A una matriz no singular p X p y r , 1 X p . Describa el uso del teorema
3.63 a) para encontrar la inversa, si existe, de:
5 ) A + r'e,?
a) A + eir
12. Sea A la matriz no singular p X p . Describa eluso del teorema 3.63 a) para
encontrar la inversa,si existe, de la matriz
que se forma sumando
el número
(Y al elemento (i, j ) de A.
13. Utilice el teorema 3.63 a) del modo descrito en el párrafo siguiente a (3.64)
para encontrar la inversa de
aR 14. Considere la matriz A , 50 x 50 con elementos en la diagonal principal
(A')ii = 2 para toda i, elementos arriba de la
diagonal (A')i,i+l = - 1
para toda i , y elementos abajo de la diagonal (A')i= - 1 para toda i, y
cualquier otro elemento igual a cero. Igual que en el párrafo siguiente a
(3.64), visualice A' como la suma A + CR de la forma
I
3.9
I Programas computacionales para la elirninaci6n de Gauss
147
donde B es la matriz25 x 25 que parece una versión más pequeñade A', donO - . . OITyE=[O O * - . O -13'.
d e F y E s o n 2 5 xl c o n F = [ - 1
a) Utilice el MATLAB para encontrar la inversa de A' directamente -utilizando el comandoflops del MATLAB inmediatamente antes y después
del cálculo- y encuentre el número de operaciones en punto flotante
requeridas.
b) Utilice el MATLAB para encontrar la inversa de
A' pormedio del
teorema 3.63 a) -calcule la inversa de A formando la matriz separada
evidente usando la inversa B-l- y compare el número de operaciones en
punto flotante requeridas por los dos métodos.
D 15. Considere el problema 15 de la sección 3.7, donde se consideróla eliminación de Gauss con y sin intercambios para matrices tridiagonales y para
matrices de banda.
a) Muestre que el trabajo para encontrar la descomposición LU de una
matriz tridiagonalp X p sin intercambios es igual a (2p - 2) multiplicacionesldivisiones y (p - 1) sumas/restas.
se requiere
b) Demuestre que si se permiten los intercambios, el trabajo que
es alo mucho (4p - 6) multiplicaciones/divisiones y (r, - 1) sumas/restas .
c) Generalice a) y b) para matrices generales de banda.
3.9
PROGRAMASCOMPUTACIONALES PARA
LA ELlMlNAClON DE GAUSS
En las aplicaciones prácticas, la resolución de sistemas de ecuaciones lineales y
el cálculo de inversas sellevan a cabo casi siempre
mediante el uso de computadoras -supercomputadoras, macrocornputadoras estándar o microcomputadoras. A través delos años los expertos han desarrollado programas computacionales de propósito general excelentes para la resolución eficiente y precisa de
sistemas de ecuaciones y para el cálculo de inversas.En la sección 3.6 se dio una
ligera indicación sobre a
ls sutilezas involucradas en esta tarea. Ya que los
resultados de dichos esfuerzos
pueden encontrarse ya sea gratis o a bajo costo,
no hay razón para que los inexpertos tengan que crear sus propios programas
para estos problemas. Y existen buenas razones para no crear su propio pro-
148
3
I
Solucibn deecuaciones y cblculodeinversas:rnbtodos
grama - e s muy probable que proporcione respuestas inexactas(y costosas) sin
ningún aviso de quelas respuestas son poco precisas. Aunque pueda encontrar
ilustrativo el escribir un programa sencillo para implementar la eliminación de
Gauss con o sin intercambios como una herramienta pedagógica para ayudarlo
en la comprensión de lo que el proceso hace exactamente, no utilice tal programa en problemas reales cuyas respuestas le sean importantes.
Qué exigir del software
Lo mínimo que sepuede exigir es que el software sea eficiente, exacto,
sencillo y
fácil de usar, además de informativo con respecto a la confianza con que los
resultados puedan aceptarse en cadacaso específico. Característicasadicionales
podrian incluir la capacidad de utilizar métodos especiales para problemas
especiales (tales como matrices simétricas, matrices cuyos elementos diferentes de cero están cerca de la diagonal principal,y así sucesivamente), la capacidad
de evaluar determinantes (ver sección 4 . 9 , y así sucesivamente. No todo el
software para las ecuaciones e inversas
cumple con este criterio,pero la mayoría
lo hace; vea la siguiente subsección para sugerencias específicas.
Lo que se quiere decir
con eficiencia y precisión puede parecer claro,
aunque dehecho aquí existen algunos puntos oscuros; sin embargo, estostemas
están más allá del alcance de este libro. Los detalles pueden encontrarse en
Golub y Van Loan (46).
Un software que esfácil y sencillo de usar debe permitir que las matrices de
datos puedan introducirse en algún estilo natural y directo, y no debe pedirle al
usuario que proporcione mucha información adicional.
Un aspecto especialmente importante es el de proporcionar información
sobre la confiabilidad de los resultados. Muchos buenosprogramas en esta área
dan un indiciode los llamados números condicionalesc(A) de la matriz A que es
la matriz de coeficientes de
las ecuaciones e inversas
que se están buscando;
vea
el teorema 6.29. Este número c(A) mide la cantidad por la cual las inexactitudes
en los datos de los problemas se magnifican en larespuesta; si los datos contiels
nen errores de tamaño relativo, por ejemplo, lop3,entonces puede ser quea
respuestas tenganerrores de tamañorelativo tan grande como c(A) X
Estos
errores no son “culpa” del programa, más bien son inherentes a las respuestas
debido a las inexactitudes de los datos. Ya que una realización cuidadosa de la
eliminación de Gausspermite estimar este número condicional, el proporcionar
tal estimador es una característica razonable a exigir.
Qué software obtener
Un software de altacalidad que cumpla con el criterio general anterior, ciertamente puede encontrarse comercialmente; el sistema MATLAB de The Math
Works es un ejemplo evidente pero se dispone de sistemas excelentes donde
quiera como en las International Mathematical and Statistical Libraries{IMSL
3.9
I Programas computacionales parala eliminacidn de Gauss
149
-vea (57)) (Bibliotecas Internacionales de Matemáticas y EstadísticaBIME) y en
la Numerical Algorithms Group {NAG-ver (59)}, (Grupo de Algoritmos Numéricos GAN).Para macrocomputadoras, se dispone de subrutinas actualizadas
sin
costo en el sistema LINPACK.
El LINPACK se desarrolló como un esfuerzo cooperativo entre muchos
analistas numéricos en muchas instituciones; la mayoría del trabajo se concentró
en el Laboratorio Nacional de Argonne (Argonne National Laboratory), y el
apoyo financiero lo proporcionó la Fundación Nacional de Ciencias (National
Science Foundation). El resultado fue una excelente colección de programas
portátiles FORTRAN de los que se puede disponer gratuitamente en el Laboratorio Nacional de Argonne; los detalles de los programas y de su adquisición
están contenidos en elManual del Usuario LINPACK (40) (LZNPACK User's
Guide). El LINPACK contiene programas para la mayoría de los cómputos
matriciales relacionados con las ecuaciones,incluyendo, por supuesto, la solución de sistemas de ecuaciones y la inversión de matrices.
Actualmente existen unas cuantas docenasde programas en LINPACK para
la solución de sistemas o para encontrar inversas; vadan por las estructuras
y así sucesivamente),el
especiales supuestas para la matriz (general, simétrica,
tipo de los números usados como elementos delas matrices (real, complejo, etc),
s
l matrices se almacenan en la computadora,y
el modoen quelos elementos dea
la precisión deseada. Las rutinasson de dos tipos básicos: aquéllas que calculan
las descomposiciones LU, y aquéllas que utilizan las descomposiciones LU
(para resolver sistemas, encontrar inversas, evaluar determinantes,
y así sucesivamente). La metodología básica es la eliminación de Gauss y la sustitución en
reversa, semejante en mucho a la que se ha descrito aquí, pero unavariante es
que L es unitaria triangular inferior, mientras que U tiene elementos generales en
la diagonal principal -es decir, la descomposición LOUo(3.49) descrita aquí. Las
rutinas para encontrar descomposiciones LU estiman el número condicional e
informan de estaestimación como un parámetro decalidad accesible al usuario;
esto permite que el usuario determine la precisión de cualquier resultado a
generarse. Cualquiera que necesite solucionar sistemas de ecuaciones "o realizar otros cómputosmatriciales- en una macrocomputadora debería considerar
adquirir el sistema LINPACK.
PROBLEMAS 3.9
1. Determine si la colección de subrutinas LINPACK estádisponible para su
uso.
2. Determine de quéprogramas se dispone en su localidad, para la solución dep
ecuaciones lineales con p inccignitas y de qué posibilidades especiales se
dispone (tales como elementos complejos, estructuras especiales para la
matriz de coeficientes, etc.).
150
3
/
Soluci6n de ecuaciones y cAlculo de inversas: metodos
3. Determine de quéprogramas se dispone en su localidad, para invertir matri-
ces, p X p y de qué posibilidades especiales se dispone (tales como elementos complejos, estructuras especiales para la matriz, etc.).
4. Determine si el software disponible en su localidad para sistemas lineales e
inversas, provee una estimación del número condicional para el problema.
3.10
PROBLEMAS VARIOS
PROBLEMAS 3.10
1. Suponga que A es p X p, B es p x q , y AB = O. Demuestre que o bien A es
singular o bien B = O.
D 2. La matriz mostrada abajo es la matriz aumentada para un sistema de tres
ecuaciones con tres incógnitas. Demuestre que:
a) Si k = O , entonces el sistema tiene un número infinito de soluciones.
b) Para otro valor específico de k , que debe determinar,el sistema no tiene
soluciones.
c) Para cualquier otro valor de k , el sistema tiene una solución única
3. a) SupongaqueAespx q,Besqxq,yAB=O.Demuestreque,yaseaBes
singular o A = O.
b) Suponga que A y B son p X p, y AB = O. Utilice a) y el problema I para
demostrar que ya sea A = O o B = O o bien, que A y B son ambas
singulares.
4. Encuentre la descomposición LU de la matriz A que se muestra abajo, no
mediante eliminación de Gauss, sino escribiendo A = LU con L y U como se
muestra abajo y después resolviendo para los elementos en L y U.
D 5. Generalice el problema 4 como sigue. Suponga que A es p x p y que tiene una
descomposición L U , A = LU para L triangular inferior con elementos en la
diagonal principaldiferentes de cero y U unitaria triangular superior. Escriba
la forma general para L y U con elementos lij y ui, como en el
problema 4. Se
conoce el elemento (1, 1) de U. Demuestre entonces que esto le permite
encontrar la primera columna de L, la cual permite encontrar el primer
renglón de U, el cual permite encontrar la segunda columna de L, y así
sucesivamente, hasta quese determinan L y U. Escriba las ecuaciones para
calcular L y U de este modo.
3.10
I Problemas varios
151
6. La realización de la eliminación de Gauss utilizada en este libro se conoce
como variante de Crout. La variante de Doolittle es semejante, con la
excepción de queno divide.el renglón k-ésimo entre el pivote
k-ésimo antes
de la eliminación; esto produce la matriz
triangular unitaria inferior, Loy una
matriz triangular superior(no uniraria) U. con A = LOUo.Utilice la variante
A del problema
de Doolittle para realizar eliminación
la
de Gauss en la matriz
4 y encuentre esta descomposición A = LOUo.
D 7. Encuentre la variante de Doolittle-ver problema6 de ladescomposición
LU
directamente como en el problema 4 para la matriz A del problema 4,
escribiendo A = LOUopara Lo y U. como se muestran abajo y resolviendo
para los elementos en Lo y Uo.
8. Generalice el método del problema 7 de la misma manera en que en el
problema 5 se pidió generalizar el método del problema 4.
9. Demuestre, parala matriz A del problema 4, que A = L,DoU1con L,, U1, y Do
como se indicaabajo. Observe que
L, es unitaria triangularinferior y es igual
Lo encontrada enlos problemas 6 y 7, mientras que U, es unitaria
a la matriz
triangular superiory es igual ala matrizU encontradaen los problemas 4 y 5.
L, =
[: y],
Do =
['o '1,
-5
ul
=[: :]-
D 10. a) Utilice el teorema clave3.48 para demostrar que,si A es una matrizp X p
para la cual puede
se
completar laeliminación de Gausssin intercambios,
entonces existen una matriz unitaria triangular inferior L1, una matriz
diagonal no singular Do, y una matriz unitaria triangular superiorU, para
las cuales A = LIDoUl.
b) Enuncie y demuestre la generalización análoga PA = LIDoUldel teorema
clave 3.53. (Nota: Esta es la descomposición LDU general de A. Tomando L = LIDo y U = U, da la variante de Crout que se ha estado
Lo = L, y U. = DoUl da la variante Doolittle
de
de
utilizando, mientras que
los problemas 6-8.)
11. Encuentre la descomposición LOUo,variante de Doolittle, como en el problema 10, de
[ 22 - -11
A=
-4
L-2
43
2 -7
1 -1
q
-7 ,
-11
152
3
/
Solucibn de ecuaciones y cAlculo de inversas: rnbtodos
12. Demuestre que, si A es no singular, entonces su descomposición LU variante de Doolittle -ver problema 10- es única: Si
LOUo= L O U o , entonces Lo = Lo y U. = U o .
D13. Demuestre que, si A es no singular, entonces su descomposición LDU-ver
problema 10- A = LIDoU, es única.
14. Para demostrar que, para matrices singulares, ladescomposición LOUovariante de Doolittle -ver el problema 10- no es necesariamente única, verifi-
que que ladescomposición
mostrada abajo es verdadera para
todo número 1.
Dls. Suponga que A es simétrica y no singular y que tiene la descomposición
LDU, A = LID,Ul del problema 10. Demuestre que U, = LT.
4
Solución de ecuaciones
y cálculo de inversas: teoría
Este capítulo es el corazdn tedrico del libro; en la mayoria de los capítulos
subsecuentes se usan los conceptos forma reducida de Gauss, rango, y la
forma de rengldn-escaldn;
y, por lo tanto, deben entenderseperfectamente.
Como podría esperarse y en vista su
de importancia tedrica, este capítulo
contiene variosteoremas clave: 4.5,4. I I , 4.13,4.16,4.18 y su corolario, y
4.23. Ademds de estas herramientas tedricas fundamentales, se introduce
al
concepto de determinante y su uso como un artificio de representacidn.
4. I
INTRODUCCION
En el capítulo 3 se presentaron métodos para la solución de sistemasde ecuaciones lineales y para encontrar inversas de matrices. Sin embargo, se ignoró la
teoría fundamental que apoya esos métodos. Por ejemplo, en el capítulo 3
simplemente se supuso que la eliminación de Gauss para ecuaciones no cambiaba el conjuntode soluciones de las ecuaciones
-esto es,que las soluciones del
sistema de ecuacionesoriginal eran exactamentelas mismas que las del sistema
transformado. Tal suposición no es necesariamente verdadera para todas las
operaciones posibles en ecuaciones; por ejemplo, elevar al cuadrado ambos
miembros de laecuación 2x = 4-cuya única solución es x = 2- produce 4 2 = 16,
que tiene la solución x = -2 además dex = 2 de la ecuación original. Así que se
requiere de cierta teoríapara respaldar la eliminación de Gauss y demostrar que
no altera el conjunto de soluciones.
En el capítulo
3 también se ignoró la teoría que ayuda a enrender-entender,
por ejemplo, la naturaleza del conjunto de soluciones a un sistema de ecuacio153
154
4
/
Soluci6n de ecuaciones y calculo de inversas:teoría
nes, o entender las circunstancias en las cuales las matrices tienen inversas
derechas o izquierdas. Este capítulo proporciona la teoría faltante.
4.2
FORMA REDUCIDA DE GAUSS Y RANGO
Toda lametodologíadel capítulo 3 se basó enlaeliminación de Gauss: la
aplicación sistemática de operaciones elementales de renglón para reducir una
matriz a una forma simple. Por ejemplo, al resolver el sistema de ecuaciones Ax
= b , se aplicó la eliminación de Gauss a l a matriz aumentada [A b] para producir
una matriz aumentada reducida de lacual era inmediato encontrar las soluciones
al sistema de ecuaciones. Encapítulos posteriores se encontrará queuna forma
reducida como la que se produce por la eliminaciónde Gauss es una herramienta
poderosa para resolver problemas diferentes a la solución de ecuaciones;así que
ahora se desarrolla la teoría para apoyar esta herramienta.
Forma reducida de Gauss
Primero, se reescribe la descripción (3.20) de la eliminación de Gauss para
aplicarla a una matriz arbitraria A, p x q sin necesidad de considerar algún
sistema de ecuaciones o matriz aumentada. Sedice que un renglóno columna de
una matriz es diferente de cerosi al menos un
elemento en eserenglón o columna
es diferente de cero; en casocontrario es unacolumna cero o un renglón cero, y
todos sus elementos son cero.
(4.1)
Eliminación de Gauss. A es una matriz dada p X q .
0. Si A = O no es necesaria la eliminación -pare. En caso contrario, haga
r = 1 (para “renglón = 1”) y proceda con los pasos del 1 al 3.
l . Encuentre la primera columna de A (llámese columna c,) que tenga un
elemento diferente de ceroen un renglón icon i 1 r; si es necesario haga
el r-ésimo elemento de esta columna diferente de cero e intercambie
dicho renglón con el renglón r. Divida este nuevo renglón r entre este
elemento diferente de ceropara hacer elnuevo r-ésimo elemento de esta
columna igual a l .
2. Sume múltiplos adecuados a este nuevo renglón r a todos los renglones
inferiores de modo que los elementos (r + 1)-Csimo, (r + 2)-do, . . . ,
p-ésimo de estacolumna se hagan ceros. Ahorala columna c , tiene un 1
como su elemento r-ésimo y un cero su elemento j-ésimo para j > r;
además, elprimer elemento diferente de cero enel renglónr ocurre enla
columna c, y es igual a l .
3. Si r = p (se hace usando el último renglónde lamatriz) o, si los renglones
(r + l), (r + 2), . . . ,p son todos renglones cero, no se necesita más
eliminación -pare. En caso contrario, incremente r en 1 y vuelva al
comienzo del paso 1 .
4.2
I Forma reducida de Gauss y rango
155
Al aplicar la eliminación de Gauss como en (4.1), se produce una forma
reducida triangular superior
A’ de la matriz
original A ; a dicha forma reducida se
le da un nombre especial.
(4.2)
Definición. Se dice que una matriz B, p x q es una forma reducida de Gauss
cuando existeun entero k con O 5 k Ip para el cual es válido lo siguiente:
a) Los primeros k renglones de B son diferentesde cero,mientras quelos
p - k renglones restantes son cero.
b) El primer elemento diferente de cero en cada
renglón diferente de cero
es igual a 1, y por lo tanto la columna en la que esto ocurre es una
primera columna (ver la definición 3.24).
c) Para lask primeras columnas, laprimera para cadarenglón está más a la
derecha que la primera columna del renglón superior.
d) El elemento i-ésimo en lai-ésima primera columna es igual a 1, mientras
que el elemento j-ésimo es igual a cero paraj > i.
Usando este lenguaje, se tiene que
el resultado de aplicar la
eliminación de
Gauss como en (4.1) es paraproducir una matriz en la forma reducida de Gauss.
Algunos autores se refieren a la forma reducida de Gauss como “forma de
renglón-escalón”, un término que aquí se reserva para una forma todavía
más
reducida que se discutirá después enesta sección.
(4.3)
Ejemplo. Lasprimerastresmatricesmostradasabajoestán
reducida de Gauss; las siguientes tres no lo están
1 -2
O
en laforma
3
0
0
son reducidas de Gauss;
[i
no son reducidas de Gauss.
(4.4)
Ejemplo. Considere la matriz A, 2 X 2 que se muestra abajo, a la cual la
eliminación de Gauss reduce fácilmente
la matriz
a
A’ mostrada enla forma
reducida de Gauss:
A=
[: ;]
sereducepor
(4.1) a A’ =
[:, :l.
156
4
I Soluci6n de ecuaciones y calculo de inversas: teoría
Si en su lugar, se intercambian primero los dos renglones de A y luego se
realiza la eliminación de Gauss, se obtiene la matriz A":
Observe que la matriz A" también estú en la forma reducida de Gauss.
Tanto A' como A" están en la forma reducida de Gauss y se obtuvieron de A
realizando operaciones elementales de renglón; por lo tanto, puede haber
más de una forma reducida de Gauss producida a partir de una matriz
dada.
Del ejemplo 4.4 se puede observar que no existe una forma reducida de
Gauss únicaparacadamatrizA; sin embargo, ciertos aspectos
importantes serán
los mismos en todas las formas reducidas de Gauss que se producen a partirde
una matriz A dada.
DEMOSTRACION. Suponga que A es p X q y que se obtienen dos formas
reducidas de Gauss A' y A" de A mediante secuencias de operaciones
en
elementales derenglón. Sea k' el número derenglones diferentes de cero
A', y enumérense las primeras columnas de A' como c;, c,; . . . ,c;,. De
manera similar, seak" el número de renglones diferentes de ceroen A", y
enumérense lasprimeras columnas de A" como cy, c;l, . . . , c&. Lo que se
desea demostrar es quek' = k" y que c; = c'.' ara 1 5 j S k' (= k"). Ya que
J?
se utilizaron operaciones elementalesde renglon para producir A' y A", mediante el teorema clave 3.34 sobre operaciones de renglón, se sabe que
existen matricesno singulares F' y F"con F A = A' y F"A = A". Por lo tanto,
Esta relación es la clave de la demostración. Si A' = O, entonces A" = HA'
= HO = O ; también, si A" = O , entonces A' = O. En otras palabras, el
k"es O . En seguida, considere cuando
k'
teorema es verdadero si, ya oseak'
y k" son positivos. Ya que la columna
c1es laprimera columna deA', las
columnas a; de A' para 1 I j < c; deben ser iguales a O; mediante la regla
para lamultiplicación separada, lacolumnaj-ésimaayde
AlresH por aquélla
4.2
I Forma reducida de Gauss y rango
157
para A’: ay= Ha;. Por lotanto, ya que HO = O, se encuentra quea;’= O para
1 S j Ic;; pero esto quiere decir la
que
primera columna deA”debe ocurrir
en o a la derecha de la columna ci-es decir, c;’ 2 c;. Aplicando el mismo
argumento a la relación A’ = H”A” en lugar de a A” = H A ’ , también se
obtiene c; 2 cy. Juntas estas dos desigualdades dan c; = cy. Ahora la
columna c; es laprimera columna de A’ y, por la definición 4.2 d), viene del
primer renglónde A ;de allí que, elprimer elemento de esa columna ysea 1
todos los otros sean O -es decir, esta columna es tan sólo e,, la primera
matriz columna unitaria de orden p . El mismo argumento se aplica a la
primera columna deA“. La regla para lamultiplicación separada nos dice
que las columnas de A‘ y A” se relacionan mediante a’’ = Ha’, así que se
obtiene e, = He,.
En seguida se utiliza inducción. De k’ y k” uno es el menor; por
conveniencia sea k’. Como una hipótesis inductiva suponga que se ha
demostrado que c: = c:’ para 1 5 i In, y
i- 1
He, = e,
+ 1 aijej
para algunos números aii
j= 1
para 1 Ii In, donde n < k’ 5 k”.
Observe que esto se ha demostrado precisamente para n = 1. En
+ 1, lo que demostrará que
es
seguida se demuestra que es verdadero paran
cierto para toda n hasta k’. Mediante la definición 4.2 sobre las formas
reducidas de Gauss, las columnas de A’ enumeradas hasta(c:+ - 1)sólo
tienen elementos cero en los renglones n + 1, n + 2, . . . ,p ; es decir cada
columna tiene elementos diferentes de cerosólo en los renglones n y por
arriba, así que cada una de esas columnas puede escribirse como una
sumatoria de múltiplos de e,, e,, . . . , e,. Ya que cada columnaa“ de A”
debe ser igual a Ha’ para la columna correspondientea’ de A‘, se observa
que cada columna de A” enumerada hasta (ci+ - 1) es igual a H por una
sumatoria de múltiplos de las ei para 1 5 i S n. Pero la hipótesis inductiva
nos dice que cada Hei por sí misma es una combinación de múltiplos de las
ej, así que seconcluye que cada columna
de A” enumerada hasta(c:+ - 1)
una de
es igual ala sumatoria demúltiplos de el para 1 Ii In ;es decir, cada
las columnas de A” tiene ceros en el renglón (n + 1) y por debajo, y por lo
tanto la primera columna (n + 1)-ésima de A“ no puede ser una de estas
columnas-así que c‘,‘+ 2 ci+ Usando H” en lugar de H e invirtiendo los
papeles de A’ y A“, se obtiene por el mismo argumento que cb+12c y + ] ,y
por lo tanto c i + l = c:+ Si sedenotanestas (n + 1)-ésimas primeras
igual a e,,,
columnas de A‘ y A“ mediante a’ y a”, se tiene que cada una es
más unasumatoria de múltiplos de ei para 1Ii In, así como
a ” = Ha‘; esto
muestra que la hipótesis inductiva ennunciada secumple para n + l .
Ahora se sabe que hipótesis
la
inductiva se cumple para 1 In Ik’ ( 5
k”). Los últimos p - k‘ renglones de A‘ son renglones cero, lo cual quiere
158
4
/
Solucidn de ecuaciones y cAlculo de inversas:teoría
decir que todas las columnas de A’ a la derecha de la columna c;. son
sumatorias de múltiplos de las ej para 1 5. i S k ’ ; el mismo argumento
anterior basado en a’’ = Ha’ y la hipótesis inductiva para n = k’ muestran
entonces que lo mismo debe ser cierto para todas
las columnas de A’ a la
derecha de la columna c;. -lo cual significa que no puede haber más
primeras columnas para A” más allá de c;.. Es decir,k” = k’ . Entonces, el
teoremaquedademostrado.
m
Ahora podrá resolver los problemas del 1 al 6.
Rango
De acuerdoal teorema clave 4.5 sobre la forma reducida de Gauss, el número de
renglones diferentes de cero es el mismoen cada formareducida de Gauss de una
matriz dada. Este número juega un papel fundamental en gran parte del trabajo
subsecuente y, por lo tanto, se le daun nombre especial.
(4.6)
Definicidn. El número de renglones diferentes de cero en cualquier forma
reducida de Gauss A’ de una matriz A obtenida mediante operaciones
elementales de renglón en A se llama el rango de A.
(4.7)
Ejemplo. Los rangos de las tres primeras matrices del ejemplo 4.3 pueden
verse directamente, ya que las matrices se encuentran en la formareducida
de Gauss: son O , 2 y 3 respectivamente. Los rangos de las tres matrices
siguientes pueden encontrarse realizando la eliminación de Gauss para
obtener las formas reducidas de Gauss, obteniendo rangos de 2, 2 y 3
respectivamente. El rango de la matriz A del ejemplo 4.4 es 2, como se
puede observar de la forma reducida de Gaussya sean A’ o A“. Observe que
dichas formas A’ y A“ ilustran el teorema clave 4.5.
Algunos autores se refieren al rango como “rango de renglón”, ya que su
definición depende del uso de las operaciones de renglón y cuentan los renglones
diferentes de cero.Un concepto similar de “rango de columna” puede introducirse considerando operaciones de columna y contando lascolumnas diferentes
de cero en una forma reducida. Resulta que el rango de renglón y el rango de
columna siempre son iguales, así que se prefiere usar el término sin adornos
de “rango”.
Para ciertos propósitos teóricos, en ocasiones es útil reducir una matriz
mediante operaciones elementales de renglón, más allá de la forma reducida de
Gauss que se obtiene, por ejemplo, mediante la eliminación de Gauss. Una
manera de llegar a esta forma es a través de laeliminación de Gauss-Jordan -vea
el ejemplo 3.21. El siguiente método -vea el problema 16- es mucho más
eficiente; vea también el problema 14 en la sección 3.2.
4.2
(4.8)
I Forma reducida de Gauss y rango
159
La reduccidn de rengl6n-escal6n. Sea A una matriz p X q dada.
l . Utilice la eliminación de Gauss (4.1) o cualquier otro método para
producir una forma reducid?. de Gauss de A.
2. Utilice el elemento1 de más abajo en cada primeracolumna de la forma
reducida de Gauss -comenzando con la primera columna más a la
derecha y trabajando hacia la izquierda- con el finde eliminar todos los
elementos diferentes de ceroesaencolumna estrictamentepor arriba de
ese elemento 1 .
Así como laeliminación de Gauss, esteproceso produce una forma especial con
un nombre especial.
(4.9)
Definicidn. Se dice que una matriz B,p X q está en la forma de renglónescalón cuando:
a) Está en la forma reducida de Gauss(digamos, conk renglones diferentes
de cero).
b) La i-ésima primera columna es igual a eí, la i-ésima matriz columna
unitaria de orden p , para 1 S i Ik.
Observe que algunos autores se refieren a la forma de renglón-escalón como
“forma reducida de renglón-escalón”.
(4.10)
Ejemplo. Considere la matriz C mostrada abajo;aquí se muestra unaforma
reducida de Gauss,G , producida mediante eliminación de Gauss,como se
desarrolló de (3.8) a (3.13) en la sección 3.2.
-2
2
6
-4
3
-6
-15
1 - 1
-4
-3
2
3
2
Las primeras columnas son las columnas 1 , 2 , 3 y 4. Se usa el cuarto
renglón
para eliminar los elementos diferentes de ceroen la columna 4 arriba del
último elemento, después se hace lo mismo con el tercer renglón y la
columna 3 , y por último con el segundo renglón y la columna 2, para
obtener
1
o
o
o 3 5
1
O
O 2 8
Esta matriz R está en la forma de renglón-escalón, y es por lo tanto una
forma derenglón-escalón de C. A diferencia de la situación de las formas
160
4
/
Solucidn de ecuaciones y cAlculo de inversas: teoría
reducidas de Gauss, es dehecho legítimo referirse a la forma reducida de
renglón-escalón de una matriz, como lo muestra el siguiente teorema.
DEMOSTRACION. Sean A' y A" dos formas de renglón-escalón de la misma
matriz A. Ya que A' y A" son también formas reducidas de Gauss, se sabe
del teorema clave 4.5 sobre las formas reducidas de Gauss que tienen el
mismo número k de renglones diferentes de ceroy los mismos números de
la
primera columna
columna desus k primeras columnas. También, i-ésima
de cada matriz es tan sólo ei. Usando la notación de la demostración del
teorema clave4.5, tenemos por lo tanto, Hei = ei para 1 Ii Ik . Cualquier
columna a' de A' es tan sólo una sumatoria demúltiplos de estasprimeras k
matrices columna unitarias ei:
a' =
ajei.
La columna a'' de A" correspondiente es tan sólo Ha', así que se tiene
y por lo tanto a" = a' y las columnas correspondientes de A' y A" son
iguales. Esto es, A' = A". m
PROBLEMAS 4.2
1. Para cada una de las segundas tres matrices del ejemplo 4.3, enuncie cómo se
viola en és te la definición de laforma reducida de Gauss y después redúzcalo
a su forma reducida de Gauss.
2. Enuncie cuáles de las siguientes matrices están en la forma reducida de
Gauss, y para aquéllas que no lo estén, explique el por qué.
a ) 2
1
3
[x 8 -i1
c)
b) O
1
[8 8
O
0
iJ
0
4.2
I Forma reducida de Gauss y rango
D 3. Encuentre una forma reducida de Gauss para
161
cada'una de las siguientes
matrices.
a)
[:
2
1 -8
-4
-3
-1
-7
-14
-10
4. Utilice el método dela sección 3.8 parademostrar queal utilizar la reducción
de Gauss como en (4.1) en una matriz p X q , se requiere a lo mucho de:
a) NpQsumas/restas y Npq+ q 2 / 2 - q / 2 multiplicaciones/divisiones sip 1
q , donde
N,, =
q2(3p - 4) - q(3P - 1)
6
'
6
b) NQpsumas/restas y NQp+ p(2q - p - 1)/2 multiplicaciones/divisiones si
P < 4.
Calcule estas medidas de trabajo para:
c ) p = 50, q = 100,
d) p = 1 0 0 , q = 50
D 5. Si A es p X q , demuestre que [I, A] está en la forma reducida de Gauss.
6. Suponga que A es p X p y no singular. Utilice el teorema clave 3.34 sobre
operaciones derenglón para mostrar que cualquier forma reducida de Gauss
G de A es unitaria triangular superior.
7. Encuentre el rango de cada una de las segundas tres matrices del ejemplo
4.3.
D 8. Suponga que A es p X q con rango p y que B es p X r ; demuestre que [A B]
tiene rango p .
9. Encuentre el rango para cada una de las matrices del problema 3 .
D 10. Suponga que la matrizA, p X q , tiene n renglones diferentes de ceroy p - n
renglones cero. Si k es el rango de A. demuestre que k 5 n .
11. Suponga que A e s p X p y que su rangok satisface k < p . Demuestre queA es
singular.
12. Encuentre la forma de renglón-escalón para cada matriz del ejemplo 4.3.
13. Si A es p X q , demuestre que [I, A] está en la forma de renglón-escalón.
162
4
/
Soluci6n de ecuaciones y caiculo de inversas: teoría
D 14. Se obtuvieron en el ejemplo 4.4, dos formasreducidas de Gauss diferentes,
A’ y A” para una matriz. Obtenga la formade renglón-escalón de A’ y de A” y
verifique que resulta la misma forma.
15. Suponga que A esp X q y que se reduce a la forma
de renglón-escalón usando
(4.8). El trabajo involucrado al realizar esto consisteen, primero, el trabajo
medido en el problema 4 para reducir A a la forma reducida de Gauss G , y
después en el trabajo adicional para reducirG a la forma derenglón-escalón.
Suponga que el rango de A es k .
a) Muestre que este
trabajo adicional parareducir G requiere de, alo mucho
Ckq =
k(k - 1)(q- k)
2
sumas/restas y Ckqmultiplicaciones/divisiones.
b) Se puede usar elcálculo diferencial para mostrarque c k q es mayor para
k
alrededor de2 q / 3 ; demuestre que para
tal k el trabajo adicional Ckaes de
aproximadamente
c, = q2(2q27- 3) .
c) Encuentre el trabajo adicional ckq para una matriz 50 x 100 de rango 50.
d) Encuentre lacantidad de trabajo
adicional más grande C, para una matriz
90 x 100.
16. Suponga queA es p x p y que lamatriz aumentada [A b], p X (p + 1) tiene
rango p .
a) Utilice los resultados de los problemas 4 y 15 para encontrar el trabajo
necesario para reducir [A b] a la forma de renglón-escalón mediante
ciones/divisiones necesarias para producirla forma de renglón-escalón
mediante la eliminación de Gauss-Jordan.
c) Evalúe cada una de las medidas de trabajo de a) y b) cuando p = 50.
17. Demuestre que la
forma de renglón-escalón de unamatriz no singular A, p X
p , es I,. (Vea el problema 6.)
4.3
POSlSlLlDAD DE SOLUCION Y CONJUNTOS DE SOLUCIONES
PARA SISTEMAS DE ECUACIONES
En el capítulo 2, se vio que, con frecuencia, es importante en problemas de
aplicación conocer si existen soluciones a ciertos sistemas de ecuaciones lineales, y si es así,cdmo encontrarlas. Por ejemplo, en el problema de equilibrio del
mercado se necesitaba resolver
Ax = x para unax diferente
de cero, mientras que
en el problema de mínimos cuadrados se necesitaba resolver ATAx = ATy.
4.3
I
Posibilidad de soluci6n y conjuntos de soluciones para sistemas de ecuaciones
163
En el capítulo 3, se manejó el cdrno: se introdujo la eliminación de Gauss
como un método para la manipulación de sistemas de ecuaciones (y matrices
aumentadas) amodo de producir un sistema de ecuaciones
con solución directa.
Sin embargo, como se observó en la sección 4.1 aun esta metodología arroja un
imperativo teórico: Es necesario mostrar que esta
manipulación no cambia
el conjunto de soluciones. Se resuelve ahora este punto y después se utiliza el
concepto de rango para caracterizar la posibilidad de solución de sistemas de
ecuaciones; esto permite entender-vea problemas 16 y 19-por qué resultaron
así los ejemplos del capítulo 2.
Posibilidad de solucih de ecuaciones
Se utilizará una forma reducida de Gauss de
la matriz aumentada paraanalizar la
posibilidad de solución del sistema de ecuaciones Ax = b, así que se debe
demostrar que la eliminación de Gauss no cambia el conjunto de soluciones.
(4.12)
Teorema (eliminación deGauss y conjuntos de soluciones). Suponga que
el sistema de ecuacionesAx = b -o, equivalentemente, la matriz aumentada[A b]- se transforma mediante una secuencia de operaciones
elementales de renglón al sistema A’x = b’ -o equivalentemente, a la matriz
aumentada [A’ b’]. Entonces los conjuntos de soluciones son idénticos: x
resuelve Ax = b si y sólo si x resuelve A’x = b’.
DEMOSTRACION. Mediante el teorema clave 3.34 sobre las operaciones de
renglón existe una matriz no singular F tal que
[A’ b] = F[A
b]
= [FA
Fb],
donde la hltima igualdad se sigue de la regla para la multiplicación separada. Esto significa que A’ = FA y b’ = Fib. Ahora, suponga primero que x
resuelve la ecuación Ax = b. Premultiplicando esta ecuación por F se tiene
FAx = Fb, es decir, A‘x = b’ y por lo tanto x resuelve igualmente las
ecuaciones modificadas. De modorecíproco, si x satisface A’x = b’, entonx resuelve
ces, la premultiplicación por F” muestra de manera similar, que
Ax = b. Por lo tanto, los dos conjuntos de soluciones son idénticos. m
En el teorema 4.12 se establece rigurosamente que se puede estudiar el
conjunto de todas lassoluciones de Ax = b, estudiando el conjunto soluciones
de
del conjunto mucho más simple A’x = b’ que se obtiene al reducir [A b] a una
[A’ b’]. Existen tresposibles casos, como se demostró
forma reducida de Gauss
continuamente mediante ejemplos en el capítulo 3:
1. No existe solución.
2. Existe exactamente una solución.
3. Existen infinitamente muchas soluciones.
164
4
Soluc16nde ecuaciones y c.4lculo de inversas: teoría
/
En la-sección 3.2 (3.25)se vio previamente cómo pueden ocurrir estosdiferentes
casos. Para decidir qué caso ocurre en
una situación en particular, se escribe la
matriz aumentada [A b], se reduce mediante eliminación de Gauss a la forma
reducida de Gauss [A‘ b’], y después se examina el aspecto más sencillo de la
posibilidad de solución de A’x = b’. Las conclusiones que resultan pueden
enunciarse de manera compacta en términos de rango.
(4.13)
DEMOSTRACION. Se sabe del teorema 4.12 sobre la eliminación de Gauss y
conjuntos de soluciones que el conjunto de soluciones de Ax = b es idéntico
aeldeA’x= b’,donde[A’b’]esunaformareducidadeGaussde[Ab].Dela
definición 4.2sobre lasformas reducidas de Gaussresulta claro que, si [A’
b’]está enla forma reducidade Gauss entonces
también A‘lo está. Sean r el
rango de A y S el rangode [A b]; ya queres igual alnúmero de renglones no
cero enA’mientras que s es igual al número de renglones nocero en[A’b’],
se sigue que r Is. Observe quela matriz A’, p x q , tiene q columnas, y ya
r 5 q . Entonces
que res el número de primeras columnas de A’debe ser que
existen exactamente tresposibilidades: i) r < S ; ii) r = s = q ; y por último iii)
r=s<q.
En el caso i),[A’b’] debe tenerprimeras columnas posteriores a las de
A’;pero [A’b’] tiene sólo una columna posterior a las de A’, es decir, la
columna más a la derecha b‘. Por lo tanto, S = r + 1 y el elemento (r +
1)-ésimo de b‘ es igual a 1, mientras que el (r + 1)-ésimo renglón de A’ es
igual a O. Entonces, la ecuación ( r + 1)-ésima del sistema A‘x = b’ pide
encontrar x que haga que Ox = [l], es decir, hacer O = 1 -locual es
imposible. Por lo tanto, enel caso i) no existen soluciones; éste esel caso 1)
del teorema.
En el caso ii), no hay elementos no cero en b’ por debajo del último
renglón nocero de A’, así que no existe alguna ecuación que pida que O = l .
Ya queq es el número total de columnas en A’, mientras que res su número
de primeras columnas y r = q , entonces cada columna es una primera
columna. Por lo tan’to, la ecuación q-ésima l(x), = (b’), determina de
4.3
I
Posibilidad de soluci6n y conjuntos de soluciones para sistemas de ecuaciones
165
manera única a (x), la ecuación (q - 1)-ésimadetermina de maneraúnica a
y así sucesivamente hasta la primera ecuación que determina de
2)del teorema, y existe exactamenteuna
manera única a(x) Este es el caso
solución.
Por último en elcaso iii), ya que r-el número primeras
de
columnas de
A’- es menor que q -el número total de
columnas- existen algunas columnas que no son primeras de A’; es decir, existen algunas variables que no
son primeras. Si a cadauna de estas variables no primeras se le asigna un
valor arbitrario y si estos valores se sustituyen por las variables, y los
resultados se desplazan al lado derecho de las ecuaciones, entonces las
variables restantes son todasprimeras variables y sus valores están determinados de modo Único como en el caso ii) por los lados derechos -que
ahora contienen estos 4 - r valores arbitrarios. Este es el caso 3) del
teorema, y existen infinitamente muchas soluciones -una para cada valor
asignado a las variables que no son primeras. m
(x),-,,
(4.14)
Ejemplo. Considere el sistemade ecuaciones Ax = b de abajo con un
parámetro 01 arbitrario.
x - 3 y = -2
2x+ y =
3
3x - 2y =
a.
La matriz aumentada se reduce fácilmente de
Si a = 1, entonces A’ y [A’ b’] están en la forma reducida de Gauss,y los
rangos de cada una son igualesa 2 = 4. Se tiene el caso 2)del teorema clave
4.13 y existe una solución única, es decirx= y = 1. Sin embargo, si a # 1,
entonces el tercerrenglón puede dividirse entre a - 1 # O para producir un
1 al finalde la terceracolumna, dancto el rango de A como 2 pero el rangode
[A b] como 3; éste es el caso 1) y no existen soluciones.
Ahora pod& resolver los problemas de 1 al 7.
Estructura del conjunto a%soluciones
La estructura del conjunto de soluciones está bastante claraen dos casos:
cuando el conjunto estávacío (no hay soluciones), o cuando el conjunto consiste
166
4
I
Soluci6n de ecuaciones y c&lculo de inversas:teoría
de una sola solución. ¿Pero qué sucede en
el tercer caso, cuando existen
infinitamente muchas soluciones? Si y y z son ambas soluciones a Ax = b, de
modo que Ay = b y Az = b, entonces
A(y - Z) = Ay - AZ = b - b = O.
Es decir, la matriz columna h = y - z resuelve
(4.15)
el así llamado, sistema homogéneo Ah = O correspondiente al sistema
original Ax = b.
De modo recíproco, si h es cualquier solución al sistema homogéneo mientras
que x, es alguna solución específica a Ax = b, entonces A(xo+ h) = Ax, + Ah = b
+ O = b; es decir, x. h es otra solución a Ax = b.
+
De aquí sesigue que el que haya a lo mucho una solución a Ax = b equivale a que
.
no haya ninguna solución h no cero a Ah = O.
(4.17)
Corolario (unicidad de soluciones). El sistema de ecuaciones Ax = b tiene a
lo mucho una solución (puede no tener ninguna) si y sólo si laúnica solución
aAh=Oesh=O.
Se cumple un resultado mucho más sólido en el caso especial de p = q , es
decir, en éI hay tantas variables como ecuaciones.
(4.18)
4.3
/
Posibilidad de soluci6n y conjuntos de soluciones para sistemas de ecuaciones
DEMOSTRACION.
167
Se demuestra que1) implica 2), 2) implica 3), 3) implica 4),
4) implica 9 , y 5) implica 1).
(1
2) Primero, supanga que se cumple 1) y aplique el teorema clave
4.13 sobre rango y posibilidad de solución a un sistema Ax = O , que por
cumplirse el
suposición tiene exactamente unasolución x = O ; así que debe
caso 2) del teorema clave 4.13, y el rango de A es igual a p -es decir, se
cumple 2).
(2 * 3) Segundo, suponga que secumple 2) y considere Ax = b para
[A b], entonces A'
cierta b; si [A' b'] es una forma reducida de Gauss para
es una forma reducidade Gauss paraA, y ya que elrango de A es igual a p ,
todos los p renglones de A' -y por lo tanto de [A' b']- son no cero. Esto
quiere decir que el rango de [A b] también es igual a p; por lo tanto se
cumple el caso2) del teorema clave4.13 y existe exactamenteuna solución a
Ax = b, es decir se cumple este caso 3).
(3 * 4) Tercero, suponga que se
cumple 3); encontrar R para 4)
mediante el teorema clave 1.44 a), es equivalente a resolver sistemas de
ecuaciones Ari = el, que puede hacersepor la suposiciónde 3). De allíque
4) se siga de 3).
(4
5) Cuarto, suponga que se cumple 4) de modo que A tiene una
inversa derecha R. Se afirma que esto significa que se cumple 1) para la
matriz AT; ya que si ATy = O, entonces
O = RTO = RT(ATy)= (RTAT)y= (AR)Ty= I,y = y,
así que como se aseguraba y = O. Pero si secumple 1) para AT,entonces,
con lo que seha demostrado, también 2), 3) y 4) se cumplen para AT.De 4),
para AT se obtiene una matriz X que satisface ATX = I,, y por lo tanto
XTA = (ATX)' = Ip' = I,,
lo cual dice que XTes una inversa izquierda A.deEn el teorema 1.33 se nos
dice que R = XT es de hechouna inversa bilateral A-l. Es decir que 5) se
cumple.
(5 * 1) Quinto y idtimo. Suponga que se cumplen 5) y Ah = O para
cierta h; entonces
O = A"0
= A"(Ah)
así que h = O y se cumple 1 ) .
= (A"A)h
= I,h = h,
1
El teorema clave 4.18 contiene un hecho sorprendente y útil que ahora se
extrae para recalcarlo.
Dice que conel fin de determinarsi las p ecuaciones Ax =
b con p incógnitas tienen exactamente unasolución para cadamiembro derecho
arbitrario b, todo lo que se necesita haceres definir si tienen exactamente una
solución h = O en el caso especial de b = O.
168
4
I Soluci6n de ecuaciones y cAlculo de inversas: teoría
(4.19)
(4.20)
Ejemplo (interpolación polinomial). Deje que r,, t,, . . . , tn+, tenga números diferentes y sean b,, b2, . . . , b n f l números dados. Considere el problema de encontrar un polinomio
P(t) = x 1
+ x,t + . . . +
Xn+ltn
de grado n que interpola los datos dados,de maneraqueP(ti)= bipara 1 5 i
In + 1. Las ecuacionesP(tJ = bi son sólo ecuaciones para
los coeficientes
desconocidos xj y pueden escribirse como Ax = b, donde
X=
Mediante el corolario clave 4.19, se ve que existeprecisamente una solución
a Ax = b para b arbitraria siy sólo si h = O es la única solución a Ah = O -es
decir, si y sólo si el polinomio con
todos los coeficientes cero es Único
el
que
es igual a cero en n + 1 puntos t j distintos. Pero se sabe que cualquier
polinomio no cero de grado n tiene a lo mucho n puntos en los que es cero:
para ser igual a cero en n + 1 puntos, debe ser el polinomio cero. Por lo
tanto, la únicasolución aAh = O es h = O , así que existe
una solución única a
Ax = b para cada b. Existe exactamente un polinomio de grado n , a lo
mucho, que interpola n + 1 datos.
PROBLEMAS 4.3
D 1. Cada una de lassiguientes matrices es la matriz aumentada de un sistema de
ecuaciones lineales. Para cada matriz, utilice el teorema clave 4.13 sobre
rango y posibilidad de solución para determinar si el sistema tiene solución
única o infinitamente muchas. Si existe una solución, encuéntrela.Si existen
4.3
I Posibilidad de solucibn y conjuntos de soluciones para sistemas de ecuaciones
169
infinitamente muchas, encuentre la solución general (en términos de parámetros arbitrarios).
O
O
O
1
O
O
1
O
O
O
1
O
O
2
O
O
3
2
O
O
o
1
o
3
o
o
O
O
O
014
2 / 5
010
416
1/5
1
O
O
011
1
O
O
O
1
O
O
O
1
O
2
5
5
O
O
1
O
O
2
O
3
7
2
2
014
0 / 5
116
014
O /5
116
417
618
417
110
2. Encuentre los valores de a! para los cuales las siguientes ecuaciones tienen
solución, y encuentre las soluciones.
x-3y+22==4
y-
z=1
3x-2y+
z=a
2x+
D 3. Encuentre todos los lados derechos b, para los cuales Ax = b tienen soluciones y encuentre todas las soluciones, donde
A=
4
-1
3
-1
5
4
2
-1
1
-9
3
4. La matriz que se muestraabajo es la matriz aumentada paraciertosistema de
sistema no
ecuaciones. Encuentrelos valores del parámetro k parae1 cual el
tiene solución, tiene una solución, y tiene infinitas soluciones; cuando tiene
infinitas soluciones, encuentre la formageneral
de la soluciónentérminos de
parámetros arbitrarios.
-1
3
6 16
k-310
5. Demuestre que la única solución de Ax = O es x = O si y sólo si el rangode la
matriz A, p X q , es igual a q , el número de incógnitas.
6. Suponga que A es p
igual a p .
X
p y no singular; demuestre que el rango de A es
170
4
/
Solucibn de ecuaciones y cAlculo de Inversas:teoría
D 7. La ecuación de una línea recta en el plano x-y tiene la forma ax + by = c.
Considere p líneas rectas, con ecuaciones a$ + bg = c i para 1 S i 5 p .
Demuestre que todas las líneas rectasp pasan por un punto común si y sólo si
el rango de[a b] es igual al rango de[a b c], donde a,b y c son matricesp x 1
con (a), = ai, (b), = bi y ( c ) ~= ci.
8. a) Encuentre la solución h general, 3 x 1 , para Ah = O donde
A=[' 2
-12
t]
b) Dado que x. = [ 2 1 - 1ITresuelve Ax = b = [3 OIT, utilice el teorema
clave 4.16 y el resultado de a) para dar la solución general de Ax = b
para estab.
D 9. Repita el problema 8, para
A=
10. En la sección 2 . 2 se vio que en los modelos de la evolución de un sistema a
través del tiempo, en ocasiones se desea encontrar si existe un estado de
equilibrio para el modelo; esto involucra la solución de Ax = x.
a) Para la matriz A del ejemplo 2 . 6 , encuentre la solución general Ax = x.
b) Utilice esta solución general para encontrar todas las soluciones que
también tengan sólo elementos no negativos y que sumen 1, como se
pidió en la sección 2 . 2 .
11. En la sección 2 . 6 se vio que dentro delas aplicaciones frecuentemente es
necesario resolver problemas de mínimos cuadrados Ax == y, dados A real y y
real y que esto puede hacerse resolviendo ATAx = ATy.
a) Para las matrices A y y del problema 1 1 de la sección 2.6, encuentre la
solución general a ATAx = ATy.
b) Escriba la solución general x en la forma x = x. + h como en el teorema
clave 4.16.
12. Encuentre el polinomio P ( t ) de grado 2 que satisfaga P ( 2 ) = 4, P ( - 1) = 7 , y
P(1) = 1 .
D 13. Utilice el teorema clave4.16 para describir el conjunto de todas las inversas
derechas R de una matriz A, p X q , y utilice su corolario para describir
cuándo es única una inversa derecha.
14. Demuestre que la siguiente sexta condición es equivalenre a las otras cinco
en el teorema clave4.18: 6) Existe unainversa izquierda L, p X p , para A; es
decir, existe una L, p x p , con LA = I,.
4.4
I Inversas y rango
171
15. Sean t,, tf, . . . , tr números reales diferentes; sean b,, bZ, . . . , br y b;,
b;, . . . , b; números reales. Demuestre que existe precisamenteun polinomio P de grado menor que o igual a 2r - 1 tal que
p(ti)= bi
y
P(tJ = b:
para 1 Ii Ir, donde P' es la derivada de P .
D 16. En la sección 2.2 se vio que en los modelosde la evolución de un sistema en
el tiempo, en ocasiones se desea encontrar si existe un estado deequilibrio
para el modelo; esto involucra la solución de Ax = x par x no cero, donde A
es una matriz p X p dada. Demuestre que existe dichax no cero si y sólo si
A - I, es singular; demuestre que A - I, es singular para la matriz A del
ejemplo 2.6.
17. Suponga queel sistema Ax = b de p ecuaciones con p incógnitas tiene una
solución xo;demuestre que x. es la solución única si y sólo si el rangode A es
igual a q.
18. Sea A, p x q. Demuestre que ATA es singular si el rango de A es estrictamente menor que q.
19. En la sección 2.4 se vio que es importanteen los problemas de equilibrio de
red saber si cierta matrizH definida comoH = AK"AT es no singular, donde
A es no cuadrada y real.
es singular si el
a) Suponga queA es r X S y que K = I,; demuestre que H no
rango de A es igual a r.
b) Suponga que A es r x S y que K es una matriz diagonal S x S con
elementos positivos sobre ladiagonal; demuestre que H es no singular si
el rango de A es igual a r.
c) Para la matriz A, 2 X 5 inmediatamente anterior a (2.20) enla sección 2.4,
demuestre que el rango de A es igual a 2; concluya queH en (2.24) es no
singular, como se demostró para un caso especial del ejemplo 2.25.
4.4
INVERSAS Y RANGO
En el capítulo 1 se mostró que el hecho de que una matriz A tenga o no una
inversa de algún tipo (izquierda, derecha o bilateral), puede resolverse considerando sistemas de ecuaciones: el teorema clave 1.44 trató esto en detalle. Por
ejemplo, la matriz A, p X q , tiene una inversa derecha R, q x p , si y sólo si se
pueden resolver las ecuaciones Ari = ei para 1 Ii ' p . Gracias a lo expuesto en la
sección 4.3, se tiene ahora la base teórica necesaria para comprender
la posibilidad de resolver ecuaciones y por lo tanto la existencia de inversas.
Inversas y rango
Para caracterizar la existencia de inversas a través del rango, sólo se necesita
conjugar dos órdenes distintos deideas: 1 ) los resultados del teorema 1.38 y los
172
4
I Solucidn de ecuaciones y calculo de inversas:teoría
del teorema clave 1.44 que relacionan varios tiposde inversas conla posibilidad de
solución de ecuaciones; y 2) el teorema clave 4.13 que re1acior.a la posibilidad
de solución de ecuaciones con el rango. Por comodidad, se separan los resultados para cada tipo de inversas;juntos, estosteoremas justifican las afirmaciones
en (1.32), anteriores a la presentación de inversas en el capítulo 1.
(4.21)
Teorema (inversas derechas y rango). Sea A una matriz p X q y sea k
el rango de A. Entonces A tiene una inversa derecha R si y sólo si k = p y
P 5 9DEMOSTRACION. (rango S- inversa) Supóngase primero que k = p 5 q ; se
debe demostrar que existe
una R. Por el teorema clave 1.44 a), Rexiste si Ari
= ei se puede resolver para 1 Ii Ip , en donde cada ei es una columna
unitaria de orden p . Por el teorema clave 4.13 2) y 3), se puede resolver Ari =
e, si el rangode A es igual alde [A ei]. Como el rango de A es p , todos los p
renglones de cualquier matriz reducida de Gauss G de A son distintos de
cero; si F es la matriz no singular del teorema clave 3.34 que representalas
operaciones de renglón que transforman A en G, entonces también la
matriz
F[A ei] = [FA Fei] = [G Fe,],
está en forma
la
reducida de Gaussya que G lo está. Por lo tanto, el rangode
[A ei] -el número de renglones no cero de [G Fei] también es igud a P , el
rango de A, por lo que los sistemas tienen solución y R existe.
(inversa rango) A continuación, supóngase que A tiene una inversa
derecha R. Sea G una forma reducida de Gauss de A y sea F la matriz no
singular de laprimera parte de la demostración: FA = G. Considérense las
ecuaciones Ax = b, en donde b = F"e,; por el teorema 1.38 b), Rb resuelve
estas ecuaciones y por lo tanto, por el teorema clave 4.13 2) y 3), los rangos
de A y de [A b] son iguales. Ahora,
F[A
b] = [FA
Fb] = [G
e,]
está en la
forma reducida de Gauss. Como el último renglónde estaúltima
matriz no es cero (debido a e,), el rango de [A b] -que es igual alde A- debe
ser igual a p . Como existen q columnas en G y p columnas delanteras,
queda claro que p Iq.
(4.22)
Teorema (inversas izquierdas y rango). Sea A una matriz p x q y sea k
el rango de A. Entonces, A tiene una inversa izquierda L si y sólo si k = q y
4 5 P.
DEMOSTRACION. Lademostración es consecuencia del teorema 1.38 y de los
teoremas clave 1.44 y 4.13, así como del teorema 4.21.
4.4
I inversas y rango
173
DEMOSTRACION.
demostración
La
es consecuencia inmediata de los dos
teoremas anteriores y del teorema 1.33.
Se enunciará por separado una aseveración que sela deutilidad más tarde,
y que es consecuencia del Último resultado.
(4.24)
Corolurio (no singularidad y matrices elementales). Sea A una matriz cuadradap X p . A es no singular si y sólo si A es igual aun producto dematrices
elementales.
DEMOSTRACION. (producto =. no singular) Si A es igual a uno de estos
productos, y ya que cadamatriz elemental es no singular y el producto de
matrices no singulares es no singular, entonces A es no singular.
(no singular -producto) Si A es no singular, por el teorema clave 4.23
surangoesp. SeaRlaformaesca1ónreducidaporfiladeA;sesabequeA =
E,E,. . . E,.R para algunas matrices elementales E*.Si R = I, habremos
logrado nuestro propósito.Por la definición 4.9 relativa ala forma escalón
reducida por fila, existenp columnas delanteras en R que son igualesa las ei
ordenadas por 1 5 i Ip -lo cual significa que R = I,, que era lo que se
deseaba. m
El siguiente es un corolario inmediato a la demostración que se acaba de usar
ya
y la formaescalón reducida por fila.
larelación entrela forma reducidade Gauss
(4.25)
Corolario (nosingularidad y formas reducidas deGaussescalón/reducida
por fila). Sea A una matriz cuadrada. Entonceslas siguientes tres condiciones son equivalentes:
1. A es no singular.
2. Alguna (o bien cada) forma reducida de Gauss G de A es triangular
superior unitaria.
3. La forma escalón reducida por fila de A es igual a I.
PROBLEMAS 4.4
1. Detállese la demostración del teorema clave 4.23.
D
2. a) Demuestre que, siA es p X p y no singular, entonces la forma escalón
is [I, A-'].
reducida por fila de [AI,]
174
4
I
Solucibn de ecuaciones y cAlculo de inversas:teoría
b) Utilice este resultado para encontrar la inversa de
c) Explique cómo se puede usar este resultado para encontrarla inversa de
cualquier matriz no singular.
3. a) Suponiendo que A y B son p X p y que el producto AB es no singular,
demuestre que tanto A como B son no singulares.
b) Suponiendo que A y B son p X p y que una de ellas es no singular,
demuestre que el producto es singular si y sólo si la otra matriz es
singular.
4. Suponiendo que B es p x q y que A es q x q no singular, demuestre que el
rango de BA es igual al rango de B.
5. Suponiendo que B es p X q y que A es p X p y no singular, demuestre que el
rango de AB es igual al rango de B.
D 6. Suponiendo que A es p X q y que tiene rango k, demuestre que:
a) A no tiene inversa derecha si p > q .
b) A no tiene inversa derecha si k < p < q .
c) A tiene infinidad de inversas derechas si k = p < q.
d) ¿Cuándo tiene A exactamente una inversa derecha?
7. Suponiendo que A es p X q y que tiene rango k, demuestre que:
a) A no tiene inversa izquierda si p < q .
b) A no tiene inversa izquierda si k < q < p.
c) A tiene infinidad de inversas izquierdas si k = q < p .
d) ¿Cuándo tiene A exactamente una inversa izquierda?
D 8. Suponiendo que A es p X q , que B es q X p y que q < p .
a) Demuestre que AB es singular.
b) Mediante un ejemplo demuestre que BA puede ser no singular.
9. Demuestre que elrango de AATes menor o igual al rango de A. (Sin embargo,
véase el problema 11, que es más difícil.)
10. Demuestre que el rangode A es igual al de AT,primero para una A reducida
de Gauss y después, mediante los problemas 4 y 5, para una A general.
D 11. Demuestre que el rango de AAT es igual al rango de A para una A real.
4.5
DETERMINANTES Y SUS PROPIEDADES
Muchos lectores habrán aprendido algunos años atrás cómo resolver sistemas de
ecuaciones usando determinantes y se habrán preguntado por qué no se les ha
4.5
/
Determinantes y sus propiedades
175
mencionado, especialmente en el capítulo 3 . El hecho es que los determinantes
no son útiles para el c6mputo práctico y eficiente de soluciones de sistemas de
ecuaciones mayores que 3 x 3; lo son, sin embargo, si se les usa como artificios
conceptuales o descriptivos para representar las soluciones y las inversas. Por
esta razón, y no para fines computacionales, se les estudiará brevemente.
Determinantes
Se definirá un número Único asociado como una matriz A p X p , llamado el
determinante de A representado por det A o det(A). Eldeterminante para matrices p X p se definirá en términos de determinantes para matrices O, - 1) x (p l ) , y así sucesivamente hasta las matrices 1 x 1 [a]para las que se definirá defa]
= a. Para lograr una mayor precisión, es necesaria cierta terminología.
Definición. Sea A, p x p .
a) El menor ( i tj)de A, representado por Mu, es el determinante de matriz
la
O, - 1) X O, - 1) formada al omitir el i-bimo renglón y la j-ésima
columna de A.
b) El cofactor (i, j) de A, representado por Ajj, es (-ly+jMu.
(4.26)
Nótese que los signos (- l)ifj de la definicióndel cofactor tienen una disposición
en forma de tablero de ajedrez:
Ahora se podrá definir a los determinantes.
(4.27)
Definición.
a) El determinante de la matriz 1 x 1 [a] se define como det [a] = a.
b) El determinante de la matriz A, p X p , se define como
det A = 1 ( A ) l j A l j .
P
j= 1
En palabras: el determinante de A es la suma de los productos de los
elementos del primer renglón y de los cofactores del primer renglón.
(4.28)
Ejemplo. Considérese el determinantede la matriz general 2 x2:
176
4
I Soluci6n de ecuaciones y c$lculo de inversas:teoría
Se tiene por la definición 4.27, que
det A = a,,A,, + al2Al2
= a11 det Ea2zl - a12 det [a211
= alla22 - a12421.
Por ejemplo,
(4.29)
Ejemplo. Considérese eldeterminante dela matriz general 3 x 3
AI aplicar la definición 4.27 se tiene que
det A = a,,A,,
[:-;-:]
+ aI2Al2+ aI3Al3
Por ejemplo,
1
det
= 2((2)(3)- (-I)(= 2{5} - 115)
+
1)) - 1{(1)(3)- ( - 1)(2)} 3{(1)(- 1) - (2)(2)}
+ 31-5) = - 10.
Si se examina cualquiera de los productos en la expresión del determinante
de matrices 2 x 2 o 3 x 3 , se verá que cada productoincluye un término de cada
uno de los renglones y un término de cada una de las columnas. E n general,
resulta que eldet A es la suma de todos los productos posibles de p elementos de
A, con los signos adecuados, y donde en cada producto hay exactamente un
término de cadafila y exactamente uno de cadacolumna. De hecho,los determinantes pueden definirse de estemodo, pero no se proseguirá en esta dirección.
I
4.5
Determinantesy sus propiedades
177
Ahora pod& resolver los problemas del I al 5.
’ropiedades básicasde los determinantes
El primer renglón de A jugó un papel especial en la definición del det A: los
elementos delprimer renglón se multiplican por sus cofactores, los productos se
suman y el resultado es el det A. La primera propiedad importante es que el
“primer renglón” puede sustituirse por “cualquier renglón o cualquier columna”. Así, además de laprimera representación del det A para una matriz A 3
x 3 , se tiene
+ azzA,, + a Z 3 A z 3
det A = a,,A,,
+ a31A31
+ a23A23 +
= a l l A l l + a21AZl
=
(4.30)
Teorema (desarrollo del det A por columna o renglón). El det A se puede
evaluar desarrollándolo con respecto a cualquier renglón o a cualquier
columna; esto es, el det A es igual a la suma de los productos de los
elementos de cualquier renglón o de cualquier columna por sus cofactores:
P
det A =
j= 1
DEMOSTRACION.
instructiva.
(4.31)
m
P
(A)isAis
(A)rjArj =
para
toda
r y s.
i= 1
Se omite la demostración por ser más complicada que
Corolario.
a) det A = det AT.
b) Si cualquier renglón o columna de A es igual a O , entonces
det A = O
c) Para cualquier número c y para cualquier matriz A p X p ,
det (cA) = cp det(A)
d) Si A tiene dos renglones (columnas) iguales, entonces el det de A = O .
e) Si A y B son iguales con excepción de los elementos de su k-ésimo
renglón (columna), y C se define como aquella matriz idéntica a A y B
con excepción de su k-ésimo renglón (columna) que es la suma de los
k-ésimos renglones (columnas) de A y B , entonces,
det C = det A + det B
I76
4
/
Soluci6n de ecuaciones y cAlculo de inversas: teoría
DEMOSTRACION.
a) Desarrollar det A con respecto a su primera columna es lo mismo que
desarrollar el det AT con respecto a su primer renglón.
b) Desarrollar el det A con respecto a un renglón o columna cero, dacomo
resultado el det A = O.
c ) Esto es trivial parap = 1; cualquier p , se deducefácilmente por inducción sobre p desarrollando con respecto a cualquier renglón o columna
de cA.
d) La fórmula del ejemplo 4.28 demuestra que esto es verdad para las
matrices 2 x 2. Se usará entonces inducción sobre p ; el desarrollo con
respecto a cualquier renglón (columna) que no sean las dos citadas,da0
para el valor del det A, ya que cada cofactor es O por la hipótesis de
inducción de que el resultado es cierto para p - 1.
e ) Se llega fácilmente al resultado desarrollando los tres determinantes con
respecto al k-ésimorenglón o columna.
Se usarán los determinantes para describir soluciones de ecuaciones; hasta
el momento se han descrito las soluciones por medio de operaciones de renglón,
ahora es necesario examinar la relación entre las operaciones de renglón y los
determinantes.
(4.32)
Teorema (determinantes y operaciones de renglón)
a) Si A‘ se obtiene de A intercambiando dos renglones (o dos columnas) de
A , entonces
det(A’) = (- 1) det(A)
b) Si A’ se obtiene de A reemplazando un renglón (columna) de A por el
número c veces ese mismo renglón (columna), entonces,
det(A’) = c det(A).
c) Si A’ se obtiene de A reemplazando un renglón (columna) de A por ese
renglón (columna) más algún múltiplo de un renglón (columna) diferente, entonces,
det(A’) = det(A).
DEMOSTKACION
a) Para precisar, supóngase que seintercambia el i-ésimo renglónricon el
j-ésimo, rj de A para obtenerA‘. Se denominará{a; b} al determinante de
la matriz obtenida de A mediante reemplazo del i-ésimo renglónde A por
alguna matriz renglón a, y del j-ésimo renglón de A por alguna matriz
renglón b; por lo tanto, el det(A) es precisamente {ri ; rj} mientras que
det(A’)es{rj;ri).Porelcorolario4.31d),sesabeque{a;a}=Oparatoda
a. Por el corolario 4.31 e) se sabe que
(a + b;c} = ( a ; c } + {b;c}
Y que
( a ;b
+ c} = {a ; b} + {a ; c}
para toda a, b y c.
4.5
I
Determinantes y sus propiedades
179
Por lo tanto,
+ rj} = {ri ;ri + rj} + (rj ;ri + rj}
+ {Ti;rj} + {rj ; ri} + {rj ;rj}
O = {Ti + rj ; ri
= {Ti ; Ti}
+
O
det(A)
= det(A) + det(A’).
=
+ det(A’) +
O
Lo cual dice que el det(A’) = -det(A) como se había afirmado.
b) El resultado se obtiene fácilmente desarrollando con respecto al renglón
(columna) de que se trate.
c) Suponga que el i-ésimo renglónri se sustituye por ri + crj, en donde r1es
el j-ésimo renglón de A y c es un número. Al utilizar la notación de la
demostración de a) se tiene que
+
det(A’)= {ri crj ; rj} = (Ti ;rj} + {crj ;rj}
= det(A) c{rj; rj}
porelcorolario 4.31 d)
= det(A) + c(0) = det(A)
como se afirmó.
+
m
Las tres operaciones
de renglón básicas cuyos efectos sobre
los determinantes se describenen el teorema 4.32, son equivalentes ala premultiplicación por
matrices elementales -véame ladefinición 3.3 1 y el teorema 3.32. Cada matriz
elemental E resulta deaplicar su operación de renglón correspondiente aI , cuyo
determinante es claramente igual a 1; ya que los efectos de las operaciones de
ls
renglón se describieron arriba, se evaluarán
fácilmente los determinantes dea
matrices elementales básicas de la definición 3.3 1 y esta información se combinará con el teorema 4.32 como sigue:
(4.33)
Corolario (matrices elementalesy determinantes). SeanEii, Ei(c)y Eij(c)las
matrices elementales de la definición 3.31. Entonces,
a) det Eij = - 1 .
b) det E~(c)= C.
c) det E,(c) = 1 .
d) Si E es cualquiermatriz elemental p X p y A es cualquier matriz p x p ,
entonces
det(EA) = det(E) det(A).
Las propiedades básicas de los determinantes contenidas en los teoremas
del 4.30 al 4.32 dan la clave para evaluarlos.Lo más fácilserá verlo mediante un
ejemplo.
180
4
Soluci6n de ecuaciones y calculo de inversas: teoría
I
(4.34)
Ejemplo. Se evaluará el determinante de la siguiente matriz A, 4 x 4. En vez
de desarrollarlo inmediatamente con respecto a algún renglón o columna,
primero se efectuarán operaciones de renglón para crear una columna con
sólo un elemento no cero en ella; el desarrollo con respecto adichacolum
será fácil. Si se suman múltiplos del renglón 2 a los otros renglones para
crear ceros en la columna 1, entonces por el teorema 4.32 c) no se ha
cambiado el determinante. Esto es,
-: 1
2 - 3
2
detA=det~~
1
o
5
'1
-'S -1 - 5
;]=.et[:
-3
o
-1
o
-1
-4
2
'
-3
el cual se desarrolla con respecto a su primera columna para obtener
det A = -(1) det
1"
5
- 1O
-5
'1
.
Ahora se le podría evaluar comoen el ejemplo4.29, pero es más fácil sumar
4 veces por el segundo renglón al tercero -lo cual no cambia al determinante- de modo que la segunda columna sólo tenga un elemento no cero, y
desarrollarlo fácilmente con respecto a esa columna. Esto d a
- :I
o
1i -:
-1
det A = -(l)det[ -
= -(I)(-l)det[
-<:li],
que es igual a
-(1)(-1){(-1)(17)-(1)(-18)}=
1.
Por lo tanto, el det A = 1
En el ejemplo 4.34 nunca se efectuó alguna operacion de renglón que
cambiara el valor del determinante; si se hubieran intercambiado dos renglones o
reemplazado un renglón por un múltiplo de sí mismo, habría sido necesario
rastrear su efecto en el determinante.
Ahora podrá resolver los problemas del 1 al 12.
Determinantes, productos y no singularidad
Las propiedades básicas de los determinantes que se han presentado tienen
algunas consecuencias sorprendentes y nada obvias; los siguientes dos teoremas
implican resultados sorprendentes.
4.5
(4.35)
I Determinantes y sus propiedades
181
Teorema (determinantes y no singularidad).
a) A es no singular si y sólo si el det A # O; esto es, A es singular siy sólo si
el det A = O;
b) Si A es no singular, entonces
det(A- ') = l/det(A).
DEMOSTRACION
.a) (no singular * det # O) Supóngase primero que A es no singular; por el
, E, son matrices
corolario 4.24, A = E1E2. E,, donde El, E,,
obtiene
elementales Ei. Aplicando elcorolario 4.33 d) repetidamente, se
..
. ..
det(A) = det(E,) det(E,) . . . det(E,) # O
Ya queel determinante de cualquier matriz elemental es distinto de cero
por el corolario 4.33 a r c ) .
(det # O a n o singular) Supóngase que det(A) # O. Si, por el contrario, A
fuera singular, entonces su rango sería menor quep por el teorema clave
4.18; así, cualquier forma reducida de Gauss G tendría unrenglón
inferior cero. Como G se deriva de A por operaciones de renglón, se
tiene que
E,E,.. * E,A = G
para algunas matrices elementales E*.La aplicación repetidadel corolario 4.33 d) resulta en
det(El) det(E,) . . . det(E,) det(A)= det(G)
que debería ser ceroya que el renglón inferior de G sería cero. Como
el determinante de cada una dea
ls Ei no es cero, esto significaría que el
det(A) = O, lo que contradice la suposición de queel det(A) # O. Por lo
tanto A no podría ser singular.
b) Ya que A es no singular, por el corolario 4.24, se puede escribir que A =
EIEz * * E,. para matrices elementales Et. Al utilizar el det(1,) = 1 y
aplicar repetidamente el corolario 4.33 d), se obtiene
1 = det(1,) = det(AA- ') = det(E,E, . . . E,A- l )
= det(E,) det(E,) . . . det(E,) det(A-')
= det(E,E, . . . E,) det(A- ') = det(A) det(A-').
Partiendo de que 1 = det(A) det(A-l) y del hecho de que el det(A)# O
por a), se obtiene
det(A")
(4.36)
= l/det(A).
m
Teorema (determinantes y productos)
det(AB)= det(A) det(B).
182
4
I
Soluc16nde ecuaclones y calculode inversas:teoría
DEMOSTRACION (A no singular * resultado) Primero, supóngase que A es
no singular. En este caso,el corolario 4.24 dice que A = EIEz . . . E, para
matrices elementales Ej, y por el corolario 4.33 d) se obtiene
det(AB) = det(E,E, . . . E,B)
= det(E,) det(E,). . . det(E,) det(B)
= det(E,E, . . . E,) det(B) = det(A) det(B)
como se aseveró.
(A singular * resultado) Ahora, supóngase que A es p X p y singular,
de modo que, por el teorema clave 4.18, tiene rango menor que p y por lo
tanto el renglón inferiorde cualquier forma reducida de GaussG debe ser
igual a cero. Sea F la matriz acostumbrada no singular del teorema clave
3.34 donde FA = G. Como el renglón inferior
de G es cero,también loes el
renglón inferiorde GB: por lo tanto, el det(GB)= O debido al corolario 4.3 1
b); deaquí que GB es singular por el teorema 4.35. Ya queF es no singular
mientras que F(AB) = (FA)B = GB es singular, la matriz AB debe ser
singular -de otra manera F(AB)sería no singularpor ser producto de
matrices no singulares. Como AB es singular, su determinante es igual a
cero. Así,
det(AB) = O = O det(B) = det(A) det(B),
como se afirmó, ya que el det(A) = O.
La definición del producto AB, el cálculo de la inversa A" de A, y la
definición y evaluación de determinantes son todas ellas bastante complicadas.
Es sorprendente que esas entes tan complicadas se combinen de un modo tan
sencillo como
det(B)
det(AB)= det(A)
det(A-- 1
y
)=det(A).
PROBLEMAS 4.5
D 1. Dada la matriz A:
a) Evaluar los menores M , , , M,,, M Z 2 ,M31 y
b) Evaluar los cofactores A12,A,,, AZ3y A32.
c) Evaluar el det A.
A=
[: ; "1.
-2
1
2
-1
4.5
I
Determinantes y sus propiedades
183
2. Evaluar los determinantes de las siguientes matrices:
b)[-31
o
3. Evaluar el determinante de
[
(il
2
-1
':l.
12 -4
D 4. Demuestre que el det I, = 1 para toda p .
5. Demuestre que el determinante de una matriz triangular inferior L es
igual al producto de sus elementos en la diagonal principal.
6. Compruebe que el det A = det AT para la matriz general A , 2 X 2.
7. Dé losdetalles de lademostración del corolario 4.33 sobre los determinantes
de las matrices elementales.
D 8. Utilice el enfoque del ejemplo 4.34 para evaluar el determinante de
1
1
3
1
O
1
4 - 2
5
1
3
0
3
3
0
0
1
0
1
0
2
2
2
o
6
9. Compruebe que se obtiene el mismo resultado si se desarrolla el determinante de siguiente
la
matriz con respectoa cualquier renglón o con respecto a
cualquier columna.
[lp ; :'I
12 -4
DlO. Si A es antisimétrica, esto es, AT = -A, y es p X p , demuestre queel det A =
(-IF det A, y concluya que el det A = O si p es impar.
11. Sea P una matriz de permutación como en la definición3.5 1 de la sección 3.7.
Demuestre que el det P = 4 1.
D 1 2 . Suponga que T es una matriz cuadrada y que es o bien triangular inferior o
bien triangular superior. Demuestre que
el determinante de T es el producto
de sus elementos de la diagonal principal.
13. La ecuación de una línea recta en elplano x-y tiene la forma a x + by = c.
Considere tres rectas, con ecuaciones a& + biy = ci para i = 1, 2 y 3 .
184
4
/
Solucidn de ecuaciones y cBlculo de inversas: teoría
Demuestre que las
tres rectas tienen un punto comúnsi y sólo si el det [a b c]
= O, en donde a , b y c son 3 x 1 y (a)i = ai, (b), = bi y (ci) = ci.
14. Demuestre que los tres puntos (xi,y J , i = 1, 2, 3 en el plano x-y son
colineales (es decir, que están sobrela misma recta) si y sólo si el determinante de la siguiente matriz es igual a cero.
15. Considere la línearecta entre dos
puntos distintos (xl,yl) y (xz,y2)en el plano
x-y. Demuestre que la ecuación de esta recta es
16. Considere elcírculo que pasa por los tres puntos no colineales (xl,yl), (.uz, y z )
y (x3,y3) en el plano x-y. Demuestre que laecuación de estecírculo es
17. Suponga que A = PTLU es la descomposición LUdeA que se describió en el
teorema clave3.53 de la sección 3.7. Demuestre que el determinante de A es
igual a más o menos el producto de los elementos sobre la diagonal principal
de L.
Dls. a) Demuestre quedet(A") = {det(A))"para todos los enteros no negativos n .
b) Demuestre quesi A es no singular, entonces det(A") = {det(A))"para todo
entero n .
19. En la sección 2.2 se vio que, en los modelosde laevolución de un sistema a
través del tiempo, a veces se desea saber si existe un estado de equilibrio
para elmodelo; esto implica determinar si las ecuaciones Ax = x tienen una
solución no cero, en donde A es una matriz p X p del modelo.
a) Demuestre queAx = x tiene una solución x # O si y sólo si el det(A - I,)
# o.
b) Verifique que el det(A - 13) = O para la matriz A del ejemplo 2.6.
4.6
4.6
/
Representacidn de inversas y soluciones mediante el uso de determinantes
185
REPRESENTACION DE INVERSAS Y SOLUCIONES
MEDIANTE EL USO D E DETERMINANTES
Muchas de las aplicaciones de los determinantes vienen del hecho de que,
mediante ellos, las inversas de matrices y las soluciones de ecuaciones pueden
representarse en forma compacta.
Representación de inversas
Sea A una matriz p X p . Supóngase por elmomento que deA se derivauna nueva
matriz A’ como sigue: Para algunos valores específicos de yi dej, siendo i # j , se
sustituye elj-ésimorenglón de A con una copiadel i-ésimo renglón. A’ es idéntica
a A con excepción del j-ésimo renglón de A’, que esdistinto. Como A’ tiene dos
renglones iguales“su i-ésimo y suj-ésimo- se sabe por elcorolario 4.3 1 d) que el
det A’ = O. Si ahora se evalúa el det A’ desarrollándolo con respecto al j-ésimo
renglón, los cofactores (j,k ) , Aik de A’ serán idénticos a los cofactores (j,k ) , Ajk
de A ya que se ha eliminado el j-ésimo renglón -el Único lugar en donde son
distintas A’ y A- al formar los cofactores. Recordando que los elementos (A’)jk
del j-ésimo renglón de A’ son exactamente los elementos (A)ilr del i-ésimo
renglón de A y desarrollando a lo largo del j-ésimo renglón de A‘ se obtiene:
(4.37)
Si i # j , entonces
En palabras: La suma de
los productos delos elementos de un renglón de A y los
cofactores de otro
renglón de A es igual a cero.Se sabe desdeluego, que la suma
de los productos de los elementos de un renglón de A y los cofactoresdel mismo
renglón de A es igual aldet A. Se puede expresar la sorprendente relación (4.37)
en notación matricial introduciendo la matriz adjunta de A.
(4.38)
Definición. Laadjunta (o matriz adjunta; a veces también se le llamamatriz
adjugada) de una matriz A, p X p es aquella matrizp X p, denominadaadj
A, que sedefine por (adj A)ij = Aji, en donde Aji es el cofactor o’,i) de A.
Nótese que (adj A)ij es igual al cofactor (j, i), y no al cofactor ( i , j).
(4.39)
Ejemplo. suponga que A es la matriz 3 x 3
186
4
Soluci6n de ecuaciones y cAlculo de inversas: teoria
/
Si se toma en cuenta la disposición en forma de tablero de ajedrez de los
signos que multiplican a los menores M , para producir los cofactores A,,
fácilmente se encuentraque A,, = -3, A , , = 5, A13= 4,A,, = -3, A,, = 8,
A23 = I , A,, = O, A,, = -6 y A,, = -3. La definición 4.38 entonces da
[
-3
adjA =
o
-3
Mediante la adjunta, se puede expresar (4.37) del siguiente modo:
O = (A),,(adj A),j
+ (A),,(adj A)2j + . . . + (A),,(adj A)pj,
lo cual quiere decir que el elemento ( i , j )del producto de A por adj A es igual a
cero si i # j . AI recordar quela suma en (4.37)es igual adet A y no cero cuandoi =
j , se obtiene la primera parte del siguiente,
(4.40)
Teorema (adjuntas). A(adjA) = (det A)I = (adjA)A.
DEMOSTRACION. Ya se demostró la primera parte. La segunda es conse-
cuencia de usar el mismo tratamiento, pero esta vez llegando a A' por
sustitución de laj-ésimacolumna de A mediante la i-ésima columna de A.
Siel detAno es cero,entonces laecuacióndel teorema4.40 puede dividirseentre
el det A para obtener, por ejemplo,
A{(adj A)/det A) = I,.
O sea, que (adj A)/(det A) es A-'.
(4.41)
Corolario \(fórmula adjuntaparainversas).
Si A esno singular, entonces
Es muy importante comprender que esta representación de A-' es útil únicamente en teoria, y n o al hacer calculos computacionales en matrices grandes
debido al trabajo que requiere evaluar los determinantes involucrados en laadj
A. Un determinante p X p se define en términos de determinantes (p - 1) X (p 1) y así sucesivamente, lo cual implica que el trabajo necesario para evaluar el
determinante de una matriz p X p a partir de su definición es proporcional a
p! = p(p
"
l)(p - 2) . . (2)(1).
'
Entonces, encontrar la inversa de este modo, requiere de trabajo que se comportacomop! (en realidad, casi 2.7 vecesp!), mientras que con la
eliminación de
4.6
/
Representaci6n de inversas y soluciones mediante el uso de determinantes
187
Gauss se llega a la inversa con trabajo quese comporta como p 3 . La tabla que a
continuación se presenta deberá dejar claropor qué se prefiere el método de la
eliminación de Gauss.
(4.42)
(4.43)
p
=
1
2
3
4
5
6
7
10
lo00
p' x
1
8
27
64
125
216
343
(2.7)p! x
1
5
16
65
324
1944
9,797,760
13,608
Ejemplo. Considere la matriz A cuya adjunta seencontróen
elejemplo
4.39. Por medio de multiplicaciones se verifica que su inversa está dada
correctamente de acuerdo al corolario 4.41 por,
Ahora podrá resolver los problemas de I al 11.
Representacwn de soluciones
El corolario 4.41 nos permite expresar a A-l en términos de determinantes. Ya
que sepuede expresar la solución de sistemas de ecuaciones (que tengan matrices decoeficientes no singulares) Ax = b, como x = A"b, se puede fácilmente
representar a x con determinantes. El resultado se conoce como la Regla de
Cramer.
(4.44)
Teorema (La Regla de Cramer). Sea A no singular. Los elementos xi = (x),
en la solución alas ecuaciones Ax = b están dados porx,
= AJA, en donde A
es el determinantede A y A ies el determinante de lamatriz Ai que se forma
al sustituir la i-ésima columna de A como la matriz b.
DEMOSTRACION.
Véaseel problema 16. w
Se repetirá lo señalado después del corolario 4.41: La representación por determinantes es computacionalmente ineficiente;la regla de Cramer esútil teóricamente como un modo de representación pero no para el cálculo de soluciones.
(4.45)
Ejemplo. Considérese unavezmáslamatriz
A del ejemplo 4.39, cuyo
~ la solución a
determinante es igual a -9. El segundo elemento xg = ( x ) de
188
4
I Solucidn de ecuaciones y cAlculo de inversas: teoría
Ax = [2 O 3IT se calcula, de acuerdo con la regla de Cramer:
A,
det A,
det A,
,
-9
X2=x=det"
-
2
donde A, =
[i
2
-2
;].
Por cálculo directo resulta que el det A, = -8 y por lo tanto, xz = - 8/(-9)
-8
- 9.
PROBLEMAS 4.6
D 1. Encuentre adj A y A(adj A) si
A=[!
i
2. Detalle la demostración de la segunda parte del teorema 4.40 sobre la matriz
adjunta .
3. Demuestre que si A es singular, entonces A(adj A) = O , y que (adj A)A = O; dé
un ejemplode una matriz A singular que tengaadjA # O (parademostrar que
el resultado de esteproblema es cierto por razones de mayor importancia).
*[-:; '1 y ; -;-;I
D 4. Usar la adjunta para encontrar la inversa, si existe, de cada una de las
matrices siguientes.
a)
[-;' :I
1 2 0
o
-1
5. Utilice la adjunta a fin de encontrar una fórmula para la inversa de la matriz
general 2 x 2 no singular.
6. Dé un ejemplo de una matriz A # O para la que adj A = O.
7. Demuestre queel det(adj A) = (det
si A es p X p .
8. Los determinantes pueden calcularse mucho más eficientemente usando la
eliminación de Gauss que usando la definición de determinante.
a) Demuestre que el determinante de una matriz no singular es igual al
producto positivo o negativo de los pivotes que se usaron en laeliminación de Gauss para producir una formareducida de Gauss a partir de la
matriz.
b) Utilice lo enunciado en la sección 3.8 (p3/3 - p/3 multiplicaciones O
divisiones y p 3 / 3 - p2/2 + p / 6 sumas o restas) para producir una forma
reducida de Gauss de una matriz p X p usando el de a).
4.6
I Representacidn de inversas y soluciones mediante el uso de determinantes
189
D 9. Los determinantes son, en cierto sentido, inherentemente difíciles de evaluar debido a que sus valores
pueden ser más grandes o muy pequeños para
una matriz de números de magnitud moderada.
modernas- demuesa) Si A es 100 x 100-no muy grande en las aplicaciones
tre que el det 2A = 2lo0 det A; aunque A y 2A tengan elementos de
magnitud comparable, el valor de sus determinantes difiere enormente
(2100 = 1030).
b) Los valores de los determinantes también pueden ser en extremo sensibles a cambiosen loscoeficientes; paravisualizar esto, evalúe los determinantes de las dos matrices de abajoy diga cómo se comparala magnitud del cambio en el determinante con el cambio en la matriz:
10. Además de las dificultades citadas en el problema 9, los determinantes
causan a menudo dificultades computacionales debido a desbordamientos
numéricos. Recuerde de la sección 3.6 que las computadoras almacenan
números como una fracción por 10 elevadaa una potencia y que hay un límite
del tamaño de este exponente;muchas
en microcomputadoras, por ejemplo,
estaría entre -308 y +308. Suponga que A es una matriz 100 x 100 en una
forma reducidade Gauss y que 50 de sus elementosen la diagonal principal
son iguales a lo', y los otros 50 son
a) Demuestre que det A = l .
b) Demuestre que, si los primeros 50 elementos son los que valen lo7,
entonces se producirá un desbordamiento si se trata de multiplicar los
elementos diagonales (en orden) para calcular
el determinante. El exponente será demasiado grande para quelo almacene la computadora.
11. Demuestre que la adjunta de una matriz singular es singular.
D12. Use la regla de Cramer para resolver
2x1 - 4x2 = 8
3x1
+ x2 = 5.
13. Use la regla de Cramer para encontrar x2 resolviendo
2x1 - x2
+ 3x3 = 5
3x1 -k 2x2 x1
X3 = 0
+ 4X2 + x3 = 6.
D 14. Suponga que x. resuelve Ax = b para una matriz no singular A. Si b se midió
en un experimento y está sujeto a errores de
magnitud E en su i-ésimo
190
4
i Solucibn de ecuaciones y cAlculo de Inversas: teoría
elemento se quiere conocer el efecto que tiene en la exactitud de x. Para
hacer esto, suponga que b cambia a b' = b t €ei.
a) Demuestre que x, cambia en eA"e,.
b) Use la reglade Cramer o la matriz adjunta para encontraruna expresión
en términos de E y de determinantes para el cambio en ( x ~ ) ~ .
15. El problema 14 examinó cómo cambia una solución cuando cambia el lado
derecho: ahora se considerará cómo varía la solución al cambiar el coeficiente de la matriz, tal como cuandoestá sujeto a error de medición.
Suponga que A es no singular y que x. resuelve Ax = b. Suponga que (A)ll
cambia a (A)ll + E .
a) UselaregladeCramerparavisualizarcómocambia(xo),enfunciónde~.
b) Use la regla de Cramer para visualizar cómo cambia ( x ~ en
) ~función
de E
16. Demuestre la regla de Cramer.
4.7
PROBLEMAS VARIOS
PROBLEMAS 4.7
D 1. Suponga que B se forma de manera obvia partiendo de los elementos de
ciertos renglones y columnas seleccionados de A. Demuestre que el rango
de B es menor que o igual al de A.
2. Si R tiene rango r y S tiene rango S , demostrar que, si A tiene la forma que se
muestra a continuación, entonces A tiene rango r + s.
A=
[: os]
3. Demuestre que cada matriz de rango k puede escribirse como una suma dek
matrices de rango 1.
4. Suponga que A es una matriz p x p de rango 1. Demuestre queA2 = tA para
algún número t .
D 5. Suponga que A es una matriz p x p de rango 1. Demuestre que hay una
matriz columnap x 1, c , y una matriz renglón 1 x p , r, tales que A = cr.
??N 6. El rangoes un concepto difícil de manejar computacionalmente debido a que
pequeños cambios en una matriz -digamos errores de medición- pueden
cambiar su rango (por un número entero, naturalmente). Considere la matriz
4.7
I
Problemas varios
191
a) Demuestre que el rango de A, es igual a 2 para E # O, pero queel rango
de A, es igual a 1.
b) Supongaque-como enmuchzs microcomputadoras-se hacen los cálculos en aritmética de punto flotante de 16 dígitos (véase la sección 3.6).
Demuestre que, mientras que E sea cuando menos unos lop8en magnitud, la versión calculada de A, también tiene rango 2 igual que el de la
verdadera A,. Demuestre que, paraemenor que 10"Oen magnitud, la A,
calculada tiene rango 1 en lugar de 2 para la A, verdadera, con E
diferente de cero.
c) Los programas de computadorapara calcular el rango de la A, calculada,
bien pueden presentar dificultades en elcálculo correcto del rango de 2
para E mayor que lod8. UtiliceelMATLAB o software similar para
experimentar el cómputo del rango de laA, calculada, paraun intervalo
de valores de E desde 10" hasta
b 7. Considere la matriz en bloques diagonales A = diag(A,, .
- Arr):
en donde los bloques diagonales Aiino necesariamente deben ser cuadrados.
Demuestre queA tiene una inversa derecha R si y sólo si todos los bloques
Aii tienen inversas derechas Rii,y que R puede formarse a partir de tales Rii
de forma lógica.
8. Mencione y demuestre los resultados para inversas izquierdas y para inversas bilaterales de manera semejante al problema 7 .
9. Suponga que A es p X q y que Ax = Ay para matrices columna q X 1 x y y.
Esto implica que x = y. Demuestre que esto es equivalente a la condiciónde
que el rango k de A satisface la ecuación k = q S p .
D 10. Defina d p como el determinante de lamatriz p X p , A,, tal que sus
= 1 paratoda i , (
= 1 para
elementos ( A,)ii = a i para toda i, (
toda i, y todos los demás (Ap)ij = O .
a) Demostrar que, para p 1 3 ,
d, = a,dp-, - d,,-2.
b) Suponga que ai = 2 cos O para toda i; demuestre que
d , = csc 13 sen (p + 1)O para toda p .
D 11. Demuestre que el determinante de VandermondeV(xl,xz, . . . x,) es igual al
producto de todos los términos de la forma (xj- xi) para i < j , esto es,
192
4
I
Soluci6n de ecuaciones y ci?lculo de inversas: teoría
x:
V ( x , , . . . , x p ) = det
=
n
. ..
.. .
....
x,’
xP-l-
1
xP-l
2
. . . xp-1
P
.
( X j - Xi).
¡< j
12. Demuestre que el det A es real si A es hermitiana, AH = A.
13. Demuestre que el áreadel triángulo con vértices (xi, y i ) , siendo i = 1, 2 y 3 ,
numerados en sentidoinverso a las manecillasdel reloj, es igual a (det A)/2 si
A=
[’:
Y1
x3
Y3
y,
i].
D 14. Encuentre una representación como las de los problemas 15 y 16 de la
sección 4.5 para la curva (elipse, parábola, hipérbola, o línea recta) con
ecuación
ax2 + bxy + cy2
+ dx + ey + f = O
que pase por cinco puntos dados ( x i , yi) siendo i = 1, 2, 3 , 4 y 5.
15. Los planetas viajan alrededor del Sol en órbitas que casi son elipses. En
cuyo origen
determinadas unidades con respectoa ciertos ejes coordenados
está enel Sol, se observa queun cuerpo pasa por los puntos (0.6,2.0),(1 .O,
2.3), (1.4,2.4), (2.0,2.5),
y (2.4,2.4).Por medio del problema 14, encuentre la
ecuación de la elipse que pasa a través de esos cinco puntos.
Sn 16. Utilice el MATLAB o software semejante para calcular los cofactores del
primer renglón del determinante del problema 15 y con ello encuentre la
ecuación de la elipse de un modo más adecuado; grafique esta elipse localizando varios puntos.
%M 17. Considere la siguiente matriz como un indicio de la dificultad de laconfec-
ción de programas que puedan evaluar los determinantes conuna exactitud
relativamente excelente.
Para varios valores diferentes de cero de E .
a) Demuestre que el det B, = 2 para toda E # O.
b) Sería ideal contar con programas de cómputo quenos permitieran calcular el det B, con un error relativo pequeño, es decir con un error quefuera
pequeño comparado con el valorverdadero de 2; en las microcomputado-
4.7
I
Problemas varios
193
ras con aritmética de 16 dígitos, se esperaría obtener el det B, = 2
correcto en varios decimales. Useel MATLAB o software análogo para
ver la calidadde exactitud que produce en eldet B,, para un intervalo de
valores de E desde 10" hastaLa
dificultad aquí,como a menudo
ocurre con el cálculo de determinantes, es quese está tratando de
producir un número de magnitud moderada partiendo de números muy
grandes o muy pequeños.
Dls. Demuestre que ATA es no singular si A es p x q , real y tiene rango q .
5
Vectores y espacios vectoriales
En este capítulo se continuar& con el desarrollo de conceptos teóricos
fundamentales y de herramientas prActicas necesariaspara entender cbmo
se aplica el Algebra lineal. A diferencia de los capítulos anteriores,
&te tiene
un tinte geométrico Único. Comoel caso
en
de las operaciones de renglón
y
la eliminación de Gauss de los capítulos
3 y 4, un concepto Únicoy fundamental domina este capítulo: la dependencia El
lineal.
número deteoremas
clave refleja la naturaleza fundamental del material: 5.12, 5.43,5.45,5.50,
5.57, 5.75 y 5.82, así como los corolarios 5.29, 5.3I , 5.39 y 5.86.
5.1
INTRODUCCION: VECTORES GEOMETRICOS
Hasta ahora el desarrollo ha sido enteramente algebraico: se han sumado y
multiplicado matrices, se han resuelto ecuaciones, y así sucesivamente. Nadase ,
ha presentado que posea naturalezageométrica: no se han medido ángulos, no
se han calculado longitudes, ni nada por el estilo. Pero existe un planteamiento
geométrico natural de las matrices que es al menos tan importante, tanto teórica
como prácticamente, como el planteamiento algebraico; y , no sólo puede aplicarse lageometría al estudio de las matrices, sino que lasmatrices se pueden usar
para estudiar otros objetos geométricos.
La noción de quehay un contenido geométrico en las matrices puede parecer
bastante extraña después de todo, ¿cómo pueden tener relación las matrices
rectangulares de números con líneas y ángulos? En esta sección, primero se
indicará el lado geométrico natural de ciertas matrices.
Para demostrar el camino
inverso -el uso de matrices para estudiar objetos geométricos- se examinarán
brevemente algunas ideas geométricas y se demostrará cómo se pueden usar las
matrices para su representación; este último punto devista es importante debido
a que ejemplifica el camino a seguir después, cuando seusen matrices columna
para representar entidades abstractas llamadas vectores.
194
5.1
/
Introducci6n;
vectores
geornktricos
195
La geometría natural de las matrices reales 2 X I
Después de las matrices 1 x 1, seguramente las matrices más sencillas son
aquéllas con dos elementos reales; paraespecificar,se considerarán las matrices
2 X 1 reales u = [u1 U,]*. Existeasí, un concepto geométrico -un uectorasociado naturalmente con u. Considere un plano con un sistema estándar de
origen
coordenadasx-y, y designe a O como el origen. Trace una recta desde el
O hasta el punto 9 ( u l , u,) que tenga a ul por la coordenada x, y a u, por la
coordenada y , con una punta de flecha en 9 apuntando en la dirección de O
hacia 9.
A esto sele llamará el uector geométricoasociado con u, y se designará
con una u’. Ver (5.1)
(5.1)
’
Para que esta correspondencia u ++ 6 entre matrices y vectores geométricos
tenga sentido, las operaciones entre matrices deberán tener alguna interpretación geométrica. Considere, por ejemplo la suma:
u
+ v = [u1 U2]* + [u1 u,]’ = [u1 +
u1
u2
+ u,]?
Esta tiene una interpretación geométrica sencilla, como
lo revela la figura(5.2):
para “sumar” los vectores geométricos u’ y 6 que corresponden a las matrices u y
v, mueva una copia de 6 paralela a d de modo que su “cola” descanse en la
“cabeza” de u’,y sea el vector geométrico que conecta U con la “cabeza” de
esta d desplazada, lo que se llama la suma u’ + 6.
196
5
/
Vectores y espacios vectoriales
Como lomuestra (5.2), estadefinición significa que ii + d corresponde a u + v, de
modo que verdaderamente reflejael álgebra de la suma de matrices. Pero
también es una definición geométricamente natural para la suma de ii y 6: si se
piensa que los vectores geométricos representan desplazamientos (esto es,
caminar una cierta distancia en una cierta dirección), entonces definición
la
dada
significa que ii + 6 representa el seguimiento del desplazamiento de ii mediante el
desplazamiento de d.
Otras operaciones matriciales también tienen un significado geométrico
natural y algunas de ellas son sorprendentes. Por ejemplo, el producto de
matrices uTvestá fundamentalmente relacionado con longitud y Úngulu. Como
se puede ver a partir de (5.1), la longitud física de ii puede calcularse con el
~ . uTu =[(u: + u;)] se puede (con
teorema dePitágoras para dar (u: + u ; ) ~ 'Como
poca precisión) escribir ( U * U )para
~ ' ~ representar la longitud de ii. También, la
condición U*V= [O] significa que ii y 6 son perpendiculares. Para visualizar esto,
observe quela recta quepasa por 8 y Y ( u , , u2) tiene pendiente u,/u,, y de modo
u,; esas'rectas serán
semejante la que pasa por O y P(ol, u2); tiene pendiente
perpendiculares si el producto (u2/u,)(u2/u,) de sus pendientes es igual a - 1, lo
que fácilmente resulta en ulol + uzuz= O. Véase a continuación (5.3).
Estas pocas observaciones han demostrado que hay un contenido geométrico natural en las matrices y las operaciones que se efectúan con ellas. A
continuación se tomará el punto de vista inverso: se introducirán nociones
geométricas y después se usarán matrices para describirlas -como se hará con
mayor frecuencia adelant: en este capítulo.
Ahora podrá resolver los problemas del 1 al 9 .
Vectores geométricos tridimensionales
Los vectores geométricos que se están examinando son fáciles de imaginar
porque quedan en un plano y pueden dibujarse con facilidad en papel para
5.1
I Introducci6n;
vectores
geombtricos
197
gráficas. Sin embargo, el mundo físico es (cuando menos) tridimensional; se
necesita entonces tratar con vectores geométricos en estemundo físico.
Considere un punto O fijo en el espaciofísico como punto de referencia.Por
vector geométrico (tridimensional) ii se entiende un segmento (dirigido) de
recta con su “cola” en O y su “cabeza” en algún punto B del espacio; la
dirección es de O hacia 8 y se indica usualmente apuntando la flecha en
esa dirección hacia 8. Véase (5.4)
Puede pensarse que esos vectores geométricos representan,por ejemplo, desplazamientos de ciertadistancia en ciertadirección desde O hasta 9’. Cuando
B = O, este vector geométrico cero simboliza con 6.
Dos operaciones comunes con vectores gecmétricos son:
(5.5)
1. Multiplicación de un vectorgeométrico
(5.6)
2 . Suma de dos vectores geomttricos u’ y 6.El resultado se simboliza como
ii + 6. Al combinar los desplazamientos se obtiene ii ,+ G : unacopiade 6
se traslada paralelamente ad de manera que su “cola” descanse en la
“cabeza” de ti, entonces u’.+ 6 es el’vector geométrico desdeO hasta
la “cabeza” de ,estad desplazada.
ii por un escalar(un número
re$) k . El resultado se representa como kii. Si k = O, entonces kii es igual
a O. Si k > O, entonces kd está en la misma dirección que ei y su longitud
es igual a k veces la longitud de ii. Si k < O, entonces kii -está en la
dirección opuesta a u‘ y su longitud es igual a Ikl ( = . - k ) veces la deii.
Esas operacionescon vectores geométricostienen propiedades importantes, por
ejemplo:
ii+6=6+d
(conmutativa
de
ii+O=ii
(identidad
de
la suma)
la suma)
+ + S) = (u’ + 6) + l;it (asociativa de la suma)
k(ii + 6) = kii + k6
(distributividad)
~5 (6
y así sucesivamente. Las operacionestambién permiten la descripción de conceptos más profundos.
Se hallamado “tridimensional” al espacio físico;ello se debe esencialmente
la
a que se requiere tres
de números (coordenadas) para especificar localización
de cualquier puntoen el espacio con respecto a algún punto de referencia. De
:98
5
/
Vectores y espacios
vectoriales
modo semejante, una recta es unidimensional porque se requiere de dosnúmeros. (Más adelante en estecapítulo hay una definición precisa de dimensión que
formaliza este concepto intuitivo.)
Si se piensa en todos los múltiplos posiblesati de un vector geométrico ti por
escalares arbitrarios a, se tendrá una recta -un subespacio unidimensional- en
un espacio tridimensional. Igualmente, si ti y 6 no estánni en la mismadirección
ni en la opuesta entonces todos los vectores geométricos de la forma clii + fl6
para escalares arbitrarios a y p forman un plano -un subespacio de dosdimensiones- en el espacio tridimensional. Asílas operaciones convectores geométricos permiten describir y discutir los conceptos más profundos de rectas y planos.
Los vectores geométricos ien el plano que se acaba dedefinir son de la forma
1 = ctd + p6, y se dice que 2es unacombinacion lineal de d y 6 y también que? es
linealmente dependiente de d y 6.
Análogamente, se dice que un vector geométrico ? es linealmente dependiente de otro $ cuando? = a$ para algún escalar (Y.Se dice que el conjunto (2, $}
es un conjunto linealmente dependiente cuando 1es linealmente dependiente de
j , o j es linealmente dependiente de 1;esto simplemente significa que 2 y 3
apuntan en lamisma dirección o en dirección contraria (o que alguno de ellos es
igual a O). Esta terminología es útil para hablar de rectas y planos formados por
todos los vectores geométricos de la forma clii fl6: Todos esos vectores
geométricos forman una recta si (ti, 6) es linealmente dependiente, pero forman
un plano si {ti, 6) es linealmente independiente (es decir, no linealmente dependiente).
No se continuará con el desarrollo de la geometría tridimensional; las ideas
que se introdujeron deberán guardarse en la mente como motivación y como
ejemplo de los conceptos de las siguientes secciones. Sin embargo, antes de
proseguir, se indicará cómo pueden usarse las matrices paraestudiar los conceptos geométricos que se han presentado.
Escoja un sistema de tres ejes coordenados mutuamente perpendiculares
con su origen en el punto de referencia O; llame a éstos ejes x , y y z.Entonces
cualquier punto B en el espacio puede especificarse por tres coordenadas,dando
P(x, y, z).Véase (5.7).
+
5.1
I
Introduccibn;
vectores
geombtricos
199
Cualquier vector geométrico ii está determinado porel punto 9 en su
“cabeza”; ya que 9quedadeterminado por las tres coordenadas que lo especifican, se puede decir que u’ se describe por esas tres coordenadas x, y , z . Si se
colocan esas tres coordenadas en una matriz columna 3 X 1 u = [x y z ] ~ ,
entonces la matriz u representa al vector geométrico 6. Como se encontró al
principio de esta sección para vectores bidimensionales, si u y v corresponden a
ii y 21, entonces (YU corresponde a clii, y u + v a ii 6. Esto significa que las
expresiones matriciales de la forma (YU + pv pueden usarse, por ejemplo, para
describir rectas y planos. Por consideraciones semejantes, las dudas sobresi los
planos son paralelos puedentratarse en términos de la existencia de soluciones a
sistemas de ecuaciones Ax = b. De este modo contamos -para ocuparnos de
problemas geométricos- con todaslas poderosas herramientas matriciales desarrolladas en capítulos anteriores. Esto será igualmente cierto para los problemas
geométricos que se encontrarán en las secciones siguientes a medida que se
desarrollen las nociones abstractas -pero extremadamente aplicables- de vectores en general y de espacios vectoriales.
+
PROBLEMAS 5.1
1. Para los vectores geométricos 6, 21 y 9 mostrados abajo, encontrargeométricamente
a) i i + d
b) (ii + 6) + 9
c) u ’ + @ + $ ) d) i i + i i + d
P
2. Sean ii, d y D respectivamente las matrices [ 1 2IT, [- 1 3IT y [O OIT. Encuentre las matrices 2 x 1 que correspondan a:
.a) i i + d
c) d + 6
b) ii+6
d) ti+ii+ii
3. Demuestre geométricamente que si ii, 6, y D son vectores geométricos
bidimensionales, entonces ii (21 6)= (6 6) 9.
+ +
+ +
200
5
I Vectores y espacios vectoriales
b 4. Una lancha de motor vacruzando en línearecta un río, pero es arrastrada por
la corriente. Sin la corriente, la velocidad del bote sería de 5 millas/hora
cruzando el río directamente: sin el motor, la lancha sería arrastrada por la
corriente a una velocidad de 3 mi/h río abajo. Encuentre la velocidad de
la lanchademotor al cruzarel río. (Suponga que las velocidades se representan por vectores geométricos .)
5. Suponga que se tienen lalancha demotor y el ríodel problema4. Encuentre
el ángulo hacia el cual
debería apuntar la lancha río arriba en la corriente para
que su movimiento real fuera perpendicular al río.
6. La velocidad de un avión es su velocidad en aire tranquilo, mientras que la
velocidad respecto a la Tierra es su velocidad real que resulta de los efectos
combinados de la velocidad, la dirección del avión y la velocidad del viento.
Suponga que la velocidad de un avión es de 140 mi/h. Si el avión apunta
hacia el oeste y elviento sopla hacia el norte a 20 mi/h, encuentre la
velocidad respecto a la Tierra y la dirección del movimiento del avión.
D 7 . Un avión hizo tres vue1os.a toda máquina en tres distintas direcciones.
Observadores en Tierra notaron que 1) se movía hacia el oriente e una
velocidad respecto a la Tierra (ver problema 6) de 160 mi/h; 2 ) se movía
hacia el occidente a una velocidad respecto a la Tierra de120 mi/h; y 3) se
movió hacia el norte a una velocidad respecto a la Tierra de 160 mi/h.
Suponiendo que la velocidad y dirección del viento fueron las mismasen los
tres casos,encuentre la velocidad del avión así como ladirección y velocidad del viento.
+ ii siendo d un vector geométrico.
Dé la descripción geométrica para generar a 26 partiendo de u'.
D 9. Si ii es un vector geométrico bidimensional y corresponde ala matrizu 2 X 1,
se podríadefinira aii paracw real como el vector geométrico que corresponde
a (YU. Describa geométricamente la creación de aii partiendo de ii.
10. Mediante la geometría, demuestre que d + d = d + d para todos los vectores
tridimensionales geométricos ii y 6.
11. Suponga que ti y d son vectores geométricos colineales en tres dimensiones
(esto es, que quedan en lamisma recta que pasa por el origen). Demuestre
que el conjunto de todos los vectores geométricos de la forma a6 + Pi, es una
línea recta a medida que (Y y p recorren los números reales.
12. Suponga que ii y d son los vectores geométricos correspondientes a
u = [4 - 2
-11'
y
~ = [ - 4 O 3]*.
a) Encuentre las coordenadas w de todos los vectores cii de la forma ii, = czii
+ 06 donde (Y y p recorren todos los números reales.
b) Encuentre una ecuación de la forma ax + b y + cz = d que sesatisfaga por
los elementos x, y y z de la matriz w = [x y zIT, cuando w corresponde a
6 como en el inciso a).
8. Parece razonable que 2ii represente a ii
5.2
/
Concepto general de espacios vectoriales
201
13. Sea6 el vector geométrico correspondiente a [O O OIT. Demuestre que ii + 6
= li para todos los vectores geométricos ii.
5.2
CONCEPTO GENERAL DE ESPACIOS VECTORIALES
La sección anterior describió los
a vectores (geométricos)como entes geométricos en el espacio físico. Esta sección examina lo que es realmente el concepto
central de vectores y de espacios-como rectas o planos- de vectores.Para esto,
se definirá un modelo abstracto de un espacio vectorial y se indicará cómo puede
usarse esta noción abstracta para desarrollar conceptosy propiedadesque sean
válidas en todos los casos concretos de espacios vectoriales. Desde el punto de
vista introductorio, la propiedad básica de los vectores es la de que se pueden
formar combinaciones lineales de ellos -como ccli + Bd de la sección anterior.
Hay aplicaciones importantes en las que se necesitan formar combinaciones
lineales semejantes de entesque no sean los vectores geométricos ii; el planteamiento descubrirá las propiedades comunes a todas esas situaciones.
Vectores
Se definirá un espacio vectorial de tal modo quese reflejen todas las propiedades
esenciales y comunes a todos los casos especiales importantes.
(5.8)
Definicwn. Un aspecto vectorial es un conjunto no vacío Y de entes llamados vectores que, juntocon sus números asociados,llamados escalares, satisface las condiciones enunciadas abajo. Un aspecto vectorial real es un
espacio vectorial en el que los escalares comprenden el conjunto R de
números reales,y un espacio vectorial complejoes un espacio vectorial en
el cual los escalares comprendenel conjunto C de los números complejos.
l . Hay una operación llamada suma de vectores que asocia a cadapar de
vectores x, y, otro vector, llamado su suma y representado por x + y,
Q
que satisface:
a) x + y = y + x para todos los vectores x y y.
b) x + (y + z) = (x + y ) + z para todos los vectores x, y y z.
c) En Y existe un vector Único, llamado cero, jr representado por O , tal
que x + O = x y O + x = x para todos los vectores x.
d) Para cada vectorx hay un vector Único en Y, llamado su negativo y
representado por -x, tal que x + (-x) = O , y.(-x) + x = O .
2 . Existe una operación llamada multiplicación por un escalar
que asocia
con cada escalara y con cada vectorx en Y u n vector Único, llamado el
producto de a y x, representado por ax y xa que satisface:
a) a(j3x)= (aj3)xpara todos los escalares a y j3 y todos los vectores x.
b) (a + j3)x = ax + j3x para todos los escalares a y j3 y todos los vectores x.
202
5
I
Vectores y espacios
vectoriales
c) a ( x + y) = ax + ay para todos los escalares a y todos los vectores
x Y Y3 . lx = x para todos los vectores x.
Es necesario hacer algunas observaciones con respecto a la definición 5.8.
l . Hay mucha redundancia en la definición: la segunda mitad de 1) c) por
ejemplo, es consecuencia de la primera mitad y de 1 ) a); se prefiere
entonces plantear explícitamente tales implicaciones sacrificando algo
de elegancia matemática.
2 . Se han usado los símbolos conocidos (+ , - y O) de una manera nueva;
i incluso se ha usado el signo en más de una forma dentro de la misma
ecuación! Observe en 2) b), por ejemplo, que el signo
entre a y p se
refiere a la suma como se define entre escalares, mientras que el signo
‘ ‘ + que apareceentre ax y pX se refiere a la suma como se define para
los uectores en 9’.Es preferible alguna posible confusióna una complicada proliferación de símbolos distintos para el signo + ;el significado
deberá quedar siempre claro por el contexto. Como muestran los si+ entre vectores en las aplicaguientes ejemplos, la definición del signo
ciones, a menudo es tan cercana a su concepto acostumbradoentre los
números que apenas se nota la diferencia. Como en el caso de las
matrices, se definirá x - y = x + (-y).
+
+”
”
(5.9)
Ejemplo. Cada uno de los siguientes ejemplos es un espacio vectorial con el
la definición adecuada de suma
conjunto adecuado R o C de escalares, con
de vectores y de multiplicación por un escalar en cada caso.
a) g3,el espacio vectorial real de todos los vectores geométricos en el
espacio físico tridimensional con la suma de vectores y multiplicación
por un escalar, que se definió en la sección anterior.
b) Rp, el espacio vectorial real de todas las matrices columna con coeficientes reales de p X 1 con la suma de vectores, en este caso la suma
matricial y la multiplicació#por un escalar comoes costumbre paralas
matrices.
c) CP, el espacio vectorial complejo de todas las matrices columna con
coeficientes complejos de p x 1 , con las mismas operaciones que se
mencionan en Rp.
d) Y, el espacio vectorial real de todas las sucesiones infinitas de reales
{Xi> = x19 X 2 , . . . 5
con {xi} + {yi} definidas como {xi + y ( } y de igual modopara r{xi}.Este no
es un espacio vectorial muy útil a menos que se impongan restricciones
para el comportamiento de xi cuando i tiende a infinito.
e) C L ) [a,b ] , el espacio vectorial real de todas las funciones con valor real
que sean continuas,junto con sus primeras k derivadas, en el intervalo
5.2
/
Concepto general de espacios vectoriales
203
cerrado [ a , b ] . Cuando k = O , este espacio de funciones continuas a
menudo se denotacon C[a,61. La suma devectores y la multiplicación
por escalares sedefinen de manera lógica: si x y y son vectores (esto es,
funciones) en Qk' [ a , b ] , entonces x + y es la función:
(x + y)([) = x ( t ) + y([)
para t en [a, 61.
f) 8, el espacio vectorial real de polinomios de grado arbitrario que tienen
coeficientes reales.las operaciones se definen como en C [ a , b ] .
g) Yk,
el espacio vectorial real de polinomios de grado menor o igual a k 1 con coeficientes reales. Las operaciones se definen como en el caso de
P.
h) El espacio vectorial real de todas aquellas funciones y ( x ) en C'"' [ a , b]
que resuelven las ecuaciones diferenciales lineales homogéneas
Las operaciones se definen como en el caso de C[a, 61.
i) El espacio vectorial complejo de todas lasfunciones continuas de valor
complejo y ( x ) que resuelven la ecuación integral
S," K(x, t ) y ( t )dt + ;ly(x) o,
=
o Ix I
a,
donde K ( x , t ) es continua y K y h están dadas. Las operaciones son las
acostumbradas para funciones.
j ) Suponga que ambos, V y W son espacios vectoriales reales o espacios
vectoriales complejos. El espacio producto V x W es el espacio
vectorial de pares ordenados (v, w) con v en V y w en W, donde
(v, w) + ( V I , w') = (v
+ v', w + w')
y
a(v, w) = (av,aw),
usando los mismos escalares que en llr y en W
Hay muchísimosejemplos más que son importantes en las aplicaciones; algunos
de ellos se darán a conocer en los problemas.
Partiendo de las propiedades básicas de los espacios vectoriales se deducen
algunas propiedades sencillas.
(5.1O )
Teorema
a)Ov=OyrO=O
b) ( - l ) ~= - V .
204
5
i Vectores y espacios vectoriales
DEMOSTRACION. Estas afirmaciones pueden parecer obvi; S , pero el problema es probarlas usando sólo las propiedades definidas de los espacios
vectoriales.
a) Observe primero que Ov + Ov = Ov, ya que Ov + Ov = (O + O ) v = Ov.
Sumando -(Ov) a ambos lados de la ecuación resulta que Ov = O como se
afirmó. Análogamente, r0 + r0 = (2r)O= 420) = r(O + O) = r 0 ; sumando
- ( r 0 ) a ambos lados, da r0 = O .
b) Observe que v + (- 1)v = O , porque
por el incisoa). Agregando -v aambos lados resultaentonces que(- 1)v
= - v, como se había afirmado.
Subespacios
Es evidente que muchos de los espacios vectoriales del ejemplo 5.9 están
estrechamente relacionados. Por ejemplo, cada polinomio que tiene a lo más
grado k - 1 {véase g)} también es un polimonio de grado arbitrario {véase f)},
que también es unfunción diferenciable 423 veces y una función continua
{véase e)};y las operaciones en cada uno de estos espacios vectoriales son las
mismas -por ejemplo,la simple sumade funciones es la suma vectorial. Esta
situación es muy común y muy importante en el estudio de los espacios
vectoriales.
(5.11)
Definición. Suponga que Yo y Y son espacios vectoriales, ambos reales o
ambos complejos, que Yoes un ,subconjunto de Y (es decir, cadaelemento
de Yoes también un elementode Y),y quea
s
l operaciones con elementos
de
Yo,como vectores de Yo,son las mismas que las operaciones con ellos
como vectores de Y . Entonces se dice que Yoes un subespacio de V.
Observe queun subespacio esmucho más que un subconjunto; un subespacio es
un subconjunto que es un espacio vectorial por derecho propio cuando se usan
las mismas operaciones que en el espacio vectorial “padre”.
Suponga que Y es un espacio vectoria!, que 9; es algún subconjunto de Y,
y que sequiere saber si Yoes subespacio de Y. De acuerdoa la definición 5.11,
se debe comprobar quelas operaciones en Yoson las mismas que en Y-xosa
que es difícil-, luego se deberá comprobar también que Yo e s , en sí, un espacio
vectorial por derecho propio verificando todas las condiciones de la definición
5.8 de los espacios vectoriales. Esta situación se presentará tan a menudo en el
futuro queserá muy útiltener una prueba más sencilla paracomprobar queYoes
un subespacio.
5.2
I Concepto
general
de espacios
vectoriales
205
(5.12)
DEMOSTRACION. (subespaciotrescondiciones)
Primero suponga que Vo
es un subespacio deV. Esto, en particular, significa que Voes un espacio
vectorial; la definición de espacios vectoriales muestra inmediatamente
que aquí se satisfacen las tres condiciones.
(tres condiciones * subespacio) Ahorasuponga que se satisfacen las
tres condiciones mencionadas; se tiene que demostrar que Vosatisface
a
ls condiciones de la definición 5.11 para ser un subespacio de V. Por hipótesis, es verdaderamente un subconjunto y ciertamente muestra las mismas
operaciones que hay en V. Todo lo que resta es verificar que Vosea un
espacio vectorial -esto es,que Vosatisfaga las numerosas condiciones de
la definición 5.8. Por la condición l ) , cuando menos hay un elemento v, en
Yo;por lacondición 2), Ov, también está en Yo.Pero de acuerdoal teorema
5.10, Ov, = O ; por lotanto O está en Vo y es Único como se requiere para que
Vo sea un espacio vectorial (no puede haber un cero diferente,digamos O‘
en Vo porque entonces O = O + O’ = O’ y los dos serían el mismo). Para
cualquier v,, en Vo,por la condición 2), (- l)v, está en Yo. Pero (- l)v, =
-vo, según el teorema 5.10; de estemodo -vo está en Voy es Único (¿por
qué?) comolo requiere Vopara ser espacio vectorial. Ahora bien,
todos los
demás requisitos son sencillamente propiedades de la suma de vectoresy
de la multiplicación por escalares, cuya validez la hereda Yode su validez
con respectoa *Yya que las operaciones son las mismas. De este modo,Vo
es un espacio vectorial y por lo tanto un subespacio de V.
(5.13)
Ejemplo. Suponga que{ vl, v2, . . . ,vr} es un conjunto no vacío de vectores
de V . “Yo se define como el conjunto de todaslas combinaciones lineales
vo = ulvl
+ a2v2 + . + u,v,
f
.
206
5
/
Vectores y espacios
vectoriales
donde los escalares ai pueden tomar cualquier valor arbitrario. Entonces
V o es un subespacio de V. Para demostrarlo, se usará el teorema clave
5.12.
1) Ciertamente, V, es no vacío ya que
VI =
lv, + ov, + . . + ov,
‘
estáen Y,. 2) Paracualquierv,en V, y cualquier escalara, se tendráque
clv, = M(MIV1
+
c(2v2
+ . . + MJ,) =
’
(clcl1)VI
+
(CIM,)V2
+ . . . + (clcl,)v,,
el cual está en V, por la definiciónde V,. 3) se dejapara el problema 15.
(5.14)
Ejemplo. Suponga que A es una matriz real fijap X q y defina a V, como el
conjunto de todas las matrices columna reales q X 1, x, que satisfacen Ax =
O . Entonces V i es un espacio vectorial real y u n subespacio de R4. Para
demostrarlo, se usará el teorema clave5.12, el Teorema del Subespacio. 1)
Yo es no vacío porque O resuelve A0 = O , por lo tanto la matriz O está en
Yo.2) Si va está en Yoentonces Av, = O , entonces para toda a real setiene
que
A(Lxv,) = AV,) = 20 = O,
y entonces a v oestá en Y;. 3 ) Si v,, y vb están en Y, entonces Av, = O y Av;
= O ; por lo tanto,
A(v, + v;)
= AV,
+ AV; = O + O = O,
entonces vo + vbestán en 9;. Así, se satisfacen las tres condiciones y 9; es
un subespacio de IR4, por lo tanto es un espacio vectorial real.
Nota. Este libro se ocupará principalmente de los (subespacios de) espacios vectoriales IRp y Cp del ejemplo 5.9 b) y c). Es esencial familiarizarse
con estos espacios vectoriales y con el hecho de cómo determinar si un
subconjunto de uno de ellos es en realidad un subespacio.
Se reafirmarán las definiciones de RP y de C p , ya que se usarán mucho.
(5.15)
Definiciún. Rp (o CP) es el espacio vectorial de las matrices columnap x 1
reales (o complejas), efectuándose la suma de vectores y la multiplicación
por escalares como se hace con las matrices.
PROBLEMAS 5.2
1. Demuestre que los espacios RP y C pdel ejemplo 5.9 b) Y c) son espacios
vectoriales.
5.2
/ Concepto general de espacios vectoriales
207
2. Demuestre que el espacio 9 del ejemplo 5.9 f) es un espacio vectorial.
D 3. Demuestre que el conjunto Y = {O} es un espacio vectorial, ya sea real o
complejo.
4. Demuestre que el espacio Y x W del ejemplo 5.9 j) es un espacio vectorial.
D 5. Para cada uno de los conjuntos que siguen, determine si es un espacio
vectorial realusando las operaciones naturales; si no lo es, explique por qué.
a) Los vectores geométricos bidimensionales cuyas “cabezas” quedan en
el primer cuadrante.
b) Las razones P,(x)/Q,(x) -donde Qn no es el polinomio cero- de los
polinomios P , de grado a lo más m y Qnde grado a lo más n , en donde m y
n recorren todos los enteros no negativos.
c) Lo mismo que en b), pero m IM y n IN con M y N fijas.
6. Para cadauno de los espacios vectoriales del ejemplo 5.9 para los que no se
ha hecho, defina:
a) La suma de vectores
b) La multiplicación por un escalar
c) El vector cero
d) -v para vectores v
D 7. Suponga que A es una matrizp x q real, que b es una matriz real p x 1 donde
b # O, y que 9; es el conjunto de x que satisfacen Ax = b. Demuestre que Yo
no es un subespacio de Rq.
8. Suponga que Yoes el conjunto de todas las matrices reales 3 X 1 para que
( v ) ~= O. Demuestre que Yo es un subespacio de IR3.
9. Defina Y = IRp x (o = C Px q, como el conjunto de todas las matrices reales (o
complejas) p X q . Utilicela aritmética acostumbrada de matrices para
demostrar que V es un espacio vectorial real (o complejo).
D 10. Explique por qué un subconjunto de un espacio vectorial debe serno vacío
para ser un subespacio.
11. Demuestre que el conjunto Pkes un subespacio de 9,
estando definidos
y 9 en el ejemplo 5.9.
12. Demuestre que si Yose define como Yo = {O} entonces es un subespacio
de Y.
13. Suponga que
y W son espacios vectoriales y que Y x W es como se
definió en elejemplo 5 .9. Sea Y’el conjunto de todos los vectores en Y x $f
de la forma (v, O) estando v en V y siendo O el vector cero de W. Demuestre
que Y‘ es un subespacio de ‘f x W .
D 14. En lasección 2.2 se demostró que a menudo es importante resolver Ax = x
en aplicaciones que modelan la evolución de sistemas, en donde A es una matriz q X q real dada. Demuestre que el conjunto de tales x es un subespacio de Rq.
208
5
/ Vectores y espacios vectoriales
15. Termine la demostración del ejemplo 5.13.
5.3
DEPENDENCiA LiNEAL E INDEPENDENCIALINEAL
En las aplicaciones, es necesario ser capaces de hacer cálculos con vectores;
ejemplo,
esto requiere de
alguna especie de representación concreta de Por
ellos.
el subespacio Y de c [ O , 11que consisteen todas las funcionesfque satisfacen
f(x + 3y) - 3f(x + 2y) + 3f(x + y) - f(x) = o
idénticamente en x y y es un espacio vectorial, pero que no se puede manipular
fácilmente con esta definición; los cálculos en Y se facilitan en cuantose sabe (y
esto no es trivial) que cadaelemento Y puede escribirse comoc1 + czt + c,t2 para
algunos coeficientes c1 -entonces es posible, por ejemplo, sumar dos vectores
de
mediante la simple suma de sus coeficientes. De aquí la importancia de
expresar el elemento general de un espacio vectorial como una combinación (cl
+ c,t + c,t2) de vectores especiales (1, r y r2) en ese espacio.
Conjuntos generadores
A continuación se presenta la terminología que ayudará a desarrollar la idea
recién expuesta.
(5.161
Definicwn.
a) Una combinacion lineal de los vectores vl, v2, . . . ,v, es unaexpresión
+ a,v,, en donde las ai son escalares.
de la forma alvl + a2vz+
b) Se diceque un vector v es linealmente dependiente de (el conjunto de)
, v, si y solo si se puede escribir a v como una
los vectores vl, v,, .
combinación lineal de vl, v,, . . . , v,; si no es así, se dice que v es
Linealmente independiente de (el conjunto de) los vectores.
c) Se dice que un conjunto S de vectores vl, v,, . . . ,v, en V genera un
subespacio de Yo de Y si y sólo si S es un subconjunto de Yoy cada
vector vo en ..I-, depende linealmente de S; se dice queS es un conjunto
generador para Yo.
-
Por lo tanto, en este lenguaje, el conjunto
{ 1, t , tz} genera el espacio vectorial
g3de polinomios de grado estrictamente menor que 3 ;también lo hacen { 1, 3 t ,
6t2},{2,3+t,2-t2},{1,2+2~,1-t+f2,2-t2},{-2,-1-t,t2,6-4t,1+t+t2,
t} y otros; por otro lado, (1, 3r}, (2, t , 4 r}, (1 + t , t + t2}, no son conjuntos
generadores para y3.La idea expresada al comienzo de estasección es que se
desea encontrar conjuntos generadoresde los espacios vectoriales para poder
hacer cálculos con vectores.
+
/ Dependencia lineal independencia
e
5.3
lineal
209
Suponga, por ejemplo, que se necesita trabajar
con R 3 ,esto es,con vectores
como
[-:I9 [ q, [;I, [ ’l.
(5.17)
-2
-4
Un conjunto generador sencillo para R3 es evidentemente S = {e,, e,, e J , en
donde las et son las matrices columna unitarias 3 x 1 . Por ejemplo, el primer
vector de(5.17) es igual a le, + (- l)ez + Oe,;el segundo es le, + 4e, + (-2)e3, y la
x generan = [x, x, x31Ten R3 puede expresarse fácilmente como x,e, + x,e, +
x$,. Hay muchos otros conjuntos generadoresposibles para R3, naturalmente,
donde
uno de ellos es S’ = {e;, e;, e;, e;),
Por ejemplo, para expresar el primer vector de (5.17) como una combinación
lineal de los vectores de S’, es necesario encontrar los escalares a,, a,, a,, a4
tales que
Lo anterior da tresecuaciones para lascuatro incógnitas ai;
la solución general
= - 2 k , a, = 0.5 + k , a, = 0.5 y e t 4 = k arbitraria.
es
Este segundo conjunto generadorS’ es menos conveniente queS, al menos
lugar de los tres quetiene S; y 2) es
por dos razones:1) S‘ tiene cuatro vectores en
más difícilencontrar los coeficientes necesarios para representar
un vector por el
camino S‘que vía S ya que se deben resolver algunas ecuaciones no triviales.
El primer objetivo se puede satisfacer eliminando uno de los vectores de S’,
pero -se debe tener mucho cuidado al seleccionar el que se ha de eliminar. Si,
por ejemplo, seelimina e; y se trata deescribir el primer vector de (5.17) como
ale; + aze; + a4e; resolviendo las aien
(Y,
(5.18)
se encontrará que las ecuaciones son inconsistentes y que no hay soluciones.
Esto es, el primer vector de (5.17) es linealmente independiente de los vectores
e;, e;, e;. Si en lugar de ello se elimina cualquiera dee;, e;, y e; de S’, entonces
los tres vectores que quedan sí generan a R 3 (véanse los probiemas 1 y 2). Un
210
5
I
Vectores y espacios vectoriales
modo de ver que es posible eliminar a e4 de S' y todavía generar a [ w 3 , es
observando quee; = 2e; - e;, con lo que cualquier vector x que se escriba como
x = cxle;
+ aze; + .,e\ + a4ek
inmediatamente puede representarse como
x = ale', + aze; + a,ej + c(,(2e; - e;)
= (al
+ 2a,)e', + (az
- a4)e;
+ cr,e;,
que es una combinación de los vectores en donde se ha eliminado a e;.
Ahora podrá resolver los problemas del I al IO.
Independencia lineal
Se acaba de ver en el párrafo anterior que se podría producir un conjunto
generador más sencillopartiendo de S' y eliminando un vectorde S', tal como e:*,
que era linealmente dependiente de los otros. En general, se podrá eliminar
claramente cualquier vector de un conjunto generador, que sea linealmente
dependiente de los demás vectores en ese conjunto generador. Si entonces se
eliminan de eseconjunto generadormenor vectores que sean linealmente dependientes de los otros en eseconjunto más pequeño, y así sucesivamente, intuitivamente parece claro queal finalse obtendráun conjunto tal que yaninguno de
sus miembros pueda ser escrito como una combinación lineal de los demás
miembros del conjunto. Se examinarán las propiedades que tendría tal conjunto.
Suponga que el conjunto L de vectores vl, va, . . . , v k (siendo k 2 2 ) es tal
que cada vector vi es linealmente independiente de los demás vectores que
quedan en L . Ahora, suponga que hay algunos escalares ai tales que
Se afirma que en este caso todoslos escalares ai son iguales a O . Si nofuera así,
shponga que cyj # O ; traslade luego los demás términos al otro lado de la ecuación,
y multiplíquelos por ~
1,:esto
~; resulta en
contradiciendo que las vj son linealmente independientes de las demás. Se verá
en elteorema 5.23 a) quela implicacióntambién es sólida en la otra dirección: si
la única manera de escribir O como combinación lineal de las vi es con todoslos
coeficientes aiiguales a cero, entonces cada una de las vt es linealmente independiente de las demás.
5.3
I
Dependencia lineel independencia
e
lineal
211
Esto quiere decir que lapropiedad que se está buscando en
un conjunto L
-para no poder eliminar ningún vector de L y todavía generar el mismoespaciopuede enunciarse de dos formas equivalentes:
Cada vector en L es linealmente independiente de los demás en L ;
o: la única combinación lineal de los vectores de L que es igual a O tiene
todos los coeficientes de las vj iguales a O .
Los conjuntos L con esta propiedad especial son de extremaimportancia en el
estudio de los espacios vectorialesy se les da un nombre especial.La definición
generalmente se hace usando la segunda forma de la propied;. .
(5.19)
Definición. Sea L = {vl, v2, . . . , vk} un conjuntono vacío de vectores.
a) Suponga que
alvl
+ a2v2 +
' ' '
+ UkVk = 0
implica que al = crz =
= ak = O . Se diceentonces
que L es
linealmente independiente.
b) Un conjunto queno es linealmente independiente se llama linealmente
dependiente; análogamente, L es linealmente dependiente si y sólo si
hay escalares al,az, . . . , (Yk no todos cero, tales que
alv1 + c(2v2 ' ' ' + akvk = 0.
+
(5.20)
Ejemplo. Algunos conjuntos de vectores geométricos bidimensionales:
Conjunto
dependiente
Conjunto
dependiente
Conjunto
dependiente
Conjunto
independiente
(5.21)
Ejemplo. El conjunto {el, e2}es un conjunto linealmente independiente de
Para demostrarlo, suponga que a l e l + a,e, = O. entonces,
Kt2.
O]'
[O=
o = al[l
O]'+
"2[0 1 ] ' =
[al
a2y,
por lo tanto al = a2 = O.
(5.22)
Ejemplo. El conjunto (1, 2 - 3t, 4 + t } es linealmente dependiente en el
espacio vectorial P3de polinomios de grado estrictamente menor que 3.
212
5
I Vectores y espacios vectoriales
Para comprobarlo, suponga que al(l)+ 4 2 - 3 t ) + a3(4 + t ) es igual al
polinomio O , es decir que
+
( 0 1 ~ 2cr,
+ 4 4 -t (- 3c(, + a,)t = O
para toda ?
Entonces,
W.1
+ 2x2 -k
4x3 = 0
y
-3W.z iW.3 = o,
un sistema de dos ecuaciones para las tres ai. La eliminación de Gauss
produce la solución general al = - 14k/3, a2= k/3, y a3= k arbitraria. Una
solución en queno todas Ias k searfcero viene, porejemplo, de k = 3: al =
-14,
= 1 y
= 3.
Se concluirá con un teorema que establece,
entre otrosútiles resultados, que
los dos modos distintos de afirmar que un conjunto es linealmente independiente
son, de hecho, equivalentes.
(5.23).
Teorema (independwcia lineal)
a) Sea
con k 2 2 y todos los vectores vi # O. Entonces, L es linealmente
dependiente si y sólo si al menos uno de los vj es linealmente dependiente de los vectores v irestantes ( i # j ) ;en particular, L es linealmente
dependiente si y sólo si al menos uno de los vectores vj es linealmente dependiente de los vectores anteriores vl, v2, . . . , vj-l.
b) Cualquier conjunto que contenga al O es linealmente dependiente.
c) {v} es linealmente independiente si y sólo si v f O.
d) Suponiendo que v es linealmente dependiente de un conjunto
L = { V I , v 2 , . . . ,Vk),
y que vj es linealmente dependiente delos demás vectoresen L , es decir
que
LJ = {vl, v*, . . . ,vj- 1, vj+ 1, . . . , Vk}.
entonces v es linealmente dependiente de L;.
e) Cada subconjunto de un conjunto linealmente independiente es linealmente independiente.
f, Suponiendo que L es un conjunto finito de vectores y que algún subconjunto Lo de L es linealmente dependiente, entonces L es linealmente
dependiente.
I Dependencia lineal independencia
e
5.3
lineal
213
DEMOSTRACION
a) (dependiente de + dependiente) Véanse las definiciones 5.16 y 5.19.
Suponga quev, es linealmente dependiente de los vectores anteriores:
vj = a1v1
+ . . . + aj-
1 V j - 1.
Entonces
+ . . . + ovk
a,v,+...+aj-,vj-l+(-l)vj+ovj+,
y de aquí que L es linealmente dependiente.
(dependientedependientede)Supongaque
dependiente. Definase
0
L es linealmente
para 1 S j I k.
Lj = { v , , v 2 , . . . , vj}
Como v, # O por hipótesis, L , es linealmente independiente: véase la
demostración de c) abajo.
Sea Li laprimeru delas L, que eslinealmente
dependiente; tal i existe porque Lk es linealmente dependiente. También, i z 2 porque L , es linealmerite independiente. Se afirma que vies
linealmente dependiente de los vectores procedentes, estoes, de Li-,.
Para ver esto, observe que existen a,, no todas cero, tales que
a l v l + . * + clivi = O
si ai fuera igual a cero, entonces Li-, debería se linealmente dependiente, y no lo es. Ya que ai# O, pueden desplazarse los demás términos
de laecuación al lado derechode esa ecuación,multiplicarse por a; ', y
así expresarse vi en términos de las v, anteriores, como se afirmó.
b) Suponga que un conjunto contieneO. Entonces, desde luego, se podrá
escribir O como 1 por O más O veces cada uno de los demás términos del
conjunto, y por lo tanto el conjunto es linealmente dependiente.
c) Si v = O , entonces, debidoab), el conjunto eslinealmente dependiente.
Si el conjuntoes linealmente dependiente tendremosCUY = O con a # O,
entonces a-, existe y se obtiene
.
o = a-'O = a-'(av) = l v = v,
y entonces v = O .
d) Por hipótesis,
v = alvl
+
' ' '
+ BkVk
y también
= plvl
+
'
'
+ pj- 1vj- +
1
pj+
1vj+ 1
+
' ' '
+ pkvk.
Entonces, sustituyendo la ecuación de v, en la expresión para v, se
expresa v como linealmente dependiente de L> como se afirmó.
214
5
I
Vectores y espaclos vectoriales
e) Suponga que una combinación lineal de los vectores de algún subconjunto Lo de L es igual a O ; añadiendo a esta combinación todos los
términos de la forma O por los vectores de L que no estén en Lo, se
obtiene O como una combinación lineal de vectores de L . Pero L es
linealmente independiente, entonces todos los coeficientes -incluyendo
aquéllos de los vectores de Lo"deben ser iguales a O. Así, Loes linealmente independiente.
f ) Si L fuera linealmente independiente, entonces, por e), Lo también
debería ser linealmente independiente, cosa que no es.
Aunque hasta ahora nose aprecia, los conceptos de independencia y dependencia lineal se encuentran entre los más cruciales del álgebralineal. Severá que
proporcionan nuevos modos de ver los conceptos de rango de matrices y de
existencia y unicidad de soluciones de sistemas de ecuaciones; dan laclave para
entender cómorepresentar elementos de espacios vectoriales de un modo sencillo, ayudan a comprender las dificultades numéricas que pueden surgir alcalcua
lr las soluciones de problemas aplicados, y así sucesivamente. Es absolutamente esencial comprender estos conceptos y ser capaz de determinar si un
conjunto es linealmente independiente.
PROBLEMAS 5.3
1. Demuestre que los vectores e;,e;,
e;, e: que sedefinieron inmediatamente
después de (5.17) generan a R3 como se afirmó.
2. Demuestre que cualquiera de los e;,e;
o e: puede eliminarse en elproblema
1, y que los vectores restantes todavía generarán R3.
3. Determine si R3 está generado por los vectores
v1 = [I
-1
2]',
~2
v3 = [O
-1
5]',
~4 =
O 3]',
= [-1
[3
-2
21'.
-1
O]',
~ 3 = [ 1
l]',
~3
D 4. Determine cuáles de los vectores
u1 = [ - 3
15 6]',
-1
están en el subespacio de
v1 = [-I
3 5
2]',
IR4
U*
=[1
O
1
1 O]'
5
31'.
generado por
v2 = [ 2
-1
O
= [l
-8
S. Exprese el vector general [x y zIT como una combinación lineal de
V I = [l
2
117 v2 = [l
o
-1]*,
v 3 = [l
-2
11'.
D 6. Demuestre que el espacio P 3de polinomios de grado estrictamente menor
que 3 está generado por el conjunto (2, 3 + t , 2 - t'}.
5.3
I
Dependencia lineal independencia
e
lineal
215
7. Demuestre queel espacio g3del problema 6 está generado por el conjunto
{1,2 + 24 1 - t + t2, 2 - t 2 } .
8. Demuestre que el espacio P3del problema 6 no está generado por el con-
junto
(1
+ t, t +
t2>.
D 9. Suponga que el conjunto {u, v, w} es linealmente independiente. Demuestre
que {u + v, v + w, w + u} es también linealmente independiente.
10. Suponga que {u, v} es linealmente independiente. Sea u’ = au + bv, y v’ = cu
+ dv. Demuestre que {u’, v’} es linealmente independiente si y sólo siad - bc
# o.
11. Demuestre que el conjunto de vectores e;, e;, e>, e: definidos inmediatamente después de (5.17) es linealmente dependiente.
D 12. Demuestre que los cuatro vectores del problema 3 forman un conjunto
linealmente dependiente y determine cuáles son linealmente dependientes
de cuáles otros.
13. Demuestre que en el espacio P 3 del problema 6, el conjunto
{ 1, 2 + 2t, 1 - t + t2, 2 - t2}
es linealmente dependiente y determine cuáles elementos son linealmente
dependientes de cuáles otros.
14. Demuestre que en el espacio P 3 del problema 6, el conjunto
{1,t+3,t+t2,2t-1)
es linealmente dependiente y determine cuáles elementos son linealmente
dependientes de cuáles otros.
D 15. Determine cuáles dea
ls siguientes matrices no pueden escribirse como
combinaciones lineales de las demás.
[-: -:l.
[-: 3 [-:-3 [: :]
16. Determine los valores de x para que el siguiente conjunto sea linealmente
dependiente.
216
5
Vectores y espacios vectoriales
/
17. Sea S = {vl, v2, . . . ,v,.} un conjunto no vacío de vectores. Demuestre que S
es linealmente independiente si y sólo si cada vectorpresente en el subespacio Vo generado por S tiene una representación mica en términos de S.
18. Sea S = {vl, ve, . . . ,v,.} un conjunto de vectores presentes en RP,conp 2 r ,
y suponga que (
# O para toda i , mientras que (vi), = O si i >j . Demuestre
que S es linealmente independiente.
D 19. Se dice que un conjunto infinito de vectores es linealmente dependiente si y
sólo si tiene algún subconjunto finito que sea linealmente dependiente; por lo
tanto, un conjunto infinito es linealmente independiente si y sólo si cada
subconjunto finito es linealmente independiente. Haga esta afirmación en
una forma similar a la de ladefinición 5.19.
D Z O . a) Del mismo modo que en el problema 19, demuestre que (1, t , t 2 , . . .} es
linealmente independiente en el espacio B de todos los polinomios.
b) Para cadai 2 1, seax, lasucesión infinitacuyo i-ésimo términoes igual a 1
y cuyos otrostérminos son iguales a cero. Demuestreque {xl, x2, . . .} es
un conjunto linealmente independiente en el espacio vectorial Y d e todas
las sucesiones reales.
21. Suponga que A es una matriz real p x p superior triangular unitaria.
(A)¡¡ = 1 para toda i, y (A)ij = O si i > j .
a) Demuestre que el conjunto de columnas de A es linealmente independiente.
b) Demuestre que el conjunto de renglones de A es linealmente independiente.
5.4
BASE, DIMENSION Y COORDENADAS
La definición de conjuntos generadores en lasección anterior fue motivada por la
necesidad de encontrar algúnmodo concreto de representar los elementos
generales de un espacio vectorial; la definición de un conjunto linealmente
independiente fue motivada por un argumento intuitivo: que se pudo ir eliminando de un conjunto generador de vectores que eran
linealmente dependientes
de los demás, hasta que se logró un conjunto en el cual cada uno de sus vectores
eralinealmente independiente de los demás. Ahora sejustificará este argumento.
Base
(5.24)
Teorema (reducción de conjuntos generadores). Suponga que S = {vl,
v2, . . ., v,.} genera a V .
5.4
I
Base, dimensibn y coordenadas
217
a) Suponga que uno de los vectores v1 es linealmente dependiente de
S; = { V I , . . . ,vj- 1, vj+ 1, . . . ,vr},
esto esde los vectores restantes. Entonces el conjunto
reducido S;
también genera a V.
b) Si por lo menosun vector en S no es cero, es
decir, si V- es más que
sólo el espaciovectorial trivial {O} entonces existe un subconjunto
So de S que genera V y que es linealmente independiente.
DEMOSTRACION
a) Para demostrar queS$ genera Y, se deberá demostrar que cada
v en Y
es linealmente dependiente de S;; supondremos entonces que v es un
vector arbitrario.Como S genera a V, v es linealmente dependiente de
S. Por el teorema5.23 d) sobre independencia lineal, v debe sertambiév
linealmente dependiente de S;, como se necesitaba.
b) Si el mismo S es linealmente independiente, lo logramos; si no, entonces
por a) se podrá eliminar uno de los vectores de S y todavía generar Y,
ahoracon un conjunto que contiene
r - 1 vectores en lugar de r. Se puede
continuar eliminando vectores de este modo hasta obtenerya sea: 1) un
S, linealmenteindependiente quecontenga
conjuntodevectores
cuando menos dos vectoresy que genere Y, o 2) un conjunto S, que
genere Y y sólo contenga un vector, digamos va. En el caso l ) , S,, es,
evidentemente el conjunto requerido. En el caso 2), So,de nuevo el
conjunto requerido, realmente genera -Y-,y para comprobar que es
linealmente independiente sólo se necesitaobservar que
v, #O yaque -Yno es solamente {O}, después usar el teorema 5.23 c). m
El teorema 5.24 dice que se puede reducir un conjunto generadora un conjunto
generador linealmente independiente. Tal conjunto se llama la base del espacio
vectorial.
(5.25)
Definicwn. Una base de un espacio vectorial Y es un conjunto generador
linealmente independiente de V.
(5.26)
Ejemplo. Se busca una base para el subespacio Vode IR3 que consiste en
todas las soluciones dex, + x, + xg = O ; de acuerdoal ejemplo 5.14, éste es
realmente un subespacio. Es necesariotenerprecaución: se sabe que
{el, e2, e3}es linealmente independiente y que cada vector enR3-y por lo
mismo en Vo-se puedeescribir comouna combinación lineal de estos tres,
pero ésta no es una base paraVo-el truco está en que estos vectoresno
estún en Vo y que los elementos de una base sí deben de estar. Se debe
encontrar un conjunto generador linealmente independiente de vectores
que estén en Yo.Hacerlo es sencillo : Observe que lasolución general dex,
218
5
Vectores y espaclos vectorlales
+ x2 + x3 = O es x3 = a arbitraria, xz = p arbitraria, y x1 = -a - p. Esto
significa que el vector general va en el subespacio Y , es
El hecho de que cada va en Yopueda escribirse como arriba, nos dice que el
conjunto B = {vl, v2} genera a Yo-observe también que v1 y v2 están en Yo;
también es fácil ver que B es linealmente independiente: si a y 1 + pv2 = O ,
entonces el va de arriba será igual a O y se puede ver, del segundo y tercero
elementos de va, que esto forzaa que a = p = O. Note que, de definición
la
de Yo,se sabe que Yoes un espacio vectorial real,pero no se tiene una idea
concreta delo que enrealidad es, Ahora se conoce en esencia: es simplepara
mente cualquier cosa de laforma a v l + p V z -esto es, [- CY - p p CY]‘números reales CY y p arbitrarios; por tanto, éstaesla razónde lautilidad de
encontrar una base: proporciona una descripción concreta de los vectores.
Una basetiene una propiedad importante que se usará después
en esta sección.
(5.27)
Teorema (representaciónúnicaconrespecto
a labase).Sea
B =
{vl, . . . , vr} una base. Entonces la representación de cada v con respecto
a B es única:
si v = alvl + . . * + E,V, y también v = a;vl + . . . + aivr
entonces ai = a; para 1 5 i
r.
DEMOSTRACION. O = v - v = (a1- a;)vl + ‘ . + (a,- a;.)vr;como B es
linealmente independiente, esto significa que ai- or; = O para toda i -esto
es, ai = a: para toda i como se afirmó.
Ahora podrá resolver los problemas del 1 al 8 .
Dimenswn
Los ejemplos han demostrado que el conjunto de vectores en una base no es
Único; existen muchas selecciones. Pero es posible demostrar que el número de
vectores en una base es único; lo primero que se necesita es un resultado
preliminar.
(5.28)
Teorema. Si B = {vl, . . . ,v,} es una base para el espacio vectorial Y y
si D = {ul, . . , ,u*}es un subconjunto linealmente independiente de -Yque contiene q vectores. Entonces q 5 p .
5.4
/
Base, dimensi6n y coordenadas
219
DEMOSTRACION. Suponga, por elcontrario, que4 > p ; se demostraráque
esto produce una contradicción y que por lo tanto q 5 p. Sean Bo y B6
ambos iguales a B. Entonces esválida la siguiente afirmación para i = O:
( #) Bigenera a “Ir, en donde Biconsiste en los primeros i vectores uj de
D seguidos de p - i de los vectores vj de B , y Bi está formado por
estos p - i vectores de B .
Se usará la inducción para demostrar que #) es válido para O Ii Ip.
Suponga que #) es válido para i = r siendo r < p; se demostrará que # ) es
válido para i = r + 1. Considere el conjuntoS que consisteen u , + ~seguido
de los vectores del conjunto generador B,: es decir los primeros r + 1
vectores de D seguidos por losp - r vectores de B: (y por consiguiente, de
B ) . S es un conjunto generadorlinealmente dependiente porque &genera a
V . Por el teorema 5.23 a) sobre independencia lineal, un vector en S es
linealmente dependiente delos vectores anteriores;esto no puede suceder
para uno de los u, porque éstos están precedidos sólo por otro ut y D es
linealmente independiente. Por eso, es uno de los vj en B; el que es linealmente dependiente de los vectores anteriores en S. Por el teorema
5.24 a) sobre la
reducción de los conjuntos generadores, es
posible eliminar
esta v, de S y tener todavíaun conjunto generadorSo. Ahora, S, consiste en
los primeros r + 1 vectores u, de D seguidos dep - ( r + 1) de los vectores de
B . Si B,,, = So, y se designan con B;+, esos p - ( r + 1) vectores restantes
de B , entonces se tendrá que 4 ) es válido para i = r + l. Por inducción, # i
debe serválido para i = p. Esto es,los primerosp vectores delos q > p, uj
en D (junto conp - p = O de los vectores vj de B ) generan a “Y;en particular,
ugse puede escribir como una combinación lineal delos primeros p vectores uj, contradiciendo a la independencia lineal de D . Esta contradicción
completa la demostración.
DEMOSTRACION. Suponga que otra base contiene q vectores; como esta
otra
base es linealmente independiente, el teorema 5.28 implica que q S p.
Invirtiendo los papeles de estas dos bases, obtendráquep
se
5 4. Entonces
p = q .
Los dos vectores geométricos (véase la sección 5.1) que terminan en P(0, 1)
y en S(1, O) se puedever fácilmente que forman una base para el plano bidimensional de vectores geométricos; asimismo se puede ver fácilmente que los tres
vectores geométricos que terminan en 9(0, O, l ) , S(0, 1, O) y en S(1, O,O)
220
5
I
Vectores y espacios vectoriales
forman una base para el espacio físico tridimensional de los vectores geométride
cos. Por analogía, se llamará dimensión del espacio al número de vectores una
base de ese espacio vectorial.
(5.30)
Definición. El número de vectores en una base de un espacio vectorial se
conoce como la dimensión del espacio. Si ladimensión de V e s p , también
se dice que V es p-dimensional. Cuando un espacio vectorial tiene una
dice que el espacio
base que consiste en algin número finito de vectores, se
es de dimensidn finita. Se define como O a la dimensión del espacio (de
dimensión finita) {O}.
El término “dimensión finita” se introdujo porque no todos los espacios
vectoriales tienen una base con un número finito de vectores. En el espacio
vectorial 9de polinomios -(véase el ejemplo 5.9 f“ cada uno de los conjuntos
Di = { 1, t , . . . , ti-*} es linealmente independiente. Por lo tanto 9 contiene
conjuntos linealmente independientes de un número arbitrariamente grande de
vectores y por lo mismo no puede tener una base finita. También es posible
introducir nocionesde independencia lineal y base que permitan la inclusión de
conjuntos infinitos (véase el problema 19 en la sección 5.3 y el problema 8), pero
nos restringiremos -en nuestro material sobre bases cuandomenos- a los espacios de dimensión finita.
Esta nueva terminología puede usarse para describir algunos resultados
útiles.
DEMOSTRACION. Los p vectores e,, e2, . . . , e, forman una base para cada
uno deestosespacios.
(5.32)
Teorema. Sea “
‘
9 un espacio vectorial de dimensión p. Entonces:
a) Todoconjunto que contenga estrictamente
más de p vectores es linealmente dependiente.
b) SiD = {vl, v2, . . . ,v,} es linealmente independiente y res menor quep,
entonces existirán vectoresv , + ~, . . . , v, tales que{vl, v2, . . . ,v}, sea
una base de V.
c) Si un conjunto de exactamentep vectores, es, o un conjunto generador
para “Y,o linealmente independiente, entonces es
ambas cosasy es una
base de Y.
DEMOSTRACION
a) Esto es consecuencia inmediata del teorema 5.28.
b) D no puede generar aY ya que r < p significa que D no es una base; por
lo tanto habrá un vector, llámese v , + ~ ,que es linealmente indepen-
5.4
I Base, dimensibn y coordenadas
221
diente de D . El conjunto de vectores v l , . . . , v , + ~también es linealmente independiente;si no lo fuera, uno de los vectoressería linealmente dependiente de los que le preceden, lo que es imposible por
las hipótesis sobre D y sobre v , + ~ .Se podría continuar adjuntando
vectores para obtenerv t , . . . ,v, siempre queS S p ; no sería adjuntar a
Y,+, porque entonces se violaría lo establecido en elinciso a). Así, el
procedimiento se para en v, con un conjunto generador linealmente
independiente <S decir, la base como se requería.
c) (generador *base) Llámese S al conjunto generadordep vectores. Si S
fuera linealmente dependiente, por el teorema5.24 b) sobrereducción
de conjuntos generadores sepodría encontrar un subconjunto de S que
fuera una base pero que tuviera menosp vectores,
de
lo que esimposible. Por lo tanto, S es linealmente independiente.
(independiente =S base) SeaS el conjuntolinealmente independiente de
p vectores. Si S no fuera generador, entonces, como en b), se podría
agregar un vector a S para obtener un conjunto linealmente independiente de p + 1 vectores contradiciendo a a).
(5.33)
Teorema. Un espacio vectorial tiene dimensión finita k si y sólo si k es el
máximo número de vectores en un conjunto linealmente independiente.
DEMOSTRACION. (dimensión k = máxima k ) Si ^Y tiene dimensión k , entonces por definicióntiene alguna base -y por lotanto un conjunto linealmente
independiente- que contiene exactamentek vectores; por el teorema5.32
a), no podrá hacer un número mayor.
(máxima k * dimensión k ) Suponga que k es el máximo y que D es el
conjunto linealmente independiente de k vectores. Todo vectorv debe se
linealmente dependiente deD ; de otro modo, sería
posible adjuntar v a D y
entonces se tendría un conjunto linealmente independiente de más de k
vectores, lo cual es imposible. Por lo tanto, D genera a ^Y y es un base.
Ahora podrá resolver los problemas del 1 al 14.
Coordenadas
Se vuelve a examinar la idea contenida en el teorema 5.27, que afirmó que la
representación de un vector con respecto a una base es única. En realidad, aquí
se encuentra una dificultad técnica y lógica. Un conjunto no tiene un orden
implícito: {el, e,} y {e,, el>son idénticos como conjuntos.No hay modo, entonces, de que sepueda hablar precisamente del coeficiente del “primer” vector de
una base; para resolver esto, se definirá una base ordenada.
222
5
/
Vectores y espacios vectoriales
Definiciún. Una baseordenada B = {vl; v,; . . . ; v,} es una base {vl,
v,, . . . , v,} en la que hay un orden fijo y bien definido, indicado por las
posiciones relativas de los vectores en B.
(5.34)
Con esta nomenclatura, {el, ez} = {ez;e,} pero {el;e,} # {e,; el}. Cuando B es una
base ordenada, tiene sentido referirse al coeficiente del i-ésimo vector de la base
ordenada en la representación de un vector.
(5.35)
Definiciún. Sea B = {vl; v,; . . . ; v,} una baseordenada.
a) Lai-simac coordenada de un vector v con respecto Ba es el escalar ai tal
que
v = alvl + . . + apvp.
'
b) Las coordenadas en B o el vector de coordenadas
de un vector v
respecto a B es aquella matriz columnap X 1, v B dada por ( v ~ =) ai,
~ en
donde v = alvl +
+cyp.
c) Lafunción decoordenadas con respecto a B es lafunción (o correspondencia, o mapeo) cBque asigna a cada vector v en Ilr su ímicovector de
coordenadas con respecto a B :
c ~ ( v=
) v B = [x1
(5.36)
a2
. . . a,]', en donde v = alvl
+ . . . + aPvp.
Ejemplo. Sea P 3el espacio vectorial real de polinomios de grado estrictamente menor que 3 , y sea B' la base ordenada
B' = (1; 1
+ t; 1 + t + t*}
Se tiende a pensar en los polinomios Y de P 3 en la forma a + bt + cP.
Intentando escribir esto con respecto a B'
al(1) + a2(1
+ t ) + a3(1 + t + t 2 )
conduce a las ecuaciones
E, + a2 + a , = U ,
a2 + a3 = 6,
y aj = C .
Estas ecuaciones se resuelven fácilmente como ag= c , az= b - c , y a, = a
- h. Con el lenguaje de la definición 5.35, el vector de coordenadas con
respecto a B' del vector
v = a + bt + c t 2 es vB. = [a - b b - c
c]'
en R3.
Otro modo de decirlo es que
cB,(a+ bt + c t Z )= [U - b b - c c ] ~ ,
en donde cs. indica la función de coordenadas con respecto a B'. Por
ejemplo,
cB42 - 3t + st2)= [5 -9 6IT.
I Base, dimensi6n y coordenadas
5.4
223
Es posible comprobar que sean ésas realmente las coordenadas del polinomio original2 -3t + 6t2usándolas como los coeficientes delos vectores
de la base ordenada:
(5)(1)
+ (-9)(1 + t ) + (6)(1+ t + t2)
+ 6) + (-9
2 - 3t + 6t2,
que es el polinomio original.
= (5 - 9
+ 6)t + 6t2
La importancia de las coordenadas y de los vectores de coordenadas estriba
en que proporcionan un modo concretode hacer cálculos con vectores quehan
sido definidos de algún modo abstracto.
(5.37)
Ejemplo. Considere de nuevo el espacio vectorial real llro del ejemplo 5.26:
todos aquellos vectores en R3 con x1 + xz + xg = O. Partiendo de esta sola
definición es difícil calcular con estos vectores. Peroen el ejemplo 5.26 se
encuentra que-con la presente terminología- es posible usar a B = {vi; VJ
como una base ordenada, en donde
o l]’,
v1 = [ - 1
v2 = [ - 1
1 O]’.
Los vectores en “Yo ya noparecen abstractos; cadauno es dela forma alvl+
azvz = [-al - az az allT.Los cálculos serán fáciles, también, si se usan
coordenadas. AI sumar sus coordenadas se sumanu y v: si
u = Blvl
+ B2v2
Y
v = alvl
+ a2v2,
entonces
u+
= (B1 + Ml)V* + (B2 + a2)v,.
En otras palabras, se tiene que C ~ ( U+ v) = Q(U) + ce(v) -las coordenadas
de una suma son la suma de las coordenadas.
Como en el ejemplo 5.37, siempre se pueden efectuar cálculos con las
coordenadas, gracias a las siguientes propiedades importantes de la función de
coordenadas.
(5.38)
Teorema (función de coordenadas). Sea V un espacio vectorial de dimensión p , real (o complejo), y sea cBla función de coordenadascon respecto a
alguna base ordenada B . Entonces:
a) cdu + v) = cB(u)+ c d v ) para toda u, v e n V
b) cB(crv) = acE(v) para todo escalar a y toda v enllr
c) cB(v) = O en Iwp (o en C p ) si y sólo si v = O en Y
d) Para todavEen Iwp (o @P) existe exactamenteuna v en V tal que c ~ ( v =
)
VE.
224
5
Vectores y espacios vectoriales
DEMOSTRACION. Problema 17.
m
La representación de vectores abstractos usando una base es una herramienta esencial en las aplicaciones. El hecho de que todos los cálculos con
vectores abstractosen V se puedan hacer de modo equivalente con sus coordenadas en OBp' (o U') dice que, parafines prácticos, V- y Rp (o C p ) son equivalentes. Matemáticamente, acualquier función cBde Y a Rp(o C p ) que satisfaga el
teorema 5.38 a ) d ) se conoce como
un isomorfismo entre esos espacios,y a esos
espacios se les llama isomorfos. Por lo tanto, es posible referirse al mapeo de
coordenadas cBcomo al isomorfismo de coordenadas.
Esto explica porqué el conjunto de matricesp
X 1 es tan importante:
permite
trabajar con todos los espacios vectoriales dedimensión finita. El isomorfismo
cBno sólo permite efectuar cálculos sencillos con las coordenadas en lugar de
con los vectores abstractos, sino que también permite comprobar, entre otras
cosas, laindependencia lineal y la generación,mediante las coordenadas; véanse
los problemas del 18 al 21. El siguiente principio general -aun cuando no es un
teorema- se puede usar comoguía, aunque su uso, en cualquier caso específico,
requiera de justificación.
Principio delisomofzmo.
Suponga que cBes el isomorfismo de coordenadas con respecto a la base ordenada B para un espacio vectorial real o
complejo de dimensión p, V. Una propiedad algebraica -esencialmente
una queimplicalos conceptosde dependenciae independencialineal, base,
generación o dimensión- es válida para un conjunto S en V'" si y sólo si es
válida para la imagen cB(S),en donde cB(S)es el conjunto de todos los
vectores vB en RP' o en C"que satisfacen vB= c,(v) para alguna v en S.
(5.40)
~~
~
~~
~
Ahora podrá resolver los problemas delI al 22.
Cambio debase
Ya aparecieron ejemplos en los que seusó más de una base simultáneamente; en
el ejemplo 5.36, se escribieronpolinomios entérminos tanto de{ 1;t ; P} como de
{ 1; 1 + t ; 1 + t + t 2 } .Ese ejemplo fue esencialmenteun ejercicio para encontrar
I
5.4
Base,
dirnensidn
y coordenadas
225
son dos bases ordenadas para el mismo espacio vectorial real o complejo de
se traduce entre las coordenadas
en B y las
dimensión p , V . Para entender cómo
coordenadas en B‘, primero se escribirá cada vector vi de la base ordenada B‘
como una combinación de los vectores vj de la base ordenada B como sigue:
(5.41)
vi = mlivl
+ m2¡v2 + . . . + mpivp,
es decir,
cdvf)= m, = [mli
m Z i .. . mPilT.
Suponga que se tienen las coordenadas B‘, c ~ . ( v.y) que se quieren conocer las
+
coordenadasB, c,(v). Estoes,se tiene a;, . . . , a; talesquev = a;v; +
abvb y se desea encontrar al,. . . , aptalesque v = alvl +
+ apvp. Del
notación de
teorema5.38 sobreel isomorfismo C, y de (5.41) se sabe que (usando
matrices separadas)
(5.42)
en donde M es la matriz p X p , M = [m,
m2 .
m,].
Lo anterior dice cómo obtener las coordenadas en B partiendo de las coordenadas en B ’ : solamente hay que multiplicar por la matriz p X p , M, cuyos
elementos (M)ij son iguales a mu de 5.41. A la inversa, es posible obtener las
coordenadas en B’ partiendo de las coordenadas en B y multiplicando por M-l,
porque M es no singular. Para comprobar que
M es no singular, suponga que Mx
= O; si puede demostrar que x = O, entonces el teorema clave4.18 dirá que M es
no singular. Sea v el vector en *Ir cuyas coordenadasen B’, a: son los elementos
de alguna x para la cual Mx = O: a: .=( x ) ~Por
. (5.42), las coordenadas en B de v
son justamente Mx, que es igual a O ; entonces,
v = Ov, + Ov, + *
+ Ov, = O en V .
226
5
Vectores y espacios
vectoriales
Pero si v = O en "Y-, entonces sus coordenadas en B' son todas 0 ya que B' es
linealmente independiente; comov se definió para que esas coordenadasfueran
los (x)~,se tiene que x = O. Como x = O si Mx = O, M es no singular. Esto
demuestra el siguiente resultado que es extremadamente importante:
(5.44)
Ejemplo. Consideredenuevoelespacio
polinomial Y 3y las dos bases
ordenadas B = { 1; t; tz} y B' - (1 ; 1 + t ; 1 + t + t2}de P 3 del ejemplo
5.36.Para moverse entre ellas, es necesaria la matriz M: cada vi se debe
escribir en términos de las vg como en (5.41), lo cual es fácil:
vi = 1 = l(1) + q t ) + o(?) para la primera columna de M;
v i = 1 + t = l(1) + l(t) + o(?)
vi = 1
para la segunda columna;
+ t + tZ = 1(1) + l(t) + l(t*) para la tercera.
Por lo tanto,
[i ;
1
M=
i], y seencuentra
1"
=
1; -;-;l.
0
Es posible usar a M y a M-' para traducir coordenadas. Para escribir
7 - 3t + 4t2
en términos deB' se tomarán sus coordenadas en B , [7 - 3 4IT y se mUltiPliCaran
por M-' obteniendo [ 10 -7 4IT como coordenadasen B'; como comprobación,
observe que
(10)(1)
+ (-7)(1 + t ) + (4)(1 + t + t Z )= (10 - 7 + 4) + ( - 7 + 4)t + (4)t2
= 7 - 3t 1- 4t2,
como se necesitaba. Más generalmente, las coordenadas en B' de
a
+ bt + ct2 son " ' [ a
b c]'= [u - b b - c c]',
que precisamente fue lo que se encontró en el ejercicio 5.36.
I Base, dimensi6n y coordenadas
5.4
227
PROBLEMAS 5.4
D 1. Encuentre un subconjunto de los siguientes vectores que forme una base
para R3:
v1 = [ I
-1
2]‘,
VZ = [-I
~3 = [O
-1
5]‘,
~4
2. Encuentre una base para el subespacio
[3
O 3IT,
-22I T .
Yode R3 que consiste en todos
aquellos vectores
x = [Xl
x2
X3]T
.que satisfacen x1 = O.
3. Encuentre una baseapara el subespacio Yode R3 que consiste en todos
aquellos vectores
x = [Xl
x2
que satisfacen a x1 + x2 = O.
4. Encuentre una base para el subespacio
aquellos vectores
X3]T
“yb de IR4 que consiste en todos
x = [x1 x2
x3
X4]T
que satisfacen a x1 - xz = O, y x3 - x4 = O .
D 5. Encuentre una base para el subespacio de R4 generado por los vectores
6. Partiendo del conjunto (1, 2 + 2 f , 1 - I + t2, 2 - t2},encuentre una base de
P , el espaciovectorial real de polinomios de grado estrictamente menor que
3.
D 7. Encuentre una base para el espacioP3del problema 6 entre los vectores del
conjunto.
(1, t
+ 3, t + t Z ,2t - 1).
D 8. Se dice que un conjunto infinito de vectores es una base de un espacio
vectorial Y si y sólo si es linealmente independiente -véase el problema 19
de la sección 5.3- y todo vector en el espacio puede escribirse como una
combinación lineal de un número finito de los vectores de la base. Mostrar
que el conjunto { 1, t , t2, . . .} es una base para elespacio vectorial red B de
todos los polinomios,
228
5
/
Vectores y espacros vectoriales
9. En la definición 5.30 se dijo que la dimensión de {O} es igual a O . Esto es
porque este espacio no tiene base -está generado por {O}, pero {O} no es una
base; explique por qué.
10. Agregue tantos vectores como seanecesario al conjunto { 1 + r, t + tz} a fin de
obtener una base para el espacio P3del problema 6.
D 11. Demuestre que los siguientes vectores no forman una base para R3.
12. Explique por qué se puede tener la certeza, sin hacer cálculos, de que el
siguiente conjunto debe ser linealmente dependiente en R2:
13. Demuestre que la dimensión de un espacio vectorial de dimensión finita es
igual al mínimodel número de vectores en todos los conjuntos generadores
posibles para el espacio.
D 14. Determine con argumentos si el siguiente conjunto genera a R3:
{
[
z
'
2.35
&IT, [ -3.289
n + 2 1IT}.
15. Sea B = {[I 1 OIT; [1 O 1IT; [O 1 11') una base ordenada de R3.
a) Encuentre la segunda coordenada de v = [I 2 3IT con respecto a B .
b) Encuentre el vector de coordenadas de
v = [a b c]' con respecto a B .
c) Encuentre una fórmula para el isomorfismo de coordenadas cB(v)para
cualquier v en R3.
D 16. Sea B = { 1 + t + t 2 ; 1 + t ; 1:} una base ordenadadel espacio Y 3del problema
6 (véase el ejemplo 5.36).
a) Encuentre las coordenadas de 2 - 3t + 6t2 con respecto a B .
b) Encuentre el vector de coordenadas de a + bt + ct2 con respecto a B .
c) Encuentre una fórmula para el isomorfismo de coordenadas c ~ ( v )para cuc'
quier vector v en Y 3 .
17. Demuestre el teorema 5.38.
18. Sea cBel isomorfismo de coordenadas con respectoa una base ordenada B
del espacio vectorial real Y de Rp. Demuestre que {vl, . . . , v,} es linealmente independiente en Y si y sólo si { c B(vl), . . . , c~(v,.)}es linealmente
independiente en RP.
D 19. Sea cB como en el problema 18. Demuestre que un vector v en V es
linealmente dependiente de vl, . . . ,v,en Y s i y sólo si c ~ ( v ) linealmente
es
dependiente de cB(vl),. . . , cB(v,)en R'.
5.4
I Base, dimensidn y coordenadas
229
20. Seac, comoen el problema 18. Demuestre que u = v en Y si y sólo si c ~ ( u=
)
cB(v) en Rp.
D 21. Sea C, como en el problema 18. Demuestre que {ul, . . . , u+}es una base
para Y si y sólo si {cB(ul),. . . , cB(ur)}es una base para Rp.
22. Por elteorema 5.38 d) sobre el isomorfismocB,para cadavBexiste una única
ven tal que C, (v) = vB. Esto quiere decir que existe el isomorfismo inverso
cjj 'que envía a toda vB a aquellav que C, mapea de nuevo a v,. Demuestre
que
c, '(Ug
+
VB) = c,
'(u3
+ cg '(vg),
que
c, '(ay,) = ac, '(VB),
Y que
C,
= O en Y
'(Y,)
si y sólo si vB = O en [WP o en Cp.
23. Los conjuntos
B = {e,;e,; e3} y
E = {[l 2 3IT; [l O 1IT;[3 4 6IT}
son ambos bases ordenadas de R3. Encuentre la matriz M que hace el
cambio de coordenadas con respecto a esas dos bases.
D 24. Los conjuntos
B = {el; e,; e3>
y
B' = {vi; v,; v3}
son ambos bases ordenadas deR3. Encuentre la matriz M, en términos de
los vi, que hace el cambio de coordenadas con respecto a esas dos bases.
25. Los conjuntos
B={l+t;t+tZ;l+t2}
y
B'=(l;l+t;l+t+t2}
son bases ordenadas del espacio Y 3del problema 6. Encuentre la matriz M
que hace el cambio de coordenadas con respecto a esas dos bases.
26. Suponga que
B = {vl; v,; v3} y B' = {v3; v,; }'V
son ambos bases ordenadas de
R3. Encuentre la matriz M que hace el
cambio de coordenadas con respecto a esas dos bases.
27. Suponga que
B = {vl; v,; . . . ; v,}
y
B' = {vp;v p - l ; . . . ;v,}
230
5
/ Vectores y espacios vectoriales
son dos bases ordenadas deRp. Encuentre lamatriz M que hace el cambio
de coordenadas con respecto a esasdos bases.
D Z Los conjuntos
[2
O 4 -3IT}
- l I T ; [I
2 2 41’)
2 1IT;[1 O 2 O]’;
B = {[l
2
B’ = {[O
2 O
Y
13’; [2
1 4
son bases del mismo subespacio de R4. Encuentre la matriz M que hace el
cambio de coordenadas con respecto a esasdos bases.
29. Suponga queB , B’ y B“ son todas bases para el espacio vectorial real Y; sea
M la matriz que traduce de las coordenadas en B’ y sea M’ la matriz que
traduce de las coordenadas en B” a las coordenadas en B ‘ . Encuentre la
matriz que traduce de las coordenadas en B” a las coordenadasen B .
5.5
BASES Y MATRlCES
La mayor parte de lasección precedente presentó resultados con respecto
acosas
que pueden hacerse -pueden eliminarse vectores de conjuntos linealmente
independientes para formar una base, y así sucesivamente. Sin embargo, la
un conjunto generador,
sección noexplica cómo llevar a cabo tales tareas. Dado
¿cómo se puede encontrar una base entre sus elementos? Dado un conjunto
linealmente independiente, ¿cómo se pueden encontrar vectores adicionales
para tenderlo a una base?
El material sobre cambio de base es la excepción a esta perspectiva de la
sección 5.4; ese material mostró explícitamente cómo “traducir” entre distintas
bases para el mismo espacio. Allí, laclave fue usar la teoría de matrices desarrollada en capítulos anteriores. En esta sección,
las matrices proporcionarán
nuevamente respuestas alas preguntas “cómo”. Para usar matrices, nos restringiremos a Rp, CP, y sus subespacios; observe, sin embargo, que esta “restricción” significa que los resultados serán aplicables atodos los espacios vectoriales reales o complejos de dimensiónp . Para ver esto, recuerde(5.40) el principio
del Isomorfismo: para resolver alglin problema concerniente a un conjunto en
Y, resuélvalo mejor para el conjunto en Rp O Cp que consiste en todos los
vectores de coordenadas de ese conjunto
en Y. Así, las técnicasde este capítulo
pueden realmente ser aplicadas, a travésde los vectores de coordenadas, para
resolver problemas en todos los espacios vectoriales reales o complejos de
dimensión finita.
Pensando en esto, ahora nos “restringiremos” al uso de matrices columna.
Como las matrices p x 1 son vectores en [WP o en CP, conceptos de espacio
vectorial tales corno dependencia lineal se aplican a ellos; comoel conjunto de
5.5
I Bases y matrices
231
todas las matrices renglón 1 x q también es un espacio vectorial, los mismos
conceptos también se aplicarán a ellas.
Operaciones de renglón y dependencia lineal
Dos hechos sencillos pero fundamentales sobre operaciones
de renglón proporcionan respuestas a varias preguntas.
(5.45)
DEMOSTRACION. Sea F la matrizno singular que el teorema clave3.34 garantiza que cumplirá con FA = B.
Sea a,, . . . ,a, una colección de r columnas de A, y sea bl, . . . ,b, la
correspondiente colección de columnas de B; por la regla de multiplicación de matrices separadas,bi = FAi para toda¡. Como F es nosingular,
Fx = O si y sólo si x = O. Considere ax como una combinación lineal de
las a,; Fx es esa misma combinación, pero en las bi. Por lo tanto, una
combinación de las ai es O si y sólo si esa misma combinación en las bi es
O. Esto significa que una colección es linealmente dependiente si y sólo
si la otra lo es.
Una matriz renglón y es una combinación lineal de los renglones de A si
y sólo si y = xA para alguna matriz renglón x; pero y = xA si y sólo si
y = xF"FA
= x'B dondex' = x F - l ,
porque FA = B ; y y = x'B si y sólo si y es unacombinación lineal de los
renglones de B. m
Observe que a),
en elteorema, se refiere acolumnas y a columnas seleccionadas de entre todas las columnas; b),en contraste, se refiere a renglones, y a
todos los renglones juntos.
La idea básica para usar este teorema en el estudio de problemas sob.
dependencia lineal de columnas o renglones de una matriz A, es sencilla: crear
una forma reducida de Gauss
o una forma escalón reducida
por filas B partiendo
232
5
/
Vectores y espacios vectoriales
de A y entonces estudiartales problemas sobre la matriz B que esmás sencilla y
en donde su respuesta será trivial.
Problemas sobre dependencias y bases
Para que funcione esta idea básica, se debe entenderla dependencia lineal entre
las columnas de una matriz en la forma reducida de Gauss o en forma escalón
reducida por renglón. La clave en cualquiera de estas formas es que la i-ésima
columna delantera en ambas tiene un 1 en su i-ésimo elemento y ceros abajo
mientras que todas las columnas a su izquierda tienen cero en el renglón i así
comoen los renglones inferiores. Esto aclara que las columnas delanteras
forman un conjunto linealmente independiente y que cadacolumna a la izquierda
de la i-ésima columna delantera depende linealmente de las primeras i - 1
columnas delanteras. Cada renglón no cero de una forma reducida de Gauss
comienza con ceros hasta queuno se topa con el1 de lacolumna delantera que
corresponde a ese renglón; ya que todos los 1 se mueven más hacia la derecha con cada renglón sucesivo, también es claro que esosrenglones forman un
conjunto linealmente independiente. Resumiendo:
(5.46)
Teorema (matrices reducidas y dependencia). Suponga que G estáen la
forma reducida de Gauss y que tiene rango k . Entonces:
El conjunto de k columnas delanteras de G es linealmente independiente.
Cualquier columna a la izquierda de la primera columna delantera de G
es una columna cero. Cualquier columna a la izquierda de la i-ésima
columna delantera deG , (para i => 1) es linealmente dependiente de las
primeras i - 1 columnas delanteras. Cualquier columna a la derecha de
la k-ésima columna delantera es linealmente dependiente de las k columnas delanteras.
El conjunto de k renglones diferentes de cero de G es linealmente
independiente.
Los dos teoremas anteriores son herramientas de cálculo útiles.
(5.47)
Ejemplo. Considere el subespacio Yode C4 generado por
Se buscará una base para Yo,con la que se descubrirá su dimensión. Se
usarán las cuatro columnas de arriba como las columnas de una matriz A , se
reducirá A a G , su forma reducida de Gauss,se usaráel teorema 5.46 para
5.5
/
Bases y matrices
233
identificar las columnas delanteras deG que son linealmente independientes y generadoras de todas las demás columnas, y entonces se usará el
teorema clave 5.45 para deducir que las columnas correspondientes de A
forman una base para Yoque contiene k -el rango de G y de A- vectores.
Este proceso produce
El rango es 3 , y las columnas delanteras son las primeras tres. Por lo tanto,
las primeras tres columnas de A forman unabase para Yo,y la dimensión de
“yb es 3 .
Este ejemplo muestra el proceso para reducirun conjunto generadora una base.
Un problema distinto es el deextender un conjunto linealmente independiente
para obtener una base.
(5.48)
Ejemplo. Sea Yoel subespaciode R4 de todas las soluciones de
x1
+
x2 = x3
+ x4.
Los dos vectores [ 1 O 1 OlT y [O 1 O 13’ están en Yoy forman un conjunto
linealmente independiente. El problema es extender este conjunto (si es
necesario) para obteneruna base de Yo.El enfoque será formaruna matriz
A con esas doscolumnas como susprimeras columnas y con las columnas
de alguna base de Yocomo columnas posteriores, reducir A a G, una forma
reducida de Gauss, usar el teorema 5.46 para identificar las columnas
delanteras de G -las que incluirán las primeras dos columnas de A ya que
las dos A son independientes una de otra- como linealmente independientes y generadoras de las demás, y entonces tomar las correspondientes
columnas de A como la base aumentada. Para obtener alguna base para
yo,se procederá como en el ejemplo 5.26 para encontrar la solución
general de la ecuación y luego escribir la base. Se encunetra
fácilmente que
la solución general es:
de manera que esas tres matrices columna
forman claramente una base de
Yo.Se formará la matriz A con los dos vectores dadosoriginalmente como
234
5
Vectores y espacios vqctoriales
I
las dos primeras columnas y como las últimas tres, y entonces A se reducirá
a la forma reducida de Gauss G:
1
o
1
1
-
1
o
1
1
-
1
0
0
G=
0
0
0
Las columnas delanteras de G son las primeras tres, por lo tanto, las
primeras tres columnas de A servirán como base: el conjunto original de
dos vectores se expande agregándole el vector [ 1 O O 13’para obtener una
base con tres vectores, y por lo tanto la dimensión de Yoes 3.
Ahora podrá resolver los problemas del 1 al 10.
Espacio columna y espacio renglón
Los problemas que se resolvieron en los dos ejemplos anteriores hicieron uso del
hecho de que el conjunto de columnas de una matriz A que corresponde a las
columnas delanteras de una matriz reducida de Gauss G de A es linealmente
independiente, y de que todas las columnas de A son linealmente dependientes
de aquéllas. Por lo tanto, cualquier matriz columna que sea una combinación
lineal de todas las columnas
de A es unacombinación lineal de esas columnas
especiales deA. En otras palabras, esas columnas especiales forman una base
para el subespacio de IWP o de CP generado por todas las columnas deA. Este
espacio tiene un nombre especial, el espacio columna de A; por analogía,
también hay un espacio rengldn.
(5.49)
Definición. Sea A una matriz p X q .
a) El espacio columna real (o complejo) de A es el subespacio de R P (o de
@ p ) que está generado por el conjunto de columnas de A.
b) El espacio renglbn real (o complejo) de A es el subespacio del espacio
vectorial real (o complejo) de todaslas matrices 1 x q que está generado
por el conjunto de renglones de A.
Según esta terminología, es sencillo formular un resultado fundamental
que es consecuencia inmediata de los teoremas clave5.45 y 4.23, y del teorema
5.46.
5.5
I Bases y matrices
235
(5.50)
De acuerdo conesto, el rango de A podría haberse definido como ladimensión del espacio columna o como la dimensión del espacio renglón; como el
espacio columna deA es (isomorfo a) el espacio renglón de AT (o de AH),esto
indica que los rangos de A, AT y AH son iguales.
(5.51)
Corolario (rango de renglón = rango de columna). Los rangos de A, AT,y
AH son iguales.
Algunas veces nos encontramos con dos subconjuntos
SIy S, de Rp o de C P
y es necesario saber si generan exactamenteel mismo espacio. Si se toman los
transpuestos de los vectores en S, y se usan como los renglones de una matriz A,,
y se hace lo mismo con S, para obtener una Az, entonces es posible volver a
formular la pregunta de si A, y A, tendrán el mismo espacio columna. Esta se
puede contestar fácilmente.
(5.52)
Teorema (espacios renglón iguales). Sean A, una matriz r X q y A, S X q.
Entonces el espacio renglón de A, y el espacio renglón de A, serán los
mismos si y sólo si los renglones diferentes de cero de la forma escalón
reducida porrenglón de A, son iguales a losrenglones diferentes de cero de
la forma escalón reducidapor renglón de A,.
DEMOSTRACION (formas => espacios). Como los renglones diferentes de
cero en las formas escalón reducida por
renglón (que son formas reducidas
de Gauss) formanbases para los espacios renglón,si los renglones diferentes de cero en las formas son iguales, entonces los espacios renglón son
iguales.
(espacios => formas) Si los espacios renglón Y son iguales, naturalmente tienenla misma dimensiónp, por lo tanto hayp renglones diferentes
236
5
Vectores y espacios
vectoriales
e
de ceroen las dos formas escalón reducida
por renglón R1y RZ;sean R; y R 2
las matricesp X q formadas por los primerosp renglones diierentes de cero
de R, y de Rz.Sean vl, vz, . . . ,v p los renglones de R',en orden, y sean vi,
vl,, . . . , vb los renglones de R 2 en orden; cada uno de estos conjuntos
material de la sección
5.4
forman una base ordenada para9". Se utilizará el
sobre el cambio de base para escribir
v: = mIiv,
+ rnZivz + . . . + mpivp
exactamente como en (5.41). En el teorema clave 5.43 se encontró que la
matriz M, p X p , formada por (M)Ii= rnti es no singular. La ecuación de
arriba, interpretada elemento por elemento, dice
(vi), = (MT>il(Vl>k
+ (MT)i2(v2)k + . +
(M*)ip(~p)k.
Como las v; son los renglones de R2mientras que vi
lasson los renglones de
R l , esto quiere decir que
R 2 = MTRl.Ya queM es no singular, también lo es
M T ;por lo tanto se puede escribir a MT como un producto de matrices
elementales, cada una de las cuales corresponde a la ejecución de una
operación elemental de renglón. En otras palabras, R 2 se puede generar
partiendo de R l por medio de operaciones elementales; entonces,R 2 es la
forma escalón reducida
por renglónde R l , la cual a su vez ya está en forma
escalón reducidapor renglón. Como la forma escalón reducida
por renglón
de una matriz es única, R l = R 2 , como se había afirmado.
(5.53)
Ejemplo. Supongaquesenecesitadeterminarsi
los vectores
generan el mismo subespacio de C3 que los vectores
Se formarála matriz A l , 4 x 3, de los transpuestos delprimer conjunto y la
matriz A2 3 x 3 con los traxspuestos del segulndo conjunto:
3
1
A, =
-7
2
3
-1
o
-1
-1
4
-3
2
1
1
1
1-
-1
1
2
-3
-5
5.5
=I
i -:]
I Bases y matrices
237
-:l.
Reduciendo estas matricessuaforma escalón reducida
por renglón R,y R2,
Rl
O
o
-1
0
0
y
o
R z = E
-1
Los renglones diferentes de cero en R, y R2 son iguales; por lo tanto, los
conjuntos originales generan el mismo subespacio de C3.
PROBLEMAS 5.5
D 1. Encuentre una base para el subespacio de R4 generado por
S=[[-;
1
2-1
O
3
1
2. Demuestre el teorema 5.46.
3. Encuentre una base para el subespacio de R4 generado por los vectores
=lj,
11, =[!l.
4. Encuentre una base para el subespacio de R4 generado por los vectores
VI = [ J ,
vz
y
v3 =
v4
D 5. Encuentre los valores de k para que los vectores
[3-k
-1
O]',
[-1
2-k
,']1-
y
[O
-1
3 -klT
generen un espacio bidimensional.
6. Considere el subespacio Tode R4 que consiste en todos los vectores
x = [x1
x2
x3
X4]'
238
5
I Vectores y espacios vectoriales
que satisfacenx,+ x2 = x3 + x4.Determine si S es una base para-yb. en donde
D 7. Extienda a S = {[l 1 2 3]T) para formar una base para el subespacio de
[w4
que consiste en todos los vectores de la forma
[u
b-a
b b+uIT
para todos los números reales a y b .
8. Extender S = {[3
1 1 1IT, [3 O 2 11)' para formar una basepara el
subespacio de !X4 que consiste en todos aquellos vectores
x = [x1 x2 x j
X4IT
que satisfacen a x1 - x2 = x3 + x4.
9. Extienda el conjunto siguiente para que forme una base para R4:
10. Dé los detalles de la demostración del teorema clave 5.50.
D 11. Encuentre una base para
el espacio columna de A de entre sus columnas,en
donde
A=[
1
2
-1
2
1
2
4
5
o
-5
12. Encuentre una base parael espacio renglón de la matriz A del problema 11:
a) Usando el teorema clave 5.50 h) como de costumbre.
b) De entre los renglones de A mediante el teorema clave 5.50 a) sobre AT y
después tomando transpuestos de las columnas resultantes.
D 13. Encuentre la dimensión y una base para el espacio columna de
1
4
0
5.5
/
Bases y matrices
239
D 14. Encuentre ladimensión y una base parael espacio renglón de lamatriz A del
problema 13:
a) Como en el problema 12 a)
b) Como en el problema 12 b)
15. Demuestre que los dos conjuntos siguientes S, y Sz generan elmismo
subespacio de R3.
D 16. Demuestre que los dos conjuntos siguientes, S , y S, generan elmismo
subespacio de R3.
17. Determine si losdos conjuntos siguientes S, y S2,generan el mismosubespacio de R3.
18. Como la forma escalón reducida por renglón de una matriz generalmente
contiene muchos ceros, puede pensarse que susrenglones dan una base de
vectores “simples” parael espacio renglón de A o -después de tomar
transpuestos- para el espacio columna de AT.Encontrando la formaescalón
reducida para renglón del transpuesto de la matriz A del ejemplo 5.47,
encuentre una base de vectores “simples” para el subespacio Yode ese
ejemplo.
D 19. Utilice el enfoque del problema 18 para encontrar una base de vectores
trabajar con AT“simples” para el espacio columna -por lo tanto tendrá que
de
2 -1
3 -4
3
A=
o
5
-1
6
-8
1
-6
-4
5
-1
14
-14
-1
-9
20. Demuestre que el espacio columna de AB es un subevacio del espacio
columna de A.
240
5
Vectores y espacios vectoriales
/
21. Mediante el problema20, demuestre que el rango de AB es menor que o igual
al de A.
D22. a) Utilice el hecho de queel rango de C es igual al de CT y el resultado del
problema 2 1, para demostrar que
el rango de AB es menor o igual al rango
de A y al rango de B.
b) Dé un ejemplo para demostrar que la igualdad puede ser válida en a) y
otro ejemplo para demostrarque la desigualdad también puede ser válida
en a).
5.6
LONGITUD Y DISTANCIA EN ESPACIOS VECTORIALES: NORMAS
Se abrió este capítulo con el propósito declarado de tratar aspectosgeométricos
de los vectores. Ciertamente, hasta ahora el material sobre subespacios y temas
relacionados hatenido un sabor fuertemente geométrico. No obstante, términos
tales como ‘‘longitud’’ y “ángulo”, han faltado en todo esto excepto en la
sección 5.1, cuando se estudiaron los vectores geométricos. Se tratará ahora
tanto la longitud como la distancia de u a v (definida como la longitudde u - v).
EnlasecciónS.1 sevioque(uq+ ~2,)~’~dalaacostumbradalongitudfisicadel
vector geométrico bidimensional u que corresponde a la matriz u = [u1u2IT;en
tres dimensiones, el teorema de Pitágoras nuevamente da, para la longitudfísica,
Parece natural entonces, medir la longitud, o magnitud, o
a (u; + u: +
tamaño de un vector u en [WP por
(u:
+ u: + . . . + u;)?
Esto es, en efecto muy útil.
Pero hay circunstancias en las que es significativa otra medida para el
tamaño de un vector u. En el modelode las poblaciones de zorros y gallinas de la
sección 2 . 3 , por ejemplo, era importante la matriz xi = [Zi GilT,donde se
representaba con Ziel número de zorros y con Gj el número de gallinas. En este
caso, (Z?+ GZ)1/2no tiene significadointuitivo. Es más significativaIZil+ lGil -la
-la población mayor.
población total- o quizá mix {lZ,l , ICi\}
En otras aplicaciones, pueden ser más apropiadas otras nociones de la
magnitud y longitud de un vector que cualquiera de las que se acaban de
mencionar. Por otra parte la palabra norma se usará para describir la noción
general de longitud siempre que satisfaga ciertas propiedades naturales que la
mayoría de la gente asocia intuitivamente con una sensación de longitud.
(5.54)
Definición. U n a norma (o norma vectorial) en -Ir es una función que asigna
a cada vector v en -Ir un número real no negativo, llamado la norma de v y
está simbolizada por I(v/I(o algunas veces por IIvIIy), y satisface las siguientes
condiciones:
a) llvll > 0 para v z O, y ))O))= O
5.6
/
Longitud y distancia en espacios vectoriales: normas
241
b) 1 1 ~ ~ 1=1 ltll IIvJJpara todo escalar a y todo vector v
c)
I llull + ( ( ~ ( 1 (la desigualdad del triángulo) para todo vector
u y v.
La tercera condición, c), se llama la desigualdad del triángulo porque es una
generalización -véase (5.2) para confirmar- del hecho de que la longitud de
cualquier lado de un triángulo es menor o igual a la suma de las longitudes de los
otros dos lados.
Hay tres formas en Rp y C pque se usanfrecuentemente en las aplicaciones.
'
(5.55)
1 1 + VI(
Definición. Se definen las normas ~ ~ - ~ ~y Il.llm-y
1 ,
sellaman lanorma 1, la
norma 2 y la norma m- para vectores x = [xl x p . . . x , ] ~en RP o en CP,
como sigue:
Para comprobar que las cantidades de la definición 5.55 son en realidad
normas, se debe verificar que satisfacen las condiciones de la definición 5.54;
véanse los problemas del 9 al 11. El Único obstáculo en esto es demostrar
que
satisface la desigualdad del triángulo la cual es consecuencia de un resultado
importante llamado la desigualdad de Schwarz. Para exponerla, se usará la
transpuesta hermitiana de la definición 1.20 y la expresión xHy para dos
matrices columna p x 1;
por comodidad enla notación, se tratará ala matriz I X 1 , xHycomo igual a
su Único elemento.
De este modo, six = [ 1 2 - 3IT y y = [ 2 1 I]', se tiene que xHy = 1 en lugar de lo
que es técnicamente correcto pero notacionalmente inconveniente x"y = [I].
Con esta notación, se puede escribir
If
112
lIxIl2 = (x x) .
242
5
I
Vectores y espacios vectoriales
DEMOSTRACION.
Se tiene que para todos los números cy,
o 5 jlx + ay\\; = XHX + axHy + ClyHx + accyHy
= 11x11:
+ axHy -b iyHx + )L%1*11yll;.
Como la desigualdad es verdaderamente válida sixHy = O, suponga que xHy
% O y haga a = - I[xll;/x”y en laexpresiónde arriba. Combinando términos
y usando yHx = xHy, se obtiene
de donde resulta inmediatamente la desigualdad de Schwarz.
~
m
~~
Ahora podrá resolver los problemas del 1 al 11.
Convergencia
A menudo es importante, en las aplicaciones, conocer cómo se comporta una
sucesión de vectores xi a medida que i tiende a infinito. En la sección 2.2 se
presentó un modelo de competencia mercantil en el que la sucesión xi que
representaba las acciones del mercado tendía a un límite x,; en la sección 2.3 se
presentó un modelo de poblaciones en competencia en el que la sucesión xi,
representando poblaciones, a veces tendía a O , a veces explotaba, y demás.
Como las normas miden la magnitud de los vectores, proporcionan la herramienta natural para describir de manera precisa lo que se quiere decir cuando,
por ejemplo, se dice quela sucesión de vectores xitiende a O: significará queSUS
magnitudes l\xill tienden a O.
Definicidn. Sea 11- 1 1 una norma en V. Una sucesión de vectores vi converge
al vectorv, si y sólo si la sucesión de números reales //vi- v,JJconvergea0.
(5.58)
Con esta definición, se puede hablar ahora de una sucesión de vectores en
o en Cp que converge mediante el uso de normas; ¿pero
cuál norma se deberá
usar? El hecho interesante es: no importa -todas son “equivalentes” como se
demostrará ahora.
Partiendo de sus definiciones, es claro que I(x11, 5 /lxIll 5 pllxll, si x es p X 1;
igualmente, 11x11; S 11xIE. Aplicando la desigualdad de Schwarz a los vectores x en
y a y en donde(y)<= 1, se obtiene llulll 5 pl’*llull,si u es P X I . De
donde (x)~=
este modo, si cualquiera de las normas 1 , 2 o m de una sucesión de matrices P X 1
tiende a cero, entoncestodas las demás lohacen, y también lo hacen los
elementos de las matrices.
IWP
5.6
(5.59)
/
Longitud y distancia en espacios vectoriales: normas
243
Teorema (equivalencia denormas). Las normas 1 , 2 e en RP ( O en @")
son equivalentes en el sentido de que:
a) Si una sucesión xi de vectores converge a X,, en una de las normas,
entonces convergerá a x, en las tres normas y 10s elementos (xJj
convergerán a los elementos ( x ~ ) ~ .
b) Para todas las matrices x, p X 1,
En realidad, esta equivalencia es un caso especial de un teorema más general que
dice que dosnormas cualesquiera en un espacio de dimensión finita son equivalentes, pero por ahora no se desarrollará esto.
(5.60)
Ejemplo., Examinando los elementos, intuitivamente es claro que la sucesión de vectores
converge haciax, = [ 1 OIT.De acuerdo con
ladefinición 5.58, sin embargo,
la convergencia debería expresarse en términos de las normas de
De aquí es fácil ver que [[xi - x,/, = 2/i, lo que ciertamente converge a O;
por el teorema 5.59, también lo hacen las demás normas de xi - X,, como se
puede comprobar con facilidad directamente. La definiciónformal de
convergencia coincide con la noción intuitiva.
PROBLEMAS 5.6
D 1. Para cada uno de los siguientes vectores x, calcule I I X ~ ~I I~ x, ~ y~ ~IIxll,:
a) [2 -5IT
C) [2 -5 5IT
e) [O O OIT
b) [2L. O - 3 i I T
d) [i -L. 1 - 11'
f ) [ S i - 3 4IT
2. Sea S et conjunto de puntos -una línea recta- en Rz de la forma [ 1 t]' para
todos losnúmeros reales t . Encuentre los puntos o el punto en S, para cada
una de las normas ((. ( I1,
y 1( & que están más cerca de O.
244
5
I Vectores y espacios vectoriales
3. Calcule xTy,
/IX((~,
y ((y((Z,
y verifique la desigualdadde Schwarz para cada
uno
de los siguientes pares de vectores.
4. Demuestre gráficamente que el llamado círculo unitario l(-llZen W , que es el
conjunto de aquellos vectores x para los que I1x/IZ= 1 es dehecho elcírculo de
radio 1 con centro en el origen.
D 5. Describa elllamado círculo unitario
problema 4) en R2.
y el círculo unitario ll.llm (véase el
6. Suponga que (1.11 es una norma en Rp y que A es una matriz real p X p no
singular, y defina (/.lJA por medio de l l ~ l=l ~((Ax(1.Demuestre que ll.llA es una
norma en UP.
7. Calcule en cadauna de las normas 11- 1 11, 11.112 y (I.l(m, la norma de cadauna de las
columnas de A’ - A, definiéndose A y A‘ como sigue. (Nótese que A es no
1,
singular mientras que A’ es singular)
1
0
2
1
0.002
A=[.
0.5
0.5
1.002
1
A’ =
2
0
1
0.002
0.5005
0.5
1.002
]
D 8. a) Aplicando la desigualdad de Schwarz al desarrollo de
I(u + vil: = (u + V)H(U + v),
demuestre la desigualdad del triángulo para )/. ) I2.
para demostrar la
b) A la inversa, utilice la desigualdad del triángulo para
desigualdad de Schwarz.
9. Demuestreque
es una norma.
10. Demuestre que 11.l), es una norma.
11. Demuestre que 11. ( 12 es una norma.
D 12. Para la sucesión de vectores xi siguiente, encuentre el límitex,. Utilice cada
una de las normas ~ ~ - 1 ~ 111*(12
, y para comprobar que xiconverge a x,.
(.(I2
I Angulo en los espacios vectoriales: productos interiores
5.7
245
D 13. Sea V un espacio vectorial con norma IJ.IJ.Demuestre que
) ))U)]- 1 ) ~ ) 1) I )]u- VI] para toda u y v en V.
14. a) Utilice el problema 13parademostrar quesiui converge au, en el espacio
converge a ((um((.
vectorial
que tiene norma (1.11, entonces ((ui((
b) Dé un ejemplo en RZ para demostrar quelas normas pueden converger
sin que los vectores converjan.
D 15. En (WP ( o en P)), suponga que ui converge a u, y que vi converge a v, en
alguna de las normas ((-((1,(($ o ((.((m. Demuestre que uTvi converge auzv,(o
que uFvi converge a u",,).
16. Suponga que B es una base ordenada para el espacio real (o complejo) de
dimensión p V, y sea cB el isomorfismo de coordenadas.
a) Suponga que I ( . ( es una norma en Rp (o en CP).Demuestre que lI.llv es una
para v en "Y .
norma en Y, donde ( ( v ( (se~ define igual a ((cB(v)((
b) Suponga que Il*llu es una norma en V. Demuestre que ((.((
es una normaen
Rp (o en Cp)en donde I1vBl)se define como /Ice ' ( ~ ~ ) ( para
l ~ vB en RP (O
en @"), en donde ci1(vB)es el Único v en V para el que c ~ ( v =
) vB.
17. Sea V igual a P3,
el espacio vectorial real de polinomios de grado estrictamente menor que 3, y sea B = { 1; 1 t ; r + t2} una base ordenada de V.
Encontrar, para cada una de las normas ~ ( ~ ~ 1 11.1 ,112 y ((.((m en R3, una fórmula
para la norma )\a bt ct211, en V como se definió en el problema 16 a).
+
+ +
D 18. Sean *Y y B como se definieron en el problema 17, y definase
en V
como
Encuentre una fórmula para la norma\([ab c]')l en R3 como se definió en el
problema 16 b).
5.7 ANGULOENLOSESPACIOSVECTORIALES:
PRODUCTOSINTERIORES
En la sección 5.1 se demostró -véase (5.3)- que el hecho de que dos vectores
geométricos u' y 6 sean perpendiculares se puede expresar en lenguaje matricial
como uTv = [O], en donde u corresponde a u' y v a 'u como se describió en esa
sección. Por ello, el concepto de úngulo recto puede expresarse a través del
producto especial uTventre matrices columna. Se demostró quedngulo se puede
expresar más generalmente de este modo.
246
5
I
Vectores y espacios
vectoriales
El ángulo entre vectores geométricos
Considérese el ángulo 0 entre los vectores geométricos d y 6 en (5.61)
(5.61)
I
I
De la trigonometría, la ley de los cosenos dice que
) 4 9 # w J Z = Io.r$12
+
) m / 2-
21041
cos e
en donde 1991 es ladistancia entre los puntos 9 y 9.Por el teorema dePitágoras
se obtiene
(0412= u:
+ u:
b:
+ b:
/ 8 9 # ’ ( 2=
l.dB’)2
= (a, - h,)‘
+ (a2 - b J 2 .
Sustituyendo las ecuaciones anteriores en la ley de los cosenos y agrupando
términos, se llega a
-2(a,b,
+ 4 , ) = - 2 ( 4 + a;)”2(b: +
b:)”2
cos 8.
Si se deja que a = [ a , az]‘ y b = [b, bZ]’, y se escribe a a,b, + azb, como aTb, la
ecuación anterior se podrá escribir como
-2aTb = -2\/a\\211b\12
cos 8
y por lo tanto:
(5.62)
Si 8 es elángulo entre los dos vectores geométricos diferentes de cero si y 6
que corresponden a las matrices a y b, 2 x 1, entonces
5.7
/
Angulo en los espacios vectoriales: productos interiores
247
Ahora, suponga que sequieren medir los ángulos
entre dos vectores geométricos
tridimensionales; si se hace pasar un plano a través de esos vectores, entonces
aparecerán, en ese plano, comobidimensionales y se podrán medir los ángulos
como antes. Resulta que es lamisma fórmula que
en (5.62), excepto que
ahoraa y b
son matrices 3 x 1 que contienen las coordenadas de las “cabezas” de los vectores geométricos. Este planteamiento funciona porque el ángulo entre dos
vectores en realidad es un concepto bidimensional definido por losdos vectores
y el plano que ellos determinan; aplicando el mismo tratamiento para el ángulo
entre dosvectores a y b en Rp, se llega de nuevo a la mismafórmula de (5.62), en
donde ahora a y b son p X 1.
Productos interiores
Las conclusiones de arriba demuestran que el concepto de ángulo entre dos
vectores en Rp está contenido en las nociones del producto especial arb y en la
norma 2, que a la vez puede definirse a través de este producto porque I)all, =
(aTa)lI2.Para desarrollar un concepto de ángulo entre dos vectores en espacios
vectoriales arbitrarios se requiere entonces de un concepto semejante a este
producto especial aTb.
(5.63)
Definición.
(el caso real) Sea 7‘f un espacio vectorialreal.Unproducto interno en Y
es una función que asigna a cada par ordenado devectores u y v en Y, un
número real que se denota(u, v) y que satisface las siguientes condiciones.
l . (u, v) = (v, u) para toda u y v en Y .
2- (all + Pv, w) = a(u, w) + m, w), Y
(w,au + Pv) = a(w,u) + P(w, v) para toda u, v y w en Y y todos los
números reales a y p.
3. (u, u) > O si u # O , y (u, u) = O si y sólo si u = O.
El ángulo 8 entre dos vectores diferentes de cero u y v se define por su
coseno:
b) (el caso complejo) Sea 7‘f un espacio vectorial complejo. Un producto
interior de 7‘f es un función que asignaa cada
par ordenado devectores u
y v, un número posiblemente complejo, que se denota (u, v), y que
satisface las siguientes condiciones:
l . (u, v) = (v,) para toda u y v en V.
2. (au + p v , w) = @u, w) + P(v, w), y
(w,au + pv) = a(w,u) + p(w, v) para todau, v y w en -Ir y todos los
números complejos a y p.
3 . (u, u) > O si u # O ; y (u, u) = O si y sólo si u = O.
248
5
Vectores y espacios vectoriales
/
Esta definición de productos interiores se da endos partes para simplificar las
cosas paraaquéllos que no estén familiarizados con los números complejos. Las
únicas diferencias en los casos, implican la aparición del conjugado complejoen
1) y 2) y la omisión del ángulo en el caso complejo.
(5.64)
Ejemplo. Se conocecomo el producto interior estu‘ndar (u, v) en [wp al
producto definido como (el elemento en) U%.
(u, v) = U l U l
+ . . . + UpVpr
en donde ui = (u)~y u i = ( v ) ~ .Siempre se usará este producto interior
estándar a menos que se diga otra cosa explícitamente.
(5.65)
Ejemplo. Seconocecomo el producto interior esfundar (u, v) en @* al
producto definido como (el elemento en) uTv.
(u, v) = ü,u1 + . . .
+ upup,
en donde u i = ( u ) ~y ui = ( v ) ~ .Siempre se usará este producto interno
estándar en C P ,a menos que se diga otra cosa explícitamente.
(5.66)
Ejemplo. Considere el espacio vectorial real de polinomios de grado estrictamente menor que 3, P3.Se define (u, v) para dos polinomios u(t>y v(t)
como
(u, v) = Jolu(t)v(t) dt.
Es fácil comprobar que esto define a un producto interior, es decir, que
satisface la definición 5.63 a). Al integrar se demuestra,por ejemplo, que (1
+ 2, t2) = 7/12.
LOS productos interiores estándar en RP y en @P definieron la norma 2 de un
vector como ( ( v (=( ~(v, V)~’’. Lo mismo es válido para los productos interiores en
general, pero se necesita primero de la desigualdad de Schwarz.
(5.67)
Teorema (desigualdad deSchwarz).Sea (u, v) un producto interior en el
espacio vectorial real o complejo V. Entonces
/(u, v)( 5 (u, U)’’~(V,
DEMOSTRACION.
para toda u, v enV.
Esta demostración imita a la del teorema clave 5.57; pro-
blema 13. m
(5.68)
Teorema (normas de productos interiores). Sea (u, v) un producto interior
en Y, y definase a ( ) V I( = (v,
Entonces )I.)) es una norma en V (se dice
que es la norma inducida por el producto interior).
5.7
DEMOSTRACION.
(5.69)
I Angulo en los espacios vectoriales: productos interiores
249
Problema 14.
Ejemplo. Considere un producto interior no estándar en
(u, v)o = 3 u , q
+
definidopor
U2Q.
Es fácil demostrar que éste es un producto interior,y por lo tanto define a
una norma inducida
1111)) = ( 3 4 + u y 2 .
~~~~~~
~
~
Ahora podrá resolver los problemas del I al IS.
Ortogonalidad
En geometría elemental, los ángulos rectos y las rectas perpendiculares (también
llamadas ortogonales) juegan un papel especialmente importante. Lo mismo
sucede aquí. Como el coseno de
un ángulo recto es igual acero, setiene que (u, v)
= O para vectoresortogonales en IWP . Se usará estamisma relación para definir a
la ortogonalidad, inclusive en espacios vectoriales complejos.
(5.70)
Definición. Sea .) un producto interior en V y (para el restodel capítulo)
sea 11.11 su norma inducida según el teorema 5.68.
a) Se dice que dos vectoresu y v son ortogonales si y sólo si (u, v) = O.
b) Se dice que un conjunto de vectores esortogonal si y sólo si cada par de
vectores del conjunto es ortogonal, (u, v) = O para toda u # v de ese
conjunto.
c) Si se usa un vector no cero u para producir v = u/11u11 tal que llvll = 1,
entonces se dice que u ha sido normalizada para producir el vector
normalizado v.
d) Se dice que
un conjunto de vectores es
ortonormal si y sólo si el
conjunto es ortogonal y llvll = 1 para todo v en el conjunto.
(e,
Por las propiedades de los productos interiores, (O, v) = (Ov, v) = O(v, v) = O.
Esto es:
En cualquierespacio vectorial con producto interior,O es ortogonal a cada
uno de los vectores.
PROBLEMAS 5.7
D 1. Encuentre elángulo entre los dos vectoresgeométricos bidimensionales fi y
6 correspondientes a
u = [l
J1y
y I
v = [2fi
2y
250
5
/
Vectores y espacios vec!oriales
2. Encuentre el ángulo entre los dos vectores de R5,
u=[1
2
-1
o 11’
y
v=[2
1
-3
1
-13’.
3. a) Encuentre el ángulo entre los dos vectores de R2 (usando el producto
interior estándar) u = [l 1IT y v = [ 1 - 1IT.
b) Encuentre el “ángulo” entre u y v si se usa el producto interior no
estándar del ejemplo 5.69, para definir la geometría.
D 4. Encuentre la forma general de todos aquellos vectores v en K t 3 que son
ortogonales a n = [l 2 - 1IT.
5. Suponga que Y tiene un producto interior, y que n está en V.Demuestre
que el conjunto Yode todos los vectores enV que son ortogonales a n es un
subespacio.
6. Suponga que $” tiene un producto interno y que n # O está en Y. Definase
VI como el conjunto de todos los vectores en Y que satisfacen (n, v) = l .
a) Demuestre que Yl no es un subespacio.
Y
;
se puede escribir como la suma vo f
b) Demuestre quetodo vector v1 en “
n/))n1)2de un vector vo en el subespacio V i del problema 5 y el múltiplo
n/)ln112de n, y que efectivamente está en V I todo vector v1 que tenga esa
forma.
D 7. Supongaque n es un vector no cero en-Y- = Rp. Demuestre que ladimensión
del subespacio Yo del problema 5 es p - 1.
8. Sea P3el espacio vectorial real de los polinomios con grado estrictamente
menor que 3; defina el producto interior entre los polinomios
f = fi
+ f2t +
y
f3t2
g = g1
+ g 2 t + 93t2
como
encuentre el ángulo entre f = t y g = t2 - t + 1.
D 9. Suponga que ^Y- es un espacio vectorial real con un producto interior.
Demuestre que
si y sólo si u y v son ortogonales, en donde 11 (1 es la acostumbrada norma
inducida.
10. La definición de lanorma inducida se dedujo de ladel producto interior.A la
inversa, paraun espacio vectorial real con un producto interior, demuestre
que
+
(u, v) = (Jlu
-
jju - v11”)/4.
5.7
/
Angulo en 10sespaclos vectoriales: productos interiores
251
11. Sea C[O, I] el espacio vectorial real de las funciones continuas con valores
reales en O 5 c I1. Defina el producto interior de dos funcionesf y g en
C[O, 11 como
a) Verifique que esto es un producto interior.
b) Escriba la desigualdad de Schwarz para este caso.
D 12. a) Demuestre que el producto interior enC[O, 13 del problema 11 define un
producto interior en P3,el espacio vectorial real de los polinomios de
grado estrictamentemenor que 3; generalice este resultado para subespacios Yo de espacios vectoriales Y que tienen un producto interior.
b) Encuentre el ángulo entre t y t2 - t + 1.
13. Demuestre el teorema 5.67 sobre la desigualdad de Schwarz imitando la
demostración del teorema clave 5.57.
14. Demuestre el teorema 5.68 de que la ‘‘noma” inducida por un producto
interior es realmente una norma.
D15. Sea B una base ordenada para un espacio vectorial real (o complejo) de
dimensión p Y, y sea cB el isomorfismo de coordenadas.
es cualquier producto interior
en Rp (o en C p ) , y defina
a) Suponga que
(e,
a)
(u, v ) =
~ @,(u), cB(v))
para u, v in Y.
O
Demuestre que (., . ) y es un producto interior en Y.
b) Suponga que (., .)U es un producto interior en V. Definase
b , vB) = ( c i ‘(uB), c i ‘ ( v ~ ) )para
~
uB, v B en RP (o en CP),
en donde CS‘(uB) es el vector Único u en “f cuyas coordenadas en B son
uB.Demuestre que
es un producto interior.
(e;)
16. Determine si el conjunto siguiente es ortogonal y si es ortonormal.
17. Produzca un conjunto ortonormalnormalizando los vectores en el conjunto
ortogonal
252
5
I Vectores y espacios vectoriales
D 18. Suponga quevl, . . . ,v, forman un conjunto ortogonalde vectores enel
espacio vectorial Yf con producto interior. Demuestre que
IIalvl
+ . . + apvpl12 = Ia11*/(v1/12+ . . . + Iap1211vp~\2.
’
19. Demuestre que { 1, t - 31 es un conjunto ortogonal en el espacio Y 3del
problema 12, y normalícelo para obtener un conjunto ortogonal.
20. Demuestre que el conjunto original del problema 19 es una base para el
subespacio Y2 de Y 3 .
5.8
PROYECCIONESORTOGONALESYBASES:
ESPACIOS GENERALES Y GRAM-SCHMIDT
Los conjuntos ortogonales, tal como se introdujeron en la sección 5.7, son de
importancia extrema tanto teórica
como computacionalmente. En esta seccióny
en la siguiente, se presentarán algunas indicaciones sobre la razón de esto.
Proyecciones ortogonales
El primer resultado será esencial para la derivación
del resto de la sección;sin
embargo, también es importante por derecho propio.
(5.71)
Teorema (proyeccionesortogonales).Sea Y un espaciovectorial con un
producto interior. Sea Yo el subespacio de Y generado por un conjunto
ortogonal
S = ( V 1 , v 2 , . . . , vq}
de vectoresdiferentes de cero. Definalaproyeccibnortogonal Po sobre yo
como sigue: para cualquier v en y,sea
Entonces:
a) v - P,v es ortogonal a todo vector va en Yo.
b) Po(u + v) = Pou + Pov para toda u y v en Y.
c) P,(cuv) = aPov para todo escalar a y todo vector v en “ f .
DEMOSTRACION
a) Primero, observe que v - Pov es ortogonal a cada V I :
(Vi, v - P,v) = (Vi, v) - U1(Vi, V I ) -
. . . - clq(Vi, VJ = (Vi, v) - Cli(Vi, Vi) = o.
5.8
I Proyeccionesortogonalesybases:espaciosgeneralesyGram-Schmidt
253
Como cada va en Yoes una combinación lineal dea
ls vi,cada una de
ellas satisface (vi,v - Pov) = O, se obtiene,como se habíaafirmado, (va,
v - Pov) = o.
b) y c) son consecuencia inmediata de la definición de los coeficientes ai.
Por ejemplo, el coeficiente afen Po(av)es
(vi, av)/(vi, Vi) = a(Vi, v)/(vi, vi),
que es exactamente a veces el coeficiente aide P,v.
(5.72)
m
Ejemplo. Supongaque Y es R3 y que q = 2; entonces Yoes un plano. A
continuación se muestra la interpretacióngeométrica de Y' = Pov:
tI
V
Mejores aproximaciones
La sección 2.6 sobre mínimos cuadrados demostróque al determinar parámetros
en modelos matemáticos, a menudo es necesario aproximar un vector dado
como combinación lineal de otros vectores dados.Si losvectores con los cuales
se forma la combinación lineal son mutuamente ortogonafes, entoncesla solución del problema es directa.
(5.73)
Teorema (mejor aproximación). Sea
un espacio vectorial con un producto interior y conuna norma inducida 11.11, y sea Yo el subespacio
vl, . . . ,
generado por el conjuntoortogonaf de vectores diferentes de cero
vq. Entonces, paracualquierv,Poves el únicopunto más cercano en Yoa v,
y IIv - Povl(es la distancia de v a Yo,en el sentido deque Pov está en Yo y
IIv - PovlI < I(v - voll para todovo # Pov en Yo.
254
5
/
Vectores y espacios vectoriales
DEMOSTRACION. Por conveniencia, llámese O, a Pov, el cualestá claramente
en Y, por la definición de P,v; para cualquier vo en Y, se calculará I(v - vo((
como sigue:
((v- vo((* = (v - v,, v - v,)
= (v - O,
+ O,
- Y
,,
v - O,
+ O, - v,)
v - O,) + (v - O,, O, - vo)
f (O, - v,, v - O,) -t(O, - Y,, O, - v,).
= (v - O,
Por el teorema 5.71 a), v - O, es ortogonal a todos los vectores en Y,
incluyendo a O, - v,; los dos términos intermedios de los cuatro términos a
laderecha, arriba,son por lo tanto iguales a cero. Esa igualdad entonces es
Por lo tanto, I]v - vollz > llv - 6,11* a menos que v, = 9,.
m
Según el teorema 5.73, es fácil encontrar la mejor aproximación en un
subespacio dado Y, a un vector dado v siempre y cuando se tenga un conjunto
de cero.
generador ortogonalpara Yoque esté,formado por vectores diferentes
Ya que el problema de una mejor aproximación surge tan a menudo en las
aplicaciones, se tratará el tema de los conjuntos generadores ortogonales.
Bases ortogonales y ortonormales
Por la notación, se ha ocultado un poco un aspecto importante del teorema
principal sobre la proyección ortogonal: todo conjunto ortogonal de vectores
diferentes de cero es linealmente independiente. Para visualizarlo, suponga que
S = {vl, . . . , vq} es ese conjunto y que
tomando el producto interior con cada vj resulta
o = (Vj, O) = (Vj, ClVl + . + cqvq)= C j ( V j , Vj),
'
'
lo que significa que c, = O porque (vj, vj) > O . Por lo tanto, cualquier conjunto
generador ortogonal de vectores diferentes de cero es un conjunto generador
ortogonal linealmente independiente -esto es, una base ortogonal para Y,. El
teorema de la proyección ortogonal dice que las bases ortogonales son extremadamente sencillas de usar cuando se desea encontrar la
mejor aproximacióna u c
vector v: se puede escribir inmediatamente como
5.8
I
Proyeccionesortogonalesybases:espaciosgeneralesyGram-Schmidt
255
estando definidas las aien el teorema. Si sucediera que v mismo está en , K O ,
entonces, verdaderamente, v es la mejor aproximación a sí misma en V0-Yse
obtiene
+ * .+ aqvq
v = u1v1
*
definiéndose las ai como en el teorema. Es decir,
Es posible expresar un vector v como una combinación lineal de vectores
en una base ortogonal sin tener que resolver ecuaciones para determinar
los
coeficientes -simplemente, se evalúan algunos productos interiores para
obtener directamente los coeficientes.
(5.74)
Teorema (bases ortogonales) Sea B = {v,, v2, . . . ,vJ una base ortogonal
(u ortonormal). Entonces, la representación de cualquier vector v con
respecto a la base ortogonal B puede escribirse inmediatamente:
Se encontró un caso especial de estoya hace tiempo, cuando se?io la facilidad
de expresarcualquier vector en Rp como una combinación lineal de e,, . . . ,e p ,
vectores queforman una base ortonormal paraRp, de modo que los coeficientes
en la representación de v son
Ahora podrá resolver problemas del 1 al 5.
Creaci6n de bases ortogonales y ortonomales: Gram-Schmidt
Los problemas relativos amejor aproximación son fáciles de resolveren cuanto
se cuenta con
una base ortogonalpara el subespacio de aproximación.
Pero éste
no siempre es el caso enlas aplicaciones. Unabase así es tan conveniente, que a
menudo se podría tratar decrear una para un espacio dado.Esto trae a colación
la siguiente pregunta:
Dada una base
o un conjunto generadorS para un espacio vectorial con un
producto interior,jcómo se puede encontrar un base ortogonal u ortonormal para el espacio?
En espacios de dimensión finita esto puede hacerse de una manera directa. El
método que se usa se llama el proceso de Gram-Schmidt. El teorema siguiente
256
5
I
Vectores y espacios vectoriales
parece complicado, pero la idea es semilla: el proceso de Gram-Schmidt produce una base ortogonal partiendo de un conjunto generador y detecta si el
conjunto generador es linealmente dependiente.
(5.75)
DEMOSTRACION
a) es b), pero con i = q.
b) Se usará la inducción, ya que u1= v,, b) es válido para i = 1, y P , está
bien definido. Suponga que b) es válido para i = k < q , de modo que P k
puede construirse usando Bk; por definición, se tiene que
#)
uk+l=Vk+l-Pkvk+l,
entonces
Vk+l=Uk+l+PkVk+l.
Ya que Pkse proyecta sobrevk,P,v,+ está en vk y, por la hipótesis de
inducción, es una combinación lineal de ui, . . . , uk.Por lo tanto, #)
expresa V k f l como una combinación lineal de ul, . . . ,u ~ +como
~ ; las vi
que antecedenson combinaciones lineales de ul, . . . ,ui(por la hipótesis inductiva),b) es válida para i = k + I , y por lo tanto es válida para
toda i.
c) Ya que ui= vi - Pi-,v$y Pi-lvi es linealmente dependiente de v,, . . . ,
vi-,, el resultado es válido.
d) La omisión de los vectores cero no cambia la generación de B , y un
conjunto ortogonal de vectores diferentesde cero es linealmente independiente.
5.8
I
Proyecciones ortogonales y bases: espacios generales y Gram-Schmidt
257
e) es consecuencia de d), porque puede haber vectores ut diferentes de
cero.
Para enfatizar se repetirá que:
El procedimiento de Gram-Schmidt produceun conjunto generador ortogonal a partirde un conjunto generadory detecta siel conjunto original es
linealmente dependiente.
Notacionalmente, el proceso de Gram-Schmidt es sencillo:
Calcule ui = vi - Pi+vi.
Pero aún quedala pregunta: ¿Cómo se calcula Pf-,vf en la práctica?Hay varios
caminos para ello, cuando menos dos de los cuales -el “proceso de GramSchmidt modificado’’ y el “proceso de Householder” mencionados en los
problemas del 12 al 17- son útiles numéricamente y están disponibles en programas confiables de computadora.El camino tradicional, acontinuación,es menos
eficaz en la práctica (véase el problema 11).
El problema es calcular Pi-,vf. En el teorema 5.71 se vio que esfácil calcular
la proyección ortogonal sobre un subespacio cuando setiene un conjunto generador ortogonal para ese subespacio; el subespacio
es %- 1, y la sección b) del
teorema deGram-Schmidt dice que ul, . . . ,ufW1
es justamente dicho conjunto
generador ortogonal. En cada paso, el procedimiento del Gram-Schmidt Produce el conjunto generador ortogonal requerido para
el siguiente paso; en eso
radica su elegancia.A la luz de lo anterior, el procedimiento de Gram-Schmidt
puede implementarse -aunque no es bueno computacionalmente- como
(5.76)
El procedimiento tradicional de Gram-Schmidt. Dado un conjunto generador vl, . . ., vp:
1 . Defina u1 = vl.
2. Para 2 I i Iq , defina
uI . = vI. - a l iu1 - . . . - ai-
1,
en donde aji = (uj, vi)/(uj, uj) si uj # O y aji = O si uj = O.
(Véase también el problema 9.)
(5.77)
Ejemplo. Suponga quese quiere una base ortogonal para el subespacio
de R4
generado por
v1 = [I
1 1
-l]’,
=[O
3 3
-3]‘,
~3
vz = [2
[-1
-1
-1
I]‘,
2 2
I]’.
258
5
I
Vectores y espacios vectoriales
El procedimiento descrito en (5.76) da
u1 = v1 = [l
11-117
(-+
[S 3IT
-3
-3
u2 = v2
- a12u1 = v 2 -
u3 = v3
- C(13UI - a23u2 = v3 - ($)u1 - ( - l)uz
= [O
=
4
9
o o 0-y;
U4=V4-a14U1
- Ct24U2 - c134U3
= v4 - (+)ul - (-$)u2 - @)u3 = [O
1 1 2IT
Ya que u3 = O, se puede ver que el conjunto original de cuatro vectores es
linealmente dependiente, siendov3 linealmente dependiente de v1 y v2. El
conjunto {ul, uz,uJ es una base ortogonal para el subespacio; es posible
obtener una base ortonormal reemplazandoesos tres ui por ui/lluJ12.
Un hecho quesigue inmediatamente del teorema para
la construcción de una
base ortogonal de vectores diferentes de cero amerita mención aparte.
(5.78)
Corolario , A excepción de {O}, todo espacio vectorial de dimensión finita
tiene una base ortonormal.
PROBLEMAS 5.8
D 1. Considerando a {ez, ed como una base ortogonal, encuentre el punto más
cercano en el conjunto de todos los vectores [O a PI' a
b) [u b cIT
a) [l 2 3IT
2. Mediante los problemas 12,19 y 20 de la sección 5.7, encuentre el punto en el
espacio de { 1, t - 4 ) que es más próximo a t2 en Y 3 .
3. En P 3 con enelproductointerior
del problema 12 de la sección 5.7,
demuestre que
(1,t-+,t2-t++]
1
es una base ortogonal para P3.
D 4. Demuestre que si v está en el subespacio Yodel teorema 5.72, entonces la
proyección ortogonal Pov de v sobre Yo es igual a la misma v.
5. Suponga que Po es la proyección ortogonal sobre "Ya como en el teorema
5.72. Demuestre que, para toda v en "Y-,
/lv(12 = ((pov[[2+ llv - povl12.
5.8
I Proyecciones ortogonales y bases: espacios generales y Gram-Schmidt
259
6. Compruebe que, en el ejemplo 5.77, {vl, . . . ,vi} y {u1, . . . ,ut}generan el
mismo espacio para toda i = 1, 2, 3, 4.
D 7. Aplique el procedimiento de Gram-Schmidt tradicional (5.76) a los tres
vectores siguientes,y haga una aseveraciónválida sobre la situación general
que representa.
8. Aplique el procedimiento tradicional de Gram-Schmidt (5.76) a los tres
vectores
[1
1
-1y,
[- 1 2 2",
y
[l
4 O]?
9. La versión (5.76) del procedimiento tradicional de Gram-Schmidt es, en
realidad, una pequeña variante de lo que normalmente se presenta. En esa
otra forma, que aquí se llamará normalizada, tan pronto se calcule ui, se
reemplaza por su versión normalizada ui/lluill si ui # O. Esto evita el cálculo
de los productos interiores (ui, ui) en los pasos subsiguientes porqueaquéllos
serán ahora igual a 1. Aplique esta versión a los vectores vi del ejemplo 5.77;
las ui que se produzcan sólo serán versiones
normalizadas de lasuianteriores -desde luego que con la excepción de us = O.
D10. Mediante el producto interior en
P 3del problema 8 de la sección5.7 -con el
R3 de los coeficientesde los polinomios- aplique
productointernoen
el procedimiento tradicional de Gram-Schmidt (5.76) a los vectores 1 + t , t
+ t2yr2+ 1.
11. Para comprobar que el proceso tradicionalde Gram-Schmidt (5.76) -0 su
versión normalizada como en el problema 9- no es necesariamente una
buena manera de calcular proyecciones
las
del teorema clave 5.75, considere
el siguiente caso.
Sea E un númerotal que en la computadora donde
se hacen
los cálculos, 1 + sea igual a 1, pero que 2 + E y E + se calculen con
opera muy
bastante exactitud: en una calculadora de 8 a 10 dígitos, E =
bien, mientras que E = 10"O funciona bien en la mayoría de las microcomputadoras con coprocesador matemático.Aplique el procedimiento de GramSchmidt tradicional (5.76) (o su versión normalizada) a los vectores
260
5
I
Vectores y espacios vectoriales
Las condiciones para E significan que el producto interior de dos de ellos
,
que la norma al
cualesquiera se calculará con exactitud como 4 + 2 ~ pero
4 + 26, en vez de como
4 + 2~ +
cuadrado de cada
uno se calculará como
Encuentre 10s ángulos entre los vectores que se produzcan: u1 y uz, u1y u3,Y
u2 y us. Deberá encontrar que u1 y u2 están a aproximadamente E de la
perpendicular, y de modo semejante proceda parau1y us; sin embargo, us y
u3hacen un ángulo de 60" en lugar del ángulo recto deseado.
DlZ. El procedimiento deGram -Schmidt modificado es una alternativapara el
cálculo delas proyecciones del teorema clave5.75 que evita lasdificultades
con el Gram-Schmidttradicional tal comose ejemplificó en elproblema 11.
En el método tradicional, en el i-ésimo paso sólo se altera el vector vi: se
cambia aui que esortogonal a todaslas u, precedentes. En el procedimiento
para hacerlos
modificado, en el i-ésimo paso, todos los v irestantes se alteran
ortogonales al vector u más recientemente calculado. De una manera más
precisa:
Comenzando con los v l , . . , vq dados, defina vy, . . . , v," como si
,
v: = V I ,
. . : , v," = vq.
El i-ésimo paso, para i = 1, . . . ,q:
defina ui = vi- ';
En la aritmética perfecta, esto produce
los mismos vectores u, que el método
tradicional. Aplique este procedimiento modificado a los vectores del problema 1 1 y encuentre los ángulos entre las ui que se produzcan; ahora deberá
obtener mucho mejores resultados que con el procedimiento tradicional.
13. Aplique el procedimiento de Gram-Schmidt modificado del problema 12 a
los vectores del ejemplo 5.77.
14. Aplique MATLAB o software similar para encontrar una base ortogonal u
ortonormalpara el espacio generado porlos vectores del problema 11
(escogiendo la E que convenga asu computadora) para comprobarqué tan
bien opera ese software en este dificil problema.
15. Otra alternativa del método tradicional para calcular las proyecciones del
teorema clave5.75, usa las matrices de Householder(véanse los problemas
una
del 13 al 17 de la sección 5.9); una matriz (real) de Householder es matriz
H, p x p de la forma H = I, - 2 w T / w T w para una matriz columna real
diferente de cero w, p X 1.
a) Demuestre que toda matriz de Householder es simétrica.
b) Demuestre que toda matriz de Householder es nosingular y que H" = H =
HT.
5.9
Rp, CP,QR ymínimoscuadrados
I Proyeccionesortogonalesybases:
261
c) Mediante el inciso b) demuestre que las columnas de una matriz de
Householder forman un conjunto ortogonal.
D 16. Dadas dos matrices reales p X 1, x y y con x # y, defina
y sean H, las matrices de Householder del problema 15 definidas por
w+-.
Demuestre que H, transforma a x en un múltiplo de y; más precisamente,
demuestre que
17. a) Sean x = [2 2 1IT y y = [1 O OIT. Encuentre las matrices H, del problema
16 y veritique que H,x = T3y.
b) Demuestre que para todax en Rp hay una matrizde Householder H tal que
Hx es igual a m á s o menos Ilxll+,, en donde e, es la acostumbrada matriz
columna unitaria.
5.9
PROYECCIONES ORTOGONALES Y BASES:
Rp, CP,QR Y MlNlMOS CUADRADOS
Existen muchasaplicaciones que hacen uso importante de las técnicasy conceptos de las proyecciones ortogonales y de las bases que se presentaron en la
de IRp (o de
sección 5.8 para espaciosvectoriales en general. En el caso especial
Cp),esos resultados-cuando se expresan en terminología matricial- proporcionan poderosas herramientas de cálculo.
Proyecciones ortogonales
Los primeros resultados -teoremas 5.71 y5.73- de la sección anterior involucraban proyecciones ortogonales en espacios vectoriales arbitrarios
con productos
interiores; ahora, se reformulará esto en Rp y en C P mediante terminología
matricial. Para ser específicos,
se considerará V = Rp en la discusión que sigue;
sólo se necesita cambiar las transpuestas a las transpuestas hermitianas para
hacer que los argumentos se apliquen en Cp.
Suponga queYo es un subespacio deRp generado por el conjuntoortogonal
de vectores S = {v,, vz, . . . ,v,} y que ves otramatrizpX 1; se deseacalcular la
proyección ortogonal Pov del teorema 5.71. Se especializará un poco suponiendo
que S es un conjunto ortonormal -es decir que((v&= 1 además delas condiciones de ortogondidad0= (vi, v,) = vTvjparai Z j . Definase la matrizQ,p X q , por
Q = [vi
Si calcula QTQ, encontrará que
V~
. . . v,].
262
5
I
Vectores y espacios vectoriales
tiene como elemento(iJ, justamente av,Tvj-que es iguda 1 si i = j , y es igual a 0
si i # j . Esto es, Q'Q = I,; ésta es la reformulación matricial del hecho de que
S es
ortonomal. Pasando al cálculo de Pov, de acuerdo al teorema 5.71,
POV = alvl + . . . + E,V,
para ai.
adecuadas en notación matricial esto significa queP,v = Qa, donde Q es
la matriz de arriba y
a = [a,
u2
. ..
u,]'.
Nuevamente de acuerdo al teorema 5.71, ai se calcula como
en este caso; en notación matricial, esto dice que a = Q'v. juntando estos dos
hechos, se obtiene
P,v = QQ'v.
Observe aquí que, en general, QQ' # I,; QTes una inversa izquierda deQ porque
Q'Q = I,, pero generalmente no es una inversa derecha porque no se está suponiendo que Q sea cuadrada. Esta fórmula para Po demuestra que la proyección
ortogonal no es más que la multiplicación por una matriz especial Q Q T , llamada
matriz deproyeccion. Esto completala reformulaciónde los teoremas 5.71 y5.73 en
terminología matricial.
(5.79)
Teorema (matricesdeproyección.)Sea
Q una matriz p X q que tiene
columnas ortonormales en Rp (o en C p ) "esto es
Q'Q = I,
(0
QHQ
= IJ,
y sea Yo el subespacio generado por la base ortonormal para Yoformada
por la columnas de Q . Entonces:
a) Laproyección ortogonalPoen Yo,como se describió en los teoremas 5.71 y
5.73 se calcula con la matriz de proyección QQ' (o QQ") como
Pov = P,v
en donde Po es la matriz p X p , Po = QQ' (o Po = QQ").
b) La matriz de proyección Po satisface lo siguiente:
l . Po es simétrica (o hermitiana)
2. P; = Po.
3. Po& - Po) = (I, - Po)Po= o.
4. (I, - P6)Q = O.
5.9
I PrOYeCCiOneS ortogonales y bases: Rp, CP, QR y mínimos cuadrados
263
DEMOSTRACION
a) Ya se ha demostrado.
b) 1. P,' = (QQ')' = (QT)'Q' = QQ' = Po (análogamente para el caso
complejo).
2. Pi = QQ'QQ' = QIQQT= QQ' = Po (y de igual modo para el caso
complejo).
3. Po@,- Po) = Po - Pg = O, e igual para los demás.
4. (I, - Po)Q = Q - QQTQ = Q - QI, = O (análogamente para el caso
complejo).
(5.80)
Ejemplo. Sea Q 4 X 3 y sean sus columnas versiones normalizadas de los
vectores ortogonales diferentes de ceroul, u2,u4que se encontraron en el
ejemplo 5.77:
-
2
1
2
Q=
1
"
-
2
--
6
6
J5
& '
-
6
6
"
J
j
6
Entonces Po =
0
$
0
0
1
J
3 -
Por lo tanto, el vector más cercano a v = [ 1 2 3 41' en el subespacio Vode
R4 generado por las columnas de Q es
P,v = P,v = [l
5/2 5/2 41';
Más generalmente, el punto más cercano a v = [a b c dlT es:
b+c
2
b+c
2
d]T
Ahora podrcf resolver los problemas del 1 al 5.
Descomposiciones QR
La siguiente tarea es proporcionar una formulación matricial para el teorema
clave 5.75 sobre cómo calcular
un conjunto generador ortogonal partiendode un
conjunto generador general. Suponga
que vl, v2, . . . ,vu son matrices columnap
X 1, y considere la implementación tradicional del procedimiento de Gram-
264
5
/ Vectores y espacios vectoriales
Schmidt (5.76). A partir de la definición de matrices columna u, en (5.76) 2), se
tiene
vj = Ulcr1j
+ u,cr,j + . . . + uj- l a j - + uj.
1,j
Esto, representado en notación de matrices separadas, es tan sólo
(5.81a)
SeaQ,lamatrizp X q,[u, . . * uQ]de(5.81a)yseaRolamatrizunitariatriangular
superior q X q allí mismo; como A = [vl
vQ], es posible reescribir (5.81a)
como
-
(5.81b)
9
A = QoRo.
Las ui de Qo se construyen
en (5.76),y por lo tanto son mutuamente ortogonales;
es decir, que Qo tiene columnas ortogonales, algunas de las cuales podrán ser
por la eliminación de las columnas
iguales a O. Sean Q y R las matrices obtenidas
de cerosde Qo y los renglones correspondientes de Ro,y mediante la división de
cada columna no cero de Qa entre su norma 2, y multiplicando cada renglón
correspondiente de R, por la misma norma 2. Entonces (5.81b) viene a ser
(5.81~)
A=QR
con R como triangular superior y Q con columnas ortonormales. La forma
(5.81b) se llama la descomposicion no normalizada QR de A, mientras que
(5.81~)es la descomposición QR normalizada.
(5.82)
5.9
Rp, CP,QR y mínimos cuadrados
I Proyeccionesortogonalesybases:
265
DEMOSTRACION. Ya que A tiene rango k , su espacio de columnas tiene
dimensión k y habrá k vectores en cualquier base.
a) Es consecuencia del teorema clave 5.75, del (5.76)y del (5.81a-c)arriba;
para 3), observe que ui = v i - Pi-lvi, y utilice el teorema 5.73.
b) Es consecuenciadea
lsconstrucciones de Q y R a partir deQoy R,; para
3), observe quesi k = q , significa que Q y R sólo difieren de Qoy R, por la
escala, y utilice a) 3). M
Estas descomposiciones son análogas a las descomposiciones LU de la
sección 3.7 y quizá sean igualmente útiles computacionalmente. Como se hizo
notar en la sección 5.8, el procedimiento tradicional de Gram-Schmidt no es
eficaz computacionalmente y no deberá usarse en la práctica para encontrar
descomposiciones QR;hay otros métodos disponibles -véame los problemas del
11 al 17 de la sección 5.8 y los problemas del 13 al 17 de esta sección.
(5.83)
Ejemplo. Considere la matriz A, 4 x 4, cuyas cuatrocolumnas son las
matrices columna originales v l , v p ,v3 y v4 del ejemplo 5.77:
r 1
1
A=[-;
O
-1
3
-1
3
1 -3
2
-11
De acuerdo conla demostración anterior, esposible construir ladescomposición QJ¿, partiendo delas columnas ui y de los coeficientes ak,calculados durante desarrollo del procedimiento de Gram-Schmidt del ejemplo
5.77. Esto da
Es fácil comprobar que realmente A = Qdt0. Para obtener Q y R, de
acuerdo con la demostración anterior, se eliminará la tercera columna
de Qo y el tercer renglón deRo, y se ajustatána
lsescalas dea
lscolumnas de Qo
266
5
I
Vectores y espacios vectoriales
y los renglones de R,. Por ejemplo, se divide la primera columna de Q,entre
su norma 2 , 2 ) y se multiplica el primer renglón de Ro por elmismo número
2). Tratando lasegunda y tercera columnas/renglones de
modo semejante,
finalmente se obtiene
-
Q=
-
.”
2
6
-
”
2
6
6
-
6
Y
I.
2
O
O
1
2
”
g
2
O
9
2
-3&
2
O
-
De nuevo, es fácil comprobar que A = QR.
R (5.84)
Ejemplo. Se sabe quela matriz de Hilbert 6 X 6 , H,es “casi singular” en el
sentido de que suscolumnas son “casi linealmente dependientes”; H, es la
(H6)il= 1/ (i +j - 1). Ahora esposible dar algún significado
matriz en la que
al concepto “casilinealmente dependiente” porquela descomposición QR
contiene información sobre la distancia de cada columna desde
el espacio
de las columnas anteriores. Se utiliza la función qr del MATLAB para
calcular una descomposición QR normalizada de Hg. El MATLAB encontró que H, tiene rango 6 , y produjo una matriz Q, 6 x 6 , con columnas
ortonormales y una matriz 6 x 6 triangular superior R. Ya que el rango es
igual a 6, los elementos de la diagonal de R miden la distancia de cada
columna de H, desde el espacio de las columnas anteriores; mediante el
MATLAB se hicieron cálculos de las magnitudes de esos elementosdiagonales resultando aproximadamente en 1.2,0.14,0.0096,0.0048,0.000017 y
0.00000040. Siun vector v está a la distancia d de un subespacio Yo,
entonces av está a una distancia ad de Yo; en otras palabras, se debería
considerar ladistanciaYorelativa al famaiio d e v mismo. En estecaso,el
MATLAB calculó la norma 2 de, por ejemplo, la sexta columna de
H, como
aproximadamente igual a0.31; la medida de tan
quécercana estuvo la sexta
columna de H6de ser linealmente dependiente de las primeras cinco está
dada por
0.00000040/0.31 z 0.0000013,
lo cual indica por qué H6 se llama “casi singular”.
5.9
/
Proyeccionesortogonalesybases:
Rp, C p , QR ymínimoscuadrados
267
Ahora podm resolver los problemas del 1 al 19.
Aplicacwn: mínimos cuadrados
En la sección 2.6 sobre mínimos cuadrados se explicó cómo, a menudo, en
modelos matemáticos, se tiene la forma
general del modelo y es necesario
determinar parámetrosespecíficos en el modelopara aproximar la conducta real
del fenómeno que aquél está modelando. Cuando el modelo es lineal, esto
frecuentemente significa que se tiene una matriz A, p X q (el modelo) y una
matriz columna y, p X 1 (datos reales del fenómeno) y se necesita encontrar
Ax = y. Cuando sequiere determinar
una matriz x, 4 X 1 (los parámetros) tal que
a x haciendo ((Ax - y(I2tan pequeño como sea posible, se tiene un problema
de mínimos cuadrados.
Un camino para encontrarla x que minimiza a (/Ax- y((%
se describió en la
sección 2.6: x hace mínimo a ((Ax- y/Izsi y sólo si x es solución de ATAx = ATy
(reemplazando la transpuesta por la transpuesta hermitiana si alguno de los
datos es complejo); véase el problema 26. Sin embargo, se hizo notar que en
realidad el cálculo de ATA y la solución de estesistema de ecuaciones menudo
a
produce errores inaceptables cuando
los cálculos sehacen en computadorascon
aritmética de punto flotante; véase el problema 24. La descomposición QR
normalizada -que puede calcularse con exactitud y eficiencia- proporciona un
camino para eliminar la dificultad; véase el problema 25.
Suponga que A = QR es una descomposición QR normalizada de A, de tal
modo que -si A es p X 4 y tiene rango k- Q es p X k y tiene columnas
ortonormales, mientras que R es k X q , triangular superior y tiene rango k .
Considérense las ecuaciones
ATAx = ATy cuando A = QR.
Al sustituir A resulta
(QR)T(QR)x = (QR)Ty, esto es,
RTQTQRx= RTQTy.
Recuerde que Q tiene columnas ortonormales, así que
QTQ= Ik.Por lo tanto, las
ecuaciones vienen a ser
RTRx = RTQTy.
El corolario 5.51 afirma que los rangos de R y de RTson iguales; por lo tanto, la
matriz RT, q X k , tiene rango k . Por el teorema4.22 sobre inversasizquierdas y
rango, RT tiene una inversa izquierda L tal que LRT = Ik. Multiplicando ambos
miembros dela última ecuación de arriba por L y usando LRT = Ik, se obtiene
RX = QTy
= RTQTy;a la inversa, es claro quesi Rx = QTy,entonces RTRx = RTQTy.
Por lo tanto, x resuelve el problemade mínimos cuadrados si y sólo si Rx = Q T y .
si R%
268
5
/ Vectores y espacios vectoriales
Yaque Resk X q , es triangular superior y tiene rango k , las ecua:iones Rx = QTy
pueden resolverse inmediatamente para x por sustitución en reversa. Es decir,
que una vez que se ha encontrado la descomposición QR normalizada de A, es
posible resolver inmediatamente el problema de mínimos cuadrados. Resumiendo, :
(5.85)
Teorema (QR y mínimos cuadrados). SeaA = QR unadescomposición QR
normalizada de la matriz A, p X 4. Entonces, todas a
ls soluciones al
problema de mínimos cuadrados de encontrar
una x que haga mínimaa IJAx
se puede obtener aplicando la sustitución en reversa pararesolver Rx
= QTy (Rx = QHy si A o y son complejos).
(5.87)
Ejemplo. Sea A la matriz 4 x 4
2
o
1
1 -1
A=[-;
3
-; -:
:]
-1
cuya descomposición QR normalizada A = QR se encontró en el ejemplo
5.83. Suponga que se quiere resolver elproblema de mínimos cuadrados
Ax%y=[l
-1
2 13'.
Rx = QTy.
De acuerdo con el teorema 5.85, solamente es necesario resolver
Se encuentra que
QTy = [1/2 &/2
4/21'.
Por lo tanto, el sistema a resolver es
9
2
RX = QTy, esto es,
3&
2
O
.__
-
Este sistema se resuelve fácilmente pos sustitución en reversa: primero se
obtiene x4 = 4, después, x3 = (Y arbitraria, a continuación x2 = a + $, y
5.9
I Proyecciones ortogonales y bases: RP, Cp, QR y mínimos cuadrados
209
finalmente x1 = -2cr t i . La solución general al problema original de
mínimos cuadrados es por lo tanto
PROBLEMAS 5.9
D 1. Suponga que Q es una matriz realp X q con columnas ortogonal. ¿Qué puede
decir acerca de QTQ?
2. Suponga que P es una matriz real p X p , que PT = P, y que P2= P; a esas
matrices se les llama matrices de proyeccibn p x p . Demuestre que, para
cada v en RP, Pv es la proyección ortogonal de v sobre el espacio de
columnas de P.
3. Demuestre queP es una matriz de proyección -véase el problema2- si y sólo
si Ip - P es una matriz de proyección.
D 4. Encuentre la matriz 3 X 3 , P, tal que Pv sea la proyección ortogonal de v
sobre el subespacio generado por el conjunto ortogond S = { [I 2 2 ] T ,
[-2 2 -117.
5. Encuentre la matriz P, 4 X 4, tal que Pv sea la proyección ortogonal de v
sobre el subespacio generado por los vectores
[0.5
0.5
0.5
0.5]',
[-OS
0.5
-0.5
0.5IT.
7. Encuentre la descomposición QR, tanto no normalizada corno normali-
zada de
270
5
/
Vectores y espacios vectoriales
9. Encuentre la descomposición QR tanto no normalizada comonorma-
lizada de
10. Suponga que se están haciendo los cálculos en una computadora y que el
número E es tal que 1 + E se evalúa exactamente, pero que 1 + e2 se evalúa
como igual a 1; en unacalculadora de 8 a 10 dígitos, E = IO+ operamuy bien,
mientras que E = 10“O trabaja en la mayoría de las microcomputadoras con
coprocesadores matemáticos.
a) Aplique el método Gram-Schmidt tradicional en esta “computadora”
para comprobar que se obtiene la descomposición QR no normalizada
r
(Observe que ésta es la descomposición correcta -con excepción por
supuesto, de que la computadora no dividirá perfectamente entre 3 . La
pequeña E, por otra parte, no causó dificultades. (Véanse los problemas
24 y 25.)
b) Encuentre la descomposición QR normalizada.
D 11. Suponga queA es real y p x q, y que A = Q a o ,en donde Q, es p x q y tiene
columnas ortogonales, mientras que R, es q X q y es triangular superior
anitaria. Demuestre quelas columnas de Qoforman un conjunto generador
ortogonal para el espacio de columnas de A, y que las primeras i columnas de
Q , generan el espacio generado por las primeras i columnas de A para
l 5 i l q .
12. Suponga queA es real, y p x q y que tiene rango k , y que A = QR, en donde Q
es p x k y tiene columnas ortonormalesmientras que R es k X q , triangular
superior y de rango k . Demuestre quelas columnas de Q forman una base
ortonormal parael espacio de columnas de A, y que P = QQ‘representa una
proyección ortogonal sobre el espacio de las columnas de A.
13. Suponga que A es real y p X q , siendo p L q ; se describirá el uso de las
matrices de Householder mencionado en los problemas del 15 al 17 de la
sección 5.8 para calcular una descomposición QR de A. Sea A, = A; se
calculará A,, . . . , A, como sigue: Ai tiene la estructura especial
Ri Bi
Ai= [o c ] ,
en donde Ri es i X i y triangular superior;
5.9
/
Proyecciones ortogonales y bases: RP,C p ,OR y mínimos cuadrados
271
esto ciertamente es válido para i = O. SeaHi unamatriz Householder
de
(p i) X (p - i) tal que Hi multiplicada por la primera columna de C isea un
múltiplo de la matriz columna unitaria e,, (p - 9 X 1, y definase
Ii
o
en donde Ii es la matriz idéntica i x i
a) Demuestre que QiQT = QTQi = I,.
b) Demuestre que QiAi tiene la estructura propuesta para Ai+,. Se define
Ai+, = QiAi continuando hasta llegar a A,.
c) Demuestre que Q q - 1 Q q - 2. . . QIQoA = S, teniendo S la estructura
S=
[:I,
donde R es q X q y triangular superior.
Por lo tanto, A = PS, en donde P = QcQT. . . QTd) Demuestre que PPT = P P = I,, y por lo tanto P es no singular y tiene
columnas ortonormales.
(Véase también el problema 14.)
14. Continuando con el desarrollo del problema 13, definase Q como la matriz
p x q que está formada por las primeras q columnas de P.
a) Demuestre que A = QR,
b) Suponiendo que el rango de A es q y recordando que P es no singular,
demuestre queel rango de S es q. Demuestre que el rango
de Res q , y por lo
tanto R es no singular. Concluya que A = QR es una descomposición
QR-normalizada de A.
15. Mediante el método matricial de Householder de los problemas 13 y 14
encuentre la descomposición QR-normalizada de la matriz A del problema6
y compruebe que se obtiene
L L
después
O
Y
&
"
3
-$I
O
"
3
272
5
I Vectores y espacios vectoriales
En este caso
Y?2
A=PS=
O
Jz
3
L2
T ]
y finalmente
A=QR=
L2
3
1
D 16. Mediante el método matricial de Householder de los problemas 13 y 14
encuentre una descomposición QR-normalizada de la matriz A del problema 8.
17. Si A es p x q , siendo p 2 q y el rango de A estrictamente menor que q ,
entonces el método matricial de Householder de los problemas 13 y 14 no
necesita producir una descomposición normalizada QR. Por ejemplo,
A=
[A
= Q R siendo Q = I,
y R=A
es la descomposicióa que producía
aplicación
la
directa del método
matricial
de Householder a A.
a) Demuestre que el rango de A es igual a 2.
b) Demuestre que ninguna de las dos columnas de Q genera el espacio de
columnas de A.
c)Concluyaque
no es posible obtener una descomposición
QRnormalizada de A a partir de las columnas de Q.
d) Demuestre que el método tradicional (o modificado) de Gram-Schmidt,
cuando se aplica a esta A produce tanto una descomposición QR no
normalizada como normalizada.
(Cuando el rango de A es menor que q , es posible implementar el método
matricial de Householder con lo que se llama pivote0 de columna para
obtener la descomposición QR-normalizada de una matriz con columnas
permutadas; este método
se usa ampliamente en programación de computadoras para obtener descomposiciones QR.)
5.9
I Proyeccionesortogonales y bases: RP,CP, QR ymínimos cuadrados
273
9ll 18. Como se hizo en el ejemplo 5.84 para la matriz de Hilbert H6, utilice
MATLAB u otro software semejante para
medir qué tan cerca estála quinta
H, de depender linealmente de las primeras
columna de la matriz de Hilbert
cuatro columnas.
9ll 19. Cuando segrafican las varias potencias tipara O 5 t 5 1, las gráficas parecen
bastante semejantes; intuitivamente, parece que esas potenciasson linealmente dependientes.Por ejemplo, r‘, t5y t6 asilo parecen; se deseamedir qué
tan cerca están de ser linealmente dependientes cuando se consideran sus
valores en 0.1,0.2, 0.3,0.4,0.5, 0.6,0.7,0.8,0.9 y 1.0. Prepare una matriz
adecuada 10 x 3 y mediante MATLAB o software semejante mida qu6 tan
cerca están de ser linealmente dependientes, como en el ejemplo 5.84.
D a . Encuentre una descomposición normalizada QR para A y utilícela para
resolver el problema de mínimos cuadrados Ax= y, en donde
:]
A=[;
Y=[;].
y
21. Encuentre una descomposición QR-normalizada para A y utilícela para
resolver el problema de mínimos cuadrados Ax= y, en donde
A=[:
-y]
y
y=[:].
22.En la sección 2.3, se consideróun modelo de crecimiento con poblaciones en
competencia; esto condujo a un modelo de la forma
[::I
=
[: :l[‘c:1.
en donde se supuso en el ejemplo 2.16 que x1 = 0.6, x2= 0.5, x3 = -0.1 y x4 =
1.2. En la práctica,
el problema fácilmente podría ser el determinar valores de
los parámetros del modelo, x,, partiendo de datos reales de la población.
Utilice mínimos cuadrados para determinar los parámetros x, a modo de
coincidir con los “datos” de población de la tabla del ejemplo 2.16 que
muestra la evolución desde el tiempo i + 1 para i = 1,2,3,4,5, y véase cómo
se comparan los valores obtenidos con aquéllos que generaron los datos.
Podría ser necesario el uso de MATLAB o software semejante.
D23. Utilice una descomposición QR-normalizada para resolver el problema de
mínimos cuadrados del ejemplo 2.39.
24. Considere la matriz A del problema 10 con E como allí se describió, y
considere el problema de mínimos cuadrados Ax = y, en donde y = [2 3 2]*.
274
5
I Vectores y espaclos vectoriales
La verdadera solución de mínimos cuadrados es
a) Recordando que E es tal que la computadora evalúa a3 + 2~ + E* como
,
qué sería
calculado como las ecuaciones ATAx=
igual a 3 + 2 ~encuentre
ATy para encontrar x.
b) Demuestre que la única solución a este sistema calculado es
que está muy lejos de la solucióncorrecta de mínimoscuadrados que se dio
anteriormente.
(Esto ejemplifica por qué, en la práctica,no es satisfactorio el uso de ATAx =
ATycomo método computacional para resolver
problemas de mínimos cuadrados .)
25. En el problema 24 se mostró que el cálculo de ATA y posteriormente la
solución de ATAx = ATydaban resultados pobresen el problema de mínimos
cuadrados queallí se trató.En el problema 10 se encontró la descomposición
Q R computada paralamatriz
A. Utilice estadescomposición QRcomputada para resolver el problema de mínimos cuadrados del problema
24; después compararla respuesta que se obtiene con
la solución verdadera
y con la obtenida mediante el uso de ATA.
26. El argumento que llevó al teorema 5.85 demostró que existe una x. que
resuelve AHAxo= AHb (reemplazar por para el casoreal).
a) Demuestre que todax = x. + n también es unasolución si y sólo si AHAn
= O, y concluya de nH(AHAn) = IIAnll: que esto es válido
si y SÓ10 si
An = O.
b) Sustituyendo AHAxopor AHb, demuestre que
((Ax- q 1 ' 2 = llbll; - llAXc4'2 + I J ' W - x0)Il;
c) Concluya a partir de
b), que x minimiza a IIAx - b(Izsi y sólo si x = x. + n ,
en donde An = O.
d) Concluyas partir dea) y c), que x es solución parael problema de mínimos
cuadrados Ax= b si y sólo si AHAx = AHb.
5.10
PROBLEMAS VARIOS
PROBLEMAS 5.10
D 1. Demuestre que C puede considerarse como un espacio vectorial real.
2. Demuestre que C puede considerarse como un espacio vectorial complejo.
5.10
I
Problemas varios
275
3. Sea
el espacio vectorial real de los números complejos sobre el campo R;
demuestre queel conjunto detodos los números reales es un subespacio de
v.
D 4. Suponga que u>,u2y us forman un conjunto linealmente independiente, y
defina
VI = u 1
+ +
u2
u3, v2 = u 1
+ au2,
y
Y3 =u2
+ Bug.
Encuentre las condiciones de a y /3 para que las vi formen un conjunto
linealmente independiente.
D 5. Sea Y ; un subespacio de R P . Defina a Y '6 como el conjunto de todos los
vectores v en Rp que son ortogonales a todos los vectores en Yo.
a) Compruebe que Y; es un subespacio de Rp.
b) Suponga que p = 3 y que Yo tiene el conjunt0.de vectores
u 1 = [2
i
-3IT,
u2 = [-1
O
-2IT;
como su base. Encuentre una base para Y;.
6. Sea B = { 1 + I; I + r2;t2 + P;P}una base ordenada del espacio
vectorial real
P4de polinomios congrado estrictamente menor que 4. Mediante el isomorfismo de coordenadas cEpara convertirloen un problema en R4,extienda el
conjunto {I + 2t + t2, t} hasta formar una base de y4.
7. Considere la base ordenadaB y el espacio P4del problema 6. Mediante el
isomorfismo de coordenadas cE para convertirlo en un problema en R4,
forme una base para P4de entre los vectores
1 + 2t + t2, t + 2 t 2 + t3, 1 + t - t 2 - t3, t2
+ 2t3, t3,
1 + t + t3
8. Demuestre que el rango k de una matriz A es el orden de la mayorsubmatriz
cuadrada no singular de A completandolos detalles del siguiente esquema de
A tiene rango k y considere una submatrizp X
la demostración. Suponga que
p siendo p > k . Demuestre que los p renglones de la submatriz forman un
conjunto dependienteya que los p renglones de A así lo hacen (porque p > k
= rango de A); deduzca además que
la submatriz es singular. Escoja cualesquiera k renglones de A que formen un subconjunto independiente; entonces
el rango de la matriz de esosk renglones es k de modo que hay k columnas de
esta matriz que forman un conjunto independiente. Deduzca que
la submatriz k X k resultante es no singular. A la inversa, suponga que k es el orden
máximo de submatrices no singulares y escoja una submatriz k X k . Como
los renglones de la submatriz forman un conjunto linealmente independiente, demuestre que los k renglones correspondientes a A forman un
conjunto linealmente independiente y entonces deduzcaque el rango de A no
es menor que k . A continuación, suponga quealgún subconjunto de p
renglones de A es linealmente independiente; deduzca comoen la primera
276
5
I
Vectores y espacios vectorlales
parte de la demostración de esteteorema, quealguna submatriz p x p es no
singular, y entonces p Ik . Como entonces k es el máximo número de
renglones de A en cualquier conjunto linealmente independiente, deduzca
que k es igual al rango de A.
D 9. Considerando la l\u - av11; y escogiendo cy para hacer cero esta expresión,
demuestre que:
a) JuTvI= I[u1121\v11z
para ciertasu y v en Iwp (si y) sólo si u y v forman un conjunto
linealmente dependiente;
b) El mismo resultado es válido sustituyendo la por la cuando u y v e s t h
en CP.
10. Demuestre quela descomposición QR normalizada A = QR es única si la A,
p x q , tiene rango q y si a R se le obliga a tener elementos positivos en su
diagonal principal.
D 11. Suponga que B = {vl, . . . , v,} es una base y que
vg = C l l V l
+ . . + clqvq.
‘
a) Demuestre quecualquier vector v icuyo coeficiente aien la ecuación de
arriba sea diferente de cero, puede reemplazarse en B por vo y que el
conjunto resultante también será una base.
b) Demuestre que si el coeficiente ai es cero, entonces el conjunto resultante no es una base.
Sn 12. Mediante el MATLAB o software semejante encuentre una descomposición
QR normalizada y úsela para resolver el problema de mínimos cuadrados,
problema 3 de la sección 2.6 (para predecirla población de Estados
Unidos en 1990).
13. Demuestre que hay una matriz (compleja) de Householder
H, = 1’- (~/w”w)ww’
tal que H,x = y si y sólo si I(X((~ = I(Y/(~ y x“y es real.
6
Transformaciones lineales y matrices
Gran parte del poder Algebra
del
lineal y de las matrices viene
no sdlo de la
capacidad de representar con vectores muchos objetos de inter&
en las
aplicaciones, sino tambihn de representar muchas de las operaciones o
transformaciones operadas sobre
esos objetos por ejemploen modelos en
los que las entradas a algunos procesos se transforman en salidas. Este
capitulo desarrollala teoria bAsica de tales transformaciones; losteoremas
clave son 6.14, 6.20, 6.23, 6.26 y el 6.28.
6.1
INTRODUCCION;TRANSFORMACIONESLINEALES
Muchos problemas en matemáticas aplicadasinvolucran el estudio detransformaciones -el modo enel que ciertos datos de entradatransforman
se
en datos de
salida. Por ejemplo, los factores queproducen ciertas ganancias para un negocio,
partiendo de cierta estructura de precios y manufactura, pueden visualizarse
y producción) en salidas
como una transformación de entradas (datos precios
de
(estructura de ganancias). En muchos modelos matemáticos muchas veces resulta que las transformacionesson lineales en el sentido de quela suma de dos
entradas se transforma enla suma de sus salidas individuales y un múltiplo de
una entrada se transforma en ese múltiplo de su salida. La ecuación (2.4)
representa una transformación lineal como se ha descrito (de la estructura del
del mes siguiente), así como en (2.13) (de la
mercado de un mes que determina la
estructura de la población en cierto momento que determina la de algún momentoposterior).Elmatemáticoaplicadointentadeducirpropiedadesde
las transformaciones relevantes asícomo aprender sobre las propieades de las
estructuras reales que se están modelando.En este capítulo se presentaalgo de
terminología básica y algunos hechos sobre transformaciones lineales entre
espacios vectoriales.
277
278
6
/
Transformaciones
lineales
y matrices
Transfonnaciones lineales
(6.1)
Definiciún. Sean Y y W espacios vectoriales ambos reales (o ambos
complejos). Una trunsformacion lineal F de Y -llamada el dominiod e F a W-llamada el contradominio de F- es una correspondencia que asigna a
cada vector v en Y un vector F ( v ) en W de tal manera que:
a) Y ( v l vz) = F ( v , ) + F ( v z ) para todos los vectores v1 y vz.
b) F ( a v ) = a F ( v ) para todo vector v y escalar (Y.
{Equivalentemente, F ( a l v l + azvz) = a l F ( v l ) + cxzF(vz) para todos
los vectores vl, v2 y escalares a l , a2.}
+
(6.2)
Ejemplo.
a) Sean Y = R4 y W = Rp, y suponga que A es una matriz real p x q .
Entonces F definida por F ( v ) = Av es una transformación lineal de Y
a W. Desde luego, lo mismo es válido para C4 y C p .
b) Sea Y'" = W = C[a, b], espacio de las funciones continuas de valor real
en a It I6; suponga que.flt) es una función continua. Entonces F se
define haciendo que F ( x ) aquella función cuyo valor en t esAt)x(t) es
una transformación lineal de "fa W.
c) Si Y es un espacio vectorialreal de dimensión p y B es una base
ordenada de Y'",entonces el isomorfismo de coordenadas cB es una
transformación lineal de Y a W = Rp.
d) Sea Y = cY2'[0, 11 el espacio de funciones continuas diferenciables dos
veces en [O, 11, y sea F ( v ) aquella función cuyo valor en t es igual a
d
dv(0
Y(v)(t) = - (1 + t)
- (3
dt
dt
~
+ e')v(t).
F es una transformación lineal de Y a W = C[O, 11 del inciso b).
e) Suponga que V y W son, ambos, espacios vectoriales reales (o ambos
complejos), y denomínese 2 = 2(V,W) al conjunto de todas las
transformaciones lineales de V a W. La suma Fl + Fzde doselementos en 2 se puede definir como aquella transformación en donde
(Y1
+ F Z ) ( V ) = F1(v) + Yz(v);
Fl + F2
es una transformación lineal de V a W, esto es, que está en2.
De igual modo, definiendo a 9 para escalares (Y por
( a F ) ( v ) = a{F(v)};
a y está en 9.
La transformación cero O tal que @(Y)= O en W para
El conjunto 2(Y,W) con las operaciones como se
toda v está en 9.
definieron, es un espacio vectorial real (o complejo).
6.1
/
Introducci6n; transformaciones
lineales
279
Para comprobar que cadauno de los objetos del ejemplo 6.2 es verdaderamente una transformación lineal, se deberán verificar las dos condiciones de la
definición 6.1. Por ejemplo, en 6.2 a) se tiene que
F(v,
+ v2) = A(v, + v2) = A V , + AV, = F ( v , ) + Y ( v 2 )
y también
.F(c~v)= A(CXV)
= C ~ A=
V CXF(V).
Véanse los problemas del 4 al 7
Espacio imagen y espacio nulo
El ejemplo6.2 a) muestra que las transformaciones lineales son generalizaciones
de multiplicación de matrices por vectores - Y @ ) = Av. Se sabe, desde luego,
que las ecuaciones Ax = b son importantes como representaciones de sistemas
Por lo tanto, las ecuaciones F ( v )
de ecuaciones lineales con incógnitas xi= (x)~.
= w cuando w está dado y hay que encontrar v son generalizaciones de la
conocida ecuación Ax = b. Por ejemplo, una ecuación en donde F se define
como en el ejemplo6.2 d), es una ecuación diferencial ordinaria y es muy importante en las aplicaciones prácticas. Por lo tanto, se considerará la existencia de
soluciones de las ecuaciones F ( v ) = w.
Es evidente, desdeluego, que F ( v ) = w tiene una solución v si y sólo si w se
produce mediante Fpartiendo de algún vector en V. Considere el conjunto Y1 'o
de todos estos vectores en W:Wo es igual al conjunto de todos los vectores wo
en W tales que wo = F ( v o ) para algún vo en V. Es fácil usar el teorema 5.12 del
subespacio para comprobar que Wo es realmente un subespacio de V. Por
Woy a es un escalar, entonces c m o está en Woporque awo
ejemplo, si woestá en
= a F ( v 0 ) = F(mv0), siendo vo un vector en
para el que F ( v o ) = wo.
(6.3)
Definición. El espacio imagen de la transformación lineal F de Y a W es
aquel subespacio Wode W que consiste en todos los vectores woen W que
son iguales a F ( v 0 ) para alguna vo en V.
Con estadefinición, es lógico que laecuaciónF ( v ) = w puede resolverse cuando
w se escoge arbitrariamente en W si y sólo siel espacio imagen de Y es
efectivamente todo W, se dice que envía a Y s o b r e V. Así, lageneralización
de la pregunta que nos preocupó tanto con las matrices -¿puede Ax = b tener
siempre solución?- se contesta mediante el estudio del espacio imagen de Y y la
comprobación de su igualdad a todo W . Resumiendo:
(6.4)
Teorema (existencia de solución de ecuaciones). Suponga quees
transformación lineal de V a W .
una
280
6
Transformaclones
llneales
/
y matrices
a) Dada w, la ecuación F ( v ) = w se puede resolver
si y sólo si w está en el
espacio imagen de F.
b) Se puede encontrar v que resuelva F ( v ) = w para unaw arbitraria en W
si y sólo si 9envía a Y sobre W -esto es, el espacio imagen de .Yes
igual a W.
Otra pregunta que setenía al resolver Ax = b era la unicidad -¿hay a lo más
una solución de Ax = b? En un panorama más general, se preguntará si puede
haber más de un v que resuelva F ( v ) = w; si se supone que v, y v2 lo hacen,
entonces O = w - w = Y(vl)- F ( v 2 ) = F ( v l - VJ, lo que simplemente dice que
v1 - v2resuelve laecuación homogénea F ( v ) = O, exactamente comoen el teorema clave 4.16. Así la cuestión de la unicidad depende del conjunto de todas
las soluciones de Y ( v ) = O. El teorema 5.12 del subespacio de nuevo muestra fácilmente que Yo es un subespacio de Y; por ejemplo, si v, y v2 están en
Yo,entonces también está v1 + v2 ya que
’
F ( v l + v2) = q v , ) + q v , ) = o
+ o = o.
Definicio’n. El espacio nulo (o nlicleo) Yode la transformación lineal F d e
Y a W es el subespacio
de Y que consisteen todos aquellos vectores v
en Y que satisfacen la ecuación F ( v ) = O en W .
(6.5)
El argumento que precededefinición
a la
6.5 muestra que fácil
es generalizar
el corolario 4.17 como sigue.
(6.6)
Teorema (unicidad de soluciones). La ecuación .Y(v) = w tiene a lo más
una solución v si y sólo si el espacio nulo de F es solamente {O}.
Las relaciones entre el dominio Y,
el contradominio W , el espacio
nulo %, y el espacio imagen Wo para una transformación
se ilustran
esquemáticamente en (6.7)
El esquema anterior parecesugerir que el “encogimiento” del espacio nulo
Yoen Y hasta el vector O en W es algo similar al“encogimiento” de Y hasta el
6.1
I
Introducci6n; transformaciones lineales
281
espacio imagen Vo. El siguiente teorema muestra que esto es correcto en
términos de dimensión.
(6.8)
Teorema (dominio, imagen y espacionulo).Suponga quees
una transW, entonces:
formación lineal del espacio de dimensión finita a
a) La dimensión deldominio
es igual a la suma de la dimensión del
espacio nulo “Yo y la dimensión del espacio imagen Wo.
b) Con mayor detalle:Si { y ( v l ) , y ( v 2 ) , . . . , y(vk)} es una base para Wo y
{nl,n2, . . . , nr} esuna base paraentonceselconjunto
{vl, v2,
. . . > vk, n l , n2, . . . “ r j1
9
es una base para el dominio V.
DEMOSTRACION. Primero, observe que
tiene alguna base finita {xl,
...,
x}, para algunap. Como toda w,,en Wo es dela forma F ( v ) para alguna v en
V, y ya que tal v es igual a a l x l . . . apxp para escalares ai a&-
+
+
cuados, se tiene que
wo = F ( v ) = F ( a l x l
+ . . . + apxp)= alF(xl) + . . . + a,F(x,),
lo que dice que .?(xl), . . . , Y ( x p ) generan a Y&. Así, Wo es dedimensión
finita; igualmente, “Yo es de dimensión finita porque es un subespacio de
^Y,que es dedimensión finita y no puede haber más de p vectores en un
conjunto linealmente independiente. Porlo tanto, todaslas dimensiones de
la parte a) del teorema tienen sentido y puesto que dicha partees consecuencia inmediata de b), se estudiarásólo ab). Como Wo es de dimensión
finita, tiene una base de, digamos, k vectores, cada uno de los cuales es
igual a alguna F ( v ) ; es decir, Wo tiene bases de la forma { F ( v l ) , . . . ,
F ( v k ) ) . Sea {nl, . . . , nr} una base para Yo.Se debe demostrar que
B = { v l , . . . ,vk, n l , . . . , n,}
es una base de V: un conjunto generador linealmente independiente.
(independencia lineal). Suponga que
alvl
+ .. . +
+ Plnl + . . . + Blnr = O.
Entonces
+
+
a l F ( v 1 ) + . . ‘ + akF(vk) = F ( a l v 1 . ’ . akvk)
$(O - binl - . . . - Brnr)
= F(0) - f i l F ( n l ) - . . . - &F(n,) = O
porque las ni están en ^Yo. Pero como las
F ( v i ) forman una base para Wo, la
únicacombinación de esos vectores queigual
es a O usa coeficientes cero,
282
6
Transformaciones
lineales
/
y matrices
entonces todas las ai deben ser iguales a O . Pero entonces queda una
combinación de las ni (linealmente independientes) queda0 lo que significa
que también las pi deben ser iguales a cero. Por lo tanto, B es linealmente
independiente.
(generación). Para toda v en Y',se escribe Y ( v ) como combinación
lineal de F ( v i ) :
y ( v ) = "1F(v,)
+ . . + Mky(vk).
'
Entonces vo definida como
vg = v - a l v l - .
' '
- "kvk
está en V i porque
Y ( v o ) = F ( v ) - X l . F ( V l ) - . - X k T ( V k ) = o.
I
'
Por lo tanto, vo puede escribirse como una combinación de las ni:
r
;
vo = p l n l
+ . . . + &nr.
Pero esto dice que
v = vo
+ z l v l + . . + rkvk = Binl + . . . + Brnr + a l v l + . . . + "kv,',
I
y así B genera a V.
~~
Ahora podrá resolver los problemas del 1 al 20.
Inversas y adjuntas de transformaciones lineales
Al combinar los teoremas 6.4 y 6.6 se demuestra que
la ecuación F ( v ) = w tiene
y el
una solución única v para cada w si y sólo si el espacio imagen de F es
espacio nulo es {O}. Sin embargo, sepuede decir más: la correspondencia dew a
esa única v que resuelve F ( v ) = w es en realidad una transformación lineal.
^ w ^
(6.9)
Teorema (inversas). Laecuación F ( v ) = w tiene una solución únicav en
para cadaw en W si y sólo si a) el espacio imagen de Y es igual a w, y b) el
espacio nulo de es igual a {O}. Cuando son válidos a) y b), la correspondencia de w a la solución v es lineal y se le designa como v = F"(w), de
modo que
qF-l(w)] =w
y
Y-l{F(v)}
=v
para toda w en W y toda v en F .
DEMOSTRACION. La primera parte es consecuencia inmediata de los teoremas 6.4 y 6.6; queda por demostrar que la correspondencia Y-l de w a v es
6.1
I
Introducci6n; transformaciones
lineales
283
una transformación lineal -se debe comprobar con la definición 6. l . Primero, considere5 - l (w, + w2);definase v1 = F-l(wl) y v2 = F-l (w2)como
la solución únicade F ( v , ) = w 1 y F ( v 2 ) = w 2 . Entonces, debido aque F es
lineal,
+ v2) = Y ( v l ) + F ( V & = w1 + w2.
Como esto significa que v1 + vg es solución de F ( v ) = w1 + w2y como tales
F(V1
soluciones son únicas, se deduce que
v1 + v2 = F - l ( w l
+ w2)
-estoes, F - l ( w 1 + w2) = F - l ( w 1 ) + F - l ( w 2 ) . El argumento para 9 - l
(awl)
es igual a
F ( a v l ) = a Y ( v l ) = awl,
así que F - ' ( a w 1 ) = a v l = a F - ' ( W l ) . Finalmente, las afirmaciones resson consecuencia inmediata de la definición
pecto a FY-l y a
de Y-'.
La inversa F-l se produce de la transformación lineal Fcuando son válidas
las condiciones anteriores. Hay otra transformación lineal que puede producirse
de Y que resulta serimportante en las aplicaciones -la transformacion adjunta
(no tiene relación con la matriz adjunta que se discutió en relación con los
determinantes en la sección 4.6).
(6.10)
Definicidn. Sea F una transformación lineal de Y, que tiene producto
interior
W quetieneproducto interior
Si existe una transformación lineal Y* de W a Y tal que
(m
,
s
)
~
.
(F(v), w ) =
~ (v, F * ( W ) ) ~ para toda v en Y y w en W
entonces se llama esa F* la transformación adjunta de F .
(6.1I )
Ejemplo. Suponga que la matriz realp x q A define la transformación lineal
F d e Y = OXq a
= RP del modo acostumbrado: Y ( v ) = Av. Suponga
que Y" y W tienen los productos interiores estándar:(x, y) = xTy. Entonces
se tendrá
Y+<
(Y(v), w ) =~ (AV, w ) =~ ( A v ) ~ w= vT(ATw) = (v, ATw),,
lo cual significa que la transformación adjuntaY*justamente se define por
AT:Y * ( w ) = ATw. Observe quesi se usaran Cq y C p , entonces F* estaría
definida por AHen vez de por AT. Esto demuestra que la transformación
284
6
I
Transformaciones
lineales
y matrices
adjunta es unageneralización de la útil transpuesta -lo cual da una idea de
su importancia.
Véanse los problemas del 24 al 27 para tener en cuenta algunas propiedades
importantes de las transformaciones adjuntas.
PROBLEMAS 6.7
D 1. Como se afirmó en ladefinición 6.1, demuestre que las condiciones a) y b) de
esa definición son equivalentes a la condición
F(a,v,
+ a2v2) = cc,F(v,) + cc2F(v2).
D 2. La transformación identidad 4 de 9-a -Y- se define como Y(v) = v para
toda v en Y. Demuestre que .Y es una transformación lineal.
3. La transformación cero 8 de Y a W se define como cO(v) = O en -1y- para
toda v en V. Demuestre que 0 es una transformación lineal.
4. Demuestre que el ejemplo 6.2 a) define una transformación lineal.
5. Demuestre que los ejemplos 6.2 b) y d) definen transformaciones lineales.
6. Demuestre que el ejemplo 6.2 c) define una transformación lineal.
7. Demuestre que Y(V, w') del ejemplo 6.2 e) es un espacio vectorial
D 8. Suponga que 9 es una transformación lineal de Y a W y que F es una
transformación lineal de W a 2". Demuestre que 9
9
'
es unatransformación
en donde FLY se define por (FLY)(v) = F { Y ( v ) } para todav
lineal de Y a 3,
en Y; demuestre que Y F no está definida a menos que V = 2".
9. Demuestre que el espacioimagen de unatransformación lineal F d e Y a w'
es un subespacio de $4".
10. Encuentre unafórmula para todoslos vectores en el espacio imagen de Y, en
donde Y va de R2 a IR3 y está definida por F ( v ) = Av para
D 11. Sea F l a transformación lineal de Rq a Rp definida por F ( v ) = Av, en donde
A es una matriz p X q . Demuestre que el espacio imagen de F es igual al
espacio de columnas de A.
12. Encuentre el espacio imagen de la transformación F del ejemplo 6.2 b)
suponiendo queAt) # O para toda t .
6.1
I
Introduccibn; transformaciones lineales
285
13. F es unatransformación
lineal desde P [ O , 11 -el espaciodetodas
las funciones continuamente diferenciales en [O, 11- a C[O, 11-el espacio
de las funciones continuas en ese intervalo. Para today en P [ O , 11, F(y)
es lafunción cuyovalor en t es igual a y'(b) + y ( t ) ,en donde laprima quiere
decir diferenciar con respecto
a t . Demuestre que el espacio imagen de Y e s
todo C[O, 11.
D 14. Demuestre que el espacio nulo de una transformación lineal 9 d e Y a W es
un subespacio de Y.
15. Demuestre el teorema6.6 sobre la unicidad de soluciones.
16. Encuentre una base para el espacionulo de la transformación F de R5 a
R4 definida por 9 ( v ) = Av, en donde
r 1
2
6
-2
-4
1
2-31
4 -1
-3
3
-5
17. Demuestre que 9 ( x ) = F ( y ) si y sólo si x - y está en el espacio nulo de T .
D 18. Sea A una matrizp X q con rango k , y defina F ( v ) = Av. Demuestre que la
dimensión del espacio nulo de Y es igual a q - k .
19. Se dice que una transformación F es inyectiva si y sólo si 9 ( x ) = $(y)
implica que x = y. Demuestre que una transformación lineal es inyectiva si y
sólo si el espacio nulo de F es igual a {O}.
20. Encuentre una base para el dominiode 5del tipo descrito en el teorema6.8
si F(v) = Av y
D 21. Determine si la transformación definida en el problema 13 tiene inversa.
22. Suponga queY e s la transformación de IRp a R P definida por Y(v) = Av para
alguna matriz A, p X p . Demuestre que 9tiene una inversa si y sólo si A es
no singular, y que entonces 9 - ' ( w ) = A"w.
23. Suponga que Y es una transformación lineal de Y a W y que 5 es una
9inversas,
transformación lineal de W a 3;suponiendo que tanto Y como
'=
demuestre que9Y-véase el problema 8- tiene una inversa y que (99)y- I F - 1
D 24. Suponga que F es la transformación lineal de Cq a CP definida por 9 ( v ) =
Av para alguna matriz A, p X q . Demuestre que 9*
existe mostrando que
Y*(w) = AHw.
286
6
Transformaclones lhneales y matrices
/
25. Demuestre que (F*)*= F.
26. Extienda el problema 5 de la sección 5.10 como sigue: suponga que Y es un
espacio vectorial con un producto interior y que Yoes un subespacio. Defina
de Yo comoel conjunto de vectores v
el complemento ortogonal VOL
ortogonales a todos los vectores en Yo.Demuestre que VOL
es un subespa-
cio.
b 27. Suponga que F es una transformación lineal de Y a W , cada uno con
productos interiores, y que existe la transformación adjunta Y*. Sea M el
espacio nulo de F y sea 9*el espacio imagen de .Y*.
a) Demuestre que (a*)'
= AT (véase el problema 26).
b) Utilice laproyección ortogonal sobre 91?*para demostrar quesi 9*es de
dimensión finita. N' = a*.
6.2
REPRESENTACIONES MATRICIALES DE
TRANSFORMACIONES LINEALES
En la sección 5.4 se vioque todo espacio vectorial real o complejo de dimensión
finita es básicamente R P o C P . Se vio también en el ejemplo 6.2 a) que las
matrices p X q definen transformaciones lineales entre R4 y Rp. Estos hechos
dan una pista sobre el hecho fundamental con respecto a las transformaciones
lineales definidas entre espacios vectoriales de dimensión finita: cada una no es
más que una multiplicación matricial.
Representaciones matriciales
Suponga que B = {v,; . . . ;v,) es una base ordenada de Y-, que C = {wl; . . . ;
wp} es una base ordenadade W , y que Y es una transformación lineal de V a W .
Para cada vj en B , ya que Y(vj) está en W , se puede escribir en términos de la
base ordenada C:
(6.12)
9(Vj) = Q l j W l
+ u,jw, + . . . + upjwp.
Esto quiere decir, en términos del isomorfismo de coordenadas cc
CC(Vj) = [u1j . .
'
A continuación, se escribe v en "fen términos de sus coordenadas en B:
v = X l V 1 + . . + xqvq,
'
de modo que c,(v) = [x, . . . x J T . A continuación se calcula F ( v ) :
F ( v ) = F(X1V, + . . + xqvq) = x l F ( v l ) + . . . + x q F ( v q )
= x1(cI11w1
u21w2 . . UplWp) . . . Xq(cIlqW1
= y,w,
' . ypwp,
'
+
+
'
+
+
'
+
+
+
+ . . + apqwp)
'
6.2
/
Representaciones
rnatriciales
de transformaciones
lineales
287
en donde las y i son las coordenadas en C de Y(v) y se calculan de
(6.13)
yi = U i l X l
+
ffi2x2
+ . . . + uiqxq.
Si ahora sedefine la matriz A, p X q por los elementos (A)U= ail en donde las ail
están definidas como en (6.12), ve
seque las coordenadas
en C y = c,-{F(v)} de la
salida F ( v ) se relacionan con las coordenadas en B , x = cB(v)de la entrada v de
acuerdo a (6.13) por una multiplicaciónmatricial: y = Ax. De este modo,en vez
de aplicarFdirectamente av, es posible, en su lugar, 1) encontrar las coordenadas
en B x de v en “Y-,2) calcular y = Ax y 3), usar los elementos de y como las
coordenadas en C para formar un vector w en W ;w será lo mismo que F ( v ) .
Entonces todas las transformaciones lineales entre espacios vectoriales de dimensión finita reales o complejos son equivalentes a la multiplicación matricial
en los vectores de coordenadas. Se ha demostrado:
(6.14)
El diagrama 6.15 representa esquemáticamentee1 teorema clave 6.14.
(6.15)
Y
.Ir
+
coordenadas en C
y de w en 08‘’
o cp:
coordenadas en B
x de v en U
P
o
cy:
X
(6.16)
./lr
w = Y(v)en W
v e n *Y
A
+
y = AX
Ejemplo. Sea V e l espacio vectorial real P3de los polinomios con grado
estrictamente menorque 3 y sea W el espacio análogo P2.Se define Y de
*Y- a W por
288
6
/
Transformaciones lineales y matrices
Sea B la base ordenada para Y, B = { 1 + t ; t + t 2 ; t2 + 1) y sea C la base
ordenada para W, C = { 1 + t ; 1 - t}. Es posible evaluar T e n términos de
los polinomios mismos por
Y ( u + bt + C t 2 ) = b + ct.
Para representar T por una matriz A, se deben encontrar lasuij de (6.12)
como sigue:
+ t ) = 1 = 0.5(1 + t ) + 0.5(1 - t),
S(t +
= 1 + t = l(1 + t ) + O(1 - t )
F ( t 2 + 1) = t = 0.5(1 + t ) - 0.5(1 t).
"(1
t2)
-
Esto resulta en
A
[:::
1
O
0.51
-0.5
como la matrizque representa aFcon respecto a las bases ordenadas
By
C. Para comprobaresto, secalcula Y(1 + t + t 2 ) de kos maneras: directamente de Y e indirectamente a través de A. Para usar A, se necesitarán
primero x, las coordenadas en B de
1
+ t + t2 = OS(1 + t ) + 0S(t + t 2 ) + 0.5(t2 + l),
yentoncesxdebe serx= [ O S 0.5 0.51'. Por lo tanto,a
lscoordenadas en C ,
y, de F ( 1+ t t2)deberían serAx = [ 1 O]'. Usando estos elementos como
coordenadas en C, resulta
+
l(1 + t ) + O(1 - t ) = 1
+ t.
Por lo tanto, de acuerdo al cálculo usando A,
T ( 1 + t + t 2 ) = 1 + t;
es fácil ver que esto es correcto usando la definición de 9.
Ahora podrci resolver los problemas del 1 al 12.
Cambio de base
La representación A para una transformación lineal S que se construyó anteriormente depende fuertemente delas bases ordenadasB y C usadas en ^Y y en
W. Si se cambian las bases, entonces la matriz A de la representación debe
cambiarse. La pregunta es: ¿cómo?
El teoremaclave 5.43 explicó cómo se
By
relacionan las coordenadas de
un vector con respecto a dos bases ordenadas
6.2
/
Rewesentaciones matriciales de transformaciones
lineales
289
B'; se puede usar fácilmente para explicar cómocambian las representaciones
matriciales de transformaciones lineales
(6.17)
Teorema (cambio de base y representaciones). Suponga que una transformación lineal F d e -Y- a W se representa por una matriz A con respecto a
las bases ordenadas B y C de Y y W , como en el teorema clave 6.14.
También suponga que seintroducen nuevas bases ordenadasB' y C' de -Y- y
W. Si las coordenadas en B , vBy las coordenadas en B', v,.,, de los vectores
Y , están relacionadas por la matriz
no singular P (llamada M en el teorema
clave 5.43) por vB = Pv,, ,y si las coordenadasen C , wc ylas coordenadas en
C' ,wc, de los vectores w,están relacionadas por la matriz no singular S por
wc = Sw,. ,entonces la matriz A' que representa con respecto a las bases
ordenadas B' y C' es A' = S"AP.
DEMOSTRACION. El problema es encontrarla matriz A' tal que w = y ( v ) sea
equivalente a wc, = A'v,.. Se sabe quew = r ( v ) es equivalente a wc = AV, y
se tiene que V, = Pvw y'wc = Sw,.
De todo lo anterior se obtiene que
wcr = S"wc = S"AV, = S"APV,, = A'v,, siendo
que es lo que se había afirmado.
A' = S ' A P ,
m
Una situación común es que Y = W, B = C y B' = C ' , en cuyo caso S = P.
(6.18)
Ejemplo. Considere la matriz A del ejemplo 2.17 sobre las poblaciones en
competencia, en donde se encontró experimentalmenteque las distribu= A*x, tendían a cero cuando i se hacía grande,
ciones de población
aunque no se pudo probar que esto
siempre pasaría. A define una transformación lineal Fde -Y- = Iw2 a W = Iwz por F ( v ) = Av y de hecho y está
representada por A con respecto a las bases ordenadas B = C = {e,; ez}
-véase el problema 10. Suponga queen su lugar se consideran las nuevas
bases ordenadas
B' = c = ([S
De acuerdo al teorema clave5.43 las matrices P = S que hacenel cambio de
coordenadas se encuentran fácilmente y son
S =P =
[i y],
y asíseobtiene
S"
= P"
=
[2 ; !J.
A continuación se usará el teorema 6.17 para descubrir la forma
en que F
está representada con respecto a las nuevas bases ordenadasB' y C' por
290
6
I
Transformaciones lineales y matrices
Esta representación deY hace mucho más fácilque A la tareade imaginar
lo que pasa cuando Y se aplica repetidamente a una distribución inicial de
poblaciones xl.Aplicar Y repetidamente a x1 es equivalente amultiplicar
A' repetidamente por las coordenadas en B' de xl. Pero esfácil notar, por la
forma especial deA', que la multiplicación repetida por A' -esto es,(A')t
sólo es
matriz en la cual cada elemento
tiende a cero cuando
i se hace grande. Así,
las coordenadas en C' de xi+l-que es igual a (A')i por las coordenadas en B'
de xl- deben tender a cero,
lo que demuestra quelas poblaciones xi tienden
a cero sin importar la población inicial.
Las bases especiales B' y C' del ejemplo 6.18 fueron la clave para obtener
una representación tan sencilla de .Fcon la que sepudo ver lo que sucedía a las
poblaciones. El cambio de bases para obtener una representación sencillade
una
transformación lineal a menudo es un pasofundamental enel estudiode
una transformación y la aplicación que modela. El problema que queda es
cómo escoger una base ordenada para
que la representación sea simple.Se retomará esta dificultad en el capítulo 7.
PROBLEMAS 6.2
D 1. Sea 9 la transformación identidad 9 ( v ) = v de Y - a Y-,en donde Y- es de
dimensión finita y en donde se usa la misma base ordenada para V como
matricial
dominio y contradomino de 9. Encuentrelarepresentación
de Y .
2. Sea 6 la transformación cero f?(v) = O de Y- a W, ambos de dimensión
finita. Encuentre la representación matricial de O.
D 3. Sea -Y- igual a P 3 ,el espacio de polinomios con grado estrictamente menor
que 3 , y sea W el espacio análogo P4,
Defina Y de ^t. a %" de modo que,
para cada polinomiofen-Y-,S@sea el polinomiode W cuyo valor en t sea
igual a rAt>+ (f(r) - AO)}/t.Encuentre la representación matricial de Y con
respecto a las bases ordenadas
B = { I ; 1 + t; 1 + t + t 2 }
para Y",
Y
C = { 1; t - t; 1 + 2t
+ t 2 ; 1 - 3t + 3t2
-
t3)
para W"'
Compruebe que la representación es correcta calculando
Y(-2 + 3t - P) de
dos maneras.
6.2
/
Representaciones
rnatriclales
de transformaciones
lineales
291
4. Sea V = W de dimensión p y sea 9 la transformación identidad 9 ( v ) = v
para todav. Sea B la base ordenada que se
usa para V como el dominiode 9,
y sea B una base ordenadadistinta usada paraY como el contradominio de
9. Compare la matriz que representa a 9 con las matrices generadas para
cambiar las bases del teorema clave 5.43.
5. Sean P3y P4los espacios del problema 3 y sea F la transformación lineal de
P4a P3que transforma cadapolinomio en su derivada. Encuentrela representación matricial de F con respecto a las bases ordenadas
B = { I ; t ; t2; t 3 } para P4
Y
c = { 1; t; t 2 }
para P3.
Compruebe quela representación es correcta calculando Y(1 + 2t + t2 + t3)
de dos maneras.
D 6. Sea P4como en el problema 3 y sea la transformación lineal de P4a Y4
que transforma cada polinomio f en la derivada de r f l t ) . Utilice la base
ordenada (1; t ; t2; t3} de . P 4 tanto como dominio como contradominio para
encontrar una representación matricial de F y compruebe quela representación es correcta calculando F { 2 - 3r + t2 - t“} por dos caminos.
7. Suponga queX representa a Y de -Y- a W con respecto a las bases ordenadas
B para V y C para W, y suponga que Y representa a Y y W a %” con respecto
C para W y D parab. Demuestre queYX representan
a las bases ordenadas
9’Y con respecto a B para V y a D para 2’.
8. Suponga que A representa a F de V a Y con respecto a alguna base
ordenada usada en Ycomo dominio y como contradominio. Demuestre que
A* representa a F para enteros i > O..
D 9. Suponga que A representa a F de %e a W.Demuestre queY-1existe si y sólo
si A es no singular, y que entonces A” representa a Y-I.
10. Suponga que A es una matriz p X q y que F ( v ) = Av como de costumbre.
Demuestre que A representa a Y con respecto a las bases ordenadas
{el; . . . ; eg} del dominio y {el; . . . ; e,} del contradominio.
D 11. Suponga queA representa a y de Y a W con respecto a las bases ordenadas
B para V y C para W. Demuestre que F ( v ) = O si y sólo si Av, = O, en donde
V, representa las coordenadas en B de v.
12. Con la nomenclatura del problema 1 1 , demuestre quew está en el espacio
imagen de F s i y sólo si las coordenadas en C de w, wc, están en elespacio de
columnas de A.
D 13. Sea la transformación lineal w = F ( v ) de R2 a R 3 definida por
w1 = u1 - 0 2 ,
w2 = 20,
+ u2,
y
w3 = u, - 20,
292
6
/
Transformaciones lineales y matrices
en donde v = [v, u J y w = [w,w 2w J T .Encuentre la matriz A que representa
a F con respecto a las bases ordenadasB = {e,; eJ para R2 y C = { e , ; e,; eJ
para R3. Compruebe calculando F([2 1]T) por dos caminos
14. Sea B’ = {[ 1 OIT; [ 1 1T). Mediante el teorema6.17, encuentre la matriz que
representa a Y del problema 13 con respecto a B‘ y C. Compruebe calcu-
lando F ( [ 2 117 de dos maneras.
15. Sea C’ = {[l 2 1IT; [O 3 - 1IT;[O O 13q. Mediante el teorema 6.17
encuentre lamatriz que representa aY del problema 13 con respecto a B y a
C . Compruebe calculando F ( [ 2 1IT) por dos caminos.
D 16. Mediante el teorema 6.17 encuentre la matriz que representa a del problema 13 con respecto aB‘ del problema 14 y C‘ del problema 15. Compruebe
calculandoF([2 117 de dos maneras.
17. Considere el modelo de crecimiento de población de la sección 2.3 con
k = O. 1 como en el ejemplo 2.16, en donde se demostró experimentalmente
que las poblaciones tendían al infinito. Siguiendo el ejemplo 6.18, analice el
comportamiento delas poblaciones a medida quei tiende a infinito mediante
dominio como para el
la base ordenada {[5 1IT; [ l 1]’> tantoparael
contradominio.
18. Considere elmodelo de crecimiento depoblación de la sección 2.3 con k =
0.16. Siguiendo el ejemplo 6.18, analice la conducta de las poblaciones a
medida que i tiende a infinito usando la base ordenada {[5 4IT;[S 2T) tanto
para el dominio como para el contradominio.
6.3
NORMAS DE TRANSFORMACIONES LINEALES Y MATRICES
Como se indicó anteriormente, el matemático aplicado a menudo estudia las
propiedades de transformaciones lineales tratando de entender
sus efectos sobre
las “entradas”. Un problema común es el de comprender el “tamaño” de la
transformación en el sentidodel tarnafio de sus efectos sobre las magnitudes de
esas entradas. Por ejemplo, en la sección 2.3 podría estar interesado en saber
cdánto puede amplificarse la población de gallinas y zorros en un solo periodo de
tiempo. Ya que se han presentado métodos precisos -normas- para medir la
magnitud de los vectores, esposible usarlos para ayudar medir
a
eltamaño de los
efectos de una transformación lineal; esto
a su vez proporciona un método para
medir el tamaño de matrices (como transformaciones lineales).
NOT~.UJS
de transformación lineales
S e a r una transformación lineal deun espacio vectorial Y con una norma lI.IIv a
un espacio vectorial W con una norma IJ.lIw.Para cadav diferente de cero en “y-,
6.3
I
Normas de transformaciones lineales y matrices
293
el cociente ~ ~ Y ( Vmide
) ~el~aumento
~ / ~ causado
~ V ~por
~ la~transformación en
ese vector específico v; un límite superior a este cociente que fueraválido para
toda v mediría entonces el efecto
general de Z7sobre $1 tamaño de los vectores en
V. Se puede demostrar queen cada espacio-Y- de dimensión finita,el cociente
anterior tiene un valor máximo al que se llega con un vector especial v. Por eso,
en todos los espacios reales o complejos de dimensión finita, hay un máximo para
el valor del cociente IIY(v)llw/llvllvparatodo v # O, y este númeromide eltamaño
del efecto de Y:si este número es pequeño, entoncesY reducirá la norma de
todos los vectores; si este número
es grande, entoncesalgunos vectores aumentarán mucho su norma por 9.
Por analogía con las normas vectoriales que miden
le la norma de Y inducida por
el tamaño de los vectores, a este número sellama
las normas dadas sobre Y y W.
En algunos espacios de dimensión infinita, el cociente IIY(v)IJw/IJv(lv puede
no tener límite superior; inclusive si está acotado, puede ser que no se alcance el
valor máximo con ninguna v especial. Sin embargo, cuando el cociente está
acotado, tendrá una cota superiormínima llamada su supremum. La definición
que sigue por lo tanto usa la palabra “supremum” en lugar de “máximo” para
tener en cuenta esta posibilidad, aunque este casono ocurrirá en este libro.
(6.19)
Definicidn. Sea 9 unatransformación lineal de -Y a W que tienen
normas Il-llv y Il.llw. La norma (de la transformación) II.llv,w inducida por
Il*llv Y Il*IIw se define Por
siempre que este supremum sea finito.
La normade una transformación tiene la mayoría de las propiedades de las
normas vectoriales que se describieron enla definición5.54; de hecho-problema
6- la norma deuna transformación es una normavectorial en elespacio vectorial
9 ( V ,W ) de todas las transformaciones lineales de -Y- a W (de dimensión
finita). Además, satisface
algunas propiedades especiales debido a que se
calcula
partiendo de transformaciones.
294
6
/
Transformaciones llneales y matrlces
DEMOSTRACION. Es fácil ver que cadauno de los suprema es finito,
porque
son finitos para lip, A%', y N .
a), d)y e) son consecuencia inmediata de la definición de norma de una
transformación.
b) Es evidente para a = O y se comprueba fácilmente para a diferente de
cero porque (a(puede factorizarse fuera del supremum.
c) De la desigualdad del triángulo para normas vectoriales se tiene que
Il@ + 4 ( v ) l l w = I l m ) + .,w)(Iw I I = w l l w + l l J w 9 ~ ~ w
5 ( \ ~ ~ I ~ Y+, W
) ( ~ l l ~ , ~ ) l l v l l usando ( 4 .
Lo anterior dice que el cociente que define la norma de Y + A está
acotado superiormente por (I$P((v,w + ~ ~ J % 'de
~ ~
modo
~ , ~que
,
la cota
mínima es igual cuando más a esto.
f) es consecuencia deun argumento semejante al de c), y entonces g) sigue
por aplicación repetida de f ) .
Ahora podrá resolver los problemas del 1 al 8.
Normas matricides
En este libro nos ocupamos principalmente de Rp,Cp, y sus subespacios; las
transformaciones lineales de interés se definen por multiplicación matricial:
Y(v) = Av. En esos casos las normas vectoriales que más se usan son II. ( II, 11.1)2 y
ll.llm que se definieron en 5 3 5 . Es natural y útil considerar las normas de transformaciones lineales inducidas por esas normas vectoriales sobre transformaciones lineales definidas por matrices.
(6.21)
Ejemplo. Suponga que A es una matrizp x q siendo (A),1 = au y definase a
Por
a = mbx
i
1 laij].
4
j=1
6.3
/
Normas de transformaciones heales y matrices
295
Para cualquier v en Rq(o Cq), denomine a ( v ) ~con vi, y suponga que el CY
máximo que se acabade definir se alcanzapara i = io. Entonces si F ( v ) =
Av, se tiene que
IJY(v)\\,= \IAvUa, = m i x \(Av),\ =
i
I @IIVII,,
yasí ( I ~ ( V ) ~ ~ , / ~ \IV \CY\para
,
todo v diferente de cero; esto quiere
decir que
esta norma de la transformación F es, alo más, (Y.
De hecho es igual a (Y;
para demostraresto, se debe encontraruna v especial para queel cociente
acostumbrado seaigual a (Y.Paracadaj, escogemos a v5 con valorabsoluto
1 tal que ai,v5 = luiojl.Claramente IIv((, = 1, por 10 tanto I l ~ ( v ) l l5~ a; a h
más,
de modo que, enefecto, IIS(v)llm= CY paraesta v especial. Así, estanorma
de la transformación F es igual a CY.
Como la transformación del ejemplo 6.21 es justamente una multiplicación porA, parece razonable llamar a la norma que se ha calculado, una normade
A así como una norma de F.
(6.22)
Definicidn. Para una matriz A, p X q , por normas de la matriz IIAlll,llAl12 y
llAll.. -o cualquiera otra normade la matriz IlAll- se entenderán las normas
de la transformación F definida por F ( v ) = Av que se inducen cuando se
usa la correspondiente norma vectorial tanto en el dominio como en el
contradominio de F.En especial,
En el ejemplo 6.21
se encontró que es
posible calcular llAllmcon los elementos
de A; un argumento semejante -problema 10- conduce ala fórmula relacionada
para llAlll. Desafortunadamente, el cálculo de llAl12 es mucho más complejo e
296
6
Transformaciones
lineales y matrices
/
involucra un concepto que nose encontrará sino hasta el capítulo siguiente; sin
embargo, para completar el tema, se enunciará aquí la fórmula.
(6.23)
(6.24)
Ejemplo. En la sección 2.3 se consideró -enel lenguaje presente- una
transformación lineal que modelaba elcrecimiento de poblaciones en competencia de gallinas y de zorros, desde un periodo de tiempo hasta el
siguiente. En particular, en el ejemplo 2.17 se trató el modeloen que9 ( x ) =
Ax para
Si lo que interesa es el número total de animales en el modelo, entonces
calcula esta cifra para cada x de poblaciones. Usando esta norma y la
fórmula anterior, resulta en llAlll = 1.7, y así se sabeque la población total
puede aumentarse por un factor de 1.7 en cualquier periodo de tiempo. Si,
en su lugar, se estáinteresado en el número máximo de animales de un tipo,
entonces
calcula estenúmero. Mediante esta norma y la fórmula
anterior, resulta quellAllm= 1.38, y así se sabeque la población máxima se
puede aumentar porun factor de 1.38 en cualquier periodo. Observe
también que según el teorema clave 6.20 g) es posible concluir que, por
ejemplo, ((A'((, I(1.38y, lo que daría laimpresión de que se debería
esperar queAi contuvieranúmeros grandes para i grande; la desigualdadda
sólo una coca superior de IJAiJJ,,
sin embargo -el ejemplo 6.18 de lasección
anterior mostró que en realidad Ai converge a O a medida que i tiende a
infinito. Las normas dan información útil sobre las matrices, pero son una
herramienta bastante imprecisa-al menos para estudiar el comportamiento
de las potencias de una matriz.
Recuerde queel teorema 5.59 sobre la equivalencia de normas, mostró que
las normas vectoriales 1 , 2 e 00 son todasequivalentes. Es fácil usar las desigual-
6.3
I
Normas de transformaciones
lineales
y matrices
297
dades en el inciso b) de ese teorema para desarrollarhechos similares para las
normas matriciales inducidas. Por ejemplo, para A, p X q , se tiene que
IlA~lll5 pllAxllm 5 ~ I I A l l . o l l ~ I l m p l l A I I m l l X I I 1 ~
lo que significa que IIAxII1/IIxII1está acotado por pllAllm.Como llAlll es la mínima
cota superior para este cociente, se concluye que \\Al\,5 pJ\A\\,.Argumentos
semejantes conducena semejantes desigualdades entre las demás
normas matriciales. Aún más, es posible usar el concepto de convergencia de la definición
5.58 para considerarlas sucesiones Ai de matrices, de
modo que Ai converja a A,
si y sólo si )\Ai- Awl\converge a O para cualquier norma que estemos usando.
Como I(A)jRI5 llAll, para todaj y k , la convergenciaen este sentidosignifica que
los elementos deAi convergen a los elementos correspondientesde A,. De este
modo se tiene un análogo directo del teorema 5 S9 que trata sobrela equivalencia
de las normas vectoriales.
(6.25)
Teorema (equivalencia de normasdematrices).Las normas 1 , 2 ede las
matrices son todas equivalentes en el siguiente sentido:
a) Si una sucesión de matrices Ai convergen a A, en una de las normas,
entonces convergeráen las tres normas y los elementos (Ai)Jkconvergerán hacia los elementos (Am)jk.
b) Para todas las matrices A, p X q ,
DEMOSTRACION.
Véaseel problema 14. w
PROBLEMAS 6.3
D 1. Suponga que Y es una transformación lineal, y que para todo v en “Ir, se
tiene
( l m ) ( ( w5 kllVllY
para alguna k fija. Demuestre que ~ ~ ~i k.~ ~ v , w
2. Demuestre que cada supremum quedefine una norma de transformación en
el teorema clave 6.20 b), c), f) y g), es finito.
298
6
/
Transformaclones
lineales
y rnatrlces
3. Dé los detalles de la demostración del teorema clave 6.20 a) b) y d)-g).
D 4. Suponga que 4 es la transformación identidad, $(v) = v para toda v en y ,
y que 11. / 1 es una norma en V. Encuentre la norma de la transformación 9 .
5. Suponga que 8 es la transformación cero, O(v) = O en W para todo v en "Y-,
y que ambos, -Y- y W , tienen normas. Encuentre la norma de latransforma-
ción O.
6. Suponga que Y y W son espacios vectoriales de dimensión finita, cadauno
con una norma. Demuestre que II.lly,w es una norma vectorial en el espacio
vectorial 9 ( V " ,W ) detodas las transformaciones lineales de "Y- a W .
(Véase el ejemplo 6.2 e.)
D 7. Para cada función continua x en el espacio vectorial real C[O, 11, defina
como el valor máximo de Ix(t)l para O S t S 1. Encuentre la norma de la
transformación lineal Y definida en el ejemplo 6.2 b).
8. Suponga que Y es una transformación lineal de Y' a Y' siendo ~ ~ Y<~l .~ v
Demuestre que F ( v ) converge a O cuando i tiende a infinito para cada
vector v.
D 9. Sea k = O . 1 en elmodelo de la sección 2.3 de las poblaciones en competencia;
véase el ejemplo 2.16. Para la matriz A de allí, encuentre llAlll y llAllm.
10. Demuestre que la fórmula del teorema 6.23 a) evalúa correctamente a lIAlll.
11. Paracada unadelas siguientes matrices A, evalúe llAlll y llAllmy compruebe la
desigualdad del teorema 6.25 b).
a) [ - 3 2 11
D 12. Para cada una
de las siguientes matrices A , evalúe llAlll y llAllmy compruebe la
desigualdad del teorema 6.25 b.
b) [I-8
1 2 S]
13. Suponga que A es una matriz cuadrada para la cual [[All< l . Demuestre que
A' tiende a O cuando i tiende a infinito.
14. Utilice el teorema 5.59 sobre la equivalencia de normas vectoriales para
demostrar el teorema 6.25 sobre la equivalencia de normas de matrices.
6.4
/
Inversas de matrlces perturbadas: cond1ci6nde ecuaciones
lineales
299
D 15. a) Utilice las fórmulas del teorema clave 6.23 para demostrar que IIIIl1e \\I\I,
son iguales a 1.
b) Demuestre que I(I((
= 1 para toda norma matricial mediante la definición
de norma de una transformación.
16. En la sección 2.2 se discutieron unas matrices especiales de transición que
surgieron de modelos de competencia entre negocios; véanse en (2.3) las
propiedades de esas
matrices A. Utilice las normas para demostrar que,para
tales matrices A, las potencias A‘ deben permanecer acotadas cuando i
tiende a infinito.
6.4
INVERSASDEMATRICES
PERTURBADAS.
CONDlClON DE ECUACIONES LINEALES
Como ya se mencionó antes, en las aplicaciones prácticas es importante cornprender que las inexactitudes en la medición y en elmodeladollevan a la
y cosas por el estilo que están
necesidad de usar vectores, matrices, ecuaciones,
ligeramente alteradas (cambiadas) de los valores ideales que resultarían de
mediciones y modelos perfectos. Es esencial comprender qué efectos tienen
estas perturbaciones en los datos creados en los capítulos fundamentales del
álgebra lineal: no singularidad de matrices, posibilidad de solución de ecuaciones, soluciones de ecuaciones y cosas semejantes.
Inversas
Un tema de este tipo comprende o involucra la no singularidad. Alguna matriz
“ideal” A podía ser no singular, pero la aproximación alterada a ella que
nosotros medimos podría ser singular. Sin embargo, es posible que esto no
suceda silas perturbaciones son suficientemente pequeñas. Pero se estudiará
un
caso especial para simplificar el caso general.
DEMOSTRACION. De acuerdo con elteorema clave4.18, I, + P es no singular
si y sólo si la Gnicasolución de (I, + P)x = O es x = O. Suponga entoncesque
(i, + P)x = O de modo que x = -Px. Entonces se obtiene
300
6
I Transformactones llneales y matrices
y como (/PI1< 1 entonces hay unacontradicción a menos qc e x = O, como se
d e I, = BO, + P)
ha tratado probar.Así(1, + PI" existe; se denotaráconB.
= B BP, se tiene que 1 = IlIdl = IIB(Ip P)II 5 IlBll ]\Ip+ PI1 5 11B11(1 + IIPl\),lo
que dallBll2 1/(1 + IlPlI) como se afirmó. También, B = I, - BP, lo que da
por lo tanto llBl1 = //Ip- BPI1 I1 + IJBPIII1 + llBljllPll, que produce (lBl(5
1/(1 - IIPll), con lo que se completa la demostración.
+
(6.27)
Ejemplo. Considere
la
+
matriz
A=
[;:;
- 0.6
0.91.
Es posible escribir A como A = I + P, en donde
A = I + Pes no singular y
Como I(P[I, = 0.9 < 1, el lema de Banach dice que
que 1/1.9 5 ((A-lllm5 1/0.1.
El lema de Banach simplifica la demostración del resultado general.
DEMOSRACION. Se tomará el caso para a = IIA"RII < 1; el otro caso es
semejante. Como A-' existe, se puede escribir
A + R como A(I, + A"R) = A(1, + P)
si se defineP = A-IR. Por hipótesis, llPll= (Y < 1, de modo que se aplica el
lema de Banach, e, Ip + P es no singular, como 10 es A. Por 10 tanto,
el producto A(I, + P) -que es igual a A + R- también es no singular y
6.4
/
Inversas de matrices perturbadas:condici6n de ecuaciones lineales
301
por el lema de Banach; ésta escota
la superior que se deseaba. Para obtener
la cota inferior, se escribirá
A-' = (Ip + P)(A + R)y se deducirá que
La división entre (1 + a) da la cota inferior que se buscaba.
En esencia,el teorema dice quesi A es no singular y ((Rlles suficientemente
pequeño, entonces A + R también es no singular y la norma de su inversa es
comparable a la norma de A-I. Esto es, todas las matrices suficientemente
cercanas a una matriz no singular tambiéa:on no singulares. Las inexactitudes
de los datos y de la modelación -si son suficientementepequeñas- no perturbalo
rán a una matrizno singular tanto como para hacerla singular; observe que
pequeiias que necesitan ser las perturbaciones
llR((para la no singularidad
es suficiente, en especial.
Por
depende de qué
tan grande seaI/A"Il: (JR(I<l/~lA-l~~
ejemplo, para que las perturbaciones A + R de
estén garantizadascomo no singulares por el teorema clave6.28, es necesario que
(IR((,sea menor que unos 10"O/2 porque (lA-l((mes aproximadamente 2(101°).
Condición
Es importante la noción de condicidn en todas las matemáticas aplicadas. Si
cambios pequeños en los datos
un de
problema siempre llevan acambios razonablemente pequeños en la respuesta del
mismo, se dice que
el problema está bien
planteado. Si cambios pequeños en los datos dealgún problema pueden a veces
conducir a cambios inaceptablemente grandes en la respuesta, se dice que el
problema está mal planteado. La razón de la importancia de este concepto
debería ser evidente: en los problemas aplicados, casi siempre los datos son
inexactos por errores de medición y de modelado, y es crucial conocer los
efectos quetienen sobre la respuesta
al problema las inexactitudes en los datos.
Se considerará aquí la
condición de lasolución x al sistema de ecuaciones
Ax=bentérminosdelosdatosbyA.Sedeseaconocerquétantocambialasolución x -digamos dex a x + ax- cuando cambianlos datos b y A -digamos hasta
b + 6b y A + 6A.
(6.29)
Teorema (condición de ecuaciones). Sea A no singular y sea 1(.11 cualquier
norma vectorial y su correspondiente norma matricial. Suponga que x
302
6
/
Transformaclones lhneales y matrces
resuelve a Ax = b mientras que
x + 6x
resuelve a
(A
+ 6A)(x + 6x) = b + Sb
para algunas perturbaciones 6A y 6b en los datos. Suponga que la perturbación SA es lo suficientemente pequeña como para quea < 1, en donde a =
\l(6A)A-1\lo a = (JA-1(6A)(J.
Entonces el cambio 6x en la solución satisface
en dondeM = 1/( 1 - a) y en dondec(A) = ((AllI)A-lll es elllamado número
de condicibn de A.
DEMOSTRACION. Como a < 1, el teoremaclave
6.28 implica que A +
6A es no singulary da una cota dela norma desu inversa. Como A + 6A es
no singular, la soluciónx + Sy al problema perturbado existe. De hecho,
6x
misma resuelve
(A + 6A) 6~ = b + 6b - AX - 6Ax = 6b - AX,
así que
6~ = (A + SA)-'(6b - AX).
AI aplicar la cota superior enel teorema clave 6.28, siendo R = &Aen esta
fórmula para 6x se obtiene inmediatamente
( 1 6 ~I
/ / M . llA-'//. ))ab- SAX//
5 M . IIA-
' I 1 CllSbll + 116All llxll).
Por lo tanto,
ya que b = Ax implica que ((b(15 ((A(](JxlI.Simplificando, se obtiene
como se requería, lo cual completa la demostración.
Para ver qué dice este teorema sobre la condición, suponga que se decide
medir el tamañode los cambios Sy en las cantidades y examinando ( ~ d y ( ( -esto
/~~y~~
es, poniendo atención al tamaño global de los cambios con respecto al tamaño
6.4
/
Inversas de matrices perturbadas:condici6n de ecuaciones lineales
303
global de las cantidades originales. Entonces el teorema comparalos cambios
-medidos en estesentido- en lasolución x con aquéllos en los datos b y A. Si el
M en el teorema será
cambio 6A en A es suficientemente pequeño, la constante
en el cambio IlSxll/llxll no será mucho mayor que
cercana a1 ;en este caso, la cota
los cambios en los datos si el número de condición
no es demasiado grande.Esto significa que un número moderado decondición
c(A) garantiza que las ecuaciones estánbien planteadas: cambios pequeñosen
los datos producen cambios razonablemente pequeños en la solución.Sin embargo, sic(A) es grande,los cambios enx causados por loscambios enlos datos
pueden ser mucho mayores que los cambios en los datos (si esto realmente
ocurre, dependerá delab específica, pero generalmente
es aconsejable contemplar tal sistema como mal planteado.)
Nota. Se puede combinar el teorema
6.29 con los resultados (3.42) y (3.43)
que dicen que eliminación
la
de Gauss conpivote0 parcial en aritmética de
punto flotante, generalmente
da una solución exacta aun problema ligeramente alterado.El resultado es una cota quevale en genera4parae1 error en
la solución así producida; la cota está principalmente en término del número de condición de la matriz y de la naturaleza de la aritmética de la
computadora -véase el problema 14.
El significado del número de condición c(A) puede examinarse desde otro
A + R es no singular para todaR
punto de vista.Si A es no singular, se sabe que
que satisfaga I(R1I < l / ~ ~ A - de
l ~ acuerdo
~,
con el teorema clave 6.28. Se puede
volver a enunciar ese requisito para R como
Esto es,
A
+ 6A es no singular siempre ' quell6All < -. 1
IIAII
4'4)
Expresado en forma diferente,Asi+ SA es singular, entonces
IlSAII/IIAll? l/c(A)
y por lo tanto
(6.30)
304
/
6
Transformaciones
lineales
y matrices
Para fines prácticos, es desafortunado el hecho de que no es nada fácil
reconocer una matriz A planteada es decir, una con un número de condición
grande -sólo por la inspección de A. Como se mencionó en la sección 3.9, los
buenos programas de computadorapara resolver Ax = b generalmente proporcionan al usuario un valor estimado de c(A) partiendo de información compilada
durante el cálculo,pero rara vez es posible estimar c(A) sin esa ayudacomputacional con excepción de
los casos sencillos.La matriz 7 X 7, A, del ejemplo 1.31,
por ejemplo, parece muy inocente, pero la inversa que allí se encontrótiene una
normam de aproximadamente 110,000,000- lo8. Así, el número de condición de
A es más O menos 108, por lo que hay una matriz singular dentro de unos
de
A, lo cual es una cosa que no fácilmente se puede adivinar examinando a A.
R (6.31)
Ejemplo. Enel análisis de reacciones químicas resulta que el número de
factores verdaderamente independientes en un proceso puede calcularse
como elrango de ciertamatriz de mediciones de las concentraciones de las
sustancias químicas en la reacción. Supongaque hay tres sustanciasimplicadas y que se mide la matriz C de concentraciones que resulta en
2.03
0.51
3.46
[
C = 0.25
1.74
1.02
1.06 ,
7.17
4.201
en donde cada una de las mediciones puede estar sujeta a errores experimentales del tamaño 0.015. Para determinar el rango de C, se encontró
una forma reducidade Gauss; trabajando primero en la primera columna
produce
6
1.991.00
0.013
0.003
- 0.03
0.005
Si se aceptan esos números
se puede proseguir para encontrar queel rango
es 3 ; sin embargo, dado el hecho de que los números contienen errores
experimentales, los dos últimos renglones se ven sospechosamente como
ceros. En efecto, la matriz ligeramente perturbada
2.031.02
0.26
0.517451.. .
1.74
3.462941
...
4.20
1.070588.. .
7.164706. . .
se reduce exactamente a
O
O
6.4
/
Inversas de matrices perturbadas: condici6n de ecuaciones lineales
305
Ya que elmayor cambio en cualquier elemento de C a C’ es 0.010588. .. <
0.015, la cotadel error experimental, los datos enC’ son tanbuenos como
los de C para los que el rango era 3 en lugar de 1. Probablemente se
concluiría que sólo hay un factor independiente en la reacción. Desde el
punto de vista del número de condición, comollCllrn= 12.37 mientras que C’
es singular y
J1C- C’lla = 0.028.. .
se sabe queel número de condición c(C) para la normall.II, es cuando menos
12.37/0.028 L 441. En efecto, perturbando de modo semejante sólo al
tercer renglón de C, se puede encontrar una matriz singular todavía más
próxima y deducir quec(C) 2 1502. Mediante MATLAB o software semejante paraencontrar la inversa de C, se puede descubrir que c(A) --r 6885 y
que en la norma la distancia
a la matriz singular más cercana es de
aproximadamente 0.0018, y a la matriz más cercana de rango 1 es deunos
0.006. En vista de quelos errores de medición tenían un tamaño de 0.015,
ciertamente parece que sólo
podremos estar confiados en que haya un solo
factor independiente en la reacción, aunque puede haber más.
PROBLEMAS 6.4
D 1. Suponga que P es una matriz q X q cuyos renglones satisfacen
+
l<P>ill l(P>izl
+ . . . + I(P>,,( < 1
para cada i
Demuestre que I, + P es no singular.
2. Suponga que P es una matriz q X q cuyas columnas satisfacen
l(P>ljl
+ I(P>zjl + . . . + I(P),.;l < 1
para cada j .
Demuestre que I, + P es no singular.
3. Suponga que lamatriz A, q x q , es estrictamente dominante diagonalmente
respecto a los renglones, lo que quiere decir que sus renglones satisfacen,
para cada i ,
I(A)ii(
> I(A)il( + ‘ ’ ‘ + l(A)i,i-11
+ l(A)i,i+ 1 1 + . . + l(A>iql para cada i .
’
Demuestre que A es no singular.
D 4. Suponga que la matriz A, q X q , es estrictamente dominante diagonalmente
respecto a las columnas, lo que quiere decir que sus columnas satisfacen
Demuestre que A es no singular.
306
6
I
Transformaciones
lineales
y matrices
5. Demuestre el teorema clave 6.28 para el ca.so cu = I I R A - l I I < l .
D 6. Demuestre que, sin importar la norma usada, el número de condición
4'4) = ~
~
~
~
~
~
1
~
-
1
satisface a c(A) 2 1.
7. Tanto para la norma 1 como para la norma 00,encuentre ejemplos de 2 X 2
para demostrar queel número de condición c(A) puede ser arbitrariamente
grande.
8. Dada la matriz A siguiente,
a) Encuentre su número de condición.
b) Encuentre una matriz singular cercana.
c) Compruebe (6.30) en este caso.
9. Sea A la matriz
por lo tanto,
Ya sea en la norma ll.lll o en la norma ll.llm,
IlAll = llA-lll = 1 + kpara k 2 O,
de modo que el número de condición c(A) = (1 + k)', es grande parak grande.
Sin embargo, si se considera el sistema de ecuaciones Ax = b, siendo
b=
[i],
la solución es
mientras que si sólo se aitera a b por medio de al, t i 2 diferentes de cero a
]
b + S b = [ 1 + 6b , '
~
~
6.4
/
Inversas de matrices perturbadas: condici6n de ecuaciones
lineales
307
se encontrará que el cambio Sx en la solución es
Encuentre una cota para
llSx(/IIxIIen términos de IlSbll/(lbllmediante la norma 1
o la norma03 para demostrarque este problema está bien condicionado, no
obstante que el número de condición de A es grande.
10. Haga cálculos semejantes a los del problema 9, pero esta vez con b =
[ 1 - l / k ] * y demuestre que en este caso el problema está mal planteado.
D 11. Mediante la norma 1, demuestre que c(A) 2 600, siendo
2.1
12. Sea A, p x p , y sea c(A) su número de condición usando la norma que se
desee. Demuestre que existe una b y una perturbación Sb tales que las
aproximadamente igual ac(A)((6b((/((b((.
soluciones x y x + 6x tienen a ((Sd(/((x((
13. Tomando una pequeña perturbación
Sb que resulte en un cambio grande Sx,
demuestre que las ecuaciones
+ x , = 2.oooo
=2 . m 1
1.oooo1x, +
XI
x2
están mal condicionadas; encontrar c(A) mediante la norma 03.
D 14. Mediante el teorema 6.29, con (3.42) y (3.43), obtenga cotas válidas generalmente en el error dela solución x de Ax = b, que se produceal aplicar la
eliminación de Gausscon pivote0 parcial en una computadora usando aritmética de punto flotante det dígitos.
15. Utilice el teorema6.29y el tamaño del residuo encontrado en el ejemplo 3.44
para acotar el error -como en el problema 14- de la solución numérica
encontrada en ese ejemplo.
D 16. Considere el sistema de ecuaciones
+
0 . 4 7 ~+~0 . 2 8 ~=~0.19
0 . 8 9 ~ ~0 . 5 3 ~=~0.36
que tiene la solución exacta x1 = 1, x2 = - 1.
a) Encuentre 6b tal que, si se sustituye el lado derecho b por b + ab, la
solución exacta a x1 = 0.47, x2 = -0.11.
b) ¿Está el sistema bien condicionado o mal condicionado?
308
6
/
Transformaciones
lineales
y rnatrces
c) Encuentre el número de condición de la matriz para el sistema mediante
la norma x .
tm 17. a) Utilice MATLAB o algún software semejante para obtener una solución
x’ aproximada de las ecuaciones del problema 16.
b) Compare el error x - x’ con la cota obtenidausando el problema 14 para
este caso.
tm18. Utilice MATLAB o algún software semejante para calcular el número de
condición de lamatriz H, 5 x 5 , formada por los 25 elementos de laesquina
superior izquierda de la matriz del ejemplo 1.31, y deduzca qué tan lejos se
encuentra deH a la matriz singular máspróxima. (Compare conel problema
18 de la sección 5.9.)
6.5
PROBLEMAS VARIOS
PROBLEMAS 6.5
D 1. Encuentre una base para el espacio nulo de la transformación acostumbrada
Y con Y(v) = Av generada:
a) Por la matriz
[I
b) Por la matriz
1
-11
-1
[! -; -; 3
-1
o
2. Sea Yoel subespacio de C“’[O, 13 -véase el ejemplo 5.9 e)- que consiste en
aquellas funciones y que satisfacen y(0) = O. Defina Y d e ^Yo a W = C[O, I]
de modo que F ( y ) sea aquella función continua cuyo valor en t sea igual a
y’(?) y ( ? ) , en donde la prima significa diferenciación.
a) Demuestre que el espacio imagen de 9es W y que .Y tiene una inversa.
b) Demuestre la manera de encontrar F - I ( f ) parafen W .
+
3. Defina elproducto interior de h y gen C[O, 11como la integraldefinidadesde
O a 1 del producto hg. Demuestre que la transformación adjunta F*de la
transformación F del ejemplo 6.2 b) es justamente la misma F Y* = F.
D 4. Sean B y C bases ordenadas para el espacio vectorial ~ Yde
- dimensión q y el
espacio vectorial W de dimensión p respectivamente. Sea [ . ] B , C la transformación que toma cadatransformación lineal Y de V a W en su representaciónmatricial A:
= A si y sólo si A representa a Fcon respecto a
C . Demuestre quela transformación
es un isolas bases ordenadas By
morfismo d e Y ( V , W)-véase el ejemplo 6.2 e)- al espaciovectorial de todas
las matrices p X q.
[
o
]
~
,
~
6.5
I
Problemas varios
309
5. Suponga quev,, resuelve Y(v,) = w, en dondeY e s una transformación lineal
de Y a W . Demuestre que v también resuelve a Y(v)= w si y sólo si v = vo
+
n para alguna n en el espacio nulo de Y.
6. Suponga que F es una transformación lineal. Demuestre que, dada w, la
ecuación F ( v ) = w tiene, exactamenteuna solución, un número infinito de
soluciones, o no tiene solución v.
D 7. Suponga que Fes una transformación lineal de Y a W , siendo ambos de
dimensión p . Demuestre que los puntos siguientes son equivalentes:
l . El espacio nulo de 9 es igual a {O}.
2. Existe una transformación lineal de W a V tal que F%
es la transformación identidad en W .
3. F-lexiste y es igual a
de 2).
4. Laecuación F ( v ) = w tieneexactamente unasoluciónparacadaw enW .
8. Suponga que Fes una transformación lineal de
a W, siendo ambos de
dimensión p . Demuestre que el espacio nulo de 9es igual a {O} si y sólo si el
espacio imagen de Y es igual a W .
9. Suponga lo mismoque en el problema 8. Demuestre que F"l
existe siy sólo
si el espacio nulo de F es igual a {O}.
D 10. Suponga lo mismo en el problema 8. Demuestre que
espacio imagen de 5 es igual a W .
existe si y sólo si el
11. Suponga que Y y W son de dimensión finita que tienen productos interiores, y que 9tiene una transformación adjunta Y*. Demuestre que la unión
de una base para el espacio nulo de F y una base para el espacio imagen de
F*es una base para Y.
12. Suponga lo mismo que en el problema 11. Demuestre que la dimensión del
espacio imagen de Y*es igual a la dimensión del espacio imagen de 5.
13. Suponga lomismo que en el problema 11. Demuestre que 9 tiene una
inversa si y sólo si Y*tiene una inversa, y que entonces (Y*)- es igual a
(F-')*(Ia cual existe).
D 14. Suponga que 9es una transformación lineal de Y a W, que Y es una
transformación lineal de W a 3,y que F* y Y* existen para los productos
Demuestre que (YF)* existe y que es igual a
interiores en Y, W , y 9..
Y*Y*.
15. Suponga que P es q x q y que llPllm< 1. Demuestre que la serie infinita
I"+p*-p3+p4
"...
converge a una matriz B, y que
(I
+ P)B = B(I + P) = I,
de modo que, de hecho, la serie converge a (I + P)-I, la cual, por lo tanto,
debe de existir.
7
Eigenvalsres y eigenvectores:
una panorámica
Uno de los enfoques
m& poderosos paraanalizar la conducta de algunos
sistemas interesantes del mundo real, esdeterminar el llamado eigensistema de matrices involucradasen el modelado delsistema. En este capítulo
se pretende dar una panodmica que sirva como preparacidnpara los dos
capítulos siguientes y como una visidn general para aquellosque no los
lean. Los teoremas clave son 7.9, 7.10, 7,14, 7.18 y 7.38; también se
incluyen a veces-véanse (7.13), (7.26), (7.42) y (7.43)- de los teoremas
clave de los capítulos 8 y 9.
7.1
INTRODUCCION
El estudio de los llamados eigenvafures (o valores propios) y eigenvectures (o
vectores propios) de matrices y de transformaciones lineales es, generalmente,
de importancia fundamental en las matemáticas aplicadas. Una de las razones es
que esos conceptos básicos surgen cuando los modelos se estudian desde una
gran diversidad de puntos de vista. En esta sección se considerarán algunos
ejemplos que ilustran cuatro puntos de vista fundamentales, en los que se hará
hincapié a lo largode los capítulos 7 , 8 y 9: 1) singularidad de A - AI, en dondeA
es un parámetro, 2) subespacios invariantes; 3) representaciones sencillas de
transformaciones; y 4) descomposición de matrices.
Singularidad de matrices dependientes de parámetros.
En las aplicaciones, es frecuente el caso en el que el modeloconduce a una matriz
que depende de un parametro desconocido pero importante, cuyo valor debe
escogerse para hacer singular a la matriz. Una clase importante de tales proble31 O
7.1
/
lntroducc~bn
311
mas es la que se produce al modelar fenómenos oscilatorios (tales como el
movimiento de las alas de los aeroplanos bajo varias fuerzas aerodinámicas, las
oscilaciones en la economía bajo ciertas fuerzas del mercado, y otros casos
similares).
Como un ejemplo concreto, considere el movimiento de las dos masas
suspendidas y acopladas por resortes enla sección 2.5. El análisis matemático de
esa situación conduce a una matriz K - 02M2 x 2, en donde K y M son matrices
o tal que
conocidas y o es un parámetro desconocido. El problemaes determinar
K - 02M sea singular. El ejemplo 2.34mostró que esto
es equivalente a tener a o2
como la raíz de un polinomiode grado exactoigual a 2. Más generalmente, si M
es no singular, el problema es equivalente
a encontrar un parámetro A para el que
A - AI sea singular, en donde A = M"K y A = o'.
(7.1)
Ejemplo. En el caso específico del ejemplo2.34, se tiene
8]-i[i
:I=[
12 -4
12-8- A
8 -4
-A
1.
Del teorema 4.35 se conoce que una matriz es singular si y sólo si su
determinante es igual a cero, y entonces A se debe escoger para que
O = det(A - AI) = (12 - A)@ - 1) - (-4)(-8)
= A2 - 202 + 64 = ( A - 4)(A - 16).
debe ser A = 4 o A = 16.
Entonces los valores de A (= 02)
Como se definirá en la próxima sección, el valor de A que hace singular a A - AI
se llama un eigenvalor de A.
Estoilustra uno de losmodosenquepuedensurgir
en la práctica
los eigenvalores: en oscilaciones y otros problemas en losque debedeterminarse un parámetro de tal manera que haga singular a una matriz que dependa del
parámetro.
Subespacios invariantes
Se ha visto que los modelos matemáticos de problemas aplicados, a menudo
conducen al estudio detransformaciones lineales definidaspor matrices: Y(x) =
Ax, en donde A e s p x p y x está en Rp. Por ejemplo, la sección 2.2 modelócómo
cambiaban los patrones de las partesdel mercado de lecherías de mes a mes en
términos de una matriz A de tal manera que las partes xi de un mes se transformaron en las partes xifl del mes siguiente por medio de xifl = Axi. En situaciones
reales, es común el caso deque los vectores análogos a las xi tengan un número
de elemenrosp extremadamente grande.
En tales casos, una técnica útil consiste
en intentar partir el sistema grande que se estámodelando en una colección de
subsistemas mucho más pequeños que se puedan manejar más fácilmente; esto
312
7
/
Eigenvalores y eigenvectores:
una
panorarnica
es, se buscan ciertas variables o combinaciones de variables cuyos valores,
después de haber sido transformados, pueden expresarse sólo en términos de
esas variables o combinaciones. Algebraicamente, esto corresponde a encontrar
un subespacio Yo de RP de dimensión baja tal que Ax también esté en Yo
siempre que x esté en V0.A ese subespacio sele llamaun subespacio invariante
de A (y de Y).
El subespacio invariante más sencillo sería, desde luego, uno cuya dimensión fuera igual a 1 para que “yb fuera generadopor un solo vector x # O. Para que
Ax también estuviera en Yose requeriría que
Ax fuera un múltiplo de x,es decir,
Ax = Ax para algún escalar A. Pero esto significaría que (A - AI)x = O , con x # O , y
así A = N debería ser singular. Esto es, A debe ser un eigenvalor de A; los
vectores x diferentes de ceroasociados así con A se llamaneigenvecfures de A.
(7.2)
Ejemplo. Considere elmodelo decompetenciaentrelas
lecherías del
ejemplo 2.6 mencionado arriba. En este caso, se encuentra que
[ 0::
0.8- I
A - AI =
0.2
0.7 - A
o. 1
0.6 - 1
Para que A - AI sea singular, es necesario que det(A - AI) = O. Por el
cálculo directo se obtiene
det(A - AI) = -A3 + 2.11’ - 1.41 + 0.3= -(1 - O S ) @ - 0.6)(1 - 1.0)
y entonces los eigenvalores A deben ser
l. = 0.5,
1 = 0.6,
1 = 1.0.
Para encontrar los eigenvectores asociados, considere, por ejemplo, la
ecuación (A - AI)x = O para A-= 0.5. En términos de los elementos x,, x2 y
x3 de x esto es
0 . 3+
~ 0.2~’
~
+ 0.1x3= O
0 . 1+
~ 0.2~’
~
+ 0 . 3 ~=~O
O.1Xl + O.lX, + o.1x3= o.
Las técnicas acostumbradas para
reducen lo anterior a
los sistemas lineales de ecuaciones,
x1 + ox2 - x3 = o
ox, + x2 + 2x, = o
ox, + ox, + ox, = o;
7.1
/
lntroducci6n
313
de aquí es posible hacer quexg sea una (Y arbitraria, x1 = a, y x2 = "2%Y
entonces
es un eigenvector asociadocon el eigenvalor A = 0.5 para todaa diferente
de cero.Por métodos semejantes se encontrará que
mhltiplos arbitrarios de
los vectores
son eigenvectores asociados conlos eigenvalores A = 0.6 y A = 1.O respectivamente. Los tres subespacios unidimensionales de R3, cada uno generado por uno de esos tres eigenvectores, son, de este modo subespacios
invariantes de A.
Esto ilustra un segundo modo por medio del cual, surgen naturalmente los
eigenvalores y los eigenvectores: al buscar subespacios invariantesbajo transformaciones lineales para simplificar el estudio de las transformaciones al seccionar el sistema total en subsistemas menores.
Representaciones sencillas de transformaciones
Además de la búsqueda de subespacios invariantes, hay otro camino para
simplificar el estudio de transformaciones lineales definidas por matrices A, p
X p , F ( x ) = Ax: encontrar bases distintas
en cuyos términos Y se pueda
representar una matriz más simple que seamás fácil de estudiar.F se representa
por A con respecto a la base ordenada canónica B = {el; . . . ;e,,} de Rp como
dominio y como contradominio. Suponga que se utiliza una base ordenada
distintaB' = {xl; . . , ;xp}. De acuerdo conel teoremaclave 5.43 sobre cambio de
base, las coordenadas en B', xB.,de un vector x y sus coordenadas enB , xB se
relacionan por xB = Mx,, en dondeM es la matrizp X p no singular cuya i-ésima
columna contiene los coeficientes usados para escribir xi en términos de las ej
-esto e s , debido a la forma especial de las ej,
De acuerdo con el teorema 6.17 sobre cambio de base y representaciones, la
matriz que representaa 5 con respecto aB' es A' = "'AM. Entonces, nuestro
problema es encontrar vectores xl, . . . , xp tales que "'AM
sea sencilla.
314
7
i
(7.3)-
Eigenvalores y elgenvectores: una
panorAmlca
Ejemplo. Considere la matrizA del ejemplo 7.2, y supongaque se consideran los eigenvectores de A como los vectores xi:
por ejemplo. Con algunos cálculos se obtiene M" y después
A' = M- 'AM
=
[
-0.20
0.75
0.05
0.5
-0.20
-0.25
0.20
-1.251
0.05
0.05
O
[ 8:: I-;-; i]
0.8
0.1
0.2
0.1
1
1
9
0.1
una matriz diagonal con los eigenvalores de A en la diagonal.
De este modo se encuentra otro punto de vista sobre los eigenvectores y los
eigenvalores de matrices p X p : dan representaciones extremadamente sencilias
de transformaciones lineales.
Factorizaciones de matrices
Queda por ilustrar un último punto de vista sobre los eigenvalores y los eigenvec= A' es una
tores de una matriz A, de p X p . En el ejemplo 7.3 se vio que "'AM
matriz diagonal. Premultiplicando por M y postmultiplicando por M-', lo anterior se transforma en A = MAIM", esto es, A sefactoriza en un tipo especial de
producto en donde A' tiene una forma especial.
Esta factorización puede ser sorprendentemente útil; estuvo presente como
parte de los datos básicos en el ejemplo 6.18, en elque seanalizó la conducta de
potencias grandes Ai de la matriz A del ejemplo 2.17. En el ejemplo 6.18 se
encontró una matriz M (representada allí por S y P) para la que A', sin ser
diagonal, era lo suficientemente sencilla para demostrar quesus potencias tendían a cero. Y como
A' = (MA'" ')(MA'"
'1 . . . (MA'"
') = M(A)""
y (A'Y tiende a cero, también lo hará Ai. ¿Cuál es la relación de esto con los
eigenvalores y con los eigenvectores si A' no es diagonal? La primera columna x1
= [5 3ITde M satisface Ax, = 0 . 9 como
~ ~ puede comprobarse fácilmente; esto
es, x1 es un eigenvector de A asociado con el eigenvalor 0.9. Es fácil ver que en
este caso det(A - AÍ) = (A - 0.9)2, de modo que hay un solo (pero doble)
eigenvalor X1 = A2 = 0.9.
7.1
/
Introducc16n
315
Así se obtiene otro
uso para los eigenvalores y los eigenvectores: son medios
para obtener factorizaciones útiles de matrices.
La variedad de manerasen las quesurgen los eigenvalores y los eigenvectores indica por qué son tan importantes tanto teórica como prácticamente. Pero
los ejemplos de arriba encubrieron muchas preguntas importantes: ¿Existen
siempre los eigenvalores? ¿Existen siempre los eigenvectores? ¿Cuán sencilla
puede ser la representación de una transformación lineal con una selección
adecuada de las bases ordenadas? Parauna matriz dada ¿cuánsimples son las
factorizaciones que se pueden encontrar? ¿Cómo se pueden encontrar en la
y esos eigenvectores? La
próxima tarea serávolver a
práctica esos eigenvalores
esos y otros temas fundamentales.
PROBLEMAS 7.1
D 1. Sean m, = 12, m2 = 16, k , = 36 y k2 = 48 en el modelo de las masas
oscilatorias de la sección 2.5. Encuentre las matrices K y M de (2.29),
encuentre A = M"K, y entonces encuentre los eigenvalores A = wz de A
como en el ejemplo 7.1.
2. Encuentre los eigenvalores dela matriz A del ejemplo 2.16 sobre el modelo
de competencia entre poblaciones cuando k = 0.1.
D 3. Encontrar los eigenvalores de
4. Encuentre los eigenvalores (véase el problema 2) y eigenvectores de la
entre
matriz A del ejemplo 2.16 sobre el modelo de competencia poblaciones
cuando k = 0.1.
5. Encuentre los eigenvalores y eigenvectores de la matrizA del problema 3 .
D 6. Utilice los eigenvectores deA que se encontraronen elproblema5 como una
base ordenada para R 2 , como dominio y contradominio de F ( v ) = Av, y
encuentre la matriz A' que representa aF con respecto a esa base usando
directamente el teorema clave 6.14.
7. Considere la matriz A de transición del modelo de competencia entre lecherías del ejemplo 2.6, y a sus eigenvalores
A que se encontraronen el ejemplo
7.2. Cuando A - AI es singular,también lo es AT- AI; entonces habrá unay
tal que ATy = Ay, esto es,
(a yT se le llama un eigenvector izquierdo de A.)
a) Demuestre que para cualquier distribución de mercado
xi y las siguientes
x ~ + I= AX^,
316
7
Eigenvalores y eigenvectores: una panorarnlca
/
yTXi+1 = IZYTXi,
lo cual ilustra cómo cambia de mes a mes la combinación linealyTxde las
partes del mercado (x)i.
b) Encuentre el eigenvector izquierdo yi asociado con cada eigenvalor Ai.
c) Mediante a) y el eigenvector izquierdo asociado a A = 1, demuestre que la
suma de las partes del mercado nunca cambia.
8. Utilice los eigenvectores y los eigenvalores de la matriz A del problema 3
para factorizar A en A = MA%" en donde A' es una matriz diagonal.
9. Factorice la matriz A del problema 4 en A = MA'"'
siendo A' una matriz
diagonal.
7.2
DEFINICIONES Y PROPIEDADES BASICAS
Los conceptos de eigenvalores y eigenvectores tienen sentido para una transformación lineal de cualquier espacio vectorial "Y en sí mismo; sin embargo, la
teoría para espacios de dimensión infinita es bastante complicada y por ello nos
restringiremos a espacios vectoriales "Y de dimensión finita. En este caso,
partiendo del hecho de que todaslas transformaciones lineales puedanrepresentarse mediante matrices es posible restringirse todavía más al estudio de los
eigenvalores y los eigenvectores.
Eigensistemas y polinomios característicos
(7.4)
Definicidn. Los eigenvalores de una matriz A, p X p , real o compleja, son
los números reales o complejos A para los que hay una x # O diferente de
cero tal que Ax = Ax. Los eigenvectores de A son los vectores x # O
diferentes decero para los que hay un número A tal que Ax = Ax. Si Ax = Ax
para x # O , entonces x es un eigenvector asociado con el eigenvalor A, y
viceversa. Los eigenvalores y eigenvectores asociados componen juntos el
eigensistema de A. Un subespacio invariante "byo de A es un subespacio de
Rp o C p para el que Ax está en Yo si x está en "Yo.
Si A es 2 x 2 , la ecuación Ax = Ax es un sistema de dos ecuaciones; sin
embargo, a) involucra tres incógnitas, xl, x2 y A; y b) las ecuaciones son no
lineales porque la incógnita A multiplica a cada una de las incógnitas x1 y x2. La
primera tarea será demostrar que en realidad es posible "desacoplar" a las
variables: primero se podrá encontrar A a partir de una ecuación nolineal
y entonces, una vez conocida A, se resolverán las ecuaciones lineales Ax = Ax
para x.
(7.5)
Teorema (eigenvalores y singularidad). A es un eigenvalor de A si y sólo si
A - AI es singular, lo que a su vez es válido si y sólo si el determinante de
A - AI es igual a cero: det(A - AI) = O (la llamada ecuación característica
de A).
7.2
I Definiciones y propiedades basicas
317
DEMOSTRACION. Si A es un eigenvalor, esto significa que existe una x diferente de cero tal que Ax = Ax, esto es,(A - AI)x = O y x $ O. AI aplicar el
teorema clave 4.18 a A - AI, se demuestra que esto es equivalente a la
singularidad de A - AI, y esto -por el teorema 4.35- es equivalente aque
det(A - AI) = O.
De este modo, esposible encontrar primero aquellos valores h que hagan a
det(A - AI) = O y después resolverpara cada A conocida, Ax = Ax con x # O. Es
necesario entender la naturaleza de la expresión det(A - AI) en la ecuación
característica de A.
(7.6)
Teorema (polinomios característicos). Suponga que A es p X p . Entonces:
a) det(A - AI) es un polinomio de grado exacto: p en la variable A; a éste se
le llama el polinornio característico A A ) de A.
b) El coeficiente de Ap en AA) es igual a (- 1)p.
c) El coeficiente de AP" en A A ) es igual a (- 1Y-l tr A, en donde tr A
(la traza de A) es igual a la suma de
los elementos de la diagonal principal de A.
d) El término constante deflA) es igual al det A.
DEMOSTRACION
a) Inmediatamente después del ejemplo 4.29 de la sección 4.5, se hizo
notar queel determinante deuna matriz B es igual a la suma detodos los
productos posibles -con signos adecuados- de los elementos de B, en
donde en cada producto debehaber exactamente un elemento de cada
renglón y exactamente uno de cadacolumna de B. Esto demuestra que
el polinomio característico de A es, en verdad, un polinomio y que su
grado exacto es p .
b) El Único producto dela forma descrita en a) que involucrapelementos
de los cuales cada uno incluye a A, es igual alproducto delos elementos
diagonales de A - AI. AI desarrollar los determinantes repetidamente a
lo largo del primer renglón, esfácil ver que el signo que se le da a este
producto es positivo, de
tal manera que la mayor potencia de A aparece
como (-A)p.
c) Con una argumentación semejante alade b), se puede
ver que los únicos
productos que incluyen a A en p - 1 factores deben ser p - 1 de los p
elementos de la diagonal principal, porque cada producto usa un término de cadauno de los renglones y uno de cada una las
de columnas; el
p-ésimo restante debe ser justamente
el elemento sobrante de la
diagonal. Así, el producto es el mismo que en b), es decir
+ ( a , , - A)(u2, - A) . . . (upp- lb),
donde aii = (A)ii.
El coeficiente de Ap" en este término es como se afirmó.
d) El término constante en cualquier polinomioflh) se encuentra calculandoflo). En este caso, es det(A - 01) = det A. m
318
7
Elgenvalores y eigenvectores:
una
panorhmlca
/
Los eigenvalores de una matriz A, p X p , son por lo tanto las raíces de UI:
polinomio degradoexacto p . Dela teoríade polinomios se sabe que
ese polinomio tiene p raíces reales o complejas A,, . . . , A, y por ello se puede
factorizar como
- AI) = (A, - A)(+
A) . . . (Ap- A), en donde las Ai pueden no ser
(7.7) det(A
distintas -es decir, que algunas de las Ai podrían ser iguales entre sí.
Así, cada matrizpX p tienep eigenvalores reales o complejos, algunos de los
cuales pueden ser iguales entre sí. Por ejemplo, los eigenvalores de una matriz 7
x 7 podrían ser 3 , 3, 3 , 3 , 2, 5 , 5; hay siete eigenvalores, pero sólo tres
(7.7), el polinomio
característico
eigenvalores diferentes 3 , 2 y 5 . De acuerdo con
es en este caso
det(A - AI) = ( 3 - 1)(3 - A)(3 - 6)(3 - A)(2 - 1)(S - A)(S - A),
que puede representarse más compactamente como
det(A - 11) = (3 - i.)4(2 - #(S
- 2)2
escribiendo un término para cada eigenvalor distinto, pero elevándolo a la
potencia igualal número de veces que serepite. Esto desdeluego se puede hacer
en general.
(7.8)
Definición. Cuando se escribe el polinomio característico de una matriz A,
p X p , en la forma
siendo Ai # A, para 1 S i # j 5 r y m, + m2 + . . . + m, = p , al entero
positivo m ise le llama la multiplicidad algebraica del eigenvalor hi.A un
eigenvalor de multiplicidad algebraica 1 se le llama un eigenvalor simple.
La multiplicidad algebraica se distingue de la multiplicidad geométrica que
se definirá más adelante en 7.12.
Con la nomenclatura de ladefinición 7.8, la totalidad de los eigenvalores de
A consiste en A, contada m, veces, A, contada m 2veces, . . . , y A, contada m,
veces. Lamítica matriz7x 7 que se tratócon anterioridad aestadefinición,tiene
por lo tanto los eigenvalores h , = 3 de multiplicidad algebraica m, = 4, A, = 2 de
multiplicidad algebraica m 2= 1 (un eigenvalor simple), y A3 = 5 , de multiplicidad
algebraica m3 = 2 . Mediante ladefinición 7.8, se hadesarrollado una descripción
bastante sencilla de la estructura del conjunto de los eigenvalores.
7.2
/
Definiciones y propiedades basicas
319
DEMOSTRACION. Es consecuencia inmediata de los teoremas 7.5 y 7 . 6 , y la
definición 7.8.
La situación con respecto a la estructura del conjunto de eigenvectores es
bastante más sutil. Si A es una raíz del polinomio característico -esto es, un
eigenvalor- entonces porel teorema 7.5 se sabeque,cuando menos, hay
un eigenvector asociado. Aunque
la historia es más larga, sepuede usar este simple hecho para hacer varias demostraciones sobre la estructura del conjunto
de todos los eigenvectores asociados.
(7.10)
DEMOSTRACION
a) La primera parte es consecuencia del teorema 7.5. Si A y A son reales y
x = u + iv para u y v reales, entonces si Ax = Ax
A(u
+ kv) = L(u + i v )
320
7
/
Eigenvalores y elgenvectores: m a panorhmlca
lo que implica que Au = Au y Av = Av. Cuando menos uno de u y v
deben serdistintosde cero porque x es distinto de cero,y éste debe sere1
eigenvector real requerido.
b)
es no vacío. Si x y y están en Y ;de tal modo que Ax = Ax y Ay = Ay,
entonces
A(x
+ y ) = A X + A y = ;.X + ;.y = ;.(X + y)
y
A ( ~ x=) AX) = X(;.X) = ;@X)
para todos los escalares a. De este modo x + y y ax están en,f0, el cual
debe ser un subespacio por el teorema del subespacio. Como Ax = Ax
para toda x en Y’;, claramente es un subespacio invariante.
c) Suponga que el conjunto es linealmente dependiente; mediante el teorema 5.23 a) sobre independencia lineal, es posible considerar el primer vector x, que sea linealmente dependiente de las x,, . . . , x,-1
precedentes:
x,s = 31x1
+
’ ’
.
+ z,v-lx,5
~
1.
Multiplicando por A, resulta
+ . . . + x,- lj.sx,-
&x, = x 1i 7 x 1
1,
mientras que multiplicando esta vez por A Y sustituyendo Axi = Aixi se
obtiene
/”,,X,= xl/.,xl
+
’ ‘
.
+ 2,-
I/”s-
IX,- I .
Restando las dos últimas ecuaciones resulta
o = El(/.,,
I
.
- LI)X1
+
’ ’ ’
+ xs-
- 3.,-
I)X,- 1.
El conjunto {xl, . . . ,x , ~ -es
~ }linealmente independiente porque de otra
manera x, no sería el primero de los vectores xi dependiente de sus
predecesores: por lo tanto, los coeficientes ai(& - Ai) en lacombinación
lineal anterior cuya sumaes O , deben ser todos iguales a cero para 1 i
i I: S - 1. Como A, - Ai # O para eigenvalores diferentes, esto quiere
- as-l= O. Pero entonces también la x, debería ser
decir que (y1 = . . . cero, lo cual es imposible para un eigenvector; por io tanto, lahipótesis
que hablaba del conjunto original como linealmente dependiente debe
haber sido falsa.
d ) Las primeras partes son consecuencia inmediata de a) y de c); es
necesario demostrar quetodo eigenvector x debe serun múltiplo de uno
de xl, . . . , x,. Como tenemos un conjunto linealmente independiente de p vectores en C p , generan a C P por el teorema 5.32 c); así
x = rlxl
+ . . + ;(,,xp para alguna zi.
7.2
/
Definiciones y propiedades basicas
321
Suponga queAres el eigenvalor con el cual se asociax, y considere que v
= x - a4,..Debido ab), v es yasea0 o un eigenvector asociadocon X,.; si
v es igual a O , entonces x = a,x,, como se afirmaba; sipor otro lado, v
fuera un eigenvector asociado con X, entonces debido a c ) ,
{v, X], . . . , x,- I r x,+ 1, . . . x,>
9
sería linealmente independiente contradiciendo el hecho ya conocido
V=X-!%rxr=cclx,
+ ‘ ~ ~ + c c r - l x +cIr+lx,+I
r-l
+ . . . + a,x,.
e) Se sabe que llAxll 5 IlAll llxll para toda x, de modo que es válido para el
eigenvector. Pero
ya que x # O, entonces esposible dividir a estaúltima ecuación por llxll y
usar la desigualdad anterior para obtener (Al i ((Al(.
Los ejemplos de la sección 6.1 ilustran el teorema 7.10. En el ejemplo 7.1 la
matriz A, 2 x 2, tiene dos eigenvalores simples diferentes A, = 4 y A2 = 16; es fácil
resolver Ax = Ax para encontrar los eigenvectores asociados
x1 = [l
2]T
y
x2 = [l
-1y,
los que forman un conjunto linealmente independiente. La matriz A, 3 x 3 del
ejemplo 7.2 tenía tres eigenvalores simples diferentes y tres eigenvectores; se
puede demostrar fácilmente que forman un conjunto linealmente independiente.
Cada uno de esos casos involucró, únicamente, eigenvalores de multiplicidad
asociados con
algebraica 1;la situación con respecto al número de eigenvectores
un eigenvalor no simple es bastante más complicada, como se verá a continuac ión .
Ahora pod& resolver los problemas del I al 13.
Eigenvectores de eigenvalores múltiples
Se quiere examinar el asunto del número de eigenvectores asociados con un
eigenvalor de multiplicidad algebraica mayor que
l . Desde luego se sabeque six
es un eigenvector deA asociado con A, entonces también loserá a x para toda Q #
O; de estemodo se ha encontrado
un número infinito de eigenvectores asociados
con A, pero todos ellos
son linealmente dependientes del eigenvector
x del que se
partid. Lo que se quiere saber es si habrá algunos eigenvectores “verdaderamente diferentes” -eigenvectores que sean linealmente independientes de x.
322
7
I Eigenvalores y eigenvectores: una panoramica
(7.1 1)
Ejemplo. Seconsiderarála
matriz sencilla 5 x 5
7
O
0
4
0
1
0
0
0
0
Es fácil encontrar queel polinomio característico deA es (7 - Q2(4 de
modo que los eigenvalores de A son h, = 7 de multiplicidad algebraica m , =
2 y A, = 4 de multiplicidad algebraica m, = 3. Los eigenvectoresse
consideran asociados a estos eigenvalores.
(A, = 7). Considere la ecuación
(A - 7I)x = O que se debe resolver para
encontrar eigenvectoresx asociados a Al = 7. La matriz aumentada de este
sistema es
1
o
o
o
o
-3
1
o
o
o
; -; ;
o
o
010
010
I
j
j
?
o -310
en donde es fácil ver que la solución general
debe serx5
= 0,x4 = k arbitraria, xg= O,x, = O yx, = h arbitraria. De aquí se
obtiene
x = [h
O O k 017 = h e , + ke,
como el conjunto de todos
los eigenvectores asociadoscon A, = 7 para h y k
arbitrarias. Por lo tanto, e, y e4 son eigenvectores asociados a A, = 7, y
todos los demás eigenvectores semejantes
son linealmente dependientes de
e, y e4. Seha formado un conjunto linealmente independiente de
dos
eigenvectores asociados con este eigenvalor de multiplicidad algebraica
dos.
(Az = 4). De modo semejante, considere (A - 4I)x = O y la matriz
aumentada de este sistema se
que
deberá resolverpara encontrar todoslos
eigenvectores asociados a A2 = 4:
o
o
o
1
o
o
O10
o
o
o
o
o
o/o
3
010
7.2
I
Definiciones y propiedaaes basicas
323
Nuevamente, es posible visualizar con facilidad que la solución general
debe serx5 = k arbitraria, xg = O, x3 = O, x2= h arbitraria y x, = O. Esto da
x = [O
h O O
klT = he, + ke,
como el conjuntode todos los eigenvectores asociadoscon A, = 4. Por lo
tanto, e2 y e5 son eigenvectores asociados con A, = 4 y todos los demás
eigenvectores semejantesson linealmente dependientes de e, y de e5. Esto
A, = 7, pero observeque en este casopara
parece similar a lo que pasó con
Xz = 4 se ha encontrado un conjunto linealmente independiente desólo
dos
eigenvectores asociados con un eigenvalor de multiplicidad algebraica
tres. Por lo anterior no es posible encontrar un tercer eigenvector asociado
a A, = 4 que sea linealmente independiente de los dos que ya se habían
encontrado. Observe, sin embargo, que aunque no se puede encontrar ese
tercer eigenvector, es posible encontrar un tercer vector -digamose,- tal
que, junto con los dos eigenvectores, forme una base {e3,e,, e,} para un
subespacio invariante de A de dimensión 3, ya que es fácil visualizar que
A(ae,
+ pez + ye,) = 4ae, + (48 + a)e2 + 4ye,.
La situación ilustrada enel ejemplo 7.11 es típica: un eigenvalor Ai de
multiplicidad algebraica mi puede o no tener un conjunto linealmente independiente de mi eigenvectores asociados, pero siempre tendrán un subespacio
invariante de dimensión mi. A la multiplicidad algebraica se le llamó “algebraica” porque provino del concepto algebraic0 de Ai como raíz múltiple del
polinomio característico; el concepto dedimensión del espacio delos eigenvectores asociados es geométrico, y conduce a la noción de multiplicidad geométrica de un eigenvalor.
(7.12)
Definición. La multiplicidad geométrica ,ur de un eigenvalor At de A es el
número máximo de eigenvectores asociados a
hi que son linealmente
independientes; es decir, pf es la dimensión del subespacio (cuando se
incluye a O) de todos los eigenvectores asociados a Ai.
Con esta nomenclatura, la matriz
A del ejemplo 7.11 tiene M , = , u 1 = 2, pero
m, = 3 mientras que p2 = 2. Es posible construir ejemplos en los que pisea igual
a cualquier entero
si 1 5 pi Im,. No será sino hasta el capítulo
9 donde setengan
las herramientas para demostrar:
324
7
/
Eigenvalores y elgenvectores: una panoramlca
PROBLEMAS 7.2
1. Demuestre que la matriz
2
-1
o
-1
2
tiene los eigenvalores 2 y 2
dientes.
-I]
* vT,y encuentre los eigenvectores correspon-
D 2. Encuentre un conjunto linealmente independiente de dos eigenvectores de la
matriz
[f
-2
2
-1
-1
41
-6
correspondiente al eigenvalor h = -2. Encuentre el otro eigenvalor y el otro
eigenvector.
3. Demuestre que h = O es un eigenvalor de A si y sólo si A es singular.
D 4. Encuentre el polinomio característico de la matriz general 2 x 2.
5. Demuestre quelos eigenvalores de una matriz triangular (superior o inferior)
T son los elementos ( T ) i i ,y encuentre los eigenvectores asociados.
6. Para la matriz A del modelo de competencia entre poblaciones del ejemplo
2.13 con k = O . 16, encuentre el polinomio característico, los eigenvalores y
los eigenvectores.
D 7. Encuentre el polinomio característico de la matriz A de transición solicitada
en el problema 6 de la sección 2.2.
W 8. Utilice MATLAB o algún software semejante para encontrarlos eigenvalores y los eigenvectores de la matriz del problema 7.
9. Generalice el modelo de las masas oscilantes de lasección 2.5, para el caso
de p masas m,,m2,. . . , m py p resortes con sus constantes de resorte k,,
7.2
/
Deflnlclones y propiedades bascas
325
k2, . . . , k, demostrando que las ecuaciones que generalizan (2.28) nuevamente se representan por medio de (2.30), en donde ahora K y M son p X p ,
M = diag(m,, . . . , mp),
siendo K tridiagonal: (K)¡¡ = ki + k,+l (definiendo a ,,k,
= O por convenienc i a ) p a r a l s i s p , ( K ) i , i - l = ( K ) i - l , i =- k i p a r a 2 s i s p , y t o d o s l o s d e m á s
(K)i, = O .
!'Dl 10. Definiendo a A = M"K y a A = w2 como en el ejemplo 7.1, utilice MATLAB
o algún software semejante para encontrar los eigenvalores A y las correspondientes w si, en el problema 9, p = 10 y las masas m i= 5 y ki = 40 para
toda i . También encuentre las frecuencias de oscilación0/(277) para el
sistema de masas acopladas.
11. Si A tiene el eigenvalor Ai, demuestre que:
a) La transpuesta de A tiene los mismos eigenvalores que A.
b) La matriz kA tiene el eigenvalor kAi.
c) La matriz A' tiene el eigenvalor j.;, siendo r un entero positivo.
d) Si A es no singular, A-' tiene el eigenvalor l/Ai.
e) La matriz A + kI tiene el eigenvalor hi + k .
D 12. Si Ax) es un polinomio en x y A es una matriz cuadrada, entonces AA)
representa a la matriz obtenida sustituyendo a xi por A' (y a xo por I) en la
fórmula de Ax). Demuestre que A A ) es un eigenvalor de AA) asociado al
eigenvector x si A es un eigenvalor de A asociado a x.
13. a) Demuestre que si A es una matriz hermitiana, entonces A puede escribirse como A = B + r'C, en donde B y C son reales, B = BT y C = - C T .
b) Describa la forma de deducir el eigensistema de A en a) partiendo del de la
matriz real simétrica
14. Los eigenvalores de una matriz A, 10 x 10, son 3 , 2 , 2 , 2 , 2 , 6 , 6 , 6 , 12, 12.
a) Encuentre el polinomio característico de A.
b) Encuentre la multiplicidad algebraica de cada eigenvalor diferente.
15. Encuentre el polinomio característico y las multiplicidades algebraicas y
geométricas para cadaeigenvalor diferente de lamatriz idéntica I , p X p , y de
la matriz O, cero, p X p .
16. Ya que A = - 2 es un eigenvalor de
326
7
I
Eigenvalores y eigenvectores:unapanoramica
encuentre los eigenvalores de A y sus multiplicidades algebraicas y geométricas, así como tantos eigenvectores (que linealmente
sean
independientes) como sea posible.
D 17. Encuentre los eigenvalores de A, así comosus multiplicidades algebraicas y
geométricas, y tantos eigenvectores (que sean linealmente independientes)
como sea posible, en donde
18. Haga lo que se pidió en el problema 17, pero para
[-:-; i]
1
A=
7.3
EIGENSISTEMAS, FACTORIZACIONES Y
REPRESENTACIONES DE TRANSFORMACIONES
Secomenzó el capítulomotivando al estudiode los eigensistemasdesde
cuatro diferentes puntos de vista.
Los dos primeros se trataron en
la sección 7.2:
la singularidad de A - AI y los eigenvectores y subespacios invariantes más
generales. Ahora se estudiarán los puntos de vista restantes.
Factorizaciones matricides
De nuevo, considere la matriz
0.2
0.8
A=
0.1
[x: x: x];:
que originalmente surgió en el ejemplo 2.6 con el modelo de competencia entre
en el ejemplo 7.2
lecherías, y cuyos eigenvalores y eigenvectores se encontraron
en donde A, = 0.5, A2 = 0.6 y A3 = 1.0, y
x 1 = [I
-2
1IT, x2 = [I
-1
OIT,
x3 =
[S 7 41T
que forman un conjunto de eigenvectoreslinealmente independientes. AI escribir las ecuaciones Axi = Alxi en la forma de bloque
A [ X z3I 1
= [J*IX
2 2I Jx ~2 ~ X L I I
7.3
/
Eigensistemas.
factorizaciones
y representaciones de transformaciones
327
se ve que, si se define a
la ecuación en bloque anterior puede escribirse AP = PA. Como el conjunto de
columnas de P es linealmente independiente, por elteorema clave5.50 c), Pes no
singular y así es posible reescribir AP = PA como A = PAP", lo que puede
comprobarse fácilmente numéricamente (P-l surgió en el ejemplo 7.3, en donde
se le llamó "I).
De este modo, la existencia de un conjunto de eigenvectores
linealmente independiente permite factorizar la matriz A, 3 x 3, en un punto
especial A = PAP" en donde A es diagonal. Esto puede hacerse en general, para
una matriz A p X p y de hecho es equivalente a la existencia de un conjunto
linealmente independiente de p eigenvectores de A.
(7.14)
DEMOSTRACION. Se procederá de acuerdo almaterial presentado antes del
teorema.
x],
(eigensistema * factorizaciones)Forme una matriz P = [x1 .
partiendo de un conjunto de eigenvectores linealmente independiente y
forme una matriz diagonal A = diag(A,, . . . , A,) con los eigenvalores
asociados. Ax, = htx(significa que AP = PA; como P es no singular por el
teorema clave5.50 c), se obtieneA = PAP" Y A = P"AP como seafirmó.
(factorización eigensistema) Si A = PAP" o A = P"AP siendo A
diagonal,a
lsreglas de multiplicación para matrices separadas
dicen que Ax,
= hixi, en donde las xt son las columnas de P, y las A, son los elementos
ls xi
diagonales de A (tomados ambosen orden). Ya que P es no singular,a
forman un conjunto linealmente independiente y son diferentes de cero;
por e l b forman un conjunto linealmente independiente dep eigenvectores,
comose afirmó. m
-
328
7
Eigenvalores y eigenvectores:
una
i
(7.15)
panor6mca
Ejempb. Considere la matriz sencilla
A=[0 1
21
01
O
0
3
cuyo polinomio característico es claramente igual a
(1 - 4 ( 2 - 4 ( 3 - A);
entonces los eigenvalores (simples) son A, = 1, Az = 2 y A3 = 3. Los
eigenvectores correspondientes se encuentran fácilmente,
como columnas
de P, forman
Un cálculo directo lleva a que
Se puede comprobar fácilmente que
Ahora podrci resolver los problemas del 1 al 6.
Representaciones de transformaciones
Recuerde de la sección 6.2 la forma en que las matrices representan transformaciones lineales con respecto a bases ordenadas; de acuerdo
al teorema clave 6.14
la transformación lineal Fse representa por la matriz cuya i-ésima columna se
forma a partir de
los coeficientes que se usaron para escribir F(vj) en términos de
las wi, en donde las vj forman la base ordenada del dominio y las wj la base
ordenada del contradominio de .F.
Suponga ahoraque F se define por la matriz A, p X p como F ( v ) = Av y que
la base ordenada que se usa tanto paradominio
el
como para elcontradominio
RP o Cp'es la canónica {el; . . . ; ep}. Entonces, de acuerdo con la receta
anterior, la matriz que representa a F tiene como i-ésima columna a los coeficientes de e,, . . . ,epen la representación de F(ei) = Aei, que esjustamente la
i-ésima columna de A. Entonces:
7.3
(7.16)
/
Eigenslstemas, factorlzaciones y representaciones de transformaciones
329
A, p X p , por sí misma, representa la transformación lineal 5definida por
5 ( v ) = Av con respecto a la base ordenada{e,; . . . ;e,} que se usó tanto
para el dominio como para el contradominio deF.
También recuerde de sección
la
6.2 la forma
en que cambia la representación
matricial de una transformación lineal al cambiar las bases ordenadas. De
acuerdo al teorema 6.17, la matrizA que representaa 5 con respectoa un par de
bases ordenadas, se sustituye
por A' = S-lAP con respecto a otro par,en donde
las matrices S y P hacen el cambio entre las coordenadas en C y las coordenadas
y las coordenadasen B y B' en el dominio respectivaen C' en el contradominio,
mente. Con la nomenclaturadel teorema 6.2, suponga que las bases ordenadas
originales B y C son
B = C = { e l ; . . . ;e,}
y que se usan tanto para el dominio como para el contradominio y, suponga
también que las nuevas bases ordenadas son, porejemplo,
B' = C' = {x1;. . . ; x,}.
Entonces las matrices decambio S y P son iguales pero se usará P como matriz
común. ¿Cómo es estamatriz P? De acuerdo al teorema clave 5.43, la i-ésima
columna de esta
matriz se obtiene a partir de los coeficientes usados para escribir
el i-ésimo vector de B' = C' como combinación lineal de los de B = C . En este
caso, lo anterior significa que la i-ésima columna de P se origina al escribir xi
como combinación lineal de {el,. . . ,e,}-y esos coeficientesno son otra quelos
elementos de la mismaxi. Estoes, lamatrizdecambio Pes igual a[xl x2 . . * x,],
y la nueva matriz A' que representa a F como en (7.16) es A' = P"AP. A
continuación se resumirá lo que se ha demostrado.
(7.17)
Teorema. Suponiendo que A es p X p y que la transformación lineal F se
define pory(v) = Av, y también que B = {el; . . . ;e,} es la base ordenada
canónica mientras que B' = {xl; . . . ;x,} es otra base ordenada; entonces:
a) A por sí misma, representa a F con respecto a la base ordenada B que se
usó tanto para el dominio como para el contradominio deF.
b) Con respecto a la base ordenada B' que se usó tanto para el dominio
como parael contradominio deF , F se representapor A' = P-'AP, en
donde P = [x, .
x,].
Como A' = P"AP y A = PA'P-l son equivalentes, el teorema 7.17 se
combina con el teorema clave
7.14 paradescribir el cuarto punto de vista sobre
los eigensistemas.
330
7
/
Eigenvalores y eigenvectores:
una
panorBmica
(7.18)
Véase el ejemplo7 . 3 para ilustrar este teorema, así como el materialque condujo
a dicho ejemplo en la sección 7.1.
Hasta ahora, los eigensistemas se han discutido desde cuatro puntos de
vista, aunque uno de ellos -la singularidad de A - AI- en realidad sólo se refierea
los eigenvalores. Los eigenvectores se han discutido en realidad desde tres
puntos de vista: eigenvectores y subespacios invariantes, factorizaciones de
matrices, y representaciones de transformaciones lineales. Por ejemplo, en esta
sección se ha expresado una sola idea en cada una de estas tres formas:
l . A, p x p , tiene un conjunto linealmente independiente de p eigenvectores.
2. A se puededescomponercomo
A = PAP-' -de modo que A =
P-lAP- en donde A es diagonal.
3 . F ( v ) = Av puede representarse por una matriz diagonal A.
Igualmente, se encontrará queestos distintos puntos de vista sonútiles cuando A
no tiene un conjunto de eigenvectores con una estructura tan sencilla; dependiendo de la situación, cualquiera de esos tres puntos de vista podría ser de
mucha ayuda para comprendernaturaleza
la
de una matriz en particular o de una
transformación lineal. Por consiguiente, es importante captar la equivalencia de
los puntos de vista como lo indica la figura (7.19).
Representación de la
transformación definida
por A mediante una matriz
más sencilla
7.3
/
Eigensistemas,
factorizaciones
y representaciones de transformaciones
331
PROBLEMAS 7.3
D 1. Encuentre una descomposición A = PAP" con A diagonal para
2. Encuentre una descomposición A = PAP" con A diagonal, para
3. Encuentre una descomposiciónA = PAP-' con A diagonal para lamatriz A
del modelo de competencia entrepoblaciones del ejemplo 2.13 cuando k =
0.16.
D 4. Determine si la matriz
puede descomponersecomo A = PAP" siendo A diagonal; si es así,hágalo,
si no, explique por qué no es posible.
)1~1 5. Compruebe que P"AP = A y que A = PAP" para una P adecuada con A
diagonal, para la matriz A del problema 10 de la sección 7.2.
6. Para la matriz de cada uno de los siguientes problemas de la sección 7.2
determine si hay una descomposición A = PAP" con A diagonal. Si es asi,
encuéntrela, si no, explique por qué.
Problema
b)
2
c) Problema 16
a) Problema 1
d) Problema 17
e) Problema 18
D 7. Para la transformaciónlineal del modelo de competencia entrepoblaciones
del ejemplo 2.13, conk = O.16, encuentre una base ordenada y la representación diagonal correspondiente de la transformación.
8. Encuentre una base ordenada y la matriz diagonal correspondiente para
representar a la transformación lineal F definida por F ( v ) = Av para la
matriz A del problema 2.
9. Haga lo mismo que se pidió en el problema 8, pero para la matriz del
problema l .
10. Para la matriz de cada uno de los siguientes problemas de la sección 7.2,
determine si hay una base ordenada y la correspondiente representación
diagonal para la transformación 9 - v ) = Av. Si es así, encuéntrelas; si no,
explique por qué.
a) Problema 1
Problema
b)
2
c) Problema 16
d) Problema 17
e) Problema 18
332
7
Eigenvalores y eigenvectores: una panoramica
/
D 11. Haga lo mismo que se pidió en el problema 10, pero papala matriz del
problema 4 anterior.
12. Considere la transformación lineal Fque envía a x en R2 a Y(xj = y en IR2,
en donde y 1 = 2x1 + x2 y y2 = x1 + 2x2. Encuentre una base ordenada, de tal
modo que la representación correspondiented e 7 sea diagonal, y encuentre
la representación.
7.4
TRANSFORMACIONES DE SEMEJANZA; FORMA DE JORDAN
En las secciones anteriores seha acumulado información sobre las relaciones
A'=P"AP
y A=PA'P"
entre dos matrices p X p , A y A', y también sobre su importancia y utilidad;
véanse por ejemplo, el ejemplo 6.18, el teorema clave 7.14 y el teorema 7.17.
Transformaciones de semejanza
(7.20)
Definición. Si existe una matriz P no singular tal que P"AP = B, entonces
se dice que B es semejante a A y que se obtiene de A por medio de una
transformacibn de semejanza.
(7.21)
Ejemplo
o
-1
es semejantea
A=
2
-3
porque
B = P"AP
siendo P =
[:
demodoque
-I- 'I
P" -
1
1
-
2 '
como se podrá comprobar inmediatamente.
La semejanza tiene algunas propiedades sencillas y evidentes:
(7.22)
Teorema (semejanzacomo una equivalencia).La semejanza es una relación de equivalencia porque
a) A es semejante a sí misma.
b) Si B es semejante a A, entonces A es semejante a B.
cj SiCessemejanteaByBessemejanteaA,entoncesCessemejanteaA.
DEMOSTRACION
a) Utilice P = I de modo que P" AP = A.
7.4
/
Transformaciones de semejanza;
forma
de Jordan
333
b) Si B = P-'AP, entonces A = Q"BQ siendo Q = P-'.
C) Si c = Q-1 BQ y B = P-'AP, entonces C = S"AS siendo S = PQ. m
(7.23)
Teorema (semejanza y eigensistemas).
a) Matrices semejantes tienen el mismopolinomio característico y los
mismos eigenvalores.
b) Suponga que B es semejante a A con B = P"AP. Entonces x es un
eigenvector de A asociado con el eigenvalor A si y sólo si P"x es un
eigenvector de B asociado con el eigenvalor A.
DEMOSTRACION
a) Ya que det P"
= l/(det P), se tiene que
det(B - AI) = det{P- '(A - AI)P)
= det(P- ') det(A - AI) det(P)
= det(A - AI)
y los polinomios característicos son idénticos. Como los eigenvalores
son precisamente las raíces de los polinomios característicos, a) queda
demostrado.
b) x es un eigenvector de A asociado con A si y sólo si Ax = Ax -esto es,
(PBP")x = Ax, lo cual es equivalente a B(P" x) = A(P"x), como se
afirmaba. Observe también que x es cero si y sólo si P"x es cero. m
(7.24)
Ejemplo. Paralasmatricessemejantes
prueba que
A y B del ejemplo 7.21, se com-
mientras que también lo es
det(B - Al) = det
(7.25)
1- -l ]1) = A Z - A + l
Teorema (semejanza y potencias). Suponiendo que B es semejante aA con
B = P"AP, entonces:
a) Para cada entero k positivo, B" es semejante a A" siendo Bk = P"AkP.
b) det B = det A.
c) B es no singular si y sólo si A es no singular.
d) Si A y B son no singulares, entoncesB" es semejante aA" siendo Bk =
P-lAkP también para enterosk negativos de modo que en especial B" =
P-IA-IP.
e ) S i f e s unpo1inomio:Ax) =
+ * + a, y siAX) para una matriz
cuadrada X es
334
7
/
Eigenvalores y eigenvectores: una
panorarnica
+ . . + a,I,
a0xm
'
entoncesflB) es semejante aAA) siendo AB) = P-'JC(A)P.
DEMOSTRACION
-
a) Bk = (P"AP)@'"'AP)
(P"AP) -con k términos- y la ley asociativa
permite la eliminación de los paréntesis de modo que PP-' repetidamente da I y el producto se colapsa a P-'AkP.
b) det B = det(€"'AP) = det(P-') det(A)det(P) = det A.
c) Esto es consecuencia de yb)del hecho de que
una matriz es nosingular
si y sólo si su determinante es diferente de cero.
d) B-' = (P-'AP)-' = P-lA-' (P-I)-' = P"A-'P. El resultado para una k
negativa arbitraria sigue de aplicar a) a B-' y a A" con Ikl.
e)
f(B) = a0P"AmP + a,P-lA""P + . . . + a,P-'P
= P-'(a,A"
alA'"l + . . . + u,I)P= P",f(A)P,
+
como se afirmó.
Observe que la relación B" = P"AkP puede ser en extremo útil si es necesario
facilidad; véase el ejemplo 6.18
calcular o analizar B" y si Ak se analizacon mayor
sobre elmodelo de competencia entre poblaciones y considérelo a este respecto.
Ahora podrrf resolver los problemas del 1 al 8 .
Forma de Jordan
En el capítulo 9 se explotarán sistemáticamentelas transformaciones de semejanza para transformarcualquier matrizp X p en otra semejante de alguna forma
especial. Gracias a la relación de (7.19) entre la información sobre factorizacioy la información sobre la estrucnes descrita por transformaciones de semejanza
tura de eigensistemas, será
posible utilizar esta formaespecial para describir en
general la estructura de eigensistemas tal y como se adelantó en (7.13).
(7.26)
7.4
/
Transformaciones de semejanza;
forma
de Jordan
335
Nota. Este teoremasólo menciona la existencia de esta forma;
no describe
un método constructivo para encontrar a J en la práctica.
(7.27)
J=b : :j
Ejemplo. La matriz J está en la forma deJordan:
4
1
0
0
0
O
4
0
0
0
O
0
;;
0
0
4
Los eigenvalores son Al = 4 de multiplicidad algebraica 3 y multiplicidad
geométrica 2 , y A2 = 7 de multiplicidad algebraica 2 y multiplicidad geométrica 1. Así, hay tres eigenvectores que son linealmente independientes,
como se indicó -deacuerdo con (7.26)- por lapresencia de dos cerosen la
primera sobrediagonal de J.
Para relacionar el avance ( 7 . 2 6 ) con lo que ya se estudió cuando hay un
conjunto linealmente independiente de p eigenvectores para A, p X p , observe
que ( 7 . 2 6 )afirma que habráp- 1 ceros en esa sobrediagonal, por lo tanto, J será
diagonal (como se sabe por el teorema clave 7.14).
La semejanza es una poderosa herramienta teórica para simplificar el estudio de matrices cuadradas; desafortunadamente,las transformaciones de semejanza en general, crean a menudo serias dificultades numéricas en los cálculos
prácticos (véanse los problemas 14 y15). Una subclase especial de transformaciones de semejanza es computacionalmente muy útil, no obstante, y por ello
es de extrema importancia en las aplicaciones por esta y por otras razones.
La próxima sección examinará en detalle las transformaciones de semejanza
unitaria y ortogonal.
336
7
I
Eigenvalores y eigenvectores:
una
panorhrnica
PROBLEMAS 7.4
D 1. Se sabe que A es semejante a la matriz B que se muestra a continuación;
encuentre los eigenvalores de A.
2. Mediante las matrices semejantes A y B del ejemplo 7.21, compruebe:
a) El teorema 7.25 a) para k = 2
b) El teorema 7.25 b)
c) El teorema 7.25 d) para k = - 1 y k = -2.
D 3. Suponga que A es semejante a una matriz U triangular superior; describalos
eigenvalores de A.
4. Demuestre que dos matrices diagonales son semejantes si y sólo si los
elementos diagonales de una son exactamente los de la otra aunque quizá
reacomodados.
5. Encuentre fórmulas explícitas para Ak en términos del entero positivo k , si:
a) A=[:
-:]
b) A=[:
:]
D 6. Utilice el teorema7.25 para analizar
el comportamiento delos vectores de la
poblaciones cuando i tiende a
población xi del modelo de competencia entre
infinito en el ejemplo 2.13 con:
b) k = 0.16
a) k = 0.1
R 7 Sin experimentar con Ak para varias k , utilice MATLAB o algún software
semejante para determinar
qué les pasaa las potenciasAk cuando los enteros
positivos k tienden a infinito si A es la matriz del problema 10 de la sección 7.2. '
8. Se haafirmado que lamultiplicidad geométricaVi un
deeigenvalor hide A no
puede ser mayor que
la multiplicidad algebraica mi. Demuestre estocon el
método siguiente.
a) Demuestre que se
puede extender un conjunto de eigenvectores pi hasta
obtener una matriz P no singular tal que A' = P"AP tenga la forma
siendo C cuadrada.
b) Demuestreque pi5 mi considerando los polinomios característicos deA
y de A'.
9. Demuestre que A y B son semejantes si y sólo si tienen una forma de Jordan
común J.
I Transformaciones de semejanza: forma de Jordan
7.4
337
D 10. Demuestre que A y B no son semejantes si
11. Demuestre que A y B son semejantes si
:]
A=[:
:].
B=[:
y
12. Compruebe directamente las afirmaciones sobre eigenvalores
y eigenvectores de la matriz J del ejemplo 7 . 2 7 .
D 13. Paralaformade Jordan J siguiente, encuentrelos eigenvalores y eigenvectores y compruebe en este caso, (7.26) c).
0
0
J= 0
0
0
0
3
1
3
0
0
0
0
0
0
0
5
0
0
0
0
0
0
1
5
0
0
0
0
0
0
1
5
0
0
0
0
0
0
0
0
3
0
0
0
0
0
0
3
14. Se ha mencionado quelas transformaciones de semejanzapueden ser com-
putacionalmente difíciles. Considérense las matrices
siguientes:
A=[
2"-E
- 2 f 2E
-1
l"E
+ 2E
A, P, y B = P"AP
1"E
1
B =p - l ~ p
=
siendo cero
E diferente
de
pero pequeño.
A (y por consiguiente B) es no singular, tiene eigenvalores A, = 1, A2 = E y
tienedeterminante E . Supongaque E esde talmagnitud que, 1 + E
y expresiones semejantes, se calculan con exactitud en una computadora, mientras que - 1 + e2 se evalúa como - l . Demuestre que la versión
computada de B en este caso será singular, y compare sus eigenvalores
con los de A.
sJ1 15. Utilice MATLAB o algún software semejante para calcular A, P-l, B, los
eigenvalores deA y B, los determinantes de A y B y los rangos de A y B para
las matrices delproblema 14; utilice a E tan pequeñocomo se necesite-por
ejemplo E =
para la aritmética de 16 dígitos de muchas microcomputadoras con coprocesadores matemáticos.
338
7.5
Elgenvalores y eigenvectores: una
panorAmica
7
MATRICESUNITARIAS Y SEMEJANZA UNITARIA;
FORMAS DE SCHUR Y DIAGONAL
La sección anterior trató la
semejanza: la relación B = P-lAP, en donde P es una
matriz arbitraria no singular. Como se hizo notar allí y se indicó en los problemas
14 y 15 de esa sección,
podría haber dificultad para trabajar computacionalmente
con las transformaciones arbitrarias de semejanza. Por ello, se introducirá un
tipo especial de transformación que evita esa dificultad y que es de extrema
importancia en el uso práctico de las matrices.
Matrices unitarias y transformaciones
Las transformaciones de semejanzaB = P-lAP se introdujeron en parte porque
describen la forma en que cambia la matriz A, que representauna transformación
lineal, cuando las bases ordenadascambian de {el; . . . ; e,} a {xl; . . . ; xp}, en
donde P = [x1 x2 . . . x,]; véase el teorema 7.17 de la sección 7.3. Mucho antes,
se mostró -veanse las secciones 5.8 y 5.9- que las bases ortogonales y orronormales eran especialmente útiles y convenientes computacionalmente.Se considerará el uso de tales bases en las transformaciones de semejanza.
Suponiendo que {xl, . . . , x,} es un conjunto ortonormal en RP (o en P )
con el producto interior estándar; entonces
XTXi = 1
(o X f X i = 1)
para toda i, y
XTXj =
o (o x:xj = O)
para todai y j siendo i # j , en donde, como de costumbre, se consideró
la matriz
1 x 1 x'y (o ."y) como igual a su único elemento. Si entonces se forma la matriz
P X P
P = [x1
x2
..
'
xp],
por multiplicación de matrices separadas se sigue que
PTP = I (o PHP = I).
Esto es, PT = P" (o PH = P-I).
(7.29)
Definicidn. Una matriz P, p X p , para la cual P-l = PH,de tal modo que se
dice que PPH= PHP = I, es unitaria. Una matriz ortogonaf es una matriz
unitaria real p, tal que p-1 = P* y PPT = P P = I.
(7.30)
Ejemplo. Si
7.5
/
Matricesunitarias y semejanzaunitaria;formas
de Schur y diagonal
339
entonces PI y Pz son unitarias, mientras queP2también es ortogonalcomo
lo mostrará el cálculo directo dePYP,, PFP, y de PTP,. Observe que P, no
es ortogonal (por ejemplo, porque no es real).
Observe que cada matriz ortogonal
es unitaria, pero cada matriz unitaria
no
es ortogonal; cualquier afirmación Úalida para toda matriz unitaria es también
vdlida para toda matriz ortogonal. Si no se necesita manejar números complejos, entonces, por simplicidad, interprete cadaafirmación sobre matrices unitarias como hecha para matrices (reales) ortogonales.
Las matrices unitarias tienen propiedades importantes.
(7.31)
Teorema (matrices
unitarias)
a) Una matriz P p X p es unitaria (u ortogonal) si y sólo si sus columnas
forman un conjunto ortonormal.
b) Una matrizP, p X p , es unitaria (u ortogonal) si y sólo si sus renglones
forman un conjunto ortonormal.
c) Si P es unitaria (u ortogonal) entonces ldet PI = 1 (o det P = k 1).
d) Si P y Q son ambas unitarias (o ambas ortogonales),también lo es PQ.
e) Si P es unitaria (u ortogonal) y si
es el producto interior estándar,
entonces:
l . (Px,Py) = (x, y) para toda x y y, entonces el ángulo entre Px y Py es
igual al ángulo entre x y y.
2. llPxlls = (IxlIzpara toda x, así la longitud de Px es igual a la de x.
3. llPllz = l .
f) Si A es un eigenvalor de ,la matriz unitaria (u ortogonal) . P, entonces
I N =l. . .
g) Si P es p X p unitaria (u ortogonal) siendoA, p x r y B,r x p , entonces
( S , - )
DEMOSTRACION
a) Es consecuencia del material que condujo a la definición 7.29.
b) Esto es consecuencia de aplicar a) a PH(o a P q .
c) Observe que
1 = det I = det PHP = (det PH)(detP) = (detPI2.
Para una P ortogonal, observe que det P es real ya que P es real.
d) (PQY (PQ)= WPHPQ = QHIQ = I.
e) 1. (Px,Py) = (Px)H (Py) = xHPHPy= xHy = (x, y), y el ángulo entre los
vectores se define por su producto interior
2 . Esto es consecuencia de e) 1) siendo x = y.
3. llPllz es igual al supremum de IIPxllz/llxllz, el cual es igual a 1 para todax
# o.
D Si Px = Ax, entonces, debido a e) 2 ) ,
340
7
I
Eigenvalores y eigenvectores: una panoramica
IIx112 = IIpxI12 = II~xll2= lp1IIxlIz;
como x # O, esto da 1x1 = 1 .
(IPA1I2es igual al supremum de IIPA~11~/11x11~,
y por e) 2) esta relación es
cuyo supremum es igual a IIAllz. IIBPIJ2es igual al
igual a IIA~11~/llxll~,
supremum de IIBP~11~/11~11~,
y esta relación es igual a
y a que P es no singular, y recorre todos los vectores diferentes de cero
puesto que x recorre todos los vectores diferentes de cero, de modo
que el supremum de esta última relación es igual a IIBllz.
El inciso e) es responsableen gran parte de la importancia práctica,
computacionalmente, de las matrices unitarias. Interpretada intuitivamente,
esta parte dice que la multiplicación por una matriz unitaria no hace grandes alos
vectores pequeños (ni hace pequeños a los vectoresgrandes) y no hace a
los vectores “casi dependientes” vectores “más independientes” (ni hace “casi
dependientes” a vectores “bastante independientes”). Así, por ejemplo, los
errores de medición o modelado pequeños seguirán siendo pequeños bajo la
multiplicación por matrices unitarias. Si los datos parecen “bastante independientes” después de haber sido transformados por matrices unitarias, entonces
los datos originales tambikn eran “bastante independientes.” Otra razón de la
importancia práctica de las matrices reales unitarias (esto es, las matrices ortogonales) es que cada una de esas
matrices puede calcularse como un producto de
matrices ortogonales especiales (“matrices de Householder”) que son especialmente convenientes paratrabajos computacionales; se regresaráen
breve a esto.
Se introdujeron las matrices unitarias con el propósito de efectuar transformaciones de semejanza; ahora se considerará este uso.
(7.32)
Definición. Si existe una matriz P unitaria tal que PHAP = B, entonces se
dice que B es unitariamente equivalente a A y que se obtiene de A por
medio de una transformación de equivalencia unitaria.Si P es real y por lo
tanto ortogonal, entonces sedice que B esortogonalmente equivalentea A,
y que se obtiene de A por medio de una transformación de equivalencia
ortogonal.
Ya que esos conceptos nuevos son casos especiales de la semejanza en
general, en este caso seránválidos todos los resultados sobre matrices semejantes.
(7.33)
Teorema (semejanza unitaria)
a) Los resultados de los teoremas 7 . 2 2 , 7 . 2 3 y 7 . 2 5 son válidos cuando se
7.5
/
Matrices unitarias y semejanza unitaria; formas de Schur y diagonal
341
reemplaza la palabra “semejante” por “unitariamente equivalente”
(u “ortogonalmente equivalente”) y cuando P” se sustituye por PH(O
por PT).
b) Si A y B son unitaria u ortogonalmente equivalentes, entonces llAlls
= IIBIIP
DEMOSTRACION
a) Esto es inmediato ya que la semejanza unitaria es una semejanza.
b) Si Pes unitaria, también lo será PHporque @‘“)“pH= PPH= I; entonces,
del teorema 7.31 g) se obtiene
Ahora podrA resolver los problemas del I al 9 .
Reflexiones de Householder
Como en cualquier matriz, sepuede usar una matriz P unitaria para definir una
transformación lineal FvíaY(x) = h.El teorema7.3 1 e) afirma que Ypreserva
longitudes y ángulos. Se considerará ahora una transformación geométricamente sencilla en el plano, que preserva longitudes y ángulos y se demostrará
que está, de hecho, descrita por una matriz unitaria real (esto es, una matriz
ortogonal) de un tipo especialmente importante.
(7.34)
EjempZo. Considere la recta fija L perpendicular a un vector dado w en el
plano. Suponga que se transformará cada vector x en el plano, reflexidn
respecro a d.: esto es, x se transforma en
F ( x ) = y, la imagende espejo de
x
al lado opuesto deL (véase el diagrama). El vector dex ay -esto es,
y - xes claramente perpendicular a6 , por lo tanto debe serun múltiplo de w:
y - x = aw.
342
7
/
Eigenvalores y eigenvectores:
una
panorarnica
El punto medio z de este vector debe quedar en 8 , por lo tanto debe ser
perpendicular a w:
W'(X
+ 0 . 5 ~=~O,)
10 que da (Y = -2wTx/wTw. Por lo tanto,
+
y = x UW = x - (2WTX/WTW)W = x - (2jw'w)wwTx
= (I - (~/w'w)ww'} X = H,x
en donde
H, = I - (2/wTw)wwT
es una matriz 2 x 2. Esto es,la transformaciónF es, de hecho,la transformación linealF ( x ) = H,x definida por la multiplicación porla matriz H,, 2
x 2. Si, por ejemplo, w = [ l 2IT, entonces H, = I -- $wwT, y así
Observe que H, es simétrica y ortogonal.
La misma clase de transformación tiene sentido en espacios de mayores
dimensiones; la reflexión es en la dirección de algún vector w reflejando sobre el
conjunto de vectores ortogonales a w. Esencialmente, el mismo argumento que
el del ejemplo 7.34, demuestra que tales reflexiones elementales también se
representan por matrices H,.
(7.35)
Definición. Paraw diferente de cero en RP, lamatriz de Householderp x p ,
H,, se define como
H, = I, -
(A)
WWT.
En elcaso especial del ejemplo 7.34, H, fue simétrica y ortogonal. Esto es
cierto en general porque
H;H,
= (I - (2/wTw)wwT}' {I - ( ~ / w ~ w ) w w ~ }
= {I - (2/wTw)ww'j{I
= I - (4/WTW)WWT
= I - (4/W'W)WWT
= 1.
Resumiendo.
- (2/WTW)WWT}
+ (2/wTW)(2i'WTW)WW=WW~
+ (4/wTw)wwT
7.5
(7.36)
/
Matrlcesunitarias
de Schur y dlagonal
y semejanzaunitarla;formas
343
Teorema (matrices de Householder). Sea H, la matriz de Householder
definida por un w diferente de cero en RP. Entonces:
a) H, es simétrica.
b) H, es ortogonal.
c) Para cada x, H,x es igual a la reflexión de x respecto al subespacio de
todas las v ortogonales a w.
d) det H, = -1.
e) Para cualquier x diferente de ceroy y diferente de ceroen Rp siendo x #
y, existe unaH, tal que H,x = ay para algún número real a. Con mayor
exactitud:
1. A menos que x sea igual a un múltiplo positivo de y, w se puede
considerar como
w =x -
(B)
y
y entonces
H,x =
(R)
y.
2 . A menos que x sea igual a un múltiplo negativo de y, w se puede
considerar como
w =x +
(B)
y
y entonces
H,x = - ( B ) y .
DEMOSTRACION
a) , b) y c) son consecuencia de lo expuesto anteriormente.
d) Sea A una matrizp X p no singular cuya primera columna es igual a w y
cuyas columnas restantes son ortogonales a w; es posible encontrar
tales columnas escogiéndolas como una base del subespacio de vectores
ortogonales a w. Es fácil ver que H,A tiene a -w como su primera
columna y que sus columnas restantes SOAIidénticas, en orden, a las de
A. Por lo tanto,
det(H,A) = -det A;
pero también es igual a det(H,) det (A). Dividiendo por det(A)resulta en
det H, = - 1.
e) es consecuencia de calcular directamente H,x usando los vectores w
dados; las condiciones sobre la relación de x y y garantizan que w # O. m
El teorema 7.36 e) seusa con frecuencia en las aplicaciones de las matrices
de Householder, especialmente para transformar a una x dada en un múltiplo de
e,: H,x = IIx112el. De hecho,la matrizde Householder “hace ceros”
los elementos
bajo el primero en x.
(7.37)
Ejemplo. Considere el vector x = [3 4ITy el problemade transformarlo, por
344
7
/
Eigenvalores y eigenvectoles: una panorhrnica
una matriz de Householder, en un múltiplo de e,. Por el teorema 7.36 e)
siendo y = e,, es posible considerar, por ejemplo,
W = x - llxllzel = x - 5e, = [-2
4IT
Esto da
H, = I, - & W W ~=
y
H,x = 5e,.
El problema 13 de la sección 5.9 describió cómo usar el poder de “hacer
ceros” de las matrices de Householder para transformar una matriz A en una
matriz triangular superior, multiplicando a A por una sucesión de matrices de
Householder; una pequeña modificación a este proceso (problema 18 de esta
sección) basada en el teorema 7.36 e) 1) demuestra la parte a) del siguiente
resultado, que es de gran importancia para el cómputo.
(7.38)
DEMOSTRACION
a) Problema 13 de la sección 5.9 y problema 18.
b) Aplique a) a Q, de modo que H, . H,Q = R; R es ortogonal (porque
sus factores sonortogonales), es triangular superior y sus elementos en
la diagonal principal son no negativos. La primera columna de R es
algún múltiplode e,, y esta columna es ortogonal a las restantes columnas de R; por lo tanto, el primer renglón de R tiene ceros en todoslos
elementos excepto en el primero. Con argumentos semejantes para la
segunda columna y el segundo renglón, así como paralos restantes, se
verá que R es diagonal. Como RTR = I, los elementos diagonales son + 1
-
7.5
I
345
Matrices unitarias y semejanza unitarla; formas de Schur y diagonal
o - 1;como son no negativos, deben ser
iguales a + 1-esto es, R = I. Por
ello, Q = H,Hz . H,.
--
La primera parte del teorema clave 7.38 es crucial paralos procedimientos
computacionales más avanzados en áreas tales como los cálculos de mínimos
cuadrados y cálculos de eigensistemas. La segunda parte dice que (una sucesión
de) las matrices de Householder puede hacer todo lo que hagan las matrices
ortogonales en general,
y así, ayuda a explicar
por qué han llegado a serindispensables en cálculos matriciales.
Ahora pod& resolver los problemas del 1 al 20.
Rotaciones elementales
Si se trata devisualizar una transformación F ( v ) = PV definida por una matriz
unitaria u ortogonal (demodo que preservelongitud y ángulo), probablemente se
imaginará algún tipo de rotación de vectoresmás que imaginarse una reflexión
(como se describió por una matriz de Householder). Aunque -a diferencia del
caso de las reflexiones- no toda matriz ortogonal puede escribirse como un
producto de rotaciones especialmente sencillas (problema
25), las llamadas rotaciones elementales son útiles en las aplicaciones
(7.39)
Ejemplo. Considere en R2 la transformación 9que cambia cada vector x
rotándolo un ángulo 0 medido en la dirección del eje x1 hacia el eje xz (esto
es, contra las manecillas del reloj) para obtener x' = F(x).
IIx'112 = lIxlI2
x; = (Ix'IJ2cos(a
+ O)
= IIx112cos a cos
o
- I I X ~sen
~ ~a sen e
= x1 cos O - x2 sen O
x; = x, sen Q
+ x2 cos O
X1
Mediante la trigonometría, se obtienen las fórmulas anteriores parax' en
términos de x. Debido aque las fórmulasson lineales, es posible escribirlas
en notación matricial como x' = F ( x ) = Px, en donde
cos 6
p = [sene
I.
-sen6
cos e
346
7
Eigenvalores y eigenvectores: una panorhmica
I
Es sencillo verificar que PIP = I, por lo tanto P es ortogonal.
Es posible considerar la misma clase de rotaciones planas sencillas y las
matrices que las generan, en mayores dimensiones.
Definición. La matriz de rotacibnelemental p x p : R = Rkn(0)se define
por:
kk = (R),, = cos 8.
kn = -sen 8 y (R)nk = sen 8.
ii = 1 siendo i # k e i # n .
= O para todos los elementos que no sean los definidosen a), b) o c).
(7.40)
Las propiedades de las matrices de rotación elemental se pueden deducir
directamente.
(7.41)
Teorema (matrices de rotación).Sea R = Rkn(0)unamatriz de rotación
elemental p x p . Entonces:
a) R es ortogonal.
girar a x un ángulo8 en el
b) Para cadax, Rx es igual alvector que resulta de
plano xk-x, en la dirección del eje xk hacia el eje x,.
c) det R = 1.
DEMOSTRACION.
Problema 40.
Formas de Schur, diagonal y de Hessenberg
En la sección 7.4, después dediscutir las transformaciones de semejanza, sedio
un avance del resultado del capítulo 9 sobre la forma especial de Jordan a la que
se puede reducir toda matriz A, p X p , mediante una transformación de semejanza; esta formaespecial de información sobre la estructura del eigensistema de
A. Se hizo una pausa para discutir las matrices y las semejanzas unitaria y
ortogonal debido a los problemas computacionales que surgen con las semejanzas arbitrarias que se evitan mediante estas formas de semejanza. Ahora se
estudiarán avances de formas especiales que se pueden producir usando semejanzas unitarias u ortogonales.
(7.42)
7.5
/
Matricesunitarias y semejanzaunitaria;formas
de Schur y dlagonal
347
La parte b) de este resultado da
información sobre el eigensistema de una
matriz normal.
El resultado (7.43) dice que las matrices normales A , p X p , son precisamente aquéllas que 1) tienen un conjunto completo de p eigenvectores formando
una base fácil de usar (esto es, una base ortonormal), 2) cuya transformación
F ( v ) = Av puede representarse por una simple matriz diagonal con respecto a
alguna base ortonormal, y 3) se puede factorizar en un producto sencillo A =
P A P siendo A diagonal y P unitaria.
Nota. Como en el avance (7.26), esto menciona solamente que tales formas
existen; no describe un método constructivo para encontrarlasen la práctica.
Existe una “forma simplificada”, computacionalmente útil, deuna matriz
A que puede producirsedirectamenteusando una sucesióndematricesde
Householder.
(7.44)
Teorema (formade Hessenberg). Suponga que A esp X p que es real. Hay
una sucesión de cuandomás p - 2 matrices de HouseholderHI, . . . ,HPp2
que se calcula y que define fácilmente una semejanza ortogonal
tal que la matriz transformadaH estálaforma
en
(superior)de Hessenberg,
la cual sedefine como sigue: H es casi triangular superior
en el sentido de
que, solamente, su primera subdiagonal puede contener elementosno cero,
esto es, (H),l = O para i ’ j + 2.
DEMOSTRACION.
Problemas 35 y 36.
m
348
7
I
Eigenvalores y eigenvectores:
una
panoramica
PROBLEMAS 7.5
1. Demuestre que la siguiente matriz es ortogonal, y encuentre su determinante.
b 2. Encuentre números a , b y c de tal manera que P sea ortogonal, siendo
P=
3. Suponga que P es real. Demuestre que P es ortogonal si y sólo si c'Pes
unitaria.
4. Suponga queR y S son reales. Demuestre que
P = R + ;S es unitaria si y sólo
si RTR + STS = I y que RTS = -S%.
D 5. Demuestre que P es unitaria si y sólo si PHes unitaria.
6. Demuestre que P es unitaria si y sólo si PT es unitaria.
7. Demuestre que P es ortogonal si y sólo si PT es ortogonal.
D 8. Suponga que P es una matrizp X p unitaria. Demuestre que l/*
IllPll4
tanto para la norma 1 como para la norma m.
9. Encuentre el eigensistema de la matriz ortogonal
cos 0
A = [seno
1-
-sen8
cos e
10. Encuentre la matriz 2 X 2 que refleja los vectores en
IR2
sobre la recta
x1 = x2.
11. Si w es complejo, demuestre que I = (2/wHw)wwH es unitaria.
D 12. Encuentre una matriz Householder H, tal que H p , = e, en IR2.
13. Encuentre una matriz Householder H, tal que H,[ 1 2IT sea un múltiplo de
[2 1]T.
D 14. El trabajo de multiplicar una matriz P, p X p , por una matriz A, p X p, es
generalmente de unas p3 multiplicaciones y p 3 sumas. Demuestre que PA
puede calcularse con cuando más 2p2 + p + 1 multiplicaciones y 2p2 - 1
sumas si P es una matriz de Householder H, y si se conoce w.
7.5
/
Matrices unitarias y semejanza unitaria; formas de Schur y dlagonal
349
15. Para tener acceso
a los p 2 elementos de una matriz A, p X p , generalmente se
requiere dep2lugares de almacenamiento. Demuestre que sólo se necesitan
p lugares si A es una matriz de Householder H, Y si se conoce W.
16. Demuestre el teorema7.36 e).
D 17. Demuestre que si
los primeros r elementos dew son iguales a cero, entonces
los primeros r renglones de H,A son iguales a los primeros r renglones de A
en orden.
18. Modifique el problema 13 de la sección 5.9 a modo de obtenerelementos no
negativos en la diagonal principal de las matrices Ai usando el teorema 7.36
e) 1) con y = e,.
19. Como en el teorema clave 7.38, premultiplique la siguiente matriz por una
sucesión de matrices de Householder para producir una matriz triangular
superior R.
A=
[i I E]
a].
D 20. Haga lo mismo que en el problema 19, pero con
[:
1
A=
2
21. Encuentre la matriz de rotación 3 x 3 R,,(45").
D 22. Encuentre la matriz de rotación 3 x 3 R2,(90").
23. Encuentre la matriz ortogonal 3 x 3 P tal que lamultiplicaciónpor P
sea equivalentea girar primero el eje x1 45" hacia el eje xg (véase el problema 21) y a girar después el nuevo eje x2 90" hacia el nuevo eje x, (véase el
problema 22).
24. Escriba la rotación general de 2 x 2 , R12(0)como producto de matrices de
Householder.
D 25. Utilice el detRkn(0)= 1 parademostrar queno toda matriz ortogonal es igual
a un producto de matrices de rotación elemental.
26. Demuestre que la forma Schur deuna matriz no es única considerando A y
P H A P , en donde
A-!
i]
y
P = [ io
-1
81.
27. La matriz A,p x p , define una transformación lineal Y de @ P a @ p por y ( v )
= Av. Demuestre que hay una base ortonormalde
con respecto a la cual
9-se representa por la forma Schur deA.
.
350
7
i
Eigenvalores y elgenvectores:
una
panoramlca
D 28. Demuestre que toda matriz real simétrica es normal.
29. Demuestre que toda matriz hermitiana es normal.
30. Demuestre que toda matriz unitaria (u ortogonal) es normal.
D 31. Demuestre que si A es unitariamente semejante a una matriz diagonal,
entonces A es normal.
32. Compruebe que cada una de las siguientes matrices es normal y demuestre
que sus eigenvectores forman un conjunto ortogonal.
33. Demuestre que si A es real y normal y tiene eigenvalores reales, entoncesA
es simétrica.
34. Demuestre que la matriz
[’; A]
tiene sólo un eigenvector que es linealmente independiente, demostrando
que las matrices simétricas no reales no necesitan tener un conjunto completo de eigenvectores como sucede con las matrices reales simétricas.
D 35. Suponga que A es real y que es p X p .
a) Demuestre que sepuede escoger a w, de p x 1, con (w) = O de tal modo
que los elementos en la primera columna de H,A sean iguales a cero
desde el tercer renglón para abajo(pero no necesariamente en los primeros dos renglones).
b) Para estaelección de w, demuestre qu H,AH, tiene la misma estructura
que la especificada para H,A.
36. Utilice el problema 35 para demostrar que se puede tratar una columna
de A cada vez y obtenga una forma de Hessenberg de A como dice el
teorema 7.44.
D 37. Utilice el método del problema 36 para reducir a su forma de Hessenberg
!IN 38. Utilice MATLAB o algún software semejante para encontrar una forma de
Hessenberg dela matriz de transición A del modelo delmercado dela leche
del ejemplo 2.6.
!IN 39. Utilice MATLAB o algún software semejante para encontrar una forma de
Schur de la matriz del problema 38.
40. Demuestre el teorema 7.41.
7.6
7.6
/
Programas de computadora para encontrar elgensistemas
351
PROGRAMAS DE COMPUTADORA PARAENCONTRAREIGENSISTEMAS
A diferencia de la situación en la resolución de ecuaciones lineales, no se ha
discutido el cálculo práctico de eigenvalores y eigenvectores; el tópico es demasiado detalladoy especializado para tratarloen detalle en este libro-véase Golub
y Van Loan (46), por ejemplo.-Aunque el problema de calcular los eigensistemas
es apreciablementemás complicado que el de resolver sistemas lineales, a través
de los años los expertos han desarrollado excelentes programas de carácter
general de cómputo para la determinación eficiente y exacta de eigensistemas.
Como en el caso de las ecuaciones lineales, talesprogramas están disponibles
generalmente gratis o a bajo costo.
Método: el algoritmo Q R
Para calcular los eigensistemas, el algoritmo a escoger-análogo a la eliminación
de Gauss para lasecuaciones lineales- es elalgoritmo QR para matrices reales y
su extensión, elalgoritmo Q Z , para matrices complejas; se indicará el esquema
del método QR básico (dejando los refinamientos importantes que lo hacen tan
efectivo) para comunicar la idea detrás del método.
(7.45)
Esquema del algoritmo QR Msico.
l . Dada lamatriz real A p X p , utilice p - 2 matrices de Householder para
calcular lamatriz ortogonalmente semejante H de la forma de Hessenberg como en el teorema 7.44. Defina A, = H y haga i = 1.
2. Utilice p matrices de Householder comoen el teorema clave 7.38 para
calcular unadescomposición QR de Ai, como Ai = QiRi,en donde Qi es
ortogonal y Ri es triangular superior.
3. Defina Ai+, = RiQi. Si Ai+, converge a una forma T de Schur comoen
(7.42), deténgase; en caso contrario, aumente 1 a i y vuelva al paso 2.
A primera vista, este método
parece misterioso: ¿por quédefinir Ai+, como
RiQi? Observe que
RiQi = Q'QiRiQi = Q'AiQi,
de modo que A,+, es dehecho ortogonalmente semejante a A,. (También resulta
que Ai+, hereda la forma de Hessenberg de Ai, loque reduce el esfuerzo
computacional para obtener las descomposiciones QR.) Así, todas las matrices Ai
son ortogonalmente semejantes aA; si almétodo básico se le aumentala potencia
propiamente, la sucesión de A, converge rápidamente a una forma de Schur T y A
como en (7.42). Esto proporcionalos eigenvalores de A; si se desea, se encuentran entonces los eigenvectores (o subespacios invariantes, o eigenvectores
seleccionados, o. . .) a partir de T por procedimientos especiales (ver Golub y
Van Loan). En la práctica, los eigenvalores de unamatrizp X p pueden aproximarse por este método, de manera exacta a lo más unas 15 p3 -y a menudo
352
7
/
Eigenvalores y eigenvectores:
una
panorimca
considerablemente menos- operaciones aritméticas.A manera de ejemplo senciuna matriz de 20 x 20 como una
llo, se usó MATLAB para generar al azar tanto
matriz simétrica de 20 x 20; para cada matriz, se encontraronlos eigenvalores
con MATLAB con unos 3p3 = 24,000 p o p s (iniciales en inglés para floatingpoint operations,operacionesde
punto flotante)quenecesitaron
de unos
6 segundos en la microcomputadora para cadamatriz, comparados con aproximadamente un segundo para encontrar la inversa de la misma matriz.
,~Qudprogramasconseguir?
Así como LINPACK es lo estándar para cálculos matriciales que impliquen
ecuaciones, EISPACK lo es paracálculos de eigensistemas.Desarrollado en la
misma forma cooperativa que LINPACK, pero anterior aé1, el programa EISPACK está disponible en varias formas y en varias fuentes comerciales
y
públicas -de hecho las mismas que para LINPACK (véase la sección 3.9). Se
pueden obtener documentos sobre las rutinas delEISPACK en Matrix Eigensysrem Routines: EISPACK Guide, 2a edición (52) y en Matrix Eigensystem Routines: EISPACK Guide Extension (44). Quien desee calcular eigensistemas deberá
considerar la posibilidad de obtener el sistema EISPACK.
PROBLEMAS 7.6
1. Determine si el software EISPACK está disponible para usted.
2. Determine qué software puede conseguir para calcularlos eigensistemas de:
a) matrices simétricas reales
b) matrices reales en general
c) matrices hermitianas complejas
d) matrices complejas en general
)IJz 3. Utilice MATLAB o algún software semejante para encontrar ladescomposi-
ción QR así como para determinar de
inmediato el algoritmo QR (7.45) de la
siguiente matriz:
y que cadanueva A i
Observe que esta
matriz está enla forma de Hessenberg
estará también en la forma Hessenberg; repítalo hasta que Ai sea aproximadamente diagonal. Compare con los eigenvalores encontrados directamente
por el MATLAB o algún software semejante.
/
7.7
7.7
Condici6n del problema de los eigenSiStemaS
353
CONDlClON DEL PROBLEMA DE LOS EIGENSISTEMAS
Recordará de la sección6.4 la noción generalde la condicidn de la respuesta a un
problema: cómo cambia la respuesta en comparación
a cambios en los datos -como
los causados por
errores de medición o de modelado. Este tópico es fundamental en
cualquier área de las matemáticas aplicadas; se le considerará brevemente con
respecto a los eigenvaloresy eigenvectores de A en términos de los cambios en los
datos de la matriz A.
Círculos de Gerschgorin
El siguiente resultado
es fundamental para estudio
el
de lacondición del
problemade
los eigensistemas.
(7.46)
Teorema (círculos
de Gerschgorin)
a) Todo eigenvalor (real o completo) A de B, p X p (B)u = bu satisface
cuando menos una de las siguientes desigualdades
[ A - biil 5 ri, en donde ri =
$ lbijl
(i = 1,. . . , p ) .
j= 1
j#i
Esto es, cadaeigenvalor está, por lo menos, en uno delos discos con
centro bii = (B),, y con radio r, en el plano complejo.
b) Si la unión de n de los discos es ajenaal resto, entonces habrá precisamente n eigenvalores de B en esa unión.
DEMOSTRACION
Si A y x # O con ( x ) ~= xi satisfacen Bx = Ax, entonces,
P
( A - bii)Xi= c' bijXj
(i = 1, . . . ,p),
j= 1
en donde la prima indica que se ha omitido el término paraj = i. Suponga
quexktiene el mayor(xk[para todax,,de modo que Ixj/xkl I 1para todaj.
Entonces
es válido para todo eigenvalor para algún valor de k , demostrando la
primera parte del teorema.
Problemas 9 y 10.
m
354
7
I
Elgenvalores y eigenvectores:
una
panorAmica
(7.47)
Ejemplo. Considere
la
matriz
La aplicación directa del teorema del círculo Gerschgorin
de
a lamatriz B
muestra que los tres eigenvalores satisfacen
)J. - 11 I 2 . 1 ,
12 - 101 5 10.01,
12 - 1001 I
1.01
Como el tercer discoes ajeno alos demás, habrá precisamente
un eigenvalor A3 siendo IX, - 1001 S 1.01. Sin embargo, como los dos primeros discos
se traslapan, solamente
es posible concluir que dos eigenvalores quedan en
queeigenvaalgún lugar de launión de los dos discos. También se sabe los
lores de B y de BT son iguales. El teorema de Gerschgorin aplicado aBT
conduce a la existencia de un eigenvalor en cada uno de los tres discos
ajenos
Condición del problema del eigenvalor
Considere ahora las perturbaciones que
cambian una matriz A en A + SA;
suponga queA, p X p , tiene un conjunto linealmente independiente de
p eigenvectores, de modo que-véase el teorema clave 7.14- hay una matrizP no singular
de eigenvectores deA tal que P"AP = A en donde A es diagonal y contiene los
eigenvalores de A. Entonces
P"(A
+ SA)P = P"AP + P"SAP = A + SA,
en donde ,SA = P-lSAP en general, no es diagonal. Como los eigenvalores de
matrices semejantes son idénticos, es posible estudiar los eigenvalores de A +
SA en lugar de los de A + SA. Como (A)ii = Xi, el i-ésirno eigenvalor de A, el
teorema del círculo de
Gerschgoriri dice inmediatamente quecada eigenvalor A
Se A+ 6A queda dentro de cuando
menos uno de los discos con centro enAl con
radio dado por la suma de las
magnitudes de los elementos no diagonales en el
i-ésimo renglón de SA "que cuando más es
Esto demuestra la versión en la norma 00 del siguiente teorema; para las otras
normas, véase la segunda edición de este libro, por ejemplo.
(7.48)
Teorema (condición del problema del eigenvalor). Suponga que A, p X p ,
tiene un conjunto linealmente independiente dep eigenvectores xl, . . . , x,
con los eigenvalores asociados Ai, y que P es la matriz (no singular)
7.7
I
problema de los eigensistemas
Condicidn
del
355
P = [x1 . * * x,].
Si A es un eigenvalor de la matriz perturbada A + 6A, entonces A satisface
cuando menos una de las desigualdades
II - Ail I l/P-'IlllPll IlSAll
para i = 1,. . . , p ,
en donde11.11 es cualquiera de las normas1,2 o m . En especial,si P es unitaria
u ortogonal -por ejemplo, si A es real simétrica o hermitiana o más en
general normal- de manera que llPllz = IIP-lllz = 1, entonces A satisface
cuando menos uno de 11 - Ail I)16A112.
Este teoremaafirma que lacondición del problema de los eigenvalores de A
cuán grande puede ser ( X - Ail en comparación con (1SAll -depende del factor
llPll l[P-lll, el cual es el númerode condición c(P) de la matriz P de los eigenvectores de A.
(7.49)
Ejemplo. Considerecómo cambian los eigenvalores cuando
A=[:
es perturbada a
A'=A+SA=
[: Y]-
La matriz A tiene los eigenvalores X, = 1, Az = 2, y los eigenvectores
10-6ez. Así, se obtiene que
asociados x1 = e,, xz = e,
+
por lo tanto, -por el teorema 7.48- los eigenvalores A' de A' están en los
discos
(1' - 11 I 2 ( 1 + 106)€,
11' - 2) I2(1 + 106)€,
indicando perturbaciones muy grandes (comparadas
con E ) . De hecho, para
E = 0.75 x lo"? los eigenvalores perturbados son precisamente = 0.5 y
1; = 2.5, comparados con Al = 1 y AZ = 2; los eigenvalores han cambiado
por aproximadamente 10%.
A',
Condicidn del problema del eigenvector
Una discusión detallada de la condición del problema de los eigenvectores está
más allá del propósito de este libro.Se examinarán solamente tresejemplos de la
356
7
Eigenvalores y eigenvectores:
una
panoramica
/
condición del problema de los eigenvectores dematrices diagonales para daruna
indicación de la naturaleza de las dificultades implicadas.
(7.50)
Ejemplo. Considere la matriz
que tiene eigenvectores e, y e,, y la matriz perturbada
A
+ SA =
[L 51,
que tiene eigenvectores e, y Eel + e,. Entonces los eigenvectores deA están
E;
perturbados porlie, - ell[= O y por [le, - (e, + Ee,)ll = Ilee,ll que es de orden
observe que en este caso los eigenvectores están bien condicionados.
(7.51)
Ejemplo. Considere
la
matriz
donde 6 # O que tiene los eigenvectores e, y e,. Considere también la matriz
perturbada
A + S A = [ 2 +o 6
E]
con eigenvectores e, y e, - (E/6)el. Al perturbar A por E se perturban sus
eigenvectores por O y lr/61, lo que es l/lSl veces el tamaño de la perturbación en A. Por ello, lacondición de los eigenvectores depende de la
separación 6 de los dos eigenvalores.
(7.52)
Ejemplo. Considere las siguientes matrices A y A + 6A siguientes
La matriz A + 6A tiene sólo un eigenvector que es linealmente independiente; dígase e, siempre que E sea # O . Sin embargo, la matriz A tiene un
conjunto linealmente independiente de dos eigenvectores que pueden escogerse comocualquier conjunto linealmente independiente{x,, .!x, Si, por
ejemplo, se tiene que x, = [ 1 13‘ y x, = [ 1 - 1IT, entonces no solo se ha
“perdido” un eigenvector alir de A a A + SA, sino que también la
perturbación en cualquier eigenvector deA es al menos, demagnitud l . Si
en lugar de esto se hubiera
escogido x1 = e,, entonces la perturbación en el
primer eigenvector de A hubiera sido O.
I
7.7
Condicibn
del
problema de los eigensistemas
357
Estos tres ejemplos indican que es posible pensar que una matriz con
eigenvalores disrinros y bien separados tengan eigenvectores bien condicionados, pero que matrices con eigenvectores repetidos o mal separados tengan,
posiblemente, eigenvectores mal condicionados. En realidad éste es generalmente el caso. Para más detalles sobre este tema, ver Golub y Van Loan (46),
Stewart (53) o Wilkinson (56).
PROBLEMAS 7.7
1. Utilice elteorema del círculo de Gerschgorin para acotarlos eigenvalores de
- 10-5
0.5
B = 4.
[ '
2.10-5
-3.
o. 1
3.10-5
- 10-5
J
.
D 2. Sea S la matriz diagonal 3 x 3 (S)ll = (Y,
(S)zz= (S)33= l .
a) Encuentre S"BS para la matriz B del problema 1, y encuentre los círculos
de Gerschgorin para los eigenvalores de S"BS (que son iguales a los
eigenvalores de B).
b) Escoja a (Y de tal manera que el radiorl del círculo con centra en (S-lSS),,
sea tan pequeño como sea posible sinque se traslape este círculo con los
otros dos, y entonces localice Al en un círculo tan pequeño como se
pueda.
c) Utilice matrices análogas S para calcular hz y AS.
3. Describa las perturbaciones en los eigenvalores de A cuando se perturbe a A
por &A, en donde
A=[:
i]
y
&A=[:
i].
4. Utilice elteoremadel círculo de Gerschgorin paraacotar los eigenvaloresde
2
B = [-:I
-;
0.1
0.2
--;l].
5. Utilice el método del problema 2 para refinar las cotas del problema 4.
6. Si A es un eigenvalor de B de modo que B - AI sea singular, existe un y # O
(eigenvectorizquierdo) tal que yTB = AyT. Utilice esta y paradar una
demostración análoga a la del teorema 7.46 para probar que los eigenvalores
A de B satisfacen [ A -- biil 5 r!, en donde r; es la suma
de la columna análoga a
la suma del renglón ri.
D 7. Suponga que P"AP = A es diagonal y que p y v son un eigenvalor/eigenvector aproximado lo que quiere decir que r = Av - pv se considera "pequeño".
aj Demuestre que hay un eigenvalor A de A que satisface
358
7
I
Elgenvalores y eigenvectores:
una
panoramica
en donde 11- 1 / denota cualquiera de las columnas 1, 2, o a.
b) Si A es normal, demuestre que
8. Aplique la aproximación del problema 7 b) con p = 1 y compárela con los
eigenvalores verdaderos cuando
9. Se sabe que las raíces
de un polinomio son funciones continuas
de sus coeficien-
tes. Demuestre que los eigenvaloresde una matriz son funciones continuasde
sus elementos.
10. Demuestre el teorema 7.46 b) como sigue. Sea D la matriz diagonal cuya
diagonal principal es igual a la de B y defina E = B - D: defina G, como la
unión de los n discos de Gerschgorin en cuestión,pero parala matrizD+ tE
para O 5 t 5 l . Demuestre que Gocontiene exactamente n eigenvalores, y
utilice elproblema 9 para demostrarque Gt siempre contiene exactamente n
eigenvalores; GIes la región del teorema 7.46 b).
D 11. Demuestre que si cada uno de los p discos de Gerschgorin de unamatrizp X
p es ajeno alos demás, entonces cada
uno contiene exactamenteun eigenvalor; concluya quesi además B es real,entonces los eigenvalores deben ser
reales y deben satisfacer bii - ri IA S b,, + r,, empleando la nomenclatura
del teorema 7.46.
12. Suponga como en el problema 11, que B es real y que tiene discos de
Gerschgorin ajenos. Demuestre que si bij > ri para toda i , entonces los
eigenvalores de B son estrictamente positivos.
13. Utilice el problema11 paradar toda lainformación posible sobre los eigenvalores de
r6
7.8
1
1
-21
14
1
2 -9
-1
1 -20
-;j.
PROBLEMAS VARIOS
PROBLEMAS 7.8
1. Si A es p x p real, demuestre que sus eigenvalores son reales o pares de
7.8
I
Problemas varios
359
complejos conjugados; si además p es impar demuestre que cuando menos
hay un eigenvalor real.
11 j
D 2. Demuestre que la matriz n X n
k
O ... O
1
..;
tiene eigenvalores xi cuyoj-ésimo elemento es sen { i j r / ( n + 1)). Deduzca
los eigenvalores correspondientes.
3. Demuestre que si A es real y p X p con p par y det A estrictamente negativo,
entonces A tiene cuando menos dos eigenvalores reales.
4. Demuestre que el polinomio característico de
en dondeB y C son cuadradas, es elproducto de los polinomios característicos de B y C. Investigue la relación entre los eigenvectores de A, B y C.
D 5. Demuestre que toda ecuación polinomial es la ecuación característica de
alguna matriz. Más específicamente, demuestre que
(-1)ndet
-al - 1
1
O
-a2
. . . -a,,-l
-1
O
0
...
...
...
...
1
1
(1
-a,,
O
O
0
1
-1
= A ' ~ + a ~ 1 ' " ~ + -i
-.a,,.
6. Si A es p x p con rango k , demuestre que A = O es un eigenvalor cuya
multiplicidad algebraica es cuando menos p - k , y proporcione un ejemplo
para demostrar que puede ser mayor que p - k .
7. P es la matriz de permutación n X n (definición 3.51) para la que(P) In = 1 y
(P)c.r-l= 1 para2 I i c: n. Demuestre que su
polinomio característico es An 1. Si se define
demuestre que los eigenvectores de P son
x, = [pr
p2r
...
pnry
(I = 1,.
. . , n)
correspondientes a los eigenvalores pn", respectivamente. Demuestre que
éstos son ortogonales. Demuestre que
360
7
I
Eigenvalores y eigenvectores: una panorgrnica
Pe, = e i + l
(i = 1 , . . . , n - 1);
Pen = e , .
Deduzca que si A es el circulante
Entonces A = f(P) en dondeflx) = co + c,x +
+ C , - ~ X ~ - ~Deduzca
.
que
los eigenvalores de A están dados por Ap""), r = 1, . . , , n , con los
eigenvectores correspondientes x,. definidos anteriormente.
8. Generalizar elteorema clave 7.10 c) demostrando 10 siguiente. Suponga que
X,, . . . ,Ares una colecciónde eigenvalores distintosde A y que para cadai
el conjunto S , = {xil,xiz, . . . ,xiri}es un conjunto linealmente independiente
de eigenvectores asociados con Xi. Entonces la unión de todas las Sies
linealmente independiente.
D 9. Pruebe o dé un contraejemplo: si A es semejante A'
a y B aB' (y todas sonp x
p ) , entonces AB es semejante a A'B'.
D 10. Suponga que f es un polinomio.
a) Utilice el teorema 7.25 e ) para demostrar quesi A y B son semejantes y
AA) = O , entonces AB) = O.
b) Demuestre que si A es semejante a una matriz diagonaly f e s e1,polinomio
característico de A, entoncesf(A) = O.
D 11. Suponga que P es una matriz p X p para la que llPxllz = ( J X I ~ ~para toda x.
Demuestre que(Px,Py) = (x, y) para toda x y y usando el producto interior
estándar ya sea para R P o para P .
12. Utilice el problema 11 para demostrar que la matriz
P, p X p es unitariasi y
sólo si J J P x l J , = IIxJlzpara toda x en @ p .
13. Suponga que B es unitariamente semejante a A. Demuestre que BHB es
unitariamente semejante a AHA.
Eigensistemas de matrices
simétricas, hermitianas y normales,
con aplicaciones
En este capítulo se explicar4 m4s detalladamente,la teoría señalada en el
capítulo 7, concerniente a los eigensistemas de matrices normales.
Mediante ella,se desarrollar&)algunas herramientas de utilidad para el trabajo
aplicado. Los teoremas clave8.6,8.8,8.19 y 8.26 ademas de
los corolarios
clave 8.9 y 8.20 s e r h fundamentales en este desarrollo.
8.1
INTRODUCCION
Quizá reflejando una simetría inherente ala naturaleza, los modelos matemáticos delos problemas del mundo real a menudo producen matricessimétricas (o,
en general, hermitianas o normales). Considérese, por ejemplo, el problema de
las masas oscilantes modelado en la sección2.5. Aunque el problema mismo no
parezca simétrico -por ejemplo, el sistema está fijo arriba y libre abajo-, el
modelo conduce a matrices K y M en (2.29) que soa simétricas.
El problema9 de la sección
7.2 extendió esemodelo a p masas acopladas por
p resortes; una vez más, aparecieron matrices simétricas
K y M. Las frecuencias
naturales de oscilación del sistema son o / 2 r , en donde K - 02M es singular.
Anteriormente seha hecho notarque estosignifica que
A = w2esun eigenvalorde
M-lK (no simétrica); en efecto, es posible reformular esto como un problema
de
eigenvalor
para
-una
vez
más- matrices simétricus. Ya que
M = diag(m,, . . . , m,) con mi > O se puede escribir M = D2, en donde
D = di&&,
. ..,
A).
361
Entonces D es no singular, y así K - w2Mes singular si y sólo si D-l (K - w2M)D-l
es singular, estoes, si y sólo si A = w2 es un eigenvalor de B = D"KD", y B es
simétrica:
B T = ( D - I K D - l ) T = ( D - l )T K TD-1
(
)T = (D-l)K(D-') = B,
porque D-l es diagonal (por lo tantosimétrica) y K essimétrica. Así, las
frecuencias fundamentalesdel sistema oscilante queson físicamente importantes, se encuentran partiendo los
de eigenvalores dela matriz simétrica B aunque
el sistema mismo parezca no simétrico.
(8.1)
Ejemplo. Considere el modelo concreto de dos masas acopladas del ejemlas matrices K y M. Es fácil encontrar la matriz B
plo 2.31, en donde se dan
= D-lKD", en donde M = D2:
Esta matriz ciertamente es simétrica.
La teoría de los eigensistemas
de matrices simétricastambién es importante
por otra razón: proporciona una poderosa herramienta -la descomposición en
valores singulares- para su uso con matrices arbitrarias.Los resultados de este
capítulo reflejan ambas motivaciones parael estudio de matrices simétricas
y sus
generalizaciones.
PROBLEMAS 8.1
D 1. Encuentre la relación entre los vectores 6 que resuelven(K - d M ) t = O , y los
vectores x que resuelven(B - &)x = O , en donde B = D-lKD" y Dz = M.
2. Encuentre la matriz B = D-lKD", en donde D2 = M, para el sistema de 10
masas acopladas del problema 10 de la sección 7.2, y demuestre que B es
simétrica.
3. Encuentre la fórmula general para la matriz B = D-IKD-', siendo D2= M,
para el sistema de p masas acopladas del problema 9 de la sección 7.2 y
demuestre que B es simétrica.
8.2
FORMA Y DESCOMPOSICION DE SCHUR; MATRICES NORMALES
Mediante la forma reducida de Gauss
y la forma escalón reducida
por renglón se
vio que las formas especiales a las que
puede reducirse cualquier matrizpueden
ser en extremoútiles para analizar las propiedades de las matrices.
Este también
es un método útil para el estudio de los eigensistemas.
8.2
/
Forma y descomposici6n de Schur;
matrices
normales
363
Forma de Schur
(8.2)
Teorema (Forma y descomposición de Schur). Sea A p X p .
a) A es unitariamente semejante a una matriz triangular superior T = PHAP
con P unitaria y con los eigenvalores de A (repetidos de acuerdo a sus
multiplicidades algebraicas) en la diagonal principal de T. Se llama a T
una forma deSchur de A y a la descomposición A = PTPHuna descomposición de Schur de A.
b) Si A y sus eigenvalores son reales, entonces se puede considerar a P
como real y por lo tanto ortogonal.
Las dos partesdel teorema son claramente ciertas parap =
l . Se procederápor inducción, suponiendo que el teorema es válido parap
= k y se buscará comprobarlo parap = k + l . Suponga entonces queA es
(k + 1) X ( k + 1). Sea A, un eigenvalor de A asociado al eigenvector x,
normalizado, de modo que IIxlllz = 1; si A y A, son reales, entonces, por el
teorema clave 7.10 a) será posible tomar a x, como real. Ya que (x,} se
puede extender para formar una base para Ck+' (o Rkfl si x, es real) y
entonces usar el proceso de Gram-Schmidt para producir de {x,} una base
ortonormal; hay un conjunto de vectores (reales si x, es real) w,, . . . , wk
tal que {x,, w,, . . . , wk} es ortonormal. Entonces la matriz
u = [Xl w, w2 . . . Wk] = [Xl W]
DEMOSTRACION.
es unitaria (ortogonal si x, es real). Se calcula ahora A' = UHAU:
A' = UHAU = [X,
WIHA[x,
W] = [X,
WIH[Ax1AW]
= [x1
porque llx1112= 1 y porque WHx, = O debido a que U es unitaria. Como A' es
semejante a A, los eigenvalores de A y A' son idénticos, incluyendo sus
multiplicidades. Desarrollando det(A' - AI) respecto a su primera columna, se ve que el polinomio característico de A' es igual a A, - A veces por
el de C; de este modo los eigenvalores deA, además de A,, son justamentelos
de C. Pero C es k X k (y real, si A y A, lo son), por lo tanto es válida la
hipótesis inductiva y será posible encontrar una V unitaria (ortogonalsi A y
sus eigenvalores son reales), demodo que VHCV = T' siendo T' triangular
superior con los eigenvalores de C (y por lo tanto de A) en su diagonal
principal. Si ahora se define P como
364
8
I
Eigensisternas de matricesslm6tricas,hermitianas
y normales, con apllcaclones
la cual tiene la forma apropiada y de estemodo demuestra que la hipótesis
inductiva es válida parap = k + 1. Por lo tanto es verdadera para todap. H
Observe que &te es un teorema de existencia, el cual nodice, sin embargo,
que T se calcule fácilmente: en la práctica, es necesario conocer los eigenvalores
para obtener T. No obstante, es una poderosa herramienta teórica. Ahora se
expresará este teorema en términos de representaciones de transformación en
lugar de en términos de descomposiciones o semejanzas {véase (7.19)).
(8.3)
Corolario (representaciones de Schur). Si Y e s la transformación lineal de
C p a C P definida por F ( v ) = Av, entonces hay una base ortonormal de C P
con respecto a la cual Y se representa por una forma de Schur de A.
(8.4)
Ejemplo. Considérese la matriz de transición A del modelo de competencia
entre lecherías del ejemplo 2.6 de la sección 2.2; en el ejemplo 7.2 de la
sección 7.1 se encontraron los eigenvalores y eigenvectores de A. Para
construir una formade Schur,se empezarácon A, X, y unax, normalizada:
0.8
A=
;:; a;],
0.2
0.1
A l = 0.6,
y
x1
=$[-a].
Se puede usar a x, como la primera columna de unamatriz
digamos
L
Q=
L
4
y'2
2
O
2
O
"
unitaria,
I
O1 1
en dondese han escogido las dos hltimas columnas de Q de lamanera más
sencilla posible para hacer a Q unitaria; entonces se calcula
0.6
A , = QHAQ = O
"_"" 0.1
I 0.9
I 0.18
0.6
1
A continuación se considerará a la submatriz 2 x 2 indicada anteriormente,
que es
8.2
/
Forma y descomposici6n de Schur;
matrices
normales
365
de la cual se encuentra fácilmente que tiene un eigenvalor A = 1 con un
eigenvector asociado normalizado
Se agrega, como una segunda columna, el vector ortogonal normalizado
más sencillo en que se pueda pensar para obtener una matriz unitaria
finalmente, se usa la matriz
para obtener la matriz unitaria semejante aAl, que da la forma triangular
deseada para A
Matrices normales
El teorema 8.2 es sorprendentemente útil: contiene información importante
sobre el eigensistema de una matriz simétrica (corolario clave 8.9). De hecho,
permite analizar el eigensistema de una clase más amplia de matrices que las
simétricas.
(8.5)
Definición. Una matriznormal es una matriz A, p x p , que satisfaceAHA=
AAH.
366
8
I
Elgensistemas de matricessimktrlcas,hermittanas
y normales, con aplicaciones
Ciertamente, las matrices hermitianas (AH = A) y su caso especial de
matrices reales simétricas (AT= A) son normales, porque tanto AHAcomo AAH
son igualesa A*. De manera semejante, las matrices unitarias son normales (AHA
y AAH son ambas iguales a I). Se usará ahora la forma de Schur de matrices
normales para obtener un resultado notable.
DEMOSTRACION. (formadiagonal + normal)Si existe P unitariatal que
PHAP= D diagonal, entonces ciertamenteA es normal porque las matrices
diagonales conmutan:
AHA = (PDPH)H(PDPH)
= PDHPHPDPH
= PDHDPH= PDDHPH
= PDPHPDHPH
= (PDPH)(PDPH)H
= AAH.
(normal 3 forma diagonal) Suponga que A es normal, y'sea T una
forma de Schur, donde PHAP = T. T también es normal:
THT= (PHAP)H(PHAP)
= PHAHAP= PHAAHP= (PHAP)(PHAP)H
= TTH,
como senecesitaba. Si tij es (T)ij,se tiene que tij = O parai > j . Como TT* =
THT, sus elementos ( i , i) son iguales. Se tiene entonces
(TTH)ii = Itii12
+ Iti,¡+ + . . . + Itipi2,
mientras que también
(THT)¡¡ = ltliI2 + Itzi12 + . . . + Itii12.
Igualando esas dos expresiones y restanto el término común lf,,lz de cada
lado, nos da
ltj,i+,12
+ . . + Itip12 =
'
ltli/2
+ . . . + 1tj-J
para toda i. Si se hace i = 1 en esta igualdad, se obtendrá O en el lado
derecho ya que no tiene términos; entonces en el lado izquierdo t12= t , ,
- . . . = tl, = O. Si entonces se hace i = 2, se obtendrá Itli/*dellado
derecho, que es igual a cero; entonces t 2 , = tZ4= . . . = t l p = O. Continuando de estemodo se demuestra que, en efecto, T es diagonal, y así se
8.2
I
Forma y descomposici6n de Schur; matrices normales
367
podrá consideraraD = T. La observación de realidad
la
de P es consecuencia de la misma observación para la forma de Schur. M
Como de costumbre, esposible interpretar inmediatamente cualquier resultado de descomposicióno semejanza de estetipo de términos de representaciones de transformaciones.
(8.7)
Corolario Suponiendoque Y es latransformación lineal de CP a C p
definida por F ( v ) = Av, entonces 9se representa por una matriz diagonal
con respecto a alguna base ortonormal si y sólo si A es normal.
Desde luego,también es posible interpretar inmediatamente este resultado
en términos de eigensistemas de matrices normales. Esta formadel teorema es
tan importante que se colocará en una sección especial para darle énfasis.
PROBLEMAS 8.2
1. Demuestre que una matriz
p X p triangular superior yaesti-en laforma de
Schur.
D 2. Como en el ejemplo 8.4, encuentre una forma de Schur de la matriz del
problema 2 de la sección 7 . 2 .
3. Como en el ejemplo 8.4, encuentre una forma de Schur de la matriz del
problema 1 de la sección 7 . 2 .
4. Como en el ejemplo 8.4, encuentre una forma de Schur de la
matriz AT, en
donde la matriz A es como la del ejemplo.
5. Demuestre que laforma de Schur no es única, demostrando queA y PHAP
!] €'=[a
( Z A) son formas de Schur de A, en donde
A = E
O
y
o
-1
p]
o
D 6. Demuestre que las matrices antihermitianas (AH= -A) son normales.
7. Suponga que A, p X p es triangular superiorpero definitivamente no diago-
nal; demuestre que A no es normal.
8. Si los eigenvalores de la siguiente matriz normal A son 9, 9, -3, encuentre
una forma de Schur.
368
8
/
Eigensistemas de matrices sim6tricas, hermitianas y normales,con
aplicaciones
D 9. Determine si A es normal y encuentre una forma de Schur.
A = [ 1”i2
y ] .
D 10. Demuestre que A es normal (pero no simétrica, ni hermitiana, ni unitaria, ni
antihermitiana) y encuentre una forma de Schur.
11. Para cada una de las matrices A de los problemas 8, 9 y 10, encuentre una
base ortonormal y una matriz diagonal D tal que latransformación lineal Y
definida por Y(v)= Av se represente por D con respecto a esa base (usada en
el dominio y en el contradominio).
8.3
EIGENSISTEMAS DE MATRICES NORMALES
Recuerde de (7.19) que las afirmaciones sobre descomposiciones/semejanzas,
representaciones de transformaciones y eigensistemas son todas equivalentes.
Se interpretará el teorema clave 8.6 así como su corolario en la versión restante:
eigensistemas.
8.3
(8.10)
I Eigensistemas de matrices normales
369
Ejemplo. Considere la matriz B, 2 x 2 del ejemplo 8.1, cuyos eigenvalores
dan las frecuencias fundamentales de
masas
las oscilantes dela sección 2.5.
Se encuentra fácilmente que
los eigenvalores son X, = 4 y h2= 16 y que los
eigenvectores son [ f i 2IT y [& - 1IT. Normalizándolos, resulta el conjunto ortonormal {x, XJ de eigenvectores
x1
=[i-&
3]
y
@ T
x2=
[‘I” -PIT.
-
~
Es necesario hacer un comentario sobre la frase del teorema clave 8.8 y el
corolarioclave 8.9 que afirma que “pueden escogerse para que formen un
conjunto ortonormal” de eigenvectores. Ya que
cx es un eigenvector para c # O
si x es un eigenvector, desde luego,
es posible forzar a los eigenvectores para que
se normalicen a 1 en la norma 2. Los eigenvectores asociados con eigenvalores
distintos automáticamente serán ortogonales (problema 8), pero
los eigenvectores asociados con un eigenvalor múltiple no necesitan ser ortogonales amenos
que se les escoja así. Se aclarará este punto con un ejemplo.
(8.11)
Ejemplo. Considere la matriz real simétrica
[--: -:l.
7
A=
-16
-8
El polinomio característico es
a3 -
922 - 405a - 2187,
con raíces X, = 27, h2 = X3 = -9. las ecuaciones (A - h,I)x = O dan,
inmediatamente, y de manera precisa, un eigenvector, como se podría
esperar, ya que X, es una raíz simple:
en donde (Y es una constanre arbitraria. Las ecuaciones(A - h21)x = O se
reducen a una sola ecuación
2 x , - 2x, - X ) = o.
La solución general esx3 = p arbitraria, x2 = y arbitraria, y entonces x, = y
+ p/2. Así, todos los eigenvectores asociados conX2 = h3tienen la forma
370
8
/
Eigensistemas de matricesslmetrlcas,hermltianas
y normales, con aplicaciones
Los dos eigenvectores en esta combinación lineal son linealmente independientes pero no ortogonales entre sí (nótese queson ortogonales a xl).
Por lo tanto, se deben escoger dos combinaciones lineales distintas de la
forma anterior para que sean mutuamente ortogonales. Para la primera se
tomará simplemente y = 1 y p = O obteniendo [ 1 1 OIT. Para la segunda,
sea
se deben escoger y y p de tal modo que la resultante [y + p/2 y
ortogonal ala primera, [ 1 1 OIT. Esto es, se requiere que y + p/2 + y = O, lo
que da p = -4y; tomando y = 1 y por lo tanto p = -4, resulta el otro
eigenvector [- 1 1 -4IT. Normalizando los eigenvectores se obtiene finalmente un conjunto ortonormal de eigenvectores
junto con
;[
t]'
para A l = 27.
Ahora podrd resolver los problemas del 1 al 9 .
Solubilidad de ecuaciones
Suponga que A e s p X p . Se sabe quesólo es posible esperar resolver Ax = b con
b arbitraria cuando A es no singular. Sin embargo, se sabe que, aun siendo A
singular, hay algunas b para las que se puede resolver Ax = b. La cuestión es:
jcómo se puede caracterizar a esas b (además de decir que en el espacio de
columnas de A hay una tautología)? Para matrices normales A, hay una caracterización elegante.
(8.12)
Teorema (matrices normales y solubilidad). Suponga que A es una matriz
normal p x p que tiene eigenvalores hi y un conjunto ortonormal de
eigenvectores asociados {xl,. . . , x,}. Considere la pregunta de la existencia de una solución x de (A - XI)x = b, en donde b es una matriz p X
1 dada y A es un número dado. Entonces:
a) Si A no es uno de los eigenvalores, entonces la ecuación tiene u n a
solución única que es
b) Si A es uno de los eigenvalores hi,entonces la ecuación tiene una
solución, si y sólo si b es ortogonal a todos los eigenvectores asociados
8.3
Eigensistemas de matrices normales
/
371
con hi. Cuando hay soluciones, habrá infinidad de ellas, y cacia una se
puede obtener agregando a una solución x una combinación lineal
arbitraria de los eigenvectores asociados a X i .
DEMOSTRACION. Como {xl, . . . , xp} es una base ortonormal, es posible
escribir a b y a las soluciones posibles x en términos de esos vectores como
+ . . . + (xp,b)xp
x = a l x l + u2x2 + . . . + apxp
b = (xl, b)xl
(en donde se desconocen las ai)
de acuerdoal teorema 5.74 sobre bases ortogonales. Entonces
la ecuación
b = (A - hI)x es equivalente a
b=
P
(xj,b)xj = (A - AI)
j=1
ujxj =
j= 1
P
1 a,(Aj - A)xj;
j= 1
de aquí que existe unasolución x = alxl =
. = apxp si y sólo si
“AAj - 1) = (xj, b)
paraj = 1, . . . , p . De aquí el teorema se deduce fácilmente.
(8.13)
Ejemplo. Considérese la aplicación del teorema 8.12 cuando
12
= [-4&
- 4 3
cuyos eigenvalores Al = 4 y h2 = 16 y los eigenvectores asociados están
dados en el ejemplo 8.10. Se consideraránlas condiciones para la solución
de (A - XII)x = b. De acuerdo al teorema 8.12, b debe serortogonal a x1 =
[&3
&/3]*. Estoes,
[- 4 k
-“][;I
=
[fi]
tiene auna solución si y sólo si c a l 3 + d&/3 = O-esto es, c = - d a .
Aplicacidn: oscilacionesforzadas y resonancia
Como ejemplo de la utilización de este teoremaen las aplicaciones, se aplicará
aa
ls masas oscilantes de la sección 2.5 cuando éstas se encuentran sujetas a
fuerzas externas. Para ser específicos,
suponga que una fuerza oscilante se
aplica a la masa de abajo y nos preguntamos si todavía habrá una solución
oscilante de amplitud fija, como en el caso enel que no hay tal fuerza externa.
Para tener una apreciación de lo que se debe esperar, considere lo que
sucede cuandose empieza a empujar un
a niño en un columpio. El columpio tiene
372
8
I
Eigensistemas de matrices srmetricas,hermitianas y normales, con aplicaciones
una frecuencia natural, y si la frecuencia de los empujones es la misma que la
frecuencia natural, será posible lograr que el niño vaya másy más alto (esto es,
la amplitudno es fija); este es el fenómenode resonuncia. Por otro lado, si empuja a
distinta frecuencia, la amplitud de las oscilaciones no crecerá. Se desea ver si el
modelo puede indicar algo de estaconducta enel caso delas masas acopladas.
Suponga que se aplica una fuerza oscilante hacia abajo F cos(p.t + a) de
frecuencia p/(27r) siendo p # O a la masa inferior del caso específico del ejemplo
2.31. Entonces la segunda ecuación de (2.26) se cambia por la adición de este
término a su miembro del lado derecho dando
m,x; = - k , X ,
+ k,(X, - X , )
m,X” = - k , ( X , - X , )
+ F cos(pLt + a).
Como estas ecuaciones son lineales, su solución general es la suma de dos
términos: 1) la solución general del sistema homogéneo (cuando F = O ) ; y 2) una
solución particular para F , p y (Y específicas. En la sección 2.5, se desarrolló el
punto 1) como combinaciones lineales de sen o?y cos wt para valores especiales
de o ;véase (2.27).
Para encontrar la solución particular 2), se seguirán buscando soluciones
oscilantes de magnitud fija y de frecuencia desconocida w/(27r) como en (2.27),
en donde se deberá determinar w # O. Sustituyendo las expresiones para X , y
X , en las ecuaciones anteriores, resultan ecuaciones como las inmediatamente
anteriores a (2.28), excepto que lasegunda ecuación tiene el cero en el miembro
del lado derecho, sustituido por F cos(pt + a ) ,que es igual a
( F cos a) cos p ~ t- ( F sen +en pt.
Con algunos cálculos se demuestra queel Único modo en que una combinación
lineal no trivial de sen wt y cos w t puede ser idénticamente igual a una combinación lineal no trivialde senpt y cos pul para toda 1 , es haciendo que w = p y los
coeficientes de las funciones correspondientes deben ser iguales. Igualando
los coeficientes correspondientes se llega a (2.28),excepto que lasegunda ecuación allí, tiene a - F sen a en el lado derechoy lacuarta tiene a Fcos (Y.Escribiendo en términos matriciales, se obtienefinalmente el análogo de (2.30) como una
combinación particular, usando la nomenclatura de (2.29):
(8.14)
(K - pzM)< = b,
b, = [O
(K - p2M)q = b,,
y
-F‘senalT
y
b, = [O
donde
FcosaIT.
Para ser específicos,se regresará a las matrices K y M dadas en el ejemplo
2.31; el ejemplo 2.34 mostró que K - pzM es no singular excepto cuando pz =
4 o p2 = 16. Como K - p2M es simétrica, es ciertamente normal y se puede
aplicarelteorema8.12.Sipz#4ypz# 16,habráunasoluciónúnica5, qa(8.14),
lo que significa que X(?) = sen pt + q cos pt es una solución particular de las
ecuaciones diferenciales. Agregando esto a la solución general (2.35) del sistema
<
8.3
I
Eigensistemas de matrices normales
373
homogéneo, se demuestraque lasolucióngeneral
de las ecuacionesdiferenciales
es una combinación lineal de sen p t , cos p t , sen 4t, cos 4t, sen 2t y cos 2t. Esto es,
si la frecuencia p/(271.)de la fuerza aplicada es distinta de cada una de las
frecuencias naturales 1/71. y 2/71., entonces el movimiento de las masas
acopladas consiste en una combinación
lineal de tres oscilaciones de amplitudfija a esas tres frecuencias distintas.
Pero, ¿qué pasasi p2= 4 o p2= 16 (los númerosque determinan las frecuencias
naturales 1/71. y 2/77)? De acuerdo al teorema 8.12, el sistema (8.14) tendrá una
solución si y sólo si b, y b2 son ortogonales a los vectores x para los que
(K - p W ) x = O. Es fácil encontrar tales vectores x de los resultados del ejemplo
8.10; se descubrirá que bl y b2 pueden ser ortogonales a esasx si y sólo si F = O
(esto es, no hay fuerza aplicada).Como se suponeque hay una fuerza aplicada
F Z O, bl y b2 no reúnen las condiciones necesarias para que (8.14) tenga
soluciones. Por lo tanto
si la frecuencia p/(271.)de la fuerza aplicada es igual a cualquiera de las
frecuencias naturales 1/71. o 2/71., entonces el movimiento de las masas
acopladas no puede consistir en una combinación
lineal de oscilaciones de
amplitud fija.
Como en el caso delniño y el columpio, éste esel fenómeno deresonancia. La
fuerza externa se aplica a la frecuencia natural del sistema. Un conocimiento
mayor delas ecuaciones diferenciales permitiría demostrar queen este caso hay
soluciones que son combinaciones lineales de t(cos p t ) y ?(sen p t ) -soluciones
oscilatorias con amplitudes que crecen sin frontera.
PROBLEMAS 8.3
D 1. a) Si A es p X p , demuestre que h es un eigenvalor de A si y sólo si h es un
eigenvalor de AH.
b) Si A es normal, demuestreque x es un eigenvector de A asociado con el
eigenvalor X de A si y sólosi x es un eigenvector de AH asociado
con el eigenvalor de A H .
2. Para la matriz A siguiente, encuentre un par de eigenvectores que no sean
ortogonales y un par de ellos que sean ortonormales.
x
3. Encuentre los eigenvalores y eigenvectores de A de modo que los eigenvectores formen un conjunto ortonormal,
374
8
donde
/
y normales, con aplicaciones
Elgensistemas de matricesslmbtrlcas,hermltlanas
en
[-a -: -:l.
2
A=
-1
D 4. Si los eigenvalores de A siguientes son 9, 9 y - 3 , encuentre un conjunto
[-: : :I
ortonormal de eigenvectores asociados.
5
A=
4
-4
5. Demuestre que la siguiente matriz es normal (pero no simétrica real, ni
hermitiana, ni unitaria y tampoco antihermitiana), y encuentre sus eigenva-
lores y un conjunto ortonormal de eigenvectores.
6. Suponga que A es antihermitiana (AH= -A);
a) demuestre que ;A es hermitiana.
b) demuestre que los eigenvalores de A son imaginarios puros.
D 7. Demuestre que una matriz normales hermitiana si y sólo si sus eigenvalores
son reales.
8. Usando el problema 1 y suponiendo(A, - A2)x~x,,demuestre quesi A , # 1,
son eigenvalores asociados con los eigenvectores x, y x2 de una matriz
normal, entonces x1 y x2 son ortogonales.
9.R 9. Utilice MATLAB o algún software semejante para encontrar los eigenvalores y eigenvectores de lamatriz B = D"KD", en donde D2 = M (véase el
problema 2 de la sección S . l ) , para K y M como en el problema 10 de la
sección 7 . 2 ;compruebe quelos eigenvectores son (aproximadamente) ortogonales.
b 10. Utilice elteorema 8.12 sobre matrices normales y solubilidad para encontrar
las condiciones necesarias y suficientes de 6, y b, para que el sistema
tenga solución cuando:
a)l = 1
b)l = 3
11. Utilice elteorema 8.12 sobre matrices normales y solubilidad paraencontrar
las condiciones necesarias y suficientes para b, y b,, para que exista una
8.4
/
Aplicaci6n: descomposici6n en
valores
singulares
375
solución de
D 12. Suponga que A es normal. Utilice elteorema 8.12 sobre matrices normales y
solubilidad para demostrar que hay cuando
más una solución de Ax = b con b
arbitraria si y sólo si al menos hay una soluciónde Ax = b con b arbitraria.
13. Suponga que A, es p X p y normal. Utilice la proyección ortogonal y el
teorema 8.12 para demostrar que cada
vector v en C P puede escribirse como
v = Ax + h para alguna x en C p y alguna h que satisfaga a Ah = O.
14. Dé los detalles de la deducción (8.14).
15. Suponga que enel modelode oscilaciones forzadas (siendo K y M como en el
ejemplo 2.31) se hacen F = 2, (Y = ~ / 4 py = 3. Encuentre 6 y q que resuelvan
(8.14).
9R 16. Utilice MATLAB o algún software semejante para encontrar las frecuencias
a las que ocurriríala resonancia cuando se aplicaran oscilaciones forzadas a
las 10 masas acopladas del problema 10 de la sección 7.2.
8.4
APLICACION: DESCOMPOSICION EN VALORES SINGULARES
Hasta ahora se han explorado cuando menos dos descomposiciones útiles
que emplean matrices unitariasu ortogonales: 1) la descomposición Q R , A =
QR para A p x q (hay varias versiones de ésta; compare losteoremas clave
5.82 y 7.38); y 2) las descomposiciones de SchurA = PTPH para A, p X p .
De acuerdoal teorema 6.17 sobre cambio de base
y representación, éstas
se pueden interpretar como afirmaciones sobre representaciones de la transformaciónlineal Y definidapor Y ( v ) = Av con respecto a varias bases
ortonormales) 1) 5 se representa por R con respecto a la base ordenada
ortonormal {el; . . . ; e,} para el dominio y la base ordenada ortonormal que
Y; y 2) Y se
consiste en las columnas de Q paraelcontradominiode
representa por T con respectoa la base ordenada ortonormal que consiste en
las columnas de
P, que seusa tanto para el
dominio como para el contradominio. La primera versión ( Q R )especifica la base para eldominio pero permite
que se pueda escoger del
la contradominio para producir una representación
sencilla. La segunda (Schur) especifica queusesela misma base tanto parae1
dominio como para el contradominio. Se examinará ahora qué se puede
conseguir por medio de una selección cuidadosa de bases ortonormales no
restringidas y posiblemente distintas, tanto para el dominio como para el
contradominio. El resultado es de gran importancia práctica.
Descomposicidn en valores singulares
Esta sección demostrará que todamatriz A, p X q , puede descomponerse como
376
8
Eigensistemas de matrices
sirnktricas,
herrnitianas
y normales, con aplicaciones
(8.15)
A = UCVH,en donde U esp X p y unitaria, V es q X q y unitaria, y C e s p X q
y “diagonal” porque (C), = O a menos que i = j , en cuyo casose escribirá
(C)ii = ui, donde ui es real y no negativo.
(8.16)
Ejemplo. Cada una de las matrices siguientes es una C del tipo descrito en
(8.15):
-4
0.
O
6
O
0
Antes de demostrar que se puede obtener (8.15), se considerará primero qué
significaría si fuera cierto. Se observó primero que AV = U 2 significa que Avi =
upi para 1 5 i 5 min(p, q } , en donde las columnas de U y V son las ui y vi.
También se tendría
AHA = (UEVH)H(UCVH)
= VEHUHUEVH
= V(EHE)VH
(ya que U es unitaria),
en donde CHC = D = VH(AHA)Ves q X q y diagonal con elementos reales no
negativos en su diagonal principal. De acuerdo con el teorema clave 8.6, esto
significa que
los eigenvectores de AHAforman a V, con los eigenvalores (reales no
negativos) asociados en la diagonal de D = CHC.
los eigenvectores de AAHforman a U , con los eigenvalores (reales no
negativos) asociados en la diagonal de D‘ = CCH.
Los elementos diagonales tanto de CCH y CHC son justamentelas a? (quizá con
algunos ceros agregados), en donde ( Z ) i i = ui.
Estos resultados se pueden usar para construir un método mediante el cual
se demuestre que(8.15) se puede lograr: es posible definir V de tal manera que
contenga los eigenvectores de AHA, definir las ui para que los eigenvalores de
8.4
/
Aplicaci6n: descomposici6n en
valores
singulares
377
AHAsean lasa,: y definir aU para que contenga
los eigenvectores deAAH.Sería
necesarioentonces demostrar que,verdaderamente, A = UCVH. Como las
demostraciones son bastante técnicas, se dará un ejemplo ilustrativo de cómo
funcionaría este método.
(8.17)
Ejemplo. Considere
a
1
A= 2
2
Ya que
AHA =
1
2
2
[," ,"I
tiene eigenvalores(¡no negativos!) 18 y O, se pueden considerar v1= 6 8 =
3 4 , y m2 = O. Es posible encontrar con facilidad que un par normalizado
de eigenvectores de AHA sería
v1 = [$I2
$PIT
Y
v2 = [ a l 2
-$/2IT,
O (que es igual a 0 3 , y O. Se
tiene los eigenvalores 18 (que es igual a .I),
encuentran fácilmente los eigenvectores normalizados
con los cualesseforma U = [u, u2 us] esperandoobtener (8.15). Se
comprobará que A = UZVH y corroborando que realmente lo es:
378
8
1 Elgenststemas de matricessimétricas,hermitranas
y normales, con aplicaclones
Observe también que Avi = wiui y que AHui= wivi siendo i, = 1 , 2.
Note que se puede construir fácilmente la factorización (8.15) en los casos
sencillos:
(8.18)
l . Para una matriz A, p X q , cero, se tendrá O = IpOIf, de modo que U = I,,
c = o, y v = I,.
2 . Para A, una matriz columna diferente de cero p x 1 a, es posible usar el
procesoGram-Schmidtparaobtenerunabaseortonormal
a/llal12, u2, . . . , u, de C P y escribir
a = u(llall2el)t-~l
donde U = [a/llal12 u2 . . . u p ] , E = )laj12el,V = [l].
3 . Si es posible obtener una descomposición (8.15) para AH = U,C,V~,
entonces
A = UXVH
donde U = V,, C = X:, V = U,.
4 . Para una matriz renglón A diferente de cero, sepuede aplicar 2) a AH y
entonces usar 3).
Ahora se procederá formalmente.
(8.19)
8.4
/
379
Aplicaci6n: descomposici6n en valores
singulares
DEMOSTRACION. Suponiendo ( 8 . 1 5 ) -que aquí es justamente a)- ya se
ha deducido b); de modo que sólo será necesario demostrar a). Debido a
( 8 . 1 8 ) 3) y 1) es posible suponerque p 2 q y que A # O . Enla
demostración se hará uso de la inducción: 1 ) por ( 8 . 1 8 ) 2 ) el resultado es
válido para matrices (p - q + 1) x 1 ; 2 ) se supondrá válido para matrices
(p - q + k) x k y se demostrará válido para matrices p’ x q’ en donde
p ‘ = p - q + k + l y q ’ = k + l .
Suponga que A es p’ x q’ con p’ 2 q’, que A # O , y que el teorema es
válido para matrices (p’ - 1 ) X (4’ - 1 ) . AHA es hermitiana (de aquí en
adelante no se mencionará el caso real explícitamente), diferente de ceroy
tiene cuando menos un eigenvalordiferente de cero (de
otro modo, A = O ) .
Si AHAv = Av, entonces
L ~ ~ V I=I V
~ ~ I=V vHAHAv= IIAvII~,
v, = olv?v, = o.
Esto da
A‘ = U?AV, = [u1U,IHA[v1
V,]
=
[il
UfAV,
O
3
=[;I
OAJ
siendo A, una matriz (p’ - 1 ) X (q’ - 1). Por la hipótesis inductiva,
en donde Po y Qo son unitarias. Pero entonces
como se necesitaba para completar el argumento inductivo.
En la práctica, el cálculo de una descomposición en valores singulares de
una matriz A, p x q , se hace con programación de computadora que hace uso
de técnicas eficientes -véase la sección
7.6- para encontrar el eigensistema de una
matriz simétrica hermitiana; el esfuerzo total involucrado, es generalmente un
380
8
/
Eigensistemas de matricessimétricas,hermitianas
y normales, con apltcaciones
múltiplo pequeño de p 2 4 + p q 2 + {mí&,-aproximadamente
varias inversiones de matrices cuando p = 4.
comparable a
Ahora podrd resolver los problemas del 1 al 12.
Valores singulares y rango
La descomposición en valores singulares contiene gran cantidad de información
sobre la matriz A.
(8.20)
DEMOSTRACION. Problemas 13 y 14.
w
De este modo la descomposición en valores singulares se puede usar para determinar el rango de una matriz. Más importante aún es que puede usarse para
analizar los diferentes rangos que podría tener A si sus elementos estuvieran
sujetos a errores (por ejemplo, errores de medición o de modelado). Se vio el
ejemplo en 6.31 que el número de factores independientes en una reacción
química puededeterminarse como el rangode cierta matriz que presentaconcentraciones medidas de aquélla, y se vio cómo los errores en esas mediciones
podrían ocasionar el creer que el rango es mayor de lo que en realidad pudiera
ser. Esto se trató al buscar el rango mínimo de todas las matrices C + 6C, en
donde las perturbaciones 6C de la matriz de concentraciones C deberían ser
menores que los errores que se creíaninherentes a las mediciones. El siguiente
teorema, cuya prueba se omite, es la base para encontrar el rango mínimo.
(8.21)
Teorema (rango aproximado y valores singulares). Sea A unamatriz
p x q , y rango k . Consideremos, utilizando la misma notación del teorema
clave 8.19 una descomposición de A en valores singulares.
a) Parauna r < k dada, lamatriz A, de rango r que hace mínimo a IIA entre todas las matrices p X q , A', de rango r está dada por
A, = O ~ U , V ~ D,U,V?
. . . + D+I~V,H,
+
y el mínimo es IIA - Aril2 =
+
8.4
I
Aplicaci6n: descomposici6n en
valores
singulares
381
b) Para una E > O dada, la matriz Amin de rango mínimo entre todas las
a - A$ IE es igual a la A, de a), en donde
matrices A’ que satisfacen IIA
5 E pero (T,
> E.
m(8.22)
Ejemplo. ConsidéresenuevamentelamatrizdeconcentracionesC
del
ejemplo 6.3 1 , en donde los elementos están sujetos a errores experimentales de magnitud 0.015 y donde el problema es determinar el número de
factores independientes en la reacción estudiada; se sabe quenúmero
este
es igual al rango de C si sehicieran mediciones perfectas. Mediante MATLAB se calcularonlos valores singulares de C, que fueron
crl = 9.5213, ( T ~
= 0.0071 y ( T =
~ 0.0023. Por el corolario clave 8.20, l a c medida tiene ranga
k = 3; sinembargo, porel teorema8.21hay unamatrizde rango 2 solamente
a una distancia de 0.0023 y una matriz de rango1 sólo alejada 0.0071, ambas
distancias medidas en la norma 2. Como ningún elemento deuna matriz A
puede ser más grande queIIA(Jen cualquiera de lasnormas 1 , 2 o m (porque
llAeill IllAll), los elementos de esas matrices de rango 2 y rango 1 están
dentro delos límites del error experimental los
de ya medidos en C. Sólo se
puede decir con seguridad que el rango de la matriz de concentraciones
perfectamente medidas C escuando menos uno, y así, sólo se puede confiar
en que haya un factor independiente en lareacción química. Nótese que
reemplazar a C por IamatrizC, = O~U,VT,laaproximapodría ser razonable
ción más c5rcana de rango 1:
1.0193
C, = olulvT = b.2567
1.7395
2.0280
0.5107
3.4610
1
4.201 1
1.0580 ,
7.1696
que queda, en realidad, dentro del error de n;edición de la C medida.
La capacidad de la descomposición en valoressingulares para decir cómo
obtener aproximaciones de bajo rango a una matriz dada, puede ser útil en la
compresióndedatos -por ejemploalenviarfotografíasdesde
el espacio.
Considérese una cámara en un satélite lejos de la Tierra; ¿cómo se pueden
transmitir hacia acá miles de fotos? Cada foto se
puede discretizar o digitalizar
dividiendo la imagen en
muchos cuadrados pequeñosy asignando un tono de gris
podría hacer sobrela foto un cuadriculado de
a cadauno deellos. Por ejemplo, se
1000 x lo00 y asignar un tono degris de O a 10 para cadacuadro pequeño,
mandar
y entonces reconstruirla foto
a la Tierra el1,000,000 de enteros para cada foto,
en la Tierra.
El problema con este esquema es el envío de
1,000,000 de datos para cada
foto, cuando fácilmente puede haber miles de fotos ligadas a otros datos. Se
una
necesita un método para comprimir los datos con objeto de transmitir
cantidad más pequeña. Un método es encontrar la descomposición en valores
382
8
i Elgensistemas d e matrlces slmétrlcas, hermitianas y normales, con aplicaclones
2)ORIGINAL
IMAGEN
c ) RECONSTRUCCION,
GRADO
b)DISCRETIZADA
IMAGEN
1
d ) RECONSTRUCCION,
GRADO
2
singulares de la matriz 1000 x 1000B de tonos de grisesy ver si unaaproximación
de bajo rango
8.4
/
Aplicaci6n: descomposici6n en valores singulares
383
representaría adecuadamente la imagen;éSta podría transmitirse a la Tierra no
explícitamente comoB,, sino enla forma delos 2r vectores ui y vi y los r números
ui. Si r = 5 es suficiente parareconstrur la foto,por ejemplo, sólo 2 x 5 x 1000 +
5 = 10,005datos son necesarios
por fotografíaen vez del 1,000,000-un ahorro de
casi 99%.
W(8.23)
Ejemplo. Seconsiderará un ejemplo burdo y sencillo delmétodoquese
acaba de discutir.Suponga que laprimera X de la figura que en el original
X , y s610 se
aparece en la página382 es una foto deun objeto en forma de
un reticulado
permiten blanco y negro en laescala de grises. Se sobrepone
tosco de20 x 20 sobre la foto,y asignando el valor 1 (negro) a cada cuadro
da
que cuandomenos seala mitad negroy el valor O en caso contrario. Esto
una versión discretizada de la foto, con 20(20) = 400 elementos. Si se
transmitieran perfectamente esos
400 elementos y entonces se construyera
una foto aproximada haciendo todoel cuadro negro si su valor fuera 1 , se
obtendría la segunda X de la figura. Se desea, sin embargo, enviar una
menor cantidad de datos;y el problema es si es posible hacerlo y obtener
una foto reconstruida que sea
tan cercana ala primera X (la foto perfecta)
como lo es la segunda X. Mediante MATLAB se calcularon los valores
singulares de la matrizB, 20 x 20, que representaba alos tonos aproximadamente como = 7.3, uz= 4.6, c r 3 = 2.2, u4= 1.7, u5= 0.8, c r 6 = 0.7, u7
= 0.5, y las otrasui = 0.0000. Así, el rango de B, calculado conMATLAB
es igual a 7. La aproximación de rango 1 más cercana a B es
(+,
la información en B1 está contenida enlos 41 números de u,,u, y vl. Si se
calcula B, y se pinta de negro cualquier cuadro que tenga un elemento
correspondiente en B, de cuando menos 4, se obtiene la forma escindida
de la figura, la cual
no es satisfactoria. Sin embargo, hay una matriz Bz de
rango 2, Bz= a,u,vr+ (r2u2vTque requieresólo 82 números y con IIB - Bzllz
= u3= 2.2. Si sereconstruye análogamente la foto conBz, se obtienela foto
final de la página 382. Tiene claramente la forma de X y parece bastante
cercana a la versión discretizada de la foto verdadera (ver nuevamente
la
segunda X ) ; de hecho, esta reconstrucción de rango 2 sólo omite cuatro
cuadros que debería haber ennegrecido y ennegrece sólo cuatro que no
debería. Ocho errores en cuatrocientos cuadros -98% correcto -parece
una representación adecuada.
PROBLEMAS 8.4
1. Compruebe que Avi = diui en el ejemplo 8.17.
D 2. Encuentre una descomposición en valores singulares de
a) [l -217
2
b) [-4
12 31
384
8
I
Eigensistemas de matrices sirn6tricas, hermitianas y normales, con aplicaciones
3. “Derecho” en “vectores singulares derechos vi” se refiere a Avi = milli.
Demuestre que uFA = civ?,, como acepción de “izquierdo”.
D 4. En la demostración del teorema clave 8.19 con A diferente de cero seafirma
que AHA# O y que AHAtiene cuando menos un eigenvalor diferente de cero.
Demuestre esas afirmaciones.
5. Suponga que A es p X q. Demuestre quehay bases ortonormales para@4 y
CP con respecto aa
ls cuales la transformación lineal Fdefinida por T ( v ) =
Av se representapor la matriz 2 de una descomposición en valores singulares de A.
6. Encuentre una descomposición en valores singulares de
A=[
D 7. Utiliceladescomposición
-1
-’ ’1.
1
-2
en valoressingularespara
demostrarque
IlAllz = V l .
8. La norma de Frobenius (IAIIFde una matriz A, p X q , se define como laraíz
cuadrada de la suma de los cuadrados de las magnitudes de todos los
elementos de A.
a) Demuestre que llAllF 1 O, y que llAllF = O si y sólo si A = O, que )~cxAI(~
=
ICXIIIAIIF?
Y que I A + B l l F llAllF + IIBIIF.
b) Calcule III,IIF y deduzca que ll.llF no puede ser una norma de transformación inducida por normas vectoriales.
9. Sea A, p X q , y sean U y V unitarias. Demuestre que
IlAllF = IlUAllF = IlAVllF = IIUAVIIF,
en donde ll.llF está definida en el problema 8.
D 10. Utilice el problema 9 para demostrar que IlAlIZ: es igual a la suma de los
cuadrados de los valores singulares de A.
11. Suponga que por razones teóricas se sabe que cierta matriz Qo debería ser
unitaria, peropor errores demedición se ha producido una Qo que no lo es.
Demuestre que la matriz unitaria Q1que hace mínima a llQ - QollFde entre
todas las matrices unitarias Q es Q1 = UVHsi Qo = UCVHes una descomposición en valores singulares de Qo.
D 12. Como en el problema 11, encuentre lasmatrices unitarias Q1más próximas a
cada una de las matrices Qo.
13. Demuestre el corolario clave 8.20 a) sobre el rango y los valores singulares.
14. Demuestre el corolario clave 8.20 b) y c) sobre vectores singulares y bases.
8.5
I Aplicaci6n: mínimos cuadrados y pseudoinversa
385
R 15. Utilice MATLAB o algún software semejante para calcular aproximación
la
de rango 3, BB,a la matriz de los tonos del ejemplo 8.24 y reconstruya la foto
mediante BS.
R16. Haga una discretización 40 X 40 de la X del ejemplo 8.23 y mediante
MATLAB o algún software semejantecalcule aproximaciones de bajo rango
a la fotografía para ver cuán buenaaproximación se puede obtener usando
poca información.
A 17. Utilice MATLAB o algún software semejante para encontrar
las matrices de
rango 5 y de rango 2 más cercanas a la matriz H6del ejemplo 5.84.
8.5
APLICACION: MlNlMOS CUADRADOS Y PSEUDOINVERSA
Los problemas de mínimos cuadrados son centrales en la modelación matemá2 se vio que una buena técnica para encontrar
tica. Por ejemplo, desde el capítulo
una recta que quedara
lo más cerca posible de algunos puntos dados, era la de
plantear el problema en términos de mínimos; véase la sección 2.6. Este fue un
caso deun fenómeno general: se tieneun modelo que depende de
varios parámetros que deben determinarse para modelar,
tan exactamente como sea
posible, el
comportamientoreal de algún sistema en el pasado.El problema12 de la sección
2.6 es de este
tipo: se pide encontrar los elementos dela matriz de transición para
el modelo de competencia entre lecheríasde la sección 2.2, para que el modelo
corresponda alos datos sobrela forma en que
han cambiado realmente las partes
del mercado. El problema 22 de la sección 5.9 es también de este tipo.
Más generalmente, elproblema es determinar los parámetros x para que la
predicción Ax del modelo sea cercana a los datos medidos b. Con mínimos
cuadrados, se busca encontrar la x que minimiza llAx - bllz entre todas las x
posibles, en donde A es una matrizp X q dada, b es una matrizp X 1 dada, y x es
q x 1 e incógnita. El problema 26 de la sección 5.9 afirmó que x resuelve esto si
y sólo si AHAx = AHb;como se mostró en el problema 26 de la sección 5.9, sin
embargo, éste puede ser un mal método computacionalmente.En esasección se
demostró que un método mucho mejor puede basarse en la descomposición QR
normalizada de A: escriba A, p x q ,de rangok , como A = QR en donde Q esp x k
y tiene columnas ortonormales, y R es dek x q , triangular superior y de rango k , y
entonces x es solución de Rx = Q%-la cual se puederesolver por una sencilla
sustitución. Se considerará
ahora otro método para resolver
problemas de mínimos cuadrados que es igualmente efectivo.
Descomposiciones en valores singulares y minimos cuadrados
Suponga que A = UZVHes ladescomposición en valores singulares del teorema
clave 8.19 parala matriz A,p x q ,de rango k . Se considerará el problema de hacer
386
8
/
Eigensistemas de matrices simétricas,hermitianas y normales, con aplicaciones
mínima a //Ax - bllz con respecto a x. Por el teorema 7.31 sobre matrices unitarias, es posible escribir
en donde y = VHxes la nueva variable con respecto a la cual se está minimizando.
Por lo tanto, x minimiza ]/Ax - bllz si y sólo si y (= VHx) hace mínima a
1ICy - b'(I2,donde b' denota a UHb. Pero
en donde y i = (y)i y b: = (b'){. Esta ecuación se minimiza haciendo cero tantos
términos como sea posible: yi = &/o, para 1 S i 5 k y y i arbitraria parak + 1 5 i
S q . Como llxllz = IIVylJ,= llyllz, la x que tiene la mínima norma entre todas las
soluciones al problema de mínimos cuadrados viene de y i = O para k + 1 5 i 5 q ;
todas las demás soluciones se pueden obtener agregando a esa x una combinación lineal arbitraria de vkflr . . . , v,, las últimas q - k columnas de V.
Esto da un método para resolver problemas de mínimos cuadrados:
(8.24)
Para encontrar la x que hace mínima a llAx - bllz en donde A tiene rango k :
1. Encontrar la descomposición en valores singulares A = UCV".
2. Calcular b' = UHb.
3 . Calcular y con y i = &/ai para 1 S i Ik ; en los otros casos, y i = O .
4. Calcular x. = Vy.
5. x. es la solución al problema de mínimos cuadrados, y tiene la menor
norma 2 entre todaslas soluciones; cualquier otra x' será una solución si
y sólo si x' es igual a x. más una combinación lineal de las últimas q - k
columnas de V.
El proceso(8.24) se puede describir más compactamente mediante el sencillo artificio de definir una matriz que controle el paso 3 .
(8.25)
Definicidn. Suponga que C es una matriz p X q tal que ( C)ij = O para i # j y
con(C)ii=criparatodai,endondecri#Opara1~i~kyai=Oparak+1
i Imín(p, q } .Entonces C+es aquella matriz q x p (nútese fa inversibn d e p
y q ) cuyos únicos elementos diferentes de cero son (C')ji = l / a i para
11isk.
Con esta notación, x. en (8.24) es precisamente x. = VC+UHb;se ha demostrado el siguiente importante resultado.
8.5
(8.27)
/
Aplicaci6n: mínimos cuadrados y pseudoinversa
387
de mínimos
cuadrados
Ejemplo. Considere
siguiente
el
problema
Ax -- b:
En el ejemplo8.17 se obtuvola descomposición en valoressingulares de
A. Siguiendo el procedimiento de
(8.24), se calculará b' = UHb,y = Z+b'
y entonces x,, = Vy:
1
2
2
-
-
-
7
7
7
1
b'=
-1lJJ
1- 65 d
L
O
Y=
O
xg =
][ G ]
5 4
"
6
=
O
1
,
388
8
/
Eigensisternas de matrices sirnktricas, hermitianas y normales, con aplicaciones
También se puede calcular la pseudoinversa A+ = VZ+UH:
2
3
O
2
3
-
-
6
O
5
O
JJ
"
15
15
1
18
9
Y
Entonces se calcula x, directamente como x. = A+b:
como antes. Todas las demás soluciones
x' son de la formax'
= x.
x' = x.
+ clvz =
[
+ av2:
"
Cuando se resuelve en la práctica un problema de mínimos cuadrados, a
menudo es útil modificar la matriz C de los valores singulares. Suponga, como
A están sujetos a errores de
frecuentemente seda el caso, que los elementos de
medición; entonceslos valores singulares diferentes de ceromás pequeños que
las
fueran perfectas. Usar
se calculen paraA, bien podrían ser cero si mediciones
el recíproco de ese valor
singular para resolverun problema demínimos cuadrados bien podría ser desastroso. A menudo es mejor reemplazar la matrizI: por
una matriz Z, obtenida reemplazandolos valores singularesmás pequeños en C
por ceros exactos, lo cual es el efecto de la construcción en el teorema 8.21 ;
aquellos valores singulares que fueran de
magnitud
la
de los errores inherentes a
los datos normalmente deberían tratarse de este modo. Véase el problema 6.
Ahora podrá resolver los problemas del 1 al 6 .
8.5
I Aplicaci6n: m!nimos cuadrados y pseudoinversa
389
La pseudoinversa
El uso de la palabra "pseudoinversa" paradesignar a la matrizA+ del teorema
clave 8.26 es bastante razonable: A+ se comporta envarios aspectos como una
especie de inversa. Por un lado, x. = A+b resuelve el problema de mínimos
cuadrados Ax = b exactamente como x. = A"b resuelve Ax = b en donde A es
no singular. También (UZV")' = VZ+UH del mismomodo que (UZV")" =
VZ"UH cuando Z es cuadrada y no singular; y, desde luego,A+ = A" cuando A
es no singular (problema 9). A+ es un ejemplo de una variedad de inversas
generalizadas que se han desarrollado; a este miembro particular de esa clase
también se le llama la inversa generalizada Moore-Penroseen honor de aquéllos
que desarrollaron su teoría.
Aunque la pseudoinversa se dedujo a través descomposición
de la
en valores
singulares, sela puede caracterizar independientemente de ella; este resultado,
que se plantea sin derhostración, puede ayudar a calcular A+.
(8.28)
Teorema (caracterización de lapseudoinversa). Una maiiiz A p X q tiene
exactamente una pseudoinversa A+, y una matriz X q Y p es igual a la
pseudoinversa A+ si y sólo si X satisface las siguientes tres condiciones:
a) AXA = A
b) XAX = X
c) AX y XA son hermitianas.
(8.29)
Teorema ({BC}+). Supóngase que lamatriz A, p X q , tiene rango k y que A
= BC, en dondeB esp X k y con rango k , mientras que C es k X q y de rango
k , entonces
A+ = CH(CCH)"(BHB)"BH.
DEMOSTRACION. CCH y BHB son no singulares; por ejemplo, BHBx = O
implica que O = xHBHBx= 11Bx11?, de modo que Bx = O y de aquí quex = O
porque B tiene rango k . El teorema es consecuencia de la verificación
directa de las condiciones del teorema 8.28.
En elproblema 1 1 se tiene un ejemplo de cómo se obtieneA = BC para esasB
y C. Otro caso importante se deriva
de la descomposición QR normalizada, que
es precisamentede la forma requerida en
el teorema 8.29 en dondeB = Q tiene
columnas ortonormales y C = R es triangular superior.
(8.30)
Corolcrrio (QR y pseudoinversas). Supóngase que A = QR es una descomA p X q , de rango k de modo que Q es
posición QR normalizada de la matriz
390
8
/
Eigensistemas de rnatrlces slmktricas, hermitianas y normales, con aplicaciones
p X k con columnas ortonormales y R es de k X q y triangular superior, de
rango k . Entonces
A + = RH(RRH)-lQH.
Observe quees más sencilloresolver el problema de mínimos cuadrados Ax = b
con la descomposición QR normalizada resolviendo Rxo = QHb,que escribir x,, =
A+b en donde A+ es ladel corolario 8.30; como en el caso de laeliminación de
Gauss para sistemas de ecuaciones lineales, es másfácil resolver sistemas
directamente, que encontrarinversas (pseudo o reales) y usarlas para obtener la
solución.
PROBLEMAS 8.5
1. Encuentre 2+para cada Z del ejemplo 8.16.
D 2. Encuentre O+.
3. Utilice (8.24) para resolver el problema de mínimos cuadrados
9N 4. Utilice MATLAB o algún software semejante para implementar (8.24) y
resuelva el problema de mínimos cuadrados del problema 22 de la sección
5.9.
5. Utilice MATLAB o algún software semejante para implementar (8.24)
y resuelva el problema de mínimos cuadrados del problema 12 de la sección 2.6.
W 6. Considere el problema de predecir la población de Estados Unidos en
1990 como se describió en el problema 3 de la sección 2.6, pero utilice una
ecuación cuadrática para ajustar los datos:
(población en millones) = a + b(aiio) + c(aiio)2
Use MATLAB o algún software semejante para encontraruna descomposición en valores singulares de la matriz A de esemodelo, y note la variación
de tamaño entre los valores singulares.
a) Use la descomposición en valores singulares completa para encontrar la
solución al problema de mínimos cuadrados y prediga la población en
1990.
b) Reemplace el menor valor singular por cero y use la descomposición en
valores singulares resultante (de una matriz de rango 2 ligeramente dis-
8.5
/
Aplicaci6n: mínimos cuadrados y pseudoinversa
391
tinta) para obtener una solución al problema mínimos cuadrados y para
predicir la población en 1990.
c) Reemplace por cero los dos valores singulares más pequeños y de nuevo
resuelva y prediga como en b).
d) Basado en este experiemento, ¿cuáles su predicción para lapoblación en
1990?
Sn 7. Sea E un número tal que 1 + E se calcule con exactitud en su computadora,
pero que 1 + e2 se calcule como 1;por ejemplo E = 10"O queda bien para la
mayoría de las microcomputadoras con coprocesadores matemáticos. Use
MATLAB o algún software semejante para encontrar ladescomposición en
valores singulares de lamatriz A y resuelva el problema de mínimos cuadrados correspondientedel problema 24 de la sección 5.9; comparela solución
pequeño.
con la obtenida cuandose reemplaza por cero el valor singular más
D 8. Use la pseudoinversa para resolver el problema de mínimos cuadrados
D 9. Demuestre que A+ = A" cuando A es no singular.
10. Demuestre que la pseudoinversa X = A+ satisface las condiciones a)-c) del
teorema 8.28.
11. Suponga que A p x q , tiene rango k y que está separada como
en donde A,, es k x k y no singular.Demuestre que A = B,C, y que A = B,C,
en donde
1: 11.
D 12. Use el problema 11 y el teorema 8.29 para encontrar la pseudoinversa de
-
A=
1
0
1
1
1
1
2
o
-1
-1
-3
-1
-2
-1
o
392
8
I
Eigensistemas de matricessimbtricas,hermitianas
y normales, con aplicaciones
13. Demuestre que una descomposición en valores singulares no es necesaria-
mente única encontrando todas lasdescomposiciones en valores singulares
de I con U = V; demuestre que, sin embargo, todas esas descomposiciones
conducen a la misma pseudoinversa.
14. Demuestre detalladamente el teorema 8.29.
15. Demuestre:
a) El rango de A+ es igual al rango de A.
b) Si A es simétrica, entonces A+ es simétrica.
c) (cA)+ = (l/c)A+ para c # O.
d) (A+)T= (AT)+
e) (A+)+ = A.
f) Demuestre con un contraejemplo, que en general (AB)+ # B+A+.
g) SiA es m x r , B es r x n y ambas matrices tienen rango r , entonces
(AB)+ = B+A+.
D 16. Suponga que c es p X 1 y que r es 1 x p . Encuentre:
a) r+
b) c+
c)
17. Use la descomposición QR normalizada A = QR del ejemplo 5.83 para
encontrar A+ vía el corolario 8.30.
18. Use la descomposición QR normalizada A = QR del problema 15 de la
sección 5.9 para encontrar A+ vía el corolario 8.30.
W 19. Use MATLAB o algún software semejante para encontrar lapseudoinversa
A+ para las matrices de rango 3 , rango 2 y rango 1 del problema 6.
8.6
PROBLEMASVARIOS
PROBLEMAS 8.6
1. La forma de Schur de una matriz no está determinada de manera única.
Analizar la variación posible para una matriz normal.
2. El método de Lanczos que se da a continuación, reduce el problema de los
eigenvalores de una matriz real simétrica n X n al de una matriz mucho más
simétrica y u1 un vector real arbitrario.
sencilla. Sea A unamatrizreal
Establezca
v 1 = Au1,
u2 = VI - ~ 1 ~ 1 ,
en donde alse determina de tal modo que haga ortogonales a ut y ul, lo cual
implica que al = (ul, vl)/(ul, ul). A continuación, forme
~2
=Au~,
u3 = ~2
-~
2 -~f i l 2~ 1 ,
en dondeat,p1se determinan de tal modo que ug es ortogonal a u2 y u l . Esto
significa que at = ( u z ,vz)/(u2,uz),p1= (ul, v2)/(ul, ul). A continuación, forme
8.6
~3
=Au~,
/
Problemas varios
393
= ~3 - a3113 - P Z U ~- ~ 1 ~ 1 ,
en donde a3,pZ y y , se determinan de tal modo que u4es ortogonal a u3, u2
y u,.
Demuestre que estoimplica que y , = O. Demuestre queen el paso general se
tiene
vr = A u r ,
u,+ 1 = v r - a r u r - P r - 111,- 1,
en donde es
ortogonal a u,, . . . , u,. Demuestre también que u,+, debe
ser cero. Sea x un eigenvector de A y establezca
x = CIUl
+ . . . + c,u,.
Forme Ax y exprese Au, = v, en término de las u, por las fórmulas anteriores.
Deduzca quelos eigenvalores de A coinciden con los de la matriz tridiagonal
(Las condiciones de ortogonalidad que se usaron para determinar lasai y las
pi también minimizan a IIuil12.Esta esla razón por laque el método,
debido a C.
Lanczos, se llama también el método de las iteraciones minimizadas.)
D 3. Sea A, p x p , y sea D = diag(E, 2 , . . . , E ~ ) ,en donde E # O. Describa a
D-,AD.
4. Sea T = PHAPuna forma de Schur de una matriz A, p x p . Use T y el problema
3 para demostrarque hay una matriz S no singular tal que S"AS es triangular
superior y que todos sus elementos que no están en la diagonal principal son
de magnitud tan pequeña como se quiera.
5. Dada una matriz no singular S, se puede definir una norma vectorial II. ( l s por
llxlls = IIS"xllm; ésta induce la normade transformación lIAlls = IIS-lASII,. Use el
problema 4 para demostrar quehay una normainducida IJ.lIs, que depende de
A, tal que /\Allsestá tan cerca como se desee de la magnitud máxima de los
eigenvalores de A.
D 6. Demuestre que los eigenvalores de la matriz normal A son todos iguales si y
sólo si A = cI para algún número c.
7. Demuestre que(I - A+A)x es laproyección ortogonal de x sobre el subespacio que consisteen todas lasv tales que Av = O, esto es, sobre el espacio nulo de A.
D 8. Demuestre que AA+x es la proyección ortogonal de x sobre el espacio de
columnas de A.
9
Eigensistemas de matrices arbitrarias
generales, con aplicaciones
La teoría sobre los eigensistemas de matrices arbitrariasgenerales esbozada en el capítulo 7, se tratarfr mfrs a fondo en este capítulo. Se aprovechar4 despues esa teoría para analizarel comportamiento en el tiempo de
los sistemas cuya evolucidn se describe por medio de modelos discretos
o
continuos, as; como para estudiar metodos iterativos para la solucidn de
ecuaciones lineales; para ello, son fundamentales
los teoremas clave 9.4,
9.1 I , 9.27 y 9.57.
9.1
INTRODUCCION
En el capítulo 7 se presentaron los hechos básicos sobre los eigensistemas de
matrices cuadradas, haciendo hincapié en la equivalencia desde varios puntos
de vista: formas especiales y descomposiciones, representaciones de transformaciones, y eigensistemas. Desde la perspectiva de los eigensistemas, los puntos principales fueron:
1 . Toda matriz A p X p , tiene p eigenvalores si cada eigenvalor distinto hi
se cuenta de acuerdo consu multiplicidad algebraica mi,
como una raíz
del polinomio característico de A.
2. Cada eigenvalor distinto hi, tiene cuando menos un eigenvector asociado, y toda colección de esos eigenvectores -cada uno asociado con
un eigenvalor distinto- forma un conjunto linealmente independiente.
3 . Cada eigenvalor distinto Xi, tiene un número máximo pi de eigenvectores asociados queforman un conjunto linealmente independiente; esto
es, el subespacio de eigenvectores asociados con hitiene dimensión pi
-la multiplicidad geométrica de Xi.
394
9.1
I
Introducci6n
395
Existe una pregunta importante con respecto a la relación entre pi y mi:
¿cuántos eigenvectores que formen un conjunto independiente se pueden asociar con un eigenvalor repetido? Algunos ejemplos sencillos mostraron que p i
podría ser cualquier número desde 1 hasta mi.Por ejemplo, en cada una de las
matrices siguientes, es fácil demostrar queAl = 4 es un eigenvalor de multiplicidad algebraica m, = 3 pero sus multiplicidades geométricas son p1= 3 , pl= 2 y
p1= 1 respectivamente:
Desde el punto de vistadelas descomposiciones y semejanzas, sedesarrolló
el teorema clave 7.14:
Una matriz A p X p , es semejante a una matriz diagonal A -de modo
equivalente, A se puede descomponer en A = PAP" endonde A es
diagonal- si y sólo si A tiene un conjunto de p eigenvectores linealmente
independientes; los eigenvectores son las columnas de P, y los eigenvalores
la diagonal principal de A.
Este importante resultado serefiereal
caso en que las multiplicidades
algebraica y geométrica son iguales para todos los eigenvalores: pi = m ipara
toda i. Lo que restapor estudiar es el caso más complicado, cuando al menos una
pi es menor que su m i , de tal modo que en total hay menos de p eigenvectores
formando un conjunto linealmente independiente
(9.1)
Definición. Una matriz p X p que no tenga un conjunto linealmente independiente de p eigenvectores se llama defectuosa; en caso contrario sele
llama completa o no defectuosa.
Así, el problema que quedaes entender en detalle la estructura del eigensistema de matrices defectuosas. Cuando se estudió en el capítulo ocho la estructura delos eigensistemas de matrices normales, se encontróque era útil enfocar
primeroel punto de vista de las descomposiciones o formas sencillas, para
después cambiar de perspectiva e interpretar los resultados en términos de
eigensistemas. Aquí se seguirá el mismo camino.
396
9
I Eigensistemas de matrices arbitrarias generales, con aplicaciones
PROBLEMAS 9.1
1. Compruebe las afirmaciones anteriores sobre los eigensistemas de las tres
matrices dadas.
2. Resuelva el problema 8 de la sección 7.4, demostrando que pi Imi.
9.2
FORMA DE JORDAN
Esta sección desarrolla una forma especial a la que sepuede reducir toda matriz
mediante una transformación de semejanza. La forma especial se desarrollaen
tres etapas: la formade Schur,
forma
la diagonal en bloques triangulares superiores, y , finalmente, la forma de Jordan.Una vez que se sabe qué buscar como la
forma de Jordan,es posible encontrar esa forma directamente (en casos sencillos) en lugar de hacerlo a través de las tres etapas.
Formas diagonales en bloques triangulares superiores
Supóngase que A es p X p ; por el teorema 8.2 se sabe que A es ortogonalmente
T: una matriz triangular superior con los eigenvasemejante a su forma de Schur
lores de A en su diagonalprincipal. Por el modo en el que se construyó T en ese
teorema, es claro que se puede construir T de tal modo que cada eigenvalor
distinto se repita (miveces, desde luego) en posiciones consecutivas a lo largo
de la diagonal principalde T. Para alcanzarla segunda etapa en el desarrollo de la
forma de Jordan, se demostrará que T, a su vez, es semejante a otra matriz
triangular superior con lamisma estructura y con la propiedad adicional de ser
diagonal en bloques: se le llamará forma diagonal en bloques triangulares
superiores.
(9.2)
Lema (forma diagonal en bloques triangulares superiores). Suponga que T
es triangular superior y que además, tiene la forma
los elementos
en donde cadaTi{es mi X m iy triangular superior, con todos
en la diagonal principal de Tii iguales a hi, y las hidistintas para 1 5 i 5 s.
Entonces, T es semejante a una matriz diagonal en bloques triangulares
superiores
9.2
I
Forma de Jordan
397
en donde cadaVi es mi X mi y triangular superior; todos
los elementos de la
ls hi son distintas.
diagonal principal de Vi son iguales a Xi, y desde luegoa
DEMOSTRACION. La idea bAsica es usar transformaciones de semejanza
basadas en las matrices elementales EiAc) de la definición 3.31 ; recuerde
que EiAc) es no singular y que su inversa es igual a Eij(- c). Suponga que
i < j , y considere la transformación de semejanza
y por lo demás, sólo modifica a los elementos en el i-ésimo renglón (a la
(i,j))
y en laj-ésima columna (arriba de ese elemento).
derecha del elemento
a
en distintos bloques
Si se escogen a i y j para que correspondanrenglones
T,, y T,,, entonces
(T)ii - (T), = Am - An # 0,
por 10 tanto, esposible escoger ac = -(T)it/(A, - A,) y el elemento ( i , j )de
la matriz semejante T’ será igual a cero. Se puede hacer una sucesión
de tales transformaciones de semejanza que reemplace los bloques
T S - 1 .S)
TS -
en ese orden por bloques cero (siguiendo de abajo hacia arriba y de
izquierda a derecha dentro de cada bloque). Esto da V.
Forma de Jordan
Recuerde que ladiagonal
principal de cadavi
tiene todossus elementos iguales a
Ai: (Vi),, = Ai para todak . Por medio de algunos argumentos que se
omitirán por
ser muy complejos técnicamente, es posible demostrar que cada una de esas
matrices Vi es semejante auna matriz diagonal en bloques triangulares superiores Jz,cada uno de cuyos bloques es un bloque de Jordan J (Az):
(9.3)
Definici6n. Un bloque de Jordan es una matriz cuadrada triangular superior
J (A) tal que:
a) Todos sus elementos en ladiagonal
principal son iguales a A: (J(X)),, = A.
b)Todos sus elementosenlaprimerasobrediagonal
son iguales a 1:
(J(A))i,t+l = 1.
c) Todos los demás elementos son iguales a O .
398
9
/
Eigensistemas de matrices
arbitrarias
generales,
con aplicaciones
De este modo
Ya que la combinación de semejanzas sucesivas también es una semejanza, las
transformaciones de A a T, de T a V y después a bloques de Jordan se pueden
expresar como una sola transformación de semejanza:
Observe que éste es un teorema de existencia, perono es un teorema
constructivo: no se da ningún método para encontrar J en l a práctica; sin
embargo, la mismaexistencia de una J en esa forma especial permite su cálculo.
Ya que Q"AQ = J , se tiene que AQ = QJ. Escribiendo Q en términos de sus
columnas como
Q = CSl
Pz
'..
SJ
se ve que AQ = QJ es equivalente aAqi = hqi + v i q i p len
, donde h es el eigenvalor
en el bloque de Jordan que afecta a p i , y vi es igual a O o a 1. De manera más
precisa, ya que las J, son n, X n,, las columnas de Q afectadas por el bloqueJ, en
el producto QJ = AQ son exactamente las n , numeradas
nl
+ n2 + . . . + n,- + 1 hasta n 1 + n2 + . . . + n,.
9.2
/
Forma de Jordan
399
Por conveniencia,se designarán esas columnas de Q como vrl, . . . , vmp
Resulta entonces de AQ = QJ que
(9.5)
+
Av,, = AJ,, y Av, = A,v,
v,+, para j = 2, . . . , n,, en donde vTjes la
columna de Q numerada n , + *
+ n,.-l +j y en donde Q"AQ = J y AQ =
QJ, en donde el r-ésimo bloque de Jordan de J es n, x n,.
Esta complicada relación (9.5) es la clave para entenderel eigensistema de
A; se volverá aella más tarde. Por ahora, se demostrarácómo usar (9.5) como
A cuando A es lo suficientemente
una guíapara encontraruna formade Jordan de
pequeña para cálculos a mano. La observación crucial
es que (9.5) significa que
v,, es un eigenvector de A; por lo tanto, se encuentran los eigenvectores vrl y
después se les usa para ayudar a encontrar los vrj restantes.
(9.6)
[-: -;-!I.
Ejemplo. Encontrar una formadeJordande
4
A=
Se encuentra fácilmente quedet(A - AI) = (-2-A)(4 - A),, y que A, = -2
es un eigenvalor simple, mientras queA, = 4 tiene multiplicidad algebraica
m, = 2 pero sólo un eigenvector (p,= 1); [ 1 - 1 - 1IT es un eigenvector
para A,, que se tomará como v,, en ( 9 . 9 , mientras que uno para A, es
[ 1 - 1 13, que se tomará como v,,en (9.5). Yaque p , = p, = 1, sólo hay
un bloque de Jordan con
cada eigenvalor; como m, = 2, el eigenvalor A, = 4
deberá aparecer dos veces
en la diagonal y en consecuencia debe estar
en
un bloque 2 x 2. De este modo, de acuerdo con( 9 . 9 , se buscará v,, para
que Av,, - Azv,, = vzl, esto es
[-: -:I[:]- [-:j,
4
-4
1
-2
-3
su solución
z
[
para (Y arbitraria (porqueAv,, - X,v,, = O). Se considerará a(Y = O, dando la
tercera columna de Q como v,, = [O 1 - 1IT. En este caso, (9.5) es
Av,, = 2 1 ~ 1 1 , A v 2 1 = 2 2 ~ 2 1 , A v 2 2
+
=22~22
~ 2 1 .
Al formar la matriz Q de las columnasv,,, v,, y vgl se produce la forma de
Jordan J:
1
1
0
-1
o
-1
400
9
/
Eigensistemas de matrices arbitrarias generales, con aplicaciones
Y
Q"AQ
(9.7)
=
ri
O
0
i]
= J.
Ejemplo. Encuentre una forma de Jordan para
1
1.
[
-1
-2
A = -1
-1
Se encuentrafácilmente que det(A - AI) = (1 - A)3; sólo hay un eigenvalor
distinto A, = 1 con multiplicidad algebraica m, = 3 . Sólo es posible encontrardos eigenvectores, por ejemplo x1 = [l O 1IT y x2 = [O 1 2IT;
entonces p, = 2. Debe haber dos bloques de Jordan,por lo tanto uno será
1 x 1 y el otro 2 x 2. Se considerará av,, = x, como un eigenvector columna
de Q ; el segundo eigenvector columna vZ1de Q debe ser alguna combinación de x, y x2 tal que sea posible resolver (9.5) para una tercera columna
vZ2.Sea vZl = ox, px2. Se buscarála solución para vZ2partiendo de (A I)VZ2= ax, px2:
+
+
AI tratar de resolverlo, se encuentra que es necesario que p = -a para
que hayauna solución, en lacual es x = a y -26, Y = 6, z = y para y Y 6
arbitrarias. Ahora, a # O debe ser distinta de cero para que vZ1# O , Pero
desde luego, y por facilidad, es posible hacer que y = 6 = 0 así, seescoge a a
+
= 1, de modo que p = -1.
v l l = [l
o
1]T,
Esto da
v21 =
[l
-1
-1y,
v22 =
o oy,
[l
con
AV,, = I 1 ~ 1 , ,A v 2 1
= Alv21,
y
+
Av22 = I 1 ~ 2 2
Q se forma a partir de esas columnas vu y se obtiene
['
Q= O
1
1
-1
-1
i]
Q-lAQ=L
1:
2
O
0:];J.
Ahora podrá resolver los problemas del I al I O .
~ 2 1 .
"1,
-1
9.2
I Forma de Jordan
401
Teorema de Cayley-Hamilton
Al pasar de una forma general diagonal en bloques triangulares superiores, a la
forma especial de Jordan,se afirmó que eraútil obtener esta forma más sencilla.
Ahora, confines analíticos, se presentará el primero de varios casos de la forma
de Jordan.
Considere lamatriz sencillaEk = J(A) - AI para un bloque típico de Jordan k
x k , J(A) ,como elde ladefinición 9.3; El, tiene unos en su primera sobrediagonal
y Ceros en los demás elementos.Es fácil ver que E: tiene unos en su segunda sobrediagonal y ceros en los demás elementos, que E: tiene unos en su tercera
sobrediagonal y ceros enlas demás posiciones, y así sucesivamente hasta
Ej: = O .
A continuación, suponga que J es una forma de Jordan de una matriz A, p X p
como en el teorema clave9.4, y considere cualquiera de los bloques de Jordan J,
en el que aparezca un eigenvalor &; como Ai aparecerá cuandomás mi veces en
toda J, el bloque J, puede ser a lo más m, X m,.Por lo tanto, por el párrafo
anterior, (AJ - Jn)mi = O.
Ahora considere el polinomio característico f de A:
f ( A ) = det(A - AI) = (A, - L)"'1(A2 - A)"'* . . . (A, - A)"'s.
Si se consideraf(J), como
las potencias de J conmutan con I y con potencias de J,
se tiene que
f(J)= (Al1 - J)""(AZI- J)"'*. . (A,I - J)"''.
Debido a lo que ya se
ha demostrado, cadabloque (AiI - J,Jmi = O siempre que J,
involucre a Ai,y entonces el bloque correspondiente a J, enf(J) debe serigual a
cero; pero todo bloque en f(J) es uno de esos bloques, y así, AJ) = O . Esto
conduce al siguiente resultado.
(9.8)
Teorema (teoremade Cayley-Hamilton). SiAA) esel polinomio característico de una matriz A, entonces AA) = O.
DEMOSTRACION. Sea Q"AQ = J una forma de Jordan
de A. Ya se ha
demostrado queAJ)= O . PeroAA) = Qf(J)Q-' por el teorema 7.25 e), por lo
tanto AA) = QOQ" = O . M
(9.9)
Ejemplo. Considérese la matriz A del ejemplo 9.6, en donde AA) = -A3 +
6A2 - 32; entonces
f(A) = -A3
6A2 - 321
=
-[ -;; -;;
112
84
+
-;;]+6[-;
36
24
;
14
;%]-32
como lo afirma el teorema de Cayley-Hamilton.
402
9
I
Eigensistemas de matrices arbitrarias generales, con aplicaciones
PROBLEMAS 9.2
1. Reduzca a su forma diagonal en bloques triangulares superiores la matriz
2. Reduzca a su forma dlagonal en bloques triangulares superiores la matriz
D 3. Reduzca a su forma diagonal en bloques triangulares superiores la matriz
-1
O
O
O
-2
1
o
o
3
-41
-1
1
-2
o
- 34 1
3
o
0
4
0
1
O
O
O
0
0
0
4
0
0
4. Desarrolle (9.5) para J =
O
4
0
O
0
2
1
4
O
O
O
0
1
4
0
0
e]
1
4
0
0
0
4
0
5. Considere la matriz
a) Suponiendo aritmética perfecta, encuentre la forma de Jordan de A
cuando E # O y cuando E = O.
b) Suponiendo aritmética de computadora con E tan pequeño que 2 k E
sea evaluado como 2, encuentre la forma de Jordan de la matriz A resultante.
c) Utilice los resultados de a) y b) para discutir la sensibilidad de la forma de Jordan a las perturbaciones en los elementos de la matriz.
I Forma de Jordan
9.2
403
D 6. Reduzca a la forma de Jordan la matriz
1
6
-1
-4
7. Reduzca a su forma de Jordan la matriz del problema 3.
8. Demuestre que A es semejante a B si y sólo si A y B tienen una forma de
Jordan común.
9. Suponga que A y B son p X p , que cada una tiene un conjunto de p
eigenvectores linealmente independientes, y que AB = BA. Suponga también que P-'BP = A, en donde A es diagonal y tiene a los eigenvalores hi
como los elementos de su diagonal principal, cada uno de multiplicidad
algebraica y geométrica mi.
a) Demuestre queP"AP debe serdiagonal en bloques con los bloques de la
diagonal principal de tamaño mi x mi.
b) Demuestre que Q existe con Q"AQ y Q-lBQ diagonales.
c) Demuestre que b) es válido si y sólo si A y B conmutan: AB = BA.
D 10. Reduzca a la forma de Jordan la matriz
r2 -I
O
01
2
o
o
o
0
2
-1
11. Compruebe el teorema de Cayley-Hamilton con la matriz del ejemplo 9.7.
12. Para la matriz A del ejemplo 9.7, demuestre que g(A) = O si
g(x) = ( 1 - x)2 = 1 - 2x + x2.
13. Suponga que h(x) es un polinomio talque h(J) = O , en donde J es la forma de
Jordan del ejemplo 9.7. Demuestre que h(1) = h'(1) = O, y entonces
h(x) = (1 - x)Zq(x)
para algún polinomioq ; concluya que ( 1 - x)' es el polinomiom(x) de menor
grado (y coeficiente inicial 1) para el cual m(A) = O -m es elllamado
polinomio mínimo de A.
D 14. Como en el problema 13, encuentre el polinomio mínimo de
4
1
0
0
A= O
0
0
0
4
0
O0
1
4
O0
O
oO
:l.
1
4
404
9
/
Eigensistemas de matrices arbitrarias generales, con aplicaciones
D 15. Generalice los problemas 13 y 14 para describir el polinomio mínimo de una
forma general de Jordan J.
9.3
ElGENSlSTEMAS PARA MATRICES ARBITRARIAS GENERALES
La forma de Jordan, desarrollada en la sección anterior, da información detallada sobre el eigensistema de una matriz. La clave es interpretar la relación J =
Q”AQ en la forma AQ = QJ como se representa en (9.5):
Repaso de (9.5)
AV,, = A,v,,
y
Avrj = A,vrj
+ vr,j-l
para j = 2 , . . . , n,.
Eigenvectores generalizados y subespacios invariantes
Para hacer más concreta la relación general ( 9 3 , se tratará primero el caso del
ejemplo 9.6. Aquí, las relaciones son
(9.10)
AV,, = 1 - 1 ~ 1 1 ,
Av21 = 1 2 ~ 2 1 ,
y
AV,, = A Z V , ~
+
~ 2 1 ,
en donde A, = -2 es un eigenvalor simple y A2 = 4 un eigenvalor de multiplicidad
algebraicam, = 2 pero multiplicidadgeométricap, = l . Los vectores vI1yv,, son
los dos eigenvectores, mientras que vz2 se dice que es un eigenvector generalizado. Ya que m, = 2 , se podría esperar encontrar dos eigenvectores asociados
con A,, pero esto es imposible (si han de formarun conjunto independiente); en
lugar de ello,el eigenvector generalizado v2, se asociarácon Az para proporcionar
el segundo de dos (=m,)vectores especiales asociados con A,. ¿De qué modo es
“especial” v,,? Recuerde que, si se tuvieran dos eigenvectores asociados conA,
generanan un subespacio invariante bidimensional. v,, sustituye estacapacidad:
vZ1y
generan juntos un subespacio invariantebidimensional. Para comprobar
esto, se verásicon la aplicación de A acualquier combinación lineal de v2, yv2, se
obtiene una de esas combinaciones:
como se afirmó.
Esto sucede también en lo general: los vectores vrj de (9.5) para 1 5.j 5 n,,
generan un subespacio invariante de n , dimensiones. La unicidad de los números
n, y del número de bloques en laforma de Jordan,implica que ninguno de tales
subespacios invariantes puede dividirse en subespacios invariantes de menores
dimensiones. Esto demuestra la siguiente interpretación del teorema para la
forma de Jordan en términos del eigensistema.
I
9.3
Eigensistemas para matrices arbitrarias generales
405
(9.11)
La descripción anterior es complicada, pero también lo es la situación
que describe. El esquema siguiente podrá aclarar las cosas.
I
(9.12)
Bases para subespacios invariantesVl,.. . ,"v,
Para el
y 1
1
Eigensistema -+
/
L
(9.13)
""_
vll
Para el
...
Para el
subespacio subespacio
subespacio
...
Y;
^v;
3
1
t ""_
vI1
/ . . . ' VWl
1"""_' + ---------- .
"
Ejemplo. La situación del ejemplo 9.7, se describe en ellenguaje del
teorema clave 9.11 como sigue:
a) {v,,, v,,} es un conjunto de eigenvectores de A linealmente independientes que contienen el número máximo posible, y tanto v,, como vzl
están asociados con A, = 1.
b) {vll} y {v,,, vz2}generan, cada uno, un subespacio invariante de A.
C) AV,, = AlvZz+ vzl.
Ahora podrd resolver los problemas del 1 al 3 .
406
9
I
Eigensistemas de matrices arbitrarias generales, con aplicaciones
Eigenvectores izquierdos: solubilidad de ecuaciones
En el caso de las matrices normales, el hecho de que una semejanza unitaria
produjo unaforma diagonal, demostró laortogonalidad mutua de los eigenvectores y la validez del teorema 8.12 que caracterizabala solubilidad de sistemas de
ecuaciones. Un resultado análogo es válido en casos más generales, pero es
necesario introducir un nuevo concepto para sustituir al de la ortogonalidad
mutua de eigenvectores.
Para desarrollar esta idea, se comenzará de nuevo con la relación clave
Q-'AQ = J para la formade Jordan,
J. Postmultiplicando por Q" resu1taQ"A =
JQ"; sea y? el i-ésimo renglón de Q-l, de modo que
De manerasemejante a la relación encontrada usando las columnas de Q,se tiene
la relación y?A = Ay? + &y?+ en donde A es el eigenvalor en el bloquede Jordan
que afectaay; en el producto JQ-' y tjes igual a O o a l . Más exactamente, tiserá
igual a O y por lo tanto y?A = Ay?, precisamente cuando i sea el número de
renglón de un renglón inferioren algún bloque de Jordan de J. Por lo tanto, hay
un vector y? de ese tipo para cada uno de los p bloques de Jordan en A.
(9.14)
Definicidn. Un vector y diferente de cero para el que yHA= AyHse llama un
eigenvector izquierdo asociado con el eigenvalor A de A.
Como esta relación es equivalente a A T j = 27, en donde j es el conjugado
complejo de y , se sigue que A es un eigenvalor de AT; yaque detB = det BTpara
todaB, sesabe que det(AT - AI) = O si y sólo si det(A - AI) = O, y por lo tanto
eigenvectores izquierdos asociados con un número A existen si y sólo si A es un
eigenvalor de A, como estaba implícito en la definición 9.14.
Recuerde que los eigenvectores izquierdos presentados anteriormente, se
seleccionaron de los renglonesy? de Q". Si lascolumnas de Q se denotanpor ~ i ,
entonces la relación Q"Q = I es equivalente a
yfqi = 1
y
y?qj = O si i # j :
Las yi y las e forman loque sellama un sistema bi-ortogonal. Al recordar quelas
p de las yi son eigenvectores izquierdos de A, resulta inmediatamente que
(9.15)
Teorema (eigenvectores izquierdos). Sean A, hi,m i , pi, p y vri comose
definieron en el teorema clave 9.11. Entonces:
9.3
/
Eigensistemas para matrices arbitrarias generales
407
a) Hay un conjunto linealmente independiente de p eigenvectores izquierdos ul, . . . , u, de A, y ninguno de esos conjuntos puede contener más
vectores.
b) u,. está asociado con el mismoeigenvalor A que eleigenvector (derecho)
(ur, vm,) = u,Hvrn, = 1.
d) (u,, vij) = urvij = O , a menos que i = r y j = n, como en c).
C)
(9.16)
Ejemplo. Se tomará la matriz A y su forma de Jordan J que se encontró en
el ejemplo 9.7. Las ui se deben obtener a partir de los renglones de Q"
correspondientes al renglón inferior de cadauno de los bloques de Jordan
en J. Entonces
u 7 = [O
-1
11
es el primer renglón de Q" y
Uf=[l
2
-I]
es el último renglón de Q". Es fácil comprobar que
uYA = nu?,
uFA = nu!,
en donde 2 = 1.
Además, uYvll = ufv,, = 1 como se necesitaba; las condiciones de ortogonalidad también son válidas.
Podremos tratar ahorael asunto de lasolubilidad de ecuaciones (A - AI)x =
b. Si A no es un eigenvalor, desde luego que A - AI es no singular y habrá una
solución única. Sin embargo, ¿qué pasa si A es un eigenvalor? Se escribe A =
QJQ-' con su forma de Jordan J y entonces se premultiplica por Q" para
convertir la ecuación en (J- AI)t = B, en donde = Q"x y fl = Q"b. Cualquier
bloque de Jordan queinvolucre al eigenvalor A, tendrá un 1 en el elemento (i, i +
1) del i-ésimo renglón con excepción del renglón inferior (de ese bloque), el cual
será un renglón de cero en toda J - AI. Así, habrá una solución 4 si y sólo si el
es igual a O para cada uno de tales renglones;
elemento de ese renglón en /l
observe que éste es precisamente el renglón que produce al eigenvector izquierdo ui en Q-', así que (B)¡ = uHb. Esto generaliza el teorema 8.12 sobre
matrices normales y solubilidad de ecuaciones.
(9.17)
Teorema (matrices arbitrarias generales y solubilidad de ecuaciones).
Suponga que A es una matrizp X p que tiene eigenvalores Ai con multiplicidad geométrica pi para 1 S i S S y que tiene un conjunto linealmente
independiente de p = p1 + . + ps eigenvectores izquierdos uj.
a) Si A no es un eigenvalor de A, entonces (A - AI)x = b tiene una solución
única para cada b.
- -
408
9
Eigensistemas de matrices arbitrarias generales, con aplicaciones
/
b) Si A es igual a un eigenvalor de A, entonces (A - hI)x = b tiene una
solución si y sólo si b es ortogonal a todos los eigenvectores izquierdos
uj asociados con A. Cuando existen soluciones, hay un número infinito
de ellas, y cada una se puede obtener agregando a una solución x una
combinación lineal arbitraria de eigenvectores (derechos) de A asociados con A.
DEMOSTRACION.
(9.18)
Problema 6.
Ejemplo. La matriz A de la ecuaciones
6x, + 2x, = b ,
3x, + x2 = b,
es singular (por lo tanto A = O es un eigenvalor); los eigenvectores izquierdos son múltiplos de u1 = [l -2IT. El sistema de ecuaciones tiene una
solución si y sólo si
0 = [l -2][b,
b J T , esto es, b , = 2b,.
PROBLEMAS 9.3
1. Demuestre que las vrj para 1 5 j S n, en (9.9, generan verdaderamente un
subespacio invariante de dimensión n,.
D 2. Encuentre basesde los subespacios invariantes del teorema clave 9.11 para la
2
I:]
[-; -I]
o
-1
-2
matriz:
[B
a) del ejemplo
9.7.
c)
b) del ejemplo 9.8.
5
o4
e)
[; -1 "i]
-2
f) del problema 3 de la sección 9.2.
g) del problema 6 de la sección 9.2.
h) del problema 10 de la sección 9.2.
3. Demuestre que si uno de los subespacios invariantes del teoremaclave 9.11se
divide en dos subespacios invariantes no triviales que sólo se intersectan en
{O}, cada uno deberá contenerun eigenvector de un bloque de Jordan,lo cual
contradiría la estructura de bloque.
4. Verifique la bi-ortogonalidad mencionada para losvectores del ejemplo 9.16.
D 5. Encuentre los eigenvectores izquierdos y compruebe la bi-ortogonalidad con
los eigenvectores (derechos) de la matriz:
a) del ejemplo 9.6
9.4
/ Aplicaci6n: evolucidn de sistemas discretos y potencias de matrices
409
b) del ejemplo 9.7
c) del problema 3 de la sección 9.2
d) del problema 6 de la sección 9.2
e ) del problema 10 de la sección 9.2
6. Demuestre el teorema 9.17 b) sobre solubilidad de ecuaciones.
D 7. Encuentre las condiciones necesarias y suficientes para las bi, paraque exista
una solución de
2x1 + 2 x 2 + 4x3 + x 4 = b ,
-3x,
- 3X2.-
6x3 + 2x4 = b,
- 6 ~ 1- 6x2 - 12x3 + 3x4 = b,
x1
+ x2 + 2x3 + x4 = b4.
8. Sea F la transformación lineal de C p a CP definida porF ( v ) = Av, y defina su
transformación adjunta F*por AH(véanse la definición 6.10 y el problema24
de la sección 6.1). Demuestre que, dadaw F ( v ) = w tiene solución si y sólo
si w es ortogonal al espacio nulo de F*.
9.4
APLICACION: EVOLUCION DE SISTEMAS DISCRETOS
Y POTENCIAS DE MATRICES
La forma de Jordan
es extremadamente importante en las matemáticas aplicadas
porque dala clave de la respuesta a un conjunto de preguntas concernientes a una
amplia gama de aplicaciones.
La sección 2.2 modeló cómo evolucionaban de mes a mes las partes del
mercado controlado por tres lecherías; el resultado fue (2.4) -x,+1 = Ax,- en
donde las tres componentes de x, representan las fracciones del mercado en
manos de cadalechería en el mes r y en donde la matriz A de transición describe
el efecto de las fuerzas del mercado.
De manerasimilar, en la sección 2.3 se modeló la evolución de poblaciones
de zorros y gallinas en competencia con (2.14) -xic1 = Axi- en donde las dos
componentes de xi representan los números de zorrosy gallinas en el tiempoi, y
la matriz A describe su competencia.
En general, los modelos matemáticos conducen a menudo a una matrizp X
1, xi, que describe el estado de algún sistema complicado en el tiempo i y a una
matriz A p X p, que representalos procesos internos del sistema, detal modoque
(9.19)
x i + = Axi
modela la evolución del sistema en eltiempo. Denotando el estado inicial porx0,
es posible escribir lo anterior en forma equivalente
(9.20)
xi = A'x,
para i 2 O.
410
9
I
Eigensisternas de matrices arbitrarias generales, con aplicaciones
Las preguntas importantes formuladas en el capítulo 2 para esos ejemplos
específicos, y generalmente de importancia modular, son: ¿qué pasa conforme
trariscurre el t.iempo?, ¿tiende el sistema al equilibrio? Los estados xi ¿llegan a
ser arbitrariamente grandes?, ¿tienden a cero?, ¿oscilan?
Gracias a (9.20), la forma de Jordan de A puede manejar tales asuntos.
Escribiendo A = QJQ", en donde J es una forma de Jordan de A, es posible
aplicar eí teorema 7.25 a), y entonces
(9.21)
A' = QJ'Q" y por lo tanto
xi = QJ'(Q- 'xo).
Esto permite estudiar el comportamiento de Ji -un problema mucho más simple
que para Ai directamente. Esto se vuelve todavía más sencillo debido al teorema
clave 9.4 en el que J misma es una matriz diagonal en bloques con bloques de
Jordan J, en la diagonal; entonces, sólo es necesario estudiar las potencias
de Jf,ya que
Matrices no defectuosas
Para empezar confacilidad, se supondrá que cadabloque de Jordan J, -y por lo
tanto J misma-es diagonal; por elteoremaclave 7.14, esto es equivalente aqueA
tenga un conjunto d e p eigenvectores linealmente independiente -esto es, A es no
defectuosa. Como de costumbre, eneste caso se
escribe A en lugar de J, con los
eigenvalores Al, . . . , h, como los elementos diagonales de A. Así, la matriz
cuyo comportamiento se estudiará es simplemente
(9.22)
Para cualquier número h , es claro el comportamiento de Ai cuando i tiende a
infinito:
(9.23)
a) Xi tiende a O si y sólo si 1x1 < 1.
b) [Ail tiende a infinito si y sólo si Ihl > 1.
c) hiestáacotado,estoes,IAii(
scparaalgunacconstanteyparatodai-siy
sólo si IAI I1 .
9.4
I
Aplicaci6n: evoluci6n de sistemas discretos y potencias de matrices
411
Para extender (9.23) y aplicarlo a hi y a Ai en lugar de a A’, se requieren
nociones de convergencia “‘tiende a”-y acotamiento de matrices; lasnormas
matriciales de la definición 6.22 y el teorema clave 6.23 dan justamente lo
necesario, porqueya se ha tratado la convergenciaen términos denormas de la
definición 5.58 y el teorema 5.59. Aquí se reafirmará el resultado decombinar
todas esas ideas para fines prácticos.
(9.24)
Resumen
sobre sucesiones de matrices.
a) Sedice queuna sucesión {Ai} de matrices p X 4 convergen a la matriz A,
p X 4,si y sólo si convergen las sucesiones de
los elementos correspondientes: (Ai)jk converge a (Am),*para t o d a j y toda k .
b) Se diceque una sucesión {Ai} de matricesp X q está acotada si y sólo si
las sucesiones de elementos están acotadas: I(Ai)jkl s c para alguna c
constante y para todas las i , j y k .
c) La sucesión de matrices Ai converge a A, si y sólo si la sucesión de
números [\Ai- Amll converge a cero, en donde 11- 1 1 es cualquier norma
matricial; así,si la sucesión convergeen una norma, convergeen todas
las normas.
d) La sucesión de matrices Ai está acotada si y sólo si la sucesión de
números llAill está acotada, en donde 11.11 es cualquier norma matricial;
así, si la sucesión está acotada
en alguna norma, está acotadaen todas
las normas.
(9.25)
Ejemplo. Lamatriz
2 x 2
tipifica el caso general de (9.22). Mediante la norma 03,se obtiene
Si se hace p = máx(lA,l, [A&, entonces Ilhillm-y por lo tanto la misma Aitiende a cero
si y sólo si p < l estará acotadasi y sólo si p s l . Cuando p > l ,
con seguridad algunos elementos de hi tenderán a infinito en magnitud,
pero no todos los elementos lo hacen.
Generalmente, es útil el número p que se introdujo en el ejemplo 9.25
(9.26)
Definición. El radio espectral p(A) de una matriz A p X p , es igual a la
magnitud del eigenvalor que tiene la mayor magnitud:
412
9
I Eigensistemas de matrices arbitrarias generales, con aplicaciones
Del teorema clave 7.10 e), observe que
para todas las normas matriciales.
El análisis del ejemplo 9.25 abarca claramente las matrices
diagonales A p x
p . Para extenderlo a las matrices A , p X p no defectuosas A = QAQ" y SUS
sucesiones relacionadas Aixo, sólo se requiere de las siguientes observaciones
que son consecuencia del hecho de que las normasmatriciales están definidas
como normas de transformaciones y de que Ai =QAiQ" y Ai = Q-'AiQ:
IIQ- ' I I
IIA'II
IIA'II 2 IlA'll/(llQll
IIQ-lII)
IIA'II 5 IlQll
IIA'xoII I
IIA'II llxoll
paratoda x.
IIA'vII = {p(A)>'llvIIsi v es un eigenvector asociado con un eigenvalor
de magnitud p(A).
(9.27)
(9.28)
Ejemplo. La matrizdetransición
A delmodelode
competenciaentre
lecherías del ejemplo 2.6 tenía eigenvalores X, = 0.5, Xz = 0.6 y X3 = 1.0,
como se demostró en el ejemplo 7.2, así como un conjunto linealmente
independiente de tres eigenvectores asociadosvl, vp y v3. Entonces como
p ( A ) = 1, se sigue del teorema clave 9.27 que A' y Aixoestán acotadas para
toda xo. De hecho, como vl, vz y v3 forman una base para R3, x. se puede
escribir como
x, = U l V l + u2v2 + u3vj.
Entonces,
A'x, = ~ ~ ( 0 . 5+) '~~~~( 0 . 6+ )uj(l.0)'v3,
'~~
9.4
I Aplicaci6n: evoluci6n de sistemas discretos y potencias de matrices
413
lo que demuestra que Aixoconverge a un múltiplo de a3v3para todaxo. En
ese modelo, la suma de
los elementos de cada estado
xi (= Aixo)es igual a 1,
de modo que esto debe ser cierto
en ellímite a3v3 también; ellímite
entonces debe ser igual a
[0.45
0.35
0.20IT
para toda x. como se observó experimentalmente enla sección 2 . 2 . Esto
finalmente contesta una de las preguntas fundamentales que allí surgieron
sobre ese modelo.
Ahora podrd resolver los problemas del 1 al 5.
Matrices defectuosas
Queda pendiente el asunto más complicado en el comportamiento de Ai para
matrices A defectuosas. Como antes, nos guiaremos por un ejemplo de una
matriz 2 x 2.
(9.29)
Ejemplo. Un bloque deJordan 2 x 2 tiene la forma
de donde se sigue que
amo
tiende a cero si y sólo si 14 < 1, J' tiende a cero si y sólo [A( < 1,
mientras que l J i l tiende a infinito si /Al > 1 exactamente como en elcaso de
las matrices no defectuosas. El "sólo si" parae1 casoen el que JIJiJItiende a
infinito y la situación de 1x1 = 1 son distintos, sin embargo. La fórmula para
Ji demuestra que
llJ'llm = lql + @I);
para IAl = 1, esto resultaen l J'l m = 1 + i. Así, en este caso,llJi/l está acotado
si y sólo si /Al < 1, en cuyo casoJ' tiende realmente a O y
si y sólo si /Al 2 1.
tiende a infinito
414
9
I Eigensisternas de matrices arbitrarias generales, con aplicaciones
Está claro que los resultados del ejemplo 9.29se extienden para bloques de
Jordan n X n. La extensión a la formageneral de Jordan -y de estemodo para A
en general por medio de Ai = QJ’Q-’-es entonces directa; el Único punto
delicado involucra eigenvalores A con 1x1 = 1: si sólo aparecen en bloques de
Jordan 1 x 1 , entonces las potencias de esos bloques están acotadas, pero si
aparecen en bloques IZ X n con n > 1, las potencias de esos bloques se disparan
como en el ejemplo 9.29.
(9.30)
(9.31)
Ejemplo. La matriz A del modelo de competencia entre poblaciones con k
= 0.18 en el ejemplo 2.17,tenía un eigenvalor doble A, = A2 = 0.9 como se
demostró en el ejemplo 6.18 (aunque entonces no estaba disponible esa
terminología). Lamatrizes defectuosa porque (A - 0.91)~= O necesita que
para lacual toda solución es sólo un múltiplode [5 3IT.Yaque p(A) = 0.9 <
1, sabemos que Ai tiende a cero comolo hace Aix, para todax,. Esto prueba
lo que se indicó experimentalmente en el ejemplo 2.17:las poblaciones en
este caso mueren, sin importar la distribución inicial de zorros y gallinas.
Ahora podrá resolver los problemas del I al 9.
9.4
I Aplicacibn:evoluci6ndesistemasdiscretos
y potencias de matrices
415
Matrices no negativas y de Markov
El ejemplo 9.28 analizó el modelo de competenciaentre lecherías
del ejemplo 2.6
y mostró que en ese caso específico
A’x, converge aun múltiplo del eigenvector
v3asociado conA3 = 1, sin importar lax,inicial se tome.El ejemplo 2.6 se incluyó
en el capítulo 2 para ilustrarmodelos más generales quellevan a lasmatrices de
Markov.
Definición. Se dice queunamatrizA,p X q , es no negativa si y sólo si todos
sus elementos son no negativos: (A)ij z O . Una matriz de Markov es una
de elementos en cada
una de sus
matrizp X p no negativa tal que la suma los
columnas es igual a 1.
(9.32)
Gran parte del comportamiento visto en
ejemplo
el 2.6 es típico de las matrices de
Markov.
1IT,entonces lTA = lT,porque los
Si se define la matrizp X 1,l = [ 1 1
elementos de cada columna de una matriz
Markov
de A suman 1;de modo que A
= 1 es un eigenvalor de A. Ya que llAlll = 1, [Al I1 para cada eigenvalor A de A
debido alteorema clave 7.10 e); estos dos hechos juntosimplican que p(A) = l .
Además, comoIIAiII1 5 IlAllf = 1 , se sabeque A’ está acotada; entonces
el teorema
9.30 implica que cada eigenvalor de magnitud 1 tiene multiplicidades algebraicas
y geométricas iguales -esto es, queA
tiene un “conjunto completo” de eigenvectores asociados con tales eigenvalores.Sin embargo, esto no es suficiente para
era el caso del ejemplo 2.6. Por
demostrar queA’x, converge para toda xo, como
ejemplo, la matriz de Markov
tiene eigenvalores+ 1y - 1, y eigenvectores asociadosv 1= [l 1ITyv 2= [ 1 - 1IT;
si se escribex, = alvl + a2v2,entonces A’x, es igual ya sea ax, (paraipar) o axo2 a g 2 (para i impar), por lo tanto, A’x, converge (a x. de hecho) si y sólo si
a2 = O -esto es, cuando x. es O o algún eigenvector asociado con A = 1.
Si fuera posible de algún modotener la seguridad de quetodos los eigenvalores de A distintos deA = 1 tuvieran unamagnitud estrictamente menor que 1, no
se daría la situación que se acaba de describir; esto requiere,sin embargo, de
algunas condiciones adicionalesen lamatriz A de Markov como lo demuestra el
ejemplo de la matriz 2 x 2 que se acaba de presentar.
La teoría desarrollada para tratar estesetema
aplica más en general y no sólo
a las matrices de Markov.Antes de proseguir,es necesaria ciertaterminología.
(9.33)
Definición. Se dice que una matrizp X p es reducible si y sólo si existe una
matriz de permutación P tal que
416
9
/
Eigensistemas de matrices arbitrarias generales,
con
aplicaciones
endondeB,esrxryDes(p-r)xO,-r)paral~r~p-l.Unamatrizes
irreducible si y sólo si no es reducible.
El término “reducible” se refiere al hechode que,para una matriz reducible
A con sus renglones y columnas permutadas como en ladefinición, las p ecuaciones Ax = b con p incógnitas se reducen a resolver p - r ecuaciones conp - r
incógnitas con la matriz de coeficientes D, y luego a resolver r ecuaciones con
r incógnitas con la matriz de coeficientes B (pero observe la tercera matriz
siguiente). Las matrices
[i :] [: :]
son reducibles,
[i L]
son irreducibles.
y
mientras que
y
[ :]
El cuarto ejemplo ilustra el hecho de que toda matriz cuadrada con elementos
estrictamente positivos es irreducible; el tercer ejemplo muestra que nuestra
descripción intuitivadel concepto “reducible”no es equivalenre aladefinición.
Mucho de lo que se ha demostrado para las matrices de Markov es válido
para matrices no negativas irreducibles; esta elegante teoría recibe el nombre de
los que la desarrollaron primero, O. Perron y G. Frobenius. Se plantearán los
resultados sin demostración.
(9.34)
Teorema (Perron Frobenius). SeaA una matrizp x p no negativa irreducible. Entonces:
a) A tiene un eigenvalor real positivo A, tal que A, = p(A).
b) X, del punto anterior tiene un eigenvector asociado x con elementos
estrictamente positivos.
c) Al tiene multiplicidad algebraica m, = 1.
d) Todos los eigenvalores A de A que no son Al satisfacen la desigualdad IAj
< [All si y sólo si existe un entero positivo k , tal que todoslos elementos
de Ak son estrictamente positivos.
Si loselementos en la diagonal principal de A son estrictamente positivos, entoncestodos los elementos de Ap” son estrictamente positivos y
-por d)- todos los eigenvalores A de A que nosean Al satisfacen I Al < IAl(.
p(A) aumenta estricamente si cualquier elemento de A aumenta estrictamente.
9.4
/
Aplicacibn: evoluci6n de sistemas discretos y potencias de matrices
417
Los incisos de a) a c) dicen que las matrices no negativas irreducibles son
muy parecidas a las matrices de Markov. El inciso d) dice que la condición que se
necesitaba en una matriz de Markov r,arademostrar queAixoconverge para toda
x. es equivalente a que todos los elementos deA* sean positivos para alguna k ; el
inciso e) dice que estopasará si los elementos diagonales de A son positivos. Un
corolario directo de este teorema maneja la generalización del ejemplo 2.6.
(9.35)
Corolario (potencias de matrices de Markov). Suponga que A es una
matriz de Markov irreducible con elementos diagonales estrictamente positivos (una matriz de Markov es no negativa y los elementos de cada una de
sus columnas suman 1). Entonces:
a) Para cualquier xo, Aixoconverge a ax*, en donde x* es un eigenvector
asociado con el eigenvalor Al = 1, y x* tiene elementos estrictamente
positivos que suman 1, y en dondea es igual a la suma de los elementos
de xo.
b) A' converge a [x* x*
*
x*].
DEMOSTRACION. Problema 11.
m
Como ejemplo de este teorema se tiene a la matriz 3 x 3 del ejemplo 2.6;
como todossus elementos son estrictamentepositivos, satisface las hipótesis del
corolario, mientras que los cálculos de los ejemplos 2.6 y 2.9 ilustran las conclusiones con
X* = C0.45 0.35 0.20lT.
PROBLEMAS 9.4
1. Demuestre el teorema clave 9.27 b), d) y f)escribiendo x. como una combinación lineal de los eigenvectores y después calculando Aixo.
2. Demuestre el teorema clave 9.27 a), c) y e).
D 3. Analice el comportamiento de xi en el modelo de competencia entre poblaciones del ejemplo 2.13 cuando i tiende a infinito si k = 0.10.
4. Analice el comportamiento de xi en el modelo de competencia entrepoblaciones del ejemplo 2.13 cuando i tiende a infinito si k = 0.16.
D 5. Determine el comportamiento de Ai y de Aixo para x. arbitraria si
@
3
O
!!?
3
418
9
I
Eigensistemasde matrices arbitrarias generales, con aplicaciones
6. Demuestre el teorema clave 9.30.
7. Determine el comportamiento de Ai si
A=b -; ;1.
0.5
-4
0.5
O. Cuando x es un número real con 1x1 < 1, se muestra que(1 - x)-l= 1 + x + x2
. demostrando primero que la serie converge y segundo escribiendo (1
- x) (1 x
.
x”) = 1 - xn+l y tomando el límite cuando n tiende a
+- -
+
+ +
infinito. Utilice unmétodo semejante para demostrar que,si A es una matriz
p x p con p ( A )< 1, entonces I - A es no singular y su inversa estádada por la
serie convergente
(I-A)”=I+A+A2+...
D 9. Utilice el problema 8 para demostrar quesi (Y > p ( A ) ,entonces a1 - A es no
singular y
D 10. Demuestre que:
a)
Al
l7y
es irreducible
-I
b) 3
t5
c)
0
[i :]
es reducible
41
es reducible
11. Utilice el teoremaperron-Frobenius(9.34) parademostrar el corolario 9.35.
rXn 12. Compruebe f)en el teorema de Perron-Frobenius(9.34) mediante MATLAB
o algún software semejante para examinar explícitamente el radio espectral
de la matriz A ( a ) cuando (Y 2 O aumenta, en donde
[:
A(a) = 3
4
0.8~
1 + 0.9a
5
1
D 13. Caracterice laxotal que Aix, converja a cero parauna matriz A de Markov.
14. Suponga que A es no negativa. Utilice el problema 9 para demostrar que, si
(Y > p ( A ) , entonces (a1 - A)-I es no negativa.
9.5
I
Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
419
15. Considere IamatrizB no negativa irreducible: (B)ij= O excepto cuandoI i -31
= 1, en cuyo caso(B)it = l . Comparando B con la matriz B' obtenida de B al
aumentar a 2 los 1 en los renglones superiores e inferiores y mediante el
inciso e) del teorema de Perron-Frobenius, demuestre que p(B) < 2.
D 16. Utilice los problemas 14 y 15 para demostrar que(21 - B)-l es no negativo,
en donde B es la matriz del problema 15.
'93 17. Utilice MATLAB o algún software semejante para verificar los incisos dela)
al d) del teorema de Perron-Frobenius y el corolario 9.35 en:
a) la matriz de transición del modelo del problema 4 de la sección 2.2.
b) la matriz de transición del modelo del problema 6 de la sección 2.2.
'93 18. Utilice MATLAB o algún programa semejante para comprobar los incisos
del a)al d) del teorema de Perron-Frobenius para
la matriz de H'lbert 6 X 6
H,, en donde (H& = l / ( i + j - 1).
D 19. Suponga que A es una matriz cuadrada con elementos estrictamente positivos. Demuestre que p(A) IllAlll y que p(A) = llAlll si y sólo si A/p(A) es una
matriz de Markov.
9.5
APLICACION: EVOLUCION DE SISTEMAS CONTINUOS
Y EXPONENCIALES DE MATRICES
Esta sección da otro ejemplo del valor analítico de la forma de Jordan. En la
sección anterior se desarrollaron los ejemplos de las seccicnes2.2 y 2.3 para ver
laevolución de sistemas
generales cuyo estadoen un punto específico del tiempo
se da como una transformación lineal del estado en un tiempo específico anterior. Si el intervalo de tiempo en cuestión es extremadamente pequeño,o si el
cambio en el estado es extremadamente pequeño en relacih con el estado, a
menudo es útil suponer que el estadox se define para todo tiempo t por la función
x(t) y que la información de los cambios de estado se da en términos de la
derivada x, en donde x es
si x es p X 1. En otros casos, particularmente en las ciencias físicas y en la
ingeniería, se consideraal tiempo como una variable muestreadacontinuamente,
de modo que las descripciones naturales de la evolución del estado x de un
sistema usan la derivada x y ecuaciones diferenciales ordinarias. Se darán tres
420
9
Eigensistemas de matrices arbitrarlas generales, con aplicaciones
/
ejemplos para ilustrar la forma en quealgunas ecuaciones diferenciales ordinarias que surgen en las aplicaciones se pueden expresar en una forma estándar:
x = Ax + f.
(9.36)
Ejemplo. Los modelos de crecimiento de población de la sección 2.3
surgieron esencialmente de la hipótesisde queel crecimiento es proporcional a la población presente:
Pi+ 1 - Pi = ( h - d)pi
con la nomenclatura de esa sección. El modelo continuo análogo para
pequeños intervalos de tiempo o para poblaciones con rápido crecimiento
usaría la derivada con respecto al tiempo 8:
endonde p y 6 reflejan lastasas de nacimientos y muertes. Para las
poblaciones en competencia tales comolas del modelo gallinas-zorros de
esa sección, se debería sustituir (2.13) por
+ 0.5C(t),
F(t0) = 1 0 0
+ 0.2C(t),
C(t,) = 1000
F(t) = -0.4F(t)
C(t) = - kF(t)
o, en notación matricial,
X = AX,
~ ( t ,=
) X,,
en donde
(9.37)
Ejemplo. Suponga que u ( t )es el ingreso total en el tiempo t de una empresa
dada (o quizá el PIB de una economía), y suponga también que, si i(t) de
este ingreso se reinvierte, la tasa de crecimiento de u será proporcional a i
de modo que
d ( t ) = gi(t)
para determinada razón de crecimiento y. Se propone reinvertir una parte
fijar delos ingresos, de modo que i(t)= rv(t), y se supone queel resto del
ingreso, (1 - r)u(t),deberá ser distribuido como ganancias entre los accionistas después de que se han deducido impuestos y otros gastos, demodo
que la tasa de crecimiento de la ganancia o utilidad p sea proporcional
a (1 - r)u, esto es,
p = $1 - r)u.
9.5
I Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
421
Entonces, en resumen, se obtiene el modelo
d = gru,
p = S( 1 - r)u,
o, en notación matricial,
k = AX,
en donde
A
x=[;],
=[
s(1 gr
- r)
i].
Aquí, g , r y S son constantes.
(9.38)
Ejemplo. En la sección 2.5 se dedujeron las ecuaciones diferenciales (2.26)
para el movimiento de un par de masas acopladas con resortes; suponga
que además se aplican fuerzas externashacia abajo Fl(t)y F,(t) a las masas
m, y m2. Esto añade a F, al miembro derecho de la primera ecuación en
(2.26) y F, al de la segunda. Para eliminar segundas derivadas, seintroducirán variables auxiliares: sean x, = X1, x2 = X,, x3 = X , y x4 = X 2 . Esto
necesita de las ecuaciones adicionales 1, = x2 y i3
= xq. El resultado es
1, = x2
m 1 i 2 = -k,x,
+
k 2 ( ~ 3-
x,)
+F,
1 3 = x4
m214 = - k 2 ( ~ 3 - X , )
+
F2.
Si x = [x, x, x3 x41T, se puede escribir este sistema como x = Ax + f, en
donde
r
o
o
O
O
k2
O
O
m,
O
o
lk
o
l +_
k 2_
-k
_
A=
1
m1
1
m2
k2
"
o
O
Fl
y
f = m1
O
F,
m2.
Cada uno de los tres ejemplos anteriores condujo a una ecuación diferencial
(9.39)
X = AX
+ f,
en donde A es una matriz de constantes dadap x p , f es una matrizp X 1 dada de
funciones de t y x es una matrizp x 1 de funciones desconocidas de r que deben
422
9
1 Eigensistemas de matrices arbitrarias generales, con aplicaciones
encontrarse para que se satisfaga (9.39) en t. En tales modelos de sistemas en
evolución típicamente se da el estado en un tiempo I,, por lo tanto
(9.40)
x(to) = x0
para algún I, dado y un vector constante x, dado. Por simplicidad, se supondrá
que to = O y -por el momento- que f = O, de modo que se tratará con
(9.41j
~ ( 0=
) xO.
X = AX,
Ecuacwnes diferenciules con matrices no defectuosas
Como es común, el análisis es más sencillo cuando A tiene un conjunto linealmente independiente de p eigenvectores, por esta razón se supondrá ésta; para
tal matriz A no defectuosa, es posible escribir
P"AP=A
y
A=PAP"
con la matriz diagonal A = diag(h,, . . . , AD). Como P" es una matriz de
constantes,si se premultiplica x = Ax por P-l, se obtiene d(P-lx)/dt =
(P'APj(P"x), o y = Ay si se hace que y = P"x. Ciertamente, y(0j = P-'x(O)=
Pix,, de modo que y(0j también se conoce. Denotando P"x, por y,, es posible
escribir el sistema como
(9.42)
Y = AY,
Si y = [y1yz
(9.43)
-
Y(0) = yo.
yJT, lo anterior no es más que
ji= l i y i ,
yi(0) =
para 1 5 i I
p.
Las ecuaciones escalares (9.43) se resuelven con yi(t) = (yo)iexp(&t), en donde
exp denota a la función exponencial: exp(sj = es para toda s. En notación
matricial esto es
(9.44)
y(tj = L(tjyo, endonde
Observe queL(t) es diagonal. Ya que x = Py y yo = P-lx,, (9.44)resulta en
x(tj
(9.45)
= PL(t)P- lxo
9.5
I Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
423
como la solución a (9.41). Esto también se puede escribir como
m = alp1 exp(4t) + a2pz exp(A2t) + . . + a,p, exp(L,t),
'
en donde pi es la i-ésima columna de Py ai= ( P - ~ X ~Se) ~resumirá
.
lo que se ha
demostrado.
(9.46)
Teorema (solucionesconmatrices
no defectuosas).Sea A, p X p , no
defectuosa con P"AP = A diagonal con los eigenvalores hi de A en la
diagonal principal de A. Entonces la solución x(t) de (9.41) es
X ( t ) = PL(t)P"x,,
en donde L(t) es la matriz diagonal de (9.44).
(9.47)
Ejemplo. Si k = 0.16enel
ejemplo 9.36, entonces
modelo de competencia entre poblaciones del
A = [-0.4
-0.16
0.20.51
tiene eigenvalores Al = O, h2 = -0.2, y se reduce a la forma diagonal de
Jordan por
Los elementos diagonales de L(t) son entonces exp(0t)= 1 y exp(-0.2t); el
teorema 9.46 da fácilmente x(t) = [F(t) C(t)]' en donde
F(t) = 2400 - 2300exp( -0.2t)
y
C(t)= 1920 - 920exp(-0.2t).
Conforme pasa el tiempo, las poblaciones tienden a valores estables de
2400 y 1920.
Ecuacwnes diferenciales con matrices defectuosas
La situación es casi igual de sencilla para el caso de matrices defectuosas; se
tiene que repetir el análisis anterior, pero con J en lugar de A en (9.42):
(9.48)
Ya que J se compone de p bloques de Jordan, es posible tratar cada bloque
independientemente -justo como se trató a cada yi independientemente para
matrices no defectuosas. Por el momento se designarán con zl, . . . , z, las
424
9
I Eigensistemas de matrices arbitrarias generales, con aplicaciones
variables afectadas por algún bloque de Jordan de n X n asociado con eí
eigenvalor A. Entonces las ecuaciones para este bloque en (9.48) son
(9.49)
+ z2,
de modo que d { z , exp(-J.t)}/dt = z2 exp(-At)
, + z,
de modo que d { z , - exp(- It))/&= znexp(- Al)
de modo que d{ z , exp(- E,t)}/dt = O.
i,
= 2zl
inin
= Rz, = AZ,,
Estas se pueden resolver sucesivamente comenzando con la ecuación inferior; el resultado es quez,esigual a exp(At) veces un polinomiode grado n - ren t
con coeficientes que involucran a los valores de zi(0) (problema 4). En forma
matricial, esto se expresa como
(9.50)
z(t) = k,(t)z(O), en donde
11
t2
t
-
...
2
tn - 1
~
(n - I)!
...
1 o o
o
1 0
0
* * '
1
...
y en dondek,(t)es la k,.(t) de (9.50) siendo A sustituida por el eigenvalor en
el i-ésimo bloque de Jordan Ji en una forma de Jordan J de A.
Resumiendo.
(9.52)
Teorema (soluciones generales). Sea A, p X p , con una forma de Jordan J
con los eigenvalores
de A en elladiagonalprincipal
de J.
= P"AP
9.5
/
Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
425
Entonces la solución x(t) a (9.41) está dada por
~ ( t=
) PK(t)P- ' ~ 0 ,
en donde K(r) es la matriz diagonal en bloques en (9.51).
(9.53)
Ejemplo. Si k = 0.18 en elmodelo de competencia entre poblaciones del
ejemplo 9.36, entonces
A=[
0.51
0.2
-0.18
-0.40
tiene un eigenvalor doble Al = -0.1, y todo eigenvector es un múltiplo de
[5 3IT. Esto significa que A tiene un bloque de Jordan 2 X 2 en su forma
de Jordan que se encuentra fácilmente:
J = P"AP
=
[
0.02
-0.06
0.3][ -0.40
0.1 -0.18
0.5
0.2
-0.1
=
[o
4 1 1 .
La fórmula (9.51) da entonces x(t) = [ F ( t ) C(t)]', en donde
F(t) = (100
+ 470t) exp(-O.lt),
C(t) = (IO00
+ 282t) exp(-0.1t).
Ambas poblaciones mueren cuando r tiende a infinito.
Hasta este punto, se ha supuesto que f(r) = O en (9.39). En lugar de tratar
ahora el caso no cero,
se tomará otro camino. Se podríahaber producido todo lo
anterior introduciendo exponenciales de marrices exp(rA) en lugar de reducir el
problema a ecuaciones escalares como en (9.43) y (9.49). Para ilustrar los dos
enfoques se desarrollará a continuación el tema de exponenciales de matrices y
después se usarán para tratar (9.39) cuando f # O.
Ahora podrá resolver los problemas del 1 al 7 .
Exponenciales de matrices
De la sección anterior debería quedar claro que las exponenciales juegan un
papel fundamental en la resolución de ecuaciones diferenciales: por ejemplo, i =
ax con x(0) = x. tiene solución x(r) = exp(ar)x,. Parece natural considerar la
posibilidad de resolver x = Ax con x(0)= x. por mediode exp(Ar)x, si se definiera
426
9
1 Eigensistemas de matrices arbitrarias generales, con aplicaciones
adecuadamente exp(At). Haciendo que B sea At, se considerará la expresión
exp(B).
Para números b , exp(b) se define por la serie de potencias
la cual converge a exp(b) para todos los números b reales o complejos. Usando
normas matriciales y el concepto deconvergencia determinado por las normas,
se puede demostrar que
B2 B3
I+B+-+-+..
2!
3!
converge para toda matriz cuadrada real o compleja B y por lo tanto se puede
usar como una definiciónde exp(B). Es fácil ver hacia dónde converge esta serie.
Si se encuentrala forma de JordanJ = P-lBP, entonces, sustituyendo PJP-l por
B en la serie, se obtiene
P-' = P exp(J)P-'.
Además, J y sus potencias son tan sencillas que es posible evaluar explícitamente esta serie en J. De lafórmula que resulta,se puede probar directamente lo
siguiente (problemas 8 a 11).
(9.54)
Teorema (exponenciales de matrices)
a) La serie infinita
A2 A3
exp(A) = I + A + - + - + .
2!
3!
converge para toda matriz A cuadrada real o compleja.
b) exp(rA) exp(sA) = exp(sA) exp(rA) = exp{(r + s)A}para todonúmero Y ,
S , y para toda matriz cuadrada A.
c) A exp(A) = exp(A)A para toda matriz cuadrada A.
d) La derivada d{exp(fA)}/dt = A exp(fA).
e) Suponiendo que J = Q"AQ es una forma de Jordan de A -usando la
nomenclatura del teorema clave 9.4- siendo los bloques de JordanJ, n ,
X n , para 1 5 r 5 p, entonces se puede encontrar al exp(A) haciendo
f = 1 en la siguiente fórmula para exp(tA). Para cada número f , exp(fA)
= Q exp(tJ)Q", en donde
exp(tJ,) O . . .
exp(tJ) =
...
O
O . . . exp(tJ,)
9.5
I
Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
427
Y en donde exp(tJ,) = k,(t) para el bloquede Jordan J, n, x n, asociado
con el eigenvalor A, siendo k,(t) como se definió en (9.50) reemplazando
a la n por n,.
f) exp(A) es no singular y {exp(A)}-' = exp(-A).
g) exp(0) = I.
Con esta información, se puede volver a enunciar el teorema 9.52 sobre la
solución de x = Ax.
(9.55)
Corolario. La solución de x = Ax con x(0) = x. es
x(t) = exp(tA)x,.
(9.56)
Ejemplo. En el ejemplo 9.53 se presentó una matriz A 2 x 2 y su forma
de Jordan
[
J= - t l
1
-0.1
]
para A =
[
-0.40
-0.18
0.51
0.2 .
-:;8
y::]'
Usando P y P-l del ejemplo 9.53, resulta
exp(tA) = exp( -0.1t )
1 - 0.3t
haciendo t = 1, se obtiene
exp(A) = exp(1A) = exp(-0.1)
[
Una vez encontradas las soluciones de las ecuaciones diferenciales estudiadas enlos ejemplos 9.47 y 9.53, se podría ver inmediatamente cómo se comportaron cuando t tendía a infinito. Como se pueden escribir esas soluciones como x(t)
= exp(tA)x,, esos resultados debenan ser consecuencia de
las propiedades de A
y de exp(rA). La fórmula explícita para exp(tA) contenidaen el teorema 9.54, da
una prueba inmediata de esosresultados una vezque seha entendido el comportamiento de exp(At) para una A posiblemente compleja. Si A = a + D i con (Y y p
reales, entonces la serie infinita para exp(Xt) se divide en la parte real y la parte
imaginaria y resulta exp((a + B i ) t } = exp(at) {cos pr + isen pr}. Si a,la parte real
de A es negativa, entonces exp(Ar) tiende acero a medida que t tiende a infinito; si
la parte real de A es positiva, lexp(At)l tiende a infinito, y la parte real es cero,
exp(Ar) está acotada.
428
9
I
Eigensistemasde matrices arbitrarias generales, con aplicaciones
(9.58)
Ejemplo. Los problemas en los ejemplos 9.47 y 9.53 ilustran este teorema.
La matriz A 2 x 2 del ejemplo 9.47 tiene A, = O y Az = -0.2; todas las
soluciones están acotadas, así como la que allí se presentó. La matrizA2 x
2 del ejemplo 9.53 tieneAl = Az = -0.2; todas las soluciones tienden acero,
como lo hizo la que allí se encontró.
Ecuaciones no homogéneas
Finalmente se volverá a la ecuación no homogénea (9.39):
(9.59)
X = AX
+ f,
~ ( 0=
) x0,
en donde f es una función de t. El camino a utilizar, basado en exponentes de
matrices, se podría haber usado también cuando f = O. Premultiplicando ambos
lados de (9.59) por exp(-tA), resulta
(9.60)
exp(
-
tA)X - exp( - tA)Ax = exp( - tA)f.
El lado izquierdo de (9.60) es justamente la derivada de Z ( t ) , si se define Z ( t )
como exp(-tA)x(t), de modo que el miembro derecho también sea igual a Z(t).
Como Z ( f ) - Z(0) es igual a la integral de i t ) de O a t , se obtiene
exp(- tA)x(t) - exp(OA)x(O)=
ji exp( - tA)f(r) dt.
Ya que exp(0A) = I y exp(fA) = {exp(-tA)}”,la premultiplicación de ambos
miembros por exp(fA) completa la solución de la ecuación no homogénea.
(9.61)
Teorema (ecuaciones diferenciales no homogéneas). La solución x(t) de
X = AX
+ f,
~ ( 0=
) xO,
9.5
/
Aplicaci6n: evoluci6n de sistemas continuos y exponenciales de matrices
429
en donde A y x. son constantes y f puede depender de t se da por
x(t) = exp(tA)xo+
Jiexp((t - z)A}f(z)dz.
Observe que si f = O , esto se reduce al corolario 9.55.
PROBLEMAS 9.5
D 1. Escriba lasecuaciones diferenciales de lamolécula triatómica del problema
4 de la sección 2.5 en la forma x = Ax.
2. Resuelva a x = Ax, x(0) = x. en donde
-4
6 -1
12
3. Resuelva las ecuaciones diferenciales para el modelo de competencia entre
poblaciones del ejemplo 9.36 para k = 0.1
4. Demuestre que (9.50) es consecuencia de (9.49).
5. Resuelva x = Ax, x(0) = [2
-2
2IT, con la matriz A del ejemplo 9.6.
D 6. Resuelva
il= 2x, + x*,
X,(O) = 1
x2 =
X2(O) = 1.
2x,,
7. Resuelva las ecuaciones diferenciales del ejemplo 9.37con g = 0.08, r = 0.2,
0.7, v(0) = 100, p ( 0 ) = 5.
D 8. Demuestre el teorema 9.54 g) y encuentre exp(1).
9. Utilice la fórmula de exp(A) del teorema 9.54 e) para demostrar el teorema
9.54 b) y c).
10. Demuestre que la serie I + A + A2/2! + A3/3! +
del teorema 9.54 a)
converge.
D 11. Demuestre el teorema 9.54 f).
12. Encuentre exp(tA) y después exp(A) para la A del ejemplo 9.47.
13. Resuelva x = Ax + f, x(0) = x. siendo A y x. las del ejemplo 9.47, pero con f(t)
= [l 1-y.
14. Resuelva x = Ax + f, x(0) = x. siendo A y x. las del problema 5, pero con f(r)
= [1 o t ] T .
15. Compruebe que {exp(A))" = exp(-A) para la matriz A del ejemplo 9.47.
D 16. Encuentre exp(A) para la A del ejemplo 9.6.
S =
430
9
/
Eigensisternas de matrices arbitrarias generales, con aplicaciones
17. Sin resolver las ecuaciones diferenciales, determine el c omportamiento
cuando t tiende a más infinitode la soluciónx(t) del modelo de competencia
entre poblaciones del ejemplo 9.36 cuando k = O. l.
D 18. Encuentre un valor de ken el modelo de competencia entre poblaciones del
ejemplo 9.36 tal que, a medida que t tiende a más infinito, todas las soluciones estén acotadas, pero no todas las soluciones tiendan a cero.
9R 19. Utilice MATLAB o algún software semejante para sumar varios términos de
la serie exp(A) para comprobarexperimentalmente que la serie converge a
exp(A) para la matriz A del ejemplo 9.56.
9.6
APLICACION: SOLUCION ITERATIVA DE ECUACIONES LINEALES
Los modelos matemáticos de sistemas físicos o sociales muy complejos a menudo involucran sistemas de ecuaciones lineales con miles de variables, sistemas
que sedeben resolver muchas veces en el modelo. Hasta las supercomputadoras
modernas podrían no ser capaces de
almacenar y resolver las ecuaciones usando
la eliminación de Gauss lo suficientemente rápido (si es que pueden) para que
resulten útiles o efectivas en lo que respecta a su costo.
En tales problemas, a menudo se da el caso de que cada
una de las miles de
ecuaciones involucra sólo unas cuantas de las milesde variables; esto surge del
hecho de que muy a menudo, cada parámetrode un modelo grande sólo interactúa directamente con unos pocos de los demás parámetros. En un modelo de
economía, por ejemplo, cada individuo hace negocios con unas cuantas personas; en una estructura física complicada, como otro ejemplo, cada miembro está
conectado sólo con unas cuantas personas. La matriz que representa tales
ecuaciones es, por lo tanto, poco densa: sólo contiene un pequeño porcentaje
de elementos diferentes de cero.
(9.62)
Ejemplo. Suponga que se tiene una matriz A, 10 x 10, con la siguiente
estructura, en donde “x” representa un elemento diferente de cero en la
matriz A original, “O” representa u n cero en la matriz A original, cuya
presencia se puede aprovechar durante la eliminación de Gauss, y “0”
representa un cero en la A original que se reemplazará por un número
diferente de cero durante la eliminación antes de que ésta se haya adelantado lo suficiente como para poder tomar ventaja del cero.
A=
x
x
x
x
x
x
x
x
x
@
@
@
o
x
x
x
@
@
o
o
x
x
x
@
o
o
o
x
x
x
x
@
@
@
@
x
x
x
@
@
@
@
@
@
@
@
@
o
o
o
0
x
x
x
@
@
@
@
@
@
o
o
o
0
o
x
x
o
o
o
0
o
o
o
o
o
0
o
o
o
x
x
x
x
x
x
x
x
x
x
x x
x
@ x x
@ @ x x.
9.6
/
A~licacibn:soluci6n
iterativa
de ecuaciones
lineales
431
Aunque sólo 44 de los 100 elementos de A son diferentes de cero,la mitad
completa de los 56 elementos cero se deberán tratar como diferentes de
cero durantela eliminación; y al resolver un sistema Ax = b, la sustitución
en reversaimplicará multiplicar 28 veces por cero. Si es posible, se deberá
evitar la pérdida de “la poca densidad” y el trabajo inútil de multiplicar por
ceros.
Un enfoque es desarrollar procedimientos especiales de eliminación de
Gauss para matrices poco densas; por ejemplo, con sólo notar la localización de los muchos ceros en la forma reducida de Gauss anterior,se evitan
las multiplicaciones innecesarias, y el sencillo artificio de reordenar las
incógnitas como x2,x,, . . . , xl0,xl,conserva mucha de la poca densidad
durante la eliminación: en efecto, se mueve la primera columna hasta la
extrema derecha dela matriz, despuésde lo cual una eliminación
de Gauss
con intercambio puede aprovechar cada cero del triángulo inferior de A,
sustituyendo a lo más 13 ceros del triángulo superior
Este ejemplo indica los ahorros potencialmente enormes que se pueden
hacer diseñando programas especiales de eliminación de Gauss para matrices
poco densas. Este importante tópico está más allá del alcance de este libro; sin
embargo, véase Bjorck, Plemmons, y Schneider (38); Bunchy Rose (39); Duffy
Stewart (41); George y Liu (45); y Rose y Willoughby (51).
Hay métodos alternativos para aprovechar la pocadensidad de las matrices,
unos que fácilmente pueden explotar la poca densidad de A y mantener un bajo
almacenamiento y demás requisitos computacionales. Entre los más poderosos
de esosmétodos están los métodos iterativos: en lugar de calcular directamente
la solución como en la eliminación de Gauss, calculan una sucesión (teóricamente infinita) de soluciones aproximadas x, con el propósito de que converjan
rápidamente hacia lasolución. El resto de estasección examinará tales métodos.
Para ejemplificar se tomará Ax = b como problema modelo, en donde
(9.63)
A es 20 X 20, simétrica, y tridiagonal:
( A ) ~= ~2 para I 5 i 5 20, ( A ) ~ , +=~ ( A ) ~ - ~=, ¡ - I para 2 5 i 5 20, y
todas las demás (A),, = O.
b es 20 x 1: (b)i = 0.01i para 1 5 i I20.
Observe que sólo 58 de los 400 elementos de A son diferentes de cero; esta
cantidad, que representa el 1 S:( es alta comparada con lo que se presenta en la
práctica. Observe también que la eliminación de Gauss en A es sencilla y que no
se necesitan métodos iterativos; sólo se usará a A para ejemplificar las fórmulas
siguientes.
Cada uno de los métodos iterativos que se presentan,aunque difieren en la
manera de hacerlo, el i-ésimo elemento de una nueva aproximación x’ usando
la i-ésimaecuación y los valores de la aproximación anterior x (y quizá algunos
432
9
I
Eigensisternas de matrices arbitrarias generales, con aplicaciones
de los elementos ya calculados de x’). Se produce una serie de aproximaciones
x, comenzando por x como x,,, calculando x’ de x y haciendo x, igual a x‘; ponen
ax, en lugar de x, calculan x’a partir de x y hacen xz igual ax’ y así sucesivamente.
(Se usa esta notación para reducir el número de subindices y superíndices.)
E n toda esta sección, A es p x p , atj es (A)G,xi denota a (X)iy xi es (X‘)iy
y bi quiere decir (b)i.
(9.64)
Ejemplo. El método iterativo de Jacobi sustituye a la aproximación anterior x en la i-ésima ecuación para todas las variables excepto para la
i-ésima, y calcula esa variable como xi:
+
a..x! = -a. 1 1 x 1 - . . . - a i * i - l X i - l- a i , i + l x i + l . . . - aipxp bi
I1
I
para 1 I i I p .
En el problema de ejemplo (9.63), esto viene a ser simplemente
2x; = x i m l + xiil + 0.01i
(9.65)
siendo 1 I i I 20.
Ejemplo. El método iterativo de Gauss-Seidel sustituye la nueva aproximación x’en la i-ésima ecuación para aquellas variables x;, . . . ,xi- que se
han actualizado, sustituye la aproximación anterior x en todas las demás
variables excepto en la i-ésima y despeja esa variable como xi:
a..x! = -a.I 1 x‘1 - . ’ . - ui,i- 1x;- 1 II
1xi+ 1 - . . . -
I
+ bi
para 1 I i I
p.
En el problema de ejemplo (9.63), esto simplemente viene a ser
+ x i + l + 0.01i
2x: =
(9.66)
para 1 5 i I 20.
Ejemplo. El método iterativo de sohrerrelajaciones sucesivas o S R S , calcu1a.u; como sigue: primero calcula una aproximación temporal x* a la
i-ésima variablecomo en el método de Gauss-Seidel, y después encuentraa
x’,= x i + o(x* - x i ) para un parámefro de sobrerrelujucionfijo w, generalmente mayor que 1, cuyo uso tiene el propósito de mover más rápidamente
la aproximación hacia la solución. Esto da
aiix* = - a i l x i - . . - ur.. .z - l X i‘- 1 -ai,i+lXi+l - . . . - a i p p
‘
x: = x i
+ w(x* - xi)
+ hi,
para 1 I
iI
p.
En el problema de ejemplo (9.63), esto simplemente es
2x* = x i d l + x i + l + 0.01i,
xi = xi + w(x* - x i ) para 1 5 i 5 20.
9.6
I A~licaci6n:solucibn
iterativa
de ecuaciones
lineales
433
No todos los métodos iterativos que seusen producirán aproximaciones que
converjan a una solución, ni los tres métodos anteriores producirán una aproximación para todos los problemas. Esos tres métodos -y especialmente el SRS
con una adecuada selección de w- son muy efectivos para una extensa clase de
matrices que surgen al resolver problemas con valores en la frontera para
ecuaciones diferenciales ordinarias y parciales; el problemaejemplo (9.63) es, de
hecho, una de esas matrices. Se requiere de algunas herramientas analíticas para
determinar si un método específico será efectivo en un problema específico.
Particiones de matrices
La aplicación de estos métodos al problema del ejemplo(9.63) revela su simplicidad en computación. Para analizar la conducta quelos caracteriza, se introducirá
no se usan las versiones de
notación matricial; es importante darse cuenta que
matrices en los cálculos reales, sino sólo en el análisis. Escribamos A como
(9.67)
A = L + D + U , en donde D es una matriz diagonal, L es una matriz
triangularinferior con cero en su diagonal principal, y U es una matriz triangular superior con ceros en su diagonal principal.
Evidentemente, L es igual al triángulo inferior de A, D es igual a la diagonal
principal de A, y U es igual al triángulo superior de A. El examen de las fórmulas
para los métodos deJacobi, Gauss-Seidel y SRS muestra que pueden reenunciarse como sigue (problemas 5 y 6):
(9.68)
a) El cálculo deJacobi es
DX' = -(L
+ U)X + b.
b) El cálculo de Gauss-Seidel es
(L
+ D)x' = - U X + b.
c) El cálculo SRS es
(L + ~ " D ) x '= - { U + ( 1 - ~ - ' ) D } x+ b.
De hecho, cada uno de ellos es un caso especial de una clase de métodos
basados en partir las matrices A = M + N;así, se escribe
(9.69)
A=M+N
y
Mx'=-Nx+b.
Cada uno de los métodos de (9.68) es de este tipo:
Jacobi usa M = D, N
=L
+ U.
Gauss-Seidel usa M = L + D,N
SRS usa M = L + o - ' D , N
= U.
=U
+ (1
-
o")D.
1.75
434
9
I
Eigenslstemas de matrices
arbitrarias
generales,
con aplicaciones
La sucesión de aproximaciones x, calculada con esos métodos, lasolución
verdadera f y los errores 6, = x, - ii satisfacen entonces
(9.70)
Mxr+l
Mii
-Nx,
+b
= -N% + b
Ma,+ 1 = -N6,,
en donde la terceraecuación resulta de restar la segunda de la primera. Si M es no
singular, se obtiene
= Ha,,donde
en
(9.71)
6,
H = ""N,
y así resulta
= H6,.
Como se quiere que x, converja a 2, es necesario que 6, converja a cero sin
importar cuál sea el error inicial 6,. Ya que 6, = Hd,, el asunto del comportamiento de 6, está tratado en el teorema clave 9.30: para asegurar que los errores 6,
converjan a cero, es necesario que el radio espectral p(H) < l . Evidentemente,
la herramienta analítica que se necesita parae1
mientras más pequeño seap(H) es
análisis de determinados métodos iterativos aplicados a problemas particulares.
911 (9.72)
1.74
1.7
Ejemplo. Se usaMATLAB paracalcularlos eigenvalores y después el radio
espectral de lasmatrices adecuadas H para los métodos de Jacobi, GaussSeidel y SRS (con varios valores de w) en los ejemplos 9.64a 9.66 sobre el
problemade ejemplo (9.63);esas matrices se designan respectivamente con
H,, HGSy H,(observe que SRS con w = 1 es precisamente Gauss-Seidel, así
H, = HGs).MATLAB calculó p(H,) = 0.9888 y p(H,,) = 0.9778, estando
ambos bastante cerca de 1 ; como se espera quelos errores llS,lI se comporten como {p(H))*, entonces esto indica una convergencia bastante lenta.
Despejando r en {p(H)}' = &j para ver cuántos pasos se necesitan para
reducir el error por un factor de 10, se encuentra que se requieren aproximadamente 204 pasos para el métodode Jacobi y 103 pasos para el método
de Gauss-Seidel. (Este factor de aproximadamente 2 entre el número de
pasos en estos métodos es típico.) Ahora se examinará el desempeño del
SRS para distintos valores de w. Se usó el MATLAB para calcular p(H,,)
para wde0.0 a 2.0 en intervalos de 0.2, y se observó que
era menor entre 1.6
y 2.0; entonces sele calculó en intervalos de 0.05 en esaregión, observando
que eramínimo de 1.7 a 1.8. Después se le calculó en intervalos de 0.01 en
esa región y se encontró que fue mínimo en w = 1.75. La siguiente tabla
muestra valores representativos.
1.6
o
1.2
p(H,)
1
0.6
1 0.8000
0.7600
0.7500
0.7562
0.8479
0.9056
0.9666
0.9905
1.8
9.6
/
Aplicaci6n: soluci6n iterativa de ecuaciones lineales
435
La tabla revela que laselección adecuada dew pilede hacer una diferencia
dramática en la rapidez de la convergencia. Al escoger la w óptima de
aproximadamente 1.75 da p(H1,,J = 0.75, lo que significa que sólo se
necesitarán unos 8 pasos -comparados con los 204 para Jacobi y 103 para
Gauss-Seidel-de SRS con w = 1.75para reducir el erroren un factor de10.
Las comparaciones ilustradas en el ejemplo 9.72 son típicas de una clase
amplia de matrices que surgen en la soluciónnumérica de ecuaciones diferenciales; la rapidez del método Gauss-Seidel es típicamente el doble del de Jacobi,
siendo el método SRS (con una selección Úptima de w) dramáticamente más
rápido. El siguiente teorema, enunciado sin demostración (véase por ejemplo la
segunda edición en inglés de este libro) lo ilustra.
(9.73)
Teorema (Jacobi, Gauss-Seidel y SRS). Suponga que A es una matriz
tridiagonal con elementos diferentes de cero en la diagonal principal:
(A)ii # O,
si l i - jl > 1.
(A)ij = O
Sea HJ, HGs y H, las matrices cuyos radios espectrales gobiernan la convergencia de esos métodos. Entonces:
a) p(HGs) = {p(H,)}’ -si Jacobi converge, también lo hace Gauss-Seidel y
con doble rapidez; si Jacobi diverge, así lo hace Gauss-Seidel y con
doble rapidez.
b) Si A tiene eigenvalores reales, entonces el valor de w que minimiza a
PW,) es
w* = 2 / { 1
+ (1
-
p’)l/’},
en donde ,p = p(HJ); para esta w* óptima, p(H,,) = o* - 1.
Para interpretar el teorema 9.73, suponga por elmomento que p(HJ = 1 - E
para alguna E pequeña, de modo que el método de Jacobi converjalentamente.
Entonces
algo más pequeño. También,
(jJ* =
2
’ } - 2 - 2(2E)”’,
”
(1 + ( 2 € - € )
Y así p(H,*) % 1 - 2 ( 2 ~ ) l ’ ~el, cual es apreciablemente más pequeño. Si por
ejemplo E = 0.00005, entonces
p(HJ)= 0.99995,
p(HGS) % 0.99990,
y
p(H,*) % 0.98.
436
9
/
Eigensisternas de matrices
arbitrarias
generales,
con aplicaclones
Un aspecto interesante e importante de este teorema es que sólo requiere
información de p(H,) para determinar lawóptima para SRS; esto es útil yaque H,
es relativamente sencilla. Escribiendo A = L + D + U comoen (9.67) y
encontrando H, = -D”(L + U), se demuestra que el método de Jacobi será
< 1; estadesigualdad es válida si y sólo siA es
convergente si, por ejemplo, l/HJ//m
estrictamente dominante diagonalmente respecto a los renglones -la magnitud
de (A)ii es estrictamente mayor que la suma de las magnitudes de (A)i, paraj # ilo cual a menudo es válido en las aplicaciones {o es válida una versión ligeramente modificada de esta condición, enla que se omite lo de “estrictamente”,
que es suficiente para garantizar que p ( ~ , K) I}.
PROBLEMAS 9.6
1. Escriba las ecuaciones para aplicar el método de Jacobi a
2u+ v = 4
u
+ 2v = 5.
D 2. Escriba las ecuaciones para aplicar el método de Gauss-Seidel en el problema 1.
3. Escriba las ecuaciones para aplicar el método SRS en el problema l .
4. Compruebe (9.68) a), b) y c) en los problemas 1 , 2 y 3 .
5. Deduzca (9.68) a) y b).
6. Deduzca (9.68) c).
D 7. Encuentre las matrices H,, HG,, y H, que sirven como H en (9.71) en los
problemas 1 , 2 y 3.
8. Utilice las fórmulas generales para M y N para encontrar las matrices
iterativas H de (9.71), en general para losmétodos de Jacobi,Gauss-Seidel y
SRS.
D 9. Encuentre p(HJ),p(HG,), y p(H,.,) en los problemas 1, 2 y 3.
10. Compare, en los problemas 1 , 2 y 3 (con w = l . l ) el
, número real de pasos
necesarios para reducir el error en un factor de 10 (comenzando con u. = u.
= O) con el número n = -log,,{p(H)) que sepronosticó teóricamente como la
solución de jp(H))” = h.
D 11. Intercambie las dos ecuaciones a resolver en el problema 1 .
a) Demuestre que el método de Jacobino converge si se aplica a este nuevo
sistema.
b) Determine si converge el método de Gauss-Seidel.
c ) Examine si se puede encontrar o de modo que SRS converja.
9.7
I
Problemas varios
437
+ N para la matriz del
ejemplo 9.62que pudieran ser efectivas para resolver Ax = b; recuerde que
se necesita estar en posibilidad de resolver fácilmente M X , + ~= -Nx, + b en
cada paso.
aR 13. Modifique los elementos en la diagonal principalde lamatriz A del problema
de ejemplo(9.63) haciendo (A)ii = 2 + 0.li. UtiliceMATLAB o algún
y p(H,) para un rango de
programa semejante para encontrar p(H,) , p(H,),
valores de w lo suficientemente grande como para permitir la aproximación a
una o óptima o*.
12. Describa algunas particiones de matrices A = M
14. a) Utilice p(H,), para el problema ejemplo (9.63) para determinar la w = w*
óptima para el método SRS del teorema 9.73.
b) Compare este valor con el valor de 1.75determinado experimentalmente.
y
c) Utilice MATLAB o algún programa equivalente para calcular p(H,)
después compárelo con el valor teórico de o* - 1.
aR 15. Haga lo que se pidió en el problema 14, pero para el problema ejemplo
modificado del problema 13; para b), compare con la w óptima determinada
experimentalmente en el problema 13.
D 16. a) Encuentre los eigenvalores de la matriz H, del problema 3 , y después
determine la o que minimiza a p(H,).
b) Compare la respuesta con la obtenida usando el teorema9.73 y con p(H,)
= 0.5.
9.7
PROBLEMAS VARIOS
PROBLEMAS 9.7
1. Demuestre que dos matricespX p no defectuosas son semejantes si y sólo si
tienen el mismo polinomio característico.
D 2. Suponiendo que A es una matriz real 2 X 2 con eigenvalores complejos
conjugados a t Di, demuestre que existe una P real tal que
P"AP
=
[-; :].
3. Demuestre considerando el siguiente ejemplo, que hay matrices no defec-
tuosas, con eigenvalores repetidos que no son normales
A=
[A 4 i].
438
9
/
con aplicaciones
Eigensisternas de matrices
arbitrarias
generales,
4. El problema 9 de la sección 9.2 muestra que si A y B son no defectuosas y AB
= BA, entonces P"AP será diagonal en bloques siempre que P-lBP sea
diagonal. Suponga que A es una matriz no defectuosa dada; si se puede
encontrar una B que conmute con A cuyo eigensistema sea fácil de encontrar, entonces se podrá producir una P"AP sencilla a partir de la cual será
posible encontrar fácilmente el eigensistema de A. Como un ejemplo sencillo, considere el sistema de resistencia y condensadores de la siguiente
figura. Si q ies lacarga en el i-ésimocondensador, recordando que el voltaje a
través de un condensador C que contiene una carga q es q/C y la corriente
a través de éI es i = dq/dr, demuestre que las ecuaciones para el circuito,
suponiendo que todas las R, = R y C i= C , son
."
4
3
Por la simetría, el circuito no se cambia si alcondensador 1 se le llama2 , al 2
se le llama 3, y el 3 es el l . Esto sugiere la prueba de la siguiente matriz de
permutación para B. Los eigenvectores de B que dan las columnas de P se
pueden encontrar fácilmente. Haciendo w = f(- 1 +
para que w3 = 1 y
w2 + w + 1 = O, se encuentra
ia),
9.7
/
Problemas
varios
439
Se encontrará rápidamente queAB = BA, y entonces se podrá usar el método
anterior. Esto da
o
-3
y entonces los eigenvalores de A son O , -3 y -3, y los eigenvectores son las
columnas de P.
D 5. SupongaqueA,p x p , tiene un eigenvalor simple A, siendo [All = p(A), y que
todos los otros eigenvalores A satisfacen IAl < p(A). Muestre cómousar los
valores Aixo calculados con una x. inicial para obtener una aproximación a
Al.
6. Dé los detalles para el siguiente esquema de una demostración de que
una
notiene
matriz n X n deMarkovconelementosestrictamentepositivos
eigenvalores A con /Al = 1 además del eigenvalor simple
A = 1: Si 1x1 = 1 y A es
un eigenvalor de A, entonces sea x # O que satisface a xTA = AxT y
máx{lx,I, 1x21,. . . > Ixnl} = lxiol = 1
para alguna io.
De la ecuación i,-ésima de xTA = AxT deduzca que
n
n
lxiol 5
que por 10 tanto
para todaj. De
2
j= 1
ajiolxjl = l x i o l
+ jC
ajio[lxjl - /xio/I,
= 1
ajio[lxjl - / x i o l ]= O, y de aquí que lxjl = lxiol
t
deduzcaque x 1 = . . . = x, de modo que x = cl, l T = [l, . . . , 13.
Partiendo de
k l T = ,ixT= A'x
= clTA = cIT,
deduzca que A = l . Concluya que A = 1 es un eigenvalor simple yaque IIAilll
Il . Esto demuestra el resultado.
D 7. Suponga que A y B son p X p y que A y B conmutan: AB = BA. Demüestre
que
exp(A + B) = exp(A)exp(B)= exp(B)exp(A),
y, muestre por medio de un ejemplo de matrices 2 x 2, que lo anterior no
necesita ser válido si A y B no conmutan.
10
Formas cuadráticas y caracterizaciones
variacionales de eigenvalores
Este capítulo continúa el desarrollo de las propiedades delos eigensistemasconsiderandoalgunasdelaspropiedadesde
sus valoresextremos
relacionados con funciones cuadrAticas especiales; muchos
de los resultados tienen un sabor netamente geom6trico.
Los t e o r e m a s c l a v eson I O. 14,
10.18, 10.25, 10.28, y 10.32
,
10.1
INTRODUCCION
Después de las funciones constantes y de las funciones lineales (estudiadas ya
exhaustivamente a través de las ecuacioneslineales y de las transformaciones
lineales), siguen en nivel de complejidad las funciones cuadráticas. Tales funciones surgen en distintas áreasde aplicación, perolos métodos matriciales permiten un estudio unificado de sus propiedades; ala inversa, las funciones cuadráticas proporcionan puntos de vista importantes sobre conceptos matriciales,
especialmente en lo que se refiere a los eigensistemas.
Se estudiaránlas funciones cuadráticas especiales llamadasformascuadrúticas: (x, Ax)= xHAx,en donde A es una matrizp X p hermitiana, la variable x se
corre RP o CP, y
eselproductointeriorestándar
en estosespacios.
Ilustramos primero cómo surgen en forma matricial estas formas cuadráticas.
(.,a)
(10.1)
440
Ejemplo. Endosdimensiones,
las llamadas secciones cbnicas son las
curvas más sencillas y juegan un papel fundamental en la geometría bidimensional. Clásicamente, se definió a la elipse (hipérbola) comoel lugar
geométrico de los puntos tales que la suma (diferencia) de sus distanciasa
dos puntos fijos, llamadosfocos, esigual a una constante a. La geometría
10.1
I
Introducci6n
441
analítica permite la descripción de estas curvas por medio de ecuaciones
x:/16 = 1 -una elipse con focos en ( + 3 , O) y (I! = 10
tales como x:/25
constante- y x:/16 - xf/9 = 1 -una hipérbola con focos en (+5, O ) y (Y
= 8 constante. También es posible describirlas vía formas cuadráticas:
(x, Ax) = 1 con
+
para la elipse anterior, por ejemplo. En p dimensiones, la ecuación (x, Ax)
= 1 para una A p X p , produce curvas análogas a las secciones cónicas
y son
fundamentales para la geometría de R P y de CP.
(10.2)
Ejemplo. Muchas aplicaciones involucran optimizaciones: alcanzar alguna
meta por el mejor (en cierto sentido) método. De este modo se busca
minimizar los costos, minimizar el tiempo perdido, maximizar la eficiencia
y así sucesivamente. Esto, matemáticamente,significa minimizar o maximizar alguna función Ax) de p variables x l , . . . , x, (escritas como las
componentes dela matriz columna x). Si el valor extremo defse encuentra, por simplicidad, en x = O, entonces es posible tener una idea del
comportamiento def para valores cercanos a x, con la serie de Taylor
f(x,, . .
. ?
xp) = ( f ) o +
P
i= 1
(&xi
+
+ i1
(&j)oxixj+ . . .,
=l j=1
P
P
en donde
y (.)o indica la evaluación en O. En un punto extremo, desde luego, las
local defse
primeras derivadas& son cero y entonces el comportamiento
describe, aproximadamente,por la forma cuadrática (x, Ax)en donde (A),t
= (&)o. Esto generaliza la teoría cuandop = 1, en donde la naturaleza de
los
valores extremos -mínimo, máximo o punto de inflexión- se determinapor
la segunda derivada de f.
(10.3)Ejemplo.
En elestudiode
la dinámica de los sistemas físicos, valores
físicamente importantes como la energía cinética y la energía potencial, a
menudo se aproximan por medio de formas cuadráticas (vía la serie de
Taylor) a un estado de equilibrio del sistema. La teoría de vibraciones
pequeñas alrededor del equilibrio en sistemas dinámicos de muchas coordenadas involucra, en consecuencia, formas cuadráticas.
(10.4)
Ejemplo. En el análisis estadístico de los datosdescritos por variables
aleatorias xl, . . . ,x,, el valor esperadode xies el valor promedio de xt de
442
10
I
Formas cuadraticas y caracterizaclones
varlacionales
de etgenvalores
un gran número de ensayos y se le llamaE ( x i ) .E es lineal porque E(a,x, +
+ a,E(x,) para todas las constantes a i . Suponga que las
variables aleatorias tienen promedios cero, detal modo que E ( x i ) = O para
toda i. La varianza de x i se define como E($), y la varianza total V del
i).La matriz S de
conjunto de x i se define como V = E(.Y: + . . . + x
covarianza es lamatrizpX p en donde( S ) , = sij = E(x,xj).De este modo, la
varianza E(x;j es igual a ,yii para toda i, y la varianza total V es igual a
a$,) = a , E ( x l )
S,,
+
' '
. + ,SPD.
A menudo es importante buscar en el análisis
estadístico de datosalgún
conjunto pequeño de nuevas variables o factores que expliquen losresultados experimentales. Un método común es buscar una nueva variable
y, = UlX,
+
' ' '
+ upxp
cuyas variaciones reflejen en cierto sentido y tanto como sea posible las
variaciones de las x i . Técnicamente,esto requiere que se escoja a =
[ a , * . a,]' para que maximice la varianza E(y:) en y,, estando sujetaa la
condición que llall, = 1. Como S = E(xxT)si x = [ x , . . . x,]' y y1 = aTx =
xTa, se tiene que
E(y:) = E(a7'xxTa)= aTSa.
Esto es, se busca a a para que maximice a (a, §a) estando sujeta a la
condición (a, a) = l . De nuevo, las formas cuadráticas son el corazón del
asunto.
Habiendo visto algunos ejemplosde los distintos caminos por los que surgen
las formas cuadráticas, será
posible comenzar su estudio. Primero se verá el caso
de dos variables, en el cual serán de gran ayuda laintuición y el sentido
geométrico.
PROBLEMAS 10.1
D 1. Escriba explícitamente en términos de x 1 y x , las formas cuadráticas generadas por
+ x:/i16 = 1.
3. Grafique la elipse cuya ecuación es x:/16 + x:/25 = 1.
2. Grafique la elipse cuya ecuación es xfI2.5
D 4. Encuentre una ecuación de la elipse que tiene focos en (O, +- 4) si la constante
que representa la suma de las distancias es 10. Grafíquela.
5. Grafique la hipérbola cuya ecuación es x:í16 - x:/9 = 1.
10.2
6. Grafique la hipérbola cuya ecuación es x:/9
Formas cuadrhticas en R2
/
-
443
x:/16 = I .
D 7. Encuentre una ecuación de la hipérbola que tiene focos en ( 5 13, O) si la
constante (Y que representa la diferencia de las distancias es 24. Grafíquela.
8. Encuentre la serie de Taylor con términos cuadráticos para exp(2x: - 4xl.x~+
4.4) desarrollada en la vecindad del punto minimizante x1 = x2 = O .
10.2
FORMAS CUADRATICAS EN R2
Antes de explorar a profundidad las formas cuadráticas, es necesario explicar
por qué surgen de modo natural las matrices hermitianas (o reales simétricas).
Considere una cuadrática general en dos variables reales, Q = ax: + bx,x, + cx:,
en donde a , 6 , y c son reales. Varias matrices A producen esta forma cuadrática
como resultado de (x, Ax) = xTAx:
[:
3 [; 3
[b: 1
b +C l ] ,
Jh I]>
2
para citar unos pocos ejemplos. Sólo uno de ellos (el último) es simétrico real
(por consiguiente hermitiano); ya que en el capítulo ocho se han desarrollado
resultados tan poderosos para matrices hermitianas, se buscará tomar ventajade
esto escogiendo una A hermitiana para generar la forma cuadrática.
La pregunta ahora es cómo hacer uso del hecho de que la matriz
que define la forma cuadrática
Q(x) = ( X , AX) = X ~ A =
X ax: + bx,x, + cx:
es simétrica real (por lotanto hermitiana y por lo tanto normal). Por el corolario
clave 8.9 y el teorema clave 8.6, hay una matriz ortogonal P y una matriz A real
diagonal tales que PTAP= A; los elementos en la diagonal principal de A son los
eigenvalores A, y A2 de A , mientras que las columnas v1 y v2 de P forman un
conjunto ortonormal de eigenvectores asociados. Si se sustituye A = P U T en la
definición de Q resulta
Q(x) = xT(PAPT)x= ( P T ~ ) T A ( P T ~ ) .
444
10
/
Formas cuadraticas y caracterizaciones variacionales de eigenvalores
Esto es,
Q(x) = (x, Ax) = (t,A t ) = /2,5:
(10.5)
+ IL2t2, en donde
= PTx.
La forma cuadrática
Q toma una forma extremadamente sencilla
en términos
de las nuevas variables 5. Para que esto sea útil, es necesario contestar dos
preguntas:
l . ¿Cuál será la naturaleza de la forma cuadrática enE?
2. ¿Cómo se puede convertirla información de la forma cuadráticaen 5 en
información en la forma cuadráticaen x?
Un artificio estándar para comprender una función de dos variables es
examinar sus curvas de nivel. Las curvasCt que pasanpor todos aquellos puntos
en los cuales la función es igual a t para varios valores de t . Esto se hace
usualmente en los mapas del clima que muestran curvas de temperatura constante y con los mapas topográficos que muestran curvas de altitud constante;
estas curvas permiten ver fácilmente las distribuciones de temperatura en un
caso e identificar las colinas y otras características del terrenoen el otro caso.
de todos aquellos
Por lo tanto, primero se examinarán las curvas de nivel
= t , endonde c(t) =
+ A&. Después, se
puntos $. en los cuales
demostrará cómo obtenerinformación sobre las curvas de
nivel correspondientes C, para Q(x).
et
c(c)
Gráfkas en variables c
La curva de nivel
et es la gráfica en un plano de coordenadas c1
(10.6)
&(c) = t, en donde o({)= Al<: + A&;
-
t 2 de
esto es sencillamente una de las secciones cónicas conocidas de la geometría
analítica y del cálculo que se repasará brevemente. Primero, los casos, “típiCOS”.
(10.7)
Elipse. Si h,, X2 y t son todosestrictamente positivos (o todosestrictamente negativos), entonces et es una elipse cuyos ejes mayor y menor
quedan en los ejes 5, y lz.Dividiendo entre t a (10.6) y reacomodando los
términos se obtiene la forma acostumbrada deuna elipse.
r: + rf = 1,en dondeA = (i,)”’y
-
A*
-
B2
-
B=
Si A 2 B , los focos estánen (kc,O ) , en dondeC? = A2 - B2;la elipse esel
conjunto de todos aquellos puntos cuya suma de las distancias a los dos
focos es igual a 2A.
10.2
E:
t;
A'
B2
-+-=I,
(10.8)
AZB,
I
Formas cuadraticas en R2
445
c 2 = ~ 2 - ~ 2
Hipérbola. Si t es diferente de cero y si A, y h2 son diferentes de cero y de
signos opuestos, es una hipérbola; para concretar,suponga que t / A , > O
y que t / A 2 < O . Dividiendo (10.6) entre f y reacomodando los términos,
resulta la forma acostumbradade una hipérbola:
e,
r: r:
-- - =
A'
B2
1/2
1,en donde A = -
Los focos están en (kc, O ) , en donde C? = A2 + B2; la hipérbola es el
conjunto de todos aquellos puntos cuya diferencia en magnitud de las
distancias\a los dos focos es igual a 2A.
E2
C2=A2+B2
(10.9)
Rectas paralelas. Si una de las Ai es exactamente igual a O mientras que la
otra tiene el mismo signoque t (diferente de cero), entonces es un par de
rectas paralelas horizontales o verticales; suponga, para concretar, que A,
> O , h2 = O y t > O . Entonces (10.6) viene a ser = +(t/AJ1/2 -un par de
e,
446
10
/
Formas
cuadrAticas y caracterlzaciones
varlaclonales
de eigenvalores
e,
rectas paralelas al eje t 2 . se puede describir como el conjunto de todos
los puntos cuya distancia a la recta 5, = O es igual a l(t/Xl)1’21.
€2
Hay también algunos casos “excepcionales” -tales como el de A l > O, X2 > O,
es vacío; véanse los problemas 2 y 3.
t < O en cuyo caso
(10.10)
e,
Ejemplo. La forma cuadrática Q(x) = 13x: + 66x,x, + 7x: está generada
por la matriz real simétrica
Se encuentra que fácilmente los eigenvalores son X, = 16 y X,
eigenvectores ortonormales asociados
= 4 con
Con P = [vl v,], se obtiene PHAP = A diagonal elementos 16 y 4.
Se tiene
10.2
/
Formas cuadraticas en R2
447
La relación entre x y 6 es
Ahora podrá resolver los problemas del 1 al 4 .
Gráfkas en variables x
er
Ahora se convertirá la información detallada en (10.7-9) sobre curvasde nivel
en variables 6, en información sobre las curvas de nivel Ct en variables x. Para
dos variables, el método tradicional es considerar la transformación de x a 6
como una rotación elemental; sin embargo, esto no se generaliza satisfactoriamente para p variables. En lugar de esto, se tomará un punto de vista que se
puede generalizar.
El primer pasoes notar querestá en si y sólo si x = PC está en Ct (observe
que se tiene el mismo valor t ) . 5 en Ctsignifica que t = AT), lo cual es igual a
(x, Ax) de acuerdo a (10.5) y viceversa. En otras palabras,
et
(r,
El segundo paso es recordar el hecho crucial sobre matrices ortogonales: conservan la longitud -llY(t)112= llPrl12 = 11,f(I2 para toda C.
448
I
10
Formas cuadrtdicas y caracterizaciones variacionales de eigenvalores
Finalmente, observe que cada curva nivel
de eten variables se definió en
términos de longitudes y puntos: en (10.7), et era el conjunto de puntos =
[tl (,IT la suma de cuyas distancias delos focos
e
TI = [ C
O]'
y
T,=[-C
O]'
es igual a 2A. Esto significa que C, es el conjunto de puntosx = Pe, la suma de
cuyas distancias de
P"fyPf,es igual a2A. Estoesjustamenteunaelipse; yaque la
distancia 2C entre los focos y la suma 2A es la misma para etque para C, , las
elipses son congruentes -Ct se podría haber sobrepuesto a y hubieran coincidido perfectamente.
Por lo tanto es posible concluir que, en general,
e,
las curvas de
nivel Cten variables x son congruentes conlas curvas denivel
Et en variables 4 y por lo tanto son elipses, hipérbolas, rectasparalelas o
alguno de los casos excepcionales. (Note que esto depende mucho del
hecho de que P es unitaria; véase el problema 5.)
et
Otro modo generalizable para visualizar la transformación de a Ct por P es
recordar que P se puede escribir como el producto
de, cuando más, dos
reflexiones elementales sobre una recta {(teorema clave 7.38 b)}. Si se visualiza una
una rotación del planoen el
reflexión en un plano
con respecto a una recta como
espacio tridimensional en 180" usando la recta dada como eje de rotación,
entonces será fácil ver que esto transforma cualquier
figura geométrica en una
figura congruente con la original. De este modo, todatransformación ortogonal
-como producto de tales reflexiones- se comporta de manera semejante.
(10.11)
Ejemplo. Se encontró que las curvasde nivel
elipses, y en particular que E,, tiene focos
TI = [O C]'
y
e, del ejemplo 10.10 eran
r, = [O - c y ,
siendo la suma de las distancias importantes igual a 2A, en donde
A' = 16
y
C2 = A' - B2 = 16 - 4 = 12.
Por lo tanto los focos x para C, son
Y
10.2
I
Formas cuadrhticas en Iwz
449
y la suma de las distancias relevantesigual
es a2A = 8. La gráfica de abajo
es la de Cs4:(x, Ax) = 64.
I
PROBLEMAS 10.2
1. a) Demuestre que cada una de
las cuatro matrices al comienzo de esta
sección genera la misma forma cuadrática en R2.
b) Encuentre todas las matrices reales 2 x 2 A que generan la misma forma
cuadrática en R2.
c) Encuentre todas las matrices reales simétricas 2 X 2 que la generan.
d) Encuentre todas las (posiblemente complejas)
matrices hermitianas 2 X 2
A que la generan en Rz.
D 2. Encuentre todas las condiciones para
hi y f para las cuales las curvas
de nivel
de (10.6)son vacías.
3. Encuentre todas las condiciones para
Xi y t paralas cuales las curvas de
nivel
2, de (10.6)son sólo puntos.
D 4. Para cada una delas formas cuadráticas en x siguientes, encuentre la forma
sencilla (10.5) en 6 y grafique las curvas denivel para varias t para ver la
forma en que varía ZI, conforme varia t :
cr
cr
a) x: + 4X1X2 - 2x;
c) 2x: + 4x,x2 + 4x2,
e) llx: + 2x,x2 + 3x;
b) x: + 12x1x2+ 4x;
d) -5~: - 8xIx2 - 5x2,
D 5. Considere el círculo en 6 dado por
<:
+ <$ = 9. Se sabe queel conjunto dex
= P6 es congruente a cuando6 varía sobre
e,
por lo tanto seráun círculo sip
es unitaria. Demuestre que
lacurva C de todas las
x = P t no es congruente a C
si P = diag(8, 1) (la cual no es unitaria).
cuando 6 varía en
c,
450
/
10
Formas cuadrhticas y caracterizaciones variacionales de eigenvalores
c",
6. Grafique la curva denivel Ct en x correspondiendo a cada curvade nivel en
( para cada una de las formas cuadráticas del problema 4 a), b) c), d) y e).
10.3
FORMAS CUADRATICAS EN RP Y EN C P
Con excepción de la omisión de las gráficasdebido a la imposibilidad de dibujar
en p dimensiones, aquí se seguirá la mismaruta tan útil en la sección precedente
para IR2. El primer asunto serála restricción a matrices hermitianas o simétricas
reales.
En la práctica, generalmente uno sólo se preocupa de las formas cuadráticas
Q(x) = (x, Ax)que sólo toman valores reales; en los casos en que Q es compleja,
por logeneral sólo se puede estudiar la parte
real de Q . Se supondrá,por lotanto,
que Q(x) es real, pero no que x y A sean reales. Aun cuando A y x puedan ser
complejas, necesariamente Q(x) será real si, por ejemplo, A es hermitiana (AH =
A) :
x ~ ( A x=
) X ~ A=
X xHAHx= ( A x ) ~ x ;
como el término del extremo derechotambién es igual al complejoconjugado del
término del extremo izquierdo, su valor común debe ser entonces real. Pero
¿podría habermatrices no hermitianas cuyas formas cuadráticas sean reales? El
siguiente teorema contesta la pregunta.
(10.12)
Teorema (formas cuadráticasreales). Suponga que la formacuadrática
Q(x) = (x, Ax) está generada por una matriz A p x p , entonces:
a) Q(x) es real para toda x compleja si y sólo si A es hermitiana.
b) Q(x) es real para todax real si y sólo si A = R H, en donde R es real y H
es hermitiana; en este caso, en que A = R + H, la forma cuadrática
generada por A es idéntica a la generada por una matriz real simétrica
A', en donde A' = (A + A71/2.
+
DEMOSTRACION
a) (hermitiana + real) Lo cual se acaba de demostrar.
(real + hermitiana) Como Q(e,) = (A),,, los elementos diagonales
a , , , . . . ,a,,de A deben ser reales; seaD = diag(a,,, . . . , up,). Ya que
es real, comolo es (x, Ax), así lo será la forma cuadrática generadapor
A,, = A - D. Sea CY el elemento (Ao),, = (A),s para r > S ; sea P(A,),, =
(A),,, seax,, = e, + e,, y seay,, = e, + c'e,. Entonces, si c se define como
( x ~ ,A$,)
~,
= fl + a y d se define como (y,,, Aoyr,) = C'(B - a), ambos
/
10.3
Formas cuadrílticas en Rp y en C P
451
deben ser reales. Despejando a CY y p en términos de los reales c y d ,
resulta
c
2
a=-+-
id
2
c
y
id
b = -2- - 2 '
esto es,p = ii y por lo tanto A,, (y también A) es hermitiana ya que r y S
son arbitrarias.
b) (R+ H * real) La forma cuadráticaen
W p generada por R real, es real, y
la generada por H
la hermitiana esreal por a); así,será real la generada
por A = R + H.
(real =R + H) Sean D, A,, r, S, CY,p, x, y c como en lademostración
de a). D y c = (Y + p serán de nuevo reales. SeaR la matriz real p X p
formada partiendo de las partes realeslosdeelementos deA, y sea H la
matriz puramenteimaginaria de los elementos de
A; es claro queA = R
+ H. Entonces
+ (A)w = <R)rs + <R)sr + ( H ) r s +
de modo que el número puramenteimaginario (H)rs+ (H),,es real y por
c real = <A)rs
(H)sry
lo tanto cero. Esto significa que (H)rs = - (H)sr y por lo tanto H es
hermitiana como se afirmó, ya que r y S son arbitrarias.
(A Y A')
(X, A'x) = x ~ A ' x
= xT(A + AT)x/2 = xTAx/2 + ( A x ) ~ x / ~
= xTAx/2 + xT(Ax)/2 = x ~ A x ,
y ciertamente las formas cuadráticas serán idénticas. Para
ver que A' es
real y simétrica, observe primero que
.
(A
+ AT)T= AT + (AT)' = AT + A = A + AT,
por lo tanto A' será simétrica. En lo que respecta a que A' es real, se
escribe
A + A T = ~ + ~ + ~ T + ~ T = ~ + ~ T + ~ + H ~
=R+RT+H+H
(porque H es hermitiana), lo cual es real. m
LO anterior justifica la restricción a las formas cuadráticas generadaspor
matrices hermitianas y simétricas reales.
( 10.13)
Definici6n.
a) Unaforma cuadrútica en C P es una función de valor real
Q(x) = (X, AX) = X ~ A X
definida por una matriz A , p X p hermitiana para toda x en CP.
452
I
10
Formas cuadraticas y caracterizaciones variacionales de eigenvalores
b) Una forma cuadrbtica en [WP es una función de valor real
Q(x) = (X,AX)= X ~ A X
definida por una matriz A, p X p , simétrica real para toda x en Rp.
No hay diferencia en las teorías de formas cuadráticas en C p y en Rp
excepto por la aparición de en lugar de Las dos se tratarán simultáneamente
usando (x,A x ) paradenotar laformacuadrática, endonde(.;), como decostumbre, significa el producto interno estándar en RP o Cp;generalmente, simplemente se hará referencia a la forma cuadrática Q(x) = (x, Ax) sin nombrar
explícitamente a R o a C.
Se procederá como en la sección anterior.
(10.14)
DEMOSTRACION. Es consecuencia directa del corolario clave 8.9 y del teorema clave 8.6 sustituyendo x = P s en Q(x) como en la sección anterior.
(10.15)
Ejemplo. Considere la formacuadrática definida por la matriz simétrica
real 3 x 3 A, del ejemplo 8.1 1:
Q(x) = 7 ~ +
: 7x: - 5x: - 32x,x2 - 16x,x3 + 16x2x3.
En ese ejemplo se encontró que el eigensistema es
A , = 27
con v, = [ - 3
3 i]'
10.3 / Formas cuadreticas en IWP y en C p
453
Y
con v2 = [
J ;i
iJz
L~ = 1, = -9
v3 =
[-7
y
6
Si se forma P = [vl v2 V Jy se definen entonces nuevas variables 6 = PHxde
modo que x = P t , se obtiene
Q(x) =
Q(r>= 275: - 9 l ; -
en donde
ll =
(
-;)x1
+ (;)x2 + (;)x3
Y
La forma sencilla de o(c) que sólo involucra tres términos, muestra la
ventaja de diagonalizar con un cambio adecuado de variables.
Ahora pod& resolver el problema l .
Superfiies de nivel en [wp
El análogoa las curvas de nivel estudiados en lasección 10.2, son las superficies
de nivel S,: el conjunto de todas
las x que satisfacen Q(x>= t . Suponga que la A, p
X p, que define la forma cuadrática, es real simétrica y que x varía en Rp. De
acuerdo al teorema clave10.14, Q se puede diagonalizar por una transformación
ortogonal P que la lleva a la forma cuadráticadiagonal
con x = Pe. Como en
454
IO
/
Formas cuadraticas y caracterizaciones
variacionales
de
eigenvalores
la sección 10.2, está claro que x está en la superficie de nivel S, si y sólo si 5 está
= t . El teorema clave
en la superficie de nivel 5, de aquellas 5 que satisfacen a
7.38 b) dice entonces queP se puede escribir como el producto de cuando más p
reflexiones elementales, cada una de las cuales produce claramente superficies
congruentes a 5,; esto implica que
o(<)
las superficies de nivel S, determinadas por Q(x) = t son congruentes a
aquellas S, determinadas por o(S) = t .
La naturaleza de esas superficies de nivel depende, como enel caso de p = 2, de
los signosde los términos hi en la forma diagonal Q" -esto es, delos signosde los
eigenvalores de A. En dosdimensiones, por ejemplo, se vió que si A, y hz tienen el
mismo signo(diferente de cero), seproducen elipses; que si X , y X z tienen signos
contrarios, producen hipérbolas, y que una X i cero produce líneas rectas paralelas- una forma geométrica fundamentalmente distinta en cada caso. En tres
dimensiones, en donde
los casos típicos de St para t positiva, se pueden clasificar y visualizar en el
espacio físico como sigue:
l . Elipsoide si A,, A, y h3 son estrictamente positivas. Si dos de las hi son
iguales, la superficie es un elipsoide de revolución (los cortes transversales en una dirección son círculos); si las tres son iguales, la superficie es una esfera.
2. Hiperboloide deun manto si dos hison positivas y unaes negativa. Si las
X i positivas son iguales, la superficie será un hiperboloide de revolución.
3 . Hiperboloide de dos mantossi una hi es positiva y dos son negativas. Si
las Xi negativas son iguales, la superficie es un hiperboloide de revolución.
4 . Cilindro elíptico o hiperbólico si exactamente una de las hi es igual a
cero. El cilindro será elíptico si las otras Xison positivas, e hiperbólico si
tiene signos opuestos y no son cero.
5 . Dos planos paralelossi exactamente dosde las hi son iguales a cero y la
tercera es positiva.
Clasificaciones semejantes son válidas en p dimensiones, aunque los resultados son difíciles de visualizar. Sin embargo, se puede hacer esa clasificación
para las superficies de nivel $, de la forma diagonal Q"(C) sabiendo quela
clasificación es válida para la superficie general de nivel S, determinada por Q(x)
ya que S, es congruente con gt.
10.3
(10.16)
/
Formas cuadraticas en Rp y en C P
455
Ejemplo. Considere la superficie de nivel S, para la forma cuadrática Q(x)
del ejemplo 10.15:
7x:
+ 7x:
-
5x: - 32x,x, - 16x,x3
+ 16x,x3 = 1.
Gráfica en perspectiva de S”, sobre el planot,-t,, hecha con MATLAB
en esta forma, la naturaleza de la superficie St es irreconocible. Sin embargo, del ejemplo 10.15, se sabe que
por el caso 3) anterior, la superficie de nivel gl es un hiperboloide de
revolución de dos mantos. Como S, es congruente a S,, tendremos entonces quela superficie de nivel S, de Q(x>= 1 es un hiperboloide de revolución de dos mantos,
un hecho muy difícilde diagnosticar sin la diagonalización a Q(c).
Ahora podrcf resolver los problemas del 1 al 3 .
456
I
10
Formas cuadraticas y caracterizaciones variacionales de eigenvalores
Fomas cuadmticas defmidas
En general, una forma cuadrática Q(x) asumirá valores positivos, negativos y
cero para varios valores de x. Sin embargo, a veces las formas cuadráticas
representan fenómenos físicos para los cuales valores con algún signoparticular
carecen de sentido, y en tales casos se espera que Q no asuma valores con un
signo carente de significado. Un ejemplo sencillo de una forma cuadrática que
nunca es negativa es (x1 - xJ2 en R2, aunque es igual a cero para algunas x
diferentes de cero.Un ejemplo de una forma cuadrática quenunca es negativa y
que, además, sólo es cero cuando
x = O es x: + $en P i 2 . Se usa una terminología
especial para distinguir tales formas cuadráticas.
(10.17)
Defmicidn
a) Se dice que una forma cuadrática Q(x) es positiva definida si Q(x) > O
para toda x # O.
b) Se dice que Q(x) es positiva semidefinida si Q(x) L O para toda x.
c) Se dice que
Q(x) es negativa definidao negativa semidefinidasi y sólo si
- Q(x) es positiva definida o positiva semidefinida, respectivamente.
Q(x) es indeJinida si y sólo si existenx- y x+ tales queQ(x-)
d) Se dice que
< 0 < Qb+>.
e) Se dice que una matriz A es positiva definida (etcétera) cuandola forma
cuadrática (x, Ax) que define es positiva definida (etcétera).
Observe que una
matriz positiva definida también es positiva semidefinida,
pero que lo inverso no es necesariamente cierto (aunque podría serlo).
El teorema clave10.14 dice que cada forma
cuadrática puede diagonalizarse,
de modo que
Q b ) = Q(4 = 4Itl[' + . . + Apltp129
*
en donde las Xi son los eigenvalores de la matriz hermitiana A, p X p que define a
Q y ,$ = PHxen donde P es unitaria. Como P y PHson nosingulares, x = O si y sólo
si 6 = O , en donde ,$ = PHxy x = PC; y claramente, 0 es positiva definida si y sólo
si todas las hi son estrictamente positivas. Este tipo de argumento conduce
inmediatamente a la siguiente caracterización de las matrices definidas.
(10.18)
10.3
DEMOSTRACION.
I
Formas cuadrhticas en Iwp y en
457
Problema 4.
Para usar este teorema fin
a de comprobarsi una matriz es positiva definida
se requiere el conocimiento de sus eigenvalores; por ello, parece razonable creer
que debería haber una caracterización que sólo requiera información que se
pudiera comprobar directamente. Por ejemplo, como todaA, p X p , tiene det A
= XI . . X,
queda claro que toda A positiva definida debe tener un determinante positivo. También, ya que (ei, Aei) = (A)ii, toda matriz positiva definida
debe tener elementospositivos en su diagonal principal. Si sólo se considera a
(x, Ax) para aquellas x que no son cero en los elementos i-ésimo y j-ésimo,
entonces (x, Ax) es igual a(x,, AG,) en donde A, es 2 X 2 y x. es 2 X 1:
Por lo tanto, la forma cuadrática definida por A. debe también ser positiva
definida, así quepor ejemplo, el det A. debe ser positivo. Aplicando el mismo
sólo en los elementos i ,j y k , se encontraráque
argumento con x diferente de cero
los determinantes devarias submatrices 3 x 3 de A deben ser también positivos.
Y así sucesivamente con las submatrices4 x 4 , 5 x 5 , . . . ,y (p - 1) X (p - 1).
Entre todas esas condiciones necesarias sobre lapositividad de determinantes
hay suficiente información para garantizar que la matriz original sea positiva
definida.
(10.19)
Teorema (definición y determinantes).Supongaque A, p X p es hermitiana, entonces:
a) A es positivadefinidasi y sólo sicadaunade sus submatricesprincipales
k x k Ak para 1 Ik Ip , tiene determinante estrictamente positivo, en
donde Ak es la matriz k x k formada de los elementos de la esquina
superior izquierda de A:
(A,Jij = (A)ij
para 1 I
iI
k
y
1 Ij Ik.
b) A es positiva definida si y sólo si cada pivote es estrictamente positivo
cuando A se reduce a la forma reducida deGauss o a la formaescalón
reducida por renglón sin intercambiar renglones.
DEMOSTRACION.
(10.20)
Problemas 8, 9 y 10. m
Ejemplo. Paradeterminar si la formacuadrática
2x;
+ x: + 6x: + 2 x , x 2 + x I x 3 + 4x2x3
es positiva definida. Se forma unamatriz hermitiana definiéndola y transformándola a la forma reducida de Gauss,
teniendo control sobre los
pivotes:
458
10
/
Formas cuadrgticas y caracterizaciones
vanacionales
de eigenvalores
ya que uno de los pivotes es negativo, la forma cuadráticano es positiva
definida.
PROBLEMAS 10.3
D 1. Encuentre una forma cuadrática diagonal o(S) = Q(x) para cada una de las
formas cuadráticas Q(x) a continuación:
a) 3x: + 2x: + 3x: - 2x,x, - 2x,x,
b) Q generada por la A del problema 8 de la sección 8.2
c) Q generada por la A del problema 3 de la sección 8.3
2. Describa la naturaleza de cada unade
las superficies de nivel del problema
1 a), b) Y c>.
R 3. Utilice MATLAB o algún software semejante para obtener una gráfica en
perspectivade una superficie de nivel no trivial 3, paracada 0 del problema
1 a), b) Y c).
4. Demuestre el teorema clave 10.18.
D 5. Utilice el teorema 10.19, tomando en cuenta a -A, para enunciar y demostrar un teorema que caracterice las matrices negativas definidas.
st
6. Utilice el teorema 10.19 con A + €1, para enunciar y demostrar un teorema
que caracterice las matrices positivas semidefinidas.
D 7. Utilice el teorema 10.19 para determinar cuáles de las matrices del problema
1 a), b) y c), son positivas definidas.
8. En la sección 3.7 se presentóla descomposición LUde una matriz. Demuestre que A, p x p , se puede escribir como A = LU, en donde U es unitaria
triangular superior y L triangular inferior, y (L)ii # O para toda i , si y sólo si
los determinantes de las submatrices principales AI, son diferentes de cero
para 1 5 k Ip .
D 9. Suponga que una matriz A p X p , hermitiana y no singular se puede descomponer como A = LIDoU1,en donde L, es unitaria triangular inferior, Do
diagonal y U, unitaria triangular superior. Demuestreque L, = U?, de modo
que A = L,D,LY.
10. Utilice los problemas 8 y 9 para demostrar el teorema 10.19.
10.4
/
Valoresextremos
de formas cuadraticas: el principio de Rayleigh
459
D 11. Suponga que A es hermitiana y positiva semidefinida. Demuestre que A es
positiva definida si y sólo si A es no singular, y deduzca que esa A es singular
si y sólo si existe una x tal que (x, Ax) = O.
12. Suponga que A, B y S sonp X p , que S es no singulary que B = V A S ; se dice
entonces que A y B son congruentes hermitianas. Demuestre que A es
positiva definida (o positiva semidefinida o negativa definida o negativa
semidefinida o indefinida) si y sólo si B lo es.
13. Demuestre que todamatriz hermitiana p X p , A, es congruente hern't'
' 1 lana
-véase problema 12- a una matriz de la forma
diag(1, . . . , 1, - 1, . . . , - 1, O, . . . , O)
en donde hay r elementos + 1, S elementos - 1 y p - r - S elementos cero, y
que los números r y S son igualesal número de eigenvalores positivos
y negativos de A (respectivamente), por lo que serán los mismos en toda la
forma diagonal. (Esto es la ley de la inercia de Sylvester.)
D 14. a) Suponga que A es hermitiana y positiva definida; demuestre queA es no
singular y que A" es positiva definida.
b) Suponga que A es hermitiana y no singular; demuestre que A es positiva
definida (negativa definida o indefinida) si y sólo si A" lo es.
15. Utilice los problemas 8 y 9 y el teorema 10.19 para demostrar que A es
hermitiana (o simétrica real) y positiva definida si y sólo si a A se le puede
aplicar la descomposición de Cholesky
A = CCH
(O
A = CC*),
en donde C es triangular inferior y (C)((# O para toda i.
Los problemas aplicados que involucran formas cuadráticas conducen a menudo
a la tarea de encontrar valores extremos -máximos y mínimos- de una forma
cuadrática (x, Ax) sujeta a la condición (x, x) = 1. El problema estadístico del
ejemplo 10.4, por ejemplo, necesitaba de esamaximización para determinar una
nueva variable que contuviera todo
lo posiblede la variancia de un experimento.
La diagonalización de las formas cuadráticas simplificael estudio de estos
problemas de valores extremos.
(10.21)
Ejemplo. Encontrar elmáximo dela forma cuadrática diagonalizada:
460
10
I
Formas cuadrhticas y caracterizaciones variacionales de eigenvalore’s
o({)
en donde O < A, S h2.Las curvas de
nivel etde toda6que : atisface a
=
c son elipses (parat > O ) con ejes mayores a lo largo del eje de las C1, con
semiejes mayores iguales a (f/A,)1/2 y con semiejes menores iguales a
(t/Az)112. Esas elipses se “expanden” conforme t aumenta, y entonces f =
(j(6) es mayorcon (.$, 6) = 1 cuando circunscribe al círculo ( 6 , t )= 1 y es
tangente a é1 en el extremo de cada
semieje menor -esto es,cuando f = A,.
Aun singeometría, desde luego, es claro A,5:+A25:
que
es máxima cuando
t2se hace tan grande como seaposible (ya que O < A, S Az), y es claroque
+ t; = f ) dando Q(C) = Az.
esto ocurre cuando t2 = 1 (ya que
ct
*
c:
Es interesante observar que el mismo diagrama muestra que, si se
con el minimo (6, r),éste ocurre de nuevo, con un
busca el punto 6 en
círculo inscrito,tangente al extremo del semieje menor siendo (6,t)= l / A z .
Esos problemas dudes surgen generalmente en matemáticas, y en problemas de extremos especialmente. La solución de un problema particular
de m&imos es equivalente a la solución de un problema relacionado de
mínimos.
e({)
El hecho de queel eigenvalor mayor es igual al máximo de
sujeto a la
condición que (5, 6 ) = 1 se cumple más a menudo que sólo en el ejemplo 10.21.
Antes de demostrarlo, se introducirá un artificio que simplifica la condición.
EL cociente de Rayleigh
(10.22)
Teorema (problemas equivalentedeextremos).Suponga que A es hermitiana. Entoncesx. maximiza a (x, Ax)/(x, x)siempre que x # O y produce la
M máxima si y sólo si x, = xo/llx011, hace máxima a Q(x) con la condición
(x, x) = 1 y produce Q(x,) = M .
10.4
I Valoresextremos de formas cuadraticas: el principio de Rayleigh
461
DEMOSTRACION. (xo mix 3 x1 mix) Suponga que x. es como se afirmó y
definase a
x1 = xo/llxol12.
Para toda x tal que (x, x) = 1, se tiene que
y por lo tanto xl es como se afirmó.
(x, máx 3 x. máx) Suponga que x1 hace máxima a Q(x) la cual está
sujeta aque (x, x) = l . Sea x. = a x 1 , para una (Y # O real y arbitraria. Para
toda x diferente de cero,5 hace que (S, 5 ) = 1 cuando se define a x como
2 = x / I I x ~ ~ ~ , por lo tanto
Q(2) 5 M = Q(x&
pero
como (x1,xl) = 1, la desigualdad anterior viene a ser
y por lo tanto x. es como se afirmó.
m
Este teorema muestra que
es posible reemplazar lacondición (x, x) = 1por la
de x # O si se trabajacon el cociente especialQ(x)/(x, x) en lugar desolamente
*
(10.23)
Defmicidn. El cociente de Rayleigh de una matriz hermitiana A es la
función p A definida para x # O por
La diagonalización de Q por la sustitución de6 en lugar de x es igualmente
útil cuando se maneja el cocientede Rayleigh. Si se tiene en la nomenclaturadel
teorema clave 10.14, que
PHAP = A = diag(A,, . . . ,A,)
y
= P H x , x = PC
siendo P unitaria, entonces no solamente
Q(x) =
o(<),sino también (x,x) = (e, e)
Ya que P es unitaria.Como pA(x) = Q(x)/(x, x),esto demuestra que
pA(x) = pA(c).
462
10
/
(10.24)
Formas
cuadrAticas
y caracterlzaciones
variaclonales
de eigenvalores
Teorema (cociente de Rayleigh diagonalizado). Si A es hermitha, entonces pA(x)= p,,(c). en donde A y 5 son como en el teorema clave 10.14:
PHAP= A = diag(l,, . . , in), x = Pc,
,
y P es unitaria.
Ahora se demostrará que los eigenvalores extremos A, y A, resuelven problemas de valores extremos que involucran a p * ( ~ ) .
Problemas de valores extremos y eigenvalores extremos
(10.25)
DEMOSTRACION.
Por el teorema 10.24 es posible trabajar con la más fácil
p,(r) = pA(x).Ya que x = vi si y sólo si 6 = PHvi = ei, la i-ésima matriz
columna unitaria, sólo será necesario demostrar queA, 5 ph(r) 5 A,, que e,
minimiza a p,(() con p,,(e,) = A,, quee, maximizaa p,,(t) con pA(e,) = ?>,.
a) Esto es consecuencia inmediata de b) y c) siguientes.
b) Es claro que p,,(e,) = A,l2/l2 = A,, entonces pA(e,)= A,; por lo tanto,
pA(v1)= A,. También
+ 41t*12+ . . . + ~,15,12))/(jtl/2+ . . + It,(*)
I(&1L12
+ &lL12 + . + ~,~tpl2))/(~t1l2
+ . . + /5,1*)
%I =
(l&12
’
‘
’
’
= P*(C)
siendo válida la igualdadsi y sólo si ti= O para toda i parala cual Ai > A,
-esto es, si y sólo si A[ = Alt. Reemplazando 5 por PHxse completa la
demostración de b).
c) es consecuencia de aplicar b) a -A (véase el problema 3).
(10.26)
Corolario (matriz de norma2). Para cualquier matriz A , p X q , la matriz de
norma 2 es igual al mayor valor singular de A: \\All2= cr,.
10.4
I Valoresextremos de formas cuadrAticas: el principio de Rayleigh
463
DEMOSTRACION
= máx
(x, AHAx)
(Ax, '4x1
= máx
(x9 x)
(x, x)
~
= A,,
el mayor eigenvalor de la matriz hermitiana AHA. Pero m1 se define por
0: = 1,.
m
Como pA(x) = Al si y sólo si x es un eigenvector de A asociado con A,, es
posible esperar razonablemente quepA(x)esté cercano aAl cuando x esté cerca
de un eigenvector asociado con A,. Esto también debería valer para otros
eigenvalores, porque
si vi,es un eigenvector asociado con Ai. Suponga que x = vi + E ; entonces un
cálculo directo demuestra que
y en particular desde luego que setiene una cota inferior garantizada pA(x) para
A,. De modo semejante pA(x) es una cota superior para A,, y
En problemas de vibración, el menor eigenvalor corresponde a la menor
frecuencia naturaldel sistema vibratorio,y a menudo es posible, con fundamentos físicos,adivinar la forma de esavibración y por lo tanto obtenerinformación
que permita una aproximación burda av,; el análisis anterior demuestra que esta
burda aproximación a v1 puede de hecho producir una buena estimación de Al;
véase también el problema 1 de la sección 10.5
464
10
(10.27)
I
Formas cuadraticas y caracterizaciones variacionales de eigenvalores
Ejemplo. La matriz A siguiente se produjo en un problema de vibración en
el cual, con fundamentos físicos, se puede esperar razonablemente que el
eigenvector vl, asociado con el menor eigenvalor Al, tenga elementos no
negativos.
A=
r 1.7
-1
-1
1 0
-1
01
"1
2
(Partiendo del teorema del círculo de Gerschgorin y de la simetría de A, es
posible ver que los eigenvalores de A son nonegativos. El problema 14 de la
sección 9.4 muestra que existeA" y es no negativa, y entonces el teorema
v1 es positivo. De este modo, las
de Perron-Frobenius afirma que en efecto
bases físicas tienen fundamentos teóricos sólidos .) Toda x da un p A ( x )que
es una cota superior de Al; por ejemplo,
pA([ 1
1 11') = 0.57
debe sermayor o igual a Al. El cálculo exacto muestra quede hecho, Al =
0.5 y que [ 1.O 1.2 O.8lT es un eigenvector asociado, de modo que pA(x)
fue diferente de A, por sólo 0.07.
Ahora podrá resolver los problemas del 1 al 5 .
Problemas de valores extremos y eigenvalores intermedios
El ejemplo 10.4 introdujo una formacuadráticacuyo vector que lahace máximaa
(sujeto a que llallz = 1) produce una nueva variable y 1 = alx, + * . + a g x ,en un
problema estadístico; esta nueva variable explica la mayor parte de la varianza
experimental y se le llama la primera componente principal de la matriz de
covarianza S que define la forma cuadrática @a) = (a, Sa). Se sabe que esta a
maximiza a ps(a) sujeta a a # O y de hecho será un eigenvector de S asociado con
el mayor eigenvalor de S.
Si la nueva variable y1 no representa adecuadamente la varianza total V , el
perito en estadística podrá buscar una segunda componente principal
y, = b , x ,
+ . . . + bdcp
que sea estadísticamente independiente de lanueva variable y1 que yase encontró; sesabe en estadística queesta independencia estadística es equivalente a la
condición de ortogonalidad (a, b) = O . Así, se busca a b para hacer máximo a
ps(b) sujeta tanto a b # O como a (a , b) = O , en donde a es la solución dada al
problema original de maximizar a pda) con la condición a # O.
10.4
I
Valoresextremos de formas cuadraticas: el principio de Rayleigh
465
El problema anterior es sólo un caso de la forma
en que surgen tales
problemas de valores extremos en las aplicaciones en estadística.El problema
general es maximizar a pA(x)sujeta a las condiciones
x #O
(x,vp) = o,
Y
en donde v, es un eigenvector asociadocon elmayor eigenvalor A, de A y por ello
maximiza apA(x)sujeta sólo a x # O. Resulta que una solución a este problema es
v,-~, un eigenvector asociadocon el segundo eigenvalor mayor A,-l; éste, a su
vez, conduce al siguiente problema de valores extremos: el maximizar a pA(x)
sujeto a
x #
o,
(x, vp) =
o,
y
(x, vp- 1) =
o.
El siguiente teorema clásico caracteriza las
soluciones de todos esosproblemas
en términos del eigensistema de A.
(10.28)
DEMOSTRACION.
Como de costumbre, se trabajará
donde
PHAP = A = diag(I,, . . . , E,,),
con p,(<) = pA(x), en
466
10
/
Formas cuadraticas y caracterizaciones variacionales de eigenvalores
P = [vl * -
v,] es unitaria,y x = Pe,6 = PHx.Recuerde que x = vi si y sólo
si 4' = ei; de este modo la condición (x,vi) = O es equivalente a (8, ei) = O
-esto es, a que ti= O.
a) Es claro que x está en Tj si y sólo si 4 = PHx está en Fj, el conjunto de
todaslas
# O tales que t1= t2 = . . = ti = O . Paraestas 6 , un
argumento como el de la demostración de b) en el teorema clave 10.25
muestra fácilmente que p,(<) satisface a p,,(<) 2 Ai+] y p,(<) =
si y
sólo si (, = O para toda r tal que A, > A,,. Sustituyendo 6 = PHx se
completa la demostración de a).
b) es consecuencia de aplicar a) a -A -problema 8.
(10.29)
Ejemplo. Suponga que la matriz S de covarianza en un experimento (véase
ejemplo 10.4) con tres variables x], x2, xBes
bo; ;:;
0.4
S=
0.1
y
;
se buscauna nueva variable cuyavarianza sea igual a, cuando menos,el
55% de la varianza total
V = 0.4 + 0.3 + 0.3 = 1.0.
De acuerdo con el ejemplo 10.4 y con lo visto anteriormente, se tomará
Y, = a1x1 + %.x2 + a3x3,
en donde a hace máximo a pda) para a # O -esto es,
a=
[l
1
1]T
J5
7
un eigenvector normalizado asociado con el mayor
eigenvalor A, = 0.6 de
S. También, p&a) = 1, = 0.6 > 55% x I .O, de modo que la primera com-
ponente principal
Y1 =
x1
+ x2 + x3
J5
es suficiente. Si se hubieraquerido explicar,digamos el 80% de la varianza
total V , y , hubiera sido inadecuada y se hubierabuscadoa b para maximizar
a ps(b) sujeta a b # O y (b, a) = O . Esto es, b hubiera sido el eigenvector
b=
[2
-1
&
-1y
10.4
I Valoresextremos de formas cuadrhticas:elprincipio
467
de Rayleigh
asociado con el segundo eigenvalor mayor Az = 0.3. Lacomponente principal
2x, - x2 - x3
Y2 =
&
explica un ps(b) = 0.3 adicional de la varianza, dando un total de
0.6
+ 0.3 > 80% x 1.0,
de modo que los dos componentes principales son suficientes.
PROBLEMAS 10.4
D 1. Utilice a pApara encontrar cotas inferiores para el mayor
eigenvalor y cotas
superiores para el menor eigenvalor de
o
-1
o'
O
1
0
D 2. Un eigenvector asociadocon el menoreigenvalor de la siguiente matriz tiene
la forma x, = [1 OL 11.' Encuentre elvalor exacto de OL definiendo lafunción
f(a) = pA(x,) y haciéndola mínima por medio del cálculo diferencial.
[- A -:-!]
3
A=
-1
3. Demuestre el teorema clave 10.25 c) aplicando b) a -A.
4. Suponga que A es hermitiana y positiva definida. Demuestre que x* hace
máxima a Q(x) = (x, Ax) sujeta a la condición (x, x) = 1 si y sólo si ax* hace mínima a (x, x) sujeta a la condición Q(x) = 1, en donde a = l/(x* ,
D 5. Para cada una de las siguientes matrices A, utilice pA para obtener cotas
-:]
inferiores al mayor eigenvalor y cotas superiores al menor eigenvalor.
a) 1 - 13
o
- 12
-1
6. Mediante v, = [ 1 - 1
7
-16
b) 1-1:
7
-
8
2
-8
81
-5
-1
c) 1 - 1
3
o
-1
-!]
- 13' como un eigenvector asociado con el mayor
eigenvalor A, de la matriz A del problema 1, utilice pA para obtener cotas
inferiores del segundo eigenvalor mayor Az.
468
10
/
Formas cuadraticas y caracterizaciones variacionales de eigenvaiores
D 7 . Mediante v1 = [1 2 - 1IT como un eigenvector asociadoal menor eigenvalor A, de la matriz A del problema 1, utilice a p Apara obtener cotas superiores
al segundo eigenvalor menor X2.
8. Demuestre el teorema clave 10.28 b) aplicando a) a -A.
9. Apegándose al ejemplo 10.29, suponga que la matriz S de covarianza deun
experimento con tres variables xl, x2 y x3 es
encuentre los componentes principales que ejemplifiquen a) el 80%, y b) el
95% de la varianza total de 1.6.
D 10. Para cada una de las tres matrices del problema 5 a), b) y c), utilice los
eigenvectores v1 y v 3siguientes como asociados conel menor eigenvalor Al y
el mayor eigenvalor X, respectivamente, para obtener cotas superiores e
inferiores al eigenvalor intermedio X:,
a) v1 = [I
b) v1 = [l
c) v1 = [l
10.5
2 lIT, v 3 = [I - 1
1 O],'
v3 = [-2 2
1 l]T, v3 = [l -2
1IT
11'
13'
VALORESEXTREMOS DE FORMAS CUADRATICAS:
E L PRINCIPIO DE MINIMAX
El principio de Rayleigh en lasección anterior caracteriza a cada eigenvalor
ya
A hermitiana p X p en términos deun problema
cada eigenvector de una matriz
de valores extremos. Observe, sin embargo, que esta caracterización de los
eigenvalores/eigenvectores que no sean los mayoresni los menores, necesitael
conocimiento de eigenvectores adicionalesal que se está caracterizando; para
caracterizar o estimar a Xj para 1 < j < p son necesarios los eigenvectores
V j + l , . . . , v, o los eigenvectores vl, . . . , v + ~ .El objeto de esta sección es
presentar una caracterización que permita la estimación de cada eigenvalor
enteramente independientemente del resto del eigensistema.
El segundo eigenvalor mayor
Se considerará primero, por facilidad, a Xp"l,
mayores
i1
I A, I . * .I R , -
el segundo de los eigenvalores
A,.
1 I
10.5
/
Valoresextremos de formas cuadrgticas:elprincipio
de minimax
409
Recuerde queel cociente deRayleigh pAsatisface pA(x)5 X, dándose la igualdad
cuando x es un eigenvector asociadocon X., Suponga ahora que se restringex a
para que quede en
el plano (c, x) = O para una c fija arbitraria; estalimitación es
del tipo que se
usa para caracterizar aX-l, en elprincipio de Rayleigh; sic = v,,
entonces la M(c) máxima de pA(x)en este plano es igual a
y ocurre cuando x
= v,-~: M(v,) =
¿Qué pasará, sin embargo, si c no es unmúltiplo de v,?
Se dice que
M(c), el máximo de pA(x)cuando x varía sujeto a estarelen
plano
m, de las x que satisfacen(c, x) = O para una c fija dada, siempre satisfaceM(c)
a 2
X,-1. Como M(c) es el múximo de pAcuando x varía, para demostrar queM(c)
IXPwl sóloesnecesarioproducir
una x. en T, que tenga pA(xo)I
Para
hacerlo, se considerarán tres casos: v,es
a) ortogonal ac; b) vpPl es ortogonal a
c y c) ni v, ni vPpl son ortogonales a c.
Si v, es ortogonal a c, entonces x. = v, está en 7 r c , y
PA(XO) = PA(vp)
= I p 2 Ap- 1,
como se afirmó.
Si vPFl es ortogonal a c, entonces x. = vPp1 está en 7rcl de modo que
PA(xO) = PA(vp- 1) = l p - 1,
como se afirmó.
Si ni v, ni vpPl son ortogonales a c, entonces se define
x. = vp- - avp siendo a =
(c, v p - 1)
# o;
(c, vp)
~
esto hace a (c, xo) = O y a x, # O. El cálculo directo da
como se afirmó.
por lo anterior M(c) L Xpp1 para toda c.
El siguiente paso es minimizar a M(c) entre todoslos vectores cposibles. Se
sabe ya que M(c) 2
para toda c. Si se toma a v, como c, entonces M(v,) =
ApPl como ya se hizo notar. En otras palabras,
Ap-
= mín M(c)
cuandoc vana
Recordando la definición de M(c), resulta
(10.30)
Ap-1
-
mín
mix
c
(c,x)=O
pA(x).
470
I
IO
Formas
cuadrdticas
y caracterizaciones
variacionales
de eigenvalores
El hecho importante de (10.30) es que caracteriza a App1 sin referirse al resto del
eigensistema de A.
(10.31)
Ejemplo. La matriz S, 3 x 3 del ejemplo 10.29 tiene elementosestrictamente positivos y es irreducible, por lo tanto, el teorema de PerronFrobenius (9.34) dice que el mayor(en este caso elmayor en magnitud así
como el mayor incluyendo el signo) eigenvalor X, es positivo y tiene un
eigenvector asociado de elementos estrictamente positivos. Suponga que
se deseainformación de X2 y no de As; se sabe quehz = mín M(c),en donde
M(c)es el máximo de ps(x) sujeto a que
(c, x) = O. Si por ejemplo se hace c =
[l O 1IT, entonces x se restringe a la forma [a p --alTde la cual
+
(0.5~~' 0.3p' - 0.2~rp)
PS(X) =
(2aZ
+ p')
3
si esto se maximiza en términos de a y de p, se encuentra que
M([1
O
11') = 0.35.
Como h2 = mín M(c),entonces h2I0.35 como un cálculo aproximado y una
cota para h2. De hecho, h2 = 0.3.
El principio de minimax en general
Lo anterior solamente trató la caracterización de
jante.
(10.32)
El caso general es seme-
10.5
I
‘Valoresextremos de formas cuadraticas: el principio de minimax
DEMOSTRACION.
=
Como de costumbre, se diagonaliza y se trabajará con
PA(X) Y
e(.>,Y PA(^) =
471
o({)
PHAP= A = diag(Al, . . . , Ap),
P = [Y1 . .
v,]
unitaria, PC= x,
y
5 = pHx.
Ya queP es unitaria, lacondición ( c i , x) = O es equivalente ala condición
(Ei,r) = O con ti= PHci.
a) La demostración sigue a la que condujo a (10.30) para ApPl.Para cualquier conjunto E , , . . . ,Sr, denotemos f i C al conjunto de todas las
[ que
satisfacen a (Ei,5) = O para 1 5 i Ir y denotemos M ( c ) al máximo de las
ph(C) conforme 5 varía en a,,donde las ti = PHci son fijas. Quedaría
demostrado si se puede demostrar que el mínimode M ( c ) de entre todas
las elecciones posibles de las Zi = PHci es igual a Ap-,.. Primero se
ya que M ( c ) es el múximo de p,(<) con 6 en
demostrará que M ( c ) 2
para hacerlo sólo es necesario encontrara 6 en
con p,,({) z AP-,.,
lo cual se hará a continuación.Se afirmó que hay una6 en 0, tal que 5 =
*
= (p-r-l = O ; ya que estar en I
I,es equivalente a satisfacer r
ecuaciones homogéneas en lasr + 1variables restantes tp-,.,. . . ,5,; el
tener más incógnitas que ecuaciones homogéneassignificaquehay
algunas variables no delanteras y por lo tanto algunas soluciones diferentes de cero. Paracualquierade estas soluciones diferentes de cero, se
tendrá que
a,,
-
a,
=e
2 Ap-n
en donde la desigualdad final es consecuencia de reemplazar cada Ai
para i 2 p - r por la hp-,. que es más pequeña. Esto completa el
Tomando a Ei = ep-i+lpara 1 I:i 5 r , se
argumento de que M ( c ) 2
forza a que
tp-r+l
--. . . _- t p = 0
y, con elprincipio de Rayleigh, se obtiene M ( c ) = Ap-,.. Así, Ap-r es igual
al mínimode M ( c ) ,como se afirmó, completando lademostración dea).
b) Es consecuencia de aplicar a) a -A -problema 2. m
Ahora podrá resolver los problemas del 1 al 5 .
472
/
10
Formascuadrhticas
y caracterizacionesvariacionales
de eigenvalores
Comparación de eigenvalores de distintas matrices
La caracterización minimax de eigenvalores, independientemente del resto del
eigensistema, conduce a un resultado fundamental sobre la relación de eigenvalores de distintas matrices; este resultado proporciona información sobre la
forma en que cambian las frecuencias de un sistema vibratorio cuando cambian
los parámetros del sistema -por ejemplo, es posible concluir matemáticamente
que el tono de una cuerda deguitarra sube cuando la cuerda se pone tensa.
(10.33)
Teorema (comparación de eigenvalores). Suponga que las matrices hermi, y sean A,
tianas p x p , A y B, satisfacen (x, AX) I(x, Bx) para toda x
5 .
S Ap y p1I
. Ipplos eigenvalores de A y de B respectivamente.
p.
Entonces Ai Ipi para toda 1 S i I
-
DEMOSTRACION. Claramente, pA(x) IpB(x) para toda x. Por lo tanto, el
máximo de pA(x)con x restringida a cualquier conjunto I I , es menor o igual
al máximo de pB(x) estando x restringida al mismo conjunto. De modo
semejante, el mínimo de esos máximos será menor para A que para B a
medida que M varía. Esto es,
máx
min
pA(x) S máx
mín
pB(x).
C l ,..., cr
(ci,x)=o
Cl.
..., cr
(ci,x)=o
El término del lado izquierdo de arriba es igual a Ap-r, mientras que el del
lado derecho es igual a pD-,.
(10.34)
Ejemplo. En la sección 8.1 se demostró que las frecuencias fundamentales
4 2 7 r de las masas oscilantes del ejemplo de la sección 2.5 se pueden
obtener de o2= A, en donde A es cualquier eigenvalor de
B=D"KD"
y
D2=M
con M y K como en(2.29). El teorema de arriba se puede usar para ver la
forma en que varían estas frecuencias con los parámetros del modelo;
k , para el primer resorte
suponga, porejemplo, que la constante de resorte
del modelo aumenta dek , a k; = k , + k . Entonces lamatriz cambia de B a B':
Se ve claramente que la forma cuadrática para B' es mayor que la correspondiente para B en (k/m,)xl. De acuerdo al teorema de comparación de
eigenvalores, los de B' son mayores que los de B. Esto es,las frecuencias
10.5
I
Valores extremos de formas cuadrc'itticas: elprincipio de minimax
473
naturales de las
masas oscilantes aumentansi el primer resorte sehace más
rígido.
PROBLEMAS 10.5
D 1. Utilice el principio de minimax para obtener una
cota superior para el
segundo eigenvalor mayor A, de laAsiguiente, si el mayor eigenvalor h4tiene
un eigenvector asociado con elementos estrictamente
positivos (por el teorema de Perron-Frobenius).
1
A=[:
4 4 /l.
3
1
2
2. Demuestre el teorema clave 10.32 b) aplicando a) a -A.
3. Utilice c = [l 1 1]* en el principio de minimax para obtener una cota
superior del segundo eigenvalor mayor de la matriz A del ejemplo 10.29.
D 4. Haga lo que se pidió en el problema 3, pero utilice c = [ 1 2 3]*.
5. Con [ 1 1 - 1]*como aproximación a vl, y [ 1 O OITcomo aproximación
a vg, con el principio de minimax (y máx-mín) obtenga cotas superiores e
1 de la sección
inferiores para el
eigenvalor central de la matriz del problema
10.4,
6. Como en el ejemplo 10.34, determine lo
que pasa con las frecuencias en el
sistemade masas oscilantescuando aumenta la segundaconstante de resorte k,.
D 7. Sin encontrar los eigenvalores XI IA , 5 X, de A, o p1 Ip, 5 p, de B,
demuestre que Xi Ipi para i = 1, 2, 3 , si
A=[::
23
- 12 1
2
-5
y
B=[-i 2
3
:].
-2
W 8. Utilice MATLAB o algún software semejante para encontrarlos eigenvalores en el problema 7 y comprobar lo que allí se afirmó.
9. Demuestre que cada uno de los eigenvalores de una matriz hermitiana no
decrece a medida que aumentan los elementos
en la diagonal principal de la
matriz.
D 10. Para cadauno de los cuatro eigenvalores de la matriz
A siguiente, encuentre
un intervalo en el cual debe estar el eigenvalor, haciendo uso del hecho de
E siguiente son (aproximadamente) k0.3 y
que los eigenvalores de la matriz
k0.8:
474
10
/
Formas cuadraticas y caracterizaciones variacionales de eigenvalores
im 11. Utilice MATLAB o algún software afín para comprobar que los intervalos
que seencontraron en el problema 10 contienen en realidad a los eigenvalores de A.
12. Con las hipótesis del teorema 10.33, utilice elprincipio de Rayleighen lugar
del principio de minimax, para demostrar que X, 5 p , , y que Xp I: pp,y
explique por qué no sepuede usar el principio de Rayleigh para demostrar
los resultados parecidos para los eigenvalores intermedios hiy pi.
10.6 PROBLEMASVARlOS
PROBLEMAS 70.6
1. Considere una curva (una sección cónica) definida por una función cuadrática que incluye términos lineales y constantes: .
ax:
+ 2 k x l x 2 + bx: + 2cx, + 2dx2 + e = O.
a) Demuestre que la sustitución de x1 = q1 + xl0,xz = q z + xzocambia esta
ecuación a
en donde
+ kx,, + c,
C = axlO
D = k x , , + bx,, + d,
y en donde se debe determinar a E .
b) Demuestre que ya sea ab - k2 # O , o bien a b - k2 = O con ad = bc,
entonces xl0y xzose pueden escoger detal modo que se anulen todos los
términos de primer grado y sólo quede
aq:
+ 2 k ~ / , r+/ ~bq: + E = O,
cuya gráfica se puede analizar por el método de la sección 10.2.
c) Demuestre que,si a # O y a b = k2 y ad # bc, entonces sepuede escoger a
xl0 y a xz0de tal modo que la ecuación sea
10.6
I Problemas varios
475
d) Demuestre que esta última ecuación se puede reducir por un cambio
posterior de variables a al: + 2y5, = f,la ecuación de una parábola.
D 2. Utilice el problema 1 para analizar la naturaleza de las curvas definidas
por
las ecuaciones siguientes, y haga un esquema de las curvas:
+
a) 5x: - 8 ~ 1 x 2+ 5x: - 18x, + 18x2 8 = O
b) 9 ~ : 1 2 ~ ~ x+24 ~ : 42x1 - 2x2 + 7 = O
3. En algunas aplicaciones, es importante encontrar una sola matriz S no
singular tal que P A S y SHBS sean ambas diagonales, dadas A y B, p X p .
Suponga que A y B son hermitianas y que B es positiva definida.
a) Demuestre que existe una matriz P unitaria y
D = diag(d,, . . . , d p )
con todas las di > O, tal que
B = (PD)(PD)H= PD2PH
y
Q"BQ = I,
en donde Q = PD".
b) Demuestre que existe una matriz R unitaria tal que
RH(QHAQ)R= A diagonal.
c) Sea S = QR; demuestre que
SHAS= A mientrasque
SHBS = I,
que era lo que se deseaba.
4. En el problema 3 , sea
S = [sl . . . sp]
y
A = diag(ll,, . . . , Ap).
Demuestre queXi y si resuelven el problema del eigenvalor generalizado
Asi
= X$S~.
5. Como en el problema 3, reduzca simultáneamente a A y B a una forma
diagonal, siendo
D 6. Suponga que A es p x p , hermitiana y positiva definida y que B es p X q.
a) Demuestre que A' = BHAB es positiva semidefinida.
b) Demuestre queA' es positivadefinida si y sólo si el rango de B es igual a q .
7. Demuestre que toda submatrizprincipal de una matriz hermitiana positiva
definida es hermitiana y positiva definida.
476
10
I
Formas cuadrAticas y caracterizaciones variacionales de eigenvalores
O 8. Suponga que A, B y C sonp X p , hermitianas y positivas definidas. Demuestre que si
det (A + AB + A2C)= O,
entonces la parte real de A es negativa.
D 9. Suponga que A y B son p X p y hermitianas, y que B es positiva definida.
Demuestre que los eigenvalores de BA son reales.
D 10. Suponga que B y C son p X p y hermitianas, que B es positiva definida y que
C es positiva semidefinida. Demuestre que:
a) B + C es positiva definida.
b) det B 5 det(B + C).
c) B-' - (B + C)-l es positiva semidefinida.
11. Encuentre una forma cuadrática diagonal Q(t)= Q(x) para cada una de las
siguientes formas cuadráticas Q ( x ) y haga un esquema delas superficies de
= 1.
nivel
a) 5xT
b) 3x;
C)
+ 6x2 + 7x:
-
4x1x2 - 4X2X3
+ 2x2 + 2x: + 2x,x, + 4x,x3 + 2x3x,
X: + X: + X: + 4XlX2 + 4X2X3 + 4X3Xl
D 12. a) Si A es p x p , hermitiana y positiva definida, demuestre que
det A 5 a11a22. . . a,,,
en donde aii = ( A ) i i .
b) Si B es p X p con (B), = b,, demuestre que
A esto se le conoce comola desigualdad de Hadamard.
El valor absoluto
del determinante de una matriz se puede interpretar como el volumen, en
el espacio dep dimensiones, de sólido cuyas aristas sedescriben por los
vectores renglón que forman los renglones de la matriz. Entonces, la
desigualdad de Hadamard dice que estevolumen es menor, o igual al del
sólido rectangular en p dimensiones cuyos lados tienen las mismas longitudes. Compruebe esto parap = 2, 3, mediante sus conocimientos de la
geometría de paralelogramos y paralelepípedos en dos y tres dimensiones. ¿Bajo qué condiciones se alcanza la igualdad en la desigualdad de
Hadamard? Dé una demostración independiente de la igualdad en este
caso. Demuestre que si b = máx Ibul, entonces
ldet B1 I hpppi2.
13. Demuestre que x(t) tiende a cero cuandot tiende a más infinito si x = Ax y A
es negativa definida.
10.6
I Problemas
varios
477
D 14. Se dice que A es idempotente si A2 = A. Demuestre que:
a) Todo eigenvalor de una matriz idempotente es o O o 1.
b) La única matriz idempotente no singular es la matriz idéntica.
una matriz hermitiana p x
c) Una condición necesaria y suficiente para que
p , sea idempotente, es que
k de sus eigenvalores sean
iguales a 1,y que los
restantes p - k sean cero, en donde k es el rango de la matriz.
d) La traza deuna matriz hermitiana idempotente es igual a su rango.
15. Suponga que se representann mediciones por un vector x = [x1, . . . , x,IT.
El promedio y la varianza de las mediciones están dados por
Demuestre que
S'
= (x, (I - n- J}x),
en donde J es una matriz cuadrada con todos sus elementos iguales a 1, y
demuestre que I - n"J es idempotente (véaseel problema 14). (La aplicación de matrices idempotentes aparece en estadísticay en teoría de regresión.)
16. Extienda el teorema 10.19 b) sobre definición y eliminación demostrando
que, para una matriz real simétrica, los números de pivotes positivos,
negativos y cero, sonigualesalosnúmerosdeeigenvalorespositivos, negativos y cero.
D 17. Demuestre que:
a) Si A es hermitiana y positiva definida, entonces hay una B hermitiana y
positiva definida tal que B2 = A.
b) Si A es hermitiana y positiva semidefinida, entonces hay una matriz B
hermitiana y positiva semidefinida tal que Bz = A.
c) B es única tanto en a) como en b).
D 18. Demuestre que:
a) {exp(B)}H= exp(BH).
b) exp(c'A) es unitaria si A es hermitiana.
c) Si U es unitaria, entonces existeuna A hermitiana tal que U = exp(iA).
d) Si A es cuadrada, entonces existen unas matrices hermitianas M y N
positivas semidefinidas y unas U y V unitarias tales que A = UM = NV.
{Se conoce a la parte d) como la representacibn polarde A por analogía
con a = r exp(i0) para cada número complejo a. M y N son únicas; si A es
no singular, entonces U = V y esta matriz también es única.}
19. Suponga que A p X p , es hermitiana, que Bes la matriz real formada de las
partes reales de los elementos de A, y que ;C es la matriz imaginaria pura
formada con las partes
imaginarias de los elementos deA -esto es,A = B +
;C. Definiendo a la matriz a2 2p X 2 p , como
478
IO
I
Formas
cuadraticas
y caracterizaciones
variacionales
de eigenvalores
a) Demuestre que d es simétrica real.
b) Demuestre que la forma cuadrática generada por A en CP y la forma
cuadrática generadapor d e n RZpson equivalentesen el sentido de que,
estando u y v en W,
({U
+ i ~ A{u
} , + i v ) ) = (X, d ~ )
si X = [U'
vTIT.
c) Describa cómo se podría usar esto para encontrar los eigenvalores y
eigenvectores dela matriz compleja hermitiana A sin hacer cálculoscon
números complejos.
20. El principio de Rayleigh se enuncia para matrices A hermitianas.
a) Demuestre que es falso si a # O en la matriz no hermitiana.
b) Aunque son idénticas sus formas cuadráticasen R2,demuestre que A y
(A + AT)/2 no tienen los mismos eigenvalores.
21. Suponga que A y B son hermitianas y que B es positiva definida. Sedefine a
BPA(X) =
(x, Ax)
~
(x, Bx)'
Extienda el principio de Rayleigh para que seaplique a estageneralización
del cociente de Rayleigh, en donde ahora los eigenvalores caracterizados
son eigenvalores generalizadosXi siendo Avi = XiBvi (véanse los problemas 3
Y 4).
22. Suponga que A es hermitiana; demuestre que
la norma 2 de A es igual al radio
espectral de A.
Programación lineal
En este capítulo se aplican Btodos
m
matriciales a la solucidn de programas
lineales, una de las mayores Breas en donde las matrices se usan tantoen
los negocios como en la ciencia y la ingeniería. Se presenta informacidn
sobre teoría y mBtodos, incluyendo
el famoso mBtodo simplex
ysu reciente
variantedeKarmarkar. Son fundamentales los teoremas clave 11.37,
I 1 .44, 1 I .50 y 1 1.53.
11.1
ANALISIS DE UN EJEMPLO SENCILLO
En una amplia variedad de operaciones económicas, políticas, sociales
y científicas, se originan situaciones en las cuales uno quiere minimizar o maximizar
alguna cantidad que mida la eficiencia o algún otro aspecto importante de una
actividad, producción, costo,ganancia y similares. Muchos de los problemas de
optimización de este tipo se llaman problemas de programación matemúticao
programasmaremúticos. Este capítulo examina una subclase especial pero
importante deprogramas matemáticos que sólo involucran ecuaciones lineales y
desigualdades; la sección comienza
con un problema modelo de la sección
2.7.
Un problema modelo
Recuerde el modelode planeación de producción de la sección 2.7 y su problema
sobre la distribución de los recursos de una planta (tiempo disponible limitado
para tres tipos demáquinas) entre dos productos para
maximizar las utilidades.
El análisis produjo un programa lineal (2.54), (2.55):
(11.1)
maximizar M = 40x, + 60x,
sujeta a las restricciones
2x,
+ x2 5 70
479
480
11
I Programaci6n lineal
x1
+
x2 I 40
x1 + 3x2 I 90
X1
2 0
x2 2
o.
Esto se reescribió en notación matricial como (2.56), (2.57) y (2.58):
(11.2)
maximizar a M = cTx
sujeto a las restricciones
Ax S b, x 2 O, en donde
La solución óptima x = [15 25IT se obtuvo geométricamente en (2.59) al
examinar el conjunto de restricciones
(aquellas x que satisfacen las restricciones)
y al observar queel problema era el encontrar el valor mayorde M para el cual la
gráfica de la línea recta cTx = M intersectaba al conjunto de restricciones.
t
(11.3)
40x1
+ 60x2 = 2400
40x1 + 60x2 = I200
40x1 + 60x2 = O
o, B, 9, y Y son vértices relevantes para el método simplex; %”
aparece en el método de Karmarkar.
1
2
,
Geométricamente, es evidente que las soluciones siempre estarán en 10s
vértices del conjunto de restri&iones sin importar el valor de C: el últimoPunto
en el cual la gráfica de cTx = M se intersecta con el conjunto de restricciones
11.1
I AnBlisis de un ejemplo sencillo
481
siempre será un vértice. De este modo, un método
posible parala resolución de
programas lineales es simplemente evaluar a cTx en cada uno de los vértices,
sabiendo quelos vértices que danlos valores más grandes proporcionaran una
solucidn. Pero de estoresultan cuandomenos dos problemas: 1) puede suceder
que cTx se haga arbitrariamente grande y siga satisfaciendo las restricciones, de
modo que no se pueda detectar una solución;
y 2) cuando segeneraliza a partir
de dos variables hasta q , el número devértices crece rápidamentecon elnúmero de variables y de restricciones, resultando demasiado caro computacionalmente el examen extenso de los vértices.
El famoso método simplex* usa la idea básica de examinar los vértices pero
trata las dos
dificultades anteriores mediante l), la implementación de un método
garantizado para detectar la falta
de cotas, y 2), al evitar el examen de vértices
con valores de cTx menores que los que ya sehan encontrado. De este modo,
mientras que el método aleatorio anterior probaría a los
todos
cinco vértices O,
Y, 9,8,y 9 en (11.3),el método simplex, comenzando
en O ,examinaría a O,
9,y 8 en orden, o a O, 9,
9, y 8 en orden antes de detectar que B es la
y 8.
solución; de hecho, usa el primer camino, O, 9,
Durante aproximadamente 40 años, el método simplex fue, sin duda, el
método a escoger para resolver programas lineales. Esto cambió dramáticamente a mediados de los ochentas con la sorprendenteinvención del método de
Karmarkar y otros métodos interiores que se derivaron deél. Al tiempo de esta
publicación, se ha dicho que ciertas ejecuciones cuidadosas del método de
Karmarkar y de sus métodos derivados son varias veces más rápidas que el
método simplex en cuanto a clases especiales de problemas altamente estructurudos. En todo el mundo se está realizando la investigación sobre esos métodos
interiores asícomo la prueba de sus implementaciones; lo que se aprendade este
trabajo puede cambiar totalmente este capítulo parapróxima
la
edición. Por lo
pronto, sólo se intentará indicar lo que involucran los nuevos métodos. La
diferencia básica con lo que hasta ahora se ha descrito es que los métodos
interiores no consideran simplemente a los vértices si se mueven de uno a otro a
lo largo de las aristas; en vezde ello, semueven a travésdel interior del conjunto
de restricciones como se ilustrará después en esta sección.
lntroduccidn de variables de holgura
Antes de mostrar el método
simplex y los métodos interiores, se transformará al
programa lineal en unaforma más accesible parasu solución mediante métodos
matriciales. La mayor parte de lo que se ha tratado en este libro involucra
igualdades más que desigualdades del tipo de(1 1.2);las poderosas herramientas
computacionales -operaciones de renglón, eliminación, sustituciones y otras
se reformuafines- se han desarrollado paralas ecuaciones. Para aprovecharlas,
lará elprograma lineal (1 1.2) de tal modo que aparezcan igualdades con excepción de las desigualdades extremadamentesencillas x 2 O.
*También llamado “de Dantzig”, N. del T.
482
11
I
Programaci6n lineal
AI introducir variables de holgurano negativas x 3 , x 4 , en
x 5las primeras tres
desigualdades de ( 1 l . I), se llega a
maximizar M = 40x1 + 60x,
(1 1.4)
sujeta a las restricciones
2x1
+ x2 + x j
x1 + x2
= 70
+ x4
+ 3x2
X1
= 40
+ x5 = 90
( j = 1,2, . . . )5).
xj20
El hecho de que x 3 , x4 y x 5 sean no negativas hace que (1 1.4) sea equivalente a
(1 l . 1). En notación matricial, las matrices A, x y c se extienden para dar cabida
a cinco xi:
(1 1.5)
maximizar M = c,Tx,
sujeta a las restricciones
Aexe = b, x, 2 O , en donde
A,=
I
2
1
1
x, = [XI
1
1
3
x2
1
0
O
0
x3
x4
0
O
1
1
0
%IT>
y
b = [70 40
90IT.
Los vértices 0, Y, 9,.
9,y B;son puntos importantes en la formulación
original; estos puntossiguen siendo importantesy se identifican fácilmente en la
nueva disposición. Los valores x i para cada punto son:
O:O, O,
70,
40,
90
Y: 35, O,
9: 10,
30,
O,
O,
30
9:15,
25,
15,
3: O,
30, 40,
O, 555,
O. O,
10, O
Observe que cada vkrtice corresponde a una x , quetiene exactamente dos
elementos cero y exactamente tres elementos diferentes de cero. Las variables
diferentes de cero en esa solución se llaman variables búsicas,las variables cero
se llaman variables no búsicas, y a la misma solución x, se le llama unasolución
bcisica. Las soluciones a Aexe = b que también satisfacen x, 2 O se llaman
,factibles. Como los vértices corresponden a soluciones básicas factibles, el
método simplex se moverá deuna solución básica factible a otra solución básica
factible, porque se espera que se dé una solución óptima como una solución
básica factible (esto es, un vértice).
I Analisis de un ejemplo
sencillo
11.1
483
EL método simplex
El método simplex se mueve de vértice a vértice
y por lo tanto deberá comenzar
en un vértice, esto es, una solución básica factible. Una de esas soluciones
básicas factibles -que corresponde a CO en (1 1.3)- es evidente de (1 1.4):
x1 = O,
(1 1.6)
x2 = O ,
x3 = 70,
X,
= 40,
X,
= 90.
Esta se localiza fácilmente porque tanto x3 como
y x5 (las
x4 variables diferentes
sólo en una ecuación y por ello se obtiene
de ceroy por lo tanto básicas) aparecen
y por lo tanto no básicas) se
fácilmente su valor cuando x, y x, (las variables cero
igualan a cero. Observe que
M = 40x, + 60x2está definida solamente en términos
de variables no básicas.
Ahora ya es posible moverse hacia otro vértice conun mayor valor para M .
Como el valor de M cambia, se trataráMacomo una variable y las ecuaciones de
(1 1.4) se reescribirán como
+ 2x, + lx, + lx,
= 70.
OM + l x , + lx, +
+ lx,
= 40
OM + 1x1 + 3x2 +
+ lx, = 90
OM
(11.7)
1M - 40x, - 6Ox,
=
o.
Como de costumbre, es conveniente el describir las ecuaciones mediante una
matriz aumentada:
2
1
1
1
: 1
-40
3
-60
O
O
O
(11.8)
1
Oi70
O
1
O
O
O140
01 O
Ya que x, = x, = O, en este punto M = O . Para aumentar M = 4Ox, + 60x2,es
posible hacer ax, o ax, (o aambas) positivas; el método simplex siempre cambia
a porque al aumentarla en una unidad, M
una variable a lavez, y se escogerá x,,
aumenta en60 en comparación de
40 que aumentaríacon el mismo cambio enxl.
AI mantener ax1 = O, pero cambiando x,,
a se necesita cambiarax3,x4y x5 para
satisfacer a (1 1.7):
= 70 - ~
2 ,
X,
= 40 - ~
2
,
y
X, = 90 - 3x2.
Ya que es necesarioquexi 2 O, la primeraecuación anterior necesitainmediatamente que x, 5 70, la segunda, que x, 5 40 y la tercera, que x, I30. Para
satisfacer las tres restricciones, es necesario que
x, se incremente sólo hasta la
cota menor 30; esto resulta en que
(1 1.9)
x, = O ,
X, = 30,
X,
=40,
X,=
10, x5 = O ,
con M = 1800
484
11
I Programacibn lineal
como una nueva sofucibn búsicafuctible. Observe queeste punto correspandea
W en (11.3).
El siguiente paso es repetir el proceso que se acaba de
completar. Recuerde
que se cumplieron dos condiciones útiles al comenzar con (1 1.7) y (1 1.8):
1) cada variable básica (diferente de cero)sólo aparecía en una ecuación -cada
variable básica sólo tiene un elemento diferente de cero en su columna en (11.8);
y 2) M se expresa solamente en términos de las variables no básicas (cero)”
aparecen ceros en las columnas de variables básicas en el último renglón de
(11.8). Estas dos condiciones se unen:
(1 l . 10)
Toda variable básica tiene sólo un elemento diferente de cero enla columna
que le corresponde en la matriz aumentada y esa variable no está en el
renglón inferior.
Ya que ahora las variablesbásicas son xz,x3y x*, el formato estándar descrito
por
(11.10) ya no será
válido para la matriz aumentada (1 1.8)-la columna de x2 viola
lo dicho en (1 l . 10). Esto sepuede enmendar conla eliminación de Gauss-Jordan:
usando el tercer renglón (para no perturbarlos ceros en las columnas de x3 y x4)
para eliminar tanto arriba como abajo en la columna de xz,así (11.8) se transforma en
(11.11)
5
o
1
o
-1’
1 -20
O
O
O
20 I 1800
o
Esta matriz tiene la forma de (1 l . 10) para las columnas de xz,x3 y x,; observe
también que elrenglón inferiordice que M - 20x1+ 20x, = 1800,en donde x, = x,
= O son las variables no básicas.
Nuevamente, es posible llegar a otra solución básica factible con un valor
aumentado de M . Como ahora M = 1800 + 20x1 - 20x, y xi 2 O, M se puede
incrementar aumentando ax, para que seapositivo y manteniendo ax, = O. Esto,
desde luego, obliga a que se hagan cambios en las variables básicas:
x3 = 40 - 3x1, x4 = 10 - #x1, x2 = 30 - +X,.
El mantener a xi 2 O requiere que x, no sea mayor que 24, 15 y 90 respectivamente; por lo tanto es posible incrementarla solamente a 15, la menorde las tres.
Esto da una nueva solución básica factible:
(11.12)
x1 = 15. x2 = 25, x3 = 15, x4 = O ,
x5 = O ,
con M = 2100.
Observe que este punto corresponde a 9 en (11.3). Como las variables básicas
son ahora x , , xz y x3, (11.11) ya no está-en la forma estándar (1 l . 10). Usando
11.1
/
Analisis de un ejemplo sencillo
485
el segundo renglón (para no perturbar los cerosen las columnas dext y x,) para
eliminar arriba y abajo en la columna dex l , se produce
(11.13)
Esta matriz tiene la forma (1 1 .lo) para las columnas de x l , x2 y x,; observe
también que el último renglón dice que
M + 30x4 + 10x5 = 2100,
en donde x4 = x5 = O son las variables no básicas.
Es posible pasar a otra solución básica factible. Sin embargo, de
M = 2100 - 30x4 - 10x5
se ve que si x4o x5aumentan, M disminuirá; en el método simplex ésta esla señal
de que se ha encontrado ya una solución óptima. En verdad,.
x 1 = 15, x2 = 25,
y
M = 2100
es la solución óptima que se encontró gráficamente
El método simplex, ejecutxio con matrices aumentadas, es conceptualmente sencillo:
(1 1.14)
Comenzando con una matriz aumentada de la forma (1 l . 10):
l . Determinar la variable no básica (cero) que se va a aumentar.
2. Determinar cuánto se puede aumentar, y hacerlo.
3 . Identificar las nuevas variables básicas y no básicas.
4. Usar la eliminación de Gauss-Jordan para
poner la matriz aumentadaen
la forma(1 1.10)con respectoalas nuevas variablesbásicas y no básicas.
una solución óptima (después
El proceso(1 l . 14) se repite hasta que se encuentre
se dirámás sobre esto).De hecho, ¡os pasos anteriores son bastantemecánicos:
(1 l . 15)
Comenzando con una matriz aumentada en la forma (1 l . 10):
1. Incrementar lavariable no básica que correspondaal término negativo
con mayor valor absoluto en el último renglón.
2. Dividir loselementos del lado derecho entrelos elementos positivos de
la columna de la variable no básica que aumenta, y aumentarla en el
menor de esos cocientes.
3. Las variables básicasson las variables diferentes de
cero, mientras que
las variables no básicas serán las variables cero.
4. Usar laeliminación de Gauss-Jordan para escribir
la matriz aumentada
en la forma (1 1.10) con respecto a las nuevas variables básicas y no
básicas.
486
11
/
Programaci6n lineal
Observe también que la primera columna de la matriz aumentada no tuvo
importancia principal en los cálculos; solamente sirvió para permitir interpretar
la relación entre M y las variables x i . Siempre que se recuerde la forma de
interpretar el rengl6n inferior, será posible omitir la primera columna de las
matrices aumentadas (1 1.8), (1 l. 11) y (1 l. 13).
Ahora podrá resolver los problemas del 1 al 5.
Gradiéntes proyectados: un método interior
Una idea clave en los métodos interioresen general y en los métodos afinesal de
Karmarkar en particular, es elevitar la restricción del movimiento a lo largo de
los bordes del conjunto de restricciones. Suponga que sehan introducido variables de holgura paraescribir el problemaen la forma (1 1 S ) . Suponga también que
la solución aproximada en este momento es x, y que se están considerando
direcciones para un posible desplazamiento partiendo de x,. Se buscará aquella
dirección que dé el aumento más rápido en la función a maximizar. Como las
derivadas miden la rapidez del cambio, se buscará aquella dirección n (esto es,
un vector unitario n ) que parta de x, en la cual -si se está maximizando una
función Ax,)- la derivada de f en la dirección de n sea mayor.
En este caso, la función que se está maximizando es Ax,) = (ce, x,). La
derivada es justamente la derivada de A x + m) en t = O ; entonces
f(xe + tn) = f(Xe) + t(ce, n),
de modo que esta derivada direccional es simplemente (c,, n ) . Así, el problema de escoger una dirección se transforma en:
encontrar un vector unitario n -tal que (n, n) = 1- que maximice a (c,, n ) .
Recordando que
en donde 8 es el ánguloentre c, y n, se ve que (c,, n) se maximiza con8 = O -esto
es, con n en la dirección de c,.
En el análisisanterior sepasó por alto un aspecto importante del problema:
las restricciones A p e = b. No hay garantía alguna de que x, + tn satisface las
restricciones a menos que se fuerce esta condición para n, es decir:
b = A,(xe + tn) = Aex, + tAn = b + tAn.
Por lo tanto,
se deberestringir la dirección npara que quede enel espacio nulo N de A,:
A,n = O.
11.1
I
Analisis de un ejemplo sencillo
487
Nuevamente, se tratará de maximizar a (c,, n) pero ahora con n restringida al
A,n = O. Sea Pola proyección ortogonal
subespacio N de vectores que satisfacen
sobre este subespacio comoen la sección5.8; recuerde quec, - P,$, es, por lo
tanto, ortogonal a todos los vectores en N . Escribiendo
se demuestra que se debe escoger na de longitud 1 en N para que maximice a
(Pot,, n), en donde el mismo P&, está e n N . Por lo tanto, la solución es que n sea
un vector unitario en la dirección de Pot,.
En resumen:
(1 1.16)
El vector unitario n en la dirección del aumento
más rápido de (c,, x),
restringido por A,n = O para que se satisfagan todas las limitantes, está
dado por la dirección de la proyección ortogonal dec, sobre el conjunto
de las n que satisfacen A,n = O. A esta dirección se lellama el gradiente
proyectado; véase el problema 8.
u
V
Encontrar estadirección n en la práctica,no es el formidable problema que
podría parecer a primera vista. Recuerde el corolario clave 8.20 c) de la sección
8.4 sobre las descomposiciones en valores
singulares de matrices:si A, = UXVH
es una descomposición en valores singulares de la matriz A, p x q , de rango k ,
entonces las últimas q - k columnas de V forman una base ortonormal para el
espacio de las n que satisfacen a A,n = O. Si se forma a
v o = [Vk+l
. ’ . v,]
partiendo de esas columnas, la matriz q X q , VoVt efectúa esta proyección
ortogonal:
Pot, = VoVfc,
(véaseteorema 5.79)
Hay otras formas de calcular a Pot,, pero ésta es una de las mejores (cuando
y pocas restricciones) debido a la
menos en este caso con pocas variables
disponibilidad de buenos programas de cómputo para encontrar a V.
En el caso específico del programa lineal muestra ( 1 1.4) y ( 1 1 S ) , se debe
calcular la proyección ortogonal de
c, = [40 60 O O O]’
MATLAB produjo la dirección.
sobre M .
488
11
/
Programaci6n
lineal
25-8.75 3.75 [2.5(11.17)
- 13.75IT
para desplazarse desde el vector factible inicial [O O 70 4090IT.
consideran los vectores x, de la forma
x, = [o
o 70
40
901'
+ t p . 5 3.75-8.75-6.25
Así, se
- 13.751~,
los cuales satisfacen a A J ~= b para cualquier valor de t . Sin embargo, también
es necesario que x, 2 O , por lo tanto t no puede ser mayor que 70/8.75,40/6.25 o
que 90/13.75 -el menor de los cuales es 6.4. Usando este valor para t , se obtiene
una nueva x, igual a
[ N 14
24
o 21~.
En resumen: se comienza con el mismo punto factible inicial que en el
método simplex:
(11.18)
x1 = O ,
x2 = O ,
x3 = 70,
x4 = 40,
x5 =90,
con
M =O
y en un paso ha habido un desplazamiento a travésdel interior del conjunto de
restricciones para alcanzar a
(11.19)
x 1 = 16,
x2 = 24,
x3 = 14,
x4 = O,
x5 = 2,
con
M = 2080;
esto está bastante cerca de x1 = 15, x, = 25 con M = 2100 -la solución óptima.
Observe que no se llegó a un vértice del conjunto de restricciones; este nuevo
punto corresponde al marcado con % en (1 1.3).
La discusión anterior indica algo del atractivo de los métodos interiores en
general, y de este método del gradiente proyectado en particular, pero no
contempla una dificultad: i no es posible repetir el proceso tal y como sedescribió
y alejarse de (1 1.19)!¿Por qué?Debido a la elección de la dirección n en lacualel
desplazamiento no dependió de la x, desde la que parte el movimiento; n
simplemente está definida por c, y el espacio nulo .N, y ninguno de los dos
cambia. Así, si se aplicará nuevamente el método en (1 1.19), se volvería a
encontrar ladirección (1 l . 17)y se descubriría que no es posible aumentar a M en
esa dirección; se detendrá en (1 1.19), que no es lo óptimo.
La idea básica del método del gradiente proyectado que se describió se ha
conocido duranteaños; aunque sehan encontrado formas para evitar el fracaso
del método, ninguno ha podido competir con el método simplex. Lacontribución
de Karmarkarfue el encontrar un método poderoso para rodearla dificultad, el
cual bien puede competir con el método simplex.
Un método afín al de Karmarkar
El enfoque de Karmarkar se puede considerar como uno que transforma el
I
11.1
Analisis de un ejemplo
sencillo
489
programalineal después de cada
paso para tenerun nuevo problema para
el cual
la dirección del gradiente proyectado es distinta la
deque había enel problema
original. Se han usado varias transformaciones ingeniosas y los investigadores
las están estudiando en
lo que serefiere a su impacto. Aquí se describirásólo una
de las ideas: el reescalado.
Suponga que cadavariable se reescala -esto es, sereemplaza porun múltiplo positivo de s í misma: x: = x i / d i .En notación matricial, estoes x: = D- 'x, o x,
= DX:, en donde D = diag(d,, . . . ,d5)en este caso. En las nuevas variables x:,
las restricciones vienen a ser
b = A,x, = A,Dxb
y
O
X, =
DX:;
la función a maximizar es
C,X,
T
= c,TDx: = (Dc,)~x:.
Entonces, el problema reescalado (11.5) es ahora
(11.20)
maximizar (Dc,)~x;
sujeto a las restricciones
(A,D)x: = b,
X:
2 O.
Si se usala idea del gradiente proyectado, es necesario encontrar
la proyección ortogonal deDc, sobre el espacionulo de AD; una vez que encontradaesta
dirección n', nos moveremos a una nueva x: + tn'. Como x, = DX:, esto
corresponde a un desplazamiento a una nueva x, + tDn'. Así,
(1 1.21)
El reescalamiento de x, = DX: tiene el siguiente efecto -la nueva dirección
del movimiento desde x, es n = Dn', en donde n' tiene la dirección de la
proyección ortogonal Po(Dc,) de Dc, sobre el espacio nulo de A,D.
Esto se puede interpretar de otro
modo. Recuerde del teorema5.73 sobrela
sobre Yoes el puntomás
mejor aproximación, que la proyección ortogonalv de
cercano av en Yo.Así, Po@c,) es el punto más cercano aDc, en el espacio nulo
de A,D. Ahora, que v' esté en el espacio nulo de A,D significa que
O = (A,D)v' = A,(Dv') = A,v,
entonces v = Dv' está en el espacio nulo de A,. Esto quiere decir quePo(Dc,)es
igual a D-'v en donde v minimiza a
(Dc, - D"v, Dc, - D"v)
sobre v recorriendo el espacio nulo de A,. Y es en esta dirección
v-o, más bien, n
= v/llvllz-en la cual se moverán las variables x,. La expresión de arriba se
reescribe como
(D"{DZc, - v}, D"{D2c, - v})
490
11
I Programacibn
lineal
y se introduce un nuevo producto interior ( . , .) definido por
(U, W ) = (D"u, D"w);
entonces v minimiza a
(D2c, - v, D'c, - v).
Esto es, la dirección del movimiento desde x, es la más cercana a D2c,, medida
con este nuevo producto interior. D2c, tiene una interpretación sencilla:la
función a maximizar en el programa lineal es igual a
CFX,= ( c ~X,), = (D2ce, X,).
Es decir, que DZc,está en la dirección de aumento más rápido cuando se usa el
nuevo producto interior.
Resumiendo
(1 1.22)
Reescalando mediante x, = Dx; tiene el siguiente efecto -la nueva dirección
de movimiento a partir de x, es la dirección del gradiente proyectado con
respecto al nuevo producto interior no estándar
(U, W )
= (D"u, D"w) = u ~ D - ~ w .
Esto es,el reescalado sencillamente introduce una nueva forma de medir longitud y ángulo al encontrar la dirección del gradiente proyectado.
Nada de lo dicho anteriormente explica la forma de escoger a D. Una de las
ideas de Karmarkares que el estar en la orilla del conjunto de restricciones causa
dificultades, de modo que uno nunca se debe mover en una dirección particular a
lo largo del camino hacia la orilla, y las variables se deberían reescalar de tal
manera quela aproximación x; esté, en cierto sentido, centradaen el conjunto de
restricciones. La efectividad de los métodos afines al de Karmarkar depende
fuertemente de la manera precisa de diseñar e implementar ese escalado y otras
transformaciones. La investigación y experimentación indican que la solución
adecuada de estas sutilezas permite aplicar el método, no sólo con rapidez para
llegar cerca dela solución óptima, sino también para identificar rápidamente las
variables básicas para una solución óptima para después llegar directamente a
ella. Los detalles para la realización de esto se investigan y se debaten intensamente por el momento, y están más allá del propósito de este libro.
Ahora podrá resolver los problemas del 1 al 11.
Dualidad
Recuerde que (1 l . 1) sirve de ejemplo para ilustrar algunos conceptos generales
11 . I
I
AnAlisis de un ejemplo
sencillo
491
de programación lineal. A continuación se ilustrará elimportante concepto de la
dualidad, presentándolo desde dos distintos puntos de vista.
Primero se examinará la idea en el marco de la aplicación de la que derivó
(1l . 1). Recuerde que el
problema es determinarlos números x1 y x2de dostipos
de productos para fabricarlos a modo de maximizar las utilidades, dado que la
ganancia por unidad del primer
producto es de40, y de 60 por unidad del
segundo
producto; las restricciones reflejan el hecho de que las máquinas que se usan en
la fabricación sólo tienen 70,40 y 90 horas disponibles, y que una unidad decada
producto necesita cierto lapso
del tiempo de cada máquina. Véase la sección 2.7
y especialmente (2.53).
Suponga queotra división (digamos la división
2) de la compañía quiera usar
esas mismas máquinas para fabricar otros productos;la división 2 quiere saber
cuánto le deberia pagar a la división 1 por hora de cada máquina para que la división 1 pusiera la máquina a disposición de la división 2, y desde luego que la
división 2 desea que esto sehaga de la manera más económica posible. Modelamos matemáticamente esto haciendo que yl, y2 y y, sean los (hasta ahora
desconocidos) precios que la división 2 pagará por hora del tiempo de cada uno
de los tres tipos de máquinas. El pago total a la división 1, que la división 2 quiere
minimizar, será entoncesm = 70y1 + 40y2 + 90y3. Para quela división 1 esté de
acuerdo con el trato, debería obtener la misma ganancia haciendo el trato que
usando las máquinas. Cuando ladivisión 1 se reducea no hacer una unidadde su
primer producto, perderá$40 de sus utilidades;sin embargo, libera 2 , l y 1 hora
respectivamente a sus tres máquinas, por lo cual recibirá 2y1 + ly, + ly, de la
división 2. De este modo el intercambio le convendrá a la división 1 en lo
referente al primer producto siempre que la ganancia sea mayor que su pérdida:
2y1 + y2 + y3 2 40. Al analizar de igual modoel segundo producto seobtiene y , +
y2+ 3y32 60. Entonces elproblema para la división 2 es el determinar
los precios
Y 1 9 Y2 Y Y3 Para
(11.23)
minimizar m = 70y, + 40y2 + 9Oy3
sujeto a las restricciones
2Yl + Y,
+ Y3 2 40
Y, + Y, + 3Y3 2 60
y, 2 o,
y, 2 o,
y3 2 o.
Este programa lineal (11.23) se llama el dual de (1 l . 1). En notación matricial, e s
sorprendente su relación con ( 1 1.2):
(11.24)
minimizar m = bTy
sujeta a las restricciones
ATy 2 c,
y 2 O,
492
11
I
Programacidn lineal
en donde A, b y c son como en (1 1.?) y
Y = [Y,
Y2
Y31T.
Comparando (1 1.2) y (1 1.24) se muestra que “minimizar” queda en lugar de
“maximizar”, “AT” reemplazaa “A,” “2” sustituye a “ S , ” “c” reemplazaa
“b,” y “b” reemplaza a “c.”
Este programa dual (1 1.24) se puede deducir por otro camino, mediante
geometría en lugar de la descripción de laaplicación. Examine la figura(1 1.3) y ,
especialmente, el punto óptimo P . L a perpendicular en dirección “noreste” a la
recta 40x, + 60x, = 2100 que pasa por $9’ queda enel ánguloentre las perpendiculares semejantes a 99 y a 99. Esto dice que la primera perpendicular es una
combinación lineal no negativa de las otras dos. Ya que estas perpendiculares
son precisamente [40
60]‘,
[ l 31‘ y [l 1IT, la combinación seencuentra
fácilmente: [40 601‘ = 30[ 1 11’ + 10[ 1 3IT.Observe que [40 60IT es precisamente c, mientras que los otros dos vectores son los transpuestos de aquellos
renglones de A que correspondena las desigualdades que dehecho serán igualEsto sepuede escribir en notación matricial como
dades enel punto óptimo 9.
(11.25)
ATy* = c
en donde y* = [O 30 1OlT2 O .
La sorprendente verdad es que esta y* resuelve el programa lineal (1 1.24).Para
ver esto, suponga que y satisface las restricciones duales ATy2 c y y 2 O, y sea x*
la solución óptima [ 15 25IT al programa original -llamado primal- (11.2). Ya
que Ax* 5 b mientras que y 2 O, se tiene que
yTAx* 5 yTb.
Como también ATy 2 c mientras que x* 2 o, se tiene
x * ~ 2
A x ~* ~ ~c .
Al combinar esas dosdesigualdades y usaryTAx*= (Ax*)’y = x*TATy se obtiene
(11.26)
bTy 2 cTx* para
toda
y que satisfaga ATy 2 c, y 2 O .
Recuerde que y* tiene elementos cero en donde Ax* - b tiene elementos
diferentes de cero,mientras que los elementos diferentes de cerode y* aparecen
en donde Ax* - b tiene elementos cero. Por lo tanto,
Y*~(Ax*- b) = O, esto es
Y * ~ A x=
* y*Tb.
Ya quey*’A = (A’Y*)~- C’ de (1 1.25), se obtiene cTx*= y*%. De la combinación
de esto con (1 1.26),resulta
(11.27)
bTy 2 bTy* = cTx* paratoda y que satisfaga ATy 2 c, y 2 O .
I Analisis de un
ejemplo
sencillo
11.1
493
En otras palabras, y* minimiza a bTy sujeto a las restricciones ATy 2 c y y 2 O
-por lo tanto y* resuelve el problema lineal dual (11.24). Observe también que
bTy* = cTx*: el valor óptimo (mínimo) m del dual es igualal valor óptimo
(máximo) M del primal. En el ejemplo (11.2), (1 1.24), se teníaM = 2100; ahora
30 10IT = 1200 + 900 = 2100 = M
m = bTy* = [70 40 90][0
como se afirmaba. En nuestra aplicación, estosignifica que la división 2 puede
ofrecer el pago por el uso de las máquinas, lo que redituará a la división 1
exactamente la misma ganancia quesi usaran las máquinas (que intuitivamente
parece ser lo que se debería ofrecer).
En la sección 11.4 se verá que el dual tiene gran importancia práctica.
PROBLEMAS 11.1
D 1. Resuelva elsiguiente programa lineal a) geométricamente y b) porel método
simplex
Maximizar x1 + Zr,
sujeto a las restricciones
I 25
X1
+ x2 I 30
XI
-x1
+ X2 I 10
x1 2 0
x2
20.
D 2. Resuelva el siguiente programa lineal a) geométricamente y b) por el método
simplex
Maximizar x1 + 2x,
sujeto a las restricciones
-x1
+ x2 I 1 0
x2 I 20
x1
+ x2 5 60
X1
< 50
x1 2 o
x2 2 o.
3. Resuelva el siguiente problema lineal a) geométricamente y b) por el método
simplex
Maximizar a 3x, + 2x,
sujeto a las restricciones
494
11
/
Programacibn lineal
x1
+ 2x2
x1
+ x2 I 4 0
3x,
+ x 2 5 90
x1 2 o,
70
x2 2 o.
4. Explique por qué, en el método simplex, el valor actual de M que corres-
ponde a la solución básica factible x,, aparece comoel elemento (4,7) en las
matrices aumentadas en los ejemplos.
5. Reste una variable de holgurax, de ladesigualdad xp - x1 z -5 de modo que
se transforme enx, - x1 - x4= -5 parausar el método simplex pararesolver
el programa lineal
maximizar a Zr, + x,
sujeto a las restricciones
XI
-x,
+ x2 I 10
+ x2 2 - 5
x1 2 o,
x2 2 o.
D 6. Demuestre que en lo que concierne a las variables x1 y x2, la dirección del
gradiente proyectado (1 l . 17) es tan sólo unmúltiplo de c , esto es, de
[40 60IT.
7. Demuestre que no hay movimiento posible que incremente a M en la dirección del gradiente proyectado (11.17) partiendo de los vectores básicos
factibles correspondientes a ’ O, Y, 2 2 , 9,y B que sean distintos de O.
D 8. Suponga que Ax,, x2, . . . , x,) = cTx, en donde (x)~= xi, y que c y x son
ambos p X 1. Demuestre que V f , la matriz p X 1 formada de la primera
= af/ax,- satisface V f = c. (Esto explica el
derivada parcial de f-(Vf>,
término “guadiente proyectado.”)
Sn 9. Utilice MATLAB o algún software similar para calcular la dirección del
gradiente proyectado del programa lineal del problema 1, y entonces muévase lo más lejos posible en esa dirección desde el vector básico factible
inicial.
1131 10. Haga lo que sepidió en el problema9, peroparae1 programa del problema2.
1131 11. Para el programa lineal de ejemplo en esta sección.
a) Encuentre el vector factible que resulta de mover sólo el 95% de la
distancia sobre la arista del conjunto de restricciones desde el punto
básico factible (1 l . 18) hacia (1l . 19) en la dirección (1 l . 17)
b) Utilice MATLAB o algún software semejante para encontrar la dirección
del gradiente proyectado escalado que se obtuvo usando D = diag(0.95,
1.75, 0.675, 0.18, 0.18).
11.2
I
Un programa lineal general
495
c) Muévase desde el punto alcanzado a)enen la dirección encontrada
en b)
para alcanzar la arista del conjunto de restricciones.
D 12. Encuentre el dual para el programa lineal del problema 1 ; use el argumento
geométrico en el puntoóptimo del programa primal para encontrarun vector
óptimo para el dual.
13. Haga lo que sepide enel problema 12, pero paraelprograma del problema 2.
14. Haga lo que sepide en el problema 12, pero parael programadel
problema 3.
D 15. Reescriba el dual (1 1.23) como un problema de maximización (esto es,
maximizar a - m = -7Oy, - 40y, - m,)y use el método simplex para
resolver el programa lineal resultante.
16. Haga lo que se pide en el problema 15, pero para el dual del programa del
problema l .
17. Haga lo que se pide en el problema 15, pero para el dual del programa del
problema 2.
18. Haga lo que se pide en el problema 15, pero para el dual del programa del
problema 3.
11.2
UN PROGRAMALINEALGENERAL
Para definir con precisión un programa lineal general se requiere de algo de
nomenclatura.
Terminología
(11.28)
Definición. Suponga que A y B son ambas matrices reales de p X q , se
escribirá A 2 B si y sólo si (A)U 2 (Bij) para 1 Ii 5 p y 1 I j Iq ;
definiciones semejantes serán
válidas para > , S y c.Si A 2 O, entonces A
se llama no negativa; siA > O, entonces A se llama(estrictamente)positiua.
Esto proporciona el fundamento parauna definición de un programa lineal
general.
(11.29)
Definición
a) Todo problema para encontrar valores extremos
(maximizar o minimizar) una función cTx con x en Iw4 y sujeto a un número finito de restricciones lineales de igualdad y de desigualdad usando Io 1 o ambos, se
Llama un programa lineal.
b) Se dice queun programa lineal está ensuforma estúndur si y sólo si se
escribe como
maximizar a cTx
sujeta a las restricciones
Ax 5 b,
x 2 O.
496
I
11
Prograrnaci6n lineal
No hay una forma estándar queesté universalmente aceptada para programas lineales; la anterior es una delas muchas posibilidades. Cualquier programa
lineal se puede reescribir en esta forma estándar. Todavariable z que originalmente noesté restringida a ser no negativa se puede reemplazar haciendo z = z+
- z- con z+ 2 O y z- 2 O ; toda desigualdad lineal a T x 2/3 se puede reemplazar
por ( - a')x I(-p) y toda igualdad linealaTx= p se puede reemplazar por el par
a ' x s p y (-a'x) S (--p).
Para aplicar los poderosos métodos desarrollados para trabajar con ecuaciones, la forma estándar se convertirá a una que involucre ecuaciones y desigualdades sencillas, exactamente como en la sección 1 1 . 1 . Si A es de p X q , se
. . . , x,+, -unapara cada una de las p
introducirán variables de holgura
desigualdades en Ax S b. Las matrices extendidas A,, x, y c, se definen como en
la sección 11.1:
(11.30)
Esto nos permite definir laforma devariables de holgura en la definición 11.29:
maximizar a c,Tx,
(11.31)
sujeta a las restricciones
A,x, = b,
x, 2 O, en donde A, es p X ( q + p ) .
Observe que un programa lineal se podría enunciar con p restricciones de
igualdad conq + p variables como en (1 1.31) sinque su aparición sea la adición
de variables de holgura a un problema en la forma estándar;sin embargo, nos
referiremos a un programa lineal de la forma (1 1.31) como en su forma de
variables de holgura sin tomar en cuenta su origen o la estructura precisa de A,
-que no sea otra que p X ( q + p ) .
(11.32)
Definición
a) Todo vector que satisface todas las restricciones de un programa lineal
se dice que esfactible para ese programa lineal.
b) Todo vector factible que extremice la función en un programa lineal se
dice que es 6ptimo (factible).
El siguiente concepto es el de los vectores bhsicos factibles; en la sección
11.1 correspondieron a los vértices del conjunto de restricciones en R2 para el
programa lineal en su forma estándar. Se identificó un vértice como la intersección de, precisamente, dos de las rectas definidas al convertir en igualdades a
exactamente dosde las desigualdades para el caso de dosvariables. En la forma
de variables de holgura con cinco variables y tres ecuaciones, el método equiva-
11.2
I
Un programa lineal general
497
lente fue hacer cero dos variables (por lo tanto seleccionando aquellas dos
las
desigualdades a estudiar comoigualdades) y resolver las tres ecuaciones para
tres variables restantes.
Para un programa lineal en forma estándaren Rq, el procedimiento análogo
sería identificar vértices resolviendo como igualdades q de las p desigualdades.
En la forma de variables de holgura (1 1.3l), el procedimiento equivalente es
hacer cero aq de las variables en x, y resolver entonceslasp ecuaciones A&, = b
para las p variables restantes. A tal solución se le llama búsica:
(1 1.33)
Definición. Se dice que un vector factible x, para la forma de variables de
holgura (11.31) es un vector búsico factible si y sólo si (cuando menos)
q de los elementos de x, es igual a cero.
Computacionalmente, el proceso de encontrar vectores básicos factibles
implica el hacer cero q de los elementos dex, y resolver entonces lasp ecuaciones con losp elementos restantesx,. de
Para estarseguros de poderresolver esas
ecuaciones se necesita quela submatriz relevantede p X p , de A,, sea no singular
-lo cual en la prácticapuede no serel caso. Manejar estas situacioneses una de
las complicaciones de la programación lineal que cae fueradel propósito de este
libro; nos restringiremos por lotanto a los casos en los que esto no se puede dar al
tratar programas que seanno degenerados(una condición un poco más estricta).
(11.34)
Definición. Se dice que un programa lineal en su formade variables de
holgura (1 1.31) es no degeneradosi y sólo si cada submatriz dep X p de la
matriz aumentada [A, b] es no singular; en caso contrario, se dice que el
programa es degenerado.
Teoría fundamental
Las variables “no básicas” en la sección 1 1 . 1 eran aquéllas que se igualaron a
cero, y entonces las variables despejadas fueron siempre diferentes de cero (las
llamamos “variables básicas”.) Si alguna de esas variables calculadas hubiera
sido igual a cero, un observador hubiera entonces tenidodificultad para distinguirla de aquellas variables que inicialmente se igualaron a cero.Se considerará
la posibilidad de que ocurra este caso.
Suponga que sehace cero a q de los elementos q + p de x, de un programa
en la forma de
variables de holgura; así, quedan para
lineal no degenerado escrito
su determinación p elementos y p ecuaciones. Ya que la matriz de coeficientes de
este sistema de p ecuaciones con p incógnitas es una submatriz de A,, es no
singular por la hipótesis de que esno degenerado. Así,hay una solución a A,x, =
b, la cual desde luego hace que b sea una combinación lineal (usando a los
elementosde x, comocoeficientes)delas
columnas de A,. Si alguno de
los elementos de x, es cero además
de los q elementos que se
igualaron primero a
cero, entonces cuando menos q + 1 elementos de x, son cero: esto hace que
cuando más p - 1 de los elementos dex, sean diferentesde cero. Por lo tanto, b
498
11
I
Programacibn lineal
podría escribirse como una combinación linealde p - 1 columnas de A, y por lo
tanto la submatriz de
p x p de [Ae b] formada por esas p - 1 columnas de A, y b
sería singular -contradiciendo la hipótesis de no degeneración. Esto completa
una demostración del siguiente.
(1 1.35)
Teorema (vectores básicos). Si el programa lineal en su forma devariables
de holgura (1 1.31) es no degenerado, entonces todo vectorbásico factible
tiene exactamente q elementos cero; esas variables cero se llaman no
bhsicas, mientras que a las p variables diferentes de cero se les llama búsicas.
El método para resolverprogramas lineales se basóen la idea de que estos
tienen soluciones y que siempre se puede encontrar una solución en un vértice
(esto es, como una solución básica factible en el planteamiento de Variables de
holgura). Desde luego, los programas lineales pueden no tener solución: el
problema de maximizar ax, + xz sujeto ax1 2 O y x2Z O no tiene solución porque
x1 + x pse puede hacer arbitrariamentegrande aun satisfaciendo las restricciones;
y el problema de maximizar a x1 sujeta a que x, 5 1 y x1 2 2 no tiene solución
porque no existen tales números xl. Pero de lo contrario, cuando el conjunto de
en
restricciones es no vacíoy la función a maximizar está acotada superiormente
un vector
el conjunto de restricciones
-parece claro geométricamente que existe
óptimo factible y que existe un vector óptimo bhsico factible. Esto se deberá
demostrar, esté claro o no geométricamente.
(11.36)
Lema. Suponga que la forma de variables de holgura (1 1.31) de un programa lineal es no degenerada, que M = czx, no se puede hacer arbitrariaes ,
un punto factible,
mente grande en elconjunto de restricciones, y que %
entonces existe un punto búsico factible x,* con cuando menos un valor
igual de M :
DEMOSTRACION. S1 fees en sí mismo un vector básico factible, se podrá
considera x,*= P, y con esto queda demostrado.Por lo tanto, se supondrá
el programa lineal es no degenerado,
el
que 1, no es un vector básico, ya que
teorema 11.35 implica que f i e tiene a lo más q - 1 elementos cero. Se
demostrará que se
puede encontrar un vector factiblecon cuando menos un
elemento ceromás que en sey con a lo más un valor tan grande comoel de
M ; repitiendo este procedimiento se obtendrá un vectorfactiblecon
cuando menos q elementos cero,y éste deberá ser el vector
básico factible
x,* que se necesitaba. Lo Único que se deberá demostrar será que,
en
realidad, es posible encontrar un x; factible tal que C ~ X ;2 cFfe, y, con
cuando menos,un elemento ceromás que en 2,. A continuación se demostrará esto.
Como toda submatriz de p x p de la matriz A, de p X (q + p ) , es no
11.2
I
Un programa lineal general
499
singular, A, tiene un rangop; por el teorema6.8 sobre dominios,
imágenes y
espacios nulos, el espacio
nulo de A, -el conjunto de soluciones n para A,n
= O- tiene dimensión 4 y por lo tanto tieqe alguna base n,, . . . ,nq.Sea x6 =
ie
+ n, en donde n = alnl +
+ aqnqdebiéndose determinar las A,xk =
b para cualquiervalor de las aique se escoja.
Se buscan las ai de tal manera
que x: 2 O, que xktenga al menosun elemento ceromás que gey quec,Tn 2 O
(lo que implica que cfxk 2 cTie).Sea a = [a,
aqITuna solución
diferente de cero del sistema de 4 - 1 ecuaciones homogéneas con 4
incógnitas formadas haciendo cero aalgunos 4 - 1 de los elementos de n,
incluyendo los a lo más 4 - 1 elementos que correspondena los elementos
cero defe; por el teorema clave4.13 3), existe tala diferente de cero
porque
hay menos ecuaciones(homogéneas) que incógnitas. Como a es diferente
de cero y las ni forman un conjunto linealmente independiente n = alnl
+
+ a$q es diferente de cero. Todos losp + 1elementos restantes de
ie
son diferentes de cero, y cuando menos uno de los correspondientes
elementos de n debe ser diferente de cero debido a que n es diferente de
cero. Reemplazandon por -n si cTn < O, es posible suponer que czn 2 O. Si
todos los elementos diferentes decero den son estrictamente positivos y
czn > O, entonces M podría hacerse arbitrariamente grande en el vector
factible i,+ tn al hacer a t arbitrariamente grande, contradiciendo la
hipótesis de que Mestá acotada;si todos esos elementos
son positivos pero
czn = O, de nuevo será posible reemplazar a n por -n y seguir teniendo czn
2 O (en realidad, = O ) con algún elemento negativo en la nueva n. De este
modo se podrá suponer que cuandomenos un elemento de n es estrictamente negativo. Sea r el número del elemento para el cual-(ji-,),/(n), es
menor entre las (n)*estrictamente negativas y sea t igual a este cociente
(positivo).Entonces x’, = Fie + tn esfactible, tiene cuando menos un
elemento cero más -el r-ésimo- que en ge y cumple czxz 2 c,Tf,.
-
(11.37)
DEMOSTRACION. Como el programa lineal es no degenerado, las soluciones
básicas factibles sepueden obtener haciendo cero cualesquieraq elementos de x,, resolviendo para los p elementos restantes de las p ecuaciones
A p e = b, y comprobando si x, 2 O. Por el lema 11.36, existe cuandomenos
un vector básico factible porqueel conjunto de restriccioneses no vacío.
Como existen, a lo más, Npq subconjuntosde q elementos de los p
500
11
/
Prograrnaci6n lineal
+ q elementos que se pueden escoger para hacerlos cero,en donde NpQ=
(q + p)!/(q!p!),el número N de vectores básicos factibles satisface a 1
5 N 5 NpQ.Sea :
x el que maximiza a M = czx, para cualquiera x, de los N
vectores básicos factibles. Entonces x,* es el vectorbásico factible óptimo
que senecesitaba; ningún 2, factible puede dar un valor de M mayor porque
entonces, por el lema 11.36, uno de los vectores básicos factibles daría
un valor aún mayor de M , contradiciendo a la hipótesis de que x: da el
mayor valor deestetipo.
PROBLEMAS 7 7.2
D 1. Escriba en la forma estándar el programa lineal
maximizar a -2x1 + 5x,
sujeto a las restricciones
2x1 - x2 5 7
3X1
+ x2 = 6
x1 2 o,
x2 2 o.
2. Escriba el programa lineal del problema uno en su forma de variables de
holgura.
3. Enuncie en la forma estándar el programa lineal
minimizar a 4x1 - 3x, + 2x3
sujeto a las restricciones
x1 + x.2
2 4
x1 - x2
1 6
+ 3x2
6x3 = 5
X1
x1 2 o,
x3 2 o.
D 4. Enuncie el programa lineal del problema tres en su forma de variables de
holgura.
5. Enuncie en la forma estándar el programa lineal
3x, + 2x2 2 7
- x 1 - 5x, 2 3
X1
25
x2 2 o.
6. Enuncie el programa lineal del problema cinco en su forma estándar.
I
11.3
Resolucibn de un programa lineal general
501
7. Dé un ejemplo de un programa lineal degenerado y una solución básica
factible para éI con, estrictamente, más de q elementos cero.
8. Determine si los programas lineales de los siguientes problemas en lasección
11.1 son degenerados:
a) Problema uno
b) Problema dos
c) Problema tres
d)
Problema
cinco
D 9. a) Determine si el siguiente programa lineal es degenerado.
b) Resuelva el problema por el método simplex.
Maximizar a x, + 2x,
sujeto a las restricciones
I 10
X1
x2 I 10
-x1
+
x2 I
x1 2 0 ,
10
x2
20
10. Utilice la construcción en el lema 11.36 para encontrar un vector factible
para el problema
modelo (1l . 1) que tenga (cuando menos)un elemento cero
más que en el vector
X, =
[20
15 15 5 25IT.
D 11. Suponga quese necesita maximizar al menor de dos númerosno negativos u
y v sujetos a las restricciones
2u + v S 5 y u + 3v I8. Escriba un programa
lineal cuya solución permita calcularu y v , y enuncie el programa en forma
estándar.
11.3
RESOLUCION DE UN PROGRAMA LINEAL GENERAL
Como ocurre con los sistemas de ecuaciones lineales y con los problemas de
la práctica se resuelven con
una sofistieigensistemas, los programas lineales en
cada prográmación de computadora. En esta sección solamente se extenderán
las ideas básicassobre los métodospresentadosen la sección 11.1 de los
programas lineales generales de lasección 11.2 sin entrar en detalle; esta introducción debería ser suficiente para la mayoría
de los usuarios de programación
la
lineal.
Mktodos afines al de Kannarkar
Regresamos la versión de variables de holgura (11.3 1)de programas lineales:
maximizar a M = cTx,
502
/
11
Programacibn lineal
sujeto a las restricciones
A,x, = b,
x, 2 O,
siendo A, de p X (q + p ) ,
Los aspectos clave a recordar sobre los nuevos métodos afines al de Karmarkar son que l ) son métodos interiores,y no métodos cuyo movimiento esté
restringido a lo largo de las aristasdel conjunto de restricciones; y 2) operan en
las versiones transformadas iteratiuamente del programa lineal-esto es, en cada
paso se transforma denuevo el programa antes de que se encuentreuna nueva
solución aproximada.
Aunque son posiblesotros caminos, el aspecto ladeinterioridad del método
está bien caracterizado por el procedimiento del gradiente proyectado: desplazarse desde la solución aproximada actualx, hasta una nueva solución aproximada x, + td, en donde d = Pp, y Poes la proyección ortogonal sobre elespacio
nulo A” de A, -el conjunto de n que satisfacen aA,n = O . En la sección 11.1 se
mencionó que la proyección ortogonal Pp, se puede calcular fácilmente usando
la descomposición en valores singulares A, = UZVH de A,; esto es definitivamente cierto para p y q moderadas, pero a menudo los programas lineales
implican p y q enormes (y A, dispersas y altamente estructuradas)en cuyo caso
serán preferibles otros caminos.El encontrar elpunto más cercano Pp, aceen N
es esencialmenteun problemade mínimos cuadrados, aunqueno está en la forma
Ax = y como se le trató en las secciones 5.9 y 8.5, cuando se presentaron
métodos que usaron las descomposiciones QR o en valores singulares; sin
embargo, el siguiente teorema muestraque la proyección y los mínimos cuadrados son lo mismo.
(11.38)
Teorema (proyección sobreespaciosnulos).Sea
B, p X q y sea Po la
proyección ortogonal sobre el espacio nulo N de B -todas las n que
satisfacen a Bn = O. Entonces P,yy = y - B%, en donde 1 resuelve el
problema de mínimos cuadrados BHx = y.
DEMOSTRACION. Recuerde el problema 26 en la sección 5.9 que 2 resuelve a
Cx = y si y sólo si CHC1= CHy;en este caso, C = BH, de modo que 1 es
solución de BHx= y si y sólo si BBH1= By. Esto, asu vez, es equivalentea
B b - BH5)= O -esto es, ay- en donde BH1está en el espacio nulo N de B.
Sea no = y - BH1;el problema será demostrar queno = Poy. Sea n, = no Poy. Comon,estáen N , ( y - Poy, n,)= O pore1 teorema5.71 a). Entonces
lln1112 = (n,, n,) = (no - Y + Y - POY,n,) = (-B%
= (-2, Bn,) = (-2, O) = O. m
nA
Así, en elproblema de programación lineal, cualquier método para resolver
2 de
A 3 = c, permitirá el cálculo de la nueva dirección
d por medio de d = Pp, = C,
- AZ2. Un método para calcular
2 es por mediode la descomposición en valores
singulares, que desdeluego se podría usar directamente para calcular
Poc, como
11.3
/
Resoluci6n de un programa lineal general
503
se mencionó enla sección 11.l. También sepodría resolver aAFZ c, mediante
la descomposición QR de A,. El problema de resolver sistemas extremadamente
grandes y esparcidos demínimos cuadrados ha sido -y está siendo- investigado
extensivamente por motivos no relacionados con la programación lineal; este
trabajo, se está aplicando ahora en el estudio de los métodos afines al de
Karinarkar.
Como se subrayó en la sección 11.1, el camino del gradiente proyectado no
se puede aplicar repetidamente tal y como se describió, porque se produciría la
misma dirección d en cada paso;más
la sencilla de las transformaciones propuestas por Karmarkar -el escalado de las variables x, = DX: con una matriz D
diagonal- evita esta dificultad,porque la siguiente dirección d es la proyección
ortogonal de Dc, (y no de c,) sobre el espacio nulo de A,D (y no sobre el de A,). La
naturaleza sencilla de D permite hacer más manejables los problemas de mínimos
cuadrados que deben resolverse en cada paso,
que en el caso de tratar sólo a A,D
comenzando desde el principio cada vez que D cambie. Karmarkar propone
transformaciones adicionales que tienen efectos todavíamás dramáticos sobreel
problema -reemplazar la función lineal czx, por expresiones logarítmicas tales
como log(c,Tx,), cambios no lineales en las variables x,, y así por el estilo.Aunque
parece que en la naturaleza de esas transformaciones reside el secreto de la
potencia de los métcdos, este tópicoy una discusión posterior de los métodos
afines al de Karmarkar queda fueradel alcance de este libro.
i=
El &todo simplex: construcción de la tabla
El método simplex trabaja conla matriz aumentada de laforma de variables de
, u
holgura de un programa lineal, con la adición deuna ecuación final M - C ~ X =
para permitir el cambio de valores de M ; recuerde de la sección 11.1 que se
acordó omitir la columna de las matrices aumentadas correspodientes a M
porque esa columna nunca
participa en los cálculos. Así, el métodosimplex trata
con lo que se llama la tabla simplex:
(11.39)
El método simplex, tal como se describió en la sección 11.1, involucra principalmente al realizar los pasos de la eliminación de Gauss-Jordan en T, produciendo una nueva tabla T’; exactamente como en los sistemas de ecuaciones
lineales, primero se deberá tratar el asunto de si las soluciones de los dos
problemas son idénticas.
(1 1.40)
Teorema (equivalencia de tablas). Suponga que una sucesión de operaciones elementales de renglón transforma una tabla simplex T en una tabla
simplex T’
504
11
I
Prograrnacidn lineal
y en donde las operaciones de renglón que serealicen con el último renglón
sólo pueden ser de la forma: sumar al último renglón un múltiple de un
renglón superior. Entonces, z* es solución del programa lineal
maximizar a M = C ~ X ,
sujeto a las restricciones
A,x, = b,
X, 2
O
si y sólo si z* es solución del programa lineal
maximizar a M' = cLTx:,
sujeto a las restricciones
A~X=
; b
X:
2 O.
DEMOSTRACION. Como no se puede usar el último renglón para cambiarlos
renglones superiores, [A, b'] se produceapartirde [Ae b] mediante
operaciones elementales derenglón; por el teorema 4.12 sobre la eliminalos conjuntos de restricciones
ción de Gaussy los conjuntos de soluciones,
de los dos programas lineales son, por lo tanto, idénticos. Debido a la
restricción de las opgraciones que se realicen en el renglón inferior, los
u'] deberán estar relacionadas por
renglones inferiores [-c% u] y [-cb'
[-chT u'] = [c: u] + wT[Ae b]. De este modo,-ckT = -cT + wTAey u' = u
+ w%. Se sabe que los dos conjuntos de restriccionesson idénticos; para
una z en cualquiera de ellos, se tiene que
M = C ~ +Z U
y
M' = cLTz + U'
Por lo tanto,
M - M' = (c: - C;')Z + (U - U')
= w ~ A , z- WTb
=
o.
Ya que los conjuntos de restricciones
son idénticos y las funciones M y M' a
maximizar son idénticas, los dos programas son equivalentes. 9
El método simplex genera una serie de tablas y cada una de ellas describe
programas equivalentes; el análisis del método simplex requiere entonces del
conocimiento de:
11.3
/
Resoluci6n de un programa lineal general
505
l . cómo decir a partir de una tabla si se ha encontrado ya una solución;
2. cómo decir a partir de una tabla si existe una solución;
3. cómo producir la siguiente tabla a partir de la que se está tratando.
Se responderá a esos tres “cómos”sin demostración -véame los problemas del
5 al 8- generalizando el método de la sección 1 1 . l . Recuerde que el método
simplex se ejecuta de tal modo que a cada paso (para programas lineales no
degenerados) precisamente los elementos q -las varibles no básicas- de x, son
iguales a cero, y precisamente los elementos p -lasvariablesbásicasson estrictamente positivos.
(1 1.41)
l . Se ha demostrado una solución cuando todos los elementos (además de
la posibilidad deu en la última columna) en el último renglónde la tabla
son mayores o iguales a cero.
Si (1 1.41) no es válido, entonces se ejecuta otro paso del mttodo simplex. Se
identifica al menor elemento negativo (que no está en u ) del último renglón (en
caso de empate, escoger
cualquier “ganador”); éste corresponderáa una variable, por el momento no básica (cero) x,, y es estavariable la que sehará básica
(positiva) en el siguiente paso del método simplex. Para ver qué tan grande se
puede hacer x,, todo elemento positivo en la columna de x, se divide entre el
elemento correspondiente de la última columna, y el más pequeño de esos
cocientes será el nuevo valor de x,.
(1 1.42)
2. Se sabe que M se puede hacer arbitrariamente grande en el conjunto de
restricciones, de manera que no hay solución óptima cuando no hay
elementos estrictamente positivos en la columna que correspondea la
variable x, que se esté haciendo básica.
Si (1 1.42) no es válido, suponga que (uno de) el cociente
mínimo (o los cocientes)
anteriores está en el renglón i de la columna x,.
(1 1.43)
3. La tabla siguiente se produce usando el i-bimo renglón para eliminar
arriba y abajo de ese renglón en la coiumna x,.
Suponiendo que el método simplex comienza con una solución básica factible, el
procedimiento anterior aumenta la variable x, que antes era cero hasta que
fuerza a ser cero
a otra variable; de este
modo quedan cuando menosq variables
cero -es decir, se ha producido otro vector básico factible. Como el procedimiento incrementa estrictamente a M cada vez, no podrá nunca regresar a un
vector básico factible anterior (de los cuales sólo hay un número finito). En
resumen.
506
11
/
Prograrnacibn lineal
(1 1.44)
Ahora podrá resolver los problemas del 1 al 9 .
El método simplex: implementacidn revisada
Un aspecto del método simplex, tal y como se describió, parece bastante inefivariable x,
ciente. Para determinarsi se ha encontrado unasolución y si no, cuál
no básica habrá que
hacer básica, sólo se necesitanlos q elementos diferentes de
cero del renglón inferior de la tabla;
si se requiere un paso simplex más, entonces
x, son los necesarios
sólo loselementos 2p de latíltima columna y la columna de
para determinar si M es no acotada, y si no lo es, qué tan grande se hace x,, y
determinar al siguiente pivote para la eliminación. Esto es:
Sólo se necesitan
2p + q de los elementos(p + 1) ( q + p + 1) de la tabla para
determinarsi se ha encontrado una solución, si se sabe que no hay
solución, y cuáles habrán de ser las siguientes variables básicas
y no
básicas.
El llamado método simplex revisado busca implementar el método simplex sin
producir los elementos ajenos qp + p 2 + 1.
Ai principio, recuerde que setiene una solución básica factible: q elementos
de x, se han igualadoa ceroy los elementos p positivos se han encontrado como
la solución a p ecuaciones lineales conp incógnitas. Todo lo que se necesita para
estepaso esla inversa (o mejor aun, una descomposiciónLu de la submatriz de
p x p de la matriz original A, que esla matriz de coeficientes para este sistema,
junto conel lado derecho b. Análogamente, con esta inversa y los renglones de
la tabla original se puede calcularel nuevo renglón inferior. Del nuevo renglón
inferior se puede saber, como de costumbre, si se ha encontrado un vector factible básico óptimo. Sino, y si se debe proseguir conotro paso simplex, lo quesenecesita a continuación son los elementos en la columna sobre la variable que
pronto se hará básica; esta columnano se ha calculado todavía,pero se puede
encontrar a partir
de la inversa obtenida anteriormentey la columna correspondiente de la tabla original. Con esta columna a la mano, se determina cuál
11.3
I Resoluci6n de un programa lineal general
507
variable, por el momento diferente de cero (básica),se volverácero. De nuevo se
tienen q variables cero y p variables positivas y se puede continuar el proceso; es
importante observar que sólo una de las p variables diferentes de cero ha sido
cambiada; por lotanto la nueva matriz de p X p cuya inversa (o descomposición
LU) se necesita,difiere de la anterior submatrizde p X p de A, en solamente una
columna, por lo tanto puede modificarse (o “ponerse al corriente”) eficientemente (enlugar de calcularse partiendo del principio) por métodos tales elcomo
teorema 3.63.
El método simplex revisado, como se esquematizó anteriormente, maneja
esencialmente submatrices de p X p de A, y unas pocas columnas adicionales sin
calcular nunca las nuevas versiones de tablas completas. Cuando el númerop
de
restricciones es modestocomparado
con el númeroq de variables,los ahorros en
la implementación del método simplex revisado pueden ser muy significativos.
La mayoría del software actualizado para
el método simplex usa la implementación revisada con modificaciones para manejar dificultades numéricas.
El mLZtodo simplex: iniciacidn
Un asunto que hasta ahora ha
se evitado consistentemente es
el de la iniciación:
se podría igualar a
cómo encontrar una
solución inicial básica factible. En teoría,
cero q elementos de x, metódicamente, resolverlos p elementos restantes de p
ecuaciones y comprobar si x, 2 O. Sin embargo, aun en elpequeño ejemplo de la
resolver tres ecuacionescon tres
sección 1 1 . 1 , habría 10 sistemas como esos para
incógnitas en cada uno,y sólo cinco de los cuales producen en
realidad vectores
factibles; a medida que aumenta el número de variables y de condiciones, este
camino se hace cada vez menos atractivo. La mayoría delsoftware de programación lineal incluye una etapa llamada Phase Z hecha para localizar un vector
básico factible para el arranque del método
simplex (Phase Ir>. El truco está en
definir una nuevo programa lineal con dos propiedades: 1) el nuevo programa
tiene un vector básico factible inicial evidente, y 2) toda solución al nuevo
programa es un vector básico factible para el programa original. Si se hace
adecuadamente, esto detectarási el conjunto de restricciones es vacío para el
programa original. Se examinará un ejemplo en detalle.
(1 1.45)
Ejemplo. Considere el programa de ejemplo enla sección 1 1 . 1 con una
modificación en su segunda restricción:
(1 1.46)
maximizar a 40x1 + 60x,
sujeto a las restricciones
2x1
+ x2 5
70
-XI
-
x2 5
-40
X1
+ 3x2 I 90
x1 2 o,
x2 2
o.
508
11
I
Programacibn
lineal
Ahora, x1 = x2 = O ya no satisface las condiciones, ni es particularmente
evidente que las restricciones se puedan satisfacer. Si se introduce una
variable de holgura s en la horrible segunda desigualdad, ésta se transforma
en la igualdad
-x1
-
+ = -40,
S
y la dificultad se hace aparente con el hecho de que al probar x1 = x2 = O la
variable de holguras se
hace negativa-lo cual no está permitido. El truco es
introducir todavía otra variable, llamada variable artificial,para manejar la
dificultad. Específicamente se agregan, como de costumbre, variables de
holgura x3,x4 y x, en las tres desigualdades, pero también se resta una
variable artificial (x,J en la desigualdad no deseada:
(11.47)
2x,
+ x2 + x j
-x1
-
x1
x2
+ 3x2
=
+ x4
- XG
+ x5
70
= -40
=
90
todas las xi z O.
En este nuevo conjunto de restricciones, es posible hacer x1 = x2 = O,
resultando x3= 70 y x, = 90 cOmO en la sección 1 l . 1 , y al hacer x4 = O resulta
x6 = 40. Observe que ahora se tiene p = 3 restricciones y q + p = 6
variables, de manera queun vector factible para esas nuevascondiciones
debería tener q (= 3) elementos cero; los cuales, de hecho,tiene el vector
de arriba. Desafortunadamente, un vector que es factible para ( 1 1.47) no
necesariamente seráfactible para el conjunto origina! ( 1 1.46) de restricciones a menosque x6 sea igual a cero:Si x6 = O en (1 1.47), entonces dex1ax5
es factible para (11.46). Como x6 2 O, hacer x6 = O es equivalente a
minimizar a x6 sujeto a (1 1.47); y si este mínimo es estrictamente positivo,
entonces no hay vector factible para el programa original (1 1.47). Esto es,
se puede determinar si hay vectores factibles para (1 1.46)
y es posible encontrar si existe uno resolviendo el programa lineal de minimizar a x6 sujeta a las restricciones (1 1.47).
AI reescribir el problema como un problema de maximizacibn buscando
maximizar a M = -x6 se podrá comenzar con el método simplex; la tabla
inicial es
11.3
/
Resoluci6n de un programa lineal general
509
y el vector básico factible inicial es como se encontró arriba:
x1 = x2 = x4 = O como variables no básicas
xj = 70, x5 = 90, x6 = 40 como variables básicas.
Esto no está en la forma estándar (11 .lo) en donde cada variable básica
tiene sólo un elemento diferente de ceroen su columna (y no en el último
renglón): la columnax, violaesto, de
modo que se usará el segundo renglón
para eliminar el elemento ofensivo, entonces se obtiene
2
1
1
-1
1
1
3
-1
1
o
0 - 1
O
O
O
1
o
o
1
O
m]
O / 90'
01-40
lo cual está en la forma (1 l . 10). Hay unempate parae1 elemento
negativo de
mayor valor absoluto en el último renglón. Se escogerá (al azar) la segunda
los elementos positivosen
columna. Los cocientesformadoscon
esa columna son 90/3, 40/1 y 70/1, de los cuales el menor -30- está en el
tercer renglón; el elemento (3,2), por lo tanto, será el pivotepara laeliminación de Gauss-Jordan, resultando la siguiente tabla:
".w,.
'
5
5
o
o
3
1
1
o
0 - 1
0
0
-3
o
o
1
-3
3
01
3
3
01-10
El elemento negativo de mayor valor absoluto enel último renglónes -f;
los cocientes formados con elementos positivos en esa columna son
30/(3) = 90, lo/(+)= 15,
y
40/($) = 24,
de los cuales el menor -15- está en el segundo renglón; el elemento (2, l),
por Io tanto, será el pivote para la eliminación de Gauss-Jordan, dando la
siguiente tabla
510
11
/
Programaci6n lineal
ha encontrado una solución al problema de maximizar a -x6 sujeta a las
restricciones (1 1.47). Las variables básicas son aquéllas que corresponden a
las matrices columnaunitarias -xl,xz,xr y las variables no básicas son las
otras -x4,x5,x& como las variables no básicas son iguales a cero, resulta
x4 = x5 =
=z
O,
XI
= 25,
= 15,
= 15.
Observe que x6 = 0 y , por lo tanto, dex1a x5 hay un vector básico factible
para el programa lineal original (11.46). Con fines ilustrativos, se continuará con la solución al programa lineal original (11.46) en su forma de
variables de holgura.
Este da una tabla inicial de
1
2
1
1
-1
3
-60
o
1
-1
-40
0
O
0
1
0
O
O
I
O
El vector básico factible que se encontró por el método de la variable
artificial, tiene a xl,xz y x3 como variables básicas y así d e acuerdo con
(1 l . 10)- las columnas correspondientes deberán ser matrices columna
unitarias. Sólo x3 satisface esta condición,de modo que se deberá efectuar
una eliminación de Gauss-Jordan en las columnas de x1 y de x,; esto
produce una tabla en la forma adecuada de (11.10):
El elemento negativo de mayor valor absoluto en el renglóninferior es - 30;
los cocientes con los elementos positivos de arriba son 25/(# = 50 y Pi/($)
= 6, de los cuales el menor"
está en el primer renglón. Por lo tanto, se
(1,4) como pivote para la eliminaciónde Gauss-Jordan,
usará ese elemento
produciendo la tabla
Ya que no hayelementos negativos en el últimorenglón, se ha alcanzado un
vector básico factible óptimo. Las variables básicas (diferentes de cero)
11.3
/
Resoluci6n de un programa lineal general
511
corresponden a las matrices columna unitarias en la tabla y serán, por
consiguiente, xl, xz y x4, dejando a x3 y a x5 como variables no básicas
(cero). Haciendoxg = x5 = O resulta quex1 = 24, x2 = 22 y x 4 = 6 como una
solución óptima con M = 2280. Esto resuelve el programa lineal original
(11.46) con xl = 24, x2 = 22 y M = 2280.
PROBLEMAS 11.3
1. Escriba los programas lineales representados por cada una de las tablas
(1 l . 11) y (1 l . 13) producidas al resolver (1l . 1).
D 2. Maximice -4x1 - x 2 + x3 - 2 x 4
sujeto a las restricciones
3x1 - 3x2 i-X J
=3
6x2 - 2x3
+ x4 = 2
todas las xi 2 O.
3. Maximice a x1 + 4x, + 3x3
sujeto a las restricciones
3x1
+ 2x2 + x3 I 4
X1
+ 5X2 + 4x3 I 14
todas las xi 2 O .
4. Maximice a 3x1 - x2
sujeto a las restricciones
-2x1
+ x2 5 1
x1 - 2x2 I
2
x1 2 o,
x2 2 o.
5. Demuestre que (1 1.41) es válido al detectar una solución en el método
simplex, como sigue:
alguna de las
a) Demuestre queM no se puede aumentar haciendo positiva
variables no básicas.
b) Utilice la no degeneración para demostrar que
el vector factible presente
es el Único con todas las variablesno básicas presentes iguales a cero.
c) Deduzca que el vector factible presente es el óptimo.
6. Demuestre que es válido (1 1.42) al detectar una solución no acotada.
D 7 . Demuestre que, en un problema no degenerado, si (11.41) y (11.42) no
pueden ser válidas para un vector factible, laúltima columna de latabla en
512
11
/
Programaci6n lineal
uso (excepto quizá por el elemento inferior)es estrictamente positiva y se
puede encontrar una nueva solución básica factible con UnaMestrictamente
mayor.
8. Si todos los elementos del últimorenglón de una tabla (con la posible
excepción dela últimacolumna) son mayores o iguales a cero,y si uno de los
elementos que corresponden a una variable no búsica, es igual a cero, hay
más de un vector básico factible óptimo. Demuestre esto describiendo
cómo
se puede construir otro aumentando la variable no básica.
D 9. a) Maximice a 40x1 + 40x2 sujeto aa
ls restricciones de (7.1) dando razones
geométricas, y demuestre que hay un número infinito de vectores óptimos factibles y dos vectores óptimos básicos factibles.
b) Utilice el método simplex para resolver este problema y verifique que
aparece la condición descrita en el problema ocho para señalar la no
unicidad.
10. En el método simplex revisado, la necesidad principal no es para la inversa
Bz = w
de la submatriz dep X p , B de A,, sino para la capacidad para resolver
dadas varias w. B cambia sólo en una columna en cada paso. Explique cómo
usar una descomposición LU de B con el teorema 3.63 b) para sacar ventaja
de esto.
D 11. a) Utilice variables artificiales para encontrarun punto inicial básico factible para el siguiente programa lineal.
b) Resuelva el problema.
Maximizar a x1 + x2
sujeto a las restricciones
+ x2 I 10
x * + x2 2 5
2x1 + x2 40
-x1
x1 2 o,
x2 2 o.
12. Haga lo que sepidió para el problema 11 a) y b) pero para el programa
lineal
maximizar a ZX,+ 3x2
sujeto a las restricciones
x1 x1
x2 2 2
+ 0.2x2 2 4
3x1 x1 2 o,
x2 2 14
x2 2 o.
13. Haga lo que sepidió para el problema 11 a) y b) peroPara el Programa lineal
I Resoluci6n de un programa lineal general
11.3
513
minimizar a 2x1 - x2
sujeto a las restricciones
+ 2x2 2 3
X]
+ x2 2 11
4x1 + 3x2 33
lox,
X]
2 o,
x2 2 o.
14. Haga lo que sepidió para el problema 11 a) y b) pero parael programa lineal
maximizar a x1 + x2 + xB
sujeto a las restricciones
x1 + x2
2 3
+ 2x2 + x3 2 4
2x1 + x2 +
I2
x1
x3
x1 2 0 ,
x2 2 0 ,
x3 2 0 .
D 15. Utilice variables artificiales paradeterminarsi hay vectores quesatisfagan a
2x1
+ x2 2 70
x1
+ x2 I 4 0
x1
+ 3x2 2 90
x1 2 o,
x2 2 o.
16. Haga lo que sepidió en el problema 1 1 a) y b), pero parael programa lineal
minimizar a 3x1 - 5x,
sujeta a las restricciones
+ x 2 2 70
2x,
+ x2 2 40
x1 + 3x2 2 90
x1
X]
2 o,
x2 2 o.
17. Haga lo que sepidió en elprograma 11 a) y b) pero parael programa lineal
maximizar a 3x, - x1
sujeto a las restricciones
x1
I 10
x:
+ x2 2 5
514
11
/
Programaci6n lineal
Y,
11.4
DUALIDAD
Enla sección 11.1 sedemostróquedosdistintosprogramaslineales
-(1 l. 1)/( 11.2) y (11.23)/( 11.24)- estaban sorprendentementerelacionados tanto
geométricamente como a través de la aplicación de la cual surgieron. Esta
sección trata de manera más general el asunto de la dualidad e indica su importancia computacional.
(1 1.48)
Definición. Un programa linealen la forma estándar
maximizar M = cTx
sujeta a las restricciones
x 2 O, en donde A es de p X q ,
Ax 5 b,
se dice que es un programa lineal primal. El dual de este primal se define
como el programa lineal
minimizar m = bTy
sujeta a las. restricciones
ATy 2 c,
(1 1.49)
Teorema
y 2 O, en donde AT es de q X p .
El dual deldual es el primal.
DEMOSTRACION. Para escribirel dual del dual se necesita al dual en su forma
estándar. Es posible reescribir el dual en la definición 11.48 como
maximizar M' = dTy con E' = -b,
sujeta a las restricciones
A'y Ib ,
y 2 O siendo A' = -AT y b' = -c,
lo cual está en la forma estándar. Su dual es
minimizar a m' = brTz(= -cTz)
sujeta a las restricciones
A'Tz 2 c',
que es
equivalente
z 2 O (esto es, -Az
al primal.
m
2
-b, z 2 O).
11.4
I
Dualidad
515
Dualidad y el método simplex
En la tabla final (1 l . 13) para el método simplex aplicado para resolver el programa lineal primal (1 1.2) de la sección 11.1, los elementos O , 30 y 10 en su
renglón inferior en las columnas correspondientes a las variables de holgura
(básicas) dela tabla original (1 l.@,son precisamentelos números quese usaron
como elementos de y* en (1 1.25), la cual se demostr6 que es la solución del
programa lineal dual (11.24). Esto es, la tabla simplex para la solución óptima
para el programa primal también contenía la solución óptima al programa dual.
Esto esverdadero deun modo más general; la relación es la mássencilla cuando
x = O se puede tomar como un vector inicial factible (esto es, cuandob 2 O), de
modo que esta hipótesis se hará por conveniencia.
(11.50)
DEMOSTRACION. Ya que b 2 O, es posible escoger a x, de tal manera quelos
primeros q elementos de xe, sean ceroy se obtenga un vector inicial básico
factible. Esto significa que la tabla de partida
A
I
O'
-CT
b1
o
tiene la forma estándar(1l . 10) para comenzar el método simplex. La tabla
final T' se produce partiendo de
T por una secuencia de operaciones
elementales de renglón, con la limitante que las únicas operaciones que
involucren al último renglón, reemplazan a este renglón por sí mismo más
un múltiplo de un renglón superior. Esto significa que elrenglón inferior de
T' es igual al último renglón
de T másuna combinación lineal de los
renglones superiores deT. El renglón inferior deT essólo [-c'
O' O] y es
posible separar al último renglónde T' como [d' y*T u]del mismo modo.
Se ha demostrado que hay algún v tal que
[aT
U ] = [-C'
O'
O]
+ v T [ A I b].
La regla para multiplicar matrices separadas dice que
dT = -cT + vTA,
y*' = y T ,
y
U = v'b.
516
11
I
Programaci6n lineal
Ahora, recordando lo que significa para el método
simplex el terminar en la
tabla T’: el renglón inferior (exceptuando posiblemente a u ) es no negativo,
y u es igual al valor óptimo c,Tx, ya que los elementos diferentes de ceroel en
renglón inferior de T corresponden a los elementos cero(no básicos) dex,
de acuerdo a(1 1.IO). Así, d 2 O , y* 2 O y vT = y*T,de lo cual sesigue que
Es decir que y* es un vector factible para elprograma lineal dual. De u =
v% y c,Tx, = u para la x, óptima, y ya que v = y*, entonces
bTy* = cTx* para la x* óptima formada de lax, óptima.
2O y
Pero entoncessi y es algún vector factible para el programadual y con
ATy 2 c, como Ax* 5 b, se obtiene como en casos anteriores’
bTy 2 (Ax*)~Y
=x * ~ A ~
2Y
X * ~ C= bTy*,
Pero si bTy 2 bTy* para toda y factible, entonces y* es solución del programa lineal dual. m
(11.51)
Ejemplo. Considere el programa lineal primal
maximizar a
sujeta a
x1 2 0 ,
+ 2x2 + 3x3
2x1 + x2 + 6x3 I 1
x1 + 2x2 + xg I I
2x1
x3 20,
x2 2 0 ,
y a su programa lineal dual
minimizar a
sujeta
a
+ y2
2y, + y, 2 2
y,
+ 2Y2 2 2
6Yl + Y 2 2 3
Y,
y1 2 o,
y , 2 o.
La tabla inicial para la versión de variables deholgura del primal es
2
1
-2 -2
6
1
1
2
-3
1
0 / 1
o
o
010
Se toma como pivote al elemento (1, 3) y se produce la tabla
11.4
I Dualidad
517
Se toma como pivote al elemento (1, 1) y se produce la tabla
1 y x3 = O ,
de modo que la solución en las variables x es x1 = f , x2 = 3,
mientras que la solución en las variables y viene del cuarto y quinto
elementos delúltimo renglón, es decir,y1 = yz = 4. Observe que, como se
afirmó, el valor mínimo y , + yz para el dual (3) es igual alvalor máximo 2x,
+ 2xz + 31, para el programa primal.
Uso computacwnal de la dualidad
La relación primal/dual puede ser muy útil computacionalmente, ya que
la tabla
simplex para la solución de uno de ellosda una solución del otro (porque
el dual
del dual es el primal). Así, en la práctica es posible resolver cualquiera de los
programas lineales que sea más conveniente computacionalmente.
Suponga, por ejemplo, que se tienen
mucho másrestricciones que variables,
método simplex necesita hacereliminaciones
de modo que p >> q. Cada paso del
en un gran número p de renglones, y el método simplex revisado necesita
inversas de grandes matices dep x p . Sin embargo, el programadual esdeq X p ;
por ejemplo, el método simplex revisado sólo necesita inversas de lasmatrices
aplica a este dual. Una
vez resuelto
de q x q que son mucho menores cuando se
el dual de q X p , se podrá leer una solución al primal de la tabla final como
en el teorema clave 11.50. La resolución del dual puede ser mucho más eficiente
cuando p >> q.
Suponga, como otro ejemplo, que se deben resolver
varios programas lineales que sólo difieren por laadición de nuevas restricciones,una situación que se
presenta en las aplicaciones. Unavez que seha encontrado una solución óptima
de usarse para
resolver el
para un programa primal, no es clara la forma enha que
siguiente programa con mayor facilidad, porqueesa solución óptima no necesita
satisfacer la restricción adicional.
Sin embargo, agregar una restricción al primal
significa solamente agregar una variable al dual, y la solución óptima del primer
dual da un vector factibleinicial para el nuevo dual sólo igualando a cerola nueva
variable dual. El programa dual puede manejar fácilmente esta situación.
518
11
(1 1.52)
/
Prograrnaci6n lineal
Ejemplo. Suponga queen el programa linealprimalmodelo(11.1)
que
mostró un problema de planeación de producción, la gerencia de planta se
da cuenta que debido a reglamentos gubernamentales de seguridad sobre
sus productos, se necesitará un paso adicional de manufactura en
un cuarto
tipo de máquina, y que las necesidades de tiempo para la nueva máquina,
así como los requisitos de uso de la máquina para cada producto, se
traducen en la restricción adicional
+
1 . 5 ~ ~2x, 5 7 0 .
La solución óptima original es x1 = 15, x2 = 25, pero ellas no satisfacen la
nueva restricción. En lugar de reescribir el método simplex desdex, = xz =
O para resolver el nuevo programa lineal formado al unir esta nueva restricción a las de (1 l.l), se tratará mejor el programa dual (replanteado en
lenguaje de maximización):
maximizar -70y1 - doy2 - 9 0 ~ 3- 7oY4
sujeto a las restricciones
Esto difiere del programa dual original (1 1.23) sólo por la presencia de una
variable adicionaly,. El resultado final de lasección 11.1fue demostrar que
y1 = O , y 2 = 30, y3 = 10 era un vector óptimo factible para el dual original;
esto, juntocon y, = O da un vector factible (aunque ya no óptimo) para el
nuevo programa dual. Es, en efecto,un vector bhsico factible porque tiene
dos elementos cero. Agregando variables de holguray, y y 6en las desigualdades se produce una tabla inicial
[:
1
1
1
3
2
3
2
70
90 40 70
1
O140
-1160.
O 0
-1
O
O
Las variables básicas (diferentes de cero) son yz = 30 y y3 = 10, de modo
que las columnas de yz y y3 deberán ser matrices columna unitarias. La
eliminación de Gauss-Jordan produce una tabla que cumple con (11.10):
5
1
0
5
-3
1 ’
4
2
21
0
1
$
L2 - I2 ’1
15
O
O
-I2
15
25
-2100
11.4
I
Dualidad
519
El método simplex lleva a tomar como pivote al elemento (1, 4), 2 lo que
resulta en la tabla
4
0
-1
-15
1
o
20
2
O
O 2612
2
1
-5
5
$
2 '
5 1
-31
2].:
j -2040
Como los elementos del renglón inferior son no negativos (además de
posiblemente la última columna), se tiene una solución y 1 = y2 = y5 = y 6 =
O, y3 = 4 y y5 = 24. Esto, sin embargo, no era lo que se buscaba;se resolvió
el dual para resolver el primal (eldual del dual). De acuerdo con el teorema
clave 11.50, es posible leer la solución primal de los elementos en el renglón
inferior bajo las variables de holgura: x1 = 12, x2 = 26. Este plan de
producción da una nuevautilidad máxima de 40( 12)+ 60(26) = 2040. El uso
del dual sólo necesitó de un paso simplex en una tabla de 3 x 7; el uso del
primal hubiera requerido de dos pasos simplex en tablas de 5 x 7.
Teoría de la dualidad
La teoría de la dualidad en programación lineal es elegante y profunda, con
interpretaciones -como se vio en la sección 11.1 en el problema e i e m p b
algebraicas, geométricas y de aplicación. Ya se han desarrollado y demostrado
algunas partes de estateoría -por ejemplo el teorema 1I .48 y el teorema clave
11.50. Se reenunciará algo de estoy se presentarán algunos hechos adicionales
en los siguientes resultados.
(1 1.53)
520
11
I
Prograrnaci6n h e a l
DEMOSTRACION
a) Véase el teorema 11.49.
b) Calcular simplemente: cTx 5 (yTA)x = yT(Ax) 5 y% = bTy.
c) Si x es factible parae1
primal, entonces, por b), cTx5 bTy*,lo que esigual
el
a cTx*por hipótesis; pero crx S cTx*porque todax factible para primal
parala
significa que x* es óptimaparael primal. De manera semejante es
y* óptima del dual.
d) Esto es consecuencia inmediata de b).
e) Por d), ambos programas están acotados; por el teorema clave 11.44
sobre soluciones simplex, ambos
programas tienen soluciones óptimas
que se pueden obtener por el método simplex. El teorema clave 11.50
sobre el primal, el dual y el método simplex, muestra que el mínimo
(bTy*en ese teorema) parael dual es igual al máximo(cTx*allí) para el
primal.
f) Si el dual tiene un vector óptimo, entonces el teorema clave 11.44
establece que se puede encontrar por el método simplex, y el teorema
clave 11.50 establece que de esa tabla
final es posible construir un vector
(óptimo) factible parael primal, el cual por hipótesis no existe; por lo
tanto, el dual no puede tener un vector óptimo.De modosemejante para
el enunciadoalterno. m
(11.54)
Ejemplo. Considerar
las
desigualdades
2x1
x, 2 70
+
x 1 + x, I 4 0
X1 + 3X, 2 90
x , 2x02,2 0
y la pregunta es si existe algún vector que las satisfaga. Se agregará una
función a maximizar, M = cTx, en donde c = [l 1]*, y se considerará el
dual (multiplicando las 2 desigualdades por - 1 para obtener la forma adecuada de encontrar al dual):
minimizar a -7Oy, + 4Oyz - goy3
sujeto a las restricciones
-2Y1 + Y, - Y3 2 1
-Y1 + Y2 - 3Y3 2 1
y, 2 o,
y, 2 o,
y3 2 o.
Si se hacey,= 2a,y z = 1 + 5a, y y3 = a,entonces las restriccionesdel dual
se satisfacen si a 2 O: también
11.4
I
Dualidad
521
lo cual no está acotado inferiormente porque se puede tomar arbitrariamente una (Y grande y positiva. Por el teorema clave 11.53 d), no podrán
existir puntos factibles para las restriccionesprimales
Hay conexiones elegantes entredualidad en programación lineal y la teoría
dea
lsdesigualdades lineales, especialmente
los llamados leoremas dela alternativa (algo parecido a la alternativa de Fredholm para las
igualdades). Como un
ejemplo de la conexión, suponga que esimposible encontrar una x que satisfaga a
Ax S O, x 2 O y cTx > O . Como x = O satisface alas primeras dos desigualdades,
esto significa que O es solución del programa lineal de maximizar cTx sujeto aAx
1. O y x 2 O. Si este programalineal fuera no degenerado-que
no lo es; dehecho,
es degenerado- se podría usar f) del teorema de la teoría de la dualidad para
deducir quehay un vector y que es factible parael dual, demodo que ATy2 c, y y
2 O. Aunque aquí no se ha desarrollado una teoría lo suficientemente poderosa
para probarlo,es cierto que taly existe. También es fácil de ver que es válida la
inversa: si existe esa y, entonces no puede haber una x como arriba porque, si
la hubiera, se tendría que O < cTx I(yTA)x = yT(Ax) 1. O , una contradicción
intrínseca. De modoque el siguiente teorema de la alternativa
es de hecho
válido
ls herramientas para una corta demostración).
(aunque se carece dea
(1 1.SS)
Teorema (un teorema dela alternativa). Sean A dep X q conp 2 q y q 2 1y
c dos matrices reales. Entonces será
válida exactamente una de lassiguien-
tes alternativas:
1. Existe una x que es solución de Ax IO , x 2 O y cTx > O ;
o bien
2 . Existe una y que es solución a ATy B c y y B O.
Hay muchos teoremas de este tipo relacionados entre sí, algunos de los
cuales son equivalentes. Se concluirá con uno de los más famosos como un
corolario del teorema anterior. Geométricamente dice que si un vector d, no
puede formar un ángulo agudo con ningún vector z que forma ángulos obtusos
con cadauno de los vectoresbi de cierto conjunto, entoncesd es una combinación lineal no negativa de las bi.
(1 1.56)
Corolario (teorema de Farkas de la alternativa).Sean B y d matrices reales
de p X y y q X 1 respectivamente. Entonces ocurriráuna de las siguientes
dos alternativas:
Ya sea que
1. exista una z que e s solución a Bz 5 O , dTz > O;
o bien que
2 . exista una y que es solución de BTy = d, y 2 O.
522
11
I
Programaci6n lineal
DEMOSTRACION. SeaA = [B-B],
cT = [dT -d'], X' = [u' v']. Entonces
1) equivale a resolver a Ax 5 O , x 2 O, en dondepodemos escribir z = u - v
con u L O y v L O. Así, por el teorema 113 , el no resolver a 1) es
equivalente adespejar a y con ATy L c y y 2 O ; pero ATy 2 c es precisamente
lo que es equivalente a By'
= d.
PROBLEMAS 11.4
D 1. Reescribiendo el programa en forma estándar, encuentre el dual del programa lineal
maximizar a F z
sujeto a las restricciones
BZ = d,
z 2 O.
2. Reescribiendo el programa en forma estándar, encuentre el dual del pro-
grama lineal (no hay restricciones de no negatividad)
maximizar a frz
sujeto a las restricciones
BZ = d.
D 3. Encuentre eldual de cadauno de los siguientes problemas de lasección 11.2:
a) problema 1
b) problema 3
c) problema 5
4. Encuentre eldual del dual de (1l. 1) y demuestre que es precisamente (1 l . 1)
de nuevo.
5. Utilice el método simplex en el dual para resolver el programa lineal
maximizar x1 + x2
sujeto a las restricciones
+ x2 I10
x 1 + 2x2 I50
5x1 + x2 I 160
-x1
x 2 5 15
x1 2 o,
x* 2 o.
11.4
I
Dualidad
523
6. Suponga queA es depX q en un programa lineal en formaestándar,de modo
que latabla para la versión de variables de
holgura del primal es de(p + 1) x
(q p
1) mientras que la tabla para la versión de variables
holgura
de del
1) X (q
p
1). Cuentelasoperacionesaritméticas
dualesde (q
+ +
+
+
+
implicadas en laeliminación Gauss-Jordan en una columna de cada tablay
entonces expliquepor qué, porlo general, es mejcr resolver el dual en lugar
del primal cuando p >> q .
7. Adjunte una nueva restricción 4x1 + x, I80 al programa lineal (1 1.1) y
entonces use la dualidad como en el ejemplo 11S 2 para resolver el primer
primal.
8. Use el método simplex para resolver el dual en el ejemplo 11.54 y de allí
tiene vectores
descubra que el dual no es acotado y que elprimalno
factibles.
9. Use la dualidad para demostrar queel programa lineal delproblema 16 de la
sección 11.3 no tiene solución óptima.
D 10. Utilice la dualidad para descubrir la naturaleza de
o la solución al programa
lineal
minimizar -x1 + 2x,
sujeto a las restricciones
-5X1
+
x1 2 o,
X2 2
2
x2 2 o.
11. Utilice la dualidad para descubrir la naturaleza de
o la solución al programa
lineal
maximizar x1 - x,
sujeto a las restricciones
-2x,
+ x2 I 2
x1 - 2x2 I 1
x1
+ x2 5 4
x1 2 o,
x2 2 o.
D 12. Se usó el teorema 11S 5 para demostrar e¡ teorema de Farkas sobre la
alternativa; demuestre que esos dos teoremas son equivalentes usando el
teorema de Farkas para demostrar el teorema 11.55.
13. Aplique adecuadamente el teorema de Farkas sobre la alternativa [z'
a a]'
para demostrar el siguiente teorema sobre la alternativa:
Ya sea que
hay una solución a Bz S f,
524
11
/
Programaci6n
lineal
o bien,
hay una solución a BTw = O , w 2 O , F w = - 1,
pero nunca ambas alternativas.
11.5
PROBLEMASVARIOS
PROBLEMAS 11.5
1. Demuestre que el .programa lineal
maximizar 0 . 7 5 ~-~ 15Ox, + 0 . 0 2 ~-~6x4
sujeto a las restricciones
$XI
- 60x2 - &x3
+XI
- 90x2 - &X3
+ 9x4 IO
+ Io
x3
I 1
3x4
todas las xi e O
es degenerado. Cuando se aplica el método simplex, hay “empate” para
decidir cuál renglón se debe usar en la eliminación; si se decide el empate
escogiendo el renglón máscercano a la parte superior de latabla, entoncesel
método simplex se hace cíclico y nunca converge. Demuestre esto aplicando
el método simplex. (La degeneración se presenta a menudo en las aplicaciones, pero que seacíclico ocurre rara vez en estas situaciones; el inventor del
método simplex, George Dantzig, recuerdahaberse encontrado sólo con un
caso en la práctica desde queinventó el método.)
2. El programa lineal
minimizar cpTx,
sujeto a las restricciones A,x, = b,
x, 2 O,
en donde A, es de m X n y ( n / 2 ) < m < n, y A, tiene rango completo m.
Demuestre cómo reduce esto a un problema mús pequefio en tamaño (n - m)
X n como sigue. Demuestre que sepuede encontrar una matriz S de n X n , tal
que
A,S = [B O],
en donde B es de m x m y no singular. Sea y = S-lx,, y sepárense las matrices
de modo que
y = S-lx,
=
[;:I,
S = [S,
S,],
11.5
I
Problemas varios
525
en donde y, está en Rm, y, estáen R""", S, es denX m y S, es den X (n - m ) .
Demuestre entonces queA,x, = b, y que x, 2 O si y sólo si y, = B"b Y Slyl +
Sg,z O. Deduzca que el programa lineal primal es equivalente a
minimizar cTS2~2
sujeto a que S,y2 2 -S,B"b,
cuyo dual es
maximizar -(S1B"b)Tx2
sujeto aque STX, = Syc,
x2 L O
y la matriz de las restriccionesde igualdades ahora sólo de (n - m) X n (esta
técnica fue comunicada por David M. Gay).
3. a) Utilice el métododel problema dos sobrela forma de
variables de holgura
del problema modelo(1l . 1) para cambiar de cinco variables y tres igualdades a cinco variables y dos igualdades.
b) Resuelva el programa lineal en la nueva forma y úselo para obtener una
solución al programa original.
D 4. Una biblioteca universitaria abre las 24 horas del día, y cada bibliotecario
a las 12 de la noche, 4
trabaja un turno continuo de ocho horas comenzando
AM, 8 AM, 12 del medio día, 4 PM u 8 PM. Para manejar la demanda de
servicio, la biblioteca necesita el siguiente número de bibliotecarios trabajando durantevarios periodos de tiempo : 3 de media noche a 3:59 AM; 2 de 4
AMa7:59AM;lOde8AMal1:59AM;14demediodíaa3:59PM;8de4PMa
759 PM; y 10de 8 PM a 11:59 PM. Sean xl, x,, . . . ,x6 el númerode personas
que inician su turno de ochohoras a la media noche, a las 4 AM, . . . , 8PM
respectivamente, planteé como un programa lineal elproblema de minimizar
el número total de bibliotecarios necesarios para operar la biblioteca. Demuestre que unasolución óptima está dada porxl= 2, x, = O , xg = 14, x4 = O,
xg = 8, x6 = 2 una vez que el sistema esté en operación.
5. A menudo se han discutido maneras de escogera z para que Bz quede lo más
cerca posible a w en el sentido dela norma dos, estando dadasB y w; esto es
sólo elproblema de mínimos cuadrados que se puede resolver, por ejemplo,
con las descomposiciones QR o en valores singulares. Se puede usar la
programación lineal para resolver estoen un sentido de normam. Para hacer
que el máximo de los valores absolutos de dos variables u y v sea lo más
pequeño posible, se puede minimizar a m sujeta a las restriciones u S m, --u S
m,vSmy-vIm.
a) Explique por qué esto minimiza al máximo de J u Jy a Jul.
b) Utilice esta ideapara formar un programa lineal cuya solución determine a
la z que minimiza a IlBz - wllm.
D 6. La programación lineal se puede usar de modo semejante a corno se usó en el
problema cinco, para determinar la z que minimiza a llBz - wII1. Para minimi-
526
11
/
Programaci6n lineal
zar a IuI + tul, se puede minimizar a m , + m2 sujeto a las restricciones K Im,,
"u Im,, u Im,, -u Im,.
a) Explique por qué esto minimiza a /u1 + Iv(.
b) Utilice esta idea para formar un programa lineal cuya solución determine a
una z que minimice a llBz - wI(,.
7. Utilice el problema cinco para resolver el siguiente problema. Se supone que
el número N de divisiones celulares en determinado organismo en cada
periodo de tiempo es aproximadamente N , + bp, en donde p es la cantidad
que se añade de cierto
estimulante del crecimiento, y N , y b son parámetros
del modelo a determinar. Se efectúaun experimento usando tres cantidades
distintasp, = 1, p 2 = 3 , p , = 6 del estimulante, y se encuentra que los números
respectivos de divisiones celulares son N , = 40, N , = 102 y N , = 190.
Determine los parámetros del modelo N , y b para minimizar elerror máximo
en el modelo para los tres experimentos, esto es, para minimizar a
máx { I N , + b - 401, IN, + 3b - 1021, IN,
+ 6b
-
1901)
8. Suponga que una compañía panificadora tiene tres panaderías con capacida-
des deproducción de 5000,7000 y 9000 panes diarios. Suponga también que la
empresa embarca a cinco bodegas para su ulterior distribución, y que las
demandas diarias en esas bodegas son de 2000, 6000, 8000, 4000 y 1000.
Debido a las diferentes distancias entre las tres panaderías y las cinco bodegas, los costos detransporte varían dependiendo de quién manda y cuál es el
destino. Suponga que el costo monetario de remitir 1000 panes desde la
elemento (i,j) es la siguiente matrizde costo:
panadería i hastala bodegajes el
70
60
30
30
50
20
20
80
50
40
30
70
20.
40
10
Construya un programa lineal para determinar cuántos panes habrá que
mandar cada día desde cada panadería a cada bodega para satisfacer las
demandas de las mismas con el menor costo. (Estees un ejemplo del famoso
problema de transporte y es de enorme importancia práctica para grandes
negocios.) Resulta que la solución es que la panadería i debería enviar a la
bodegaj el número de panes especificado por el elemento i, j de la siguiente
matriz solución X:
O
O
2000
o
3000
3000
O
5000
O
4000
3000
o
1000
11.5
I Problemas
varios
527
El costo mínimo es de $650 diarios. Verifique que esta solución sea factible
para el programa lineal y que su costo sea el citado.
D 9. Suponga que x* es óptima para elprimal y que y* es óptima para el dual de la
definición 11.48, y sean S, y S, las variables de holgura correspondientes: Ax*
+ S, = b, y ATy* - S, = c, siendo S, 2 O y S, 2 O.
a) Demuestre la condicibn de complementaridad para programas lineales:
s:y*
= s;x*
= o.
b) Deduzca quecT es una combinación lineal no negativa de los renglones de
A correspondientes a aquellas restricciones satisfechascomo igualdades
en x*, y de -e? para aquellas i para las que (x*)* = O.
Apéndice uno
Respuestas a problemas seleccionados
Capítulo1
Problemas 1.1
1. a) 7;. d) 6 - 4i.
4. b) y . f) O.
g) -46 - 9.;
k) -$ - i .
Problemas 1.2
1. x = 6,z = 2.
4. (A + A)i, = (A)ij + (A),, = 2(A),, = (2A)ij.
8. (A + O)ij = (A)¡, + (O)ij = (A)¡, + O = (A)ij para toda A.
11. (A + (-A)),. = (A)i,
(-A)i, = (A)¡,
(-(A)ij) = O = (0);j.
14. (( -r)A)ij = (-r)(A)¡, = -(r(A)¡,) = -(rA)ij = ( -(rA))¡,.
+
+
Problemas 1.3
4. (A)3j = 4(A)lij> y (AB),, = <A)31(B)li + ' . + (A)3q(B)qi.
7. CD tiene sentido para C de m X n y D de k X S si y sólo si n = k .
11. a) (A 0B)¡, = (A)ij(B)ij = (B)¡,(A)¡, = ( B O A)¡,.
c) (E)¡, = 1 para toda i,j .
14. A debe conmutar con
'
20. A" =
[g
nr"
1,
~
+
24. (AO), = (A)il(O)l,
-1
M. b)[;:
30. ( ( c A ) ~ ) ~=
,
3
es el punto
de
partida.
' ' '
+ (A)iq(0),j = (A)ilO +
'
. + (A)i,O = O = (0)q.
6
c) [23].
-
= F(A),, = F(AH)ij = (FAH)..V '
33. Use la inducción matemática: 1) cierto para k = 2; 2) si es cierto para k = i , será
AJAi+, y sabiendo que es
válido para k = 2 y
cierto parak = i + 1 escribiendo (A, .
para k = i.
1
-
529
530
Aobndice uno
37.
[
6 + ci
d
a
b - C¿
1
para a , b ,c y d reales.
41. a) (A2)T = (AA)T = ATAT= ( A T ) * . c) Considere a A =
[: b]-
45. b) (A - AT)T= AT - ATT= AT - A = -(A - AT).
48. Escriba A = B + LC con B y C reales, y desarrolle lo que significa AH = A.
51. Como ekis evaluado en xj es igual a zkG-l), las ecuaciones simplemente serán
fj = eo + c I z j - ' + c *( S 1 ) + . . + e"
'
I(Zj- 1)N-
'
para j = 1,2, . . . , N .
Problemas 1.4
1. No hay ninguna.
8. a) L es la inversa izquierda deA si y sólo si LA = I si y sólo si (LA)T = IT si y sólo si
A T T = I si y sólo si LT es una inversa derecha de AT.
12. a) Use diag(d,, . . . , d,)diag(e,, . . . , ep) = diag(d,e,, . . . , d,e,).
b) Véase el problema 6 de la sección 1.3.
15. Compruebe, mediante el teorema 1.22 d), que (AT)(A-l)T= (A")T(AT) = I.
19. Use el teorema 1.35 c).
21. Véase la sugerencia para el problema 33 de la sección 1.3.
23. d) z = COS n/6 0.87.
2 -1
26. X = -7
h].
[
29. b) Ambos métodosdeberíandar
32. b) s(x) = 2 sen x + 2 cos 2x.
[ -8
28
-2017.
Problemas 1.5
2. A + B =
5. AB =
[A
[
-
-:]
8
5
10 - 1
11. a) Escriba
ambas
en
formas.
[i I
7. Seobtiene 119 -25
en ambas formas.
58IT de ambasformas.
=
E
p].
13. Escriba en detalle AX = XA = I y use ¡a no singularidad de A para resolver a B, w,z, a
Respuestas a problemas seleccionados
531
en donde
19. [ - c - $
-c
+ 5 c] para c arbitraria.
Problemas 1.6
2. Considere los elementos de ladiagonal principal de ATAy BHBpara demostrarque A y
B son iguales a O.
3. Use (I + K)(I - K) = I - K2 = (I - K)(I K), el teorema 1.22 d) y el teorema 1.35 c).
4. Desarrolle AR = I o LA = I y compruebe que el renglón o columna cero produce una
contradicción.
6. Use a) para deducir b).
+
Capítulo 2
Problemas 2.2
4. a) A = 0.05
0.10
[O35
[
6. a) A = 0.20
0.10
0.70
0.75
0.10
0.15
0.05 .
0.90
0.051
0.60
0.20
0.20
0.30 .
10. [S t 33’.
13. Convergen.
17. AimpX[xo y o zOlT = [z,
21. Aimpar = A Apar = I3.
0.50
0.201
y o x0IT.
Problemas 2.3
3. “de guerra”.
5. a) Compare 1000(1.1)‘ con lO(l.15Y. b) Con i aproximadamente 104.
9. Fitiende a 2400 y Ci a 1920.
12. En k = 0.16.
Problemas 2.4
3. d l = -0.0078, d , = 0.0561.
7. d l = 9, d , = 7.5, d , = 9.5.
Problemas 2.5
-u]
4. b) (K - wzM)C = O y (K - wZM)q= O, en donde
1 -1
K = k [ - l o -12
y
m
M=[O
0
0
M
0
O
O
m
532
Apbndice uno
6.
= O, 6, O
10.
Problemas 2.6
3. 9x1 + 1 7 , 4 6 0 ~
=~1288.3, 1 7 , 4 6 0 ~
+~3,387,400~~
= 2,510,405.
6. y X -3.194 + 2.522t.
10. X = [-0.0271.2161'.
13. 5a i266 + 198c = 33, 26a + 1986 + 1664c = 227, 198a + 1664b + 14,802~= 1871.
Problemas 2.7
3. Minimice a bTy con b = [70
40
90IT y las restricciones
5. La primera desigualdad se convierte en2xl + x, S 55, satisfecha todavía por 15,25.
Esta todavía es óptima, porquelos nuevos planes permisibles forman un subconjunto
de los antiguos planes permisibes.
8. x 1 = O, x2 = 30.
10. Cualquier c y d positiva tales que 1 Ic / d 5 2.
Capítulo 3
Problemas 3.2
1. a) x1 = -1, x2 = 2, x 3 = 4.
4. X I = 1,x2 = -2, x3 = -1.
1 -13 -2 3 0
8. a)
[; ; 7 y].
10. No hay soluciones.
12. b = [a
p
CI
+ BIT, a y p arbitrarias.
Problemas 3.3
1. x = y = 1.
4. x1 = - 1, xz = 2, x3 = 1, xq = o.
8. a j Las columnas 1 y 2; .x1, X,; la última columna es no delantera, todaslas variables
son delanteras, por lo tanto exactamente una Solución.
-3a
-3b - 3 ~
10.
= X para a , b y c arbitrarias.
I]
[
Problemas 3.4
1. A"
='[
4. x, = [l
-1
12
1
-6
2
O
1 -6
l]', x2 = [4
i],
1 217, x j = [l
2 11'.
Respuestas a problemas
seleccionados
533
Problemas 3.5
2. Ei(c) = diag(1, . . . , 1, c, 1, . . . , 1) estando c en la i-ésima posición; sólo calcular
Et(c)A.
y el problema 7.
8. Utilice (EA)" = A"E"
Problemas 3.6
1. b) 0.57.
4. a) x1 = -0.04,x2 = 2.2.
6. El residual es [0.01 O]=.
9. El residual es [O -0.0001IT.
Problemas 3.7
1. u l l = 2, m 2 ]= -4, m31= -2, uZ2 = -3, m32= 2, u33= -1.
4. Resuelva Lxi = ei para toda i.
6. Utilice inducción matemática; parados matrices
A y B triangulares inferiores, escriba
en detalle (AB)o paraj > i.
10. Utilice los problemas del 4 al 8 para comprobar que L;'L,es triangular
inferior
mientras que UzU,i 'es unitaria triangular superior,y deduzca que cada una es
igual
a I.
']3['
1 2 - '[]O3 0
14. A=[:
r
C)
A=
O
1
-
L3
2
1
1
0
o
-1
-:]=[y
O
O
0
1
0
0
1.
:I[: -?l.
Problemas 3.8
1. Un renglón por una columnaimplica S productos; la suma de S términos necesita de
S
- 1 sumas; cada uno los
der renglones debe. multiplicar a cadauna de las t columnas.
5. a) 430. b) 119,210.
7. Por ejemplo, paramultiplicaciones o divisiones, el método PTLU cuesta ( p 3 - p)/3 +
k p 2 ,el otro cuestap3 para
la inversay luego kp2 para las soluciones, y ( p 3 - p)/3 + kp2
S p 3 + kp2 para toda k 2 O y todap r O .
11. Observe que K es sólo de 1 x 1.
15. a) El dividir el renglón i por el pivote cuesta1 multiplicar o dividir por 1 Ii I p - 1.
La eliminación en el siguiente renglón cuesta 1 multiplicar o dividir y 1 sumar o
restar por 1 Ii S p - 1.
534
Apbndice uno
Problemas 3.10
2. a) Para k = O, x1 = 3 - 3a, x2 = I , x3 = a siendo a arbitraria.
b) No hay solución para k = -4.
5. li, = a i , para 1 I iIp ; entonces uLi= al,/lll para 2 Ij 5 p ; entonces li2 = ai, - lilulz
para 2 5 i I p ; entonces ua = (azj - 121uLi)/122
y así sucesivamente.
;],u=[*o
7. L=[;
-5
'l.
10. a) Escriba primero A = LU como en el teorema clave 3.48; después haga Do =
diag(a,,, . . . , a,,),U, = U, L, = LD".
13. Si L,DoU, = LID,Ul,entonces L; 'L,es unitaria triangular inferior y es igual a
DoUIU;"D~" triangular superior, ambas, por lo tanto, deben ser iguales a I. Entonces, L, = L l y la U,U;" unitaria triangular superior esigual aD5'Dbdiagonal de modo
que ambas son iguales a I.
15. LIDoUl = A = AT = UTD:LT, utilice el problema 13 o su demostración.
Capítulo 4
Problemas 4.2
1
-8
-14
5. Las primeras p columnas sirven para tener a la matriz en la forma adecuada.
8. Aplicar a [A B] las operacionesde renglón que transforman a A en la forma reducida
de Gauss G y explicar por qué la [G B'] que se obtiene estáen la forma reducida de
Gauss, en vista del hecho de queA y G tienen rango p .
10. Intercambie renglones de modo que los renglones diferentes de ceroqueden entre los
p - n renglones superiores; reduzcala matriz superior O, - n ) x p a su forma reducida
de Gauss y explique por qué esto transforma a A en su forma reducida de Gauss.
14. La forma escalón reducida por renglón es igual a I,.
Problemas 4.3
1. a) Infinitas.
c)Ninguna solución.
f) Una solución.
3. Las soluciones sedan cuando b = [z
a + PI'.
7. El punto común es (x, y ) si y sólo si [a b][x y I T = c.
9. a) h = uC-4
1 O O]' para a! arbitraria.
13. Toda R = R, + Y , en donde Ro es cualquier inversa derecha fija y Y es cualquier
solución a AY = O.
16. Ax, = x, significa que O = Ax, - x, = (A - I)x,.
Respuestas a problemas
seleccionados
535
las mismas operacionesde renglón en [AI,]
producen F[AI,]
= [FA F] =
[I, F]. Como FA = I,, entonces F = A-'.
6. Revise la posibilidad de solución de Axi = ei mediante el teorema clave 4.13.
8. a) Demuestre quehay una x # O tal que(AB)x = O determinando ax # O con Bx = O.
11. Sea F no singular con FA = R, en la forma reducida de Gauss rango
con k , , y sea G no
singular tal que G(AAT) = R, en la forma reducida de Gauss rango
con k,. Demuestre
que F(AAT)tienep - k , renglones cero y deduzca que
k , 5 k , . Demuestre queGAATGT
= R2GTtiene p - k , renglones cero, y deduzca que GA tiene p - k , renglones cero
examinando a (GAATGT),,y entonces deduzca que k , 5 k,.
Problemas 4.5
1. c) det A = 30.
4. Desarrolle repetidamente respecto al primer renglón o a la primera columna.
8. det A = 60.
10. Utilice det AT = det A.
12. Si T es triangular inferior, desarrolle repetidamente respecto al renglón superior.
15. El problema 14 dice que larecta
pasa a través de
los tres puntos(x, y ) , (x,,yl), (x,, y , ) ,
si y sólo si esto es válido.
18. Utilice inducción matemática en n y los teoremas 4.35 y 4.36.
Problemas 4.6
1. A(adj A) = O.
-;
6
-2
-3
I[
4. b) 11
7. A(adj A) = (det A)I,, entonces (det A) det(adj A) = (det AY.
9. b) Los determinantes son iguales a 1 y a lo8 + 1.
12. X] = 2, x1 = - 1.
14. a) x' = A"b = A"(b + €ei) = A"b + EA-le, = x. + eA"e,.
b) (xo)] varía di1/(detA) siendo Ai, el cofactor ( i , j ) .
Problemas 4.7
2. Si F es no singular y FR está en la forma reducida de Gauss,
y G es no singular y GS
está en la forma reducida de Gauss, entonces
diag(F, G) es no singular y coloca aA en
una forma enque se obtiene fácilmentela forma reducida de Gaussmediante unos
pocos intercambios.
5. Hay una F no singular tal que FA = G en la forma reducida de Gauss con G =
[g O . OIT. Entonces A = F"G = cr, siendo c la primera columna de F" y r el
primer renglón gT de G.
7. Parta R en R,, escriba AR = diag(1, . . , I), y observe que esto necesita que
AiiRii = I.
10. a) Desarrolle respecto al último renglón o a la última columna.
.
536
Apbndice uno
11. Comenzando conla penúltima columna, reste a cada columnax, veces la columna a
su izquierda. Desarrolle entonces respectoal renglón superior y factorice a (x, - xl)
. . . (xz- xl) del resultado. Finalmente,utilice lainducciónparamanejareldeterminante Vandermonde de (p - 1) X ( p - 1) resultante.
x:
XlYl
Y:
XI
Y1
1
XZY2
Y:
x2
Y2
1
1
Y:
Y:
Y2
YS
X4Y4
x:
XSY5
x2
xy
%Y3
x4
Y4
x5
Y5
1
= o.
1
11
14. det 4
18. Si ATAx = O, entonces O = xTATAx= llAxll:, de modo que Ax = O y así x = O porque A
tiene el rango q .
x
x3
YY 3
Capítulo 5 Problemas 5.1
4. Aproximadamente a5.8 m/h aun ángulo de 30° aguas abajo con
el otro ladodel río.
7. Velocidad del aire alrededorde 141 m/h; vientoalrededorde28m/h haciael noreste.
9. La magnitud de mii, es /alveces la de6, en la misma (u opuesta) dirección como
iisi a
2
o (<O).
Problemas 5.2
3. O+O=0,~=O0,-O=0,porlotantoesválidotodoloexpresadoenladefinición5.8.
5. a) No. b) Sí. c) No.
7. Si V0es vacío, entonces no es
un subespacio. Si contiene algún vectorv,, entoncesvo
+ vo no está en Yo porque b + b # b si b # O.
10. Debe contener a O.
14. Utilice el ejemplo 5.14 en A - I,.
Problemas 5.3
4. u1 y u2.
6. Demuestre quea bt + ct2 = a(2) p(3 t ) + y(2 - t 2 )se resuelve cony = - c , p =
b, a = a / 2 - C.
9. L a ú n i c a s o l u c i ó n a a ( u + v ) + b ( v + w ) + c ( w + u ) = O , e s t o e s , a a + c = O , a + b = O y
+
+
+
b+c=O,esa=b=c=O.
12. v3 = v 1 + v2. Y, depende de{vz,vJ, v, de {vz, v3, vJ, vz de {vl,vd, vz de {v,, v3, v$, v3 de
{vl, v J , Y v3 de {v,, vz, v$.
15. La segunda.
19. Un conjunto infinito de vectores F es linealmente dependiente si y sólo si alguna
e s igual aO, sin
que todos10s
combinaciónlineal de un conjuntofinito de vectores Fde
coeficientes sean O .
20. b) Un subconjunto finito será una colección finita
x,; sea
de Ne1 subíndice mayor
que
posible
se usó. Sumando Oxj si xi no esuno de los vectores de lacombinación, será
suponer queel conjunto esxl, . . . ,x,. Elj-ésimo términoen lasecuencia definida
por la combinación lineal clxl = . . = cNxNes cj s i j 5 N , por lo tanto cj = O .
Respuestas a problemas seleccionados
537
Problemas 5.4
1. V I , v21 v4.
5. Por ejemplo, los tres primeros vectores.
7 . Por ejemplo, los tres primeros vectores.
S. Todo polinomio, por definición, es una combinaciónlineal de los vectores dados;el
conjunto es linealmente independientepor el problema 20 a) de la sección 5.3
+
+
11. - 6 ~ 1 2 ~ 2 vg = O.
14. No; sólo hay dos vectores en el conjunto, R3 tiene dimensión 3 de modo que se
requieren tres vectores para generarlo.
16. a) [6 -9 51'.
19. ves linealmente dependiente dev,, . . . ,v, si y sólo si v = cIvl + . . . + c,v, si y sólo
si ce(v) = cB(c1vl + . . . + C ~ V , ) = c1cB(v1)+ . . . + c,.c~(v,)si y sólo si cB(v)es
linealmente dependiente de cB(vl),. . . , c~(v,).
21. Véanse los problemas 18 y 19.
24. M = [v, v2 v ~ ] .
r 1
t 11
28, M = \ - 1
2 -2
I.
Problemas 5.5
1. Utilice los dos primeros vectores en S .
5. k = 1, 3, O 4.
7 . Por ejemplo,una [I -1 O 13.'
11. Utilice las dos primeras columnas.
13. Utilice las tres primeras columnas.
14. Dimensión= 3. a) [I O O 2]', [O 1 O ,']O [o
16. La forma común escalón reducida por renglones es
O 1 I]'.
19. [l O O O 2 l]', [O 1 O O 3 l]', [O O 1 O 1 2]',
[O o o 1 - 1 11'.
22. b) A = B = I, por ejemplo; A = B = e,eT, por ejemplo.
538
ADBndice uno
Problemas 5.7
1. 30".
4. [C - 2b b c]'.
7. La ecuación (n, x ) = O tiene una variable delantera; las otras p - 1 variables podrán
tomar valores arbitrarios y esto se puede usar para construir
una base quecontengap
- 1 vectores.
9. Utilice I/u V I P = 1 1 ~ 1 1 ~ )(VIP + 2(u, v).
12. a) Demuestre quelas propiedades de (.;) en unespacio se
heredan por el subespacio.
b) 30.4O o 0.53 radianes.
15. Compruebe las condiciones de la definición 5.63 mediante las propiedades de cs.
a) Por ejemplo,(u, u)*-= (cB(u),cB(u))2 O, y esto esigual a 0 si y sólo si cs(u) = O , si y
sólo si u = O , que era lo que se necesitaba.
18. Use lainducciónsobrep. Para p = 2, llalvl + r2v2112= la1/211v1112+l~.,1~1)v,1)~+ ala2
+
(Vl, V A
+
+ a,@z(v2,V d .
Problemas 5.8
1. a) [O 2 3 I T
4. Observe que IIv - vlj = O , y use el teorema 5.73 sobre la mejor aproximación.
7. Si el conjunto original es ortogonal con vectores diferentes de cero, entonces
el
procedimiento reproduce al conjunto.
10. 1 + t ,
+ t/2 + t2, 3 - 2t/3 + 2t2/3.
12. u1 = [l 1 + E 1 1y, u2 = [O "E E o y , u3 = [O "€12 - 4 2 €1';
ángulos dentro de E aproximadamente 90°.
16. H + x = X - 2(x + ~IIx112/11~(12)(1(x(I:
+ xT~llx/(2/ll~I12)M211XII:
+
=
-YIIxIl*ll1Y112~
17. b) Haga y = e, en el problema 16 y escoja el signo + o - en w de modo que w # O.
-+
~X'Y\~X~~Z/~~YIIA
Problemas 5.9
1. QTQes diagonal con elementos no negativos.
5 -2
4
Respuestas a problemas
seleccionados
539
[i 3 3
-1
1
1
2
11. Si y está enel espacio de columnas de
A , entonces y = Ax = Qo(R&), lo cual permite
escribir a y como una combinación lineal del conjunto ortogonal dea
ls columnas de
Qo.Aplique el mismo argumento ala matriz formada
por las primeras icolumnas deA.
16. Por ejemplo, la primera matriz de Householder es
20. A = [&/52&/5]'[&
4 1 , x = [3.6 - tl E]' con a arbitraria.
23. A = [ql q2][rl r2] con q1 = [l 1 1 1 I]'/&,
rl =
O]',
q2 = [ -26
- 11 - 1 14 24]'/&%,
r2 = [26&/5
m/5IT.
[&
Problemas 5.10
1. Todo númerocomplejo es igual a a + bi con a y b reales; compruebe las condiciones
en la definición 5.8.
4. 1 - p + a p # O .
5. b)Base: {[2 -7 -117.
9. Sea(v, u) = sI(u(12(1vJIZcon
1st = 1. Parar real, demuestrequellu- stvl(i= ( 1 1 ~ 1 1-~ fllv112)2y
sea t = IIu112/11v112 para v # O ; trate el caso v = O por separado.
11. b) El nuevo conjunto es
linealmente dependiente porque voes unacombinaciónlineal
de los otros.
Capitulo 6
Problemas 6.1
1. SiY(alvl + a2v2)= alY(vl) + a,Y(v,),primero hagaa, = a2= 1,después hacera, =
O . Recíprocamente, 9-(alvl + a2v2)= Y(alvl) + Y(a2v2)= a l T ( v l ) + t12Y(v2).
2. 9 ( v , + v2) = v , + v, = 9 ( v , ) + 9 ( v , ) , Y(av) = CIV = a9(v).
8. Por ejemplo, (YY)(vl+ v2) = Y{Y(vl + v,)} = S{Y(v,) + Y(v2)}= Y{Y(v,)}+
S{Y(Y,)J
=( Y a v l )
+ (Y94P)(v2).
11. y está enel espacio imagen si y sólo si y = Y@)= Ax = xlal +
= [a,
. . . a,].
. . + x$,, en donde A
540
Apbndice uno
14. Use el teorema del subespacio: F(0) = T(O0)
= OF(0) = O por lo tanto el espacio nulo
.Nes no vacío; si v1y v2están en "entonces Y(vl+ v2) = F ( v , ) + Y(v2) = O + O = O ,
por lo tanto v1 vz está en
de igual modo para a y 1 .
18. Use el teorema 6.8.
21. No; no es inyectiva: F ( e " ) = O , por ejemplo.
24. (F(u), v) = (Au, v) = (u, A%), de modo que F * ( v ) = A%.
27. a) nestáen (B*)' si y sólo si (n, x) = O para todaxen B*si y sólo si (n, F * ( y ) ) = O para
toda y en W si y sólo si (Y(n), y) = O para today enW ;haciendo ay = Y(n) ayuda
a demostrar que esto es válido si y sólo si n está en el espacio nulo N de Y.
b) Sea Po la proyección ortogonal sobre W* y sea x enN'. Demuestre que x- PG
está en 9*'y así-por a t e s t a r á en N , lo que quiere decir que
x es ortogonal él.
a
Escriba IIx - Pox112 = (x, x - PG) - (Pox, x - P G ) y demuestre que esto es cero;
concluyaquex estáen9*.
Laotradirecciónes más fácil: xen W*significaquex =
F*(y)y (n, x) = (n, F * ( y ) ) = (F(n), y) = (O, y) = ( O , y) = O para toda n en M .
+
Problemas 6.2
1. I.
6. A = diag(1, 2, 3, 4).
9. Y - ' existe si y sólo si Y e s inyectiva y sobre, Y es inyectivapor ejemplo, siy sólo
si Y(v) = O implica que v = 0 F(v) = O si y sólo si AvB = Oc = O porque C es linealmente independiente, y AvB = O implica que vB = O si y sólo si A es no singular.
11. Y(v) = O si y sólo si AvB = Oc, y Oc = O porque C es linealmente independiente.
13. 1 -1
[: -:l.
Problemas 6.3
Respuestas a problemas
seleccionados
541
Problemas 6.4
1. Utilice el lema clave 6.26 y ll+llm.
4. Utilice el teorema clave 6.28 siendo una matriz la
diagonal principal de A y la otra el
resto de A.
6. 1 = llIll = IIAA"II I llAll11A"11 = c(A).
11. La eliminación de Gauss muestraque el renglón 2 = l . l(reng1ón 1) - renglón 3; usar
(6.30).
14. La magnitud del elemento demagnitud máxima en una matriz columna esigual a la
norma m de esa matriz;la magnitud del elemento de mayormagnitud en una matriz
de p X q es cuandomás la norma m de la matrizy es cuandomenos (l/q) veces esa
norma m.
16. C) c(A) = 19,312.
Problemas 6.5
1 O ,']O [ 1 O 1 OIT,[l O O l]?,por ejemplo,delasolucióngeneral de Ax = O.
4. Se debe demostrar
que [']B,ces una transformación lineal, que
[Y],, = O si y sólo si .Y
es igual a la transformación ceroU i siendo U(v) = O para todav, y que para toda
A, de
p x q , hayuna.Ytalque[fl,., = A. Paraestoúltimo, porejemplo, solamentedefinaa
F(v) = w tal que wc = AV,.
7. Represente a 9por una matriz A , de p x p , y utilice el teorema clave 4.18 demostrando que cada una de las condiciones para Y es equivalente a una condición
semejante para A.
10. Utilice simplemente los problemas 8 y 9.
14. ( ( Y F ) u , V)= ( Y { F ( u ) } ,V)= (F(u),
Y*(v)) = (U, F * { ~ * ( v ) } )= (U, ( F * ~ * ) v ) .
1. a) {[- 1
Capítulo 7
Problemas 7.1
1. 1 = 1 o 9.
3. 11 = 0.5, I2 = -0.5.
6.
A=[:' 1.
-0.5
o
Problemas 7.2
2. {[l
-2
O]=, [O 3 l]'},por ejemplo; 1, = 6, [2
+ (ad - bc) para
7. -1' + 1.812- 0.951 + 0.15.
4. I' - (a + d ) l
[:
1 -13'.
3
12. Para cualquier i 2 O, A'x = A'"(Ax) = A"'1x = 1A" 'x = . . . = I'x. Entonces
f(A)x = (c,A" . . . c,A c,I)x = c,A"x . . . C,AX C,IX = C,PX . . .
c,ax cox = f(n)x.
17. 1, = 2, m, = 2, pl = 1, v, = [l O ;']O 1, = 3, m 2 = p2= 1, v, = [O 1 11.'
+
+ +
+
+
+
+
+
+
542
Apbndice uno
[-: :I,
Problemas 7.3
1. P =
4. No.
7. B = {[5
A = diag(1, 3).
41'; [S
2IT}, A = diag(l.O,0.8).
11. No. No tiene un conjunto linealmente independiente de dos eigenvectores.
Problemas 7.4
1. 4, -2, 3.
3. Ai =
(u)ji.
6 . b) Si P =
[: :],
entonces A = PAP" siendo A = diag(l.O, 0.8).
De este modo,xi = Aixo = PAiP-'x0 = P diag(1, (O.8)')P-'xO,10 cual tiende ap diag(1,
O)P"xo = E2400 1920ITsi x0 = [lo0 1000IT.
IO. SUSeigenvalores no son los mismos. También, det A Z det B.
13. J., = 3, m , = 4, p l = 3; i
,
= 5, m 2 = 3, p 2 = 1.
Problemas 7.5
2. a = O, b = +&/2, c = T &/2.
5. P e s unitaria si y sólo'si PPH = PHP= I ; pH esunitaria si y sólo si pHPHH
= PHHPH
= I;
son idénticas porque PHH= P.
S. Utilice el teorema 6.25.
12. H, =
[y .]A
14. PA = HJ = A - (2/wrw)w(wTA).Paralas multiplicaciones o divisiones: wTA cuesta
p 2 , W*Wcuestap más, (2/wTw) cuesta 1 más, (2/wTw)w cuestap más,(2/wrw)w(wTA)
cuesta p 2 más, haciendo total de 2p2 + 2p + l .
17. Sea w la matriz de ( p - r ) X 1 formada delosp - relernentos inferiores dew. Entonces
,h
3 4
9 4
-
2
por ejemplo,
20. R =
O
0
J6
6
-
Respuestas a problemas seleccionados
543
25. Si Q es un producto de matrices elementales de rotación, entonces detQ = l . No
todas las matrices ortogonales cumplen con det Q = l . Por ejemplo,
det
[y j
= - t , por ejemplo:
28. AHA = ATA = AA = AAT = AAH.
31. Si A = PHDP con P unitaria y D diagonal, entonces AHA = (PHDPF(PHDP)=
PHDHPPHDP= PHDHDP= PHDWP= PHDPPHD"'P= A A H .
35. Primero, escojaunaode(p - 1) X 1 tal que H,veces l o s p - I elementos inferiores de
laprimeracolumna[cr cq'seaigual a Lei, un múltiplo de la primera matriz unitaria
de (p - 1) X 1, y entoncesforma w = [O
De aquí
=[u
ne;
37.
[ !
!]A[:
HJOH,
rTHm
1-
;
!]=[;
1 -1
i].stá
en la formadeHessenberg.
Problemas 7.7
1.
1,
-
11 I 3 x 1 0 - 5 , 1 1 , - 0.51 I7 x 10-5, 1 , - 0.11 I4 x 10-5.
2. Aproximadamente (A, - 11 S 2 X
7. a) Demuestre quev = P(A - p I ) - Y 1 rsi p no es un eigenvalor exacto (cuando
seaclaramente válida ladesigualdad), de modo
que llvll IllPll II(A - pI)-l/lllP-lll
Ilrll. Demuestre entonces que ll(A - pI)-lIl es el recíproco de la distancia
mínima de p a algún eigenvalor de A, por ejemplo l/[p - A,[. Finalmente,
reescriba la desigualdad como Ip - Ad S llPll llP-ll[ 11r11/11v11.
11. La primera parte, es n = 1 en b) del teorema del círculo de Gerschgorin. Los
eigenvalores deB real son las raíces de un polinomio con coeficientes reales cllyas
raíces por lo tanto aparecerán como números reales o como pares de complejos
conjugados (en cuyo caso dos caeríanelen
mismo disco de Gerschgorin).
Por lo tanto
los eigenvalores son reales.
Problemns 7.8
2. A, = k + 2 cos{rr/(n + I)); sólo comprobar que las x, sean eigenvectores.
5. Utilice la inducción matemática paran, ydesarrolle
con respecto a laúltimacolumna.
9. La afirmación es falsa.
10. b) Utilice a).
11. Utiliceunaidentidadpara(Px,Py)ypara(P~~,Py)análogaaab=(1/4){a+b)~-(a-
6)').
544
Apendice uno
Capítulo 8 Problemas 8.1
1. x = D<.
Problemas 8.2
[ -;
o
-2
2. Por ejemplo,
O
--2<].
6, AHA = (-A)A = A(-A) = AAH
9. Sí; por ejemplo,
[: 3
10. Por ejemplo,
Problemas 8.3
n)T=
1. a) Parax # O : Ax = Ax si y sólo si Ax=.fx si y sólo si0 = det(A - .TI) = det(A det(AH- 21) si y sólo si 2 es un eigenvalor de AH.
b) A = PDPH si y sólo si AH = PDHPH,y entonces usar el teorema clave 7.14.
4. ([I
olT/J5, [ - I
1
1
2lT/&, [I
-I
1lT/&), por ejemplo.
7. Utilice A = PDP" y D = DH si y sólo si D es real.
10. (a) b , - b, = O. (b) b , b , = O.
+
12. Cuando menoshay una solución a Ax = b si y sólo si ya seaque O no es un eigenvalor,
o bien O es un eigenvalor y todasa
ls b son ortogonales a todoslos eigenvectores x,,
asociados conA = O, pero al hacer b = x. en esteúltimo caso, se demuestra quex. no
es un eigenvector y por eso A es no singular, entoncesAx = b tiene solución Únicax =
A"b.
Problemas 8.4
1
-3
2
-2
3
13
b) [lJ[13
O O][
4
13
"
1
2
-!.l
13
& f$
l + & 7 3
4. Los elementos en la diagonal principal de AHA son iguales a las normas 2 de las
columnas de A # O elevadas al cuadrado, de modo que cuando menos uno de esos
AHAes hermitiana de modo que AHA = PHAPcon A
elementos es diferente de cero.
diagonal, y A = O querría decir que AHA = O .
7. llA1/2 = (JUXvHII,= I \ & ,
lo cual puede evaluarsemediante la definición de una norma
matricial.
10. llAlli = IIUEVHI(;= 11El1; = u: + . . .
+ u:.
Respuestas
problemas
a
seleccionados
545
-2
12. b)
Js
1
3
Problemas 8.5
2. (O,,,)+ = ( $ x p .
8. X = 14/9.
9. A = UZV" y Z son no singulares y entonces, por construcción, 2" = X+.Entonces
A-1
= (uZvH)-l = (VH)-1x-1u-1 = VZ+UH = A+
-15
-18
13 - 5
2
5
5
-2
-13
-8
-1
-5
.
6
-3 -3 93 - 9
3 -6151
18
16. (b) c + = cH/cHc. (c) (cr)+= rHcH/{(cHc)(rrH)}.
Problemas 8.6
3. (D"AD),, = E¡-~(A)¡~.
6. Todos los eigenvalores de unaA normal
son iguales (digamos,a c ) si y sólo si lamatriz
de los eigenvalores es A = cI, lo cual es válido si y sólo si PAPH = cI.
8. Si A = UZVH, entonces A+ = VZ+UH,y entonces AA+ = UZVHVX+UH= UZZ+UH.
en dondek es el rango, y por lo tanto AA+ = U&: en donde U,, es igual a la matriz de
las primeras k columnas de U. Utilice el teorema 5.79 y el corolario clave 8.20 b).
Capítulo 9
Problemas 9.2
1 - 2
3
o
o
-3
[%-:-!l.
O
6. J = Por ejemplo,
10. J = Por ejemplo,
O
O
O
O
O
2+¿
14. ( A - 4)3 = A3 - 121' + 481 - 64.
o
2 - 4
546
Apendice uno
15. Para cada eigenvalor diferente Ai, sea de p i x p i el mayor bloque de Jordan que
contiene a Ai. Entonces el polinomio mínimo es igual a
(E. - n,)p'(n - i , ) P * ' . . ( A - n p .
Problemas 9.3
2. a) Por ejemplo, {[I O 11') y {[I - 1 -IIT, [I O O]?.
c) Por ejemplo, {[I O OIT, [O 4 017 y {[O I I]?.
OIT}y {[15
9 Por ejemplo, {[I O O OIT, [O -f O OIT, [O 2
+
2
-8
817.
S. a) v l l = [ I - 1 -I]', vZ1 = [I -1 I]', v2, = [O 1 -I]',
u1 = [O 1 I]',
u2 = [l
1 O]? U;VZl = uTv,, = u;Vl1 = U T V Z l = o.
d) v l l = [l 1 l ] ' , ~ ~ [l
~ -2 4]',~3] = [l - 3 9]',111 = [6 5 l]',~z =
[3 -2 - 1]T, u3 = [2 - 1 -11'.
u;vzl = UTV31 = u;vl, = u;v31 = u;vl, =
u;vzl = o.
7. 561 + b2 - 764 = O, 9b1 + b3 - 12b4 = O.
Problemas 9.4
3. Eigenvalores: l . 1,0.7,de modo que llxill tiende a infinito paraciertas x,(incluyendo x.
= [ 1001000IT
en el ejemplo 2.31).
5. Eigenvalores: 1, - 1, 1/2; todas l a s potencias Ai y x{ permanecen acotadas.
9. Sea A' = Ala, demodo que p(A) = p(A)/a < l . Entonces (YI- A = ( ~ ( 1 A') es no
singular porque I - A' lo es y (Y # O, siendo (I
- A')-,= I A' + A', + . . . y (a1A)-1 = (Y-~(I
- A')-,.
+
10. a) La única permutación da la misma A, y ésta no es la forma requerida en la
definición 9.33.
c) Utilice P = [e, e,J.
13. x,, debe ser ortogonal a los eigenvectores izquierdos de A asociados con A = 1 .
16. El problema 15 dice que es posible hacer (Y = 2 en el problema 14.
19. Todo eigenvalor satisface a IAl 5 IlAll para toda norma, de modo que verdaderamente
p(A) 5 IIAll,. Si A' = A/p(A) esuna matriz de Markov,entonces I = IIA'II1= /b/l,/p(A),
= IIAlll, entonces todacolumnade A debe sumar1 ; s!o
i,
algún
asíp(A) = \lAlll. Si p(A)
elemento de A podríaauFentarse estrictamente paradar
una nuevamatriz Acon IIAlll
= (IA/l,,pero también p(A) > p(A) debido a f) en el teorema de Perron-Frobenius, lo
que da la contradicción IIAlI, = llAlll = p(A) < p(A) 5 IIAlll.
Problemas 9.5
Por ejemplo,
1-0,
k
lo
o
1
0
O
0
O
o
-
m
O
0
O
O
0
O
0
1
o
-
mk
o
-k
o
m
Respuestas a problemas
seleccionados
547
+
6. x,@)= (1 t ) exp(2t), xz(t) = exp(2t).
8. exp(1) = eI.
11. Utilice el teorema 9.54 b).
3e4 -
[ 1':
16. exp(A) = -e4
4-.
2
fe"
- fe4
fe-2
+fe"
fe"
+ fe"
18. Escoja a k de modo que ningún eigenvalor tenga parte real positiva y algún eigenvalor
tenga parte real cero,
Problemas 9.6
+ 2,
2. ~ , + 1= -0.50,
0,+1
= -0.5~,+1
+ 2.5.
9. p(HJ = 0.5, p(H,)
= 0.25, p(H1.,) = 0.1.
11. (a) p(H,) = 2. (b) p(H,)
= 4.
16. a) w* = 8 - 4 4 z 1.072. Experimente con varios valores de o como en el ejemplo
9.72 para minimizar p(H,).
Problemas 9.7
2. Si Ax = Ax, entonces A% = A% = 1%
y se podrá tomar comoun conjunto linealmente
independiente de eigenvectores asociados con
A=a + i p y con
a - ipunconjunto
{x, E} = {a ib, a - i b } siendo a y b reales. {a, b} debe ser linealmente independiente, porque {a ib, a - ¿b} lo es. Ahora, Ax = Ax significa que A(a + i b ) =
(a iB)(a ib) = (aa - pb) +;(ab pa); estoresulta en Aa = a a - pb y Ab = a b
x=
+
+
+
+
pa,estoes:
A[a
b] = [a
+
+
b]
[-; :].
Sea P = [a b].
. + c,v,, entonces Aixo = &{clvl + C , ( A ~ / A , ) ~ V , + . . . +
de modo que una A'xo normalizadaconvergerá a un rnúltiplodel
eigenvector v1 siempre que c1 # O.
7. Si A y B conmutan, entoncesel orden de los productos enla serie exp(A + B) podrán
intercambiarse como si A y B fueran números, dando como resultadoel producto de
las series para exp(A) y para exp(B). Contraejemplo:
5. Si x. =, c l v l +
Cp(Ap/~l)lvp},
A = BT =
Capitulo 10
Problemas 10.1
+
+
1. (b) 2x:
2x1x2 3x:.
4. x:/9
xi125 = 1.
7. $1144 - ~$125= 1.
+
[: i].
548
Apkndice uno
Problemas 10.2
2. t <o, a, 2 o, a2 2 o; t > o, 1, I o,
I o.
4. b) ((5 m ) / 2 } 5 ;
((5 - ,/%)/2}5:
= t , una hipérbola.
5. La curva C es la elipse no circular xi164 xi = 9.
+
+
+
Problemas 10.3
<;
+ +
1. a)
35:
45:, por ejemplo.
5. A es negativa definida si y sólo si las submatrices principales Ak satisfacen a (Ak > O para 1 5 k 5 p .
det
7. b) Los pivotes son 5,3, -27, y por lo tanto es indefinida.
9. L,D,U, = A = AH = (L,D,U,)" = UFDfLF; utiliceel problema 13 de lasección
3.10.
11. Utilice el teorema clave 10.18 que relaciona definición y eigenvalores.
14. Utilice el teorema clave 10.18 que relaciona definición y eigenvalores.
Problemas 10.4
1. Los eigenvalores son en realidad -2, 0, l .
2. Los eigenvalores son en realidad 1, 3, 4.
5. b) Los eigenvalores son en realidad -5, 23, -9.
7. Los eigenvalores son en realidad -2, O, 1.
10. c) Los eigenvalores son en realidad 1, 2, 4.
Problemas 10.5
1. Los eigenvalores son en realidad aproximadamente 8.2057, -2.8089,
O y 2.6032.
4. Los eigenvalores son en realidad 0.6, 0.3, 0.1.
7. Demuestre que B - A es positiva semidefinida para usar el teorema 10.33.
10. Encuentre matrices ALy A, para las cuales sepuedan encontrar los eigenvalores (por
ejemplo, de a1 - E) de modo que xHAlx5 xHAx5 xHA,x, y utilice el teorema 10.33.
0.6 5 A, 5 1.2, 1.1 5 A, 5 1.7, 1.7 5 A3 5 2.3, 2.2 5 h4 5 2.8.
Problemas 10.6
2. a) La curva es semejante a l a gráfica de
+ 95; = 1.
6. a) x"A'x = xHB"ABx = (Bx)~A(Bx).
b) Bx = O siendo x # O si y sólo si B tiene un rango menor que q .
8. Hay una x # O tal que (A + AB + A2C)x= O, de modo que O = xHAx+ AxHBx+ A2xHCx
= a + bA + cAz siendo a , b y c positivos; utilice la fórmula para las raíces de una
ecuación cuadrática.
9. Del problema 15 de la sección 10.3 o de B = PAPH,escriba B = MMH siendo M no
singular. Entonces C = M-'(BA)M y BA son semejantes y por lo tanto tienen los
mismos eigenvalores. Pero C = M"(MMHA)M = MHAM, la cual es hermitiana
porque A es hermitiana; por lo tanto los eigenvalores son reales.
Respuestas a problemas seleccionados
549
10. Del problema 15 de la sección 10.3 o partiendo de B = PAPH,escribaB = MMHpara M
no singular y seaN = M-l. DefinaB' = NBNH= I y aC' = NCNH.Utiliceeigenvalores
para demostrar que de a)
a c) sonválidos para B' y C' en lugar de B y C, y entonces
deduzca que también serán válidos para B y C.
12. a) Separe A y defina una matriz E como sigue:
A=[:;
:,,A,
E = [ -cHA;'
siendo A, también positiva definida y con detE = l. Entonces det A = det EA, y
EA es igual a
EA = ["I
OH
C
a,,,, - cHA; 'c
Debido a la estructura deEA, su determinante es igual a ( a p p- cHA; 'c)det A,. Ya
que A, y por consiguiente A; son positivas definidas, se obtiene detA I appdet
A,. Utilice la inducción matemática de aquí en adelante.
b) Si det B = O, el resultado será claramente
válido. Para det B # O, la matriz A = BHB
es positiva definida; aplique a) a esta A.
'
14. a) (A - AI)x = O implica que (A2 - AA)x = O o ( 1 - A)Ax = O. Por lo tanto A = 1, o bien
Ax = O , lo cual implica que A = O.
b) Si A es no singular, A2 = A quiere decir que A = I.
d) La traza es igual a la suma de los eigenvalores.
17. Para a) y b), seaA = PHAPsiendo A no negativa y diagonal, y definase a L no negativa
y diagonal siendo L2 = A; entonces B = PHLP da B2 = A como se necesitaba. c)
Suponga que A = B2para alguna B; el problema es demostrar queB = PHLPpartiendo
de a) y b). Sea B = QHDQsiendo D no negativa y diagonal, de modo que A = B2 =
QHDzQy sin embargo A = PHL2P.De este modo D2 = SHL2S,en donde S = PQHes
unitaria, por lo tantoSD2 = L2S;esto es,(S)& = (S)&, en dondeD = diag(d,, . . . ,
d p )y L = diag(l,, . . . ,lp).Por lo tanto, (S)&, - l,)(dj+ li) = O para toda i y j . Si d, o li
son positivas, entonces esto da(S),(d, - li) = O -lo cual también es válido si tantod,
como Ii son iguales a O. Pero (S)&, = (S),/¡ quiere decir que
SD = LS, y entonces D =
SHLS.Por lo tanto, B = QHDQ= QHSHLSQ= QHQPHLPQHQ
= PHLP,que era lo que
se necesitaba.
18. d) Sea A = U,Z,V; una descomposición en valores singulares de A. Es posible
~ )cual
, es
reescribir ésta como A = (UoVt)(VoZoVt)y como A = ( U o S o U ~ ) ( U o Vlo
precisamente A = UM = NV siendo U = V = U,Vt, M = VJoVt, y N = U,EoUt.
Capítulo 1 1 Problemas I 1 .I
1. x, = lo, x2 = 20.
2. x, = 40, x2 = 20.
6. 16C2.5 3.75 -8.75
-6.25
-13.75IT
= [40 60 -140
-100
-220IT
8. f(x) = clxl ... cdcP, por lo tanto dfpx, = ci y Vf = C.
+ +
550
Apkndice
uno
12. Minimice 24y1
+ 30y, + IOy,
sujeta a las restricciones
Y1 + Y 2 - Y3 2 1
Y2
+ Y3 2 2
toda yi 2 O.
+
[l 2 I T = 0[1 O]'
(3/2)[1
y, = O, y, = 312,y, = 112.
15. Maximice -70y1 -40yz -goy3
11'
+ (1/2)[-1
l]',y la solución óptima es
sujeta a las restricciones
- 2 ~ 1- y2 - y3 I -40
-y1 - y2 - 3y3 I -60
toda yi 2 O.
Solución óptima y1 = O, yz = 30, y, = 10.
Problemas 11.2
1. Maximice -2.q + 5x,
sujeta a las restricciones
2 x 1- x 2
I
7
+
3x1
x2 I
6
- 3 ~ 1- x2 I
-6
x, 2 o, x2 2 o.
4. (Mediante z1 = xl, z2 - z, = x2, z, = x3, con variables de holgura z,,
Maximice 4z1 + 32, - 3z3 - 2z4
z6, z 7 y zs):
Sujeto a las restricciones
-21
-
22
+ 23
+
+
+
+ 25
23
z1 - 22
Z1
322 - 323
62,
-z1 - 32,
323 - 624
+
= -4
+ z6
+ 21
=
=
6
5
+ z* = -5
toda zi 2 O.
9. a) Es degenerada (las columnas 1, 3 y 5 de [A, bl son, por ejemplo, linealmente
dependientes.
11. Maximice m
sujeta a las restricciones
u
<O
-
mm
- u s o
2u+ u 1 5
u+3v<8
m>O,u2O,u20.
Problemas 11.3
2. LOS valores del programa lineal no están acotados superiormente, Y Por ello no hay
solución óptima.
7. Como el problema es nodegenerado, exactamenteq variables son iguales a cero en el
vector básico factible actual, y las p variables básicas son estrictamente Positivas;
utilice la estructura de la tabla para demostrar que los valores de esas P variables
Respuestas a problemas seleccionados
551
forman el lado derecho actual. Comoel renglón inferior tiene un elemento negativo,
digamos en lacolumna x,, con cuando menos un elemento positivo en esa columna,
hay cocientes de elementos
positivos del lado derecho entreelementos positivos de la
columna x, para revisar; el menor de ellos será estrictamente positivo, dando un
incremento estricto de x, y por ende de M .
9. a) x1 = 25 + a , xz = 15 - a es Óptimo para O S (Y IIO.
11. b) x 1 = 10, x2 = 20.
15. No hay ninguna que satisfaga a las restricciones.
Problemas 11.4
1. Minimiced'd'
vu
sujeto a las restricciones
B'u - B'v 2 f
u20,v20
(o bien, u - v se puede reemplazar por w sin limitaciones de signo para w).
3. a) Minimice 7y1 + 6y2 - 6y,
sujeto a las restricciones
2Yl i3y2 - 3y3 2 - 2
- Y 1 + Y2 - Y 3 2
5
toda yi 2 O.
10. No hay vectores factibles para este primal (los valores en el dual no están acotados).
12. Ax 5 O, x 2 O , C'X > O es equivalente a Bx IO , c'x > O siendo B =
[-;l.
Esto
es equivalente a no poder resolver B'y = c, y 2: O por el teorema de Farkas. Pero lo
anterior es sólo [AT-I]y
= c; separando a y para que yT = [y: yg, estose
transforma en A'y, = c + y2 2 c, siendo y1 2 O .
Problemas I I S
4. Minimice x1 + x2 + x3 + x4 + x5 + x8
sujeto a las restricciones
X1
+x62 3
x1 + x2
x2
2 2
+ x3
2 10
x3 + x4
x4
+ x5
x5
+
2 14
2 8
x6 2 10
Toda x i 2 0 :
Para mostrar que la solución factible dada sea óptima,
forme la tabla y póngala en el
formato acostumbrado para las variables básicas actuales.(x,, x3, x5, x6, x?, .x9);
observe que no hay elementos negativos en el reglón inferior (excepto en la irrelevante columna final).
6. b) Minimice [OT lT][zT m'] - e n donde 1 = [ l 1 .
1]Tsujeto a las restricciones
Bz-m< w
-Bz - m "w.
9
552
Apendice uno
9. a) Por el teorema clave 11.53 e), cTx* = bTy*. Por lo tanto, cTx* = (ATy* - sJTx* =
Y * ~ A x *- s:x* = y*T(b - S,) - s:x* = bTy* -$y* - sFx*de modo que STY* s;x*
= O. Pero todas las sx, S,, x* y y* son no negativas, de modo que S,',* = s:x*
= O.
b) La ecuación ATy* - S, = c resulta en cT = Y * ~ A- S?, lo cual explícitamente dice
+
que cTes una combinación lineal no negativa de todos los renglones de A y todos
los de -e? Siendo S, 2 O y y* 2 O, des,Ty* = O se sigue que (y*)t = O siempre que
(Sx)¡ > O ; esto es, el i-ésimo renglón de A en realidad no está relacionado con la
representación de cT arriba si la restricción corresponde a ese renglón no es una
igualdad en x*. De modo semejante, SF.* = O resulta en que( s , ) ~= O siempre que
(x*)i > O ; esto es, aquellas -e: para las cuales (x*)( > O en realidad no están
relacionadas en la representación anterior de cT.
Apéndice dos
Bibliografía
leoria de Clgebra lineal y matrices
1. F. R. Gantmacher, Theory of Matrices, Vols. I. 11, Chelsea (1959).
2. P. R. Halmos, Finite-Dimensional Vector Spaces, Van Nostrand (1958).
3.M. Marcus and H. Minc, A Survey of Matrix Theory and Matrix Inequalities, Allyn and
Bacon (1 964).
4. T. Muir, Determinants, Dover (1960).
Aplicaciones de Clgebra lineal y matrices
5. A. Albert, Regression and the Moore-Penrose Pseudoinverse, Academic Press (1972).
6. N. R. Amundsen, Mathematical Models in Chemical Engineering; Matrices and Their Applications, Prentice-Hall (1966).
7.R.Bellman
and K. R. Cooke, ModernElementary DzSferential Equations, 2nd edition,
Addison-Wesley (1971).
8. M. Braun, Drfferential Equations and Their Applications, Springer Verlag (1975).
9. C. B. Dantzig, Linear Programming and Extensions, Princeton University Press (1963).
10. R. A. Frazer, W. J. Duncan, and A. R. Collar, Elementary Matrices and Some Applications
to Dynamics and Diferential Equations, Cambridge University Press (1938).
11. F. R. Gantmacher, Applications of the Theory of Matrices, Interscience (1959).
12. F. A. Graybill, An Introduction to Linear Statistical Models, Vol. I, McGraw-Hill (1961).
13.R. Haberman, Mathematical Models, Prentice-Hall (1977).
14. G. Hadley, Linear Programming, Addison-Wesley (1962).
15. J. Heading, Matrix Theory for Physicists, Wiley (1960).
16. W. C. Hurty and M. F. Rubinstein, Dynamics of Structures, Prentice-Hall (1964).
17. S. Karlin, Mathematical Models and Theory in Games, Programming, and Economics, Vols.
I, 11, Addison-Wesley (1959).
18. N. Karmarkar, “A new polynomial-time algorithm for linear programming,”Combinatorica,
Vol. 4, No. 4, 373-395 (1984).
19. J. G. Kemeny and J. L. Snell, Finite Markov Chains, Van Nostrand (1960).
20. J. G. Kemeny and J. L. Snell, Mathematical Models in the Social Sciences, MIT Press (1972).
553
554
Apendice dos
21. J. G. Kemeny, J. L. Snell, and G. L. Thompson, Introduction to Finite Mathematics,PrenticeHall (1957).
22. I. Linnik, Method of Least Squares and Principles of the Theory of Observations, Pergamon
Press (1 961).
23. D. Maki and M. Thompson, Mathematical Models and Applications, Prentice-Hall (1973).
24. O. L. Mangasarian, Nonlinear Programming, McGraw-Hill (1969).
25. H. C. Martin, Introduction to Matrix Methods of Structural Analysis, McGraw-Hill (1966).
26. M. Z. Nashed, Generalized Inverses and Applications, Academic Press (1976).
27.L.A. Pipes, Matrix Methods in Engineering, Prentice-Hall (1963).
28. C. R. Rao, Advanced Statistical Methods in Biometric Research, Wiley (1952).
29. J. Robinson, Structural Matrix Analysis for the Engineer, Wiley (1966).
30. J. T. Schwartz, Lectures on the Mathematical Method in Analytical Economics, Gordon and
Breach (1961).
31. S. R. Searle, Matrix Algebra for the Biological Sciences (including Applications in Statistics),
Wiley (1966).
32. S. Senturia and B. Wedlock, Electronic Circuits and Applications, Wiley (1975).
33. M. Simonnard, Linear Programming, translated by W. S. Jewell, Prentice-Hall (1966).
34. G. Strang, introduction to Applied Mathematics, Wellesley-Cambridge Press (1986).
35. A. M. Tropper, Matrix Theory for Electrical Engineers, Addison-Wesley and Harrap(1962).
36. R. E. Walpole and R. H. Myers, Probability and Statistics for Engineers and Scientists, 2nd
edition, Macmillan (1978).
37. A. V. Weiss, Matrix Analysis for Electrical Engineers, Van Nostrand (1964).
CLlculos matriciales y de Llgebra lineal
38. A. Bjorck, R. J. Plemmons, and H. Schneider, Large-Scale Matrix Problems, North Holland
(1981).
39. J. R. Bunch and D. J. Rose (eds.), Sparse Matrix Computations, Academic Press (1976).
40. J. J. Dongarra, C. B. Moler, J. R.Bunch, and G. W. Stewart, LINPACK User’s Guide,
SIAM Publications (1979).
41. I. S. Duff and G. W. Stewart (eds.), Sparse Matrix Proceedings, SIAM Publications (1979).
42. G. E. Forsythe, M. A. Malcolm, and C . B. Moler, Computer Methods for Mathematical
Computation, Prentice-Hall (1977).
43. G. E. Forsythe and C. B. Moler, Computer Solution of Linear Algebraic Systems, PrenticeHall (1967).
44. B. S. Garbow, J. M. Boyle, J. J. Dongarra, and C. B. Moler, Matrix Eigensystem Routines:
EISPACK Guide Extension, Springer Verlag (1972).
45. J. A. George and J. W. Liu, Computer Solution of Large Sparse Positive Definite Systems,
Prentice-Hall (1981).
46. G. H. Golub and C. F. Van Loan, Matrix Computations, Johns Hopkins University Press
(1983).
47. L. A. Hageman and D. M. Young, Jr., Applied Iterative Methods, Academic Press (j9P! j.
48. A. S. Householder, The Theory of Matrices in Numerical Analysis, Blaisdell (1964).
Bibliografía
555
49. C . L. Lawson and R. J. Hanson, Solving Least Squares Problems,
Prentice-Hall (1974).
Prentice-Hall (1980).
51. D. Rose and R. Willoughby (eds.), Sparse Matrices and Their Applications, Plenum Press
50. B. N. Parlett, The Symmetric Eigenvalue Problem,
(1972).
52. B. T. Smith, J. M. Boyle, J. Dongarra, B. Garbow, Y. Ikebe, V. C. Klema, and C. B. Moler,
Matrix Eigensystem Routines: EISPACK Guide, 2nd edition, Springer Verlag (1976).
53. C . W. Stewart, Introduction to Matrix Computations, Academic Press (1973).
54. R. S. Varga, Matrix Iterative Analysis, Prentice-Hall (1962).
55. J. H. Wilkinson, Rounding Errors in Algebraic Processes, Prentice-Hall (1963).
56. J. H. Wilkinson, The Algebraic Eigenvalue Probiern, Oxford (1965).
57. IMSL mathematical software, International Mathematical and Statistical Laboratories,
Inc., 7500 Bellaire Blvd., Houston, TX 77036.
58. MATLAB matrix software, TheMath Works, Inc., 158 Woodland St., Sherborn, MA
01770.
59. NAG mathematical software, Numerical Algorithms Groups, Inc., 1101 31st St., Downers Grove, IL 60515.
lndice de símbolos
A, X,
a, x, . . .
D
det A, det(A)
diag(d,, . . . , dp)
exp en exp(t)
exp en exp(A)
ei
Eij, EiXc), EXc)
556
negritas mayúsculas: matrices -definición l. 1
negritas minúsculas: matrices de renglón y de columna y vectores definiciones 1.1 y 5.8
cursivas: números
complejo conjugado de A -sección l . 1
transpuesta de A -definición 1.20
transpuesta hermitiana de A definición 1.20
inversa de A -definiciones 1.34 y 1.26
pseudoinversa de A definición 8.25, teorema clave 8.26.
matrices aumentadas en programas lineales -( 11.30), (11S )
cofactor ( y , j ) de A definición 4.26
matriz adjunta de A -definición 4.38
conjunto de los números complejos -sección l . 1
espacio vectorial complejo de matrices columna p X 1 -ejemplo5.9 c),
definición 5.15
curva de nivel de una forma cuadrática en x -sección 10.2
curva de nivel de una forma cuadrática en 4 -sección 10.2
espacio vectorial real de funciones continuas diferenciables k veces en el
intervalo [ u , b] -ejemplo 5.9 e)
número de condición de A -teorema 6.29
isomorfismo de coordenadas con respecto a la base ordenada B definición
5.35
a menudo una matriz diagonal definición 1.3
determinante de A -definición 4.27
matriz diagonal p X p definición 1.3
función exponencial: exp(r) = et
función exponencial de una matriz -teorema 9.54
matriz columna unitaria definición 1.43
matrices elementales -definición 3.31
lndice de símbolos
557
matriz de Householder definida
por w -problema 15 de la sección 5.8, definición 7.35
matrices de iteración paralos métodos de Jacobi,
Gauss-Seidel y SOR-ejemplo 9.72, teorema 9.73
imaginario puro, J-l-sección 1.1
enteros
matriz identidad r X r definición l . 18
matriz identidad -definición l. 18
transformación lineal idéntica -problema 2 de la sección 6.1
forma de Jordan-teorema clave 9.4, (7.26)
bloque de Jordan definición 9.3
matriz triangular inferior en las descomposicionesLU -sección 3.7, definición 1.3
multiplicidad algebraica de un eigenvalor -definición 7.8
símbolo para un ejemplo o problema o resolver con computadora
espacio nulo de una transformación lineal -definición 6.5
generalmente una matriz unitaria-definiciones 7.29 y 7.32, (7.42),y teorema
clave 8.6
Q en QJQ"
y Q"AQ
matriz no singular -definiciones 1.34 y 7.20, teorema clave 7.14
matriz de permutación definición 3.51
proyección ortogonal sobre un subespacio -teorema 5.71
espacio vectorial real de los polinomios de grado arbitrario-ejemplo 5.99
espacio vectorial real de polinomios de grado estrictamente menor que k
-ejemplo 5.9 g)
matriz con columnas ortogonalesu ortonormales en descomposiciones QR
-teorema clave 5.82
matriz no singular definición 1.34, teoremaclave 9.4
formas cuadráticas definición 10.13, teorema clave 10.14, (10.5)
QR definición 1.3,teorema
matriz triangular superior en descomposiciones
clave 5.82
R
RP
conjunto de los números reales
espacio vectorial real de matrices columnap X 1 -ejemplo5.9 b), definición
5.15
matriz de rotación elemental -definición7.40
superficie de nivel de una forma cuadrática en x -sección 10.3
superfieie de nivel de una forma cuadrática en 5 sección 10.3
mayúsculas script: generalmente transformacioneslineales definición 6.1
transformación adjunta de.F-definición 6.10
transformación inversa de 9- -teorema 6.9
traza de A -problema 6 de la sección 1.2, teorema 7.6 c)
matriz unitaria en la descomposición en
valores singulares -definición 7.29,
(8.15), teorema clave 8.19
558
lndice de símbolos
V enUEVH y VEHUH
“Ir, w,. . .
+
enAi
* enF*
-en5 y A
en u
3
x
m
D
.
.
matriz unitaria en descomposiciones en valores singulares -definición 7.29,
(8.15), teorema clave 8.19
letras mayúsculas script quegeneralmente denotan espaciosvectoriales -definición 5.8
generalmente subespacios -definición 5.11
matriz cero o vector cero “definiciones 1.9 y 5.8
transformación lineal cero -problema 3 de la sección 6.1
eigenvalor -definición 7.4
matriz diagonal de eigenvalores -definición 1.3, teorema clave 7.14
multiplicidad geométrica de un eigenvalor -definición 7.12
radio espectral de A “definición 9.26
cociente de Rayleigh para A en x -definición 10.23
valor singular -teorema clave 8.19
matriz “diagonal” de valores singulares -(8.15), teorema clave 8.19
elemento ( i , j ) de una matriz -definición l . 1
elemento ( i , 1) o (1, i ) de una matriz columna o renglón -definición l . 1
producto interior -definición 5.63, ejemplo 5.64
valor de x después deredondear a t dígitos de punto flotante-definición 3.35
norma de un vector o de una matriz -definiciones 5.54 y 6.22, teorema 5.68
norma de un vector en Y -definición 5.54
normas 1, 2 e 00 de una matriz “definiciones 5.55 y 6.22, problema 7 de la
sección 8.4, corolario 10.26
norma de Frobenius de una matriz -problema 8 de la sección 8.4
norma de transformación de una transformación lineal -definición 6.19
paréntesis rectangulares que definen una matriz -definición l. 1
intervalo cerrado de números t que satisfacen a a 5 t 5 b
desigualdades para matrices -definiciones 11.28 y 9.32
transpuesta de una matriz “definición 1.20
transpuesta hermitiana de una matriz definición 1.20
inversa de una matriz o de una transformación lineal “definición 1.34, teorema 6.9
pseudoinversa de una matriz -definición 8.25, teorema clave 8.26
transformacion adjunta de una transformación lineal “definición 6.10
complejo conjugado de un número o de una matriz -sección 1.1
vector geométrico -sección 5.1
igualdad aproximada 42.37)
final de una demostración
?roblema que tiene respuesta o guía en el apéndice uno
lndice analítico
A
Ajuste de datos,74-81, 385-386 (véase también Mínimos cuadrados)
Algebra de matrices 1-45
Algebra matricial, 1-45
Algoritmo QR. 352
Alternativa, teoremas de la, 521-522, 523
Análisis de error retrospectivo, 120-124
Ancho de banda, 136 (véase también Matriz, banda
/de)
Angulo (véase Producto interior)
Angulo entre vectores, 196,246-247 (véase también
Producto interior)
Aplicaciones (véase Modelos)
Aritméticacomputacional (véase Puntoflotante,
aritmética de, dígito-t)
Aritmética de matrices, 1-45
B
Banach, lema de, o premisa, 300
Base, 216-218
cambio de, 224-225
en representaciones de transformaciones lineales, 289-290
relación entre coordenadasd, 224-225, 290
conjuntos infinitos, 226
definición de, 217
de un conjunto generador, 216-218, 232
de un conjunto linealmente independiente, 219220,232-233
número de vectores, 219
ordenada, 220
ortogonal, 254-274
de una columna o un espacio nulo, 381
representación única de vectores, de una, 218
Base ordenada, 220 (véase también Base)
Base ortogonal, 254-274
existencia de la, 258
procedimiento Gram-Schmidt:
formulación matricial, 263-266
mediante proyecciones, 256
modificado, 259,272-273
tradicional, 257, 258-259, 263-264, 272-273
representación en términos de la, 255
BIME, 149 (Bibliotecas Internacionalesde Matemáticas y Estadística)
C
Cambio debase, 224-225 (véase también Base,
cambio de)
Cancelación, ley de, 13-14
Cayley-Hamilton, teorema de, 401-402
Cero:
columna, 4 6 , 154,177
matriz, 5,6,13,21,45
renglón, 45,154,177
transformación, 279, 284
vector, 201,203
y ortogonalidad, 249
Cerrada bajo multiplicación por escalares, 205
Cerrada bajo suma de vectores,205
Cholesky, descomposición de, 459 (véase también
descomposiciones-LU A = LLr)
Cilindro, 454
Circulante, 360
Cofactor (véuse Determinantes)
Columna, 1
Combinación lineal, 198,205,208
de los renglones de una matriz, 231
Competencia entre lecherías(véase Modelos, competencia entre lecherías)
Complejo conjugado, 2
y la transpuesta hermitiana, 14-15
Complemento ortogonal, 287 (véase también Subespacioortogonala
un subespacio
dado)
Condensación de datos, 382-384
Condición, 126,302-305 (vPasetambién Número
condicional;Problema bien acondicionado;Problema mal acondicionado)
de rango, 190-191
de sistema de ecuaciones, 126, 190-191,302,303
y número condicional, 303, 306-307
determinante, 189
eigensistemas, 353-358
forma de Jordan de matrices, 403
Congruencia hermitiana, 459, 475
550
560
lndice
Conjunto de soluciones:
sistemas de ecuaciones, 162-171
efecto de Ia eliminación de Gauss, 162-163
efecto de transformar, 153,162-163
Descomposición de valor singular)
mediante una matriz diagonal,326-327, 366-367
Descomposición de valor singular, 375-385
base para espacio de columna o espacio nulo,
Conjunto generador, 208-209
como una base, 219-220
definición de, 209
eliminación de un vector, 209-210, 216-217, 232
formación de una base de un. 216-217. 232
justificación, 207-208
número de vectores, 226
Conjunto linealmente dependiente:
columnas de una matriz, 231
conjuntos infinitos, 216
definición de, 210
y linealmente dependiente de, 211-212
Conjunto linealmente independiente:
bases, 219-220
columnas de una matriz, 231
en la forma reducida de Gauss, 232
conjuntos infinitos, 216
definición de, 210
extensión a una base, 219-220, 232-233
número de vectores en, 218, 219, 220
razón para el, 208-209
subconjunto de, 212
y la no singularidad, 221
y representaciones únicas, 216, 218
Conjunto ortogonal:
definición de, 249
independencia lineal, 253-254
que define una proyección ortogonal, 253
Conjunto ortonormal, 249
Contradominio, 278
Convergencias:
de potencias de matrices, 299, 407, 408
de sucesión de matrices, 298, 405-406
secuencia de transformación, 299
sucesión de vectores, 241-242
Convolución (véase Producto, convolución)
Coordenadas, 220-225 (véasetambién Vector decoordenadas-B)
Coordenadas-B, 222 (véasetambién Vector de
coordenadas-B)
Cramer, regla de, 187
Curva de nivel, 443-449
definición de, 443
relación entre aquélla en, x, y aquélla en 5,
casos simples, 377
eigensistema de AAH y AHA, 376, 380-381
existencia de, 378
gradientes proyectados en programación lineal,
teorema clave, 166
I~
448-449
D
Demostración, 5
Dependencialineal, 207-216 (véuse también Linealmente dependiente en; Conjunto
linealmente independiente)
Derivada, 45, 9 0 , 419
Descomposición de matrices mediante eigensistemas, 315, 326-327 (véase también
380
441
mínimos cuadrados, 385-387
procesamiento de imagen, 382-384
seudoinversa, 387
trabajo necesario para encontrar la, 381
unicidad de, 391
valores singulares, 380-381
y rango, 381-384
vectores singulares, 380-381, 384
Descomposición-LDU, 151-152 (véase también
Descomposiciones-LU)
Descomposicionesde matrices (véase Descomposición de matrices mediante eigensistemas;
Descomposiciones-LU;
DescomposicionesQR; Descomposición en valor singular)
Descomposiciones-LU, 127-138,149-159
A = LDLT,152,458
A = LLT,152,459
A = LU, 127-135,458
unicidad del, 136
sin eliminación de Gauss, 151
A = LOU, 128-135
unicidad de, 151
sin eliminación de Gauss, 151
A = PTLDU, 151-152
A = PTLU, 134-135
en la evaluación del det A, 185, 188-189
en la solución de ecuaciones, 139-141
unicidad de, 136
trabajo que involucra el encontrar, 139
A = PTL,Uo, 133-134,136-137
con intercambios, teorema clave, 133
resumen, 134
sin intercambios, teorema clave, 129
software, 147-150
y matrices singulares, 130,134,138
Descomposiciones QR, 263-266
con Q como matriz ortogonal, 345
mediante matrices Householder, 271-273, 345
no normalizadas: A = Q&, 264-266
normalizadas: A = QR, 264-266
y seudoinverso, 389
unicidad (existencia única) de, 276
y mínimos cuadrados, 266-268
Desigualdades de matrices,83,91, 495 (véase también Desigualdades lineales)
Desigualdades lineales, 520-522
Determinantes, 174-190
caracterización de matrices definidas, 457-477
lndice
cofactor-(i, j ) , 174
con límite superior, 476
definición de, 175
de la descomposición-LU, 184,188-189
de la matriz identidad, 183
de la transpuesta, 176
de matrices adjuntas, 188
de matrices de 3 X 3, 175-176
de matrices de 2 x 2,33,175
de matrices elementales, 179
de matrices hermitianas, 192
de matrices triangulares, 183
de Vandermonde, 192
ecuaciones para gráficas, 184,193
evaluación de, 176,180,183,184,188-189,193
expansión alo largo delrenglón o columna, 177
Hadamard, desigualdad de, 476
interpretación geométrica, 476
menor-(;, j ) , 174
operaciones de renglón, 178-179
potencias de los, 184
producto de, 181-182
propiedades básicas, 177-180
'que representan matrices inversas, 184-186
que representan soluciones de ecuaciones,186187
software, 147-150
y no singularidad, 33,181
Diagonal principal, 2
Diferencia (véase Substracción)
Dimensión, 218-220
definición de, 219
intervención geométrica, 197,219
Distancia:
entre dos vectores, 240
de vector a subespacio, 253, 264, 273
Dominio, 278 (véasetambién Transformación lineal, dominio de la)
E
Ecuación característica, 317-318, 359
matriz que satisface la, 401-402
Ecuación diferencial, 419-430
modelo de masas acopladas, 66-72 (véase tambien Modelos, masas acopladas)
t=Ax
A no deficiente, 421-423
A posiblemente deficiente, 423-425
soluciónutilizandolamatriz
exponential,
426
x = Ax
f, 428-429
+
Ecuaciones homogéneas (véase Sistemas homogéneos)
Ecuaciones inconsistentes, 104-105
Ecuacioneslineales (véasetambién Sistemasde
ecuaciones)
Eficiencia (véase también Medidas de trabajo):
cómo encontrar en cálculo de matrices inversas,
42,44,186
561
condensación de datos, 382-384
eliminación de Gauss, 101,110,111,161
eliminación de Gauss-Jordan, 101,104,159
en la solución de ecuaciones, 35, 187
formas de renglón-escalón, 159
programación lineal, 505-506, 517-518, 524-525
Elgensistemas (véase Eigenvalor; Eigenvector)
condición, 353-358
de A y de AH,relacionadas, 373
definición de 316-317
de la forma de Jordan, 404-406
de matrices hermitianas,368-370 (véase también
Matriz hermitiana)
de matrices permutadas, 403
de subespacios invariantes, 311-312, 319-323
de una matriz normal, 368-370 (véase también
Matriz normal )
de una matriz simétrica,368-370 (véase también
Matriz simétrica)
del algoritmo QR,352,405
diagonalización de formas cuadráticas,
443,452
diagonalización de los cocientes de Rayleigh,
46 1
en representaciones simples de transformaciones, 314-315, 328-330, 364, 367
estructura de, 405-406
singularidad de A - XI, 310-311,316-324
software, 351-353
valores mínimos o máximos de una forma cuadrática o delcocientedeRayleigh,
462,464-465, 470471 (véase también
Mín-máx,principiosde;Rayleigh,
principio de,)
y descomposicióndematrices,
284,326-328,
362-366 (véase también Descomposición de matrices mediante eigensistemas)
Eigenvalor (véase Eigensistema; Eigenvector):
aproximación mediante el cociente
de Rayleigh,
46 -462
1
aproximado, 357-358
caracterización de matrices definidas, 457
condición del, 355
definición de, 316-317
de una matriz singular, 325
de una matriz triangular, 325
dependencia funcional de los términos de una
matriz, 358
distinto, 318
en el modelo
de masas acopladas,
69-71,31 I,473
estructura del conjunto de, 319
generalizado, 474, 478
método de Lanczos para encontrar el, 392
multiplicidad (véase Eigenvalor, multiplicidad
algebraica; Eigenvalor, multiplicidad
geométrica)
multiplicidad algebraica:
ls potencias de una macomportamiento de a
triz, 413
562
lndice
definición de, 318
y multiplicidad geométrica, 324, 337, 405
multiplicldad geométrica, 318-322
comportamiento de las potencias de
una matriz, 413
definición de, 324
y la forma de Jordan, 398
y multiplicidad algebraica, 324, 337, 405-406
para comparación de matrices diferentes, 472473,474
real, 319
simple, 318
valores máximos o mínimos de una forma cuadráticao un cociente de Rayleigh, 462,
465-466,470-471
(véasetambién
Mín-máx, principio de; Rayleigh,
principio de)
y la transpuesta, 325
y oscilaciones, 66-72,310-311 (véase rambién
Modelos, sistemas oscilatorios)
y potencias de una matriz, 325
y rango, 359
y una matriz inversa, 325
Eigenvector (véase Eigensistemas: Eigenvalor):
aproximado, 357-358
condición del, 356-357
conjunto asociado con un eigenvalor, 319-321
conjunto linealmente independiente de,
319-323,
327-328, 347, 405-406
conjunto ortonormal de, 347, 368-370
definición de, 316
de matrices defectuosas, 395
de matrices no defectuosas, 395
estructura del conjunto de, 319-321, 405-406
generalizado, 404-406
izquierdo, 406-408
maximizador o minimizador de una forma cua462,
dráticao un cociente de Rayleigh,
465-466,470-471
(véasetambién
Mín-mix,principiode;Rayleigh,
principio de)
real, 319
EISPACK, 352-353
Elementos de una matriz, 1
Eliminación de un elemento, 94
Eliminación de una variable, 92
Eliminación, métodos de(véase Gauss, eliminación
de; Gauss-Jordan, eliminación de)
Elipse, 440-441,445
Elipsoide, 453
Equilibrio:
competencia entre lecherías, 50-51, 53, 170-171,
185
en redes, 60-66,90, 171
Equivalencia de renglón, 115
Errores (\*éase Análisis de error retrospectivo: Inexactitudes: Modelos, errores en)
Escalamiento, 121-122, 126
Escalar, 7, 201
Espacio de columna, 234-237
cubierto por vectores ortogonales, 264-265,270
definición de, 235
de matrices que representan una transformación
lineal, 291
del producto AB, 240
dimensión y rango del, 235
Espacio de imagen, (véase rambiénTransformación
lineal, espacio de imagen)
Espacio de renglón, 234-237
definición de, 235
dimensión y rango, 235
equivalencia para dos matrices, 235-237
Espacio nulo, 280-281 (véase también Transformación lineal, espacio nulo)
Espacio vectorial, 194-276 (véase también Espacio
vectorial complejo; Espacio vectorial
real)
complejo, 201 (véase también Espacio vectorial
complejo)
Cp, 202,206 (véase también Espacio vectorial
complejo,,C. )
dimensión de, 219
definición de, 201
de transformaciones lineales, 278
dimensión de, 218-220 (véase Dimensión)
dimensionalmente finito, 219
ejemplos, 201-202, 278
espacio de producto, 202-204, 207
general, 200-276
p-dimensional, 219
real, 201 (véase también Espacio vectorial real)
R p, 202, 206 (véase también Espacio vectorial
real, W P)
dimensión de, 219
subespacio de, 203-206 (véase también Subespacio)
{ O } , 206,207,219,228
Espacio vectorial complejo:
c p , 202, 206
producto interior estándar, 248
definición de, 201
isomórfico a CP, 223
Espacio vectorial real:
definición de, 201
producto interior estándar, 248
RP, 202,206
Estadística, 441-442, 465, 466-467, 477
Evolución de sistemas:
modeloscontinuos, 419-430 (\,Pase tarnbir;n
Ecuación diferencial)
modelos discretos, 47-60, 289, 311-312,409-419
Existencia de soluciones (\,éase también Soluciones, cómo encontrar; número desoluciones):
con programas lineales, 490-492, 519-520
de ecuaciones de transformaciones lineales,
279,
282
de desigualdades lineales, 519-522
lndice
de mínimos cuadrados, 268
ensistemas de ecuaciones, 162-171,370-371,
406-408
e inversas derechas, 31
e inversas (bilaterales), 31
ejemplos de, 104-109
equivalentes a la unicidad, 166-167
matrices normales, 370-371
teorema clave cuando p = q , 166
y rango, 163-164
Exponencial de una matriz, 426-428, 435
comportamiento para una t grande, 427-428
de matrices hermitianas, 477
en la solución de t = Ax, 427
F
Farka, teorema de, 521-522,523
Flops (véase Eficiencia)
Forma cuadrática, 440-478 (véase también Rayleigh, cociente de)
curva de nivel, 401 (véase también Curva de
nivel)
definida:definidapositiva,semidefinida
positiva,definidanegativa,semidefinida
negativa,indefinida, 456-458 (véase
también Matriz, definida)
definición de, 451
diagonal y diagonalización, 452
ejemplos, 440-442
en W , 442-449
gráficas de, 444-448
forma simple mediante el uso de eigensistemas, 443-448
equivalencia sobre C y R 2P, 478
extremamente, 459-474 (véase también Mínmáx, principios de; Rayleigh, principio d e )
forma simple mediante el uso de eigensistemas,
452-458
principio de mín-máx, 470-471 (véase también
Mín-máx, principio de)
principio de Rayleigh, 465-466 (véase también
Rayleigh, principio de)
restringida a matrices hermitianas o simétricas
reales, 450-45 1
superficie de nivel,453 (véase también Superficie de nivel)
valor real, 450-45 1
y el cociente de Rayleigh, 460-461 (véase también Rayleigh, cociente de)
Forma Jordan de una matriz, 335 37; 396-404
cómo encontrar la, 399-401,
condición para la, 403
de matrices similares, 334, 403
existencia de la, 335-336, 398-399
y el polinomio mínimo, 403-405
y estructura del eigensistema, 336
i”
563
Forma de Schur de una matriz, 349, 362-366, 392
Forma reducida de ecuaciones 93 (véase también
Gauss, eliminación de; Gauss, forma
reducida de)
Fourier, análisis de (véase Fourier, análisis discreto
de)
Fourier, análisis discreto de, 22-23, 35-36
Fourier, series de, 22-23, 36
Fourier, transformada de (véase Fourier, transformada discreta d e )
Fourier, transformada discreta de, 23, 35-36
Fragmentación de matrices, 433-436
Fredholm, alternativa de, 168,519
Frobenius, norma de, 385
G
GAN, 149 (Grupo de algoritmos numéricos)
Gauss, eliminación de (véase también Gauss, forma
reducida de, Soluciones cómo encontrar sistemas de ecuaciones):
costo (véase Medidas de trabajo)
intercambios en, 97-99 (véase también Pivote,
selección de)
buen criterio de, 117-126
necesidad de, 98-100
posibilidad de, 97-98
para ecuaciones, 91-93
para encontrar matrices inversas, 109-112
costo de, 141-142
para la forma reducida de Gauss, 154
para matrices aumentadas, 93-104
algoritmo definido, 100
para una matriz general, 154
reducción de una matriz, 154
software para, 147-149
variante
de
Crout,
151 (véase también
Descomposiciones-LU, A = LU)
variante de Doolittle, 151-152 (véase también
Descomposiciones-LU, A = IOUo)
y aritmética de punto flotante, 119-126
y descomposiciones-LU, 127-138
y matrices definidas, 457-458, 477
Gauss, forma reducida de, 93, 154
definición de la, 154-155
dependencidindependencia lineal de las columnas, 232
matriz no singular, 173
no singularidad de la, 155-157
teorema clave de la, 155-157
Gauss-Jordan, eliminación de, 100-101
costo (véase Medidas de trabajo)
forma
modificada,
104 (véase rambién
Renglón-escalón, reducción de)
Gauss-Seidel, método de, 432-434
Generar, 208 (véase también Conjunto generador)
Gerschgorin, círculos de, 353-354, 357, 358
Gram-Schmidt, proceso de, 255-258
564
lndice
H
Hadamard, desigualdad de, 476
Hessenberg, forma de, 348-349, 351
Hipérbola, 440-441, 445-446
Hiperboloide, 454
I
Igualdad de matrices, 3
Inducción matemática, 44
Inercia, ley de Sylvester sobre la, 459
Inexactitudes:
cómputo del punto flotante,117-1 18(véase rambién Puntoflotante,aritméticade,
dígito-t)
efectos de las (véase Condición)
en modelos, 73-76, 122, 299-300
medición de las, 73-76, 122, 299-300, 388
Interpolación, 168,170
Inversa:
d e una matriz, 23-36 (véase también Matriz inversa;Matriz nosingular;Inversaderecha; Inversa bilateral)
de una transformación lineal, 283-284
existencia de, 283, 309
producto de, 285
Inversabilateral (véasetambién Matrizinversa;
Matriz no singular):
cómo encontrar la, 40, 109-1 12
definición de, 24
de la inversa, 28
de un producto, 28, 32-33
existencia de la, 26-27, 45, 166
matriz de bloque diagonal, 191
relacionada a la inversa izquierday derecha, 27,
166,170
representación en determinantes, 32, 183-185
transpuesta hetmitiana y transpuesta, 28
unicidad de, 26-27
verificación de, 28
Inversa derecha:
cómo encontrar la, 24-26, 40, 109-112
definición de, 24
existencia de, 26-27, 45, 166, 171-172, 173
matrices cuadradas, 26-27, 166
matrices de bloque diagonal, 192
transpuestas, 32
unicidad, 170, 173
y rango, 171-172
Inversas de matrices (véase Inversa izquierda; Inversa derecha; Inversa bilateral)
Inversa izquierda:
cómo encontrar la, 24-26, 40, 109-112
definición de, 24
existencia de, 26-27, 45, 172, 173-174
matrices cuadradas, 26, 27, 170
matrices de bloque diagonal, 192
transpuestas, 32, 40
unicidad de, 173-174
y rango, 172
Isomorfismo, 222
principio del, 224, 226
base del, 227
dependencidindependencia lineal, 227
normas vectoriales, 245
productos interiores, 252
Isomorfismocoordenado, 223 (véasetambién
Mapeo coordenado)
como transformación lineal, 278
inverso, 227
y base, 227
y dependencidindependencia lineal, 227
y normas vectoriales, 245
y productos interiores, 252
J
Jacobi, método de, 432-436
Jordan, bloque de, 397
L
Lanczos, método de, 392
Ley asociativa:
de la convolución, 22
de la suma de matrices, 4-5
de la suma de un vector geométrico, 197
del producto cruz, 18
del producto de elemento por elemento, 19
del producto de vectores, 18
del producto Kronecker, 18
del producto tensorial, 18
de multiplicación de matrices, 12-13
de suma de vectores, 201
Ley conmutativa:
de la convolución x * y , 22
de la multiplicación de matrices, 11-14, 19
de la suma de matrices, 4-5
de la suma de vector geométrico, 197
de la suma vectorial, 201
del producto elemento a elemento, 19
L e y distributiva:
de vectores geométricos, 197
de la multiplicación de matrices, 12-14
Límite (véase también Convergencia):
sucesión matricial, 51-55, 87-88, 298, 299
sucesión vectorial, 241-242
Linealmente dependiente de:
base geométrica de, 198
definición, 208
y conjuntos linealmente dependientes, 21 1-212
Linealmente independiente de, definición de, 208
LINPACK, 149
Longitud de un vector, 196,239-243 (\!éase también
Norma vectorial)
M
Magnitud de un complejo, 2
Mapeocoordenado, 222-223 (véasetambién
morfismo coordenado)
Iso-
lndice
Marco (véase Modelos, marco)
Markov, cadenas de, 47-55, 87, 89 (véase también
Matriz, de Markov)
Masas acopladas(véase Modelos, masas acopladas)
MATLAB, 149
Matriz(ces):
adjunta, 184 (véase también Adjunta, matriz)
adjugada 184 (véase también Adjunta, matriz)
aumentada, 100(véase tambiénAumentada, matriz)
cero, 5 (véase también Cero, matriz)
covarianza de una, 441-442
componente principal de la, 465, 466-467
cuadrada, 2
de banda, 136,147
de Hilbert, 267, 273
de Markov, 414416, 438-439
de un sistema de ecuaciones lineales, 29
defectiva, 395
definición de, 1
definida:defmidapositiva,semidefinidapositiva, definida negativa, semidefinida
negativa, indefinida, 455-457
caracterizada por determinantes, 456, 477
caracterizada por eigenvalores, 456
caracterizada por la eliminación de Gauss,
456457, 477
diagonal, 2 (véase también Matriz diagonal)
diagonal principal, 2
dominante diagonalmente (véase Matriz, estrictamentedominantediagonalmente
por columna;Matriz,estrictamente
dominantediagonalmenteporrenglón)
elemento+, j ) , 1
esparcida, 8 9 , 136, 430
estrictamente dominante diagonalmente por columna, 306
estrictamentedominantediagonalmentepor
renglón, 305,436
hermitiana, 16 (véasetambién Matrizhermitiana)
idempotencia de, 477
irreducible, 415
limitada, 42
multiplicación de,9-23 (véase también Multiplicación, de matrices)
múltiplo escalar de, 6 (véase también Múltiplo
escalar de una matriz)
no defectiva, 356
no negativa, 89, 414-416,495
inversa, 418
teorema de Perron-Frobenius, 416-417
no singular, 28-36 (véase también Matriz no singular)
normal, 348,350-351,366-367
(véasetambién
Matriz normal)
potenciasde, 11, 13 (véase tambiénPotencias de
una matriz)
565
proyección de, 262-263, 269
raíz cuadrada de, 477
reducible, 416
representación polar de, 477
separada, 36-44 (véase Matriz separada)
simétrica, 15 (véase Matriz simétrica)
suma de, 4-5 (véase también Suma de matrices)
tridiagonal, 137,146
unitaria, 305 (véase también Matriz unitaria)
Matrices elementales, 113-1 16
determinantes de las, 179
multiplicación anterior por, 113
multiplicación posterior por, 115-116
no singularidad de, 114
producto de, para matrices no singulares, 172-
173
y operaciones de renglón, 113
Matrices semejantes, 332-334 (véase también Matricesortogonalmentesemejantes;
Matricesunitariamentesemejantes;
Transformación de semejanza)
definición de, 332
eigensistemas de, 332-333
no singularidad de, 333-334
potencias de, 333-334
y la forma Jordan, 336, 403
Matrices unitariamente semejantes, 340-349 (véme
también Matricessemejantes; Ortogonalmentesemejantes,matrices;
Transformación de semejanza unitaria)
definición de, 340
norma de, 341
Matriz adjugada,186-187 (véase también Matriz adjunta)
Matriz adjunta, 185-186
determinante de la, 187
de una matriz singular, 188
fórmula para A-l, 186
Matriz aumentada, 93, 100
múltiplo-aumentada, 112-1 13, 141
Matriz aumentada multiplicada, 112-113,141
Matriz columna, 1
multiplicación de, 9
Matriz columna unitaria, 40
Matriz cuadrada, 2
Matriz de Householder, 261, 276, 342-344
definición de, 340
para descomposiciones-QR, 271-272, 344
para la forma de Hessenberg, 348-349, 351
para obtener ceros, 271-272,343-344
propiedades básicas de la, 342-343
trabajo mediante, 349-350
Matriz de permutación, 133-134
determinante de la, 184
Matriz de proyección, 262-263, 268
Matriz de renglón, 1
multiplicación de,9, 39
Matriz de rotación elemental, 345
566
lndice
Matriz de transición, 50
Matriz diagonal, 2
hermitiana, 21
no singular, 33
simétrica, 21
Matriz: forma de bloque triangular y forma diagonal
de bloque, 396-397
Matriz hermitiana (véase también Matriz normal;
Matriz simétrica):
definición de, 15
eigensistema de la, 368-369 (véase Matriz normal,eigensistemadela;Mín-máx,
principio de: Rayleigh, principio de)
inversa, 33
potencias de la, 20
producto de la, 16, 20
Matriz hermitiana oblicua, 21, 368, 374
Matriz identidad, 12-13, 20
Matriz inversa, 23 (véase también Matriz no singular; Inversa bilateral)
cómo encontrarla, 40
eliminación de Gauss, 109-1 12
costo de, 141-142, 186
forma renglón-escalón, 173
software, 147-150
de una matriz modificada, 42, 45, 116-117, 143145,448
de una matriz perturbada, 299-301
fórmula de la, mediante la matriz adjunta, 185
lema o premisa de Banach, 300
positiva definida, 459
representada por determinantes, 185-187
Matriz no negativa (véase Matri7. no negativa)
Matriznosingular,
28-36 (véase también Matriz
singular; Inversa bilateral)
ATA y rango de A , 192
como producto de matriceselementales,
172-173
definición de, 28
determinante de una, 181
e independencia lineal de columnas o renglones,
235
dominante diagonalmente, 305-306
forma de renglón-escalón, 173
forma reducida de Gauss de una, 173
inversa como una, 28
I + P, 300
matrices elementales, 172-173
perturbaciones de, 300-301, 304-305
producto como, 173, 174
producto de, 28
rango de una, 169, 172
transpuesta hermitiana y transpuesta, 28
y el teorema clave sobre existencia igual a unicidad en ecuaciones, 166
Matriz normal, 347,349-350,366-367 (véase Matriz
hermitiana; Matriz simétrica)
definicióndelarepresentacióndiagonalde
transformación, 367
eigensistemas de una, 368-370
posibilidad de solución de ecuaciones, 370, 371
similitud unitaria a una matrizdiagona1,566-367
Matriz nula, 5 (véase también Cero, matriz)
Matrizortogonal, 44-45,338-349 (véasetambién
Matriz unitaria)
como productode matrices de Householder,348
definición de, 339
matriz de rotación elemental, 347
matriz Householder, 342 (véase también Matriz
de Householder)
no como producto de rotaciones, 350
Matriz separada, 36-44
álgebra de, la, 37-38
definición de, 37
en los modelos, 38
inversa de la, 41, 42, 45
transpuesta de la, 40-41
Matriz simétrica (véase tambiénMatriz herrnitiana:
Matriz normal):
compleja, 351
definición de, 16
eigensistema de una, 368-369
inversa, 33
potencias de una, 21
producto de una, 16, 20
Matriz simétrica oblicua, 21 (véase también Matriz
hermitiana oblicua)
determinante, 183
Matriz singular (véase también Matriz no singular;
Inversa bilateral)
ATA y rango, 171
definición de, 28
producto como, 174
Matriz triangular (véase Matriz triangular inferior:
Matriz triangular superior; Matriz
unitaria triangular inferior; Matriz unitaria triangular superior)
Matriz triangular inferior, 2
determinante de la, 183
inversa de la, 135
producto de la, 135
Matriz triangular superior, 2
determinante de, 183
inversa de, 135
producto de, 135
Matriz unidad (vease Matriz identidad)
Matriz unitaria, 338-349 (véase también Matriz ortogonal)
definición de, 340
más cercana a una matriz dada, 385
propiedades básicas de una, 340-341, 360
Matriz unitaria triangular inferior, (véase
2
también
Matriz triangular inferior)
Matriz unitaria triangular superior,(véase
2
también
Matriz siangular superior)
Medidas detrabajo, 138-147 (véase también Eficiencia)
lndice
con matrices Householder, 349-350
descomposición en valor singular, 381
en la eliminación de Gauss, 139-141, 161-162
matrices de banda, 147
matrices tridiagonales, 147
en la eliminación de Gauss-Jordan, 141
forma modificada de, 161-162
reducción d e renglón-escalón, 161-162
solución de ecuaciones mediante el uso de A =
PTLU, 140-142
soluciónde sistemasde ecuaciones
modificados,
141-145
Mejor aproximación, 253
uso de programación lineal, 525-526
Menor, 175
Métodositerativos, 89,430-437 (véasetambién
Gauss-Seidel, método de; Jacobi,
mttodode;Sobre-relajacionessucesivas, método de)
Mínimos cuadrados, 73-81, 267-269
aritmética de punto flotante, 274
descomposiciones-QR, 267-269
descomposición en valor singular, 386-388
ecuaciones equivalentes de los, 76, 78,80,89,
170, 276
existencia de soluciones de los, 267
ponderados, 78-79
seudoinversos, 387-388
y proyección ortogonal en espacios nulos, 502
Mín-máx, principio de, 468-474
para el segundo eigenvalor mayor, 468-470
para todos los eigenvalores, 470-471
teorema clave del, 470-47 1
Modelos:
competencia de dentífricos, 53
competencia entre lecherías,47-55, 81, 170-171,
184,322,326
eigensistema de la, 312-313
forma de Schur de la matriz que representa
la, 364-365
competenciaentrezorros
y gallinas, 56-59,
88-89, 273, 289, 297, 403-404
versión continua de la, 420, 422-423, 424
comportamiento cualitativo de, 56
crecimiento poblacional, 55-59
dieta balanceada, 86-87
embarques de pan, 526
errores en los, 74, 76, 2