Inhoudsopgave Voorwoord 3 1 Complexe lineaire algebra 1.1 De lineaire structuur van Cn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Complexe Matrixalgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Complexe eigenwaarden en eigenvectoren . . . . . . . . . . . . . . . . . . . . . . . 5 5 7 9 2 De 2.1 2.2 2.3 2.4 2.5 2.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 15 22 24 30 34 40 3 Lineaire afbeeldingen 3.1 Afbeeldingen van Rn naar Rm . . . . . . . . . . . . . . . . 3.2 Lineaire afbeeldingen tussen vectorruimten . . . . . . . . 3.3 Eigenschappen Lineaire afbeeldingen . . . . . . . . . . . . 3.4 Operaties op lineaire afbeeldingen en inverteerbaarheid . . 3.5 Matrixrepresentaties van lineaire afbeeldingen . . . . . . . 3.6 Lineaire operatoren, eigenvectoren en eigenwaarden . . . . 3.7 Bepalen eigenwaarden als V oneindig–dimensionaal is . . 3.8 Bepalen van eigenwaarden: het eindig dimensionale geval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 45 49 53 57 61 68 72 74 4 Cn met zijn inwendigproduct structuur 4.1 Het standaard Inwendig Product op Cn . . . . . . . . . . 4.2 Orthogonaliteit in Cn . . . . . . . . . . . . . . . . . . . . 4.3 Spectraal eigenschappen Speciale Matrices . . . . . . . . . 4.4 Symmetrische Matrices en de reële Spectraaldecompositie 4.5 Unitaire Diagonaliseerbaarheid . . . . . . . . . . . . . . . 4.6 Normale matrices en de complexe Spektraaldecompositie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 77 80 84 86 91 95 . . . . . . . . . . . . . . . . . . . . . . . . (vervolg) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 97 99 100 105 108 112 117 5 lineaire structuur op een vectorruimte Vectorruimten . . . . . . . . . . . . . . . . . . . . De afhankelijkheid van de vectorruimte axioma’s Lineaire Opspanning en Deelruimten . . . . . . . Lineaire (On)Afhankelijkheid . . . . . . . . . . . Basis, Coördinaten en dimensie . . . . . . . . . . Coördinatentransformaties . . . . . . . . . . . . . Inwendig productruimten 5.1 Inwendig producten . . . . . . . . . . . . . . . . 5.2 Standaard inwendig producten . . . . . . . . . . 5.3 Niet standaard inwendig producten . . . . . . . . 5.4 Meetkunde met behulp van een inwendig product 5.5 Meetkunde met behulp van een inwendig product 5.6 Orthogonale verzamelingen en de Grammatrix . 5.7 De Orthogonale projectie . . . . . . . . . . . . . i . . . . . . . . . . . . . . . . . . . . . . . . INHOUDSOPGAVE 6 1 5.8 5.9 Het bepalen van Orthogonale projecties . . . . . . . . . . . . . . . . . . . . . . . . 119 Maximaal Orthogonale verzamelingen . . . . . . . . . . . . . . . . . . . . . . . . . 126 De 6.1 6.2 6.3 6.4 6.5 6.6 6.7 geadjungeerde van een lineaire operator De geadjungeerde van een lineaire afbeelding . . . . . De geadjungeerde van een lineaire operator . . . . . . Zelfgeadjungeerde (hermitische) operatoren . . . . . . Hilbertruimten . . . . . . . . . . . . . . . . . . . . . . De spectraalstelling voor zelfgeadjungeerde operatoren Unitaire en orthogonale operatoren . . . . . . . . . . . Normale operatoren en de spectraalstelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 129 132 136 140 142 143 147 Toegift 1: Een voorbeeld van een unitaire matrix, de discrete Fourrier transformatie 151 Toegift 2: Commuterende matrices en simultaan diagonaliseerbaarheid 155 Toegift 3: Gegeneraliseerde eigenvectoren, de Jordan normaalvorm 159 Voorwoord Het is de bedoeling dat het onderdeel lineaire algebra van het vak ???? goed aansluit bij het dictaat lineaire algebra, deel 1. Net als in het dictaat van deel 1 zullen er in ook dit deel nog vele taal en wiskundige foutjes (zo niet fouten of blunders) staan. Daarom blijft ook voor dit dictaat de oproep uit deel 1 geldig aan de studenten. Ziet u fouten, geef deze dan aan mij door, opdat toekomstige studenten een beter dictaat verkrijgen. De volgende onderwerpen zullen aan bod komen. 1. Ophalen kennis lineaire algebra via Cn . 2. De algemene vectorruimten (reeel en complex) worden geı̈ntroduceerd. 3. De lineaire structuur op algemene vectorruimten wordt bestudeerd, via: • Deelruimten, opspanning en basis. • Coördinatentransformaties en overgangsmatrix. 4. Lineaire afbeeldingen tussen vectorruimtes worden bestudeerd, via: • Lineaire afbeeldingen en transformatiematrix. • Eigenwaarden, eigenruimtes van een lineaire operator. Bovenstaande zijn de onderwerpen van het eerste deeeltentamen (tesamen met de onderwerpen differentiaalvergelijkingen). Het tweede deeltentamen betreft inwendigproductstructeren op vectorruimten (tesamen met de onderwerpen differentiaalvergelijkingen). 1. Het standaard inwendigproduct op Cn en op andere vectorruimten wordt geı̈ntroduceerd. 2. Inwendig product ruimten worden geı̈ntroduceerd (reeel en complex). 3. Basisrepresentatie inwendigproduct. 4. Projecteren op eindig dimensionale deelruimten. 5. De spectraalstellingen voor reële en complexe matrices. 6. Operatoren theorie, geadjungeerde van een operator, zelfgeadjungeerde operatoren, normale operatoren. 3 Hoofdstuk 1 Complexe lineaire algebra 1.1 De lineaire structuur van Cn We worden allen geacht vertrouwd te zijn met de complexe getallen en met de elementaire operaties op C zoals: optellen, aftrekken, vermenigvuldigen, delen en conjugatie (complex toegevoegde). Ook de polaire vorm (notatie) van een complex getal (d.w.z. z = |z|eiφ ) wordt u geacht te kennen en ermee te kunnen rekenen. Zo niet, bekijk dan de appendix die op blackboard staat over complexe getallen 1 . In deel 1 hebben we de complexe tegenhanger van Rn (die uit alle reële n × 1 matrices bestaat) al ontmoet, namelijkCn . Deze bestaat uit alle complexe n × 1 matrices. z1 We schrijven z = ... ∈ Cn . Op Cn definiëren we een optelling en een scalaire vermenigvuldizn ging (een lineaire structuur) via: als: z, w ∈ Cn en c ∈ C, zeg: z1 z = ... en w = zn w1 z1 + w1 cz1 . .. dan z + w = .. en cz = .. . . wn zn + wn czn Merk op dat op C één operatie bestaat die we reëel niet kennen (of liever, die reëel weinig zinvols oplevert): de conjugatie z (als z = a + bi dan z = a − bi). We definiëren de conjugatie op Cn alsvolgt: als z ∈ Cn , zeg: z1 z = ... dan z = zn z1 .. . zn Met deze optelling en (complexe )scalaire vermenigvuldiging blijkt Cn een zogeheten (complexe) vectorruimte te zijn, waarmee we bedoelen dat aan de 8 rekenregels uit deel 1 voldaan is. 1 Naar een handout van Dr. H.A.W.M. Kneppers 5 6 Hoofdstuk 1. Complexe lineaire algebra STELLING 1.1. De optelling + voegt aan ieder tweetal z, w ∈ Cn en aan iedere scalair c ∈ C een vector z + w ∈ Cn en cz ∈ Cn toe, die voldoet aan de volgende 8 rekenregels. 1. z + w = w + z. ( commutatieve eigenschap) 2. (z + w) + v = z + (w + v). ( associatieve eigenschap) 3. Er is een nulvector 0 met de eigenschap z + 0 = 0 + z = z. 4. Voor elke z bestaat een tegengestelde −z zo dat z + (−z) = 0. 5. c(z + w) = cz + cw. ( distributieve eigenschap 1) 6. (c + d)z = cz + dz. ( distributieve eigenschap 2) 7. c(dz) = (cd)z. 8. 1z = z. De hele theorie zoals eerder behandeld is voor Rn kan herhaald worden voor Cn met letterlijk dezelfde stellingen en dezelfde bewijzen. Want aan puur symbolisch rekenen kan men niet zien of in R of in C gerekend wordt (zolang geen ongelijkheden worden gebruikt; de uitspraak x2 ≥ 0 is waar in R, niet in C). Bijvoorbeeld, het oplossen van complexe stelsels [A|b] (of Az = b) gaat hetzelfde als bij reële stelsels. Dit hebben we bij deel 1 al gezien en daar hebben we ook ingezien dat het oplossen van complexe stelsels, hoewel methodisch hetzelfde, rekentechnisch toch een extra inspanning vraagt. We geven een lijst met de opbouw van de complexe lineaire algebra. • Als (z1 , z2 , . . . , zk ) een stelsel vectoren in Cn is en als c1 , c2 , . . . , ck scalairen in C zijn, dan wordt de vector van de vorm c1 z1 + c2 z2 + · · · + ck zk een lineaire combinatie van het stelsel genoemd. Een lineaire combinatie wordt ook genoteerd c1 met het matrixvectorproduct: [z1 · · · zk ] | . ck De verzameling van alle lineaire combinaties van dit stelsel heet de “(lineaire) opspanning van (z1 , . . . , zk )”) en wordt genoteerd met: Span{z1 , . . . , zk }. • Als z1 , z2 , . . . , zk een stelsel vectoren in Cn is dan zeggen we dat dit dit stelsel lineair onafhankelijk is als de eis: c1 z1 + c2 z2 + · · · + ck zk noodzakelijk impliceert dat c1 = c2 = · · · = ck = 0. Als dit niet zo is dan heet dit een afhankelijk stel vectoren. • Een deelverzameling W ⊂ Cn heet een lineaire deelruimte van Cn als: 1. 0 ∈ W , 2. Als z1 , z2 ∈ W , dan ook z1 + z2 ∈ W , voor alle z1 , z2 ∈ W , 3. Als z ∈ W en c ∈ C, dan ook cz ∈ W , voor alle z ∈ W en c ∈ C. • De lineaire deelruimtes van Cn zijn precies die deelverzamelingen die te schrijven zijn als Span{z1 , . . . , zk }. • Als W een deelruimte is van Cn dan heet de verzameling B = {b1 , . . . , bk } een basis voor W als: 1. Span{b1 , . . . , bk } = W . 1.2. Complexe Matrixalgebra 7 2. De verzameling {b1 , . . . , bk } is lineair onafhankelijk. • Stel dat W een deelruimte is van Cn . Dan bestaat er een basis voor W en twee verschillende bases van W zullen hetzelfde aantal vectoren hebben. Dit aantal wordt de dimensie van W genoemd en wordt genoteerd met dim(W ). • We merken nog op dat de standaardeenheids vectoren vectoren {e1 , e2 , . . . , en } een basis voor Cn vormen, ook hier de standaardbasis geheten, waaruit volgt dat dim(Cn ) = n. (Hoewel C = C1 meetkundig wordt voorgesteld met een vlak, is de (algebraı̈sche !) dimensie van C1 dus 1.) • Ook in de complexe lineaire algebra geldt de uitbreidingsstelling, de uitdunningsstelling en de dimensiestelling voor deelruimtes. • Aan een complexe m × n matrix A = [a1 . . . ak ] kunnen we de deelruimtes Col(A) = Span{a1 , . . . , ak } ⊂ Cm en Nul(A) = {z ∈ Cn |Az = 0} ⊂ Cn toevoegen. Op de ons bekende wijze is een basis te bepalen voor deze ruimtes. De pivotkolommen van A vormen een basis van Col(A), de richtingsvectoren van de oplossing van het stelsel Az = 0 vormen een basis van Nul(A). • Voor een complexe m×n matrix A geldt ook: dim(Col(A))+dim(Nul(A)) = n en dim(Col(A)) = dim(Col(AT )). Dit laatste getal wordt ook de rang van A genoemd. 1.2 Complexe Matrixalgebra De complexe matrixalgebra is het evenbeeld van de reële matrixalgebra. Letterlijk dezelfde definitie van de som en het product van twee matrices geldt. De inverse van een matrix en de inverse matrix stelling kan letterlijk complex gebruikt worden. Echter, we hebben complex een extra operatie die we kunnen overhevelen naar de matrices, de operatie conjugeren. Dit levert bij de complexe matrixalgebra de (nieuwe operatie de conjugatie van een matrix. A is de ) matrix A met geconjugeerde kentallen, dus A i,j = ai,j . 1 i Voorbeeld 1.2. Als A = 4 − 5i 1−i 1 5 + 2i dan A = −i 4 + 5i 4 + 5i 1+i 5 − 2i . 4 − 5i Bij het bewijs van het volgende lemma zijn de rekenregels voor voor de geconjugeerde z nodig. (Dit zijn: z = z, z1 + z2 = z1 + z2 en z1 z2 = z1 z2 .) LEMMA 1.3. Laat A, B matrices zijn. Dan geldt: 1. A + B = A + B, 2. AB = A B, 3. A is een reële matrix als en slechts als A = A. Het transponeren van complexe matrices gaat zonder enig probleem. Echter, transponeren blijkt voor de complexe algebra een minder belangrijke operatie te zijn. Wat daarvoor in de plaats komt is het zogeheten ”Hermitisch2 transponeren”. 2 Charles Hermite 1822-1901. Hij had moeite met zijn studie en heeft 5 jaar over zijn kandidaatsexamen gedaan. Hij heeft een belangrijke bijdrage geleverd op het gebied van de elliptische functies. Verder heeft hij als eerste het transcendent zijn van e aangetoond. 8 Hoofdstuk 1. Complexe lineaire algebra Definitie: Laat A een (complexe) m × n-matrix zijn. De Hermites getransponeerde of geconjugeerd getransponeerde A∗ van A is de matrix die uit A verkregen wordt door A te transponeren en van elk kental de complex geconjugeerde te nemen, dus A∗ = (A)T = (AT ). Voorbeeld 1.4. De Hermites getransponeerde van de matrix [ A= wordt gegeven door de matrix 1 2+i 3 i 0 1−i ] 1 3 A∗ = 2 − i −i . 0 1+i De volgende stelling bevat de rekenregels voor Hermites transponeren. Deze rekenregels (eigenschappen) zijn niet moeilijk te bewijzen. STELLING 1.5 (Eigenschappen van het Hermites transponeren). Als A en B twee (complexe) matrices zijn, dan geldt 1. (A∗ )∗ = A, 2. (A + B)∗ = A∗ + B ∗ , 3. (cA)∗ = cA∗ voor ieder complex getal c, 4. (AB)∗ = B ∗ A∗ . 5. A is een reële matrix als en slechts als A∗ = AT . Met behulp van transponeren zijn in deel 1 op diverse plaatsen speciale typen reële matrices gedefinieerd. We herhalen deze definities nog even. Definitie: Laat A een reële matrix zijn. A heet • symmetrisch als AT = A, • scheefsymmetrisch als AT = −A. Afspraak Als we praten over een symmetrische of scheefsymmetrische matrix A, dan zal daarmee zonder verdere uitleg aangenomen worden dat de matrix A een reële matrix is! Vervolgens gaan we de (scheef)symmetrische matrices generaliseren met behulp van de definitie van de Hermites getransponeerde. 1.3. Complexe eigenwaarden en eigenvectoren 9 Definitie: Laat A een matrix zijn. A heet • Hermites als A∗ = A, • scheefhermites als A∗ = −A. Opmerking: We sommen een aantal eigenschappen op: • A is Hermites als en slechts als aij = aji , (voor alle i, j). • Als A Hermites is dan staan op de hoofddiagonaal reële getallen. • A is scheefhermites als en slechts als aij = −aji , (voor alle i, j). • Als A scheefhermites is dan staan op de hoofddiagonaal zuiver imaginaire getallen. • A is scheefhermites als en slechts als iA Hermites is. • Er geldt: een (noodzakelijk reële) symmetrische matrix is Hermites en een (noodzakelijk reële) scheefsymmetrische matrix is scheefhermites. Voorbeeld 1.6. Bekijk de matrices 3 1 + i −2 0 1 −2 i 0 3 A = 1 − i −5 B = −1 −2 −i 0 2 −3 0 [ ] [ ] [ ] 1 i 1−i 1 1+i i i C= D= √ E= . −1 − i 2i i i 3 1 − i −1 Er geldt: A is Hermites en niet scheefsymmetrisch. B is zowel scheefhermites als scheefsymmetrisch, maar niet symmetrisch of Hermites. C is scheefhermites, maar niet Hermites. D is Hermites, maar niet scheefhermites. E is scheefhermites, niet Hermites, niet symmetrisch, niet scheefsymmetrisch. 1.3 Complexe eigenwaarden en eigenvectoren We willen nog even speciale aandacht vestigen op de theorie van eigenwaarden, eigenvectoren en diagonaliseerbaarheid. Deel 1 heeft zich beperkt tot de (reële) eigenwaarden van reële matrices. Als we dit complex gaan doen moeten we eerst de definities geven en/of aanpassen in het geval ook complexe eigenwaarden worden toegelaten. Definitie: Een eigenwaarde van een vierkante (complexe) n × n matrix A is een scalar λ ∈ C waarvoor geldt dat de vergelijking Az = λz een niet-triviale oplossing heeft (met andere woorden, er bestaat een niet-nulvector z ∈ Cn met de eigenschap dat Az = λz). Zo’n niet-triviale oplossing z heet een bij λ behorende eigenvector van A. Als λ een eigenwaarde van A is, dan heet de verzameling oplossingen van Az = λz met z ∈ Cn de eigenruimte van A bij eigenwaarde λ, en wordt genoteerd met Eλ . De verzameling eigenwaarden heet het spectrum SP (A) van A. 10 Hoofdstuk 1. Complexe lineaire algebra Voor een gegeven n × n matrix A hebben we weer: • Het karakteristiek polynoom pA (λ) (in de variabele λ) van A is het nde –graads polynoom pA (λ) = det(A − λI). • De eigenwaarden van de matrix A zijn precies de oplossingen van de karakteristieke vergelijking pA (λ) = det(A − λI) = 0. • De algebraı̈sche multipliciteit van een eigenwaarde λ0 van A is de multipliciteit van λ0 als nulpunt van het karakteristiek polynoom. We schrijven hiervoor: a.m.(λ0 ) = k. • De sommatie van de algebraı̈sche multipliciteiten van de verschillende eigenwaarden van A is dus de graad van het polynoom, is dus n. Dus: ∑ a.m.(λ) = n λ∈SP (A) • Als λ0 een eigenwaarde is van A dan geldt: Eλ0 = Nul(A − λ0 I) • De dimensie van de eigenruimte Eλ0 heet de meetkundige multipliciteit van A. We schrijven hiervoor: m.m.(λ0 ) = dim(Eλ0 ). (In deel 1 is het bewijs hiervan niet gegeven, en het bewijs is gewoon lastig.) • Altijd geldt: als λ0 een eigenwaarde van A dan 1 ≤ m.m.(λ0 ) ≤ a.m.(λ0 ). • Daarom zal altijd gelden: ∑ m.m.(λ) ≤ n λ∈SP (A) 0 0 −1 0 . We doorlopen voor deze Voorbeeld 1.7. Beschouw de complexe matrix: A = 0 i 1 0 0 matrix bovenstaande stappen. We bepalen eerst het karakteristiek polynoom. −λ 0 −1 −λ −1 0 i−λ 0 pA (λ) = = (i − λ) = −(λ − i)(λ2 + 1) = −(λ − i)2 (λ + i). We 1 −λ 1 0 −λ zien: λ = i is eigenwaarde van A met algebraı̈sche multipliciteit a.m.(λ = i) = 2 en λ = −i is een eigenwaarde van A met algebraı̈sche multipliciteit a.m.(λ = −i) = 1. Inderdaad, de som van de algebraı̈sche multipliciteiten is 3. We bepalen Ei en E−i door een basis van beide ruimtes te bepalen. Ei = Nul(A − iI) levert dat de vectorenin Ei precies de oplossing is van het stelsel: 1 0 −i 0 iz3 0 i −i 0 −1 0 0 0 0 0 ∼ 0 0 0 0 . Dit geeft z = z2 = z2 1 + z3 0 . z3 0 1 1 0 −i 0 0 0 0 0 i 0 Dus: 1 , 0 is een basis Ei en we zien m.m.(λ = i) = 2. 0 1 Evenzo: E−i = Nul(A + iI) levert dat de vectoren in E −i precies de oplossing is vanhet stelsel: i 0 −1 0 1 0 i 0 −iz3 −i −i 0 2i 0 0 ∼ 0 1 0 0 . Dit geeft z = 0 = z3 0 . Dus: 0 z3 1 1 0 i 0 0 0 0 0 1 is een basis E−i en we zien m.m.(λ = −i) = 1. 1.3. Complexe eigenwaarden en eigenvectoren 11 We vragen ons af of de matrix uit voorafgaand voorbeeld diagonaliseerbaar is. We herinneren ons: Definitie: Een (eventueel complexe) n × n-matrix A heet (complex) diagonaliseerbaar als er een (eventueel complexe) inverteerbare matrix P en een (eventueel complexe) diagonaalmatrix D bestaan zo dat A = P DP −1 . De stellingen uit deel 1 (zie college 13) wat betreft het diagonaliseren van reële matrices hebben alle een vertaling naar de nieuwe situtie van het diagonaliseren van complexe matrices. We vermelden expliciet: LEMMA 1.8. Stel dat A een complexe n × n matrix is. Als P = [ p1 . . . pn ] een (niet noodzakelijk inverteerbare) n × n matrix is en D = diag(d1 , . . . , dn ) een diagonaalmatrix, dan zijn de volgende uitspraken equivalent: 1. AP = P D, 2. Ieder diagonaalkental di van de matrix D heeft de eigenschap: Api = di pi (i = 1, . . . , n) en als pi ̸= 0 dan is di dus een eigenwaarde van A. En dus: STELLING 1.9. Zij A een (eventueel complexe) n × n matrix. Dan geldt: A is complex diagonaliseerbaar als en slechts als A n (eventueel complexe) lineair onafhankelijke eigenvectoren heeft. Weer geldt: STELLING 1.10. Zij A een (eventueel complexe) n × n matrix. Dan geldt: eigenvectoren bij verschillende (eventueel complexe) eigenwaarden zijn lineair onafhankelijk. En dus: STELLING 1.11. Zij A een (eventueel complexe) n × n matrix. Dan geldt: als A n verschillende eigenwaarden heeft dan is A complex diagonaliseerbaar. Weer geldt: STELLING 1.12. Zij A een (eventueel complexe) n × n matrix. Er geldt: A is diagonaliseerbaar als en slechts als voor iedere eigenwaarde van A geldt dat de meetkundige multipliciteit gelijk is aan de algebraı̈sche multipliciteit. Dit is equivalent met de uitspraak: ∑ m.m.(λ) = n λ∈SP (A) Voorbeeld 1.13. We concluderen dat de matrix A uit voorbeeld 1.7 diagonaliseerbaar is. Inderdaad, daar is de som van de meetkundige multipliciteiten gelijk aan 2 + 1 = 3 en A is een 3 × 3 matrix. 0 i −i 0 Een diagonalisering is te vinden op de gebruikelijke manier: A = P DP −1 met P = 1 0 0 1 1 i 0 0 0 (de overeenkomstige eigenwaarden in de diagonaal(de eigenvectoren in P ) en D = 0 i 0 0 −i matrix D). 12 Hoofdstuk 1. Complexe lineaire algebra 2 Een diagonalisering is handig om te hebben, bijvoorbeeld om An te bepalen. Hier zien we: A = 2 (i) 0 0 −1 0 0 0 (i)2 0 = 0 −1 0 = −I3 P DP −1 P DP −1 = P D2 P −1 en omdat D2 = 2 0 0 (−i) 0 0 −1 volgt: A2 = P D2 P −1 = P (−I)P −1 = −P P −1 = −I. Wat de terminologie van deel 1 over diagonaliseren van reële matrices moeten we iets voorzichtiger zijn. We geven eerst een voorbeeld: Voorbeeld 1.14. Bekijk de matrix 1 0 A= 0 0 0 0 0 1 0 0 . 0 0 −1 0 1 0 De eigenwaarden van deze matrix vinden we uit de vergelijking det(A − λI) = (1 − λ)2 (λ2 + 1) = 0. In deel 1 zouden we zeggen: λ = 1 is de enige eigenwaarde van A met meetkundige multipliciteit 2 (ga na) en dus is de matrix A niet diagonaliseerbaar. Nu kunnen we zeggen: de eigenwaarden zijn dus i, −i en 1 (met algebraı̈sche multipliciteit 2). Ga na dat de vectoren 1 0 0 1 u1 = 0 en u2 = 0 0 0 een basis vormen voor de eigenruimte bij eigenwaarde 1. De vectoren 0 0 0 0 u3 = 1 en u4 = 1 i −i vormen bases voor de eigenruimten bij respectievelijk de eigenwaarden −i en i. Als we nu definieren 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 P = 0 0 1 1 en D = 0 0 −i 0 0 0 i −i 0 0 0 i dan geldt A = P DP −1 en de matrix A is opeens wel diagonaliseerbaar geworden, maar complexe getallen zijn nodig. Kennelijk moeten we enige voorzichtigheid betrachten met wat we bedoelen “A is diagonaliseerbaar”, als de matrix A reëel is. Daarom: Definitie: Laat A een reële n × n matrix zijn. De matrix A heet reëel diagonaliseerbaar als er een reële inverteerbare matrix P en een reële diagonaalmatrix D bestaan zo dat A = P DP −1 . De matrix A heet complex diagonaliseerbaar als er een (eventueel complexe) inverteerbare matrix P en een (eventueel complexe) diagonaalmatrix D bestaan zo dat A = P DP −1 . 1.3. Complexe eigenwaarden en eigenvectoren 13 Opmerking: Een reëel diagonaliseerbare matrix is ook complex diagonaliseerbaar. De reële matrix A uit bovenstaand voorbeeld 1.14 is niet reëel diagonaliseerbaar, maar wel complex diagonaliseerbaar. Opmerking: Een reële matrix A kan om twee redenen niet reëel-diagonaliseerbaar zijn, namelijk: A heeft een niet-reële eigenwaarde of er bestaat een eigenwaarde λ waarvan de dimensie van de eigenruimte kleiner is dan de algebraı̈sche multipliciteit van λ. Echter, een matrix A kan slechts om één reden niet complex-diagonaliseerbaar zijn, namelijk: er bestaat een eigenwaarde λ waarvan de dimensie van de eigenruimte kleiner is dan de algebraı̈sche multipliciteit van λ. Herinner: Een matrix die een eigenwaarde λ heeft waarvan de meetkundige multipliciteit strikt kleiner is dan de algebraı̈sche multipliciteit, heet defect (in λ). Hoofdstuk 2 De lineaire structuur op een vectorruimte 2.1 Vectorruimten Tijdens voorafgaande colleges in de lineaire algebra zijn de vectorruimten Rn en de Cn geı̈ntroduceerd tezamen met hun deelruimten. De denkwereld van de lineaire structuur die daar gecreëerd is, blijkt ook in andere “ruimten” dan alleen Rn of Cn toepasbaar te zijn. Bij het rekenen en redeneren in de lineaire structuur van Rn of Cn spelen de rekenoperaties optelling en scalaire vermenigvuldiging (vermenigvuldiging met een reëel of complex getal) een rol. Waarom zou dit alleen met kolommen kunnen? Inderdaad, er zijn veel meer objecten waarvoor een optelling en een scalaire vermenigvuldiging gedefinieërd zijn: matrices van gelijke afmeting, getalrijen (eindig of oneindig lang) en reëel- of complexwaardige functies (zie ook de voorbeelden verderop). Het blijkt dat allerlei theorie, die reeds ontwikkeld is voor Rn of Cn , ook geldt in deze gevallen. Om iets concreter te worden: bij differentiaalvergelijkingen bestaat de oplossing vaak uit lineaire combinaties van bepaalde basisoplossingen. Als we bijvoorbeeld kijken naar de vergelijking y ′′ +y = 0, dan vinden we als oplossing y = A cos t + B sin t. Hier zijn cos t en sin t de basisoplossingen en A en B zijn vrij te kiezen coëfficiënten. Naar analogie van de lineaire combinatie in Rn zouden we deze basisoplossingen met hun lineaire combinaties ook graag als vectoren willen zien en praten over Span{cos t, sin t}. Om precies vast te leggen in welke situaties we kunnen spreken over vectoren, wordt het begrip vectorruimte geı̈ntroduceerd. De eerste die in een boek een axiomatische definitie gaf van een vectorruimte (wat ook wel lineaire ruimte genoemd wordt) was Peano.1 Dit boek werd gepubliceerd in Turijn in 1888. Er is in de definitie sprake van twee verzamelingen. De vectorruimte is een verzameling en de elementen hieruit zullen vectoren heten, De vectoren worden in dit dictaat weer aangeduid met een dik gedrukte letter. De tweede verzameling zijn elementen uit een zogeheten scalairen–lichaam, waarvan de elementen scalairen 2 worden genoemd, en de verzameling L. Meestal zal dit R of C zijn. In de informatica is dit vaak {0, 1}. 1 Giuseppe Peano (1858-1932). In het boek “Calcolo geometrico secondo l’Ausdehnungslehre di H. Grassmann preceduto dalle operazioni della logica deduttiva”, waarin hij de definitie van een vectorruimte gaf, introduceerde hij tevens de notaties ∩, ∪ en ∈ voor doorsnede, vereniging en ‘is element van’. 2 Het uit het Frans overgenomen woord scalair (wordt ook op zijn Duits skalar genoemd) is verwant met het Nederlandse woord (peil)schaal. Een scalair is dan ook een schalingsfactor. 15 16 Hoofdstuk 2. De lineaire structuur op een vectorruimte Definitie: Een reële vectorruimte (of een reële lineaire ruimte) is een niet-lege verzameling V waarop twee operaties gedefinieërdd zijn: • Een optelling die bij elk tweetal v, w ∈ V een element v + w ∈ V maakt; • Een scalaire vermenigvuldiging die bij elk tweetal c ∈ R en v ∈ V een element cv ∈ V maakt. Deze optelling en scalaire vermenigvuldiging moeten voldoen aan de volgende acht axioma’s (eisen), die moeten gelden voor iedere u, v, w in V en voor iedere c, d in R: (1) u + v = v + u (2) (u + v) + w = u + (v + w) (commutatieve eigenschap) (associatieve eigenschap) (3) Er is een element e in V met de eigenschap dat e + v = v voor alle v ∈ V (4) Bij ieder element v ∈ V bestaat een element w in V zo dat v + w = e (5) c(dv) = (cd)v (6) 1v = v (7) (c + d)v = cv + dv (distributieve eigenschap 1 ) (8) c(v + w) = cv + cw (distributieve eigenschap 2 ) Een complexe vectorruimte (of een complexe lineaire ruimte) wordt op dezelfde manier gedefinieërd, met dit verschil dat de scalairen nu uit C gekozen worden. In bovenstaande moet elke R dus door C vervangen worden. Een reële vectorruimte wordt ook wel een vectorruimte over R genoemd en een complexe vectorruimte een vectorruimte over C. Elementen van een vectorruimte worden vectoren genoemd. De vector e uit de derde rekenregel wordt de nulvector van V genoemd en genoteerd met 0. De vector w uit de vierde rekenregel wordt de tegengestelde van v genoemd en genoteerd met −v. Opmerking: (Voor hen die een theoretische interesse hebben.) Het is belangrijk dat bij de optelling het resultaat (v + w) weer in de verzameling V ligt. Men zegt wel: V is gesloten ten opzichte van de optelling. Dit moet je controleren. Hetzelfde geldt voor de scalaire vermenigvuldiging: V moet ook gesloten zijn t.o.v. de scalaire vermenigvuldiging, d.w.z het resultaat cv moet weer tot V behoren (voor alle c uit R of C en v uit V ). Om na te gaan of een gegeven verzameling met twee operaties een vectorruimte is, moeten uiteindelijk elf zaken worden nagegaan. Voordat de acht “rekenaxioma’s” gecontroleerd worden, moet je namelijk laten zien dat V niet leeg is en dat V gesloten is onder de optelling en de scalaire vermenigvuldiging. Tenslotte merken we nog op dat we inderdaad mogen praten over de nulvector en de tegengestelde van een vector, omdat deze uniek zijn. Zie Stelling 2.1. Rekenregels Wij hebben in dit dictaat gekozen voor scalairen uit R of C. Afhankelijk van de toepassing zijn ook andere keuzen mogelijk. Zo kiest men in de digitale wereld (informatica, coderingstheorie, 2.1. Vectorruimten 17 cryptografie) de scalairen vaak gelijk aan 0 of 1 en wordt in plaats van R of C dus {0, 1} genomen. Niet elke keuze van scalairen levert een vectorruimte op. De eis die op de verzameling van scalairen gelegd moet worden is dat het een zogenaamd lichaam moet zijn. Dat is een verzameling waarop een “nette” optelling en vermenigvuldiging zijn gedefinieërd. Wat precies een scalairen–lichaam is zullen we niet zeggen. Wel zeggen we dat zo’n lichaam tenminste een 0 en een 1 moet bevatten, en aan de eigenschap: “voor iedere c ̸= 0 moet een c′ in het lichaam bestaan zo dat cc′ = 1” moet voldoen. De verzameling gehele getallen Z is dan ook GEEN lichaam. Er bestaan dus geen vectorruimtes over Z. Wij beperken ons in dit dictaat tot R of C. Deze keuze is in het algemeen geschikt voor natuurkundige en elektrotechnische toepassingen. In het vervolg zullen we regelmatig spreken over vectorruimten over L waarbij voor L in principe elk lichaam ingevuld kan worden. Voor ons volstaat het dan om slechts te denken aan R of C. De volgende stelling, waarin enkele rekenregels geformuleerd worden die in elke vectorruimte gelden, is daar een voorbeeld van. STELLING 2.1. Zij V een vectorruimte over L. Dan gelden de volgende regels voor willekeurige v ∈ V en c ∈ L. (a) De nulvector is uniek. (b) Elke vector heeft precies één tegengestelde (c) Voor elke vector v uit V geldt −(−v) = v (d) Voor elk drietal vectoren v, x en y uit V geldt: uit v + x = v + y volgt x = y (e) 0v = 0, (f ) c0 = 0, (g) (−1)v = −v, (h) cv = 0 =⇒ c = 0 of v = 0. Bewijs: Omdat we willen aantonen dat bovenstaande regels in elke vectorruimte gelden, zullen we ons zeer strak aan de definiërende rekenregels (1) t/m (8) van vectorruimten moeten houden. Daarom wordt bij elke stap vermeld waarom deze goed is. (3) (1) (3) (a): Als 0 en 0′ nulvectoren zijn, dan volgt: 0′ = 0 + 0′ = 0′ + 0 = 0. Bij het eerste =-teken hebben we (3) gebruikt voor 0 en bij het derde =-teken voor 0′ . (b): Stel dat b en c tegengestelden zijn van a, dus a + b = 0 en a + c = 0. Dan volgt: (3) (1) (2) (1) (3) b = 0 + b = (a + c) + b = (c + a) + b = c + (a + b) = c + 0 = 0 + c = c. (1) (4) (c): Er geldt (−v) + v = v + (−v) = 0. Hiermee volgt uit (4) en (b) dat v de tegengestelde is van −v. Anders gezegd: v = −(−v). (d): Als geldt v + x = v + y, dan tellen we aan beide zijden van de vergelijking (−v) op. Links komt er dan: (2) (1) (4) (3) (−v) + (v + x) = (−v + v) + x = (v + (−v)) + x = 0 + x = x, en net zo komt er rechts: (−v) + (v + y) = y. Dus volgt nu: x = (−v) + (v + x) = (−v) + (v + y) = y. 18 Hoofdstuk 2. De lineaire structuur op een vectorruimte (7) (4) (e): 0v = (0 + 0)v = 0v + 0v. Tel nu aan beide zijden (−0v) op. Links komt er 0v + (−0v) = 0 (2) (4) (3) en rechts: (0v + 0v) + (−0v) = 0v + (0v + (−0v)) = 0v + 0 = 0v. Dus 0v = 0. (3) (8) (f): c0 = c(0 + 0) = c0 + c0. Door weer aan beide zijden (−c0) op te tellen, volgt nu, net als bij het bewijs van (e), 0 = c0. (6) (7) (e) (g): v +(−1)·v = 1·v +(−1)·v = (1−1)·v = 0v = 0. Vanwege de uniciteit van de tegengestelde (uitspraak (b)) volgt nu het gestelde. (h): Stel dat cv = 0. Als c = 0, dan zijn we klaar. Daarom nemen we aan dat c ̸= 0 (en dus bestaat 1c ) en we tonen aan dat volgt: v = 0. Als volgt: cv = 0 ⇒ 1c (cv) = 1c 0 en uit rekenregel (6) (5) en uit (f) volgt: ( 1c c)v = 0 ⇒ (1)v = 0 ⇒ v = 0. De conclusie volgt. Standaard Reële Vectorruimten We geven nu een tamelijk uitputtende lijst van standaardvoorbeelden van reële vectorruimten. Deze voorbeelden zullen we in de rest van het dictaat regelmatig gebruiken. Voorbeeld 2.2. Het eerste voorbeeld is natuurlijk Rn . Dit voorbeeld is de afgelopen tijd uitputtend besproken. Voorbeeld 2.3. We noteren met Mm×n (R) de verzameling van m × n matrices met kentallen in R. Twee matrices uit Mm×n (R) kunnen we bij elkaar optellen door de kentallen op de corresponderende plaatsen telkens bij elkaar op te tellen. Een matrix kan met een reëel getal worden vermenigvuldigd door elk van de kentallen met dat reële getal te vermenigvuldigen. Het is eenvoudig in te zien dat Mm×n (R) met deze bewerkingen een vectorruimte is. De vectoren uit deze vectorruimte zijn hier dus matrices. Als illustratie controleren we voor M2×2 (R) de zevende rekenregel: [ ] [ ] [ ] [ ] c2 a11 c2 a12 def.opt. a11 a12 a11 a12 def.sc.verm. c1 a11 c1 a12 = + = c1 + c2 c1 a21 c1 a22 c2 a21 c2 a22 a21 a22 a21 a22 [ ] [ ] c1 a11 + c2 a11 c1 a12 + c2 a12 eig.van R (c1 + c2 )a11 (c1 + c2 )a12 def.sc.verm. = = = c1 a21 + c2 a21 c1 a22 + c2 a22 (c1 + c2 )a21 (c1 + c2 )a22 [ ] a11 a12 = (c1 + c2 ) . a21 a22 De uitspraak: “kies een m × n matrix A met reële coëfficienten” kan met de ingevoerde notatie worden afgekort tot: “kies A ∈ Mm×n (R)”. Voorbeeld 2.4. Bekijk de verzameling van alle oneindige rijtjes (voor het gemak horizontaal geschreven) van reële getallen gedefinieerd door {(a0 , a1 , a2 , a3 , · · · ) | a0 , a1 , a2 , a3 , · · · ∈ R}. In de Elektro heten zulke rijtjes vaak “tijd discrete signalen”. De optelling en scalaire vermenigvuldiging definieëren we coördinaatsgewijs: (a0 , a1 , a2 , · · · ) + (b0 , b1 , b2 , · · · ) = (a0 + b0 , a1 + b1 , a2 + b2 , · · · ) c(a0 , a1 , a2 , · · · = (ca0 , ca1 , ca2 , · · · ). De verzameling is gesloten ten opzichte van deze optelling en scalaire vermenigvuldiging. Verder voldoet deze verzameling aan alle vectorruimte-axioma’s. Het is daarmee een vectorruimte over R. In feite zijn vectoren nu kolommen (of rijen) met oneindig veel reële kentallen en in die zin is het een uitbreiding van Rn . Deze vectorruimte wordt dan ook als R∞ genoteerd. 2.1. Vectorruimten 19 Door de indices van −∞ tot ∞ te laten lopen, kan nog een rijtjesruimte gemaakt worden. De verzameling is dan {(· · · , a−2 , a−1 , a0 , a1 , a2 , · · · ) | · · · , a−2 , a−1 , a0 , a1 , a2 , · · · ∈ R}. De optelling en scalaire vermenigvuldiging worden weer coördinaatsgewijs gedefinieërd: (· · · , a−1 , a0 , a1 , · · · ) + (· · · , b−1 , b0 , b1 , · · · ) = (· · · , a−1 + b−1 , a0 + b0 , a1 + b1 , · · · ) c(· · · , a−1 , a0 , a1 , · · · ) = (· · · , ca−1 , ca0 , ca1 , · · · ). Deze vectorruimte van de reële dubbel oneindige rijtjes wordt genoteerd met R±∞ . Voorbeeld 2.5. Als X een formele variabele is, dan heet p(X) = a0 + a1 X + a2 X 2 + · · · + an X n met ai ∈ R een reëel polynoom van de graad tenhoogste n. De verzameling van alle reële polynomen van graad tenhoogste n wordt genoteerd met Pn (R) Pas op, men wordt niet geacht waarden aan de X toe te kennen, reëel polynoom betekent dat de coëfficienten ak reëel zijn, niet de X. De graad van p(X) ∈ Pn (R) is de grootste k ≤ n met ak ̸= 0. Mochten alle ak gelijk zijn aan 0, dan zeggen we dat het polynoom van de graad −1 is. Op Pn (R) definiëren we alsvolgt een optelling en een scalaire vermenigvuldiging: als p(X) = a0 + a1 X + a2 X 2 + · · · + an X n en q(X) = b0 + b1 X + b2 X 2 + · · · + bn X n dan is p(X) + q(X) = (a0 + b0 ) + (a1 + b1 )X + (a2 + b2 )X 2 + · · · + (an + bn )X n cp(X) = (ca0 ) + (ca1 )X + (ca2 )X 2 + · · · + (can )X n . De verzameling Pn (R) is gesloten ten opzichte van deze optelling en scalaire vermenigvuldiging. Verder voldoet deze verzameling aan alle vectorruimte-axioma’s. Het is daarmee een vectorruimte over R. Als we de afspraak maken dat in de notatie van p(X) die termen ak X k van p(X) met ak = 0 weggelaten mogen worden (behalve als alle ak nul zijn, dan schrijven we p(X) = 0), dan geldt: Pn (R) ⊂ Pn+1 (R) (dit in tegenstelling tot Rn : er geldt NIET: Rn ⊂ Rn+1 ). Het volgende voorbeeld beschrijft de belangrijkste en MEEST voorkomende vectorruimten, namelijk de functieruimten. Juist deze ruimten zijn de reden van de uitbreiding van Rn tot algemene vectorruimten en ze zijn voor fysische toepassingen van groot belang. Voordat we overgaan tot de precieze formulering eerst even wat constateringen. Voorbeeld 2.6. We bekijken straks de verzameling V van alle functies naar R met een vast domein, bijvoorbeeld R, dus V = {f |f : R → R}. De functies f1 , f2 en f3 met de voorschriften f1 (x) = 5x2 − 2x + 8, f2 (x) = 4 √ 3|x|, 1 f3 (x) = |x − | 2 behoren bijvoorbeeld tot deze verzameling V . Ook de functie f4 met voorschrift { 0 als x ∈ Q f4 (x) = 1 als x ̸∈ Q 20 Hoofdstuk 2. De lineaire structuur op een vectorruimte behoort tot V . De functie f5 met voorschrift f5 (x) = 2 ln(−5x) behoort niet tot V . Twee functies van [0, 1] naar R kunnen we optellen. Dit levert een nieuwe functie van [0, 1] naar R. Zo geldt bijvoorbeeld dat f1 + f2 de functie g is met voorschrift √ g(x) = 5x2 − 2x + 8 + 4 3x. Overigens is het onnodig om de letter g te gebruikten als naam voor de somfunctie, f1 + f2 is eigenlijk veel duidelijker: √ (f1 + f2 )(x) = 5x2 − 2x + 8 + 4 3|x|. Op dezelfde manier is f2 + f4 de functie met voorschrift { √ 4√3|x| (f2 + f4 )(x) = 4 3|x| + 1 als x ∈ Q als x ∈ ̸ Q. Een functie kan ook met een reëel 3f1 is de functie met voorschrift √ getal vermenigvuldigd worden: √ (3f1 )(x) = 15x2 − 6x + 24 en − 2f2 heeft voorschrift −4 6x. Bovenstaand voorbeeld geeft aanleiding tot een som en scalaire vermenigvuldiging op een verzameling functies met vast domein en dus ook tot een vectorruimtestructuur. Voorbeeld 2.7. We bekijken hier de verzameling van alle functies van een vast domein D naar R. Deze wordt genoteerd als F(D, R) Twee functies f1 en f2 van D naar R kunnen we bij elkaar optellen tot een functie f1 + f2 van D naar R, door in ieder punt van het domein D de twee functiewaarden bij elkaar op te tellen, dus (f1 + f2 )(x) = f1 (x) + f2 (x) voor alle x ∈ D. Verder kunnen we een functie f in zijn geheel met een scalair c ∈ R vermenigvuldigen zodat we de functie cf krijgen via (cf )(x) = c · f (x) voor alle x ∈ D. Met deze optelling en scalaire vermenigvuldiging voldoet de functieruimte F(D, R) aan alle axioma’s van een vectorruimte over R. De nulfunctie die elk punt van het domein op 0 ∈ R afbeeldt, fungeert daarbij als de nulvector. Deze functie wordt vaak (verwarrend) genoteerd met 0. Deze 0 staat dus niet voor het getal nul maar voor een functie, waar je dus waarden voor kunt invullen. (Dus: 0(x) = 0, voor alle x ∈ D) Na invullen van zo’n waarde krijg je wel het getal nul. [In het vervolg zullen we vaak een berekening in de trend van “bepaal alle scalairen c en d zo dat c sin x + d cos x = 0” tegenkomen. Bedoeld wordt dan dat de functie f met voorschrift f (x) = c sin x + d cos x gelijk moet zijn aan de nulfunctie. De gelijkheid moet dus gelden voor alle x ∈ D. Vaak kunnen c en d dan bepaald worden door enkele verstandige waarden voor x in te vullen. Hier werken x = 0 en x = 12 π bijvoorbeeld goed. Die waarden leveren respectievelijk d = 0 en c = 0.] De tegengestelde van een functie f is gelijk aan de functie (−1)f want f (x) + ((−1)f )(x) = f (x) + (−f (x)) = 0 = 0(x) voor alle x. Merk op dat dit eigenlijk onderdeel (g) van Stelling 2.1 is, dus eigenlijk hadden we dit al bewezen! Standaard Complexe Vectorruimten We geven eveneens een lijst van standaardvoorbeelden van complexe vectorruimten. Deze voorbeelden zullen we in de rest van het dictaat regelmatig gebruiken. 2.1. Vectorruimten 21 Voorbeeld 2.8. Het eerste voorbeeld is natuurlijk Cn . Dit voorbeeld is de afgelopen tijd uitputtend besproken, en we worden geacht experts te zijn op dit gebied. Voorbeeld 2.9. We noteren met Mm×n (C) de verzameling van m × n matrices met kentallen in C. Twee matrices uit Mm×n (C) kunnen we bij elkaar optellen door de kentallen op de corresponderende plaatsen telkens bij elkaar op te tellen. Een matrix kan met een complex getal worden vermenigvuldigd door elk van de kentallen met dat complexe getal te vermenigvuldigen. Het is eenvoudig in te zien dat Mm×n (C) met deze bewerkingen een vectorruimte over C is. De uitspraak: “kies een m × n matrix A met complexe coëfficienten” kan met de ingevoerde notatie worden afgekort tot: “kies A ∈ Mm×n (C)”. Voorbeeld 2.10. Bekijk de verzameling van alle oneindige rijtjes (voor het gemak horizontaal geschreven) van complexe getallen gedefinieërd door {(a0 , a1 , a2 , a3 , · · · ) | a0 , a1 , a2 , a3 , · · · ∈ C}. De optelling en scalaire vermenigvuldiging definieëren we weer coördinaatsgewijs: (a0 , a1 , a2 , · · · ) + (b0 , b1 , b2 , · · · ) = (a0 + b0 , a1 + b1 , a2 + b2 , · · · ) c(a0 , a1 , a2 , · · · ) = (ca0 , ca1 , ca2 , · · · ). De verzameling is gesloten ten opzichte van deze optelling en scalaire (uit C) vermenigvuldiging. Verder voldoet deze verzameling aan alle vectorruimte-axioma’s. Het is daarmee een vectorruimte over C. Deze vectorruimte wordt als C∞ genoteerd. Door de indices van −∞ tot ∞ te laten lopen, kan nog een rijtjesruimte gemaakt worden. De verzameling is dan {(· · · , a−2 , a−1 , a0 , a1 , a2 , · · · ) | · · · , a−2 , a−1 , a0 , a1 , a2 , · · · ∈ C}. De optelling en scalaire vermenigvuldiging worden weer coördinaatsgewijs gedefinieërd: (· · · , a−1 , a0 , a1 , · · · ) + (· · · , b−1 , b0 , b1 , · · · ) = (· · · , a−1 + b−1 , a0 + b0 , a1 + b1 , · · · ) c(· · · , a−1 , a0 , a1 , · · · ) = (· · · , ca−1 , ca0 , ca1 , · · · ). Deze vectorruimte van de reële dubbel oneindige rijtjes wordt genoteerd met C±∞ . Voorbeeld 2.11. Als X een formele variabele is, dan heet p(X) = a0 + a1 X + a2 X 2 + · · · + an X n met ai ∈ C een complex polynoom van de graad tenhoogste n. De verzameling van alle complexe polynomen van graad tenhoogste n wordt genoteerd met Pn (C) Op Pn (C) wordt op dezelfde manier als op Pn (R) een optelling en een scalaire vermenigvuldiging gedefiniëerd en wordt daarmee een vectorruimte over C. De voor ons weer belangrijkste vectorruimten zijn de complexe functieruimten. Voorbeeld 2.12. We bekijken hier de verzameling van alle functies van een vast domein D naar C. Deze wordt genoteerd als F(D, C) 22 Hoofdstuk 2. De lineaire structuur op een vectorruimte Twee functies f1 en f2 van D naar C kunnen we bij elkaar optellen tot een functie f1 + f2 van D naar C, door in ieder punt van het domein D de twee functiewaarden bij elkaar op te tellen, dus (f1 + f2 )(x) = f1 (x) + f2 (x) voor alle x ∈ D. Verder kunnen we een functie f in zijn geheel met een scalair c ∈ C vermenigvuldigen zodat we de functie cf krijgen via (cf )(x) = c · f (x) voor alle x ∈ D. Met deze optelling en scalaire vermenigvuldiging voldoet de functieruimte F(D, C) aan alle axioma’s van een vectorruimte over C. De nulfunctie die elk punt van het domein op 0 ∈ C afbeeldt, fungeert daarbij als de nulvector. Merk op dat bij bijvoorbeeld F([a, b], C) functies bekeken worden van een reële variabele x, echter de functiewaarde f (x) zit in C! De Grote L2 ruimten In de wiskunde (en in de quantum-mechanica) neemt de Grote L2 ruimte een bijzonder belangrijke plaats in. Echter, om deze goed te behandelen zouden we eigenlijk eerst een college echte analyse moeten geven, over maattheorie en over de Lebesque–integraal. Een functie f : [a, b] → R (of C) heet kwadratisch integreerbaar over het interval [a, b] als ∫ b |f (x)|2 dx < ∞. a ∫b Hier staat a f (x) dx voor de Lebesque–integraal van f . Voor alle functies waarmee natuurkundigen werken is dit gelijk aan de ons bekende Riemann integraal. De verzameling van alle reële (resp. complexe) kwadratisch integreerbare functies op [a, b] wordt genoteerd met L2 ([a, b], R) respectievelijk L2 ([a, b], C) Dat dit inderdaad een vectorruimte is, valt niet mee om aan te tonen. (Waarom, als f, g kwadratisch integreerbaar zijn, is ook f + g kwadratisch integreerbaar?) De reden dat L2 ([a, b], R) (en L2 ([a, b], C)) verschillend is van F([a, b], R) (respectievelijk F([a, b], C)) (of liever verschillend is van de verzameling kwadratisch integreerbare functies in F([a, b], R)) is de volgende aanname die we zullen doen. “Functies in L2 ([a, b], R) die slechts in eindig veel punten van het domein verschillen zullen we identificeren.” Dit is U niet vreemd, dit bent U ook al gewend van het college voortgezette analyse. Daar identificeerde u twee “piecewise–continuous functions” als ze slechts in eindig veel punten verschilde. Wiskundig correct zou zijn functies te identificeren die slechts op een verzameling van maat 0 verschillend waren. Maar dan is kennis van de maattheorie nodig. 2.2 De afhankelijkheid van de vectorruimte axioma’s Opmerking: Deze paragraaf betreft enkele opmerkingen aangaande het verschil tussen axioma’s en stelling. Het is zeker geen tentamenstof. Wat is nu het verschil tussen de 8 axioma’s (eisen) uit de definitie van een vectorruimte en de 8 stellingen (uitspraken) uit Stelling 2.1? 2.2. De afhankelijkheid van de vectorruimte axioma’s 23 Welnu, de uitspraak (−1)v = −v is een bijzonder gewenste identiteit. Deze hoeft echter niet als een negende axioma aan de definitie worden toegevoegd, want deze is al een GEVOLG van de eerste 8 axioma’s (zie stelling 2.1). Zo kan men zich ook afvragen: zou men axioma 6: 1v = v niet mogen weglaten uit de axioma’s en deze als negende resultaat aan Stelling 2.1 kunnen toevoegen? Het volgende voorbeeld laat zien dat niet mag. Dit is een voorbeeld van een “soort lineaire structuur”, een optelling en een scalaire vermenigvuldiging, die aan de axioma’s 1 tot en met 5, 7 en 8 voldoet, maar NIET aan axioma 6. En dit voorbeeld laat zien dat axioma 6 GEEN gevolg kan zijn van de overigen axioma’s en dat dit axioma dus echt nodig is (tenminste, als men echt altijd wilt dat 1v = v). Voorbeeld 2.13. Beschouw V = R2 met de standaard optelling u + v maar de niet standaard scalaire vermenigvuldiging cv = 0 voor alle v ∈ R2 en c ∈ R. Het is eenvoudig in te zien dat deze optelling en scalaire vermenigvuldiging aan alle axioma’s voldoet, behalve aan axioma 6. Dit is dus GEEN voorbeeld van een vectorruimte. Opmerking: Het is wellicht een ziekte onder de wiskundigen, maar die willen er van overtuigd zijn dat iedere axioma van de lijst echt nodig is. Bij de opgaven kunt u nog twee voorbeelden vinden van een “soort lineaire structuur”, een optelling en een scalaire vermenigvuldiging, die aan precies 7 van de 8 axioma’s voldoen. In ongeveer 1910 werd ontdekt dat de axioma’s van een vectorruimte niet onafhankelijk van elkaar zijn. Axioma 1 (x + y = y + x) is af te leiden uit de overige axioma’s. En wel op de volgende manier. Bewijs: Kies x en y uit V en fixeer deze. Merk op: 2x = (1 + 1)x = 1x + 1x = x + x. (Gebruikt: axoima 7 en 6.) In het bijzonder geldt: 2(x + y) = x + y + x + y. (We gebruiken axioma 2 door geen haakjes te gebruiken!) Ook geldt volgens axioma 8: 2(x + y) = 2x + 2y = (1 + 1)x + (1 + 1)y = x + x + y + y We concluderen: x + x + y + y = x + y + x + y (**) Vervolgens gebruiken we axioma 3 en 4 door bij deze identiteit linska een x en rechts een y af te snoepen, door: −x + x + x + y + y − y = −x + x + y + x + y − y Via de associatieve wet (axioma 2) krijgen we: (−x + x) + (x + y) + (y − y) = (−x + x) + (y + x) + (y − y) en dus: 0 + (x + y) + 0 = 0 + (y + x) + 0 d.w.z. x + y = y + x. Toch wel een slim en leuk bewijs. 24 2.3 Hoofdstuk 2. De lineaire structuur op een vectorruimte Lineaire Opspanning en Deelruimten In deze paragraaf komen we tot de bestudering van de fundamentele begrippen van de lineaire algebra. Lineaire Combinaties en Lineaire Omhulsels Voordat we de betreffende definities geven, eerst de volgende terminologie. We noemen een geordende verzameling van een eindig stel niet noodzakelijk verschillende vectoren v1 , v2 , . . . , vn uit een vectorruimte V een stelsel vectoren Als de volgorde van de vectoren van belang is, wordt dit stelsel vectoren genoteerd als (v1 , v2 , . . . , vn ), Als de volgorde niet van belang is, kan het stelsel ook genoteerd worden als {v1 , v2 , . . . , vn }. en spreken we van een verzameling vectoren. Een stelsel vectoren kan eventueel leeg zijn. We benadrukken nog eens dat in een stelsel vectoren eventueel twee of meer gelijke vectoren kunnen voorkomen. Definitie: Als (v1 , v2 , . . . , vn ) (of {v1 , v2 , . . . , vn } ) een niet leeg stelsel (of verzameling) vectoren uit een vectorruimte V over R (respectievelijk. C) is en als c1 , c2 , . . . , cn getallen in R (respectievelijk C) zijn, dan wordt een vector van de vorm c1 v1 + c2 v2 + · · · + cn vn een lineaire combinatie van het stelsel genoemd en de getallen c1 , c2 , . . . , cn de gewichten van de lineaire combinatie. Als het stelsel leeg is, kunnen we een dergelijke uitdrukking niet opschrijven. Desondanks noemen we in dat geval de nulvector 0 een lineaire combinatie van dit lege stelsel. De verzameling U van alle lineaire combinaties van het stelsel heet het lineaire omhulsel (of het lineaire opspansel of kortweg de span van (v1 , v2 , . . . , vn ), of de span van {v1 , v2 , . . . , vn }). Notatie: Span(v1 , . . . , vn ) of Span{v1 , . . . , vn }. We zeggen vaak dat het stelsel de verzameling U voortbrengt of opspant. Het is je waarschijnlijk al opgevallen dat bovenstaande definitie al eerder gegeven is voor vectoren uit Rn en Cn . Realiseer je verder dat deze definitie zeer belangrijk is en dat de begrippen lineaire combinatie en lineair omhulsel de sleutel zijn tot het begrijpen van de lineaire algebra. Opmerking: Uit bovenstaande definitie volgt dat het lineair omhulsel van het lege stelsel uit één vector bestaat, namelijk de nulvector: Span() = Span{} = {0}. Een lineaire combinatie van een stelsel dat uit slechts één vector v bestaat, is een scalair veelvoud van die vector. Met andere woorden, Span{v} (de verzameling van alle lineaire combinaties van dit stelsel dus) bestaat precies uit de vectoren van de vorm cv met c ∈ L. In Rn is dat de rechte lijn door 0, in de richting van v. 2.3. Lineaire Opspanning en Deelruimten 25 Bekijk nu een verzameling {u, v} van twee vectoren in Rn , waarbij de ene vector geen veelvoud is van de andere. De verzameling Span{u, v} van alle lineaire combinaties van dit stelsel is dan een vlak Opmerking: Soms zal het niet à priori duidelijk zijn “welke span” we bedoelen. Als we zonder verdere informatie praten over {[ ] [ ]} 1 0 Span , 0 1 dan is het mogelijk dat we de span in de reële vectorruimte R2 bedoelen, maar ook is het mogelijk dat we de span in de complexe vectorruimte C2 bedoelen. Om deze te onderscheiden schrijven we soms {[ ] [ ]} {[ ] [ ]} 1 0 1 0 SpanR , dan wel SpanC , 0 1 0 1 [ ] [ ] 1 0 om aan te geven dat we lineaire combinaties van , bekijken met reële gewichten dan 0 1 wel met complexe gewichten. Dus: {[ ] [ ]} {[ ] [ ]} 1 0 1 0 2 SpanR , = R en SpanC , = C2 0 1 0 1 Meestal is het uit de context duidelijk welke van de twee bedoeld wordt. De afgelopen tijd zijn al vele voorbeelden gegeven die betrekking hadden op Rn en Cn . Wij geven nu een voorbeeld dat betrekking heeft op functieruimten. Voorbeeld 2.14. In de vectorruimte V = F([0, 2π], C) beschouwen we de vier functies f1 , f2 , f3 en f4 gedefinieërd door f1 (x) = sin x, f2 (x) = cos x, f3 (x) = sin2 x, en f4 (x) = cos2 x. We stellen de volgende vraag: “behoren de functies f (x) = sin 2(x + π/4) en g(x) = cos 2(x + π/4) dan tot het lineair omhulsel U = Span{f1 , f2 , f3 , f4 } van de verzameling {f1 , . . . , f4 }?” Uit de definitie van lineair omhulsel volgt dat we moeten nagaan of f en g lineaire combinaties zijn van f1 t/m f4 . We kunnen eerst proberen met de bekende sinus- en cosinus-regels f en g als lineaire combinaties van de opspannende functies te schrijven: f (x) = sin 2(x + π/4) = sin(2x + π/2) = cos 2x = cos2 x − sin2 x g(x) = cos 2(x + π/4) = cos(2x + π/2) = − sin 2x = −2 sin x cos x. Hieruit volgt dat f = −f3 + f4 en dus een lineaire combinatie is van het stelsel {f1 , . . . , f4 }. Bijgevolg behoort f tot U . Voor g weten we dat nog niet! Stel nu dat g wel in U zit, dus stel dat g = a1 f1 + a2 f2 + a3 f3 + a4 f4 waarbij de ai scalairen zijn, hier dus complexe getallen. (Want V is een complexe vectorruimte.) Dit is een gelijkheid van functies, dus zou dit voor elke x in [0, 2π] een gelijkheid moeten opleveren: cos 2(x + π/4) = a1 sin x + a2 cos x + a3 sin2 x + a4 cos2 x 26 Hoofdstuk 2. De lineaire structuur op een vectorruimte We vullen de punten 0, 12 π, π, 32 π in. 0 0 0 0 Dit geeft het stelsel vergelijkingen: = = = = +a2 +a1 −a1 −a2 +a4 +a3 +a4 +a3 Lossen we dit stelsel op, dan vinden we a1 = a2 = a3 = a4 = 0. Maar dan zou g gelijk zijn aan de nulfunctie. Dat is echter niet zo, omdat bijvoorbeeld g( 14 π) = −1. Blijkbaar is g geen element van U. Merk nog op dat de relatie f = −f3 + f4 voor f ook gevonden had kunnen worden door — net als bij g gedaan is — punten in te vullen en de coëfficiënten van de lineaire combinatie uit te rekenen. Dit kan handig zijn als we de eigenschappen van de functie niet zouden kennen. In dat geval weten we echter nog niet of de zo gevonden relatie voor alle x geldt. Daarvoor is dan nog een bewijs nodig zoals hierboven voor f gegeven is. Opmerking: In het vorige voorbeeld hebben we het stelsel nogal omslachtig gedefinieërd via de functies genaamd f1 , . . . , f4 . Daarmee is nadruk gelegd op het feit dat de vectoren hier functies zijn en dat gelijkheid van twee functies betekent dat deze dan ook in ieder punt aan elkaar gelijk zijn. In het vervolg zullen we om een functie aan te duiden voor het gemak vaak alleen het voorschrift gebruiken. In bovenstaand voorbeeld wordt het stelsel dan {sin x, cos x, sin2 x, cos2 x}. Ofschoon hier eigenlijk waarden staan, bedoelen we dan (tenzij anders vermeld) functies. We beëindigen deze paragraaf met een generalisatie van het begrip span. In de oorspronkelijke definitie nemen we namelijk de span van een eindig stel vectoren. We kunnen ook spreken over de span van een oneindige verzameling vectoren. Definitie: Zij S een verzameling vectoren in een vectorruimte V over R (of C) (S kan dus oneindig veel vectoren bevatten). Een vector v ∈ V is een lineaire combinatie van S als v = c1 v1 + c2 v2 + · · · + cn vn voor zekere vectoren v1 , v2 , . . . , vn uit S en zekere scalairen c1 , c2 , . . . , cn uit R (of C). De verzameling Span S van alle lineaire combinaties van S heet het lineaire omhulsel (of het lineaire opspansel of kortweg de span) van S. Let op, ondanks het feit dat S oneindig veel vectoren kan bevatten, blijven we toch werken met lineaire combinaties van eindig veel vectoren, zogenaamde eindige lineaire combinaties Voorbeeld 2.15. Als in F([0, 2π], R) de oneindige verzameling S = {1, cos x, sin x, cos2 x, sin2 x, cos3 x, sin3 x, . . .} genomen wordt, dan bestaat Span S uit alle functies van de vorm f (x) = a0 + a1 cos x + b1 sin x + a2 cos2 x + b2 sin2 x + · · · + an cosn x + bn sinn x waarbij n een natuurlijk getal is en de ai en bi reële getallen zijn. Lineaire Deelruimten 2.3. Lineaire Opspanning en Deelruimten 27 We hebben in de vorige paragraaf vectorruimten ingevoerd. Nu blijkt dat een heleboel deelverzamelingen van deze vectorruimten zelf ook vectorruimten zijn (waarbij we de optelling en de scalaire vermenigvuldiging hetzelfde nemen als de “moedervectorruimte”). Het vervelende is dat telkens alle eisen van vectorruimte nagegaan moeten worden om te bepalen of zo’n deelverzameling werkelijk een vectorruimte is. We zullen zo zien dat dit helemaal niet nodig is, omdat de axioma’s (1) t/m (8) kado krijgen, want deze gelden in de “moedervectorruimte”. De volgende definitie representeert dit. Definitie: Een deelverzameling U van een vectorruimte V over een lichaam L heet een deelruimte van V , als: (1) U bevat de nulvector van V . (2) x + y ∈ U voor elke keuze van x en y uit U (3) cx ∈ U voor elke keuze van x uit U en c uit L Merk op dat deze definitie inderdaad overeenkomt met de definitie van vectorruimte zonder de acht rekenregels. Dat komt omdat de eerste eis (dus U bevat de nulvector van V ) equivalent is met de eis “U is niet leeg”. Met de derde eis volgt dan namelijk vanzelf dat U de nulvector van V moet bevatten. Zoals beloofd hebben deelruimten de volgende eigenschap. STELLING 2.16. Een deelruimte van een vectorruimte over L is zelf ook een vectorruimte over L. Bewijs: Neem een deelruimte U van een vectorruimte V over L. Allereerst is U dan door eigenschap (1) (uit de definitie van deelruimte) niet leeg en door de eigenschappen (2) en (3) (opnieuw uit de definitie van deelruimte) gesloten ten opzichte van de optelling en de scalaire vermenigvuldiging. Nu moeten nog de acht rekenregels uit de definitie van vectorruimte gecontroleerd worden. De eigenschappen (1), (2), (5), (6), (7) en (8) erft U al gelijk van de grotere ruimte V . Verder zit de nulvector van V op grond van de eerste eis van een deelruimte in U en er is dus aan (3) voldaan. Tenslotte bestaat er, vanwege de vectorruimte-eigenschappen van V , voor elk element v in U een tegengestelde −v in V . Maar ligt −v dan ook in U ? Met stelling 2.1(g) weten we dat −v = (−1) · v en dit zit in U op grond van eis (3) voor deelruimten. Daarmee is aan alle eisen voor een vectorruimte voldaan. Het moge nu duidelijk zijn dat het zinvol is om, bij het aantonen dat een verzameling een vectorruimte is, eerst na te gaan of deze misschien een deelruimte is van een bekende vectorruimte. Het is namelijk veel sneller om de drie eigenschappen van een deelruimte te controleren dan de elf van een vectorruimte. Bovendien zijn deze drie toch eigenschappen die we ook voor een vectorruimte hadden moeten nagaan! Er zullen nu vele voorbeelden van, soms belangrijke, deelruimten volgen. 28 Hoofdstuk 2. De lineaire structuur op een vectorruimte Voorbeeld 2.17. In iedere vectorruimte V zit een nulelement 0. De deelverzameling {0} van V is een deelruimte van V , de nulvectorruimte3 {0}. De volgende stelling, die we voor eindige opspannende verzamelingen ook bij het eerste deel van lineaire algebra al zijn tegengekomen, kan handig zijn om snel te concluderen dat bepaalde verzamelingen, namelijk lineaire omhulsels, deelruimten zijn. STELLING 2.18. Als S een (eventueel oneindig grote) verzameling vectoren is in een vectorruimte V dan is het lineair omhulsel Span S een deelruimte van V . Bewijs: De nulvector behoort tot het lineair omhulsel. Neem maar een eindig stel vectoren u1 , u2 , . . . , um in S. Dan is 0 = 0v1 + · · · + 0vn een lineaire combinatie van deze vectoren en behoort dus tot Span S. Verder geldt voor elk tweetal vectoren u en v uit het lineair omhulsel dat er vectoren v1 , v2 , . . . , vn in S bestaan en getallen ci en di (i = 1, . . . , n) zo dat u = c1 v1 +· · ·+cn vn en v = d1 v1 +· · ·+dn vn . Ga dit na! De som is dan u + v = (c1 + d1 )v1 + · · · + (cn + dn )vn en behoort dus ook tot het lineair omhulsel. Tenslotte geldt voor een vector u uit Span S en een scalar c dat ook cu tot Span S behoort, omdat er in die situatie eindig veel vectoren w1 , w2 , . . . , wk in S bestaan en scalairen ci (i = 1, . . . , k) zo dat u = c1 w1 + · · · + ck wk , waaruit volgt dat cu = (c · c1 )w1 + · · · + (c · ck )wk . Er is dus aan de drie eisen voor deelruimte voldaan. Als het stelsel vectoren leeg is, klopt bovenstaande stelling ook: het lineaire opspansel van het lege stelsel is immers gelijk aan de nulvectorruimte (op grond van definitie 2.3) en dus ook een deelruimte van V . Deelruimten van Rn en Cn Als het goed is, is men hiermee vertrouwd. We weten dat iedere deelruimte W in Rn op te vatten is als kolomruimte van een matrix A ∈ Mn×m (R) (met m ≥ dim(W )), of als nulruimte van een matrix B ∈ Mk×n (R) (met k ≥ n − dim(W )). Evenzo, iedere deelruimte W in Cn is op te vatten als kolomruimte van een matrix A ∈ Mn×m (C) (met m ≥ dim(W )), of als nulruimte van een matrix B ∈ Mk×n (C) (met k ≥ n − dim(W )). Opmerking: Laat A = [a1 . . . am ] ∈ Mn×m (R) een reële matrix zijn. Wees dan voorzichtig met het begrip “de kolomruimte van A”. Men kan bedoelen Col(A) = Span{a1 , . . . am } ⊂ Rn maar ook Col(A) = Span{a1 , . . . am } ⊂ Cn Vaak is uit de context duidelijk welke van de twee kolomruimtes bedoeld wordt. Deelruimten van R∞ en C∞ We zullen later zien dat dat de ruimten R∞ en C∞ geen “mooie vectorruimten” zijn omdat er een natuurlijk (standaard) inwendig product mist. Er zijn twee deelruimten waar dit wel mogelijk is, zullen we zien, de zogeheten “kleine ℓ2 -ruimten”. 3 In het Engels: zero space 2.3. Lineaire Opspanning en Deelruimten Definitie: dat 29 ℓ2 (R) bestaat uit alle reële rijtjes x = (x1 , x2 , . . . , xn , . . .) ∈ R∞ met de eigenschap ∞ ∑ x2n < ∞ n=1 (De zogeheten “kwadratisch sommeerbare rijtjes”.) Evenzo: ℓ2 (C) bestaat uit alle complexe rijtjes x = (x1 , x2 , . . . , xn , . . .) ∈ C∞ met de eigenschap dat ∞ ∑ |xn |2 < ∞ n=1 En inderdaad, ℓ2 (R) is een lineaire deelruimte van R∞ en ℓ2 (C) is een lineaire deelruimte van C∞ . Deelruimten van functieruimten Binnen de vectorruimte F(D, L) (waarbij L is R of C) van functies kunnen we veel deelruimten maken. Zo zijn er bij de functies van het interval [a, b] naar L in ieder geval de volgende deelruimten: • de ruimte van alle reële/complexe polynomen van de graad tenhoogste n op [a, b], notatie Poln ([a, b], R) of/en Poln ([a, b], C), (Pas op: als p ∈ Poln ([a, b], C), zeg p(x) = a0 + a1 x + · · · an xn , dan is x een reële variabele, want x ∈ [a, b]. Echter, de coëfficienten ai (en dus ook p(x)) zijn uit C.) • De ruimte van alle reële polynomen Pol([a, b], R) en de ruimte van alle complexe polynomen Pol([a, b], C). • de ruimte van alle continue functies op [a, b] naar L, notatie: C([a, b], R) of/en C([a, b], C). • de ruimte van alle differentieerbare functies op [a, b], notatie: D([a, b], R) of/en D([a, b], C). • de ruimte van alle continu-differentieerbare functies op [a, b], dat wil zeggen, differentieerbare functies met continue afgeleide, notatie: C 1 ([a, b], R) en/of C 1 ([a, b], C). • de ruimte van n-maal continu-differentieerbare functies op [a, b], dat wil zeggen, die functies f die n-maal differentieerbaar zijn en waarvan de nde afgeleide f (n) continu is, notatie: C n ([a, b], R) en/of C n ([a, b], C). In het bijzonder geldt dat Poln ([a, b], R) ⊂ Pol([a, b], R) ⊂ C n ([a, b], R) ⊂ C 1 ([a, b], R) ⊂ D([a, b], R) ⊂ C([a, b], R) ⊂ F([a, b], R) Poln ([a, b], C) ⊂ Pol([a, b], C) ⊂ C n ([a, b], C) ⊂ C 1 ([a, b], C) ⊂ D([a, b], C) ⊂ C([a, b], C) ⊂ F([a, b], C). Dat het werkelijk deelruimten van F([a, b], C) zijn, volgt uit eigenschappen van continue, differentieerbare en continu-differentieerbare functies, die bekend zijn uit de analyse. De nulfunctie van [a, b] naar C is continu, differentieerbaar, enzovoorts en behoort dus tot alle genoemde verzamelingen. Verder geldt voor elk tweetal continue functies dat de som ook weer continu is en dat het product van een continue functie met een (complex) getal ook weer continu is. Voor C([a, b], C) is dus voldaan aan de tweede eis en de derde eis van deelruimte. Hetzelfde geldt voor de andere verzamelingen. 30 Hoofdstuk 2. De lineaire structuur op een vectorruimte Deelruimten van L2 ([a, b], R) en/of L2 ([a, b], C) De ruimte die bestaat uit alle stuksgewijs continue functies op [a, b], notatie: P C([a, b], R) (resp. P C([a, b], C)) is een lineaire deelruimte van L2 ([a, b], R) (resp. L2 ([a, b], C)). 2.4 Lineaire (On)Afhankelijkheid De begrippen lineaire afhankelijkheid en lineaire onafhankelijkheid zijn “de absolute basisbegrippen” uit de lineaire algebra. Dit willen we definiëren in een willekeurige vectorruimte. Definitie: Laat V een vectorruimte zijn. Dan: 1. De lege verzameling S = ∅ zullen we een onafhankelijke deelverzameling van V noemen. 2. Een niet leeg eindig stelsel S = {v1 , . . . , vp } ⊂ V heet onafhankelijk als de vectorvergelijking c1 v1 + · · · + cp vp = 0 alleen de triviale oplossing c1 = 0, . . . , cp = 0 heeft. 3. Een oneindige verzameling S = {vi }i∈I ⊂ V heet onafhankelijk als iedere eindige deelverzameling van S onafhankelijk is. Tenslotte, een deelverzameling die niet onafhankelijk is, zullen we afhankelijk noemen. Er volgt direct dat een niet leeg eindig stelsel S = {v1 , . . . , vp } ⊂ V afhankelijk is, als de vectorvergelijking c1 v1 + · · · + cp vp = 0 een niet–triviale oplossing c1 , . . . , cp heeft. In het geval van afhankelijkheid wordt een relatie c1 v1 + c2 v2 + · · · + cp vp = 0 met niet alle ci gelijk aan nul een afhankelijkheidsrelatie genoemd. Vóórdat we overgaan tot het geven van voorbeelden presenteren we eerst een zeer handig criterium waarmee lineaire (on)afhankelijkheid in één keer nagegaan kan worden. In de gangbare literatuur wordt deze stelling meestal als definitie van afhankelijkheid en onafhankelijkheid gebruikt, terwijl bovenstaande definitie dan een stelling is. STELLING 2.19 (of definitie). Laat V een vectorruimte zijn. Dan geldt: Een stelsel vectoren S = {vi }i∈I ⊂ V is afhankelijk als tenminste één van de vectoren uit S een lineaire combinatie is van de overigen. Bewijs: Als S leeg is, dan is de verzameling onafhankelijk, dus de stelling is niet van toepassing. We bekijken nu het geval dat S eindig maar niet leeg is. Als S uit één vector bestaat, zeg S = {v} dan is S afhankelijk als cv = 0 een niet triviale oplossing heeft, dus als en slechts als v = 0. Aan de andere kant, de uitspraak “tenminste één van de vectoren uit S een lineaire combinatie is van de overigen” voor deze S is equivalent met “v is een lineaire combinatie van de lege verzameling” dus evenzo equivalent met v = 0. De conclusie volgt. 2.4. Lineaire (On)Afhankelijkheid 31 Nu het geval dat S eindig is maar tenminste uit twee vectoren bestaat. Zeg S = {v1 , v2 , . . . , vp } met p ≥ 2. Als tenminste één een lineaire combinatie van de andere vectoren, zeg vk . Dit betekent dat er getallen c1 , c2 ,. . . , ck−1 , ck+1 ,. . . , cp bestaan, zo dat vk = c1 v1 + · · · + ck−1 vk−1 + ck+1 vk+1 + · · · + cp vp , hetgeen herschreven kan worden tot c1 v1 + · · · + ck−1 vk−1 + ck vk + ck+1 vk+1 + · · · + cp vp = 0, met ck = −1. Blijkbaar heeft de vectorvergelijking x1 v1 + x2 v2 + · · · + xp vp = 0 meer dan alleen de triviale oplossing (x1 = c1 , x2 = c2 , etc is immers een oplossing waarbij ck ̸= 0), en dus is S afhankelijk. Nu andersom: neem aan dat de vectorvergelijking x1 v1 + x2 v2 + · · · + xp vp = 0 een niet-triviale oplossing heeft. Als ck ̸= 0 dan halen we de andere vectoren (die er zijn) naar de andere kant en we krijgen ck vk = −c1 v1 − · · · − ck−1 vk−1 − ck+1 vk+1 − · · · − cp vp , dus (ck is immers ongelijk aan nul) vk = (− c1 ck−1 ck+1 cp )v1 + · · · + (− )vk−1 + (− )vk+1 + · · · + (− )vp ck ck ck ck en hier staat dat vk een lineaire combinatie is van de overigen in S. Tenslotte bekijken we het geval dat S oneindig is. S is afhankelijk als en slechts als een eindige deelverzameling van S afhankelijk is, en hiermee volgt alles uit het eindige geval. Hoe gaan we na of een stel vectoren {a1 , . . . , ak } (on)afhankelijk zijn? We moeten zien of de vectorvergelijking c1 a1 + · · · + ck ak = 0 wel of niet een niet-trivale oplossing heeft. In Rn en Cn reduceert dit, zoals ons bekend is, tot het oplossen van het stelsel vergelijkingen [a1 . . . ak |0]. Ook in Mn×m (R) of in Mn×m (C) wordt dit probleem gereduceerd tot het oplossen van een een stelsel vergelijkingen. [ ] [ ] 1 1 1 2 Voorbeeld 2.20. Ga na of de matrices (vectoren) A1 = , A2 = en A3 = 0 1 3 4 [ ] 2 1 in M2×2 (R) lineair onafhaneklijk zijn. −3 −1 Antwoord. Stel: [ ] 0 0 c1 A1 + c2 A2 + c3 A3 = 0 = 0 0 En dus: [ c1 1 0 1 1 ] [ + c2 1 3 2 4 ] [ + c3 2 −3 1 −1 ] [ = 0 0 0 0 ] 32 Hoofdstuk 2. De lineaire structuur op een vectorruimte c1 + c2 + 2c3 = 0 1 0 3 0 1 −1 c1 + 2c2 + c3 = 0 wat leidt tot het stelsel: ∼ 0 0 3c2 − 3c3 = 0 0 c1 + 4c2 − c3 = 0 0 0 0 triviale oplossing c1 = 3, c2 = −1 en c3 = −1 leidt. Of te wel, A1 , A2 en 3A1 − A2 − A3 = 0 is een afhankelijkheidsrelatie tussen A1 , A2 en A3 . | 0 | 0 wat tot de niet | 0 | 0 A3 zijn afhankelijk en Echter, voor functieruimten zullen we toch wel andere technieken moeten gebruiken. Veel lineaire afhankelijkheidsrelaties kunnen van formules bekend van de middelbare school ontdekt worden. Voorbeeld 2.21. Is de verzameling functies (vectoren) {f, g, h} met f (x) = sin(x), g(x) = cos(x) en h(x) = sin(1 + x) lineair afhankelijk of niet in de vectorruimte V = F(R, R). Antwoord. Van de middelbare school kennen we de formule: sin(α + β) = sin(α) cos(β) + cos(α) sin(β) In het bijzonder geldt: h(x) = sin(1 + x) = sin(1) cos(x) + cos(1) sin(x) = sin(1)g(x) + cos(1)f (x) Of te wel, f, g en h zijn afhankelijk en cos(1)f +sin(1)g−h = 0 =nulfunctie is een afhankelijkheidsrelatie tussen f, g en h. Het zal duidelijk zijn dat als de formule voor sin(α + β) niet bekend is, het zogoed als onbegonnen werk is om de afhankelijkheidsrelatie (en dus de afhankelijkheid) te ontdekken. Hoe zou men ooit de gewichten sin(1), cos(1), −1 kunnen vinden? Voorbeeld 2.22. Is de verzameling functies (vectoren) {f, g, h} met f (x) = sin(x), g(x) = cos(x) en h(x) = sin(2x) lineair afhankelijk of niet in de vectorruimte V = C([0, 2π], R)? Antwoord. We kennen de regel sin(2x) = 2 sin(x) cos(x), echter, dit is GEEN afhankelijkheidsrelatie tussen de functies f, g en h. Daarom: stel c1 f + c2 g + c3 h = 0 =nulfunctie. Dan: c1 sin(x) + c2 cos(x) + c3 sin(2x) = 0 voor iedere x ∈ [0, 2π] Als we achteréén de waarden x = 0, π/4 en π/2 uit [0, 2π] invullen, verkrijgen we de vergelijkingen: √0c1 + √1c2 + 0c3 = 0 1 1 2c + 1 2 2c2 + 1c3 = 0 2 1c1 + 0c2 + 0c3 = 0 We concluderen dat c1 = c2 = c3 = 0 en dus zijn de functies f, g en h lineair onafhankelijk. Opmerking: Men kan de techniek van voorbeeld 2.22 kunnen toepassen op de functies van voorbeeld 2.21. Stel c1 f + c2 g + c3 h = 0 =nulfunctie. Dan: c1 sin(x) + c2 cos(x) + c3 sin(x + 1) = 0 voor iedere x ∈ R We kunnen nu honderden x-waarden gaan invullen, en zo honderden vergelijkingen met slechts 3 onbekenden verkrijgen. Echter, altijd zal de in voorbeeld 2.21 gevonden niet triviale oplossing blijven bestaan. Bovendien zal de aldaar gevonden niet triviale oplossing bijna zeker niet gevonden worden. Een ander probleem bij functieruimtes die we vanuit Rn niet kennen, is dat lineaire afhankelijkheid voor een stel gegeven functies kan afhangen van het domein waarop de functies bekeken worden. Voorbeeld 2.23. Beschouw de functies f en g met f (x) = x en g(x) = x2 . Oftewel, bekijk de functies x en x2 , en wel op het twee–punts domein D = {0, 1}. In de vectorruimte F(D, R) zijn de twee functies x en x2 hetzelfde (want ze hebben dezelfde functiewaarde in ieder punt van het domein. Maar dan is {x, x2 } een afhankelijke verzameling in F({0, 1}, R). 2.4. Lineaire (On)Afhankelijkheid 33 Opmerking: In verband met het vorige voorbeeld het volgende. In opgave 5 wordt aangetoond dat als het domein D tenminste n + 1 punten bevat, dat dan de eindige verzameling functies {1, x, . . . , xn } onafhankelijk is in de vectorruimte F(D, R). Merk op dat dit impliceert dat de oneindige verzameling {1, x, . . . , xn , . . . . . .} onafhankelijk is in F([a, b], R), voor ieder interval [a, b], met a < b. Er bestaat nog een methode om de lineaire onafhankelijkheid van functies te bepalen, een methode gevonden door Wronski4 . Als f1 , . . . , fk een k-tal functies is dat k − 1 maal gedifferentiëerd kan worden op een domein [a, b] (of heel R) dan heet de determinant f1 (x) f1′ (x) .. . W (x) = (k−1) f1 (x) f2 (x) . . . fk (x) f2′ (x) . . . fk′ (x) .. .. . ... . (k−1) (k−1) f2 (x) . . . fk (x) de Wronskiaan van de functies f1 , . . . , fk , en wordt soms ook genoteerd met W [f1 , . . . , fk ](x). Merk op dat als de functies f1 , . . . , fk afhankelijk zijn, zeg c1 f1 + c2 f2 + . . . + ck fk = 0 (niet alle ci nul) dan kan dit (k − 1) maal gedifferentieerd worden, en we verkrijgen: c1 f1 (x) c1 f1′ (x) .. . (k−1) c1 f1 en dus + + (x) + f1 (x) f1′ (x) .. . c1 (k−1) f1 (x) c2 f2 (x) c2 f2′ (x) .. . (k−1) c2 f2 + + ... ... + ck fk (x) + ck fk′ (x) .. . (x) + ... + ck fk f2 (x) f2′ (x) .. . + c2 (k−1) f2 (k−1) (x) fk (x) fk′ (x) .. . + · · · + ck (k−1) (x) = 0 = 0 .. . fk = 0 = (x) 0 0 .. . 0 (met niet alle ci = 0) en we concluderen dat W [f1 , . . . , fk ](x) = 0, voor iedere x. In contrapositief gesteld hebben we de volgende stelling bewezen. STELLING 2.24. (Wronski’s test) Als er een x bestaat met Wronskiaan W [f1 , . . . , fk ](x) ̸= 0, dan zijn de functies f1 , . . . , fk lineair onafhankelijk. Voorbeeld 2.25. Ga na of de drie functies f, g, h met f (x) = 1, g(x) = ex en h(x) = e2x onafhankelijk zijn in F(R, R). Antwoord. Omdat W [f, g, h](x) = 1 ex 0 ex 0 ex e2x 2e2x 4e2x = 2e3x ̸= 0 (ga na.) volgt dat deze drie functies onafhankelijk zijn. 4 Jozef Hoëné de Wronski (1778-1853) Deze Pool/Fransman heeft een leven vol conflicten en controversies uitgevochten over zijn werk. Veel van zijn werk is totaal vergeten en hij is overleden in grote armoede. 34 Hoofdstuk 2. De lineaire structuur op een vectorruimte Jammer genoeg geldt de omkering van Stelling 2.24 NIET. Als W [f1 , . . . , fk ](x) = 0, voor alle x, dan zijn de functies f1 , . . . , fk niet noodzakelijk lineair afhankelijk. Bij de opgaven kan men een voorbeeld tegenkomen. Dit voorbeeld heeft een ietwat “geforceerd karakter”, en dat is geen toeval want men kan aantonen dat voor “een k-tal natuurlijke functies” de omkering wel geldt. Wat “natuurlijke functies” zijn vertellen we niet, dit zou te ver voeren. 2.5 Basis, Coördinaten en dimensie Basis Definitie: Een verzameling vectoren B in een vectorruimte V heet een basis voor V als het stelsel V opspant (dus Span B = V ) en het stelsel B bovendien onafhankelijk is. Let op! Deelruimten van vectorruimten zijn ook vectorruimten. In bovenstaande definitie hoeft V dus geen standaardvectorruimte te zijn, maar kan het ook een deelruimte van zo’n vectorruimte zijn. Opmerking: We zullen een eindige basis algemeen noteren met B = {b1 , . . . , bk }. Merk op dat deze notatie een ordening geeft op de basisvectoren uit B. Zo’n basis zullen we “geordende basis” noemen. Aangezien we meestal geı̈nteresseerd zijn in een geordende basis, zullen we meestal bij iedere eindige basis de ordening meteen vastleggen en dit noteren met B = (b1 , . . . , bk ). Als u deze opmerking niet begrijpt, bekijk dan goed Voorbeeld 2.30 waar een natuurlijke basis op Mm×n (R) gedefiniëerd wordt zonder natuurlijke ordening. De reden voor de ordenig zal blijken bij de coördinatisering, daarvoor is een ordenig nodig. Definitie: Een vectorruimte V heet eindig dimensionaal als V een eindige basis B = (v1 , . . . , vk ) heeft. We zullen onze aandacht eerst beperken tot de eindig dimensionale vectorruimten. Voorbeelden van bases Voorbeeld 2.26. Beschouw de kleinst mogelijke vectorruimte V = {0}. Merk op dat de verzameling {0} geen basis is voor V , want deze verzameling is afhankelijk. Echter, de lege verzameling S = ∅ is wel een basis, want we hebben afgesproken dat de lege verzameling onafhankelijk is en dat Span ∅ = {0} = V . 2.5. Basis, Coördinaten en dimensie 35 Voorbeeld 2.27. Net als in Rn is ook in Cn het stelsel 1 0 0 0 1 0 0 0 0 .. , .. , . . . , .. = (e1 , e2 , . . . en ) . . . 0 0 0 0 0 1 een (geordende) basis, want het is onafhankelijk en elke vector in Cn kan als lineaire combinatie van deze vectoren worden geschreven. Deze basis heet de natuurlijke basis voor Cn , of ook de standaardbasis of kanonieke basis. Dus: Rn = SpanR {e1 , e2 , . . . en } en Cn = SpanC {e1 , e2 , . . . en }. Voorbeeld 2.28. Zowel in Poln ([a, b], R) als in Poln ([a, b], C) is het stelsel (1, x, x2 , . . . , xn ) een (geordende) basis. We hebben al in de opgaves gezien dat dit stelsel onafhankelijk is. Verder is het duidelijk dat elke veelterm met graad ≤ n te schrijven is als een lineaire combinatie van deze vectoren, zodat Poln ([a, b], R) = SpanR (1, x, x2 , . . . , xn ) en Poln ([a, b], C) = SpanC (1, x, x2 , . . . , xn ). Deze basis wordt de natuurlijke basis voor Poln ([a, b], R) (of Poln ([a, b], C)) genoemd. Ook de termen standaardbasis en kanonieke basis worden gebruikt. Voorbeeld 2.29. In voorbeeld 2.22 hebben we gezien dat het stelsel functies (sin x, cos x, sin 2x) in F(R, C) onafhankelijk is. Daaruit volgt dan direct dat het een basis is voor V = Span(sin x, cos x, sin 2x). Dat het stelsel de ruimte V opspant is dan namelijk door de definitie van V waar. Voorbeeld 2.30. Een basis voor Mm×n (R) (of Mm×n (C)) is bijvoorbeeld het stelsel E dat bestaat uit de matrices waarvan één kental gelijk is aan 1, terwijl de andere kentallen nul zijn. Ga na dat deze verzameling vectoren onafhankelijk is en Mm×n (R) (of Mm×n (C)) opspant. Echter, om een geordende basis te zijn is ook een ordening op deze basis nodig. Als Ei,j die matrix in Mm×n (R) (of Mm×n (C)) is met (i, j)de kental 1 en andere kentallen 0, dan spreken we de volgende ordening af: E = (E1,1 , E1,2 , . . . , E1,n , E2,1 , E2,2 , . . . , E2,n , E3,1 . . . , Em,1 , . . . , Em,n ) Ook de basis E wordt de natuurlijke basis, de standaardbasis en/of de kanonieke basis genoemd. De deelruimte Symmn (R) (of Symmn (C)) van symmetrische n × n matrices (d.w.z. AT = A) heeft als basis 1 0 ··· 0 0 1 ··· 0 0 0 ··· 0 0 0 · · · 0 1 0 · · · 0 0 0 · · · 0 .. .. , .. .. , . . . , .. .. . . . . . . 0 0 ··· 0 0 0 ··· 0 0 0 ··· 1 (dit zijn de matrices waarbij de kentallen aij en aji voor één paar (i, j) gelijk zijn aan 1, terwijl de rest gelijk is aan 0). U mag zelf een ordening bepalen. Bij bovenstaande voorbeelden lag het voor de hand hoe een basis kon worden gekozen. Het ligt niet altijd zo voor de hand. Met name niet als de vectorruimte geen eindige basis heeft. Verder is 36 Hoofdstuk 2. De lineaire structuur op een vectorruimte het zo dat als er een basis is, deze niet uniek is. Sterker nog: als een vectorruimte een (niet lege) basis heeft dan zijn er zelfs oneindig veel. Voor deelruimten die als lineair omhulsel van een eindig stel vectoren gegeven zijn hebben we een recept om bases te vinden: verwijder net zo lang vectoren die combinaties zijn van de overigen, tot een onafhankelijk stelsel overblijft. Dit kan echter een vervelend karwei zijn. In het eerste deel van lineaire algebra hebben we gezien hoe het vinden van een basis handig kan voor deelruimten van Rn , als deze als lineair omhulsel (kolomruimte, rijruimte) of als nulruimte gegeven zijn. Deze methoden gelden ook als we in Cn werken. Coördinaten t.o.v. een basis Eén van de redenen waarom bases zo handig zijn is de volgende stelling STELLING 2.31. Een stelsel vectoren (v1 , . . . , vp ) (mag oneindig groot zijn) is een basis voor een vectorruimte V (reëel of complex) als en slechts als elke vector uit V op precies één manier te schrijven is als een lineaire combinatie van de vectoren uit het stelsel. Dit leidt tot: Definitie: Stel dat V een eindig dimensionale vectorruimte is (over R of C), zeg met basis B = (v1 , . . . , vn ). Uit bovenstaande stelling volgt dat bij iedere vector v ∈ V een uniek stel scalairen c1 , c2 ,. . . , cn in R of C bestaat zo dat v = c1 v1 + · · · + cn vn . Deze getallen worden de coördinaten van v ten opzichte van de basis B genoemd. Bij v maken we dan een vector in Rn of Cn door de getallen c1 tot en met cn in een kolom te zetten. Deze kolomvector noteren we als [v]B , dus c1 [v]B = ... cn en noemen we de coördinatisering van v ten opzichte van de basis B. Bewijs: van Stelling 2.31 Ga er eerst van uit dat (v1 , . . . , vp ) een basis voor V is. Omdat de basisvectoren V opspannen is elke vector uit V op tenminste één manier als lineaire combinatie van de basisvectoren te schrijven. Stel nu dat voor een vector v uit V geldt dat v = a1 v1 + · · · + ap vp en ook v = b1 v1 + · · · + bp vp . Dan volgt 0 = v − v = (a1 − b1 )v1 + · · · + (ap − bp )vp . 2.5. Basis, Coördinaten en dimensie 37 Uit de onafhankelijkheid van (v1 , . . . , vp ) volgt dan direct dat ai − bi = 0 en dus dat ai = bi , voor alle i. Maar dat wil zeggen dat de twee lineaire combinaties voor v hetzelfde zijn en v dus op één manier te schrijven is als lineaire combinatie van de basisvectoren. Nu andersom, neem dus aan dat elke vector uit V op precies één manier te schrijven is als een lineaire combinatie van de vectoren uit het stelsel. Duidelijk is dat het stelsel dan V opspant! Nu moeten we nog inzien dat het ook onafhankelijk is. Neem daartoe een combinatie van v1 ,. . . ,vp die 0 oplevert. Volgens het gegeven is er maar één zo’n combinatie mogelijk. Dat moet dus 0v1 + · · · + 0vp zijn, waaruit onafhankelijkheid volgt. Voorbeeld 2.32. In Pol3 ([0, 1], R) met de standaardbasis B = (1, x, x2 , x3 ) zijn de coördinaten van het polynoom p(x) = −3 + x − x2 + 3x3 de getallen −3, 1, −1 en 3 (in deze volgorde!), wat genoteerd wordt met −3 1 [p]B = −1 . 3 Voor de geordende basis C = (x3 , x2 , x, 1) geldt 3 −1 [p]C = 1 . −3 Opmerking: Om de coördinatisering op een unieke manier te bepalen, moet de volgorde van het basisvectoren vastliggen. Dit is de reden geweest voor het invoeren van een stelsel vectoren (en daarmee een basis) als een geordende verzameling. [ ] 1+i ∈ Mn×n (C) t.o.v. de standaardbasis 4 1−i 1+i . B = (E1,1 , E1,2 , E2,1 , E2,2 ) (zie Voorbeeld 2.30) is: [A]B = 2 4 Voorbeeld 2.33. De coördinaten van A = 1−i 2 Het zal nu duidelijk zijn dat het gebruik van coördinaten ten op zichte van een gegeven basis B = (b1 , . . . , bn ) op de ruimte V , bij een vectorruimte over R een afbeelding V Rn en bij een n vectorruimte over C een afbeelding V C geeft, in beide gevallen gedefinieerd door x [x]B (Deze afbeelding heeft, afgezien van de “coördinatisering” geen naam.) De volgende stellingen gaan over het gedrag van deze afbeelding t.o.v. de basisbegrippen. STELLING 2.34. V is een eindig dimensionale vectorruimte met basis B = (b1 , . . . , bn ). Dan geldt voor iedere u, v ∈ V en iedere scalar c: 1. [u + v]B = [u]B + [v]B 2. [cu]B = c[u]B 38 Hoofdstuk 2. De lineaire structuur op een vectorruimte Bewijs: Merk op dat in de eerste te bewijzen formule, de eerste + staat voor de vectorieële n n optelling in de vectorrruimte V , terwijl de tweede + staat voor die in R (of C ). c1 d1 .. .. Stel dat [u]B = . en [v]B = . , dus stel dat u = c1 b1 + . . . + cn bn en v = d1 b1 + . . . + cn dn bn . Er volgt dat dn u + v = (c1 + d1 )b1 + . . . + (cn + dn )bn en cu = cc1 b1 + . . . + ccn bn en dus dat cc1 c 1 + d1 . .. [u + v]B = = [u]B + [v]B en [cu]B = .. = c[u]B . cn + dn ccn De conclusie volgt. STELLING 2.35. V is een eindig dimensionale vectorruimte met basis B = (b1 , . . . , bn ). Dan geldt voor een stel vectoren: (u1 , . . . , uk ) in V : 1. (u1 , . . . , uk ) zijn onafhankelijk in V als en slechts als de coördinaten ([u1 ]B , . . . , [uk ]B ) onafhankelijk zijn in Rn (respectievelijk in Cn ). 2. De vectoren (u1 , . . . , uk ) spannen V op als en slechts als de coördinaten ([u1 ]B , . . . , [uk ]B ) de ruimte Rn (respectievelijk Cn ) opspannen. 3. (u1 , . . . , uk ) is een basis van V als en slechts als de coördinaten ([u1 ]B , . . . , [uk ]B ) een basis van Rn (respectievelijk Cn ) is. Bewijs: Onderdeel 1. is een opgave. We bewijzen 2. en dan is 3. een rechtstreeks gevolg van 1. en 2. Stel dat de vectoren (u1 , . . . , uk ) V opspannen. Kies x ∈ Rn (respectievelijk, kies x ∈ Cn .) willekeurig. We tonen aan dat x ∈ Span{[u1 ]B , . . . , [uk ]B }. Alsvolgt, beschouw de vector v = x1 b1 + . . . + xn bn ∈ V . Merk op dat [v]B = x. Omdat (u1 , . . . , uk ) V opspant, bestaan er scalairen c1 , . . . , cn zodat v = c1 u1 + · · · + ck uk en daarom x = [v]B = [c1 u1 + · · · + ck uk ]B = c1 [u1 ]B + · · · + ck [uk ]B en dus: x ∈ Span{[u1 ]B , . . . , [uk ]B }, voor iedere x. Omgekeerd: stel dat de coördinaatvectoren ([u1 ]B , . . . , [uk ]B ) de ruimte Rn (respectievelijk Cn ) opspannen. Kies v ∈ V willekeurig en beschouw [v]B . Er bestaan c1 , . . . , ck zodat [v]B = c1 [u1 ]B + · · · + ck [uk ]B = [c1 u1 + · · · + ck uk ] en dus v = c1 u1 + · · · + ck uk ∈ Span{u1 , . . . , uk }, voor iedere v ∈ V , d.w.z. Span{u1 , . . . , uk } = V . Deze stellingen maken het mogelijk om onze kennis over Rn (respectievelijk, over Cn ) in de reële (respectievelijk, complexe) vectorruimte V te stoppen. We krijgen als eerste resultaat: 2.5. Basis, Coördinaten en dimensie 39 GEVOLG 2.36. Stel dat V een eindig dimensionale vectorruimte is met basis B = (b1 , . . . , bn ). Dan geldt: iedere basis van V bestaat precies uit n vectoren. Deze stelling maakt het mogelijk om het begrip dimensie voor algemene vectorruimten in te voeren. Definitie: Stel dat V een eindig dimensionale vectorruimte is met basis B = (b1 , . . . , bn ). Dan zeggen we: de dimensie van V is n en noteren we dit met dim(V ) = n. Als V geen eindige basis dan heet V oneindig dimensionaal en dit noteren we met: dim(V ) = ∞ Voorbeeld 2.37. Als we het aantal elementen in de standaardbasis tellen van de vectorruimten Poln ([a, b], R), Poln ([a, b], C), Mm×n (R) en Mm×n (C) dan verkrijgen we: dim(Poln ([a, b], R)) = n + 1 en dim(Poln ([a, b], C)) = n + 1 dim(Mm×n (R)) = mn en dim(Mm×n (C)) = mn . Natuurlijk bestaat er veel meer kennis over Rn en Cn die we kunnen terughalen naar V , zoals de dimensiestelling, de uitbreidingsstelling en de uitduningsstelling. STELLING 2.38. Stel dat V een eindig dimensionale vectorruimte is met dim(V ) = n. Dan geldt: 1. Ieder n-tal onafhankelijke vectoren in V is een basis van V . 2. Ieder n-tal opspannende vectoren in V is een basis van V . 2 De volgende stelling is ook waar in een oneindig dimensionale vectorruimte, het bewijs is dan niet zo simpel meer. In de opgaven mag U het eindig dimensionale geval bewijzen. STELLING 2.39. Stel dat V een eindig dimensionale vectorruimte is met dim(V ) = n. Dan geldt: 1. Ieder onafhankelijk aantal vectoren van V is uit te breiden tot een basis. 2. Ieder opspannend aantal vectoren van V is uit te dunnen tot een basis. 2 40 Hoofdstuk 2. De lineaire structuur op een vectorruimte Opmerking: Het bewijs laat ook zien hoe je een stel opspannende vectoren kan reduceren tot een basis. Stap over op de coördinaten en reduceer die via vegen tot een basis. Ga nu weer terug naar V . STELLING 2.40. Stel dat V een eindig dimensionale vectorruimte is met dim(V ) = n. Dan geldt: 1. Ieder n + 1 tal vectoren in V is afhankelijk. 2. Ieder onafhankelijk stelsel bestaat uit tenhoogste n vectoren. 2 Opmerking: Uit bovenstaande stelling volgt dat als een vectorruimte V oneindig veel onafhankelijke vectoren bevat, dan moet deze ruimte oneindig dimensionaal zijn. Oneindige Dimensionale vectorruimten We herhalen: de vectorruimte V is oneindig dimensionaal als er geen eindige basis is. Voorbeeld 2.41. De ruimten F([a, b], R), C([a, b], R) en C n ([a, b], R) zijn voorbeelden van oneindig dimensionale vectorruimten over R. Evenzo zijn F([a, b], C), C([a, b], C) en C n ([a, b], C) voorbeelden van oneindig dimensionale complexe vectorruimten. Dat dit inderdaad zo is volgt uit het feit dat de verzameling {1, x, x2 , . . . . . . , xn , . . . . . .} een oneindige lineair onafhankelijke verzameling is in ieder van deze zes vectorruimten. Dat C([a, b], R) oneindig dimensionaal is merken we dagelijks bij het vak Analyse. Niemand heeft daar een eindig lijstje met functies waarmee alle functies te maken zijn. Zelfs een oneindige lijst is niet te maken. Hoewel oneindige dimensionale ruimten wel een basis hebben, deze worden dan vaak “Hamelbasis” genoemd, spelen deze in het oneindig dimensionale geval een minder prominente rol dan in het eindig dimensionale geval. 2.6 Coördinatentransformaties Het gebeurt regelmatig dat voor verschillende doeleinden verschillende bases interessant zijn en op dat moment is het handig als we snel van de coördinaten ten opzichte van de ene basis kunnen overstappen naar de coördinaten ten opzichte van de andere basis. Wanneer in een n-dimensionale vectorruimte V zowel een basis B als een basis C gegeven is, hebben we voor een vector v uit V twee coördinatiseringen: [v]B en [v]C . Overgang van de ene naar de andere schrijfwijze wordt een coördinatentransformatie genoemd en blijkt weer te maken te hebben met een matrixvermenigvuldiging. De volgende stelling maakt dit precies. 2.6. Coördinatentransformaties 41 STELLING 2.42. Voor een n dimensionale vectorruimte V met bases B en C geldt dat de omzetting van [v]B naar [v]C (met v ∈ V ) berekend kan worden via de matrixvermenigvuldiging P [v]B = [v]C , waarbij P de n × n matrix over is die als kolommen de coördinatisering van de basisvectoren uit B ten opzichte van de basis C heeft. Dus als B = (b1 , b2 , . . . , bn ) dan [ ] P = [b1 ]C [b2 ]C · · · [bn ]C . Deze matrix wordt de overgangsmatrix (of transformatiematrix) van B naar C genoemd en wordt meestal met P genoteerd. C←B Bovendien geldt: als A een n × n met de eigenschap dat [v]C = A[v]B voor alle v ∈ V dan geldt: A = P . C←B Bewijs: Kies maar v ∈ V en schrijf deze als lineaire combinatie van de vectoren uit B: v = c1 b1 + c1 b2 + · · · + cn bn . Uit de lineariteit van de coördinatisering volgt dan [v]C = c1 [b1 ]C + c2 [b2 ]C + · · · + cn [bn ]C = c1 [ ] = [b1 ]C [b2 ]C · · · [bn ]C ... = P [v]B . C←B cn De uniciteit van de overgangsmatrix matrix volgt ook. Stel dat A een matrix is met [v]C = A[v]B , voor alle v ∈ V . Kies v = bi , voor i = 1, . . . , n. Omdat [bi ]B = ei , voor i = 1, . . . , n, volgt: [bi ]C = A[bi ]B = Aei = ie kolom van A, voor i = 1, . . . , n. Dus zien we dat A en P dezelfde ie kolom heeft (voor i = 1, . . . , n). Kortom: A = P . C←B C←B De eigenschappen om te onthouden zijn dus: P C←B = [ [b1 ]C [b2 ]C ··· [bn ]C ] en [v]C = P [v]B (voor alle v ∈ V ). C←B ([ 1 i ] [ ]) −1 , en tweede basis 0 Voorbeeld 2.43. Beschouw C met als eerste basis B = ([ ] [ ]) 1 0 C= , . Om de overgangsmatrix P van de basis B naar de basis C te bepalen −1 i C←B moeten de vectoren van B gecoördinatiseerd worden ten opzichte van C. De eerste kolom van P C←B [ ] 1 is immers de coördinaatvector van b1 = ten opzichte van de basis C, welke gevonden wordt i door de vectorvergelijking [ ] [ ] [ ] 1 1 0 = x1 + x2 i −1 i 2 42 Hoofdstuk 2. De lineaire structuur op een vectorruimte op te lossen. Vegen van de aangevulde matrix [ ] 1 0 | 1 −1 i | i tot gereduceerde echelonvorm levert dan x1 = 1 en x2 = 1 − i, de kentallen van de eerste kolom van P . Op dezelfde manier moeten we voor de tweede kolom de aangevulde matrix C←B [ 1 0 −1 i | −1 | 0 ] vegen, hetgeen de kentallen −1 en i oplevert. Blijkbaar is [ ] 1 −1 . P = 1−i i C←B We merken nog op dat de twee stelsels in één keer opgelost hadden kunnen worden: ] [ ] [ 1 0 | 1 −1 1 0 | 1 −1 ∼ −1 i | i 0 0 1 | 1−i i Er is geveegd totdat links de eenheidsmatrix staat. Rechts staan [dan de] twee kolommen van ]de [ −2 −2 − i gevraagde matrix P . Als nu v een vector in C2 is met [v]B = (dus v = ), i −2i C←B dan is [v]C snel te vinden, immers [ ][ ] [ ] 1 −1 −2 −2 − i [v]C = P [v]B = = . 1−i i i −3 + 2i C←B De volgende stelling is handig. STELLING 2.44. Als B, C en D bases zijn voor een eindig dimensionale vectorruimte V , dan geldt ( )−1 1. P is inverteerbaar en P = . P C←B 2. P D←B B←C = P D←C C←B · P C←B Bewijs: 1. Omdat de vectoren {b1 , . . . , bn } onafhankelijk zijn, zijn de coördinaten {[b1 ]C , . . . , [bn ]C } dat ook en dus is de vierkante matrix P inverteerbaar. C←B Omdat [v]C = P [v]B voor alle v ∈ V geldt ook: C←B ( )−1 [v]C = [v]B voor alle v ∈ V P C←B ( )−1 en dus: P = . P B←C C←B 2. We controleren dat de tweede matrix ook de eigenschap: [v]D = P [v]B heeft, voor alle v ∈ V, D←B 2.6. Coördinatentransformaties de eigenschap die P 43 karakteriseert. D←B Welnu: ( P P )[v]B = D←C C←B P ( P [v]B ) = D←C C←B P [v]C = [v]D , voor alle v ∈ V en de conclusie D←C volgt. Voorbeeld 2.45. We bepalen nog een keer voor de situatie van Voorbeeld 2.43, maar nu ([ ] [ ]) 1 0 door deze matrix uit te rekenen via de standaardbasis basis E = , . Het aardige 0 1 hiervan is dat de overgangsmatrices P en P direct zijn op te schrijven omdat de vectoren uit P C←B E←B E←C B en C al gecoördinatiseerd gegeven zijn ten opzichte van de standaardbasis! Er geldt [ ] [ ] 1 −1 1 0 = en = . P P i 0 −1 i E←B E←C Met bovenstaande stelling volgt dan ( )−1 P = P P = P P C←B C←E E←B E←C [ = E←B 1 0 −1 i ]−1 [ 1 −1 i 0 ] [ = 1 1−i −1 i ] . Een handige truc die toepasbaar is met ruimtes die een standaardbasis E hebben. Dan kan P C←B ( )−1 berekend worden als P = P P . C←B E←C E←B Nu horen we te weten dat als we het stelsel A|B (met A een n × n inverteerbare matrix) vegen naar In |?, dat in de rechterkolom de matrix A−1 B verschijnt, de oplossing van AX = B. Dus: [A|B] ∼ [In |A−1 B] GEVOLG 2.46. Als B, C geordende bases zijn voor een eindig dimensionale vectorruimte V met een geordende standaardbasis E, dan geldt: P is te berekenen door [ P | P ] te C←B vegen naar [In | P ]. E←C E←B C←B Voorbeeld 2.47. We bepalen P nog een keer voor de situatie van Voorbeeld 2.43, maar nu C←B door [ P | P ] te vegen naar [I2 | P ]. Welnu: even vegen en we zien: E←C E←B [ [ P | P ]= E←C E←B [ en dus P C←B = 1 −1 1−i i C←B 1 −1 0 | 1 i | i −1 0 ] [ ∼ 1 0 0 1 | 1 | 1−i −1 i ] ] . Voorbeeld 2.48. Voor P2 ([0, 1], R) nemen we de twee geordende bases C = (1, x−1, 1+x−x2 ) en B = (x − 1, x2 + 1, 2x2 − x). Om P te bepalen beschouwen we de standaardbasis E = (1, x, x2 ) C←B en kennelijk P E←C 1 −1 1 1 1 = 0 0 0 −1 en P E←B −1 = 1 0 1 0 1 0 −1 2 44 Hoofdstuk 2. De lineaire structuur op een vectorruimte Om P te bepalen, vegen we C←B 1 [ P | P ]= 0 E←C E←B 0 1 Dit levert: 0 0 0 1 0 0 | 0 0 | 1 1 | 0 −1 1 | 1 1 | 0 −1 | −1 1 0 1 0 1 0 3 3 3 1 1 1 en dus P = 1 C←B 0 −1 −1 −2 0 −1 2 3 1 . −2 Hoofdstuk 3 Lineaire afbeeldingen 3.1 Afbeeldingen van Rn naar Rm We gaan er van uit dat de student bekend is met het functiebegrip, dus “een functie f : A → B”. Een functie wordt bepaald door een domein A, een zogeheten codomein B en een functievoorschrift f (a), een voorschrift die aan iedere a ∈ A een element f (a) ∈ B toevoegt. We schrijven “de functie f : A → B met functievoorschrift f (a)”. In het algemeen: f is de naam van de functie, f (x) het functievoorschrift. Zoals in de Analyse functies f : R → R bestudeerd worden (bijvoorbeeld met voorschrift f (x) = sin(2 ln(x2 + 1))), worden in de lineaire algebra functies (of ook transformaties) T : Rn → Rm bekeken, functies dus met domein Rn en codomein Rm . Maar welke functies? Laten we ons realiseren dat we al functies bekeken hebben. Projecteren op een lineaire deelruimte W geeft een afbeelding projW : Rn → Rn en evenzo, spiegelen t.o.v. een lineaire deelrumte W geeft een afbeelding SW : Rn → Rn . beide konden beschreven worden met een matrix: projW (x) = [projW ]x en SW (x) = [SW ]x. Hierbij staan [projW ] en [SW ] voor de bijbehorende projectiematrix en spiegelingsmatrix. Laten we ons nu realiseren dat iedere m × n matrix A een afbeelding TA : Rn → Rm oplevert via het functievoorschrift: TA (x) = Ax. Dit soort afbeeldingen worden ook wel matrixtransformaties genoemd en dit blijken precies die functies te zijn (tussen Rn en Rm ) waarin men in de lineaire algebra geı̈nteresseerd is. [ ] 1 2 −3 Voorbeeld 3.1. De matrix A = geeft een matrixtransformatie TA : R3 → R2 . 2 2 −1 Deze heeft als functievoorschrift: [ ] x1 x1 + 2x2 − 3x3 x2 TA = 2x1 + 2x2 − x3 x3 Aan het functievoorschrift van een functie is vaak in één opslag te zien of de betreffende functie een matrixtransformatie is. ([ ]) 2x1 − 5x2 x1 Voorbeeld 3.2. Bekijk de functie T : R2 → R3 met functievoorschrift T = 3x1 + 4x2 . x2 −x1 + x2 Aan dit functievoorschrift is inderdaad meteen te zien dat dit een matrixtransformatie betreft en 45 46 Hoofdstuk 3. Lineaire afbeeldingen 2 −5 4 is. dat de bijbehorende matrix A = 3 −1 1 ([ Daarentegen, de functie T : R2 → R2 met functievoorschrift T x1 x2 ]) [ = x21 − 5x32 3x1 + x22 ] gevoelsmatig toch geen matrixtransformatie. Is dat voldoende bewijs? Als geen functievoorschrift gegeven is, maar een meetkundige beschrijving van de afbeelding wordt het nog lastiger. Beschouw de afbeelding R : R2 → R2 die iedere vector x over dezelfde hoek θ (linksom) in het vlak draait naar R(x). Is deze afbeelding een matrixtransformatie? We zoeken een criterium om aan een afbeelding te kunnen zien of deze deze afbeelding een matrixtransformatie is. Definitie: R(x) θ x Een afbeelding T : Rn → Rm heet een lineaire afbeelding als: 1. T (u + v) = T (u) + T (v), voor alle u, v ∈ Rn . 2. T (cu) = cT (u), voor alle u ∈ Rn en alle c ∈ R. STELLING 3.3. (i) Iedere matrixtransformatie T : Rn → Rm is een lineaire afbeelding. (ii) Stel dat T : Rn → Rm een lineaire afbeelding is. Dan is er een unieke m × n matrix A zodat T (x) = Ax, voor alle x ∈ Rn . We noteren A = [T ] en er geldt: A = [T ] = [ T (e1 ) . . . T (en ) ]. Bewijs: Beschouw de standaardbasis ( e1 , . . . , en ) van Rn . Als x ∈ Rn dan x = x1 e1 + x2 e2 + · · · + xn en en dus T (x) = T (x1 e1 + x2 e2 + · · · + xn en ) = x1 T (e1 ) + · · · + xn T (en ) = [ T (e1 ) . . . T (en ) ]x De uniciteit: stel dat C een m × n matrix is zodat T (x) = Cx voor alle x ∈ Rn . Dan geldt: de ide kolom van C = Cei = T (ei ) = de ide kolom van [T ] voor i = 1 . . . n en dus C = [T ]. is 3.1. Afbeeldingen van Rn naar Rm 47 De matrix A = [T ] in Stelling 3.3 heet de standaardmatrix van T en de basiseigenschap van de standaardmatrix [T ] is: T (x) = [T ]x. (Omdat de formule van [T ] gerelateerd is aan de standaardbasis, heet [T ] de standaardmatrix van T .) Deze stelling levert ook het antwoord op de vraag gesteld aan het begin van deze paragraaf. De functies T : Rn → Rm waar wij in geı̈nteresseerd zijn zien er uit als T (x) = Ax. We kunnen nu de vragen beantwoorden uit Voorbeeld 8.9. ([ ] ]) [ 2 x1 x1 − 5x32 2 2 Antwoord 1. De functie T : R → R met functievoorschrift T is geen = x2 3x1 + x22 matrixtransformatie, want het is geen afbeelding. Enig simpel rekenwerk laat zien dat [ lineaire ] 1 T (2x) ̸= 2T (x) als bijvoorbeeld x = . 1 Antwoord 2. De afbeelding R : R2 → R2 draait iedere vector over dezelfde hoek θ (linksom) in het vlak. Om in te zien dat R lineair is moeten we een meetkundig argument gebruiken. Neem twee vectoren x en y en we laten zien dat R(x) x R(x + y) = R(x) + R(y). θ Beschouw in de schets de vectoren x en y en hun beelden R(x) en R(y) verkregen door over dezelfde hoek θ te draaien. Maar dan geldt: als men het parallellogram opgespannen door x en y draait over de hoek θ (linksom) dan gaat dit over in het parallellogram opgespannen door R(x) en R(y). Dus draait het hoekpunt x + y naar het hoekpunt R(x) + R(y). Dus: x+y R(x) + R(y) y R(x) x R(y) R(x + y) = R(x) + R(y). Evenzo laat men zien dat R(cx) = cR(x). We concluderen dat de roteren een matrix transformatie is. De standaardmatrix wordt: [R] = [ R(e1 ) R(e2 )] [ ] cos(θ) Omdat R(e1 ) = en R(e2 ) sin(θ) [ ] − sin(θ) geldt: cos(θ) [ e2 = R(e1 ) R(e2 ) θ θ e1 ] cos(θ) − sin(θ) sin(θ) cos(θ) ([ ]) [ ][ ] [ ] x cos(θ) − sin(θ) x x cos(θ) − y sin(θ) En dus: R = = . y sin(θ) cos(θ) y x sin(θ) + y cos(θ) [ ] cos(θ) − sin(θ) Een matrix van de vorm heet een rotatie-matrix. We hebben een expliciete sin(θ) cos(θ) formule gevonden voor de rotatie linksom van een vector over een gegeven hoek, en dus kunnen we [R] = 48 Hoofdstuk 3. Lineaire afbeeldingen nu iedere vector roteren over welke hoek[dan]ook. Dit is de kracht van de standaardmatrix. 1 Bijvoorbeeld: willen we de vector x = over een hoek van 60 graden linksom roteren dan 2 wordt het resultaat: √ ][ [ ][ ] [ 1 ] [ 1 √ ] − 12 3 − 3 cos(60) − sin(60) 1 1 2 R(x) = = 1√ = 12√ . 1 sin(60) cos(60) 2 2 3 2 2 2 3+1 De lineaire afbeeldingen waarvan de standaardmatrix een orthogonale matrix is vertonen een heel mooi gedrag, zoa;ls de volgende stelling laat zien. STELLING 3.4. Stel T : Rn → Rn is een lineaire afbeelding met standaardmatrix A, d.w.z. T (x) = Ax, voor alle x ∈ Rn . Equivalent zijn: 1. A is een orthogonale matrix. 2. ∥T (x)∥ = ∥x∥, voor alle x ∈ Rn . 3. ⟨T (x), T (y)⟩ = ⟨x, y⟩, voor alle x, y ∈ Rn . Bewijs: 1.⇒3. Stel dat A orthogonaal is. Dan geldt AT A = I en dus: ⟨T (x), T (y)⟩ = ⟨Ax, Ay⟩ = (Ax)T (Ay) = xT AT Ay = xT y = ⟨x, y⟩. 3.⇒2. Als geldt: ⟨T (x), T (y)⟩ = ⟨x, y⟩, voor alle x, y ∈ Rn dan kunnen we deze uitspraak beperken tot de situatie y = x. We verkrijgen zo: ⟨T (x), T (x)⟩ = ⟨x, x⟩, voor alle x ∈ Rn en dus ∥T (x)∥2 = ∥x∥2 , voor alle x ∈ Rn . De conclusie volgt. 2.⇒1. (Dit is het lastige deel van dit bewijs!) Stel dat ∥T (x)∥ = ∥x∥, voor alle x ∈ Rn en bekijk de standaardmatrix A = [a1 . . . an ] met ai =√T (ei ). Dan: ∥ai ∥ = ∥T (ei )∥ = ∥ei ∥ = 1 voor i√= 1, . . . , n. Fixeer nu i ̸= j. Omdat ∥ei + ej ∥ = 2 geldt: ∥ai + aj ∥ = ∥T (ei + ej )∥ = ∥ei + ej ∥ = 2 en dus: 2 = ∥ai + aj ∥2 = ⟨ai + aj , ai + aj ⟩ = ∥ai ∥2 + ∥aj ∥2 + 2 ⟨ai , aj ⟩ = 2 + 2 ⟨ai , aj ⟩. En dus: ⟨ai , aj ⟩ = 0. Kortom, A is vierkant en de kolommen zijn orthonormaal, d.w.z. A is een orthogonale matrix. Hetzelfde verhaal kan men ophouden over functies T : Cn → Cm . Om precies te zijn: • Een (complexe) m×n matrix A geeft een afbeelding (matrixtransformatie) TA : Cn → Cm met het functievoorschrift: TA (x) = Ax. • Een afbeelding T : Cn → Cm heet een lineaire afbeelding als: 1. T (u + v) = T (u) + T (v), voor alle u, v ∈ Cn . 2. T (cu) = cT (u), voor alle u ∈ Cn en alle c ∈ C. • Stelling. De matrixtransformaties T : Cn → Cm zijn precies de lineaire afbeeldingen L : Cn → Cm . Ook hier heet de unieke m × n matrix A zodat T (x) = Ax, voor alle x ∈ Cn . de standaardmatrix van T en wordt genoteerd met [T ]. Er geldt weer: A = [T ] = [ T (e1 ) . . . T (en ) ]. Het bewijs is hetzelfde als in het reële geval. 3.2. Lineaire afbeeldingen tussen vectorruimten 49 • De volgende stelling geldt weer: als T : Cn → Cm een lineaire afbeelding is, dan zijn equivalent: 1. [T ] is unitair. 2. ∥T (x)∥ = ∥x∥, voor alle x ∈ Cn . 3. ⟨T (x), T (y)⟩ = ⟨x, y⟩, voor alle x, y ∈ Cn . Hiervan is het bewijs van de stappen 1.⇒3. en 3.⇒2. letterlijk hetzelfde als in het reële geval. De stap 2.⇒1. is weer de lastige stap. We bekijken weer de standaardmatrix A = [a1 . . . an ] met ai = T (ei ). Weer geldt: ∥ai ∥ = ∥T (ei )∥ = ∥ei ∥ = 1 voor i = 1, . . . , n. √ Fixeer nu i ̸= j. We bekijken√weer ei + ej . Omdat ∥ei + ej ∥ = 2 geldt: ∥ai + aj ∥ = ∥T (ei + ej )∥ = ∥ei + ej ∥ = 2 en dus: 2 = ∥ai + aj ∥2 = ⟨ai + aj , ai + aj ⟩ = ∥ai ∥2 + ∥aj ∥2 + ⟨ai , aj ⟩ + ⟨aj , ai ⟩ = 2 + ⟨ai , aj ⟩ + ⟨aj , ai ⟩. Omdat we nu geen commutativiteit van het inwendig product hebben, kunnen we slechts concluderen dat ⟨ai , aj ⟩ + ⟨aj , ai ⟩ = 0. (a) Oftewel: ⟨ai , aj ⟩ is zuiver imaginair. √ In het complexe geval bekijken we ook de √ vector ei + iej . Omdat2 ∥ei + iej ∥ = 2 geldt: ∥ai + iaj ∥ = ∥T (ei + iej )∥ = ∥ei + iej ∥ = 2 en dus: 2 = ∥ai + iaj ∥ = ⟨ai + iaj , ai + iaj ⟩ = ∥ai ∥2 + ∥aj ∥2 + i ⟨ai , aj ⟩ − i ⟨aj , ai ⟩ = 2 + i ⟨ai , aj ⟩ − i ⟨aj , ai ⟩. We zien nu: ⟨ai , aj ⟩ − ⟨aj , ai ⟩ = 0. (b) Uit de beide gelijkheden (a) en (b) volgt nu ook dat ⟨ai , aj ⟩ = 0. Kortom, A is vierkant en de kolommen zijn orthonormaal, d.w.z. A is een unitaire matrix. 3.2 Lineaire afbeeldingen tussen vectorruimten In het vorige college zijn functies tussen Rn en Rm bekeken, maar ook functies tussen Cn en Cm . De voor de lineaire algebra geschikte afbeeldingen waren de matrix transformaties en deze afbeeldingen konden precies gekarakteriseerd worden als de de lineaire afbeeldingen (zie college 9). Nu willen we afbeeldingen tussen vectorruimten gaan bekijken, maar welke? Matrixtransformaties tussen functieruimten bestaan niet. Het ligt voor de hand om de karakterisering te gebruiken van deze afbeeldingen uit college 9. Definitie: Een lineaire afbeelding L : V → W tussen twee vectorruimten V en W over R (of beide over C) is een afbeelding L van V naar W met de eigenschappen: • L(u + v) = L(u) + L(v), voor elke u en v uit V • L(cv) = cL(v), voor elke v uit V en elke c uit R (dan wel c ∈ C). Opmerking: Een lineaire afbeelding kan bestaan tussen twee reële vectorruimten of twee complexe vectorruimten. Echter NIET van een reële naar een complexe vectorruimte en ook NIET van een complexe naar een reële vectorruimte. Opmerking: Merk op dat het begrip matrixtransformatie in eerste instantie niet bestaat tussen twee vectorruimten. 50 Hoofdstuk 3. Lineaire afbeeldingen Opmerking: Een afbeelding (of functie of transformatie) L van V naar W is een voorschrift dat aan elk element v van V precies één element van W koppelt. Dit element wordt genoteerd met L(v) en wordt het beeld van v onder L genoemd. Andersom, als w uit W het beeld is van een vector v uit V (dus w = L(v)), dan wordt v een origineel van w genoemd. Merk op dat w meerdere originelen kan hebben (of niet één). Nu volgt een waslijst aan voorbeelden. Bestudeer deze intensief. Kijk of je overal begrijpt hoe de afbeelding gedefinieërd is (dat wil zeggen: snap van welke vectorruimte V naar welke vectorruimte W de afbeelding gaat en zie in dat het beeld van een vector uit V inderdaad een vector in W is) en waarom deze lineair is. Voorbeeld 3.5. De nulafbeelding van een vectorruimte V naar een vectorruimte W is de afbeelding O : V → W gedefinieërd door O(v) = 0 , voor alle v ∈ V. Dit is een lineaire afbeelding, want O(u + v) = 0 = 0 + 0 = O(u) + O(v) en O(cv) = 0 = c0 = cO(v). Ook de identieke afbeelding op V of de identiteit op V Id : V → V gedefinieërd door Id(v) = v , voor alle v ∈ V is een lineaire afbeelding, want Id(u + v) = u + v = Id(u) + Id(v) en Id(cv) = cv = cId(v). Voorbeeld 3.6. De afbeelding L : F([−1, 1], R) → R gedefinieërd door L(f ) = f (0) is een lineaire afbeelding. Immers: L(f + g) = (f + g)(0) = f (0) + g(0) = L(f ) + L(g) L(cf ) = (cf )(0) = cf (0) = cL(f ). voor alle f en g uit F([−1, 1], R) en c uit R. Vraag: Is de afbeelding L : F([−1, 1], R) → R gedefinieërd door afbeelding? L(f ) = f (1) een lineaire Voorbeeld 3.7. We definiëren nu twee schuif-afbeeldingen op R∞ . Eerst het “terugschuiven”: dit is de afbeelding L1 : R∞ → R∞ gedefinieërd door L1 (x0 , x1 , . . . ) = (x1 , x2 , . . . ). Deze afbeelding wordt “de shift” genoemd. Dat dit een lineaire afbeelding is, volgt uit ( ) L1 (x0 , x1 , . . . ) + (y0 , y1 , . . . ) = L1 (x0 + y0 , x1 + y1 , . . . ) = (x1 + y1 , x2 + y2 , . . . ) = (x1 , x2 , . . . ) + (y1 , y2 , . . . ) = L1 (x0 , x1 , . . . ) + L1 (y0 , y1 , . . . ) en ( ) L1 c(x0 , x1 , . . . ) = L1 (cx0 , cx1 , . . . ) = (cx1 , cx2 , . . . ) = c(x1 , x2 , . . . ) = cL1 (x0 , x1 , . . . ). 3.2. Lineaire afbeeldingen tussen vectorruimten 51 Het “heenschuiven” is de afbeelding L2 : R∞ → R∞ gedefinieërd door L2 (x0 , x1 , . . . ) = (0, x0 , x1 , . . . ). Dit is eveneens een lineaire afbeelding (zie de opgaven). Vraag: Is de afbeelding L3 : R∞ → R∞ gedefinieërd door L3 (x0 , x1 , . . . ) = (1, x0 , x1 , . . . ) een lineaire afbeelding? 52 Hoofdstuk 3. Lineaire afbeeldingen De volgende afbeeldingen spelen een grote rol bij de theorie over differentiaal– en integraalvergelijkingen. Voorbeeld 3.8. De eerste afbeelding is de afbeelding D die elke continu differentieerbare functie afbeeldt op zijn afgeleide: D : C 1 ([a, b], R) → C([a, b], R) gedefinieërd door D(f ) = f ′ . Dat deze afbeelding lineair is volgt uit de bekende regels (f + g)′ = f ′ + g ′ en (cf )′ = cf ′ . Voorbeeld 3.9. De tweede afbeelding is de afbeelding I die elke continue functie f afbeeldt op die primitieve van f die nul is in a: ∫ x I : C([a, b], R) → C 1 ([a, b], R) gedefinieërd door I(f )(x) = f (t)dt. a Merk allereerst op dat deze afbeelding goed gedefinieërd is. Immers, de primitieve van een continue functie bestaat en is continu-differentieerbaar (dit is de hoofdstelling van de integraalrekening, bekend van het vak analyse). Verder is I een lineaire afbeelding, hetgeen volgt uit de rekenregels voor het primitiveren, bekend uit de analyse. Voorbeeld 3.10. De eerste afbeelding is de afbeelding D die elke continu differentieerbare functie afbeeldt op de afgeleide in een vast punt x0 ∈ [a, b]: D : C 1 ([a, b], R) → R gedefinieërd door D(f ) = f ′ (x0 ). Dat deze afbeelding lineair is volgt uit de bekende regels (f +g)′ (x0 ) = f ′ (x0 )+g ′ (x0 ) en (cf )′ (x0 ) = cf ′ (x0 ). Voorbeeld 3.11. De vierde afbeelding is de afbeelding J die elke continue functie f afbeeldt op ∫b het getal a f (t)dt, de bepaalde integraal van f over [a, b]. ∫ b J : C([a, b], R) → R gedefinieërd door I(f ) = f (x)dx. a Ook is J een lineaire afbeelding, hetgeen volgt uit de rekenregels voor de onbepaalde integraal, bekend uit de analyse. Het volgende voorbeeld zullen we in het vervolg veelvuldig gebruiken en kan gedefinieërd bij elke eindig dimensionale vectorruimte. Voorbeeld 3.12. In §2.5 hebben we bij elke vector uit een eindig dimensionale vectorruimte V over R (dan wel C) met basis B = (b1 , . . . , bn ) de coördinatisering [v]B gedefinieërd. Dit geeft aanleiding tot een afbeelding van V naar Rn (dan wel Cn ), die v koppelt aan [v]B , de zogeheten “coördinaatsafbeelding”. Notatie v 7→ [v]B . We kunnen dit de afbeelding [ ]B : V → Rn ([ ]B : V → Cn ) noemen. Uit Stelling 2.34 volgt dat deze coördinatisering een lineaire afbeelding is, want: [u + v]B = [u]B + [v]B en [cu]B = c[u]B . 3.3. Eigenschappen Lineaire afbeeldingen 3.3 53 Eigenschappen Lineaire afbeeldingen Het wordt nu tijd om te laten zien dat er ook niet-lineaire afbeeldingen zijn. Voorbeeld 3.13. De afbeelding f : R → R gedefinieërd door f (x) = x + 1 is niet lineair, want f (2 · 1) = f (2) = 3 en 2f (1) = 2 · 2 = 4 ̸= f (2 · 1). De afbeelding g : C → C met g(x) = ix is wel lineair: g(x + y) = i(x + y) = ix + iy = g(x) + g(y) en g(cx) = icx = cix = cg(x). De afbeelding h : R2 → R gedefinieërd door { 2 x /y als y ̸= 0 h(x, y) = 0 als y = 0 is ook niet lineair. Er geldt wel h(c(x, y)) = h(cx, cy) = (cx)2 /(cy) = c · x2 /y = c · h(x, y) (als y ̸= 0), en h(c(x, 0)) = h(cx, 0) = 0 = c · 0 = c · h(x, 0). Aan de andere eigenschap is echter niet voldaan: h((1, 1) + (1, 0)) = h(2, 1) = 4 en h(1, 1) + h(1, 0) = 1 + 0 = 1 ̸= 4. Het nagaan of een afbeelding lineair is, kan natuurlijk door de beide definieërende voorwaarden te controleren. Een andere mogelijkheid is inzien dat het een reeds bekende lineaire afbeelding is (bijvoorbeeld door een afbeelding van Rn naar Rm te schrijven als matrixtransformatie). Aantonen dat een afbeelding niet lineair is betekent in het algemeen een voorbeeld geven waaruit blijkt dat aan tenminste één van de twee definieërende voorwaarden niet voldaan is. Het volgende criterium kan in sommige gevallen ook uitkomst bieden. STELLING 3.14. Als voor een afbeelding T : V → W geldt dat T (0) ̸= 0 dan is T geen lineaire afbeelding (ofwel, als T lineair is, dan T (0) = 0). Bewijs: Als T wel lineair zou zijn, dan T (0) = T (00) = 0T (0) = 0 hetgeen in tegenspraak is met het gegeven. Overigens is bij dit bewijs alleen de tweede eigenschap van lineaire afbeeldingen gebruikt. Bij de afbeelding f uit het vorige voorbeeld hadden we deze stelling kunnen gebruiken, er geldt immers f (0) = 1 en f is dus niet lineair. Let op: draai de stelling niet om! Als het beeld van de nulvector wél de nulvector is, hoeft de afbeelding niet lineair te zijn! Dit geldt bijvoorbeeld voor de afbeelding h uit bovenstaand voorbeeld. Voorbeeld 3.15. Een translatie T : R2 → R2 over een niet-nulvector a, dat wil zeggen T (x) = x + a, is niet lineair, want T (0) = a ̸= 0. Andere eigenschappen van een lineaire afbeelding L : V → W die we zullen gebruiken, zijn de volgende. Je mag ze zelf bewijzen in de opgaven. • L(−x) = −L(x), voor alle x ∈ V . • Als L : V → W lineair is, dan geldt L(x − y) = L(x) − L(y), voor alle x, y ∈ V . • L : V → W is lineair als en slechts als L(c1 x1 + c2 x2 + · · · + ck xk ) = c1 L(x1 ) + c2 L(x2 ) + · · · + ck L(xk ) voor alle x1 , x2 , . . . , xk ∈ V en c1 , c2 , . . . , ck ∈ L. 54 Hoofdstuk 3. Lineaire afbeeldingen • Als L : V → W lineair is en de verzameling vectoren {x1 , x2 , . . . , xk } ⊂ V is afhankelijk in V , dan is de verzameling vectoren {L(x1 ), L(x2 ), . . . , L(xk )} ⊂ W afhankelijk in W . • Als L : V → W lineair is en de verzameling vectoren {L(x1 ), L(x2 ), . . . , L(xk )} ⊂ W is onafhankelijk in W , dan is de verzameling vectoren {x1 , x2 , . . . , xk } ⊂ V onafhankelijk in V . We komen nu tot twee belangrijke verzamelingen die bij een lineaire afbeelding gedefinieërd kunnen worden, namelijk het beeld (te vergelijken met het bereik van een functie) en de kern (te vergelijken met de nulpunten van een functie). Deze twee verzamelingen leggen veel eigenschappen van de bijbehorende lineaire afbeelding vast. Definitie: De kern van een lineaire afbeelding L : V → W tussen vectorruimten V en W is de verzameling vectoren uit V die door L op 0 worden afgebeeld. De kern wordt genoteerd als Ker(L) en er geldt dus: Ker(L) = {v ∈ V | L(v) = 0}. Het beeld of bereik van L is de verzameling van alle beelden onder L en wordt genoteerd als Im(L), als L[V ] of als L(V ). Er geldt dus Im(L) = {L(v) | v ∈ V } = {w ∈ W | er is een v ∈ V met L(v) = w} Voorbeeld 3.16. De kern van de nulafbeelding O : V → W is heel V en het beeld is {0}, de nulvector van W (en niet meer). Voor de identieke afbeelding Id : V → V geldt Ker(Id) = {0} en Im(Id) = V . Voorbeeld 3.17. De kern van de matrixtransformatie LA : Rm → Rn met A ∈ Mm×n (R) (dus LA (x) = Ax met x ∈ Rm ) is precies de nulruimte van de matrix A en het beeld is precies de kolomruimte van de matrix A, dus Ker(LA ) = Nul(A) en Im(LA ) = Col(A). Zo geldt voor de matrixtransformatie L : R3 → R2 uit voorbeeld 3.1 dat de kern de nulruimte van de matrix [ ] 1 2 −3 A= 2 2 −1 is (hier Span{(−16, 5, 2)T }) en het beeld de kolomruimte (in dit geval heel R2 , dus L is surjectief). Voorbeeld 3.18. De kern van de schuif-afbeelding L1 uit voorbeeld 3.7 bestaat uit alle vectoren van de vorm (x0 , 0, . . . ) (en is dus Span{(1, 0, 0, . . .)}) en het beeld is heel R∞ . Voor de schuifafbeelding L2 geldt Ker(L2 ) = {0} en het beeld bestaat uit alle vectoren van de vorm (0, x0 , x1 , . . . ). Voor de differentieer-afbeelding D : C 1 ([a, b], R) → C([a, b], R) uit voorbeeld 3.8 geldt dat de kern uit de functies bestaat waarvan de afgeleide de nulfunctie is, en dat zijn precies de constante functies (in dit geval van [a, b] naar R). Het beeld van D is heel C([a, b], R). De hoofdstelling van de integraalrekening zegt immers dat elke continue functie f : [a, b] → R een primitieve F heeft die zelfs continu-differentieerbaar is. Blijkbaar geldt D(F ) = f . Elke f is dus een beeld en behoort dus tot Im(D). Dat de kern van de integraal-afbeelding I : C([a, b], R) → C 1 ([a, b], R) ( uit voorbeeld 3.9) slechts uit de nulfunctie bestaat, volgt ook uit de hoofdstelling van de integraalrekening. Als f namelijk 3.3. Eigenschappen Lineaire afbeeldingen 55 tot de kern van I behoort, is I(f ) de nulfunctie en dus is ∫ x f (t) dt = 0 , voor alle x. a Als we het linkerlid differentiëren naar x vinden we met de genoemde hoofdstelling f (x), terwijl het rechterlid 0 oplevert. Blijkbaar is f de nulfunctie. Voor het beeld van I zie de opgaven. De kern en het beeld van een lineaire afbeelding L : V → W zijn niet zomaar deelverzamelingen van de vectorruimten V en W , het zijn zelfs deelruimten. Dit is je misschien bij bovenstaande voorbeelden al opgevallen. Het wordt bewezen in de volgende stelling. STELLING 3.19. De kern Ker(L) van een lineaire afbeelding L : V → W is een deelruimte van V en het beeld Im(L) is een deelruimte van W . Bewijs: De kern en het beeld bevatten beide de nulvector: 0V ∈ Ker(L) en 0W ∈ Im(L), want uit de lineariteit van L volgt dat L(0V ) = 0W Verder geldt voor de kern: als v1 en v2 in de kern zitten, dan L(v1 + v2 ) = L(v1 ) + L(v2 ) = 0W + 0W = 0W . en zit de som van v1 en v2 dus ook in de kern. Als verder c ∈ R (dan wel c ∈ C) en v ∈ Ker(L), dan volgt L(cv) = cL(v) = c0W = 0W . en dus is ook cv element van de kern. Blijkbaar is de kern een deelruimte van V . Voor het beeld geldt: als w1 en w2 in het beeld zitten, dan zijn er vectoren v1 en v2 in V zo dat w1 = L(v1 ) en w2 = L(v2 ). Er volgt: w1 + w2 = L(v1 ) + L(v2 ) = L(v1 + v2 ) ∈ Im(L). Neem tenslotte c ∈ R (dan wel c ∈ C) en w ∈ Im(L). Dan is er weer een vector v in V zo dat w = L(v) en dus cw = cL(v) = L(cv) ∈ Im(L), waarmee ook Im(L) een deelruimte is, nu van W . De volgende stelling, die het verband tussen de dimensies van de kern en het beeld geeft, staat bekend als de dimensiestelling. Een gevolg van deze stelling is: hoe groter de kern, hoe kleiner het beeld. STELLING 3.20 (dimensiestelling). Als L : V → W een lineaire afbeelding van de eindig dimensionale vectorruimte V naar de vectorruimte W is, dan geldt dim Ker(L) + dim Im(L) = dim V. Bewijs: Als deelruimte van V is ook Ker(L) eindig-dimensionaal. Er is dus een basis (u1 , . . . , us ) voor de kern van L (waarvan de dimensie dus s is). Deze is aan te vullen tot een basis (u1 , . . . , us , v1 , . . . , vr ) 56 Hoofdstuk 3. Lineaire afbeeldingen voor V (waarvan de dimensie dus r + s is). Eventueel mag het aantal r of s nul zijn. De bewering is nu dat het stelsel (L(v1 ), . . . , L(vr )) een basis vormt voor Im(L). In dat geval is bovenstaande dimensieformule duidelijk, want dan geldt dim V = r + s = dim Im(L) + dim Ker(L). Om te laten zien dat het inderdaad een basis is voor Im(L), moet aangetoond worden dat het stelsel onafhankelijk is en dat het Im(L) opspant. Onafhankelijkheid: Stel c1 L(v1 ) + · · · + cr L(vr ) = 0. Uit de lineariteit volgt voor deze lineaire combinatie dat L(c1 v1 + · · · + cr vr ) = 0 en is het dus een element van de kern van L. Deze is dan te schrijven als lineaire combinatie van de vectoren uit de basis voor de kern: c1 v1 + · · · + cr vr = d1 u1 + · · · + ds us . Dit kan herschreven worden tot d1 u1 + · · · + ds us − c1 v1 − · · · − cr vr = 0. De vectoren uit deze relatie vormen echter een basis voor V en zijn dus onafhankelijk. Alle coëfficiënten moeten daarom nul zijn en er volgt dat c1 = · · · = cr = 0. De vectoren L(v1 ), . . . , L(vr ) zijn blijkbaar onafhankelijk. Opspannen: Kies een w uit Im(L). Dan is w te schrijven als w = L(v). De vector v kunnen we schrijven als lineaire combinatie van de basisvectoren van V : v = a1 u1 + · · · + as us + b1 v1 + · · · + br vr . De afbeelding L toepassen geeft: w = L(v) = a1 L(u1 ) + · · · + as L(us ) + b1 L(v1 ) + · · · + br L(vr ) = b1 L(v1 ) + · · · + br L(vr ). omdat de ui tot de kern van L behoren. Daarmee is w geschreven als lineaire combinatie van de vectoren L(v1 ), . . . , L(vr ). Het komt nogal eens voor dat men geı̈nteresseerd is in vergelijkingen van het type L(x) = b voor een lineaire afbeelding L van een vectorruimte V naar een vectorruimte W . Hierbij is b een vector uit W en wordt gezocht naar alle x ∈ V die op b afgebeeld worden. Een voorbeeld hiervan is de bekende matrixvergelijking Ax = b. STELLING 3.21. Voor een lineaire afbeelding L : V → W tussen vectorruimten V en W en een vector b uit W geldt dat de oplossingsverzameling van de vergelijking L(x) = b gelijk is aan a + Ker(L) = {a + v | v ∈ Ker(L)}. Hierbij is a een vector waarvan het beeld b is, met andere woorden, a is een (vaste) oplossing van de vergelijking. Bewijs: We moeten aantonen dat twee verzamelingen gelijk zijn: de verzameling S van alle x waarvoor L(x) = b en de verzameling a + Ker(L). Neem daartoe eerst x in S, wat betekent dat L(x) = b. Merk op dat L(x − a) = L(x) − L(a) = b − b = 0 zodat x − a een element van Ker(L) is. Maar dan is x ∈ a + Ker(L). Nu andersom: neem een vector x uit a + Ker(L), zeg x = a + v. Dan L(x) = L(a + v) = L(a) + L(v) = b + 0 = b. 3.4. Operaties op lineaire afbeeldingen en inverteerbaarheid 57 Blijkbaar behoort x tot S. Het mooie van bovenstaande stelling is het volgende: in veel situaties is de kern van een afbeelding L relatief snel te vinden. Als dan ook nog één oplossing van de vergelijking L(x) = b bekend is, is meteen ook de volledige oplossing van die vergelijking bekend. Tel die ene oplossing maar op bij de vectoren uit de kern! Voorbeeld 3.22. Beschouw de vectorruimte V = C ∞ (R, R) en de lineaire afbeelding L : V → V met: L(y) = y ′′ − 2y ′ − 3y Dit is een lineaire afbeelding en als we willen oplossen: L(y) = x (dit geeft de differentiaalvergelijking y ′′ − 2y ′ − 3y = x) dan zegt bovenstaande stelling dat de oplossing eruit zal zien als: één echte oplossing + de kern. Bij analyse noemde we dit: een particuliere oplossing plus de homogene oplossing!! 3.4 Operaties op lineaire afbeeldingen en inverteerbaarheid In het algemeen kunnen afbeeldingen L1 : U → V en L2 : V → W , zoals bekend, na elkaar uitgevoerd worden: U u L 1 −→ V 7→ L1 (u) L 2 −→ (W ) 7→ L2 L1 (u) u uit U wordt ( via L ) 1 naar L1 (u) in V gestuurd, die vervolgens via L2 doorgestuurd wordt naar de vector L2 L1 (u) in W . Dit levert een nieuwe afbeelding van U naar W , die de samenstelling of compositie van L1 en L2 wordt genoemd en genoteerd wordt als L2 ◦ L1 (spreek uit: L2 na L1 ). De vraag die nu rijst is of de samenstelling van twee lineaire afbeeldingen weer lineair is. Het antwoord wordt gegeven in de volgende stelling. STELLING 3.23. Als L1 : U → V en L2 : V → W lineaire afbeeldingen zijn tussen vectorruimten over R (of C), dan is ook de compositie L2 ◦ L1 : U → W een lineaire afbeelding. Bewijs: De lineaire afbeelding L2 ◦ L1 is gedefinieërd door (L2 ◦ L1 )(u) = L2 (L1 (u)). Het bewijs van de stelling volgt direct door uitschrijven van de eigenschappen die moeten gelden voor lineaire afbeeldingen. Daarbij maken we gebruik van de lineariteit van L1 en L2 : ( ) (L2 ◦ L1 )(u1 + u2 ) = L2 L1 (u1 + u2 ) ( ) = L2 L1 (u1 ) + L1 (u2 ) ( ) ( ) = L2 L1 (u1 ) + L2 L1 (u2 ) = (L2 ◦ L1 )(u1 ) + (L2 ◦ L1 )(u2 ) en ( ) ( ) ( ) ) (L2 ◦ L1 )(cu) = L2 L1 (cu) = L2 cL1 (u) = cL2 L1 (u) = c(L2 ◦ L1 )(u . In beide gevallen hebben we bij het tweede =-teken de lineariteit van L1 gebruikte en bij het derde =-teken die van L2 . Voorbeeld 3.24. De twee schuif-afbeeldingen L1 en L2 uit voorbeeld we op twee ( 3.7 kunnen ) manieren samenstellen. Het moge duidelijk zijn dat (L1 ◦ L2 )(v) = L1 (L2 (v) = v voor alle 58 Hoofdstuk 3. Lineaire afbeeldingen v ∈ R∞ hetgeen we beknopt kunnen formuleren als L1 ◦L2 = Id (waarbij Id de identieke afbeelding is, gedefinieërd in voorbeeld 3.5). Omgekeerd geldt ( ) (L2 ◦ L11 )(x0 , x1 , . . . ) = L2 L1 (x0 , x1 , . . . ) = L2 (x1 , x2 . . . ) = (0, x1 , x2 . . . ) en dus is L2 ◦ L1 niet de identieke afbeelding. Ga nog na dat beide samenstellingen inderdaad lineaire afbeeldingen zijn. Voorbeeld 3.25. Ook de differentieer-afbeelding D : C 1 ([a, b], R) → C([a, b], R) en de integreerafbeelding I : C([a, b], R) → C 1 ([a, b], R) uit voorbeeld 3.8 kunnen we op twee manieren samenstellen. De compositie D ◦ I = Id, want toepassing van deze compositie op een functie uit C([a, b], R) betekent dat eerst een primitieve bepaald wordt, die daarna gedifferentieerd wordt. Volgens de hoofdstelling van de integraalrekening geeft dit weer de oorspronkelijke functie. Verder: I ◦D = ̸ Id. Neem maar de constante functie f (x) = 3 uit C 1 ([a, b], R). Dan geldt D(f ) = 0, dus ook I(D(f )) = 0 ̸= f . Uit de relatie D ◦ I = Id kunnen Ker(I) en Im(D) nog op een elegante manier bepaald worden (vergelijk met voorbeeld( 3.18): ) als f namelijk element is van Ker(I), dan moet I(f ) = 0 (de nulfunctie!) en dus is D I(f ) = 0. Maar dit laatste is (D ◦ I)(f ) = Id(f ) = f en dus is f = 0. Conclusie de kern van I( bevat ) alleen de nulfunctie. Neem nu een functie g in C([a, b], R). Omdat D ◦ I = Id, volgt g = D I(g) en dus behoort g, als D-beeld van I(g), tot Im(D). Blijkbaar geldt Im(D) = C([a, b], R). Herinner dat we een afbeelding L : U → V inverteerbaar noemen als er een “omkeerafbeelding” bestaat. Dat is een afbeelding T : V → U met de volgende eigenschap: Als L de vector u naar v stuurt, dan stuurt T de vector v naar u en andersom. Anders gezegd: Definitie: Een afbeelding (niet per se lineair!) L : U → V is inverteerbaar als er een afbeelding T : V → U bestaat zodat L ◦ T = IdV (de identieke afbeelding op V ) en T ◦ L = IdU (de identieke afbeelding op U ). In dat geval wordt T een inverse van L genoemd en L een inverse van T . Herinner verder dat een inverteerbare afbeelding L : U → V precies één inverse heeft. Dit noemen we dan de inverse van L, en deze afbeelding wordt dan genoteerd met L−1 : V → U . Merk op dat de inverse afbeelding een vector L(u) terugstuurt naar u. Inverteerbare lineaire afbeeldingen hebben de prettige eigenschap dat hun inverse ook weer lineair is: STELLING 3.26. De inverse van een inverteerbare lineaire afbeelding is ook weer lineair. Bewijs: Neem aan dat L : U → V een inverteerbare lineaire afbeelding tussen vectorruimten is en laat T : V → U de inverse zijn. We laten zien dat ook T een lineaire afbeelding is. Met de lineariteit van L volgt ( ) ( ) ( ) L T (u) + T (v) = L T (u) + L T (v) = u + v 3.4. Operaties op lineaire afbeeldingen en inverteerbaarheid en 59 ( ) ( ) L cT (u) = cL T (u) = cu. Pas hier T op toe en gebruik dat T ◦ L = IdU . Dan volgt direct: T (u) + T (v) = T (u + v) cT (u) = T (cu), en T is dus lineair. Hoe is na te gaan of een gegeven afbeelding T : U → V inverteerbaar is? Als U en V oneindig dimensionaal zijn en zit er waarschijnlijk niets anders op dan terug te vallen op de volgende stelling. Een afbeelding is inverteerbaar als en slechts als deze bijectief (dat wil zeggen injectief én surjectief) is. (Herinner: een afbeelding L : U → V is injectief (of één-één) als u ̸= v impliceert dat ook L(u) ̸= L(v) (met andere woorden: verschillende originelen hebben verschillende beelden). De afbeelding is surjectief als het bereik (beeld) heel V is, dus als Im(L) = V .) STELLING 3.27. Een lineaire afbeelding L : V → W is injectief als en slechts als Ker(L) = {0}. Bewijs: Als L injectief is, dan moet Ker(L) = {0}. Zo niet, dan zouden twee verschillende vectoren uit Ker(L) op 0 afgebeeld worden. Omgekeerd, stel dat Ker(L) = {0}. Als zou gelden: L(u) = L(v), dan L(u−v) = L(u)−L(v) = 0. Dus u − v ∈ Ker(L), en daarom bij aanname u − v = 0, d.w.z. u = v. Voorbeeld 3.28. Ondanks het feit dat de differentieer-afbeelding D en de integreer-afbeelding I uit voorbeeld 3.8 de eigenschap hebben dat D ◦ I = Id (vb 3.25), zijn ze niet inverteerbaar: D is niet injectief, kijk maar naar de kern (zie vb 3.18 of 3.25) en I is niet surjectief, kijk maar naar het beeld (zie de opgaven). Iets dergelijks geldt ook voor de schuifafbeeldingen op R∞ . Als U en V eindig dimensionaal zijn zullen we een simpelere methode ontwikkelen om in te zien if T : U → V inverteerbaar is. We zien nu: Voorbeeld 3.29. Zij V een vectorruimte met basis B = (v1 , . . . , vn ). De coördinatisering v 7→ [v]B is inverteerbaar. We kunnen namelijk direct zijn inverse opschrijven: c1 .. . 7→ c1 v1 + · · · + cn vn . cn Definitie: We zeggen dat de vectorruimten U en V , beide over R (of beide over C) isomorf zijn als er een inverteerbare lineaire afbeelding L : U → V bestaat. Zo’n afbeelding wordt een isomorfisme genoemd. 60 Hoofdstuk 3. Lineaire afbeeldingen Opmerking: Merk op dat in de situatie van de definitie ook de inverse van L een isomorfisme is en dat V en U (verwisselde volgorde) dan ook isomorf zijn. Isomorfe vectorruimten zijn qua vectorruimte-structuur hetzelfde. Eigenschappen die in de ene ruimte gelden worden via het isomorfisme overgeheveld naar de andere. Zo geldt bijvoorbeeld dat een basis voor U door het isomorfisme overgaat naar een basis voor V Het gevolg is dat berekeningen binnen U eventueel gedaan kunnen worden in V door eerst alles “naar V over te hevelen”. Vergeet in zo’n situatie niet het eindantwoord weer terug te sturen naar U . Uit voorbeeld 3.29 volgt dat elke eindig dimensionale vectorruimte V over R (of C) door middel van de coördinatisering isomorf is met Rn (of Cn ) waarbij n de dimensie van V is. Wat vectorruimteeigenschappen betreft, zijn ieder tweetal n-dimensionale vectorruimte over R (of C) aan elkaar gelijk. Het algemene begrip vectorruimte lijkt voor eindig-dimensionale vectorruimten dus niets nieuws opgeleverd te hebben in vergelijking met de Rn en Cn die we al hadden! Een voorbeeld uit de differentiaal vergelijkingen. Van het college differentiaalvergelijkingen zijn we bekend met de stelling: STELLING 3.30. Beschouw de lineaire homogene differentiaal vergelijking y (n) + cn−1 (x)y (n−1) + · · · + c1 (x)y ′ + c0 (x)y = 0 met beginvoorwaarden: y (n−1) (x0 ) = rn−1 , . . . , y ′ (x0 ) = r1 , y(x0 ) = r0 , waarbij c0 (x), . . . , cn−1 (x) continue functies zijn op het interval [a, b] en x0 ∈ [a, b]. Dan bestaat er een unieke oplossing y ∈ C n ([a, b], R) van dit beginwaardeprobleem. Met behulp van deze stelling kunnen we nu bewijzen. STELLING 3.31. Beschouw de lineaire homogene differentiaal vergelijking y (n) + cn−1 (x)y (n−1) + · · · + c1 (x)y ′ + c0 (x)y = 0 waarbij c0 (x), . . . , cn−1 (x) continue functies zijn op het interval [a, b]. Dan is de oplossingsverzameling O een n-dimensionale deelruimte van C n ([a, b], R). Bewijs: Dat O een lineaire deelruimte is, volgt rechtstreeks en is een opgave. Maar waarom is deze n-dimensionaal? Daartoe fixeren we een punt x0 ∈ [a, b] en beschouwen we de afbeelding gedefinieerd door: L(y) = y(x0 ) y ′ (x0 ) .. . L : O → Rn . De afbeelding is lineair (ga na). Uit Stelling 3.30 volgt y (n−1) (x0 ) dat de afbeelding surjectief (omdat er een oplossing is) en injectief (vanwege de uniciteit van een oplossing) en daarom zal O isomorf met Rn zijn en daarom dimensie n hebben. Dus inderdaad, er volgt dat er n lineair onafhankelijke oplossingen zullen bestaan, oplossingen die bij het college differentiaal vergelijkingen gezocht werden. 3.5. Matrixrepresentaties van lineaire afbeeldingen 61 Tenslotte kunnen we y (n) + cn−1 (x)y (n−1) + · · · + c1 (x)y ′ + c0 (x)y beschouwen als een lineaire afbeelding L : C n ([a, b], R) → C([a, b], R) via: L(y) = y (n) + cn−1 (x)y (n−1) + · · · + c1 (x)y ′ + c0 (x)y Merk op dat de Kern van deze afbeelding eigenlijk de algemene oplossing is van de bijbehorende homogene vergelijking y (n) + cn−1 (x)y (n−1) + · · · + c1 (x)y ′ + c0 (x)y = 0! Stelling 3.21 levert ons nu dat de oplossing van de differentiaalvergelijking y (n) + cn−1 (x)y (n−1) + · · · + c1 (x)y ′ + c0 (x)y = p(x) (met p(x) continu) gelijk is aan een particuliere oplossing + de homogene oplossing 3.5 Matrixrepresentaties van lineaire afbeeldingen We weten dat iedere lineaire afbeelding T : Rn → Rm bepaald wordt door een matrix, de standaardmatrix [T ] via T (x = [T ]x. Er geldt: [T ] = [T (e1 ) · · · T (en )]. Er is al eerder gezegd dat lineaire afbeeldingen tussen willekeurige vectorruimtes niet op deze manier door een matrix bepaald kunnen worden. Tenslotte, wat is Af als f ∈ F([0, 1], R) en A een matrix? Echter, als B een basis is van de vectorruimte, dan bestaat A[v]B wel. Zouden die coördinaten gebruikt kunnen worden om een matrix met een lineaire algebra te associeren? We zullen zien dat, na keuze van bases in domein en codomein, een lineaire afbeelding tussen eindig dimensionale vectorruimten met behulp van coördinatiseringen altijd gezien kan worden als een matrixtransformatie. STELLING 3.32. Als L : U → V een lineaire afbeelding is tussen de eindig dimensionale vectorruimten U en V (over L) en als B = (u1 . . . un ) een basis voor U is en C = (v1 . . . vm ) een basis voor V , dan geldt voor elke u uit U dat de coördinatisering van het beeld L(u) berekend kan worden via een matrixvermenigvuldiging: [L(u)]C = A[u]B Hierbij is A de m × n matrix waarvan de ie kolom gelijk is aan de coördinatisering van het beeld van de ie basisvector uit B ten opzichte van de basis C, dus [ ] A = [L(u1 )]C [L(u2 )]C · · · [L(un )]C . Door de eigenschap [L(u)]C = A[u]B wordt de matrix A volledig bepaald en A wordt genoteerd als: [L] C←B en wordt de (transformatie)matrix van L ten opzichte van de bases B en (naar) C genoemd. Bewijs: Neem een vector u ∈ U . Omdat B een basis voor U is, is u op precies één manier te schrijven als lineaire combinatie van u1 ,. . . ,un , zeg u = c1 u1 + c2 u2 + · · · + cn un . Uit de lineariteit van L volgt dan L(u) = c1 L(u1 ) + c2 L(u2 ) + · · · + cn L(un ). 62 Hoofdstuk 3. Lineaire afbeeldingen Dit is een vector uit V die we dus kunnen coördinatiseren ten opzichte van de basis C. We krijgen dan [L(u)]C = [c1 L(u1 ) + c2 L(u2 ) + · · · + cn L(un )]C = c1 [L(u1 )]C + c2 [L(u2 )]C + · · · + cn [L(un )]C = [ [L(u1 )]C [L(u2 )]C ··· [L(un )]C ] c1 c2 .. . = A[u]B . cn Bij het tweede =-teken hebben we de lineariteit van de coördinaatafbeelding gebruikt en bij het derde =-teken de definitie van de matrix-vector vermenigvuldiging. Tenslotte, zij D een matrix met de eigenschap: [L(u)]C = D[u]B , voor alle u ∈ U . We tonen aan dat D = [L] . Merk eerst op dat D een m × n matrix moet zijn. Als we voor u de vector ui ∈ B C←B invullen, dan lezen we: [L(ui )]C = D[ui ]B , voor i = 1 . . . n. Omdat [ui ]B = ei en omdat Dei = ide kolom van D volgt: de ide kolom van D is [L(ui )]C , voor i = 1 . . . n en dus D = [L] . C←B Opmerking: We moeten kunnen inzien dat de standaardmatrix [T ] van een lineaire afbeelding T : Rn → Rm eigenlijk een transformatiematrix van type [T ] is. Maar wat zijn de bases B en C C←B dan? Merk op: als En = {e1 , . . . , en } de standaardbasis is van Rn dan geldt: x = [x]En . En dus vertaald de eigenschap: T (x) = [T ]x naar: [T (x)]Em = [T ][x]En Kortom: [T ] = [T ] Em ←En De standaardmatrix is de transformatiematrix t.o.v. de standaardbases! Voordat we een voorbeeld geven nog het volgende: de stelling zegt eigenlijk twee dingen: ten eerste hoe de matrix [L] gemaakt moet worden en ten tweede hoe hij gebruikt moet worden! C←B Voorbeeld 3.33. Zij L : Pol2 (C) → Pol3 (C) de afbeelding gedefinieërd door ∫ x ′ L(p)(x) = xp (x) + p(t) dt. 1 Ga zelf na dat L goed gedefiniëerd en lineair is. Voordat we de matrix van L ten opzichte van de standaardbases gaan bepalen, berekenen we eerst even het beeld van het polynoom p gegeven door p(x) = 1 − 2ix + 3x2 . Dat is (volgens het voorschrift) ∫ x L(p)(x) = x(−2i + 6x) + (1 − 2it + 3t2 ) dt = (−2 + i) + (1 − 2i)x + (6 − i)x2 + x3 . 1 Laat nu B = (1, x, x2 ) de standaardbasis voor Pol2 (C) zijn en C = (1, x, x2 , x3 ) de standaardbasis voor Pol3 (C). De matrix [L] is volgens stelling 3.32 C←B [L] = C←B [ [L(1)]C [L(x)]C [L(x2 )]C ] . 3.5. Matrixrepresentaties van lineaire afbeeldingen 63 Eerst moet kennelijk de functiewaarden van de basisvectoren 1, x en x2 berekend worden: L(1) = −1 + x 1 1 L(x) = − + x + x2 2 2 1 1 2 2 L(x ) = − + 2x + x3 3 3 na het bepalen van de coördinaten van deze beelden ten opzichte van de basis C vinden we −1 −1/2 −1/3 1 0 . [L] = 1 0 1/2 2 C←B 0 0 1/3 Dat deze matrix gebruikt kan worden voor het berekenen van L-beelden illustreren we door het net berekende beeld van p(x) = 1 − 2ix + 3x2 nog een keer te bepalen, nu met [L]C←B . Hiervoor 1 zijn de coördinaten van p ten opzichte van B nodig en die zijn −2i . Met de formule voor de 3 bepaling van de C-coördinaten van het L-beeld uit stelling 3.32 volgt nu −1 −1/2 −1/3 −2 + i 1 1 1 0 −2i = 1 − 2i . [L(p)]C = [L] [p]B = 0 1/2 2 6 − i C←B 3 0 0 1/3 1 Dit zijn dus de coördinaten van L(p) ten opzichte van de basis C. Daaruit kan geconcludeerd worden dat L(p)(x) = (−2 + i) + (1 − 2i)x + (6 − i)x2 + x3 . Dit komt, zoals te verwachten, overeen met het eerder gevonden antwoord. Het voordeel van deze laatste berekening moge duidelijk zijn! Opmerking: De matrix van een lineaire afbeelding L : U → V hangt natuurlijk af van de bases die voor U en V gekozen worden. Net als bij lineaire afbeeldingen van Rn naar Rm (of van Cn naar Cm ) geldt ook nu dat de matrix van de compositie van lineaire afbeeldingen het product van de matrices van de afzonderlijke afbeeldingen is: STELLING 3.34. Als L1 : U → V en L2 : V → W lineaire afbeeldingen tussen eindig dimensionale vectorruimten over R (of C) zijn en als B, C en D bases zijn voor respectievelijk U , V en W , dan geldt [L2 ◦ L1 ] = [L2 ] [L1 ] . D←B D←C C←B Bewijs: Beschouw de formules [L1 (u)]C = [L1 ] [u]B , voor alle u ∈ U en [L2 (v)]D = [L2 ] [v]C , C←B D←C voor alle v ∈ V . Omdat L1 (u) een element van V is, mag in de laatste formule v vervangen worden door L1 (u). Dit geeft aanleiding tot ( ) [(L2 ◦ L1 )(u)]D = [L2 L1 (u) ]D = [L2 ] [L1 (u)]C = [L2 ] [L1 ] [u]B . D←C D←C C←B 64 Hoofdstuk 3. Lineaire afbeeldingen Anderzijds geldt [(L2 ◦ L1 )(u)]D = [L2 ◦ L1 ] [u]B . D←B Omdat de matrix [L2 ◦ L1 ] uniek is en [L2 ] [L1 ] “hetzelfde doet”, moet nu gelden dat deze twee D←B D←C C←B matrices gelijk zijn. Hiermee is de stelling bewezen. We kunnen nu de inverteerbaarheid van de lineaire afbeelding koppelen aan de inverteerbaarheid van de bijbehorende matrixrepresentatie van de afbeelding. STELLING 3.35. Als L : U → V een lineaire afbeelding is tussen eindig dimensionale vectorruimten U en V over R (of over C) en als B = (u1 . . . un ) een basis voor U is en C = (v1 . . . vm ) een basis voor V , dan geldt: 1. Als u ∈ U dan: u ∈ Ker(L) ⇔ [u]B ∈ Nul( [L] ). C←B 2. Als v ∈ V dan: v ∈ Im(L) ⇔ [v]C ∈ Col( [L] ). C←B 3. Merk op dat de identiteit uit Stelling 3.20: dim(U ) = dim(Ker(L)) + dim(Im(L) nu volgt uit de identiteit: als A een m × n matrix, dan n = dim(Col(A)) + dim(Nul(A)). Bewijs: 1. u ∈ Ker(L) ⇔ L(u) = 0 ⇔ [L(u)]C = [0]C = 0 ⇔ [L] [u]B = 0 ⇔ [u]B ∈ Nul( [L] ). C←B C←B 2. v ∈ Im(L) ⇔ er bestaat u ∈ U zo L(u) = v ⇔ er bestaat u ∈ U zo [L(u)]C = [v]C ⇔ er bestaat u ∈ U zo [L] [u]B = [v]C ⇔ [v]C ∈ Col( [L] ). C←B C←B 3. Als dim(U ) = n en dim(V ) = m dan is [L] een m × n matrix. C←B Volgens 1. is de coördinatisering een isomorfisme tussen Ker(L) en Nul( [L] ) en dus: C←B dim(Ker(L)) = dim(Nul( [L] )). C←B Volgens 2. is de coördinatisering een isomorfisme tussen Im(L) en Col( [L] ) en dus: C←B dim(Im(L)) = dim(Col( [L] )). C←B En dus volgt de identiteit n = dim(U ) = dim(Ker(L))+dim(Im(L) inderdaad uit de identiteit n = dim(Nul( [L] )) + dim(Col( [L] )). C←B C←B 3.5. Matrixrepresentaties van lineaire afbeeldingen 65 STELLING 3.36. Als L : U → V een lineaire afbeelding is tussen eindig dimensionale vectorruimten U en V over R (of over C) en als B = (u1 . . . un ) een basis voor U is en C = (v1 . . . vm ) een basis voor V , dan geldt: De afbeelding L : U → V is inverteerbaar (als afbeelding) als en slechts als de matrix [L] C←B inverteerbaar is (als matrix). Bovendien geldt: als [L] inverteerbaar is dan: C←B [L−1 ] = )−1 ( [L] B←C C←B Bewijs: Stel dat de afbeelding L : U → V inverteerbaar is. Dan bestaat T = L−1 : V → U zodat T ◦ L = IdV en L ◦ T = IdW . (Merk op dat [IdV ] = I en [IdW ] = I. Daarom geldt: B←B C←C I = [IdV ] = [T ◦ L] = [T ] [L] en I = [IdW ] = [L ◦ T ] = [L] [T ] . Er volgt dat de matrix [L] B←B B←C C←B C←C B←C C←B B←B C←C ( )C←B −1 vierkant is, inverteerbaar is en dat [T ] = [L−1 ] = [L] . B←C B←C C←B Omgekeerd, stel dat de matrix [L] inverteerbaar is. We definieëren T : V → U via de coordinaten C←B door: ( [T (v)]B = )−1 [L] C←B [v]C . We claimen dat T een lineaire afbeelding is. Om in te zien dat T (v1 + v2 ) = T (v1 ) + T (v2 ), is het voldoende om in te zien dat [T (v1 + v2 )]B = [T (v1 ) + T (v2 )]B . Omdat [T (v1 ) + T (v2 )]B = [T (v1 )]B + [T (v2 )]B moeten we laten zien: [T (v1 + v2 )]B = [T (v1 )]B + [T (v2 )]B . ( )−1 ( )−1 ( )−1 Welnu: [T (v1 + v2 )]B = [L] [v1 + v2 ]C = [L] [v1 ]C + [L] [v2 ]C = [T (v1 )]B + C←B C←B C←B [T (v2 )]B . Evenzo wordt de identiteit T (cv) = cT (v) aangetoond. ( )−1 [L] Tenslotte, omdat [T ] = zal gelden: T ◦ L = IdV en L ◦ T = IdW . Daarom zal L B←C C←B inverteerbaar zijn met inverse L−1 = T . Voorbeeld 3.37. Beschouw de functieruimte C(R, R) en de deelruimte V opgespannen door de drie functies e3x , xe3x , x2 e3x , i.e. V = Span{e3x , xe3x , x2 e3x }. Beschouw de lineaire afbeelding D : V → V gedefinieerd door: D(p)(x) = p′ (x) (Merk op: dit is inderdaad een afbeelding naar V , want de afgeleide van de functies e3x , xe3x , x2 e3x zitten in V en de rekenregels voor afgeleide geeft dat dit inderdaad een lineaire afbeelding is.) Vragen: 1. Laat zien dat B = {e3x , xe3x , x2 e3x } een basis voor V is. 2. Bepaal [D] . B←B 3. Bepaal een expliciete formule voor de afbeelding D. (Hiermee bedoelen we: als p ∈ V met x1 [p]B = x2 dan [D(p)]B = . . . .) Bepaal hiermee de afgeleide van p(x) = e3x +xe3x +x2 e3x . x3 66 Hoofdstuk 3. Lineaire afbeeldingen 4. Is de afbeelding D : V → V inverteerbaar? Zo ja, bepaal een expliciete formule voor de inverse afbeelding. 5. Bepaal een primitieve van p(x) = e3x + xe3x + x2 e3x in V . Antwoorden 1. Per definitie van V spant B de ruimte V op en onafhankelijkheid van de drie functies e3x , xe3x , x2 e3x in B volgt bijvoorbeeld via de Wronskiaan (ga na). Dan is B dus een basis. 3 2. Omdat D(e3x ) = 3e3x volgt [D(e3x )]B = 0 . 0 1 Omdat D(xe3x ) = e3x + 3xe3x volgt [D(xe3x )]B = 3 . 0 0 Omdat D(x2 e3x ) = 2xe3x + 3x2 e3x volgt [D(x2 e3x )]B = 2 . 3 En dus: 3 1 0 [D] = [ [D(e3x )]B [D(xe3x )]B [D(x2 e3x )]B ] = 0 3 2 B←B 0 0 3 3 1 0 x1 3x1 + x2 3. [D(p)]B = [D] [p]B = 0 3 2 x2 = 3x2 + 2x3 . De afgeleide van de gegeven B←B 0 0 3 x3 3x3 4 1 p ∈ V is D(p). Omdat [p]B = 1 volgt [D(p)]B = 5 en dus is de afgeleide: 3 1 3x 3x 2 3x 4e + 5xe + 3x e . 4. Volgens stelling 3.36 is de afbeelding D : V → V inverteerbaar (als afbeelding) als en slechts als de matrix [D] inverteerbaar is (als matrix). Dit laatste is het geval, want det( [D] ) = 33 ̸= 0. B←B B←B ( )−1 Omdat [D−1 ] = [D] volgt: B←B B←B −1 0 1/3 −1/9 2/27 2 = 0 1/3 −2/9 (ga na). 3 0 0 1/3 x1 Voor de expliciete formule van de inverse krijgen we: als p ∈ V met [p]B = x2 dan x3 1 1 2 1/3 −1/9 2/27 x1 3 x1 − 9 x2 + 27 x3 2 1 . 0 1/3 −2/9 x2 = [D−1 (p)]B = [D−1 ][p]B = 3 x2 − 9 x3 B←B 1 0 0 1/3 x3 x 3 3 3 [D−1 ] = 0 B←B 0 1 3 0 5. Merk op: als p ∈ V dan is q = D−1 (p) ∈ V is kennelijk een functie in V metp =D(q) = q ′ , 1 d.w.z. q is een primitieve van V . Omdat (als p(x) = e3x + xe3x + x2 e3x ) [p]B = 1 geldt dat 1 de B–coördinaten van een primitieve van p zijn: 8 ∫ 1/3 −1/9 2/27 1 27 0 1/3 −2/9 1 = 91 . [ e3x + xe3x + x2 e3x dx]B = 1 0 0 1/3 1 3 3.5. Matrixrepresentaties van lineaire afbeeldingen ∫ en dus: e3x + xe3x + x2 e3x dx = 67 12 3x 1 3x 1 2 3x e + xe + x e . 27 9 3 We laten vervolgens zien dat de overgangsmatrix P uit college 8 eigenlijk een matrixrepresentatie B←C van een afbeelding is. STELLING 3.38. Laat V een vectorruimte zijn met basis B voor V en met een andere basis C voor V . Beschouw de identeit op V , d.w.z. de lineaire afbeelding Id : V → V met Id(v) = v, voor alle v ∈ V . Dan geldt: [Id] = P . C←B C←B Bewijs: Dit moet in ieder geval duidelijk zijn uit de formules van beide matrices. Als B = {b1 , . . . , bk } dan: P = [[b1 ]C . . . [bk ]C ] C←B en [Id] = [[Id(b1 )]C . . . [Id(bk )]C ]. C←B Omdat Id(bi ) = b1 volgt de gelijkheid van de twee matrices. Tenslotte presenteren we de relatie tussen matrixrepresentaties van dezelfde afbeelding t.o.v. verschillende bases. STELLING 3.39. Als L : U → V een lineaire afbeelding tussen eindig dimensionale vectorruimten over L is, en als B1 een basis voor U en C1 een basis voor V is, dan is [L] C1←B1 de matrix van L ten opzichte van deze bases. Als we voor U en voor V een andere basis kiezen, zeg B2 en C2 , dan geldt voor de matrixrepresentatie van L ten opzichte van deze nieuwe bases dat [L] = P [L] P . C2←C1 C1←B1 B1←B2 C2←B2 Bewijs: Een formele manier om dit te zien is als samenvoeging van stelling 3.38 en stelling 3.34. Omdat L = Id ◦L ◦ Id volgt via de tweede en dan de eerste stelling dat [L] = [Id] C2←B2 [L] [Id] = C2 ←C1 C1←B1 B1 ←B2 P [L] P . C2←C1 C1←B1 B1←B2 Een andere manier wordt verkregen door na te gaan dat de matrix D = P [L] P voldoet C2←C1 C1←B1B1←B2 aan de eigenschap [L(u)]C2 = D[u]B2 , de eigenschap die P [L] P C2←C1 C1←B1B1←B2 [u]B2 = P [L] ( P [L] volledig karakteriseert. Inderdaad: C2←B2 C2←C1 C1←B1 B1←B2 [u]B2 ) = P [L] [u]B1 = C2←C1 C1←B1 68 Hoofdstuk 3. Lineaire afbeeldingen P ( [L] [u]B1 ) = C2←C1 C1←B1 P C2←C1 [L(u)]C1 = [L(u)]C2 . Voorbeeld 3.40. Beschouw R3 met basis B = {b1 , b2 , b3 } waarbij 2 1 1 b1 = 1 , b2 = 2 en b3 = 1 . 1 1 2 Vraag: Bepaal de standaardmatrix van de lineaire afbeelding L : R3 → R3 met de eigenschap L(b1 ) = b1 + b2 , L(b2 ) = b1 + b2 + b3 en L(b3 ) = b1 − b2 . Antwoord: Laat E = {e1 , e2 , e3 } de standaardbasis van R3 zijn. De vraag is [L] = [L] te bepaE←E len. In eerste instantie denk je wellicht dat hiervoor L(ei ) berekend moet worden en rechtstreeks uit de gegevens is dat heel wat rekenwerk. Veel slimmer is je te realiseren dat eigenlijk [L] eigenlijk gegeven is, want er staat [L(b1 )]B = B←B 1 1 1 1 , [L(b2 )]B = 1 en [L(b3 )]B = −1 en dus: 0 1 0 1 1 1 [L] = 1 1 −1 B←B 0 1 0 2 1 1 Merk op dat P = 1 2 1 en daarom: E←B 1 1 2 1 2 −1 [L] = [L] = P [L] P = P [L] ( P )−1 = 3/2 5/2 −5/2 (ga na). E←B B←BB←E E←B B←B E←B E←E 1/2 5/2 −3/2 3.6 Lineaire operatoren, eigenvectoren en eigenwaarden Definitie: Een lineaire afbeelding L met hetzelfde domein als codomein wordt een lineaire operator genoemd. Dus L : V → V is een lineaire operator. Voor lineaire operatoren kunnen we het begrip eigenvector en eigenwaarden definiëren. Definitie: Een vector v ̸= 0 uit een vectorruimte V over L heet een eigenvector van de lineaire operator L : V → V als er een scalar λ in L bestaat zo dat L(v) = λv. De scalar λ ∈ L wordt de bijbehorende eigenwaarde genoemd. 3.6. Lineaire operatoren, eigenvectoren en eigenwaarden 69 Opmerking: Merk op dat de eigenwaarden en eigenvectoren van een n×n matrix A ook bestaan. Zijn dat adere objecten? Eigenlijk niet. Als A een reële n × n matrix dan zijn de eigenvectoren en eigenwaarden van de matrix A zoals gedefinieerd in Lineare Algebra deel 1, precies de eigenwaarden en eigenvectoren van de operator LA : Rn → Rn gedefinieerd door LA (v) = Av (de operator die de matrix A als standaardmatrix heeft). Als A een complexe n × n matrix dan zijn de eigenvectoren en eigenwaarden van de matrix A, zoals gedefinieerd in college 1, precies de eigenwaarden en eigenvectoren van de operator LA : Cn → Cn gedefinieerd door LA (v) = Av. De complexe eigenwaarden en eigenvectoren van een reële n × n matrix A, zoals gedefinieerd in college 1, zijn precies de eigenwaarden en eigenvectoren van de operator LA : Cn → Cn gedefinieerd door LA (v) = Av (een operator op Cn die een reële matrix als standaardmatrix heeft). Opmerking: Merk op dat volgens onze definitie een reële operator L : Rn → Rn alleen reële eigenwaarden en eigenvectoren kan hebben. Eigenwaarden en eigenvectoren spelen in zeer vele toepassingen een centrale rol. U zult dit tegenkomen bij bij het oplossen van stelsels differentiaalvergelijkingen, maar ook bij een vak als kwantummechanica. Een andere context is het volgende: het komt vaak voor dat een vector een bepaalde toestand voorstelt, bijvoorbeeld als de kentallen van een vector in Rn de aantallen aanhangers voorstellen van de verschillende politieke partijen, of, in de kwantummechanica, waar een toestand wordt aangegeven door een (vector)functie Ψ(x, t) (wat betekent dat ∥Ψ(x, t)∥2 de kans is dat een deeltje zich op tijdstip t in positie x bevindt). Een lineaire operator L representeert dan een toestandsverandering (bijvoorbeeld een bepaalde gebeurtenis die de aanhangers van een partij naar een andere partij doet overlopen, of in het kwantummechanische voorbeeld de impuls, waarbij de operator gelijk is d d aan −i dx en Ψ(x, t) dus veranderd wordt in −i dx Ψ(x, t)). Men kan dan geı̈nteresseerd zijn in een stabiele toestand v, waarin de operator geen effect heeft, dus waarvoor L(v) = v, d.w.z. v is een eigenvector bij de eigenwaarde λ = 1. 1 . Voorbeeld 3.41. Beschouw de operator L : Pol(R, R) → Pol(R, R) die gedefinieerd is door L(p)(x) = x dp = xp′ (x). dx Het is niet al te moeilijk in te zien dat alle polynomen van de vorm p(x) = xk eigenvectoren zijn van deze operator L, en wel bij de eigenwaarde k. Er geldt immers dat: L(p)(x) = x k xk−1 = k xk = k (p)(x). Inderdaad, L(p) = k (p) en dus is p een eigenvector van de operator L bij de eigenwaarde k. De eerste les uit dit voorbeeld is: nagaan of een gegeven vector een eigenvector is, is in het algemeen vrij eenvoudig. Hoe op het idee te komen dat p(x) = xk wel eens een eigenvector zou kunnen zijn is natuurlijk een tweede. Deze vraag is natuurlijk een stuk lastiger en we zullen dit beantwoorden via de vraag: “zijn de vectoren p(x) = xk resp. de getallen k = 0, 1, 2, . . ., alle eigenvectoren, resp alle eigenwaarden, van deze opertor”? Stel dat p een polynoom is bij de eigenwaarde λ. Dan: L(p) = λ (p), dus L(p)(x) = λ (p)(x) en dus xp′ (x) = λ p(x). We herkennen dit als een separabele differentiaalvergelijking, en hiermee kunnen we niet alleen de polynomen (wat de vraag is) maar zels alle functies y(x) bepalen met xy ′ (x) = λ y(x). 1 De termen eigenvector, eigenwaarde en eigenfunctie zijn afkomstig uit het Duits en zijn overgenomen uit artikelen over kwantummechanica van omstreeks 1920. 70 Hoofdstuk 3. Lineaire afbeeldingen y ′ (x) λ Aldus: xy (x) = λ y(x) ⇒ = ⇒ y(x) x dus: ′ ∫ 1 dy = y ∫ λ dx ⇒ ln |y| = λ ln |x| + C ′ = ln |Cxλ | en x y(x) = Cxλ . Conclusie: de differentiaalvergelijking heeft veel meer oplossingen (bijvoorbeeld y(x) = x4/3 ), maar de polynoomoplossingen van de differentiaalvergelijking, de eigenvectoren van L, zijn precies de polynomen van de vorm p(x) = Cxk . (Dus ëssentieel”zijn p(x) = xk precies de eigenwaarden) en k = 0, 1, 2, . . . zijn precies de eigenwaarden. Voor het volgende voorbeeld introduceren we de vectorruimte L[[X]], de verzameling van alle “formele machtreeksen” van de vorm ∞ ∑ ak X k k=0 in de formele variabele X met ak ∈ L. We noemen dit een formele machtreeks omdat we de machtreeks niet als functie zullen beschouwen (dus een vraag over het convergentiegebied zullen we niet stellen) maar puur als een formele ∞ ∞ ∑ ∑ oneindige sommatie. We zeggen wel: twee machtreeksen ak X k en bk X k zijn gelijk als k=0 ak = bk , voor k = 0, . . . , ∞. Met de operaties: • ∞ ∑ ak X k + k=0 • c ∞ ∑ k=0 ∞ ∑ bk X k = k=0 ak X k = ∞ ∑ ∞ ∑ k=0 (ak + bk )X k , k=0 (cak )X k k=0 maken we L[[X]] inderdaad tot een vectorruimte over L. Voorbeeld 3.42. Om alle eigenwaarden en eigenvectoren van de differentiatie operator D : L[[X]] → L[[X]], die gedefinieerd is door D( ∞ ∑ k=0 ak X k ) = ∞ ∑ kak X k−1 = k=1 ∞ ∑ (k + 1)ak+1 X k k=0 ∑∞ op te zoeken, stellen we dat de niet-nulreeks k=0 ak X k een eigenvector bij eigenwaarde λ is. Dat betekent dat er geldt ∞ ∞ ∞ ∑ ∑ ∑ k k (k + 1)ak+1 X = λ ak X = λak X k . k=0 k=0 k=0 Hieruit volgt dat de coëfficiënten voor k ≥ 0 moeten voldoen aan: (k + 1)ak+1 = λak . We herschreven dit tot: ak+1 = λ ak . k+1 2 3 λ λ Hier staat dus dat als a1 = λ1 a0 , dat dan: a2 = λ2 a1 = 2·1 a0 , a3 = λ3 a2 = 3·2·1 a0 , enzovoorts. Bij gegeven a0 liggen dus alle coëfficiënten van de eigenvector–machtreeks bij λ vast, er geldt namelijk dat λk ak = a0 . k! 3.6. Lineaire operatoren, eigenvectoren en eigenwaarden 71 Voor elke a0 ̸= 0 uit L is de reeks ∞ ∑ ∞ a0 k=0 ∑ λk λk k X = a0 Xk. k! k! k=0 dus een eigenvector van D bij eigenwaarde λ. De conclusie is dat elke λ ∈ L een eigenwaarde van D is en dat de bijbehorende eigenvectoren de ∞ ∑ λk k X zijn, op de nul–machtreeks na. scalaire veelvouden van de machtreeks k! k=0 Opmerking: We zouden bovenstaande operator ook kunnen bekijken als een operator D : Pol(R, R) → Pol(R, R) via D(p)(x) = p′ (x). Willen we eigenwaarden en eigenvectoren bekijken dan leidt dit tot de differentiaalvergelijking: y ′ = λy. Deze heeft geen polynoom als oplossing, dus de operator D : Pol(R, R) → Pol(R, R) heeft geen eigenwaarden/eigenvectoren. De oplossing van de differentiaalvergelijking zijn welbekend, y(x) = C eλ x . Merk op dat de machtreeksontwikkeling van deze functies wordt: y(x) = C ∞ ∑ (λ x)k k=0 k! =C ∞ ∑ λk k=0 k! xk . Zie de overeenkomst met de formele machtreeks gevonden in het vorige voorbeeld. Vorige voorbeelden wekken de suggestie dat de verzameling van eigenvectoren bij gelijke eigenwaarde een deelruimte is als de nulvector toegevoegd wordt. Dat is ook zo, vandaar de volgende definitie. Definitie: Als λ een eigenwaarde is van een operator L op een vectorruimte V over L, dan heet de verzameling Eλ , die bestaat uit alle vectoren v waarvoor L(v) = λv de eigenruimte van L bij de eigenwaarde λ. Merk op dat de eigenruimte Eλ bij een eigenwaarde λ uit de bijbehorende eigenvectoren én de nulvector (die geen eigenvector is!) bestaat. Verder geldt dat een vector v tot Eλ behoort als en slechts als L(v) = λv. Dit kan herschreven worden tot L(v) − λv = 0. Merk op dat L(v) − λv het beeld is van v onder de operator L − λ Id. Blijkbaar behoort v tot Eλ als en slechts als (L − λ Id)(v) = 0, wat wil zeggen dat Eλ = Ker(L − λ Id). (3.1) Hieruit volgt dat de scalar λ een eigenwaarde is zodra de kern van de operator L − λ Id uit meer dan alleen de nulvector bestaat én er volgt dat eigenruimten van een operator op een vectorruimte V deelruimten van V zijn. Dat betekent dat elke lineaire combinatie van eigenvectoren van een operator L bij dezelfde eigenwaarde ook weer een eigenvector bij die eigenwaarde is (tenzij het de nulvector is). We formuleren dit alles in een stelling: 72 Hoofdstuk 3. Lineaire afbeeldingen STELLING 3.43. De eigenruimte Eλ bij een eigenwaarde λ van een lineaire operator L op een vectorruimte V is de kern van de operator L − λ Id en is dus een deelruimte van V . Deze deelruimte bevat precies de nulvector van V én alle eigenvectoren met eigenwaarde λ. Er geldt blijkbaar dat elke lineaire combinatie van eigenvectoren bij eigenwaarde λ ook weer een eigenvector bij eigenwaarde λ is (tenzij het de nulvector is). 3.7 Bepalen eigenwaarden als V oneindig–dimensionaal is In feite geeft de definitie of (3.1) aan hoe eigenvectoren bij een gegeven eigenwaarde berekend kunnen worden. Zo’n berekening hebben we al gezien in voorbeeld 3.41 en voorbeeld 3.42. De vraag is hoe eigenwaarden gevonden kunnen worden. Voor oneindig dimensionale vectorruimten is geen speciale methode beschikbaar en zal de definitie van de operator gebruikt moeten worden, zoals al gedaan is in voorbeeld 3.41 en in voorbeeld 3.42. Nog een laatste wat lastiger voorbeeld. Voorbeeld 3.44. Op de vectorruimte Pol(R, C) wordt de lineaire operator D gedefinieerd door D(p)(x) = (1 − x2 ) d2 p dp − 2x = (1 − x2 )p′′ (x) − 2xp′ (x). 2 dx dx Vaak wordt dit kortweg genoteerd als D = (1 − x2 ) d2 d − 2x . dx2 dx De bijbehorende differentiaalvergelijking die de eigenwaarde bepaalt luidt: (1 − x2 )y ′′ − 2xy ′ = λ y en kennelijk zoeken we de polynoom–oplossingen van deze differentiaalvergelijking. Echter, we zijn (nog?) niet in staat deze differentiaalvergelijking op te lossen. Daarom zullen we een ad-hoc methode toepassen gebaseerd op de definitie van de operaotor. We gaan de eigenwaarden en eigenvectoren berekenen. Neem daarvoor aan dat het niet-nulpolynoom p een eigenvector is van de graad n bij eigenwaarde λ, dus D(p) = λp. Dan zijn er scalairen a0 , . . . , an in C, met an ̸= 0, zo dat p(x) = n ∑ ak xk met an ̸= 0. k=0 Ga na dat D(p)(x) = p′′ (x) − x2 p′′ (x) − 2xp′ (x) = = = n−2 ∑ n ∑ (k + 2)(k + 1)ak+2 xk − k=0 k=2 n−2 ∑ n ∑ (k + 2)(k + 1)ak+2 xk − k=0 k=0 n−2 ∑ n ∑ k=0 k=0 (k + 2)(k + 1)ak+2 xk − k(k − 1)ak xk − n ∑ 2kak xk k=1 k(k − 1)ak xk − n ∑ k=0 (k 2 + k)ak xk 2kak xk 3.7. Bepalen eigenwaarden als V oneindig–dimensionaal is 73 ∑n−2 (hierbij moet aangetekend worden dat de term met k=0 alleen aanwezig zijn als n ≥ 2). Dit moet gelijk zijn aan n ∑ λak xk λp(x) = k=0 en dat is het geval als de coëfficiënten van xn tot en met x0 in D(p)(x) en λp(x) twee aan twee gelijk zijn. Gelijkheid van de coëfficiënten van xn levert −(n2 + n)an = λan en omdat an ̸= 0 volgt hieruit dat λ = −n2 − n. Hiermee zijn de eigenwaarden van D gevonden, het zijn precies de getallen: λ = −(n2 + n), voor n = 0, 1, 2, . . . . Ook hebben we al gezien dat een eigenvector bij λ = −(n2 + n) een ne graads polynoom moet zijn. Nu kunnen ook de bijbehorende eigenvectoren nog bepaald worden. Daarvoor moeten we verder gaan met het gelijkstellen van de diverse coëfficiënten. Gelijkheid van die van xn−1 (die overigens alleen voorkomt als n > 0) levert ( ) − (n − 1)2 + (n − 1) an−1 = λan−1 . en dus: −(n2 − 2n)an−1 = λan−1 . Omdat λ = −(n2 + n) volgt hieruit dat nan−1 = 0 en omdat n > 0 geldt dus an−1 = 0. Voor de coëfficiënten van alle andere machten xk met k = 0, . . . , n − 2 moet vervolgens gelden dat (k + 2)(k + 1)ak+2 − (k 2 + k)ak = λak dus (k + 2)(k + 1) ak+2 . (k 2 + k) + λ Dit is een recurrente betrekking (een relatie die een verband legt tussen een willekeurige term van de rij en één of meer voorgaande termen). Met zo’n betrekking is de rij te construeren vanuit één of meer gegeven termen van de rij. Hier kan met gegeven an achtereenvolgens an−2 , an−4 , enzovoorts berekend worden. Omdat bekend is dat an−1 = 0, kunnen tevens an−3 , an−5 , enzovoorts berekend worden en er volgt dat deze laatste allemaal nul zijn. De eigenvectoren zijn dus polynomen met óf alleen even machten (als het polynoom even graad heeft), óf alleen oneven machten (als het polynoom oneven graad heeft). Hieronder zijn de eigenwaarden en bijbehorende “eigenpolynomen” uitgerekend voor n = 0, 1, 2, 3 en 4 (door telkens een willekeurige an te nemen, waarmee vervolgens an−2 , an−4 , enzovoorts, uitgerekend kunnen worden; de andere coëfficiënten zijn, zoals hierboven vermeld, gelijk aan nul): ak = n = 0 : λ = 0; p(x) = a0 n = 1 : λ = −2; p(x) = a1 x 1 a2 p(x) = a2 (x2 − ) = (3x2 − 1) 3 3 3 a3 n = 3 : λ = −12; p(x) = a3 (x3 − x) = (5x3 − 3x) 5 5 6 2 6 a4 4 n = 4 : λ = −20; p(x) = a4 (x − x + ) = (35x4 − 30x2 + 3) 7 70 35 We eindigen dit voorbeeld met de opmerking dat deze “eigenpolynomen” bij geschikte keuze van a0 , a1 , a2 , . . . , de Legendre polynomen Pn genoemd worden. De genoemde keuze moet zo zijn dat voor alle gevonden polynomen geldt dat p(1) = 1. Voor bijvoorbeeld a4 moet dan 35/8 genomen worden en P4 is dan 81 (35x4 − 30x2 + 3). Later komen we terug op Legendre polynomen. n = 2 : λ = −6; 74 3.8 Hoofdstuk 3. Lineaire afbeeldingen Bepalen van eigenwaarden: het eindig dimensionale geval In het eindig dimensionale geval kunnen we het begrip diagonaliseerbaar introduceren. Definitie: Een lineaire operator L : V → V heet diagonaliseerbaar als V een basis B heeft bestaande uit eigenvectoren van L. De volgende stelling verklaart de naam diagonaliseerbaar. STELLING 3.45. Beschouw de lineaire operator L : V → V . Equivalent zijn: 1. De operator L : V → V is diagonaliseerbaar. 2. Er is een basis B op V zodat [L] een diagonaalmatrix is. B←B Bewijs: Stel (1) is gegeven. Dat wil zeggen dat er een basis B = {b1 , . . . , bn } van V bestaat met bi een eigenvector van L, zeg L(bi ) = λi bi . Dan geldt kennelijk [L(bi )]B = [λi bi ]B = λi ei . Maar dan is kennelijk [L] = [[L(b1 )]B . . . [L(bn )]B ] een diagonaalmatrix met op de diagonaal de B←B getallen λ1 , . . . , λn , precies de eigenwaarden! Omgekeerd, stel dat (2) gegeven is, zeg dat [L] een diagonaalmatrix is met op de diagonaal de B←B getallen d1 , . . . , dn . Dan geldt kennelijk voor de ide kolom [L(bi )]B van deze matrix: [L(bi )]B = di ei en dus: L(bi ) = di bi (voor i = 1, . . . n). Inderdaad, de basisvectoren uit de basis B zijn eigenvectoren. Het bepalen van de eigenwaarden en eigenvectoren van een operator L op een eindig dimensionale vectorruimte V gaat als volgt: kies namelijk een basis B voor V en maak de matrix A = [L] . De B←B eigenwaarden van L zijn dan volgens de volgende stelling precies de eigenwaarden van de matrix A. STELLING 3.46. Als L een lineaire operator op een eindig dimensionale vectorruimte V is en als B een basis is voor V , dan geldt: • λ is een eigenwaarde van de operator L als en slechts als λ een eigenwaarde is van de matrix A = [L] en B←B • v is een eigenvector van de operator L als en slechts als [v]B een eigenvector is van de matrix A = [L] B←B 3.8. Bepalen van eigenwaarden: het eindig dimensionale geval 75 Bewijs: Er geldt L(v) = λv ⇐⇒ [L(v)]B = [λv]B ⇐⇒ [L] [v]B = λ[v]B ⇐⇒ A[v]B = λ[v]B B←B Omdat ook nog geldt dat v ̸= 0 als en slechts als [v]B ̸= 0, volgt het gestelde. Tenslotte verkrijgen we: STELLING 3.47. Stel dat L : V → V een lineaire operator op een vectorruimte V met dim(V ) = n < ∞. Als B een basis is voor V , dan geldt dat equivalent zijn: 1. De operator L : V → V is diagonaliseerbaar. 2. De matrix [L] is diagonaliseerbaar. 3. ∑ B←B dim Eλ ( [L] ) = n B←B λ 4. ∑ dim Eλ (L) = n λ Bewijs: Stel dat (1) geldt. Laat C een basis zijn voor V bestaande uit eigenvectoren. Dan is [L] C←C kennelijk een diagonaalmatrix, zeg dat D = [L] . Volgens stelling 3.39 geldt C←C [L] = P [L] P . B←C C←C C←B B←B en dus: [L] = P DP −1 , d.w.z. de matrix [L] is diagonaliseerbaar. B←B B←B Omgekeerd, stel (2), dus stel dat de matrix [L] diagonaliseerbaar is, d.w.z. er is een basis B←B {p1 , . . . , pn } van Rn bestaande uit eigenvectoren van de matrix [L] . Als [L] pi = di pi , P = B←B B←B [p1 . . . pn ] en D = diag(d1 , . . . , dn ) dan geldt: [L] = P DP −1 . Kies vi ∈ V met [vi ]B = pi en B←B stel dat C = {v1 , . . . , vn }. Leg zelf uit dat C een basis van V is (gebruik het inverteerbaar zijn van de matrix P ). Merk op dat P = [[v1 ]B . . . [vn ]B ] = [p1 . . . = pn ] = P (!). Maar dan via B←C stelling 3.39: [L] = P C←C [L] P C←B B←B B←C = P −1 [L] P = D. B←B Kortom, C is een basis van V met [L] een diagonaalmatrix en dus is de operator L : V → V C←C diagonaliseerbaar. De equivalentie van (2) en (3) komt van de ons bekende uitspraak dat een n × n matrix (in dit geval [L] ) diagonaliseerbaar is als en slechts als de som van de meetkundige multipliciteiten gelijk B←B is aan n. De equivalentie van (3) en (4) is de gelijkheid van dimensie van de eigenruimte Eλ van de matrix [L] (die we hier aanduiden met Eλ ( [L] )) en de dimensie van de eigenruimte Eλ van de operator B←B B←B L (die we hier aanduiden met dim Eλ (L)). 76 Hoofdstuk 3. Lineaire afbeeldingen Voorbeeld 3.48. Definieer de lineaire operator L : Pol2 (R) → Pol2 (R) door L(p)(x) = p(1) + p(x) + (1 + x)p′ (x). De eigenwaarden van deze operator zijn precies de eigenwaarden van de matrix A van L op een basis B voor Pol2 (R). We kunnen voor B de standaardbasis {1, x, x2 } nemen. Ga na dat dan 2 2 1 A= 0 2 2 0 0 3 en omdat dit een bovendriehoeksmatrix is, staan de eigenwaarden van deze matrix op de diagonaal (zie lineaire algebra deel 1). De eigenwaarden van L zijn dus 2 en 3, dezelfde als die van A. Nu de eigenwaarden bekend zijn kunnen de bijbehorende eigenruimten E2 en E3 bepaald worden. We hebben al eerder gezien dat dit de oplossingsverzamelingen zijn van de vergelijkingen L(p) = 2p en L(p) = 3p, ofwel E2 = Ker(L − 2 Id) en E3 = Ker(L − 3 Id). Het bepalen hiervan kan handig gedaan worden via coördinatisering ten opzichte van de basis B: bereken de eigenruimten E2 = Nul(A − 2I) en E3 = Nul(A − 3I) van A. Deze bestaan uit de eigenvectoren van A en dit zijn volgens de zojuist behandelde stelling coördinatiseringen van de eigenvectoren van L. Als de gevonden vectoren uit R3 dus omgezet worden naar polynomen, dan zijn de eigenvectoren van L gevonden. Ga na dat 1 5 Nul(A − 2I) = Span 0 en Nul(A − 3I) = Span 2 . 0 1 Terugvertalen naar polynomen levert de eigenruimten E2 = Span{1} en E3 = Span{5 + 2X + X 2 }. van L. Merk op dat A en dus ook L niet diagonaliseerbaar zijn. Inderdaad, de meetkundige multipliciteit van λ = 2 is kleiner dan de algebraı̈sche multipliciteit. Tenslotte nog de volgende opmerking. Laat L : V → V een lineaire operator zijn op V en neem aan dat op V de bases B1 en B2 voorhande zijn. Volgens Steliing 3.39 wordt het verband tussen de verschillende matrices voor L, de matrices [L] en [L] dan: B1 ←B1 [L] B2 ←B2 Schrijven we P = P B2 ←B1 , dan geldt = P B1 ←B2 [L] P [L] B2 ←B2 en [L] B1 ←B1 P B2 ←B1 B1 ←B1 B1 ←B2 . = P −1 en dus B2 ←B2 De matrices B2 ←B2 [L] = P [L] B1 ←B1 P −1 . voldoen aan een speciale relatie, namelijk die van de vorige formule. Matrices die aan zo’n relatie voldoen werden in deel 1 gelijkvormig genoemd. We kunnen nu concluderen: bij een lineaire operator zijn alle matrices, die we kunnen maken door een basis te kiezen, gelijkvormig. Omgekeerd, als een matrix A gelijkvormig is met [L] , zeg B1 ←B1 A = P [L] B1 ←B1 P −1 voor een zekere matrix P , dan kunnen we P beschouwen als een overgangsmatrix, waarbij in de kolommen de coördinaten staan van de oude basis B1 ten opzichte van een nieuwe basis B2 (en dus staan in P −1 de coördinaten van de nieuwe basis B2 ten opzichte van de oude basis B1 ). De matrix A is dan de matrix van L ten opzichte van deze nieuwe basis B2 . We vinden daarmee: A is de matrix van L ten opzichte van een basis B2 ⇐⇒ A is gelijkvormig met [L] . B1 ←B1 Hoofdstuk 4 Cn met zijn inwendigproduct structuur 4.1 Het standaard Inwendig Product op Cn De behandelde theorie wat betreft het standaard inwendig product op de Euclidische ruimte Rn gaat niet geheel door voor de unitaire ruimte Cn . We willen namelijk dat een inwendig product op Cn de lengte van een vector bepaald door de wortel van het inwendig product van die vector met zichzelf, dus net als in Rn : √ ∥v∥ = v · v. Hieruit volgt al dat het standaard inwendige product uit Rn niet zomaar overgenomen kan worden naar Cn , want we zien als we dit zouden doen dat bij de vector [ ] 1 z= i zou gelden dat: ⟨z, z⟩ = 1 · 1 + i · i = 0. Merk op dat in C1 = C het begrip lengte ons bekend via de formule: |z|2 = zz. Dit motiveert de volgende definitie (waarbij we opmerken dat het standaard inwendige product op Cn genoteerd zal worden met ⟨, ⟩): Definitie: Laat u1 u = ... un en v1 v = ... vn twee vectoren in Cn zijn. Het (standaard) inwendig product van u en v is het complexe getal ⟨u, v⟩ = u1 v1 + u2 v2 + · · · + un vn . 77 Hoofdstuk 4. Cn met zijn inwendigproduct structuur 78 Opmerking: Jammer genoeg wordt in de literatuur niet eenduidig het standaard inwendig product gekozen. Sommige kiezen voor conjugatie op het tweede kental, dus ⟨u, v⟩ = u1 v 1 + u2 v 2 + · · · + un v n . Anderen, zoals wij, kiezen voor de conjugatie op het EERSTE kental, nogmaals: ⟨u, v⟩ = u1 v1 + u2 v2 + · · · + un vn . [ Voorbeeld 4.1. Als z = 1 i ] [ en w = ⟨z, z⟩ = 1 · 1 + (−i) · i = 2, 1+i 3i ] dan geldt ⟨w, w⟩ = (1 − i) · (1 + i) + (−3i) · 3i = 11, en ⟨z, w⟩ = 1 · (1 + i) + (−i) · 3i = 4 + i, ⟨w, z⟩ = (1 − i) · 1 + (−3i) · i = 4 − i. Het lijkt erop dat het inwendig product van een vector met zichzelf inderdaad reëel en niet-negatief is. Herinner: in Rn kon het standaardinwendig product geschreven kan worden als een matrixproduct via x · y = xT y. Hetzelfde geldt in Cn , want: ⟨u, v⟩ = u∗ v Dat wil zeggen dat ook dit inwendig product een matrix product is, en sommige van de rekenregels volgen rechtstreeks uit de rekenregels voor producten van matrices. Het valt in bovenstaand voorbeeld op dat het standaard inwendig product op Cn niet commutatief is, dat wil zeggen er geldt niet ⟨v, u⟩ = ⟨u, v⟩. Dit in tegenstelling tot het standaard inwendig product op Rn . Blijkbaar heeft dit inwendig product niet dezelfde eigenschappen (=rekenregels) als het inwendig product op Rn . We formuleren de eigenschappen in de volgende stelling. Vergelijk ze met de eigenschapppen voor het standaard inwendig product op Rn . STELLING 4.2 (Rekenregels van het standaard inwendig product op Cn ). Als u, v en w vectoren in Cn zijn en als c een complexe scalar is, dan geldt: 1. ⟨u, v⟩ = ⟨v, u⟩, 2. ⟨u, v + w⟩ = ⟨u, v⟩ + ⟨u, w⟩, 3. ⟨u, cv⟩ = c ⟨u, v⟩, 4. ⟨u, u⟩ ∈ R en ⟨u, u⟩ ≥ 0. Bovendien: ⟨u, u⟩ = 0 als en slechts als u = 0. Voor het bewijs van deze stelling verwijzen we naar de opgaven. Merk op dat het inwendig product inderdaad aan de eerder genoemde twee eisen voldoet. Verder geldt dat het inwendig product “lineair in de tweede factor” is (zie rekenregels 2. en 3.). Het inwendig product op Rn is ook lineair in de eerste factor. Het volgende gevolg laat zien dat dit op Cn niet het geval is: 4.1. Het standaard Inwendig Product op Cn 79 GEVOLG 4.3. Laat u, v en w vectoren in Cn zijn en laat c een complexe scalar zijn. Dan geldt: 1. ⟨u + v, w⟩ = ⟨u, w⟩ + ⟨v, w⟩, 2. ⟨cu, v⟩ = c ⟨u, v⟩, Ook voor dit bewijs verwijzen we naar de opgaven. We definieren nu de lengte of norm ∥v∥ van een vector v in Cn door √ ∥v∥ = ⟨v, v⟩. Vanwege eigenschap 4 is de wortel goed gedefinieerd. Toon zelf aan dat: ∥cv∥ = |c| ∥v∥ Vectoren van lengte 1 heten weer eenheidsvectoren. Vectoren kunnen genormeerd worden, d.w.z. bij iedere vector z bestaat een scalair veelvoud van die vector met lengte 1, en wel: 1 z ∥z∥ In het reële geval bestonden er twee scalaire veelvouden van z met lengte 1, namelijk ±1 z. In het ∥z∥ complexe geval zijn dit er veel meer, namelijke alle vectoren van de vorm α 1 z ∥z∥ (α ∈ C met |α| = 1). Hoeken tussen vectoren kunnen in Cn niet op een zinvolle manier gedefinieërd worden. Alleen de hoek van 90 graden blijkt van belang te zijn. Definitie: De vectoren u en v in Cn heten orthogonaal (of ook loodrecht) als hun inwendig product nul is, dus als ⟨u, v⟩ = 0. Notatie: u⊥v als u en v orthogonaal zijn. Merk op dat als geldt dat u en v orthogonaal zijn, dus ⟨u, v⟩ = 0, dat dan ook geldt dat ⟨v, u⟩ = ⟨u, v⟩ = 0. Dus als u en v orthogonaal zijn, dan zijn v en u ook orthogonaal (gelukkig wel). Tenslotte: de drie basisstellingen voor het inwendig product gelden ook in Cn . Om precies te zijn: STELLING 4.4. (Cauchy-Schwarz) Als u, v ∈ Cn dan: | ⟨u, v⟩ | ≤ ∥u∥ ∥v∥ Hoofdstuk 4. Cn met zijn inwendigproduct structuur 80 (De ongelijkheid van Cauchy-Schwarz zal later bewezen worden.) Tenslotte wordt op Cn een afstandsbegrip tussen vectoren ingevoerd evenals op Rn . We zeggen afstand tussen de vectoren u, v is het getal: d(u, v) = ∥u − v∥ De belangrijkste ongelijkheid bij het afstandsbegrip luidt alsvolgt: STELLING 4.5. (Driehoeks-ongelijkheid) Als u, v, w ∈ Cn dan: ∥u − v∥ ≤ ∥u − w∥ + ∥w − v∥ Ook van de driehoeksongelijkheid kan in college 13 een bewijs gevonden worden. Tenslotte formulieren we nog de stelling van Pythagoras. STELLING 4.6. (De stelling van Pythagoras) Als u, v ∈ Cn met u⊥v dan: ∥u + v∥2 = ∥u∥2 + ∥v∥2 4.2 Orthogonaliteit in Cn Als in deel 1 definiëren we: Definitie: van W : Als W ⊂ Cn een deelruimte is van Cn , dan is het orthogonaal complement {z ∈ Cn : ⟨z, w⟩ = 0, voor alle w ∈ W } en deze verzameling wordt genoteerd met W ⊥ . In de unitaire ruimte Cn gelden dezelfde resultaten als in Rn wat betreft W ⊥ (maar een bewijs is natuurlijk wel nodig). 4.2. Orthogonaliteit in Cn 81 STELLING 4.7. Laat W een lineaire deelruimte zijn van Cn . Dan geldt: 1. Als W = Span{a1 . . . ak }, dan: z ∈ W⊥ als en slechts als ⟨z, ai ⟩ = 0, voor i = 1 . . . k. 2. W ⊥ is ook een lineaire deelruimte van Cn . 3. (W ⊥ )⊥ = W . 4. W ∩ W ⊥ = {0}. Herinner dat in Rn geldt: Col(A)⊥ = Nul(AT ). Dit geldt niet in Cn ! De volgende stelling demonstreert een fenomeen wat we nog vaak zullen tegenkomen en wel: “als in een algemene reële formule AT staat, dan wordt in de algemene complexe formule transponeren vervangen door Hermitisch transponeren!” Inderdaad, dit zagen we al bij het standaard inwendigproduct. Op Rn geldt: a · b = aT b maar op Cn wordt dit: ⟨a, b⟩ = a∗ b. STELLING 4.8. Laat A een complexe n × m matrix zijn. dan geldt: 1. Col(A)⊥ = Nul(A∗ ), 2. Nul(A)⊥ = Col(A∗ ). Met behulp van deze stelling kunnen we van iedere gegeven lineaire deelruimte W van Cn een basis bepalen voor zijn orthogonaal complement. Tevens volgt: dim(W ) + dim(W ⊥ ) = n. Vervolgens presenteren we §9.2 (die voor Rn was) voor Cn . Definitie: Een verzameling (of stelsel) vectoren {u1 , . . . , uk } in Cn heet orthogonaal als ui ⊥uj , voor alle i, j = 1, . . . , k met i ̸= j. Die verzameling vectoren heet orthonormaal als deze orthogonaal is en bovendien geldt: ∥ui ∥ = 1, voor i = 1, . . . , k. Net als in Rn geldt: Hoofdstuk 4. Cn met zijn inwendigproduct structuur 82 STELLING 4.9. Een orthogonaal stelsel {u1 , . . . , uk } met ui ̸= 0 (i = 1, . . . , k) in Cn is lineair onafhankelijk. Ook geldt dat ieder orthogonaal stelsel niet nulvectoren te normeren is tot een orthonormaal stelsel! Definitie: Laat W een lineaire deelruimte van Cn zijn met basis B = {b1 , . . . , bk }. De basis B heet een orthogonale basis als B bovendien (behalve het basis zijn) een orthogonale verzameling is. Evenzo: de basis B heet een orthonormale basis (of unitaire basis) als B bovendien een orthonormale verzameling is. Definitie: Laat a1 · · · ak enkele vectoren uit Cn zijn en A = [ a1 · · · ak ]. De k × k matrix A∗ A heet de Grammatrix van de vectoren a1 · · · ak . Opmerking: Wellicht onnodig om op te merken, maar mochten a1 · · · ak vectoren uit Rn zijn, dan is de Grammatrix (=namelijk AT A), zoals gedefiniëerd in §9.2, gelijk aan de Grammatrix zoals gedefiniëerd in deze paragraaf. STELLING 4.10. Als a1 · · · ak enkele vectoren uit Cn zijn en A = dan: ⟨a1 , a1 ⟩ ⟨a1 , a2 ⟩ · · · ⟨a1 , ak ⟩ ⟨a2 , a1 ⟩ ⟨a2 , a2 ⟩ · · · ⟨a2 , ak ⟩ A∗ A = .. .. .. . . . ⟨ak , a1 ⟩ ⟨ak , a2 ⟩ · · · ⟨ak , ak ⟩ Via deze stelling verkrijgen we: [ a1 a2 ··· ak ] 4.2. Orthogonaliteit in Cn 83 GEVOLG 4.11. Als A een matrix is, dan: 1. Een (complexe) m × n-matrix A heeft orthogonale kolommen als en slechts als A∗ A een diagonaalmatrix is. 2. Een (complexe) m×n-matrix A heeft orthonormale kolommen als en slechts als A∗ A = I. Dit leidt tot het begrip unitaire matrix, het complexe equivalent van “orthogonale matrix”. Definitie: Laat A een (complexe) matrix zijn. A heet unitair (een unitaire matrix) als A vierkant is en als A∗ A = I. Unitaire matrices hebben de volgende eigenschappen (vergelijk de situatie met reële orthogonale matrices). STELLING 4.12. Voor een vierkante (complexe) matrix U zijn de volgende uitspraken equivalent: 1. U is unitair, 2. U ∗ U = I, 3. De kolommen van U zijn orthonormaal, 4. De kolommen van U vormen een orthonormale basis voor Cn , 5. U is inverteerbaar en U −1 = U ∗ , 6. U U ∗ = I, 7. De rijen van U zijn orthonormaal, 8. De rijen van U vormen een orthonormale basis voor Cn , 9. U ∗ is unitair. Voor het bewijs verwijzen we weer naar de opgaven. Afspraak: als we over orthogonale matrices spreken dan zullen we het altijd over reële matrices hebben. Een unitaire matrix is complex en mag dus ook reëel zijn. De volgende stellingen mag u in de opgaven over dit college bewijzen. Hoofdstuk 4. Cn met zijn inwendigproduct structuur 84 STELLING 4.13. Het product van twee unitaire matrices is weer unitair. STELLING 4.14. Laat U een unitaire n × n matrix zijn en z, w vectoren in Cn . Dan geldt: 1. ∥z∥ = ∥U z∥. 2. ⟨z, w⟩ = ⟨U z, U w⟩. 4.3 Spectraal eigenschappen Speciale Matrices Zoals we (horen te) weten is het spectrum van een matrix gelijk aan de verzameling eigenwaarden van die matrix. Spectrale eigenschappen van een matrix zijn dus eigenschappen die de eigenwaarden van die matrix betreffen. Ook worden hiermee vaak eigenschappen van de eigenruimten van die matrix bedoeld. We gaan eerst spectrale eigenschappen van complexe matrices bekijken en die toepassen in het reële geval. We gaan eerst Hermitese en/of scheef Hermitese matrices bestuderen, en het zal blijken dat eigenwaarden en eigenvectoren van deze speciale matrices mooie eigenschappen hebben. Al de komende bewijzen zijn gebaseerd op de identiteit ⟨Ax, y⟩ = ⟨x, A∗ y⟩ (Deze identiteit is bijna triviaal: ⟨Ax, y⟩ = (Ax)∗ y = (x∗ A∗ )y = x∗ (A∗ y) = ⟨x, A∗ y⟩ ) We beginnen met de Hermitese matrices: STELLING 4.15. Laat A een Hermitese n × n-matrix zijn. Dan geldt 1. A heeft slechts reële eigenwaarden, 2. eigenvectoren bij verschillende eigenwaarden zijn orthogonaal. Bewijs: 1. We merken eerst op dat A Hermitisch is, d.w.z. A∗ = A en dit levert nu dat geldt: ⟨z, Aw⟩ = ⟨Az, w⟩ , voor alle z, w ∈ Cn . Laat λ ∈ C een eigenwaarde zijn en x ∈ Cn met x ̸= 0 een bijbehorende eigenvector, dus Ax = λx. Dan geldt: ⟨Ax, x⟩ = ⟨x, Ax⟩ ⇒ ⟨λx, x⟩ = ⟨x, λx⟩ ⇒ λ ⟨x, x⟩ = λ ⟨x, x⟩ ⇒ λ∥x∥2 = λ∥x∥2 Dus λ∥x∥2 = λ∥x∥2 en omdat x ̸= 0 (dus ∥x∥ ̸= 0) volgt λ = λ, hetgeen betekent dat λ reëel is. 2. Laat x1 ̸= 0 een eigenvector bij eigenwaarde λ1 zijn en x2 ̸= 0 een eigenvector bij eigenwaarde λ2 zijn, waarbij λ1 ̸= λ2 . Dan geldt (op dezelfde manier als bij het bewijs van 1.): ⟨Ax1 , x2 ⟩ = ⟨x1 , Ax2 ⟩ ⇒ ⟨λ1 x1 , x2 ⟩ = ⟨x1 , λ2 x2 ⟩ ⇒ λ1 ⟨x1 , x2 ⟩ = λ2 ⟨x1 , x2 ⟩ ⇒ λ1 ⟨x1 , x2 ⟩ = λ2 ⟨x1 , x2 ⟩ 4.3. Spectraal eigenschappen Speciale Matrices 85 (De laatste stap is correct omdat we net bewezen hebben dat de eigenwaarden van een Hermitese matrix reëel zijn). Uit λ1 ⟨x1 , x2 ⟩ = λ2 ⟨x1 , x2 ⟩, ofwel (λ1 − λ2 ) ⟨x1 , x2 ⟩ = 0, volgt, omdat λ1 ̸= λ2 , dat ⟨x1 , x2 ⟩ = 0, d.w.z. dat x1 en x2 orthogonaal zijn. Voor scheefhermitese matrices geldt iets dergelijks: STELLING 4.16. Laat A een scheefhermitese n × n-matrix zijn. Dan geldt 1. A heeft slechts zuiver imaginaire eigenwaarden, 2. eigenvectoren bij verschillende eigenwaarden zijn orthogonaal. Bewijs: De uitspraken 1 en 2 kunnen op dezelfde manier bewezen worden als in de vorige stelling. We kunnen echter ook als volgt te werk gaan: Definieer B = iA. Dan is B een Hermitese matrix. Laat λ een eigenwaarde zijn van A met eigenvector x ̸= 0. Dan geldt Bx = iAx = iλx. We zien dus: Als λ een eigenwaarde van A is, dan is iλ een eigenwaarde van B (en andersom), en als x een eigenvector van A is, dan is x ook een eigenvector van B (en andersom). Hieruit volgt het gestelde. Zelfs voor unitaire matrices kunnen we iets dergelijks zeggen: STELLING 4.17. Laat U een unitaire n × n-matrix zijn. Dan geldt 1. Elke eigenwaarde van U heeft modulus 1, 2. eigenvectoren bij verschillende eigenwaarden zijn orthogonaal. Bewijs: Voor de eerste uitspraak realiseren we ons eerst dat stelling 2.14 impliceert dat uit U x = λx (met x ̸= 0) volgt dat ∥x∥ = ∥U x∥ = ∥λx∥ = |λ|∥x∥. Maar dat kan alleen als |λ| = 1 (want x ̸= 0). Voor uitspraak 2 nemen we twee eigenvectoren x ̸= 0 en y ̸= 0 bij twee verschillende eigenwaarden λ en µ. Voordat we het eigenlijke bewijs geven, merken we even op dat |λ|2 = λλ = 1 en dus dat λ= 1 . λ Hieruit volgt namelijk ⟨x, y⟩ = ⟨U x, U y⟩ = ⟨λx, µy⟩ = λµ ⟨x, y⟩ = Omdat (want µ ̸= λ) moet gelden ⟨x, y⟩ = 0. µ ̸= 1 λ µ ⟨x, y⟩ . λ 86 Hoofdstuk 4. Cn met zijn inwendigproduct structuur [ Voorbeeld 4.18. De eigenwaarden van de orthogonale matrix 1 0 0 −1 ] zijn 1 en −1. Ze hebben dus inderdaad modulus 1 en zijn in dit geval[reëel. ] 0 −1 zijn i en −i. Ook deze hebben modulus 1, De eigenwaarden van de orthogonale matrix 1 0 maar deze zijn nu niet-reëel. STELLING 4.19. Laat A een hermitese, scheef–hermitese of een unitaire matrix zijn. Dan geldt dat: “eigenruimten Eλ1 en Eλ2 van A met λ1 ̸= λ2 onderling orthogonaal zijn”. 4.4 Symmetrische Matrices en de reële Spectraaldecompositie Herinner dat een matrix A symmetrisch is als A = AT èn als A een reële matrix is. (Dit laatste hebben wij afgesproken, maar is absoluut geen universele afspraak.) We zullen om vergissingen te voorkomen steeds spreken over “reële symmetrische matrices”. Deze komen veel voor in de praktijk en we zullen zien dat er rondom deze symmetrische reële matrices een erg mooie theorie ontwikkeld is. We beginnen met de opmerking dat een reëel symmetrische matrix Hermitesch is, en daarom levert Stelling 4.15 ons: STELLING 4.20. Zij A een reële symmetrische matrix. Dan geldt: het karakteristiek polynoom pA (λ) van A heeft alleen reële nulpunten. en STELLING 4.21. Zij A een reële symmetrische matrix. Dan geldt: eigenvectoren bij verschillende eigenwaarden zijn orthogonaal. De volgende stelling, waarvan het bewijs lastig is, maar opgeschreven is voor hen die geı̈nteresseerd zijn, vertelt ons dat iedere reële symmetrische matrix diagonaliseerbaar is. STELLING 4.22. Zij A een reële symmetrische matrix. Dan geldt: voor iedere eigenwaarde van A zijn de algebraı̈sche multipliciteit en de meetkundige multipliciteit gelijk. Bewijs: (Dit bewijs is lastig, maar is toch maar toegevoegd.) We bewijzen de uitspraak met inductie naar afmetingen van A. De uitspraak is zeker waar voor alle (symmetrische) 1×1 matrices. Stel nu dat de uitspraak waar is voor alle symmetrische k × k matrices. Laat A een symmetrische (k + 1) × (k + 1) matrix zijn en stel dat λ = λ0 een eigenwaarde is van A met algebraı̈sche multipliciteit n0 . Als n0 = 1 dan zijn zeker de algebraı̈sche multipliciteit en de meetkundige multipliciteit van λ0 gelijk. Er bestaat zeker één eigenvector q1 ∈ Rk+1 bij λ0 (genormeerd op lengte 1, dus |q1 | = 1) van 4.4. Symmetrische Matrices en de reële Spectraaldecompositie 87 A. Breidt {q1 } uit tot een orthonormale basis {q1 , . . . , qk+1 } van Rk+1 . (Waarom kan dat?) en beschouw de orthogonale (k + 1) × (k + 1) matrix Q = [q1 . . . qk+1 ]. Dan: qT1 qT1 B = QT AQ = ... A[q1 . . . qk+1 ] = ... [Aq1 . . . Aqk+1 ] = qTk+1 qT1 = ... qTk+1 qTk+1 λ0 0 [λ0 q1 Aq2 . . . Aqk+1 ] = .. . 0 ... B1 We merken op: • B is een symmetrische matrix, want B T = (QT AQ)T = QT AT (QT )T = QT AQ = B; en dus is B1 ook een symmetrische (k × k) matrix. • B en A zijn gelijkvormig (nodig: Q is orthogonale matrix), want B = QT AQ = Q−1 AQ en dus hebben A en B hetzelfde karakteristiek polynoom en dezelfde eigenwaarden met dezelfde (algebraı̈sche en meetkundige) multipliciteiten. • In het bijzonder, λ0 is een eigenwaarde van B met algebraı̈sche multipliciteit n0 > 1. Merk op dat e1 ∈ Rk+1 een eigenvector is van B bij λ0 . λ0 − λ 0 ... 0 B1 − λIk • Omdat B − λIk+1 = geldt: .. . pA (λ) = pB (λ) = det(B − λIk+1 ) = (ontwikkelen naar eerste kolom) = (λ0 − λ) det(B1 − λIk ) = (λ0 − λ)pB1 (λ) • Omdat λ0 een nulpunt is van pB (λ) met multipliciteit n0 > 1, zal λ0 een nulpunt zijn van pB1 (λ) met multipliciteit n0 − 1. Op de symmetrische k ×k matrix B1 kunnen we de inductie verondersrelling los laten: de meetkundige multipliciteit van λ0 t.o.v. B1 zal ook n0 − 1 zijn. Laat[v1 , . ] . . , vn0 −1 onafhankelijke eigenvec0 k toren in R zijn van B1 t.o.v. λ0 . Als we definieren wi = ∈ Rk+1 voor (i = 1, . . . , n0 − 1) vi dan zijn e1 , w1 , . . . , wn0 −1 n0 lineair onafhankelijke eigenvectoren van B t.o.v. de eigenwaarde λ0 (ga na). We concluderen dat de meetkundige multipliciteit van λ0 ook t.o.v. B inderdaad n0 is, en dit zal dan ook gelden t.o.v. A. Merk op dat uit de voorafgaande Stelling 4.20 en Stelling 4.22 volgt dat iedere reële symmetrische matrix reëel diagonaliseerbaar is. Orthogonale Diagonalisering van reële matrices Definitie: Een vierkante matrix A heet orthogonaal diagonaliseerbaar als A reeël is en als er een (reële) orthogonale matrix Q bestaat en een (reële) diagonaal matrix D zodat A = QDQ−1 . Hoofdstuk 4. Cn met zijn inwendigproduct structuur 88 STELLING 4.23. Stel dat A een reële n × n matrix is. Dan geldt: A is symmetrisch als en slechts als A orthogonaal diagonaliseerbaar is. Bewijs: Als A orthogonaal diagonaliseerbaar is, dan bestaat een orthogonale matrix Q en een diagonaal matrix D zodat A = QDQ−1 . Omdat Q−1 = QT (want Q is een orthogonale matrix) geldt: A = QDQ−1 = QDQT en dus: AT = (QDQT )T = (QT )T DT QT = QDQT = A dat wil zeggen: A is een symmetrische matrix. Omgekeerd: stel dat A symmetrisch is. Beschouw het karakteristiek polynoom pA (λ). Volgens Stelling 4.20 zijn alle nulpunten reëel, zeg λ1 , . . . , λk . Zeg ook dat λi algebraı̈sche multipliciteit ni (i = 1, . . . , k). Kennelijk geldt: n1 + · · · + nk = n Volgens Stelling 4.22 is de meetkundige multipliciteit van λi ook gelijk aan ni (i = 1 . . . k) en dus kunnen we voor de eigenruimte Eλi een orthonormale basis, zeg Bi = {q(i,1) , . . . , q(i,ni ) } bepalen, (voor i − 1, . . . , k). Beschouw B = B 1 ∪ . . . ∪ Bk B bestaat uit eenheidsvectoren en daarom zegt Stelling 4.21 dat B een orthonormale verzameling is van n eigenvectoren. Daarom geldt: als we vectoren uit B in een matrix stoppen verkrijgen we een orthogonale matrix Q en als D de diagonaal matrix wordt met op de diagonaal de overeenkomstige eigenwaarden, dan geldt: A = QDQ−1 = QDQT en dus is A orthogonaal diagonaliseerbaar. Merk op dat het bewijs ons precies vertelt hoe een symmetrische matrix orthogonaal gediagonaliseerd moet worden. Bepaal voor iedere eigenwaarde λ van de symmetrische matrix A een orthonormale basis van de eigenruimte Eλ en ga met deze bases dan verder met het standaard diagonalisering proces! Voorbeeld 4.24. Bepaal een orthogonale diagonalisering van de symmetrische matrix 2 1 1 A= 1 2 1 1 1 2 als gegeven is dat het karakteristiek polynoom pA (λ) = −(λ − 4)(λ − 1)2 is. Antwoord: Uit pA (λ) = −(λ − 4)(λ − 1)2 = 0 zien we dat λ = 4 en λ = 1 de eigenwaarden zijn met a.m.(λ = 4) = 1 en met a.m.(λ = 1) = 2. De volgende stap bestaat uit het bepalen van een basis van de eigenruimten E4 en E1 . Basis voor E 4= Nul(A − 4I) wordt bepaald door het oplossen van het stelsel [A − 4I|0] en dit 1 levert C1 = 1 = {b1 } als basis. 1 Evenzo: een basis voor −I) wordt bepaald door het oplossen van het stelsel [A − I|0] E1 = Nul(A −1 −1 en dit levert C2 = 0 , 1 = {b2 , b3 } als basis. 1 0 4.4. Symmetrische Matrices en de reële Spectraaldecompositie 89 1 −1 −1 4 0 0 0 1 en D = 0 1 0 Vroeger waren we nu klaar, we zouden zeggen: als P = 1 1 1 0 0 0 1 −1 dan is A = P DP een diagonalisering van A. Maar dit is GEEN orthogonale diagonalisering, want de matrix P is GEEN orthogonale matrix. Merk op dat b1 ⊥b2 en b1 ⊥b3 , want eigenvectoren bij verschillende eigenwaarden zijn orthogonaal bij een symmetrische matrix. Echter, b2 en b3 zijn niet orthogonaal (dit zijn eigenvectoren bij dezelfde eigenwaarde!). Een orthonormale √ basis voor E4 is makkelijk, we hoeven alleen maar te normeren. Dit levert: 1/ √3 B1 = 1/√3 = {q1 } 1/ 3 −1/2 b3 ·w2 1 , wat na Bij E1 is het Gram-Schmidt proces nodig. w2 = b2 en w3′ = b3 − w w2 = 2 ·w2 −1/2 −1 −1 schaling w2 = 0 en w3 = 2 oplevert. Dus {w2 , w3 } is een orthogonale basis voor E1 1 −1 √ √ −1/√6 −1/ 2 2/ 6 = {q2 , q3 }. en na normeren verkrijgen we de orthonormale basis √0 , √ 1/ 2 −1/ 6 Tenslotte: als we definiëren √ √ √ 1/√3 −1/ 2 −1/√6 4 0 0 Q = 1/√3 2/√6 en D = 0 1 0 √0 0 0 1 1/ 2 −1/ 6 1/ 3 dan is A = QDQ−1 = QDQT de gezochte orthogonale diagonalisering van A. △ De Spektraaldecompositie stelling Laat A een symmetrische n × n matrix zijn. Stel dat λ1 , . . . , λn de eigenwaarden zijn van A en laat {q1 , . . . , qn } een orthonormale basis zijn van Rn , waarbij qi een eigenvector is van λi (voor i = 1, . . . , n). Schrijven we Q = [q1 . . . qn ] en D =diag(λ1 , . . . , λn ) dan geldt: T T q1 λ1 0 0 q1 . . T . .. A = QDQ = [q1 . . . qn ] 0 0 .. = [λ1 q1 . . . λn qn ] .. 0 ··· λn qTn qTn Passen we op dit laatste product kolom-rij expansie toe dan krijgen we vorm 1 van de spectraal decompositie: STELLING 4.25. (De Spektraaldecompositie Stelling, vorm 1) Laat A een reële symmetrische n × n matrix zijn. Dan bestaat een orthonormale basis B = {q1 , . . . , qn } van Rn bestaande uit eigenvectoren van A, zeg Aqi = λi qi , voor i = 1, . . . , n. Er geldt: A = λ1 q1 qT1 + · · · + λn qn qTn Met andere woorden: A is een lineaire combinatie van projectiematrices op één dimensionale eigenruimtes. Bovenstaande decompositie van A heet “een spektraaldecompositie van A”. Hoofdstuk 4. Cn met zijn inwendigproduct structuur 90 Voorbeeld 4.26. (Vervolg Voorbeeld 4.24) Beschouw de matrix A uit Voorbeeld 4.24. Een spektraaldecompositie van deze matrix is: √ 1/√3 [ √ √ √ ] A = λ1 q1 qT1 + λ2 q2 qT2 + λ3 q3 qT3 = 4 1/√3 1/ 3 1/ 3 1/ 3 + 1/ 3 √ √ −1/√6 [ −1/ 2 [ √ √ ] √ √ √ ] −1/ 2 0 1/ 2 + 1 2/ 6 −1/ 6 2/ 6 −1/ 6 = 1 √0 √ 1/ 2 −1/ 6 1/3 1/3 1/3 1/2 0 −1/2 1/6 −2/6 1/6 0 0 0 + 1 −2/6 4/6 −2/6 4 1/3 1/3 1/3 + 1 1/3 1/3 1/3 −1/2 0 1/2 1/6 −2/6 1/6 Merk op dat deze decompositie NIET uniek is. Een andere orthonormale bases {q′2 , q′3 } voor de eigenruimte E1 leidt tot een andere spektraal decompositie. △ Voorbeeld 4.27. Het gebrek aan uniciteit van de spektraaldecompositie stelling vorm 1 wordt met name duidelijk geı̈llustreerd door de eenheidsmatrix A = I. Omdat bij A = I iedere vector (ongelijk nulvector) een eigenvector is bij de eigenwaarde λ = 1. Dus geldt voor iedere orthonormale basis B = {q1 , . . . , qn } van Rn : I = q1 qT1 + · · · + qn qTn Er bestaat een tweede vorm van de spektraaldecompositie die als voordeel heeft dat deze wel uniek is. Om deze te vinden gebruiken we de notatie uit het bewijs van Stelling 4.23. Dus: A is een symmetrische matrix, λ1 , . . . , λk zijn de eigenwaarden van A, λi heeft multipliciteit ni (i = 1, . . . , k) en Bi = {q(i,1) , . . . , q(i,ni ) } is een orthonormale basis van de eigenruimte Eλi , voor i = 1, . . . , k. Als we schrijven Qi = [q(i,1) . . . q(i,ni ) ] dan weten we uit deel 1 dat de projectie op de eigenruimte Eλi de standaardmatrix: [projEλ ] = q(i,1) qT(i,1) + · · · + q(i,ni ) qT(i,ni ) = Qi QTi i heeft. Als we in vorm 1 van de spektrale decompositie van A de projectiematrices bij dezelfde eigenwaarden bij elkaar nemen krijgen we: A = λ1 [projEλ ] + · · · + λk [projEλ ] 1 k Dit heet de spectraal decompositie van A, vorm 2. Met andere woorden: “de matrix A is de lineaire combinatie van de projectiematrices op de (onderling loodrechte) eigenruimtes met als gewichten: de bijbehorende eigenwaarden!” STELLING 4.28. (De Spektraaldecompositie Stelling, vorm 2) Laat A een reële symmetrische n × n matrix zijn met eigenwaarden λ1 , . . . , λk . Beschouw de orthogonale projecties projEλ : Rn → Rn op de eigenruimtes Eλi . Dan geldt: i A = λ1 [projEλ ] + · · · + λk [projEλ ] 1 k 4.5. Unitaire Diagonaliseerbaarheid 91 Voorbeeld 4.29. (Vervolg Voorbeeld 4.24 en 4.26) Beschouw de matrix A uit Voorbeeld 4.24. Vorm 2 van de spektrale decompositie van A wordt: A = 4[projE4 ] + 1[projE1 ] = 4[q1 ][q1 ]T + 1[q2 q3 ][q2 q3 ]T = √ √ √ √ 1/√3 [ −1/ 2 −1/√6 [ √ √ √ ] −1/√2 √0 4 1/√3 1/ 3 1/ 3 1/ 3 + 1 2/√6 √0 −1/ 6 2/ 6 1/ 3 1/ 2 −1/ 6 1/3 1/3 1/3 2/3 −2/6 −2/6 2/3 −2/6 4 1/3 1/3 1/3 + 1 −2/6 1/3 1/3 1/3 −2/6 −2/6 2/3 en dit laatste is de gewenste decompositie van A. 4.5 √ ] 1/√2 = −1/ 6 △ Unitaire Diagonaliseerbaarheid In het vorige college is voor reële matrices we het begrip “orthogonale diagonaliseerbaarheid”. Herinner: Definitie: Een reële matrix A heet orthogonaal diagonaliseerbaar als er een reële diagonaalmatrix D en een orthogonale matrix Q bestaan zo dat A = QDQ −1 (= QDQ T ). Het ligt nu voor de hand om te definiëren: Definitie: Een (eventueel complexe) matrix A heet unitair diagonaliseerbaar als er een (eventueel complexe) diagonaalmatrix D en een unitaire matrix U bestaan zo dat A = UDU −1 (= UDU ∗ ). In deze context spreekt men ook vaak over unitaire gelijkvormigheid: Twee matrices A en B heten unitair gelijkvormig als er een unitaire matrix U bestaat zo dat A = UBU −1 (= UBU ∗ ). Merk op dat een matrix unitair diagonaliseerbaar is als en slechts als deze matrix unitair gelijkvormig is met een diagonaalmatrix. We weten precies welke reële matrices orthogonaal diagonaliseerbaar zijn, want we herinneren ons uit het vorige college: “Een reële matrix A is orthogonaal diagonaliseerbaar als en slechts als A symmetrisch is”. De vraag is welke matrices unitair diagonaliseerbaar zijn. In tegenstelling tot “gewone” diagonaliseerbaarheid bestaat hiervoor een eenvoudig criterium. Het vergt wel wat werk om dit te bewijzen! De stelling die hierbij een centrale rol speelt is het zogenaamde lemma van Schur. Dit lemma zegt dat elke vierkante matrix unitair gelijkvormig met een driehoeksmatrix is. Hoofdstuk 4. Cn met zijn inwendigproduct structuur 92 LEMMA 4.30. [Lemma van Schur] Elke vierkante matrix is unitair gelijkvormig met een bovendriehoeksmatrix, m.a.w. bij een (eventueel) complexe n × n-matrix A bestaat een unitaire matrix U en een bovendriehoeksmatrix R zo dat A = URU ∗ . Bewijs: We bewijzen dit met inductie naar de afmetingen van A. Voor n = 1 is de stelling duidelijk (een 1×1-matrix is namelijk een bovendriehoeksmatrix, en dus kan voor U de 1×1-eenheidsmatrix genomen worden en voor R de matrix A zelf). We veronderstellen nu dat de stelling waar is voor alle (n − 1) × (n − 1)-matrices. We bewijzen dat het dan ook geldt voor een n × n-matrix. We weten dat A tenminste één eigenwaarde λ1 heeft. Laat v1 een bijbehorende eigenvector zijn met lengte 1. Met de methode van Gram-Schmidt kunnen we vectoren v2 , . . . , vn vinden, zo dat {v1 , v2 , . . . , vn } een orthonormale basis voor Cn is. Definieer de unitaire matrix U1 nu door [ ] U1 = v1 v2 · · · vn . Dan geldt AU1 = [ λ1 v1 ··· Av2 Avn ] . Hiermee kunnen we U1∗ AU1 als volgt als blokmatrix schrijven U1∗ AU1 = v1∗ v2∗ .. . [ λ1 v1 ··· Av2 Avn ] vn∗ = ··· λ1 0 .. . . A1 0 Hierbij is A1 een (n − 1) × (n − 1)-matrix, waarop we de inductieveronderstelling kunnen toepassen. Deze zegt dat er een unitaire (n − 1) × (n − 1)-matrix C bestaat, en een bovendriehoeksmatrix B zo dat A1 = CBC ∗ ofwel B = C ∗ A1 C . Maak nu de matrix U2 = 1 0 .. . 0 ··· C 0 . 0 Omdat C unitair is, is U2 dit ook. Omdat het product van twee unitaire matrices weer unitair is (zie de opgaven over unitaire matrices, §8.3), volgt dat de matrix U = U1 U2 unitair is. Er geldt U ∗ AU = U2∗ (U1∗ AU1 )U2 = U2∗ λ1 0 .. . 0 ··· A1 U2 = λ1 0 .. . ··· B . 0 De laatste gelijkheid is te verifieren door U2∗ en U2 ook als blokmatrices te schrijven en vervolgens het product uit te schrijven. Omdat B een bovendriehoeksmatrix is, is R = U ∗ AU ook een bovendriehoeksmatrix. Hiermee is de inductie voltooid. We voeren nu een speciale klasse van vierkante matrices in, namelijk de zogenaamde normale matrices. We zullen laten zien dat dit precies de unitair diagonaliseerbare matrices zijn. 4.5. Unitaire Diagonaliseerbaarheid 93 Definitie: Een (eventueel complexe) vierkante matrix A heet normaal als A∗ A = AA∗ (dus als A commuteert met zijn hermites getransponeerde). Voorbeeld 4.31. Alle Hermitese, scheefhermitese, unitaire, symmetrische, scheefsymmetrische en orthogonale matrices zijn normaal. Een voorbeeld van een normale matrix die niet van één van deze typen is, is √ 0 0 2 1 1 0 . 1 −1 0 Bedenk zelf een niet-normale vierkante matrix. Opmerking: Het lijkt wellicht op het eerste gezicht niet zo een zware eis voor een matrix om normaal te zijn. Echter, de meeste matrices zijn niet normaal. In de eerste plaats blijkt dit uit de komende toegift: commuterende (diagonaliseerbare) matrices A en B zijn gemeenschappelijk diagonaliseerbaar, d.w.z. dat er een matrix P bestaat zo dat dat A = P D1 P −1 en B = P D2 P −1 . Dus de kolommen van P vormen een basis van Cn die zowel bestaat uit eigenvectoren van A als uit eigenvectoren van B. De laatste stelling van deze paragraaf laat zien dat voor een normale matrix A geldt dat A en A∗ precies dezelfde eigenvectoren hebben. LEMMA 4.32. We hebben de volgende eigenschappen: 1. Als de matrix A normaal is en unitair gelijkvormig met een matrix B, dan is B ook normaal, 2. Een normale bovendriehoeksmatrix is een diagonaalmatrix. Bewijs: We bewijzen uitspraak 1: Schrijf B = U AU ∗ met U unitair. Dan geldt BB ∗ = (UAU ∗ )(UAU ∗ )∗ = (UAU ∗ )(UA∗ U ∗ ) = UA(U ∗ U )A∗ U ∗ = UAA∗ U ∗ en B ∗ B = (UAU ∗ )∗ (UAU ∗ ) = (UA∗ U ∗ )(UAU ∗ ) = UA∗ (U ∗ U )AU ∗ = UA∗ AU ∗ . Omdat A normaal is geldt dat AA∗ = A∗ A. Hieruit volgt direct dat BB ∗ = B ∗ B en dus dat B normaal is. Voor uitspraak 2 nemen we een normale n × n bovendriehoeksmatrix A. Schrijf C = AA∗ = A∗ A, dus a11 a12 · · · a1n a11 a22 · · · a2n a12 a22 C = . . . . . .. .. .. .. .. = ann a11 a12 .. . a22 .. . a1n a2n .. . ··· ann a1n a2n ··· ann a11 a12 a22 ··· ··· .. . a1n a2n .. . ann . Hoofdstuk 4. Cn met zijn inwendigproduct structuur 94 We kunnen de kentallen van C dus op twee manieren uitrekenen. We doen het voor de kentallen op de hoofddiagonaal: c11 = a11 a11 + a12 a12 + · · · + a1n a1n = a11 a11 Hieruit volgt dat a12 a12 + · · · + a1n a1n = |a12 |2 + · · · + |a1n |2 = 0. Dit kan alleen als a12 = · · · = a1n = 0. Op dezelfde manier vinden we c22 = a22 a22 + a23 a23 + · · · + a2n a2n = a12 a12 + a22 a22 Omdat a12 = 0 volgt hieruit dat a23 a23 + · · · + a2n a2n = |a23 |2 + · · · + |a2n |2 = 0. Dit kan alleen als a23 = · · · = a2n = 0. Op dezelfde manier kunnen we, via de berekening van c33 aantonen dat a34 = · · · = a3n = 0, enzovoorts. Zo blijkt dat alle kentallen van A boven de diagonaal nul moeten zijn. A is dus een diagonaalmatrix. Met dit lemma kunnen we het eerder genoemde criterium bewijzen: STELLING 4.33. Een matrix A is unitair diagonaliseerbaar als en slechts als A normaal is. Bewijs: Neem eerst aan dat A unitair diagonaliseerbaar is. Dat betekent dat A unitair gelijkvormig is met een diagonaalmatrix. Omdat een diagonaalmatrix normaal is, volgt uit de eerste uitspraak van Lemma 4.32 dat A ook normaal is. Neem nu aan dat A normaal is. Volgens het Lemma van Schur (Lemma 4.30) is A unitair gelijkvormig met een bovendriehoeksmatrix B. Volgens de eerste uitspraak van het Lemma 4.32 is B dus ook normaal. Uit de tweede uitspraak van hetzelfde lemma volgt dan dat B een diagonaalmatrix is. We concluderen dat A unitair diagonaliseerbaar is. GEVOLG 4.34. Alle Hermitese, scheefhermitese, unitaire, symmetrische, scheefsymmetrische en orthogonale matrices zijn unitair diagonaliseerbaar. In het complexe geval zijn de unitair diagonaliseerbare matrices dus precies de normale matrices. Maar pas op: een reële matrix A kan unitair diagonaliseerbaar zijn zonder (reëel) orthogonaal diagonaliseerbaar te zijn. Neem maar een niet symmetrische orthogonale (reële) matrix A. Dan: A is reëel maar niet symmetrisch, dus NIET orthogonaal diagonaliseerbaar. Maar: A is orthogonaal, dus normaal dus unitair diagonaliseerbaar! STELLING 4.35. Laat A een normale matrix zijn. Dan geldt dat A en A∗ precies dezelfde eigenvectoren hebben. 4.6. Normale matrices en de complexe Spektraaldecompositie 95 Bewijs: Laat A een normale matrix zijn. Stel dat u een eigenvector van A is, zeg Au = λu. u . Breidt deze ene vector uit tot een orthonormale basis van de Beschouw de vector u1 = ∥u∥ eigenruimte Eλ en daarna tot een orthonormale basis B = {u1 , . . . , un } van Cn van eigenvectoren van A, door orthonormale bases van andere eigenruimtes toe te voegen. Als U = [ u1 . . . un ], dan is U een unitaire matrix en er bestaat een diagonaalmatrix D zodat A = U DU −1 = U DU −1 = U DU ∗ . Dan A∗ = (U DU ∗ )∗ = (U ∗ )∗ DU ∗ = U DU −1 . maar dan zegt lemma 13.4 dat U bestaat u uit eigenvectoren van A∗ . Dus u1 = is eigenvector van A∗ en dus u ook. ∥u∥ Omgekeerd, ook A∗ is normaal en hetzelfde bewijs laat daarom zien dat een eigenvector van A∗ ook eigenvector is van (A∗ )∗ = A. De conclusie volgt. 4.6 Normale matrices en de complexe Spektraaldecompositie Laat A een normale n × n matrix zijn. A heeft een unitaire diagonalisering, daarom stel dat λ1 , . . . , λn de eigenwaarden zijn van A en laat {u1 , . . . , un } een orthonormale basis zijn van Cn , waarbij ui een eigenvector is van λi (voor i = 1, . . . , n). Schrijven we U = [u1 . . . un ] en D =diag(λ1 , . . . , λn ) dan geldt: ∗ λ1 0 0 u1 ∗ u1 . ∗ . .. .. = [λ1 u1 . . . λn un ] ... A = U DU = [u1 . . . un ] 0 0 0 ··· λn un ∗ u∗n Passen we op dit laatste product kolom-rij expansie toe dan krijgen we: A = λ1 u1 u∗1 +· · ·+λn un u∗n . We hebben bewezen: STELLING 4.36. (De (complexe) Spektraledecompositie Stelling, vorm 1) Laat A een normale n × n matrix zijn. Dan bestaat een orthonormale basis B = {u1 , . . . , un } van Cn bestaande uit eigenvectoren van A, zeg Aui = λi ui , voor i = 1, . . . , n. Er geldt: A = λ1 u1 u∗1 + · · · + λn un q∗n Echter, de conclusie: “A is een lineaire combinatie van projectiematrices op één dimensionale eigenruimtes” kunnen we nog niet trekken want projecteren in Cn is nog niet besproken, dus projectiematrices ook nog niet. We zullen zien dat de conclusie wel juist is. Lees verder in sectie 5.8 Hoofdstuk 5 Inwendig productruimten 5.1 Inwendig producten Ooit zijn de standaard inwendig producten op Rn en Cn ingevoerd. Dit doet wellicht vermoeden dat er ook zoiets zal bestaan als een “niet–standaard inwendig product op deze ruimten”. En inderdaad, dit is het geval. We gaan zelfs inwendig producten op een vectorruimte bekijken. De reden waarom we geı̈nteresseerd zijn in inwendig producten op vectorruimten is dat er veel meetkunde gekoppeld is aan het inwendig product. Kijk maar naar de inhoud van college 2 en 3, alle geı̈ntroceerde meetkunde in Cn is gebeurd aan de hand van het standaard inwendig product. (Evenzo in deel 1 voor Rn .) We willen dit gaan zien, en wel in iedere vectorruimte met een zogeheten “ inwendig product–structuur” er op. (Niet alle vectorruimtes hebben dat.) Dan volgt nu de definitie van een inwendig product. (Vergelijk de definitie overigens ook met het tijdens voortgezette analyse ingevoerde inwendig product.) Definitie: Een inwendig product op een vectorruimte V over L (waarbij L = R of L = C) is een voorschrift dat aan elk tweetal vectoren u en v een getal uit L toekent. Dit getal wordt genoteerd1 met ⟨u, v⟩en moet de volgende eigenschappen hebben: 1. ⟨u, v⟩ = ⟨v, u⟩ voor alle u en v in V 2. ⟨u, v1 + v2 ⟩ = ⟨u, v1 ⟩ + ⟨u, v2 ⟩ voor alle u, v1 en v2 in V 3. ⟨u, cv⟩ = c ⟨u, v⟩ voor alle u, v in V en c ∈ L 4. ⟨u, u⟩ is reëel en ⟨u, u⟩ > 0 voor elke u ̸= 0 uit V . (Positief definiet) Een vectorruimte met een inwendig product heet een inwendig productruimte. Een inwendig product op een complexe vectorruimte wordt ook wel een hermitisch2 product genoemd en de vectorruimte in dat geval een hermitisch productruimte. de natuurkunde wordt vaak de notatie ⟨u|v⟩ gebruikt voor een inwendig product. zijn boeken waarbij de eisen 2 en 3 niet voor de tweede factor, maar voor de eerste geformuleerd worden. Hier moet je altijd alert op zijn. 2 Charles Hermite 1822-1901. Hij had moeite met zijn studie en heeft 5 jaar over zijn kandidaatsexamen gedaan. Hij heeft een belangrijke bijdrage geleverd op het gebied van de elliptische functies. Verder heeft hij als eerste het transcendent zijn van e aangetoond. 0 In 1 Er 97 98 Hoofdstuk 5. Inwendig productruimten Opmerking: Als we een inwendig product op een reële vectorruimte V hebben, is ⟨u, v⟩ voor elke u en v uit V een reëel getal en dus is ⟨u, v⟩ = ⟨u, v⟩. De eerste eigenschap van het inwendig product kan dan dus vervangen worden door ⟨v, u⟩ = ⟨u, v⟩ . Met andere woorden: een inwendig product op een reële vectorruimte V is een voorschrift dat aan elk tweetal vectoren u en v een getal uit R toekent. Dit getal wordt genoteerd met ⟨u, v⟩ en moet de volgende eigenschappen hebben: 1. ⟨u, v⟩ = ⟨v, u⟩ voor alle u en v in V 2. ⟨u, v1 + v2 ⟩ = ⟨u, v1 ⟩ + ⟨u, v2 ⟩ voor alle u, v1 en v2 in V 3. ⟨u, cv⟩ = c ⟨u, v⟩ voor alle u, v in V en c ∈ L 4. ⟨u, u⟩ is reëel en ⟨u, u⟩ > 0 voor elke u ̸= 0 uit V . (Positief definiet) Rekenregels voor een inwendig product De eigenschappen 2 en 3 zeggen dat een inwendig product lineair is in de tweede variabele. Hoe zit dat met de eerste variabele? De volgende stelling, waarin nog een aantal rekenregels verwoord worden, laat zien dat het in het reële geval wel zo is, maar in het complexe geval niet. Scalaire vermenigvuldiging in de eerste variabele is in het complexe geval namelijk niet altijd gelijk aan vermenigvuldiging van het inwendig product met die scalar. STELLING 5.1 (Rekenregels voor een inwendig product). Voor een inwendig product op een inwendig productruimte V over L geldt 1. ⟨u1 + u2 , v⟩ = ⟨u1 , v⟩ + ⟨u2 , v⟩ voor alle u1 , u2 en v in V . 2. Als L = C dan ⟨cu, v⟩ = c ⟨u, v⟩ voor alle u, v in V en c ∈ C. Als L = R dan ⟨cu, v⟩ = c ⟨u, v⟩ voor alle u, v in V en c ∈ R. 3. ⟨u, 0⟩ = ⟨0, u⟩ = 0 voor alle u in V . 4. ⟨u, u⟩ = 0 als en slechts als u = 0. 5. Als voor alle u in V geldt dat ⟨x, u⟩ = ⟨y, u⟩, dan x = y Bewijs: 1. ⟨u1 + u2 , v⟩ = ⟨v, u1 + u2 ⟩ = ⟨v, u1 ⟩ + ⟨v, u2 ⟩ = ⟨v, u1 ⟩ + ⟨v, u2 ⟩ = ⟨u1 , v⟩ + ⟨u2 , v⟩. (1) (3) (1) 2. Als c ∈ L dan volgt: ⟨cu, v⟩ = ⟨v, cu⟩ = c ⟨v, u⟩ = c · ⟨v, u⟩ = c ⟨u, v⟩ . De reële situatie volgt hier direct uit omdat voor reële c geldt dat c = c. 3. ⟨u, 0⟩ = ⟨u, 00⟩ = 0 ⟨u, 0⟩ = 0. Evenzo: ⟨0, u⟩ = ⟨00, u⟩ = 0 ⟨0, u⟩ = 0. 4. Als u ̸= 0 dan per definitie ⟨u, u⟩ > 0. 5.2. Standaard inwendig producten 99 5. Neem voor het bewijs van de vijfde rekenregel aan dat ⟨x, u⟩ = ⟨y, u⟩ voor alle u in V . Daaruit volgt dat 0 = ⟨x, u⟩ − ⟨y, u⟩ = ⟨x, u⟩ + ⟨−y, u⟩ = ⟨x − y, u⟩ voor alle u in V (hier zijn respectievelijk de tweede rekenregel van deze stelling en de tweede eis uit de definitie van een inwendig product gebruikt). In het bijzonder geldt dus dat ⟨x − y, x − y⟩ = 0. Uit de vierde rekenregel van deze stelling volgt dan dat x − y = 0 en dus dat x = y 5.2 Standaard inwendig producten Voorbeeld 5.2. Het standaard inwendig product op Rn is gedefinieerd door ⟨x, y⟩ = xT y. Vaak wordt dit ook wel het dot product van x en y genoemd en genoteerd met x · y. Voor x = (x1 , . . . , xn ) en y = (y1 , . . . , yn ) geldt dus dat ⟨x, y⟩ = x · y = xT y = x1 y1 + · · · + xn yn . Ga zelf na dat dit inderdaad een inwendig product op Rn definieert. (Dat wil zeggen, ga na dat aan de voorwaarden van de definitie “reëel inwendig product” voldoet.) Voorbeeld 5.3. Het standaard inwendig product op Cn is gedefinieerd door ⟨u, v⟩ = uT v = u∗ v = u1 v1 + u2 v2 + · · · + un vn . Ga zelf nog eens na dat dit inderdaad een inwendig (hermitisch) product op Cn definieert. Voorbeeld 5.4. Op de ruimte R∞ is geen ‘natuurlijk inwendig product te definiëren, dit in tegenstelling tot ℓ2 (R) en ℓ2 (C). Dit is het grote voordeel van de ruimte ℓ2 (R) boven R∞ (resp. ℓ2 (C) boven C∞ ). De volgende uitdrukking definieert een inwendig product op ℓ2 (R) die het standaard inwendig product op ℓ2 (R)genoemd wordt: ⟨(x1 , x2 , . . . ) , (y1 , y2 , . . . )⟩ = x1 y1 + x2 y2 + · · · = ∞ ∑ xn yn . n=1 Dat het aan de vier eisen van een inwendig product voldoet is geheel analoog aan het standaard inwendig product op Rn . Omdat we hier te maken hebben met een oneindige som (een reeks dus), moeten we alleen eerst nog nagaan of dit inwendig product wel altijd een eindige uitkomst heeft (met andere woorden, we moeten nagaan of de reeks convergent is). ∞ ∑ ∞ Merk daartoe ten eerste op dat als x = {xn }∞ en y = {y } uit ℓ (R) zijn, dat dan |xn |2 < n 2 n=1 n=1 n=0 ∞ ∑ |yn |2 < ∞ en omdat |xn yn | = |xn ||yn | ≤ 12 |xn |2 + 12 |yn |2 (want: (|xn | − |yn |)2 ≥ 0), volgt ∑ dat de reeks xn yn absoluut convergent, en dus convergent is. ∞ en n=0 n≥0 De volgende uitdrukking wordt het standaard inwendig (hermitisch) product op ℓ2 (C) genoemd: ⟨(x1 , x2 , . . . ) , (y1 , y2 , . . . )⟩ = x1 y1 + x2 y2 + · · · = ∞ ∑ n=1 xn yn . 100 Hoofdstuk 5. Inwendig productruimten De convergentie van de reeks 1 2 2 |yn | ∞ ∑ xn yn volgt ook uit de ongelijkheid |xn yn | = |xn ||yn | ≤ 12 |xn |2 + n=1 en het feit dat ook voor complexe reeksen geldt: absoluut convergente reeksen zijn conver- gent. Voorbeeld 5.5. Bij het vak voortgezette analyse uit het eerste jaar zijn we al het standaard inwendig product op C([a, b], R) en C([a, b], C) tegengekomen. Op C([a, b], R) is dit: ∫ b ⟨f, g⟩ = f (x)g(x) dx. a En op C([a, b], C) wordt dit: ∫ b ⟨f, g⟩ = f (x)g(x) dx. a Dat dit inderdaad een inwendig product is, is niet zo lastig aan te tonen. De eerste drie eisen zijn ∫b ∫b rechtstreeks te verifiëren. De vierde eis: ⟨f, f ⟩ = a f (x)f (x) dx = a |f (x)|2 dx ≥ 0 en tenslotte: stel dat ⟨f, f ⟩ = 0. Als f niet de nulfunctie zou zijn, zeg f (x0 ) ̸= 0 met x0 ∈ [a, b], dan, vanwege de continuı̈teit van f , is er een heel deelinterval [p, q] met x0 ∈ [p, q] ⊂ [a, b] zodat |f (x)|2 ≥ 12 |f (x0 )|2 ∫b als x ∈ [p, q]. Maar dan zou gelden dat ⟨f, f ⟩ = a |f (x)|2 dx > 0, dit in tegenspraak met de aanname dat ⟨f, f ⟩ = 0. Kortom, f moet wel de nulfunctie zijn. ∫b Opmerking: Een voor de hand liggende vraag is: waarom kan de formule ⟨f, g⟩ = a f (x)g(x) dx niet als inwendig product gebruikt worden op de vectorruimte F ([a, b], R), de vectorruimte van alle functies op [a, b]? ∫b Welnu, het eerste probleem is dat er veel functies bestaan waarvoor de integraal ⟨f, g⟩ = a f (x)g(x) dx domweg niet bestaat. Dit probleem zou nog te vermijden zijn door niet alle functies te nemen, maar je te beperken tot de vectorruimte van de integreerbare funcies op [a, b]. Maar dan doemt een tweede probleem op: aan de eis “⟨f, f ⟩ = 0 ⇒ f = 0” moet voldaan worden. Beschouw de functie { 0 x ̸= a+b 2 f (x) = 1 x = a+b 2 ∫b Deze functie f is integreerbaar op [a, b] en heeft de eigenschap: ⟨f, f ⟩ = a (f (x))2 dx = 0. Maar f is zeker niet de nulfunctie. Er is maar één manier om aan deze eis te voldoen, functies die in eindig veel punten uit het domein verschillen hetzelfde verklaren. Dit gebeurt in de vectorruimten ∫b P C([a, b], R) en L2 ([a, b], R), en inderdaad, op deze vectorruimten vormt ⟨f, g⟩ = a f (x)g(x) dx een inwendig product. 5.3 Niet standaard inwendig producten We bekijken eerst niet standaard inwendig producten op Rn . Laten we maar beginnen met een voorbeeld. Voorbeeld 5.6 (Andere inwendig producten op Rn ). De uitdrukking ⟨x, y⟩ = 3x1 y1 + x1 y2 + x2 y1 + x2 y2 definieërt een inwendig product op R2 . Uit het feit dat deze uitdrukking te schrijven is in de vorm ⟨x, y⟩ = xT Ay 5.3. Niet standaard inwendig producten 101 met A de symmetrische matrix [ A= 3 1 1 1 ] , (ga na of je dit inziet!)(maar zie ook de volgende stelling). Via deze schrijfwijze volgt direct de eerste, tweede en derde eis voor een inwendig product, en wel volgen deze uit de rekenregels voor de matrixvermenigvuldiging en transponeren. De eerste eis bewijs je bijvoorbeeld als volgt: ⟨y, x⟩ = (⟨y, x⟩)T = (yT Ax)T = xT AT (yT )T = xT Ay = ⟨x, y⟩ . Bij het eerste =-teken werd gebruikt dat het inwendig product een (in dit geval) reëel getal is, wat dus gelijk is aan zijn getransponeerde en bij het vierde =-teken dat A symmetrisch is (dus AT = A). Rest aan te tonen dat de uitdrukking positief definiet is. Schrijf daartoe ⟨x, x⟩ = 3x21 + 2x1 x2 + x22 = (x1 + x2 )2 + 2x21 . Het is duidelijk dat dit altijd ≥ 0 is en alleen gelijk aan 0 als x1 + x2 = 0 én x1 = 0, dus alleen als x = 0. Kortom, dit is een niet–standaard inwendig product op R2 . Merk op dat op dit nieuwe inwendig product niet geldt dat ⟨e1 , e2 ⟩ = 0 of ⟨e1 , e1 ⟩ = 1. Bovenstaande aanpak is geen toeval, want: STELLING 5.7. Ieder inwendig product ⟨x, y⟩ op Rn is te schrijven als ⟨x, y⟩ = xT Ay, met een unieke symmetrische matrix A. Bovendien geldt dat ⟨x, y⟩ te schrijven is n ∑ n ∑ xi yj ⟨ei , ej ⟩ i=1 j=1 Bewijs: Om dit in te zien, schrijven we: ⟨x, y⟩ = ⟨x1 e1 + · · · + xn en , y⟩ = x1 ⟨e1 , y⟩ + · · · + xn ⟨en , y⟩ = = [ x1 ... xn ⟨e1 , y⟩ ] .. = [ x 1 . ⟨en , y⟩ ⟨e1 , y1 e1 + · · · + yn en ⟩ ] .. . ⟨en , y1 e1 + · · · + yn en ⟩ . . . xn y1 ⟨e1 , e1 ⟩ + · · · + yn ⟨e1 , en ⟩ ⟨e1 , e1 ⟩ · · · . .. .. = [x1 . . . xn ] = [x1 . . . xn ] . y1 ⟨en , e1 + · · · + yn ⟨en , en ⟩⟩ ⟨en , e1 ⟩ · · · ⟨e1 , en ⟩ y1 .. .. . . ⟨e1 , en ⟩ yn De uniciteit van de matrix A volgt uit het feit dat ⟨ei , ej ⟩ = eTi Aej = [A]i,j . Tenslotte, als we het product uitwerken volgt de laatste claim. Als we moeten nagaan of een gegeven formule een inwendigproduct op Rn is, dan moeten we ons realiseren dat de formule een sommatie van termen ai,j xi yj is. De aanpak zal zijn: schrijf deze formule als xT Ay, ga na of A symmetrisch is (zo niet, dan niet aan eis (1) voldaan). Vervolgens moeten we eis 4 controleren 102 Hoofdstuk 5. Inwendig productruimten Definitie: Laat A een reële symmetrische n×n matrix zijn. De matrix heet positief definiet, als xT Ax > 0, voor alle x ̸= 0. Merk op dat de definiet positive symmetrische matrices precies die matrices zijn waarvoor de formule xT Ay een inwendig product op Rn geeft. Om voor een gegeven symmetrische matrix A na te gaan of de formule ⟨x, y⟩ = xT Ay inderdaad een inwendig product op Rn geeft (dus om eis 4 te controleren) volstaat vaak kwadraatafsplitsen in xT Ax. Toch kan dit soms vrij lastig zijn. We geven eerst nog twee voorbeelden. Voorbeeld 5.8. De uitdrukking ⟨x, y⟩ = x1 y1 + x1 y2 + x2 y1 + x2 y2 definieert geen inwendig product op R2 . Om dit in te zien schrijven we eerst: ⟨x, y⟩ = x1 y1 + x1 y2 + x2 y1 + x2 y2 = [ x1 x2 ] [ 1 1 1 1 ][ y1 y2 ] Er volgt direct dat aan de eerste, tweede en derde eis voor een inwendig product voldaan is. Tenslotte zien we in dat niet aan eis vier voldaan is. ⟨x, x⟩ = x21 + 2x1 x2 + x22 = (x1 + x2 )2 . [ Het is duidelijk dat dit altijd ≥ 0 is. Maar we zien ook dat als x = terwijl x ̸= 0. 1 −1 ] dat dan ook ⟨x, x⟩ = 0 Tenslotte nog een voorbeeld op R3 . Voorbeeld 5.9. Laat zien dat de uitdrukking ⟨x, y⟩ = 2x1 y1 + 2x2 y2 + 5x3 y3 − x1 y2 − x2 y1 − 2x1 y3 − 2x3 y1 + x2 y3 + x3 y2 een inwendig product op R3 definieert. Om dit in te zien schrijven we eerst: ⟨x, y⟩ = [ x1 x2 x3 ] 2 −1 −2 y1 −1 2 1 y2 −2 1 5 y3 Er volgt direct dat aan de eerste, tweede en derde eis voor een inwendig product voldaan is. Tenslotte controleren we of aan eis vier voldaan is. ⟨x, x⟩ = 2x21 + 2x22 + 5x23 − 2x1 x2 − 4x1 x3 + 2x2 x3 = Ga dit schrijven als sommatie kwadraten, hierbij uitgaande van de dubbelproducten: = (x1 − x2 )2 + (x1 − 2x3 )2 + (x2 + x3 )2 5.3. Niet standaard inwendig producten 103 Het is duidelijk dat dit altijd ≥ 0 is. We zien ook dat als ⟨x, x⟩ = 0 dat dan volgt: x1 − x2 = 0, x1 − 2x3 = 0 en x2 + x3 = 0. Uit oplossen van het stelsel volgt snel dat x = 0. Dus de conclusie volgt. Wil het via kwadraat afsplistsen niet lukken dan willen de volgende stellingen nog wel eens helpen. We presenteren geen bewijs. STELLING 5.10. Laat A een reële symmetrische n × n matrix zijn. Equivalent zijn: 1. De matrix A is definiet positief. 2. Alle eigenwaarden van A zijn (strikt) positief. STELLING 5.11. Laat A een reële symmetrische n × n matrix zijn. Equivalent zijn: 1. De matrix A is definiet positief. 2. Alle determinanten van de linksboven k × k ondermatrices van A zijn (strikt) positief. Loop zelf de drie bovenstaande voorbeelden opnieuw door met de twee criteria en beslis zelf hoe u het wilt doen. Hoe ziet een niet–standaard inwendig product op Cn eruit? STELLING 5.12. Ieder inwendig product ⟨x, y⟩ op Cn is te schrijven als ⟨x, y⟩ = x∗ Ay, met een unieke Hermitische matrix A. Bovendien geldt dat ⟨x, y⟩ te schrijven is n ∑ n ∑ xi yj ⟨ei , ej ⟩ i=1 j=1 Bewijs: ⟨x, y⟩ = ⟨x1 e1 + · · · + xn en , y⟩ = x1 ⟨e1 y, +⟩ · · · + xn ⟨en y, =⟩ ⟨e1 , y⟩ ⟨e1 , y1 e1 + · · · + yn en ⟩ ] [ .. = [ x . . . x ] .. = x1 . . . xn 1 n . . ⟨en , y⟩ ⟨en , y1 e1 + · · · + yn en ⟩ y1 ⟨e1 , e1 ⟩ + · · · + yn ⟨e1 , en ⟩ ⟨e1 , e1 ⟩ · · · ⟨e1 , en ⟩ y1 .. .. = [x . . . x ] .. .. = [x1 . . . xn ] . 1 n . . . y1 ⟨en , e1 + · · · + yn ⟨en , en ⟩⟩ ⟨en , e1 ⟩ · · · ⟨e1 , en ⟩ yn De uniciteit van de matrix A volgt uit het feit dat ⟨ei , ej ⟩ = eTi Aej = [A]i,j en dit laat ook zien dat de matrix A Hermitisch is. Tenslotte, als we het product uitwerken volgt de laatste claim. 104 Hoofdstuk 5. Inwendig productruimten Definitie: Laat A een Hermitische n × n matrix zijn. De matrix heet positief definiet, als x∗ Ax > 0, voor alle x ̸= 0. STELLING 5.13. Laat A een Hermitische n × n matrix zijn. Equivalent zijn: 1. De matrix A is definiet positief. 2. Alle eigenwaarden van A zijn (strikt) positief. 3. Alle determinanten van de linksboven k × k ondermatrices van A zijn (strikt) positief. Om bij een gegeven formule eis 4 na te gaan in het complexe geval via kwadraat afsplitsen is in het algemeen bijzonder lastig. We zullen één voorbeeld geven. Voorbeeld 5.14. Beschouw de uitdrukking op C2 , gedefinieerd door ⟨x, y⟩ = 2x1 y1 + (1 + i)x1 y2 + (1 − i)x2 y1 + x2 y2 = xT Ay = x∗ Ay ] 2 1+i met A = . Ga na of dit een inwendig product is op C2 . 1−i 1 Merk op dat A Hermitisch is (dus A∗ = A). De notatie ⟨x, y⟩ = x∗ Ay geeft dat aan de eisen (2) en (3) voldaan is. Ook aan eis (1) is voldaan, want: [ ∗ ⟨y, x⟩ = ⟨y, x⟩ = (y∗ Ax)∗ = x∗ A∗ y = x∗ Ay = ⟨x, y⟩ . (overigens kan dit natuurlijk ook ingezien worden door ⟨y, x⟩ uit te schrijven en te constateren dat het resultaat hetzelfde is als ⟨x, y⟩). We moeten nu alleen nog na gaan of het product positief definiet is. Daartoe schrijven we ⟨x, x⟩ uit: ⟨[ ] [ ]⟩ x1 x1 , = 2|x1 |2 + (1 + i)x1 x2 + (1 − i)x1 x2 + |x2 |2 = |(1 − i)x1 + x2 |2 . x2 x2 (Hierbij vind ik de laatste stap lastig!) Aan deze laatste [ vorm]zien we dat ⟨x, x⟩ altijd ≥ 0 is. −1 Maar we zien ook dat bijvoorbeeld voor de vector x = geldt: ⟨x, x⟩ = 0 terwijl x ̸= 0. 1−i Deze constatering toont aan dat de uitdrukking geen inwendig product is. Merk op dat criterium 3 van Stelling 5.13 ons wel makkelijk doet inzien dat in bovenstaand voorbeeld geen]inwendig product gegeven wordt door de formule. Inderdaad, de matrix A = [ 2 1+i heeft twee linkerboven ondermatrices, de matrix [2], die een positieve determi1−i 1 nant en de matrix A zelf, die determinant nul heeft. Het komt niet zo heel erg vaak voor dat op Rn en Cn andere inwendig producten dan de standaard inwendig producten gebruikt worden. Als met functieruimten gewerkt wordt gebeurt dit wel veel vaker. Het volgende voorbeeld geeft verschillende inwendig producten op functieruimten. Zie overigens ook voortgezette analyse. Voorbeeld 5.15. Als ρ een positieve (dus ρ(x) > 0 voor alle x uit het domein) continue functie op [a, b] is, dan is elke uitdrukking van de vorm ∫ b ⟨f, g⟩ = ρ(x)f (x)g(x) dx a 5.4. Meetkunde met behulp van een inwendig product 105 een inwendig product op C([a, b], L). In één van de opgsven mag u dit controleren. (Maar het is ook een inwendig product op P C([a, b], L) of op L2 ([a, b], L).) Een speciaal geval hiervan is het veel voorkomende inwendig product op C([0, 2π], L) gedefinieerd door ∫ 2π 1 f (x)g(x) dx ⟨f, g⟩ = 2π 0 (voor ρ is dus een constante functie genomen). Soms werken we bij functieruimten niet met functies waarvan het domein een interval van de vorm [a, b] is, maar met functies waarvan het domein onbegrensd is. Je moet dan net even iets kritischer zijn omdat de integraal die het inwendig product definieert dan moet convergeren. Zo is ∫ ∞ ⟨f, g⟩ = f (x)g(x)e−x dx 0 een inwendig product op deelruimten van functies uit F([0, ∞), L) die de eigenschap hebben dat bovenstaande integraal convergeert voor elke tweetal functies uit die deelruimte. In dit geval is de verzameling P ol([0, ∞), L) van alle polynomen een voorbeeld van zo’n deelruimte. Evenzo is ∫ ∞ ⟨f, g⟩ = f (x)g(x)e−x dx 2 −∞ een inwendig product op P ol((−∞, ∞), L) 5.4 Meetkunde met behulp van een inwendig product In de ruimten Rn en Cn is het standaard inwendig product gebruikt om allerlei meetkundige aspecten als lengte van een vector, afstand tussen twee vectoren, loodrechte stand van vectoren en orthogonale projecties op deelruimten te definiëren. In deze en de volgende paragraaf zullen we dit allemaal nog eens over doen, maar nu voor een willekeurige inwendig productruimte en er zal blijken dat vrijwel alles wat in Rn en Cn is gedaan, zogoed als letterlijk is over te nemen, tot aan de bewijzen toe. Als eerste zal de lengte of norm van een vector gedefinieerd worden. Lengte van een vector Definitie: In een inwendig productruimte V wordt het getal √ ∥v∥ = ⟨v, v⟩. de lengte of norm van een vector v genoemd. Omdat een inwendig product per definitie positief definiet is kan de wortel van ⟨v, v⟩ altijd genomen worden en is de lengte blijkbaar goed gedefinieerd. Voorbeeld 5.16. Om de lengte van de functie f , met voorschrift f (x) = sin x, uit C([0, 2π], R) voorzien van het standaard inwendig product te berekenen, moet eerst ∫ 2π ⟨f, f ⟩ = sin2 x dx 0 106 Hoofdstuk 5. Inwendig productruimten bepaald worden. Ga na dat dit π is. De lengte van sin x is in deze inwendig productruimte dus √ π. Realiseer je overigens dat deze lengte NIETS met de lengte van de grafiek van f te maken heeft! Voor de lengte van fn (x) = einx (n een geheel getal) als functie uit C([0, 2π], C) voorzien van het inwendig product ∫ 2π 1 ⟨f, g⟩ = f (x)g(x) dx 2π 0 geldt ∥fn ∥2 = ⟨fn , fn ⟩ = 1 2π ∫ 2π fn (x)fn (x) dx = 0 1 2π ∫ 0 2π e−inx einx dx = 1 2π ∫ 2π 1 dx = 1 0 en dus ∥fn ∥ = 1. We merken nog op dat de lengte van een vector niet alleen van de vector afhangt, maar ook van het gekozen inwendig product! Als we op R3 dus een ander inwendig product kiezen dan het standaard inwendig product, is de lengte van een vector in het algemeen niet de natuurlijke lengte. De volgende stelling geeft een aantal eigenschappen van de norm. Ga na dat dit allemaal eigenschappen zijn, die we, op basis van onze intuı̈tie voor het begrip lengte, ook zouden willen hebben! STELLING 5.17. (Rekenregels voor lengte) Voor alle vectoren v en w en voor elke scalar c uit een inwendig productruimte V over L geldt: • ∥v∥ ≥ 0; • ∥v∥ = 0 ⇐⇒ v = 0; • ∥cv∥ = |c|∥v∥. Eenheidsvector en normaliseren van een vector b met lengte 1 maken die dezelfde Bij een vector v ongelijk aan nul willen we vaak een vector v richting heeft als v. De manier waarop deze gevonden wordt volgt direct uit de eigenschappen van norm: zoek een positieve reële scalar c zo dat 1 = ∥cv∥ = |c|∥v∥ = c∥v∥. Blijkbaar voldoet 1 c = ∥v∥ en we concluderen 1 b= v. v ∥v∥ Dit proces om van een vector een vector met lengte 1 te maken die dezelfde richting heeft, noemen b wordt wel de bij v horende genormaliseerde vector genoemd. Een vector we normaliseren en v met lengte 1 heet ook wel een eenheidsvector. Voorbeeld 5.18. De functie fb(x) = √1π sin x is de bij f (x) = sin x horende functie van lengte 1 die dezelfde “richting” heeft als f (x) = sin x, tenminste, als we werken in C([0, 2π], R) voorzien van het standaard inwendig product. Afstand tussen vectoren Nu we de lengte van een vector hebben, kunnen we ook de afstand tussen twee vectoren definiëren. 5.4. Meetkunde met behulp van een inwendig product 107 Definitie: In een inwendig productruimte V over L wordt de afstand d(v, w) tussen de vectoren v en w uit V gedefinieerd door d(v, w) = ∥v − w∥. Voorbeeld 5.19. De afstand tussen f (x) = sin x en g(x) = cos x in C([0, 2π], R) voorzien van het standaard inwendig product is de wortel van ∫ ∫ 2π ∥f − g∥2 = 0 dus 2π 2 (f (x) − g(x)) dx = (sin2 x + cos2 x − 2 sin x cos x) dx = 2π, 0 √ 2π. √∫ 2π 0 2 (f (x) − g(x)) dx. Omdat de wortel en ∫ 2π het kwadraat niet tegen elkaar wegvallen, zal dit niet gelijk zijn aan 0 |f (x) − g(x)| dx, de oppervlakte tussen de grafieken. Toch is dit wel een goede intuı̈tie: “de afstand tussen twee functies is klein, als de oppervlakte tussen de grafieken klein is”. Opmerking: De afstand tussen f en g is dus Loodrechte stand van vectoren We definiëren weer: Definitie: We zeggen dat vectoren v en w uit een inwendig productruimte V loodrecht op elkaar staan of orthogonaal zijn als ⟨v, w⟩ = 0. We noteren dit als v ⊥ w. Voorbeeld 5.20. In C([0, 2π], C) voorzien van het inwendig product ⟨f, g⟩ = 1 2π ∫ 2π f (x)g(x) dx 0 geldt dat voor verschillende gehele getallen n en m de functies fn (x) = einx en fm (x) = eimx orthogonaal zijn: 1 ⟨fn , fm ⟩ = 2π = ∫ 2π einx eimx 0 1 dx = 2π 1 ei(m−n)x 2πi(m − n) ∫ 2π ei(m−n)x dx 0 2π =0 0 Eén van de meest bekende stellingen die met loodrechte stand te maken heeft is de stelling van Pythagoras. Deze blijkt in elke inwendig productruimte te gelden! 108 Hoofdstuk 5. Inwendig productruimten STELLING 5.21 (Stelling van Pythagoras). Als in een inwendig productruimte V de vectoren u en v orthogonaal zijn, dan geldt ∥u∥2 + ∥v∥2 = ∥u + v∥2 . In een reële inwendig productruimte geldt de omkering ook, dus als daar bovenstaande gelijkheid geldt, dan volgt daaruit dat u en v orthogonaal zijn. Het bewijs mag je zelf geven in een opgave. 5.5 Meetkunde met behulp van een inwendig product (vervolg) Als op een vectorruimte V een inwendig product ⟨, ⟩ aanwezig is, hebben we tot nu toe gedefinieerd: • De lengte of norm van een vector: ∥v∥ = √ ⟨v, v⟩. • Eenheidsvectoren • Normaliseren van een vector v ̸= 0. • Afstand d(v, w) = ∥v − w∥ tussen de vectoren v, w. • Loodrechte stand van vectoren. • De stelling van Pythagoras. De orthogonale projectie Ook in inwendig product ruimten willen we de orthogonale projectie van de vector x op de vector u definiëren. Deze zullen we noteren met: proju (x). Het is duidelijk dat proju (x) een scalair veelvoud zal zijn van u. We stellen daarom: x − λu x proju (x) = λu en het zal dat scalaire veelvoud zijn van u zo dat x − λu ⊥ u. Hieruit is λ te bepalen. Inderdaad: u ⊥ x − λu ⇒ ⟨u, x − λu⟩ = 0 ⇒ ⟨u, x⟩ − λ ⟨u, u⟩ = 0 en dus λ= ⟨u, x⟩ ⟨u, u⟩ λu O u 5.5. Meetkunde met behulp van een inwendig product (vervolg) 109 Definitie: Laat x en u vectoren in de inwendig productruimte V zijn met u ̸= 0. De orthogonale projectie van x op u is gelijk aan de vector: ( ) ⟨u, x⟩ u. proju (x) = ⟨u, u⟩ De coëfficiënt ⟨u,x⟩ ⟨u,u⟩ heet de Fourier-coëfficiënt bij de projectie. Beroemde ongelijkheden We beginnen met de beroemde onglijkheid van Cauchy3 -Schwarz4 . STELLING 5.22 (De ongelijkheid van Cauchy-Schwarz ). Voor alle vectoren v en w uit een inwendig productruimte V over L geldt: | ⟨v, w⟩ | ≤ ∥v∥ · ∥w∥. Verder geldt: er treedt gelijkheid op (dus | ⟨v, w⟩ | = ∥v∥ · ∥w∥) als en slechts als v en w afhankelijk zijn. Bewijs: Als w = 0 dan is de ongelijkheid duidelijk. Neem daarom aan dat w ̸= 0. Beschouw nu ( ) ⟨w, v⟩ de projectie van v op w: projw (v) = w. Daarom: v − projw (v)⊥w. Pythagoras geeft: ⟨w, w⟩ ∥v − projw (v)∥2 + ∥ projw (v)∥2 = ∥v∥2 en dus: ∥ projw (v)∥2 ≤ ∥v∥2 en dus ∥ projw (v)∥ ≤ ∥v∥. Dus: ( en dus: ( ⟨w, v⟩ ⟨w, w⟩ | ⟨w, v⟩ | ∥w∥2 ) w ≤ ∥v∥ ) ∥w∥ ≤ ∥v∥ en de ongelijkheid volgt. Stel nu dat | ⟨v, w⟩ | = ∥v∥ · ∥w∥. Bekijk bovenstaand bewijs. Als w = 0 (dan is er gelijkheid) dan zijn v, w duidelijk afhankelijk. Als w ̸= 0, dan laat het bewijs zien dat gelijkheid impliceert dat ∥v − projw (v)∥ = 0 en dus v − projw (v) = 0. Omdat dan projw (v) = v en omdat projw (v) zeker een scalair veelvoud van w is, volgt: v is een scalair veelvoud van w. Dus v, w zijn afhankelijk. 3 Augustin Louis Cauchy (1789-1857). Abel schreef in 1826 over hem: “Cauchy is gek en daar is niets aan te doen, maar hij is op dit moment de enige die weet hoe wiskunde gedaan moet worden.” Cauchy heeft zich met veel beziggehouden. Hij heeft onder andere de theorie ontwikkeld voor Fourier-getransformeerden en diagonalisatie van matrices. 4 Karl Herman Amandus Schwarz (1843-1921). Hij schreef ter gelegenheid van de 70-ste verjaardag van Weierstrass een Festschrift, waarin onder andere de ongelijkheid van Cauchy-Schwarz voorkomt en waar Picard zijn existentie-bewijs van oplossingen van differentiaalvergelijkingen op gebaseerd heeft. 110 Hoofdstuk 5. Inwendig productruimten STELLING 5.23 (De driehoeksongelijkheid ). Voor alle vectoren v en w uit een inwendig productruimte V over L geldt: ∥v + w∥ ≤ ∥v∥ + ∥w∥ Bewijs: Voor het bewijs van de driehoeksongelijkheid wordt ∥v + w∥2 uitgewerkt. Hierbij passen we bij de eerste ongelijkheid toe dat voor complexe getallen z geldt dat Re z ≤ |z| en bij de tweede de ongelijkheid van Cauchy-Schwarz. ∥v + w∥2 = ⟨v + w, v + w⟩ = ⟨v, v⟩ + ⟨v, w⟩ + ⟨w, v⟩ + ⟨w, w⟩ = ⟨v, v⟩ + ⟨v, w⟩ + ⟨v, w⟩ + ⟨w, w⟩ = ⟨v, v⟩ + 2 Re(⟨v, w⟩) + ⟨w, w⟩ ≤ ⟨v, v⟩ + 2| ⟨v, w⟩ | + ⟨w, w⟩ = ∥v∥2 + 2| ⟨v, w⟩ | + ∥w∥2 ≤ ∥v∥2 + 2∥v∥ · ∥w∥ + ∥w∥2 = (∥v∥ + ∥w∥)2 Door nu aan beide zijden de wortel te nemen vinden we de gezochte ongelijkheid. Voorbeeld 5.24. Als we Rn voorzien van het standaard inwendig product, dan geldt voor de vectoren v = (1, 1, . . . , 1) en w = ( 11 , 12 , . . . , n1 ) dat √ √ 1 1 1 1 1 1 ∥v∥ = n, ∥w∥ = + + · · · + 2 en ⟨v, w⟩ = + + · · · + . 1 4 n 1 2 n Uit de ongelijkheid van Cauchy-Schwarz volgt dan ( ) √ 1 1 1 1 1 1 1 √ + + ··· + ≤ + + ··· + 2. n 1 4 n n 1 2 Juist voor dit type ongelijkheden wordt Cauchy-Schwarz vaak gebruikt. Er is ook nog een zogenaamde omgekeerde driehoeksongelijkheid Zie hiervoor opgave ??. Orthogonaal complement Loodrechte stand van vectoren kunnen we uitbreiden tot loodrechte stand van een vector op een deelruimte. Definitie: We zeggen dat een vector x uit een inwendig productruimte V loodrecht op de deelruimte W van V staat als x loodrecht staat op iedere vector uit W . Notatie: x ⊥ W . Het orthogonale complement van W is de verzameling die bestaat uit alle vectoren die loodrecht staan op W . We noteren deze verzameling als W ⊥ . Voorbeeld 5.25. Het is duidelijk dat in een inwendig productruimte V geldt dat elke vector loodrecht staat op de nulvector. Dat betekent dat het orthogonale complement van de deelruimte {0} heel V is, dus {0}⊥ = V . Ga zelf na dat V ⊥ = {0}. 5.5. Meetkunde met behulp van een inwendig product (vervolg) 111 Voorbeeld 5.26. Ondanks het feit dat in Pol(R) met inwendig product ∫ 1 ⟨f, g⟩ = f (x)g(x) dx −1 geldt dat het polynoom x2 loodrecht staat op het polynoom x (ga dit na), behoort x2 niet tot het orthogonale complement van W = Span{1, x}. Dat komt omdat x2 niet loodrecht staat op elke vector uit W . Zo geldt bijvoorbeeld dat x2 niet loodrecht staat op het constante polynoom 1 (ga dit ook na). De vector p(x) = 3x2 − 1 behoort wel tot het orthogonale complement van W : snel is in te zien dat deze vector loodrecht staat op beide opspannende vectoren 1 en x van W , waaruit geconcludeerd kan worden dat 3x2 − 1 dan ook loodrecht staat op elke vector uit W . Deze zijn namelijk van de vorm c1 · 1 + c2 · x en ⟨p(x), c1 · 1 + c2 · x⟩ = c1 ⟨p(x), 1⟩ + c2 ⟨p(x), x⟩ = 0 waaruit het volgt. Bovenstaand voorbeeld kan gegeneraliseerd worden tot de volgende stelling, die een handige methode geeft om voor een eindig dimensionale deelruimte W het orthogonale complement W ⊥ te berekenen of te bepalen of een vector loodrecht op W staat (met andere woorden, bij het bepalen of die vector tot het orthogonale complement W ⊥ behoort). STELLING 5.27. Het orthogonale complement van een deelruimte W van een inwendig productruimte V is een deelruimte van V . Het bewijs van deze stelling mag je zelf geven. Ook geldt weer: STELLING 5.28. Als W een deelruimte van een inwendig productruimte V is, zeg W = Span{v1 , v2 , . . . , vp , . . .}, dan behoort w tot W ⊥ als en slechts als w ⊥ vi voor alle i. Ook deze stelling mag je zelf bewijzen. Veel eigenschappen die we kennen uit het eindig dimensionale geval, gelden nog steeds. Bijvoorbeeld: W ∩ W⊥ = ∅ Andere eigenschappen niet, zoals het volgende voorbeeld laat zien. Voorbeeld 5.29. Beschouw V = ℓ2 (R) met het standaard inwendig product. Beschouw de deelruimte W = Span{e1 , . . . , en , . . .}. Er geldt: W ̸= V maar er geldt ook: W ⊥ = {0}. Want: als x = (x1 , . . . , xn , . . .) ∈ W ⊥ , dan x⊥ei voor alle i, dus 0 = ⟨x, ei ⟩ = xi voor alle i. Als xi = 0 voor alle i, dan x = 0. Merk op dat Voorbeeld 5.29 geldt: ( ⊥ )⊥ W ̸= W. ( ⊥ )⊥ Inderdaad, W = {0}⊥ = V ̸= W . Opmerking: 112 5.6 Hoofdstuk 5. Inwendig productruimten Orthogonale verzamelingen en de Grammatrix We bouwen door op orthogonaliteit, op dezelfde manier zoals we in Rn en Cn gedaan hebben met het standaard inwendig product. We “herhalen” de volgende definitie. Definitie: Een (eventueel oneindige) verzameling vectoren S in V heet een orthogonale verzameling vectoren als elk tweetal vectoren uit S orthogonaal is. Als ook nog geldt dat elke vector een eenheidsvector is (dus lengte 1 heeft), dan wordt het ook wel een orthonormale verzameling genoemd. Voorbeeld 5.30. Uit voorbeeld 5.20 blijkt dat de functies f0 , f1 , f−1 , f2 , f−2 ,. . . met voorschrift fn (x) = einx een (oneindige) orthogonale verzameling vormen in C([0, 2π], C) voorzien van het inwendig product ⟨f, g⟩ = 1 2π ∫ 2π f (x)g(x) dx. 0 Uit voorbeeld 5.16 blijkt bovendien dat elke fn een eenheidsvector is, en dus vormen de functies zelfs een orthonormale verzameling5 . De eerste, van Rn en Cn bekende,prettige eigenschap van orthogonale verzamelingen is dat deze onafhankelijk zijn (tenminste. . . , als ze de nulvector niet bevatten). STELLING 5.31. Een (eventueel oneindige) orthogonale verzameling niet-nulvectoren is lineair onafhankelijk. Het bewijs van deze stelling mag U zelf geven. Net als in Rn en Cn introduceren we het begrip orthogonale basis. Definitie: Een (eventueel oneindige) basis B van een vectorruimte V heet een orthogonale basis (respectievelijk een orthonormale basis) als deze, behalve basis, als verzameling orthogonaal (respectievelijk orthonormaal) is Eén van de prettige eigenschappen is dan dat de coördinaten van vectoren ten opzichte van zo’n orthogonale basis relatief snel te vinden zijn. Net als in Rn en Cn geldt: 5 Mede om deze reden zijn deze functies bruikbaar voor het bepalen van Fourierreeksen, zie voortgezette analyse. 5.6. Orthogonale verzamelingen en de Grammatrix 113 STELLING 5.32. Als B = {b1 , . . . , bn } een eindige orthogonale basis is van de vectorruimte V , dan geldt voor iedere x ∈ V : x= met andere woorden, [x]B = ⟨b1 , x⟩ ⟨bn , x⟩ b1 + · · · + bn , ⟨b1 , b1 ⟩ ⟨bn , bn ⟩ c1 .. met c = ⟨bi , x⟩ , voor i = 1, . . . , n. i . ⟨bi , bi ⟩ cn Het bewijs van deze stelling mag U zelf geven. Merk op dat de vorige stelling zegt de i-de kental van [x]B de Fourier–coëfficiënt is van de projectie van x op de vector bi . Als de basis bovendien orthonormaal is dan krijgen we: ⟨b1 , x⟩ ⟨b2 , x⟩ [x]B = .. . ⟨bn , x⟩ Ook het bepalen van de transformatiematrix matrix [L] van een lineaire afbeelding L : V → W B←B gaat snel als W een inwendig productruimte is met een eindige orthonormale basis B. Dat komt omdat de kolommen van deze matrix coördinatiseringen van vectoren uit W ten opzichte van de basis B zijn en deze zijn snel te berekenen. Voorbeeld 5.33. Beschouw R3 (met standaard inwendig product) met orthonormale basis {b1 , b2 , b3 }, waarbij: 1 1 −1 1 1 1 0 , b2 = √ 1 en b3 = √ 2 b1 = √ 2 1 3 −1 6 1 Definieer de operator L : R3 → R3 door x1 2x1 − x2 L(x) = L x2 = x1 + x2 + x3 . x1 − x3 x3 We bepalen de matrix van L ten opzichte van de basis B, dus de matrix [L] . (Merk op dat B←B de matrix [L] (hier is E de standaardbasis), de standaardmatrix dus, zo is af te lezen: [L] = E←E E←E 2 −1 0 1 1 1 . Vroeger zouden we [L] berekend hebben via: [L] = P [L] P .) B←E E←EE←B B←B B←B 1 0 −1 2 De eerste kolom is de coördinatisering van L(b1 ) = √12 2 ten opzichte van de basis B en dat 0 is, net als bij bovenstaand voorbeeld 1√ ⟨b1 , L(b1 )⟩ [L(b1 )]B = ⟨b2 , L(b1 )⟩ = 4/√ 6 . ⟨b3 , L(b1 )⟩ 2/ 12 114 Hoofdstuk 5. Inwendig productruimten 1 De tweede kolom is de coördinatisering van L(b2 ) = √13 1 ten opzichte van de basis B, dus 2 √ ⟨b1 , L(b2 )⟩ 3/ 6 , 0 [L(b2 )]B = ⟨b2 , L(b2 )⟩ = √ ⟨b3 , L(b2 )⟩ 3/ 18 −4 en, tenslotte, de derde kolom is de coördinatisering van L(b3 ) = √16 2 ten opzichte van de −2 basis B, dus √ ⟨b1 , L(b3 )⟩ −6/ 12 . [L(b3 )]B = ⟨b2 , L(b3 )⟩ = 0 ⟨b3 , L(b3 )⟩ 1 Blijkbaar 1√ ⟨b1 , L(b1 )⟩ ⟨b1 , L(b2 )⟩ ⟨b1 , L(b3 )⟩ [L] = ⟨b2 , L(b1 )⟩ ⟨b2 , L(b2 )⟩ ⟨b2 , L(b3 )⟩ = 4/ 6 √ B←B ⟨b3 , L(b1 )⟩ ⟨b3 , L(b2 )⟩ ⟨b3 , L(b3 )⟩ 2/ 12 √ 3/ 6 0 √ 3/ 18 √ −6/ 12 0 1 Opmerking: In bovenstaand voorbeeld gold voor de matrix van L ten opzichte van de basis B dat het kental van de i-de rij j-de kolom gelijk is aan ⟨bi , L(bj )⟩. Dit is geen toeval: als B een eindige orthonormale basis voor de inwendig productruimte V is, dan geldt dit voor elke operator L:V →V. Gram-matrices In een eindig dimensionale inwendig productruimte bestaat een eindige basis B. In dit geval kan de (voor de hand liggende) vraag gesteld worden of het inwendig product van twee vectoren x en y berekend kan worden via de B-coördinaten [x]B en [y]B . Tenslotte, dit doen we ook in Rn (en Cn ), maar dan via de coördinaten t.o.v. de standaardbasis. Dit blijkt inderdaad te kunnen, het inwendig product kan geassocieerd worden via een matrix met de coördinaten. Die matrix wordt de Grammatrix van het inwendig product bij die basis genoemd. In het voorgaande is deze matrix al een paar keer gebruikt. We geven nu eerst de nette definitie. Definitie: In een eindig dimensionale inwendig productruimte V van dimensie n met basis B = (v1 , . . . , vn ) wordt de Gram-matrix van het inwendig product ten opzichte van de basis B gedefinieerd door ⟨v1 , v1 ⟩ · · · ⟨v1 , vn ⟩ .. .. GB = . . . ⟨vn , v1 ⟩ · · · ⟨vn , vn ⟩ Voorbeeld 5.34. Ga na dat op Rn of Cn (met het standaard inwendig product) de Gram-matrix van de standaardbasis {e1 , . . . , en } de n × n eenheidsmatrix is. Ga na dat de matrices uit de voorbeelden 5.6 en 5.14 de Gram-matrices van de betreffende inwendig producten ten opzichte van de standaardbases zijn. 5.6. Orthogonale verzamelingen en de Grammatrix 115 De volgende stelling geeft aan hoe het inwendig product van vectoren te berekenen via de coördinaten t.o.v. een of andere basis B. STELLING 5.35. In een eindig dimensionale inwendig productruimte V met basis B = {v1 , . . . , vn } geldt voor alle vectoren u en w dat T ∗ ⟨u, w⟩ = ([u]B ) GB [w]B = ([u]B ) GB [w]B . Bewijs: Beschouw de vectoren u en w. Er zijn scalairen a1 ,. . . , an en b1 ,. . . , bn zo dat u = a1 v1 + · · · + an vn en w = b1 v1 + · · · + bn vn . Er volgt: = [ a1 ⟨u, w⟩ = ⟨a1 v1 + · · · + an vn , w⟩ = a1 ⟨v1 , w⟩ + · · · + an ⟨vn , w⟩ = ⟨v1 , w⟩ ⟨v1 , b1 v1 + · · · + bn vn ⟩ ] [ ] .. .. · · · an = a1 · · · an = . . ⟨vn , w⟩ ⟨vn , b1 v1 + · · · + bn vn ⟩ b1 ⟨v1 , v1 ⟩ + · · · + bn ⟨v1 , vn ⟩ [ ] .. = a1 · · · an = . = [ a1 ··· an ] ⟨v1 , v1 ⟩ .. . b1 ⟨vn , v1 ⟩ + · · · + bn ⟨vn , vn ⟩ · · · ⟨v1 , vn ⟩ b1 T .. .. . = ([u]B ) GB [w]B , . ⟨vn , v1 ⟩ ··· ⟨vn , vn ⟩ bn hetgeen te bewijzen was. Nu wat eigenschappen wat de Grammatrix. STELLING 5.36 (Eigenschappen van de Gram-matrix). In het volgende is GB de Grammatrix van een inwendig product op een eindig dimensionale inwendig productruimte ten opzichte van een basis B voor die ruimte. Dan geldt • GB is inverteerbaar • GB is Hermitisch, dus G∗B = GB . In het reële geval is G symmetrisch. • GB is definiet positief. • De getallen op de diagonaal van GB zijn reëel en positief. • B is een orthogonale basis als en slechts als GB een diagonaalmatrix is. • B is een orthonormale basis als en slechts als GB de eenheidsmatrix is. Bewijs: We bewijzen de eerste uitspraak. We tonen aan dat de Gram–matrix GB inverteerbaar is door te laten zien dat Nul(GB ) = {0}. Alsvolgt: stel dat GB x = 0. Dan geldt zeker x∗ GB x = 0. Kies v ∈ V met [v]B = x. Volgens Stelling 5.35 geldt: ∗ ⟨v, v⟩ = [v]B A[v]B = x∗ Ax = 0 116 Hoofdstuk 5. Inwendig productruimten Dus er geldt zeker: v = 0 en dus ook x = [v]B = [0]B = 0. De inverteerbaarheid van GB volgt. De derde uitspraak. Kies z ∈ Cn en beschouw w = z1 b1 +· · ·+zn bn ∈ V . Dan [w]B = z. Daarom: ∗ ∗ z∗ GB z = ([w]B ) GB [w]B = ⟨w, w⟩ ≥ 0 en 0 = z∗ GB z impliceert dat ([w]B ) GB [w]B = ⟨w, w⟩ = 0 dus w = 0 en dus z = [w]B = 0. De rest van de uitspraken is bijna triviaal. Nu komt een mijns inziens bijzonder verrassend resultaat. Stel dat we het inwendig product willen gaan berekenen via de coördinaten van een orthonormale basis B van een eindig dimensionale ruimte V . Dat ligt voor de hand want de voorafgaande stelling zegt dat dan GB = I, de eenheidsmatrix, en dan is er altijds iets moois te verwachten. Als v en w vectoren in V zijn, zeg a1 b1 [v]B = ... en [w]B = ... , an bn dan volgt dat T ⟨v, w⟩ = ([v]B ) I [w]B = a1 b1 + · · · + an bn . Ten opzichte van deze basis is het product op de coördinatisering dus gelijk aan het standaard inwendig product op Ln ! Deze constatering is belangrijk genoeg om in een aparte stelling te vermelden. STELLING 5.37. Het inwendig product op een n-dimensionale reële (complexe) vectorruimte V komt in de coördinatisering ten opzichte van een orthonormale basis B overeen met het standaard inwendig product op Rn (dan wel Cn ). We hebben eerder gezien bij een eindigdimensionale vectorruimte V met basis B, dat de coördinatisering afbeelding x [x]B de lineaire structuur van V op de lineaire structuur van Rn (of Cn ) wordt gelegd. En dit gebeurt zodanig dat de lineaire structuren niet te onderscheiden (isomorf) zijn. Nu zien we dat als V een eindig dimensionaal inwendig product ruimte is en als voor B een orthonormale basis gekozen wordt, de coördinatisering niet alleen de lineaire structuur bewaart, maar ook de inwendig product structuur van V op die van Rn (of Cn ) gelegd wordt.. Onder de coördinatisering wordt V gewoon als Rn (of Cn ) gezien met het standaard inwendig product. Alle resultaten van Rn (of Cn ) aangaande het standaard inwendig product kunnen naar V teruggehaald worden. En eigenlijk hebben we dat in de vorige paragrafen al zitten doen; lengte, Pythagoras, Cauchy-Schwarz etc. Eindig dimensionaal is niets nieuws te verwachten. Een ander voorbeeld hiervan: GEVOLG 5.38. Als V een eindig dimensionaal inwendig productruimte is met dim(V ) = n, en als W een deelruimte van V is, dan geldt: dim V = dim W + dim W ⊥ . 5.7. De Orthogonale projectie 117 (Maar we moeten nog wel aantonen dat iedere eindig dimensionale inwendig product ruimte V ook echt een orthonormale basis heeft.) Nieuwe lineaire algebra is te verwachten in de oneindig dimensionale inwendig product ruimten. 5.7 De Orthogonale projectie Evenals in Rn en Cn zouden we de orthogonale projectie van een vector op een deelruimte W willen definiëren. We gebruiken dezelfde definitie als in deze vectorruimtes Definitie: Gegeven zijn een deelruimte W van een inwendig productruimte V en een vector x uit V . Een loodrechte of orthogonale projectie van x op W is een vector w in W met de eigenschap dat x − w ⊥ W (ofwel x − w ∈ W ⊥ ). We noteren w = projW (x). Merk op dat op dit moment niet duidelijk is of projecties altijd zullen bestaan. Eenvoudige voorbeelden laten zien dat dit niet het geval is. Voorbeeld 5.39. Beschouw nogmaals voorbeeld 5.29. Hier werd de ruimte V = ℓ2 (R) (met het standaard inwendig product) bekeken met de deelruimte W = Span{e1 , . . . , en , . . .}. We hebben daar laten zien dat W ̸= ℓ2 (R) en W ⊥ = {0}. Dit laatste zal tot gevolg hebben dat als x ∈ / W, dat er geen w ∈ W zal bestaan met x − w ∈ W ⊥ . (Inderdaad, als x − w ∈ W ⊥ dan x − w = 0 en dus w = x ∈ / W . maar dan bestaat er dus geen orthogonale projectie van x op W ! Ook is het in eerste instantie niet duidelijk of de projectie, als die bestaat, uniek zal zijn. Dat geldt gelukkig wel. STELLING 5.40. Als de orthogonale projectie van x op W bestaat, dan is deze uniek. Het bewijs van deze stelling mag U zelf geven in opgave ?? van deze paragraaf. (Het is letterlijk hetzelfde bewijs als bij Cn . Nu de eigenschap die het nut van projecties verklaart: STELLING 5.41. Als de orthogonale projectie van een vector x uit een inwendig productruimte V op een deelruimte W bestaat, dan is het precies die vector uit W waarvoor de afstand tot x zo klein mogelijk is. Het bewijs van deze stelling mag U zelf geven in opgave ?? van deze paragraaf. Ook hier geldt dat het bewijs bekend van Cn gecopiëerd kan worden. Voorbeeld 5.42. Beschouw nogmaals het voorbeeld 5.39. Bovenstaande stelling maakt ook duidelijk dat een vector x = (x1 , . . . , xn , . . .) ∈ / W niet op W geprojecteerd kan worden. Bekijk 118 Hoofdstuk 5. Inwendig productruimten namelijk wn = (x1 , . .v . , xn , 0, 0, 0, . . .) ∈ W . Het zal duidelijk zijn dat ∥x − wn ∥, de afstand van x u ∑ u ∞ tot wn , gelijk is aan t x2k en dus lim ∥x − wn ∥ = 0. Dit laatste zal tot gevolg hebben dat n→∞ k=n+1 er geen punt in W zal bestaan met kleinste afstand tot x, en dus bestaat er geen projectie. Voorbeeld 5.43. In Pol(R) met inwendig product ∫ ⟨f, g⟩ = 1 f (x)g(x) dx −1 is de orthogonale projectie van f (x) = x3 op de deelruimte W = Pol2 (R) gelijk aan p(x) = 35 x. Er geldt namelijk dat p(x) tot W behoort en dat f (x) − p(x) = x3 − 35 x tot W ⊥ behoort. Het eerste is het feit⟩dat W = Span{1, x, x2 } en dat de inwendig producten ⟨ duidelijk ⟩en⟨het 3tweede ⟩volgt⟨ uit 3 3 3 2 1, x − 5 x , x, x − 5 x en x , x3 − 35 x allemaal nul zijn, zodat f (x) − p(x) loodrecht op de opspannende vectoren van W staat en dus (volgens stelling 5.28) inderdaad tot W ⊥ behoort. Uit bovenstaande stelling volgt dat het polynoom p(x) = 35 x het polynoom van graad 2 of minder is, dat het dichtst bij het polynoom f (x) = x3 ligt, tenminste, als we werken met het afstandsbegrip dat bepaald wordt door het inwendig product uit het voorbeeld. In dit geval is p dus het polynoom van graad 2 of minder waarbij ∫ ∥f − p∥2 = 1 −1 ( )2 f (x) − p(x) dx (5.1) zo klein mogelijk is. Meetkundig zou je dus kunnen zeggen dat p(x) = 35 x het polynoom van graad twee of minder is, waarvoor de oppervlakte tussen de grafieken van p(x) en f (x) = x3 op het interval [−1, 1] zo klein mogelijk is. Dit laatste is natuurlijk niet helemaal waar omdat het om de integraal van het kwadraat van de verschilfunctie gaat, maar als de oppervlakte tussen grafieken klein is, is ook de integraal van het kwadraat van de verschilfunctie klein, en andersom. Overigens is met formule (5.1) ook te begrijpen dat een ander inwendig product leidt tot een andere projectie. Dit voorbeeld laat zien dat het relatief eenvoudig is om te controleren of een gegeven vector de orthogonale projectie is van een andere gegeven vector op een deelruimte W . Het voorbeeld laat niet zien hoe de projectie berekend kan worden. Tenslotte: STELLING 5.44. (Decompositiestelling eindig dimensionale deelruimtes) Als V een inwendig productruimte is met een eindig dimensionale deelruimte W , dan geldt: Iedere x uit V is te schrijven als: x = w + w♯ (met w ∈ W en w♯ ∈ W ⊥ ) op unieke wijze. En dus bestaat de orthogonale projectie projW : V → V op iedere eindig dimensionale deelruimte. Bewijs: Het bewijs is een copie van het bewijs voor Cn . Dus neem een orthogonale basis B = {b1 , . . . , bn } van W en beschouw w= ⟨b1 , x⟩ ⟨bn , x⟩ b1 + · · · + bn . ⟨b1 , b1 ⟩ ⟨bn , bn ⟩ 5.8. Het bepalen van Orthogonale projecties 119 Laat zien dat x − w ∈ W ⊥ door aan te tonen dat x − w⊥b1 , voor i = 1, . . . , n. Tenslotte: STELLING 5.45. De afbeelding projW : V → V is voor een eindig dimensionale deelruimte W van V een goed gedefinieerde lineaire afbeelding. Bewijs: Dat de afbeelding goed gedefinieerd is, is hierboven al vermeld. Rest het aantonen van lineariteit. Neem daarvoor x en y in V en schrijf p = projW (x) + projW (y). We moeten laten zien dat p = projW (x + y) dus dat p ∈ W en (x + y) − p ∈ W ⊥ . Het eerste is triviaal omdat W een deelruimte is en omdat projW (x) en projW (y) tot W behoren. Het tweede volgt uit het feit dat W ⊥ een deelruimte is en het feit dat zowel x − projW (x) als y − projW (y) tot W ⊥ behoren. Dat geldt dan namelijk ook voor de som van deze twee vectoren en dat is (x + y) − p. Neem nu x in V en c ∈ L. Schrijf p = c projW (x). We moeten laten zien dat p = projW (cx) dus dat p ∈ W en cx − p ∈ W ⊥ . Het eerste is duidelijk omdat W een deelruimte is en het tweede is waar omdat W ⊥ ook een deelruimte is en cx − p = c(x − projW (x)). Tenslotte de vraag: “Wat zijn nu precies de deelruimtes waarop we kunnen projecteren”. Zonder bewijs vermelden we: STELLING 5.46. (Decompositiestelling eindig dimensionale deelruimtes) Als V een inwendig productruimte is en W een deelruimte, dan geldt: de orthogonale projectie projW : V → V op W bestaat als en slechts als: W = (W ⊥ )⊥ . 5.8 Het bepalen van Orthogonale projecties In het vorig college is de projectie van een vector op een (eindig dimensionale) deelruimte geı̈ntroduceerd. Nu willen we de projectie effectief berekenen. Methode 1 Als we bij de deelruimte W een orthogonale basis tot onze beschikking hebben, dan kunnen we de projectie van x verkrijgen door op iedere basis vector orthogonaal te projecteren en de projecties op te tellen. Het probleem van deze methode is wel dat een orthogonale basis voor W nodig is. Als die er in eerste instantie niet is, dan zal deze bepaald moeten worden. Een probleem wat we ook al in Cn kende. STELLING 5.47. Als {b1 , . . . , bn } een orthogonale basis voor een deelruimte W van de inwendig productruimte V is dan geldt voor x ∈ V dat projW (x) = ⟨bn , x⟩ ⟨b1 , x⟩ b1 + · · · + bn . ⟨b1 , b1 ⟩ ⟨bn , bn ⟩ Bewijs: Zie het bewijs van de decompositiestelling uit college 13. 120 Hoofdstuk 5. Inwendig productruimten Voorbeeld 5.48. We gaan de projectie van f (x) = x3 uit Pol(R) op W = Pol2 (R) bepalen. Hier ∫1 is Pol(R) voorzien van het inwendigproduct ⟨p, q⟩ = −1 p(x)q(x)dx. Echter, de standaard basis B = {1, x, x2 } is niet orthogonaal. Die moeten we dan eerst maken. Straks volgt een structurele methode om er één te vinden, maar voor W hebben we er eigenlijk al één gezien in voorbeeld 5.26. Daar is namelijk geconstateerd dat 3x2 − 1 loodrecht staat op de polynomen 1 en x. Omdat 1 en x ook loodrecht op elkaar staan, volgt dat {1, x, 3x2 − 1} een orthogonale verzameling niet nulvectoren is. Volgens stelling 5.31 zijn deze drie polynomen onafhankelijk en omdat ze duidelijk in de drie-dimensionale ruimte Pol2 (R) liggen vormen ze een basis voor W . We hebben dus een orthogonale basis voor W te pakken en kunnen de orthogonale projectie uitrekenen met de formule van de vorige stelling: ⟨ 2 ⟩ 3x − 1, f (x) ⟨1, f (x)⟩ ⟨x, f (x)⟩ projW (f ) = ·1+ ·x+ · (3x2 − 1) ⟨1, 1⟩ ⟨x, x⟩ ⟨3x2 − 1, 3x2 − 1⟩ 3 2/5 · x + 0 · (3x2 − 1) = x =0·1+ 2/3 5 hetgeen op basis van voorbeeld 5.26 te verwachten was. Methode 2 We beschouwen het vorige voorbeeld nogmaals met de nieuwe methode. Voorbeeld 5.49. We laten zien hoe in Pol(R) de orthogonale projectie p(x) van f (x) = x3 op W = Pol2 (R) berekend kan worden als het inwendig product gedefinieerd is door ∫ ⟨f, g⟩ = 1 f (x)g(x) dx. −1 Voor deze berekening hebben we een basis voor W nodig, bijvoorbeeld de standaardbasis B = {1, x, x2 }. Omdat p(x) tot W moet behoren, is p(x) een lineaire combinatie van de drie basisvectoren, dus p(x) = c1 + c2 x + c3 x2 voor zekere getallen c1 , c2 en c3 . Verder moet f (x) − p(x) loodrecht op W staan, wat betekent dat de inwendig producten van f (x) − p(x) met de basisvectoren uit B nul moeten zijn, dus ⟨1, f (x) − p(x)⟩ = 0 ofwel ⟨1, p(x)⟩ = ⟨1, f (x)⟩ ⟨x, f (x) − p(x)⟩ = 0 ofwel ⟨x, p(x)⟩ = ⟨x, f (x)⟩ ⟨ 2 ⟩ ⟨ 2 ⟩ ⟨ ⟩ x , f (x) − p(x) = 0 ofwel x , p(x) = x2 , f (x) Invullen van p(x) = c1 + c2 x + c3 x2 leidt tot de volgende drie vergelijkingen met de onbekenden c1 , c2 en c3 : ⟨ ⟩ c1 ⟨1, 1⟩ +c2 ⟨1, x⟩ +c3 ⟨1, x2 ⟩ = ⟨1, f (x)⟩ c1 ⟨⟨x, 1⟩ ⟩ +c2 ⟨⟨x, x⟩ ⟩ +c3 ⟨x, x2 ⟩ = ⟨x, ⟨ f (x)⟩ ⟩ c1 x2 , 1 +c2 x2 , x +c3 x2 , x2 = x2 , f (x) Al de inwendig producten in deze vergelijkingen kunnen berekend worden (f (x) is immers x3 ), wat het volgende stelsel lineaire vergelijkingen oplevert: 2c1 2 3 c1 + + 2 3 c2 + 23 c3 = 0 = 25 2 + 5 c3 = 0 5.8. Het bepalen van Orthogonale projecties met oplossing c1 = 0, c2 = is met voorbeeld 5.43. 3 5 121 en c3 = 0. Daaruit volgt dat p(x) = 35 x, hetgeen in overeenstemming STELLING 5.50. Stel B = {b1 , . . . , bn } een basis is voor een eindig dimensionale deelruimte W van een inwendig productruimte V . Als x een vector is uit V , dan bestaat zijn orthogonale projectie projW (x) = c1 b1 + · · · + cn bn en kunnen we de ci vinden door het volgende lineaire stelsel op te lossen: ⟨b1 , b1 ⟩ · · · ⟨b1 , bn ⟩ c1 ⟨b1 , x⟩ .. .. .. .. . = . . . . ⟨bn , b1 ⟩ · · · ⟨bn , bn ⟩ cn ⟨bn , x⟩ Bewijs: We merken eerst op dat de coëfficiënten matrix van dit stelsel de Gram–matrix GB is. Volgens Stelling 5.36 is deze matrix inverteerbaar, en dus is er een unieke oplossing van dit stelsel. Beschouw de unieke oplossing c1 , . . . , cn en de vector: w = c1 b1 + · · · + cn bn Als we kunnen aantonen dat x − w ∈ W ⊥ , dan geldt per definitie van de projectie: projW (x) = c1 b1 + · · · + cn bn Om x − w ∈ W ⊥ aan te tonen is voldoende te laten zien dat ⟨bi , x − w⟩ = 0, voor i = 1, . . . , n. Welnu, ⟨bi , x − w⟩ = ⟨bi , x⟩−⟨bi , w⟩ = ⟨bi , x⟩−⟨bi , c1 b1 + · · · + cn bn ⟩ = ⟨bi , x⟩−(c1 ⟨bi , c1 b1 ⟩+ · · · + cn ⟨bi , bn ⟩) = ⟨bi , x⟩ − ⟨bi , x⟩ = 0, voor i = 1, . . . , n. Projecteren in Cn en projectiematrices Omdat Cn een complexe inwendigproduct ruimte is, kunnen we ook op deelruimtes W van Cn projecteren. De bijbehorende projectie projW : Cn → Cn is een lineaire afbeelding en de standaardmatrix van deze afbeelding heet weer een projectiematrix en wordt genoteerd met [projW ]. Kortom: de formule projW (z) = [projW ]z geldt ook complex. Hoe deze projectiematrix te verkrijgen? STELLING 5.51. Stel W een deelruimte is van Cn en stel dat {u1 , . . . , uk } een orthonormale basis is voor W en schrijf U = [u1 . . . uk ]. Dan geldt: 1. Als S de ééndimensionale deelruimte Span{u1 } is, dan: [projS ] = u1 u∗1 . 2. [projW ] = u1 u∗1 + · · · + uk u∗k = U U ∗ . Bewijs: 1. Volgens stelling 5.47 geldt dat: projS (x) = ⟨u1 , x⟩ ⟨u1 , x⟩ u1 = u1 = ⟨u1 , x⟩ u1 = (u∗1 x)u1 = u1 (u∗1 x) = (u1 u∗1 )x ⟨u1 , u1 ⟩ ∥u1 ∥2 122 Hoofdstuk 5. Inwendig productruimten Merk op dat de scalaire vermenigvuldiging cx weer als matrixproduct xc geschreven is. 2. Volgens stelling 5.47 en eerste deel dit bewijs geldt dat: projW (x) = ⟨u1 , x⟩ ⟨uk , x⟩ u1 + · · · + un = (u1 u∗1 )x + · · · + (uk u∗k )x = ⟨u1 , u1 ⟩ ⟨uk , uk ⟩ = (u1 u∗1 + · · · + uk u∗k )x = U U ∗ x Merk op dat kolom-rij expansie is toegepast. Een bestudering van het bewijs van stelling 5.50 levert de volgende formule die de projectiematrix via een willekeurige basis geeft. STELLING 5.52. Stel dat W een deelruimte is van Cn en stel dat {a1 , . . . , ak } een basis is voor W en schrijf A = [a1 . . . ak ]. Dan geldt: projW (x) = A(A∗ A)−1 A∗ x. We zijn uiteindelijk in staat de spectraalstelling voor normale bases te geven. Herinner: STELLING 5.53. (De (complexe) Spektraledecompositie Stelling, vorm 1) Laat A een normale n × n matrix zijn. Dan bestaat een orthonormale basis B = {u1 , . . . , un } van Cn bestaande uit eigenvectoren van A, zeg Aui = λi ui , voor i = 1, . . . , n. Er geldt: A = λ1 u1 u∗1 + · · · + λn un q∗n Met andere woorden: A is een lineaire combinatie van projectiematrices (van projecties op onderling loodrechte eigenvectoren)! Dit heet een spektrale decompositie van A Maar als een eigenwaarde een hogere multipliciteit heeft is deze spectraal decompositie niet uniek. Het extreme voorbeeld hiervan is weer de eenheidsmatrix. Voorbeeld 5.54. Iedere orthonormale basis {u1 , . . . , un } van Cn is een orthonormale basis van Cn bestaande uit eigenvectoren (bij λ = 1) van de eenheidsmatrix I en dus geldt: I = u1 u∗1 + · · · + un u∗n Ook complex bestaat een vorm van de spektraaldecompositie stelling die als voordeel heeft dat deze wel uniek is. A is een normale matrix, λ1 , . . . , λk zijn de eigenwaarden van A, λi heeft multipliciteit ni (i = 1, . . . , k) en Bi = {u(i,1) , . . . , u(i,ni ) } is een orthonormale basis van de eigenruimte Eλi , voor i = 1, . . . , k. Als we schrijven Ui = [u(i,1) . . . u(i,ni ) ] dan weten we van Stelling 5.51 dat de projectie op de eigenruimte Eλi de standaardmatrix: [projEλ ] = u(i,1) u∗(i,1) + · · · + u(i,ni ) u∗(i,ni ) = Ui Ui∗ i heeft. Als we in vorm 1 van de spektrale decompositie van A de projectiematrices bij dezelfde eigenwaarden bij elkaar nemen krijgen we: A = λ1 [projEλ1 ] + · · · + λk [projEλ ] k 5.8. Het bepalen van Orthogonale projecties 123 Met andere woorden: A is de lineaire combinatie van de projectiematrices (van projecties op al de onderling loodrechte eigenruimtes) met als gewichten: de bijbehorende eigenwaarden! STELLING 5.55. (De Spektraaldecompositie Stelling, vorm 2) Laat A een normale n × n matrix zijn met eigenwaarden λ1 , . . . , λk . Beschouw de projecties projEλ : Cn → Cn op de eigenruimtes Eλi . Dan geldt: i A = λ1 [projEλ ] + · · · + λk [projEλ ] 1 k Het Gram-Schmidt orthogonaliseringsproces Op dezelfde manier als in Rn en Cn kunnen we bij een gegeven eindige basis van een inwendig productruimte V om zetten naar een orthogonale basis voor W . Eerst een voorbeeld. Voorbeeld 5.56. Voor de constructie van een orthogonale basis voor V = Pol2 ([−1, 1], R), voorzien van het inwendig product ∫ ⟨f, g⟩ = 1 f (x)g(x) dx. −1 wordt begonnen met de standaardbasis B = {1, x, x2 } voor V . Het geluk is dat de polynomen 1 en x al orthogonaal zijn. Definieer daarom de deelruimte W2 = Span{1, x} van V . Als aan {1, x} een niet-nulvector uit V wordt toegevoegd die loodrecht staat op W2 , dan is een orthogonale verzameling van drie niet-nulvectoren in de drie-dimensionale V gevonden. Deze drie vectoren vormen onmiddellijk een orthogonale basis voor V . En . . . deze derde vector is snel gevonden: volgens het voorgaande is x2 − projW2 (x2 ) namelijk zo’n vector! [Waarom behoort deze vector tot Pol2 ([−1, 1], R)?] Omdat {1, x} een orthogonale basis voor W2 is, geldt volgens stelling 5.47 ⟨ ⟩ ⟨ ⟩ 1, x2 x, x2 projW2 (x ) = ·1+ · x. ⟨1, 1⟩ ⟨x, x⟩ 2 Als derde basisvector kan dus ⟨ x2 − ⟩ ⟨ ⟩ 1, x2 x, x2 2/3 1 ·1− · x = x2 − · 1 − 0 · x = x2 − ⟨1, 1⟩ ⟨x, x⟩ 2 3 genomen worden. Dus bijvoorbeeld {1, x, x2 − 13 } is een orthogonale basis voor Pol2 ([−1, 1], R), √ √ √ maar natuurlijk ook {1, x, 3x2 − 1} of { 12 2, 12 x 6, 10( 34 x2 − 14 }. De laatste is zelfs een orthonormale basis voor Pol2 ([−1, 1], R). Dan nu het Gram-Schmidt orthogonaliseringsproces. 124 Hoofdstuk 5. Inwendig productruimten STELLING 5.57 (Gram-Schmidt orthogonaliseringsproces). Als {v1 , . . . , vn } een basis is voor een deelruimte W van een inwendig productruimte V , dan vormen de vectoren w 1 = v1 ⟨w1 , v2 ⟩ w1 ⟨w1 , w1 ⟩ ⟨w1 , v3 ⟩ ⟨w2 , v3 ⟩ w 3 = v3 − w1 − w2 ⟨w1 , w1 ⟩ ⟨w2 , w2 ⟩ .. . w 2 = v2 − wn = vn − ⟨w1 , vn ⟩ ⟨wn−1 , vn ⟩ w1 − · · · − wn−1 ⟨w1 , w1 ⟩ ⟨wn−1 , wn−1 ⟩ een orthogonale basis voor W . Bewijs: Net als in voorbeeld 5.56 wordt de orthogonale basis stapje voor stapje opgebouwd via orthogonale projecties op verschillende deelruimten van W , namelijk de deelruimten W1 = Span{v1 }, W2 = Span{v1 , v2 }, W3 = Span{v1 , v2 , v3 }, etc. Merk op dat Wn = W . We laten zien dat voor k = 2, . . . , n het in de stelling geconstrueerde stelsel vectoren {w1 , . . . , wk } een orthogonaal stelsel is dat Wk opspant. Voor het geval k = n hebben we dan de geldigheid van de stelling bewezen, want de wk ’s spannen W op en hun aantal is precies dim W . Ze vormen dus een basis voor W . ⟨w1 ,v2 ⟩ We beginnen met k = 2. Merk op dat uit het feit dat w1 = v1 volgt dat ⟨w w1 volgens stelling 1 ,w1 ⟩ 5.47 precies de loodrechte projectie projW1 (v2 ) van v2 op W1 is. Daarom staat v2 −projW1 (v2 ) (en dat is precies w2 !) loodrecht op W1 en daarmee op w1 . Het stelsel {w1 , w2 } is dus orthogonaal. Nu moet nog aangetoond worden dat Span{w1 , w2 } = W2 . Het is duidelijk dat w1 = v1 tot W2 behoort. Verder zijn v2 en projW1 (v2 ) elementen van W2 en w2 als lineaire combinatie van deze twee dus ook. Blijkbaar Span{w1 , w2 } ⊂ W2 . Andersom is het duidelijk dat v1 tot Span{w1 , w2 } ⟨w1 ,v2 ⟩ behoort en omdat v2 = w2 + ⟨w w1 een lineaire combinatie van w1 en w2 is, volgt dit ook 1 ,w1 ⟩ voor v2 . Blijkbaar W2 = Span{v1 , v2 } ⊂ Span{w1 , w2 }. Zo kunnen we doorgaan: nu we bewezen hebben dat {w1 , w2 } een orthogonaal stelsel is dat W2 opspant, kunnen we laten zien dat hetzelfde geldt voor {w1 , w2 , w3 } en W3 . Daaruit kunnen we dan weer laten zien dat {w1 , . . . , w4 } een orthogonaal stelsel is dat W4 opspant, enzovoorts. Gelukkig hoeven we niet elke stap apart op te schrijven, maar kunnen we dat in één keer doen. Als we namelijk bewezen hebben dat {w1 , . . . , wk } een orthogonaal stelsel is dat Wk opspant is de vector wk+1 volgens stelling 5.47 gelijk aan de vector vk+1 − projWk vk+1 en die staat daarom loodrecht op Wk en dus loodrecht op w1 , . . . , wk . Omdat de laatst genoemde vectoren al een orthogonaal stelsel vormden, is {w1 , . . . , wk+1 } ook een orthogonaal stelsel. Dat Span{w1 , . . . , wk+1 } = Wk+1 volgt op dezelfde manier als de situatie k = 2. Het is namelijk duidelijk dat w1 tot en met wk tot Wk+1 behoren omdat Wk ⊂ Wk+1 . Verder is wk+1 het verschil van vk+1 , die in Wk+1 ligt, en projWk vk+1 , die in Wk en dus ook in Wk+1 ligt. Dus wk+1 behoort ook tot Wk+1 , waarmee Span{w1 , . . . , wk+1 } ⊂ Wk+1 . Andersom geldt dat v1 tot en met vk tot Wk en dus tot Span{w1 , . . . , wk+1 } behoren. Ook is duidelijk dat vk+1 = ⟨wk ,vk+1 ⟩ 1 ,vk+1 ⟩ wk+1 + ⟨w ⟨w1 ,w1 ⟩ w1 +· · ·+ ⟨wk ,wk ⟩ wk tot dit lineair omhulsel behoort, zodat Span{v1 , . . . , vk+1 } = Wk+1 ⊂ Span{w1 , . . . , wk+1 }. Blijkbaar is {w1 , . . . , wk+1 } een orthogonaal stelsel dat Wk+1 opspant! 5.8. Het bepalen van Orthogonale projecties 125 Het volgende voorbeeld is als illustratie toegevoegd vanwege het feit dat er iets verrassends kan gebeuren. Laat je niet afleiden door het alternatieve inwendig product dat gekozen is, omdat het fenomeen dat optreedt niet veroorzaakt wordt door de keuze van het inwendig product. Voorbeeld 5.58. De bedoeling is dat een orthogonale basis gevonden gaat worden voor de deelruimte van C3 opgespannen door de vectoren 1 1 + 5i 0 en v3 = 5 − i 0 v1 = i , v2 = 1 4i −1 − i waarbij C3 voorzien is van het inwendig product ⟨x, y⟩ = x∗ Ay 1 i 0 A = −i 2 1 . 0 1 3 De orthogonale basis wordt uiteraard gevonden door toepassen van Gram-Schmidt en voor de eerste vector wordt dus w1 = v1 = (1, i, 1) genomen. Om de tweede vector te bepalen zijn de inwendig producten 1 + 5i 1 i 0 [ ] = 4 + 12i 0 ⟨w1 , v2 ⟩ = 1 −i 1 −i 2 1 4i 0 1 3 en 1 i 0 1 [ ] 1 −i 1 −i 2 1 i = 4. ⟨w1 , w1 ⟩ = 0 1 3 1 nodig. Er volgt 2i 1 + 5i 1 ⟨w1 , v2 ⟩ − 4 + 12i i = 3 − i . 0 w2 = v2 − w1 = ⟨w1 , w1 ⟩ 4 −1 + i 4i 1 met Voor de derde vector worden eerst de inwendig producten ⟨w1 , v3 ⟩ = −8i, ⟨w2 , v3 ⟩ = 34 en ⟨w2 , w2 ⟩ = 34 berekend, zodat w3 = v3 − ⟨w1 , v3 ⟩ ⟨w2 , v3 ⟩ −8i 34 w1 − w2 = v3 − w1 − w2 = 0, ⟨w1 , w1 ⟩ ⟨w2 , w2 ⟩ 4 34 en dat is verrassend! Het gevonden stelsel {w1 , w2 , w3 } is weliswaar orthogonaal, maar het is geen basis! Hoe kan dat? Daarvoor moet je je realiseren dat w3 = v3 − projW2 (v3 ) waarbij W2 = Span{v1 , v2 } = Span{w1 , w2 } (dit staat in het bewijs van Gram-Schmidt). Omdat w3 = 0 is v3 blijkbaar gelijk aan zijn orthogonale projectie op W2 . Dat betekent dat v3 een element van W2 = Span{v1 , v2 } is, waaruit volgt dat het stelsel {v1 , v2 , v3 } dat W opspant afhankelijk is en dus zelf al geen basis was voor W . Omdat v1 en v2 wel onafhankelijk zijn vormen deze twee vectoren een basis voor W . Daaruit kan geconcludeerd worden dat {w1 , w2 } een orthogonale basis voor W is. Tenslotte: { 21 w1 , √134 w2 } is een orthonormale basis voor W . Een generalisatie van het geconstateerde in bovenstaand voorbeeld leidt tot het volgende: als het Gram-Schmidt proces begonnen wordt met een afhankelijk stel vectoren, dan wordt op zeker moment een nulvector wk gevonden, wat betekent dat vk een lineaire combinatie is van zijn voorgangers. Als we vk en de nulvector wk in het vervolg van het proces weglaten, kunnen we doorgaan met Gram-Schmidt en vinden we zo doorgaand vanzelf een orthogonale basis. 126 5.9 Hoofdstuk 5. Inwendig productruimten Maximaal Orthogonale verzamelingen Laat V een inwendig product ruimte zijn. Definitie: Een verzameling S van niet–nulvectoren in V heet maximaal orthogonaal , als deze orthogonaal is, en er is geen niet nulvector v ∈ V zodat de verzameling S ∪ {v} ook orthogonaal is. Evenzo definiëren we het begrip maximaal orthonormaal. Opmerking: Maximaal orthogonale (orthonormale) verzamelingen worden ook wel volledige (complete) orthogonale verzamelingen genoemd. Ook worden ze wel orthogonale basis genoemd, hoewel dit een onjuiste benaming. Het volgende voorbeeld laat al zien dat in een oneindig dimensionale ruimte een maximaal orthogonale verzameling geen basis hoeft te zijn. We zullen eerst het meest simpele voorbeeld van dit verschijnsel bestuderen. Voorbeeld 5.59. Beschouw V = ℓ2 (R) met standaard inwendigproduct. Bekijk ook de orthonormale verzameling E = {e1 , . . . , en , . . .} in V . We hebben ooit aangetoond dat Span{E}⊥ = {0}. Dat betekent dat aan de verzameling E geen enkele vector x ̸= 0 toegevoegd kan worden zonder de orthogonaliteit te verpesten. Merk dus op dat E een maximaal orthogonale verzameling is in ℓ2 (R), maar merk ook op dat E geen basis is voor ℓ2 (R). Voorbeeld 5.60. (Vervolg) Beschouw nogmaals V = ℓ2 (R) met de maximaal orthonormale verzameling E = {e1 , . . . , en , . . .}. Stel x = (x1 , x2 , . . . , xn , . . .) ∈ ℓ2 (R). Hoewel x niet in Span(E) hoeft te zitten, kunnnen we x wel krijgen als een limiet van een rij van elementen uit E, en wel op de volgende manier. Beschouw Wn = Span{e1 , . . . , en }. Wn is eindig dimensionaal, en dus kunnen we projecteren op Wn . Beschouw wn = projWn (x) = (x1 , x2 , . . . , xn , 0, 0, 0, . . .) We verkrijgen op deze manier een rij {wn }∞ n=1 waarvoor geldt: lim wn = x. n→∞ Hoewel dit in dit geval intuı̈tief duidelijk zal zijn, merken we op dat lim wn = x een limiet is in n→∞ de ruimte ℓ2 (R). We moeten zeggen wat we hiermee bedoelen! Hiermee bedoelen we dat voor de (reële) rij {∥wn − x∥}∞ n=1 geldt: lim ∥wn − x∥ = 0 n→∞ Inderdaad, de vectoren wn in ℓ2 (R) komen op den duur op voorgeschreven afstand ε > 0 van x, en dit voor iedere ε > 0. Als V eindig dimensionaal is, dan is het niet moeilijk in te zien dat de maximaal orthogonale verzamelingen precies de orthogonale bases van V zijn. Oneindig dimensionaal geldt dat niet meer. Een beroemd voorbeeld van een maximaal orthogonale verzameling is de volgende: 5.9. Maximaal Orthogonale verzamelingen 127 Voorbeeld 5.61. De verzameling 1, cos x, sin x, cos 2x, sin 2x, . . . , cos nx, sin nx, . . . . . . is een maximaal orthogonale verzameling in C([−π, π], R) (met standaard inwendig product). Zelfs in de inwendig product ruimte L2 ([0, 2π], R) is deze verzameling maximaal orthogonaal. Dat deze verzameling orthogonaal is, is niet moeilijk aan te tonen via de product formules voor cos px cos qx, etc. Dat deze verzameling maximaal orthogonaal is, is echt lastig en zullen we U besparen. Na normeren verkrijgen we de volgende maximaal orthonormale verzameling: cos nx sin nx 1 cos x sin x cos 2x sin 2x √ , √ , √ , √ , √ ,..., √ , √ ,...... π π π π π π 2π In de Fourier analyse wordt deze maximaal orthonormale verzameling veel gebruikt, en wel op de volgende manier. Beschouw de eindig dimensionale deelruimte: Wn = Span{1, cos x, sin x, cos 2x, sin 2x, . . . , cos nx, sin nx}. Neem een functie f ∈ C([0, 2π], R). Omdat Wn eindig dimensionaal is kunnen we Fn = projWn (f ) bekijken. Omdat de gegeven opspannende vectoren van Wn orthogonaal zijn, geldt: Fn (x) = projWn (f )(x) = a0 + n ∑ ak cos(kx) + k=1 n ∑ bk sin(kx) k=1 ∫ π 1 ⟨1, f ⟩ = f (x)dx, ⟨1, 1⟩ 2π −π ∫ 1 π ⟨cos(kx), f ⟩ = f (x) cos(kx)dx, voor k = 1, . . . , n en: ak = ⟨cos(kx), cos(kx)⟩ π −π ∫ π ⟨sin(kx), f ⟩ 1 en: bk = = f (x) sin(kx)dx, voor k = 1, . . . , n. ⟨sin(kx), sin(kx)⟩ π −π De functie Fn wordt wel de nde orde Fourier benadering van f genoemd. Als in het vorige voorbeeld zal weer gelden: lim Fn = f wat betekent: lim ∥Fn − f ∥ = 0 met: a0 = n→∞ n→∞ (Het zij opgemerkt dat dit NIET hoeft te betekenen dat lim Fn (x) = f (x), voor alle x ∈ [−π, π].) n→∞ Het is wel gebruikelijk om de Fourierreeks F (x) van de functie f F (x) = lim Fn (x) = a0 + n→∞ ∞ ∑ k=1 ak cos(kx) + n ∑ bk sin(kx) k=1 te beschouwen. Voorbeeld 5.62. De verzameling 1, cos x, cos 2x, . . . , cos nx, . . . . . . is een maximaal orthogonale verzameling in C([0, π], R) (met standaard inwendig product). Zelfs in de inwendig product ruimte L2 ([0, π], R) is deze verzameling maximaal orthogonaal. Dit is vrij makkelijk te bewijzen als de familie uit Voorbeeld 5.61 verondersteld wordt maximaal orthogonaal te zijn. Na normeren verkrijgen we de volgende maximaal orthonormale verzameling: √ √ √ 1 2 cos x 2 cos 2x 2 cos nx √ , √ √ √ , ,..., ,...... π π π π 128 Hoofdstuk 5. Inwendig productruimten Zoals beschreven in de vorige voorbeelden kan men een gegeven functie f ∈ C([0, π], R) projecteren op Wn = Span{1, cos x, cos 2x, . . . , cos nx}. De functie Cn = projWn (f ) heet de nde Fourier cosinus benadering van f en in de ruimte C([0, π], R) geldt weer: lim Cn = f (dus lim ∥Cn − f ∥ = 0). n→∞ n→∞ Merk op: ∫ n ∑ ⟨1, f ⟩ 1 π Cn (x) = a0 + ak cos(kx) met a0 = = f (x)dx ⟨1, 1⟩ π 0 k=1 ∫ π ⟨cos(kx), f ⟩ 1 en ak = = f (x) cos(kx)dx ⟨cos(kx), cos(kx)⟩ 2π 0 De reeks C(x) = a0 + ∞ ∑ an cos(nx) heet de cosinusreeks van f op het interval [0, π] n=1 Voorbeeld 5.63. De verzameling 1, sin x, sin 2x, . . . , sin nx, . . . . . . is een maximaal orthogonale verzameling in C([0, π], R) . Zelfs in de inwendig product ruimte L2 ([0, π], R) is deze verzameling maximaal orthogonaal. Dit is vrij makkelijk te bewijzen als de familie uit Voorbeeld 5.61 verondersteld wordt maximaal orthogonaal te zijn. Na normeren verkrijgen we de maximaal orthonormale verzameling in C([0, π], R): √ √ √ 2 sin x 2 sin 2x 2 sin nx 1 √ , √ √ √ , ,..., ,...... π π π π Als in het vorige voorbeeld kan de nde Fourier sinus benadering Sn van f ∈ C([0, π], R) geı̈ntroduceerd worden en de sinusreeks. Voorbeeld 5.64. De verzameling 1, eix , e−ix , e2ix , e−2ix , . . . , einx , e−inx , . . . . . . is een maximaal orthogonale verzameling in C([−π, π], C) . Zelfs in de inwendig product ruimte L2 ([−π, π], C) is deze verzameling maximaal orthogonaal. Dit is vrij makkelijk te bewijzen als de familie uit Voorbeeld 5.61 verondersteld wordt maximaal orthogonaal te zijn. Na normeren verkrijgen we de maximaal orthonormale verzameling in C([−π, π], C): 1 eix e−ix e2ix e−2ix enix e−nix √ , √ , √ , √ , √ ,..., √ , √ ,...... 2π 2π 2π 2π 2π 2π 2π Als in voorbeeld 5.61 kan de nde exponentiëele benadering van f ∈ C([−π, π], C) geı̈ntroduceerd worden en de exponentiëele reeks. Hoofdstuk 6 De geadjungeerde van een lineaire operator 6.1 De geadjungeerde van een lineaire afbeelding Op eindig dimensionale ruimten Rn (en Cn ) hebben we aan de ene kant m × n matrices bekeken. Ook de lineaire afbeeldingen L : Rn → Rm zijn aan bod gekomen. De begrippen zijn aan elkaar gekoppeld via de standaardmatrix. Er zijn wiskundigen die zeggen: “matrices, daar draait het om”maar er is ook een groep die zegt: “nee hoor, lineaire afbeeldingen, die moeten centraal staan”. Merk op dat voor de oneindig dimensionale lineaire algebra er eigenlijk geen keus is. Lineaire afbeeldingen, daar draait het om. Ook voor het oneindig dimensionale geval willen we alle theorie die voor de matrices voor hande is op de lineaire afbeeldingen kunnen loslaten. Veel begrippen zijn zowel voor vierkante matrices als voor operatoren bekeken, zoals: eigenwaarden, eigenvectoren en diagonaliseren voor operatoren besproken. Maar andere begrippen, zoals symmetrisch, Hermitisch, orthogonaal, unitair, normaal · · · hebben we alleen voor matrices, maar in ieder geval in het eindig dimensionale geval zouden die ook voor de afbeeldingen moeten bestaan. Er is één operatie die we voor matrices kennen, maar niet voor afbeeldingen. Dat is het (Hermitisch) transponeren. Een m × n matrix A induceert een afbeelding LA : Cn → Cm (via LA (x) = Ax) terwijl de n × m matrix A∗ een afbeelding LA∗ : Cm → Cn oplevert (via LA∗ (y) = A∗ y). Probleem: hoe de afbeelding LA∗ uit de afbeelding LA te herkennen? Welnu, in college 4 zijn veel eigenschappen uit de volgende eigenschap verkregen. Voor elke tweetal vectoren x ∈ Cn en y ∈ Cm geldt namelijk ⟨Ax, y⟩ = ⟨x, A∗ y⟩ Dit volgt uit het feit dat het standaard inwendig product op Cn als matrixproduct geschreven kan worden via ⟨u, v⟩ = uT v = u∗ v. Hieruit en uit de eigenschappen voor Hermitisch transponeren blijkt dat ⟨Ax, y⟩ = (Ax)∗ y = (x∗ A∗ )y = x∗ (A∗ y) = ⟨x, A∗ y⟩ . Maar hebben we een relatie tussen LA en LA∗ verkregen: voor elke tweetal vectoren x ∈ Cn en y ∈ Cm geldt namelijk ⟨LA (x), y⟩ = ⟨x, LA∗ (y)⟩ Dit alles geeft aanleiding tot de volgende definitie. 129 130 Hoofdstuk 6. De geadjungeerde van een lineaire operator Definitie: Zij L : V → W een lineaire afbeelding tussen de inwendig productruimtes V en W . Een lineaire afbeelding L∗ : W → V met de eigenschap ⟨L(v), w⟩ = ⟨v, L∗ (w)⟩ voor alle v ∈ V en w ∈ W , (6.1) wordt de (een?) geadjungeerde afbeelding L∗ van L genoemd. Opmerking: (i) Merk op dat ⟨L(v), w⟩ het inwendig product in W betreft, terwijl ⟨v, L∗ (w)⟩ het inwendig product in V betreft. We noteren dit soms met: ⟨L(v), w⟩W = ⟨v, L∗ (w)⟩V . (ii) We kunnen inderdaad spreken over de geadjungeerde afbeelding, want als deze bestaat, is hij uniek. Stel namelijk dat zowel L1 als L2 een geadjungeerde van L is. Neem een vector w ∈ W . Volgens vergelijking (6.2) moet dan voor alle v uit V gelden: ⟨L(v), w⟩ = ⟨v, L1 (w)⟩ en ⟨L(v), w⟩ = ⟨v, L2 (w)⟩ en daarom zal voor alle v uit V gelden: ⟨v, L1 (w) − L2 (w)⟩ = ⟨v, L1 (w)⟩ − ⟨v, L2 (w)⟩ = ⟨L(v), w⟩ − ⟨L(v), w⟩ = 0. Dit kan alleen als L1 (w) − L2 (w) = 0 (neem maar v = L1 (w) − L2 (w)) waaruit volgt dat L1 (w) = L2 (w), en wel voor alle w uit W . Blijkbaar zijn L1 en L2 gelijke afbeeldingen. (iii) Wat niet duidelijk is of iedere lineaire afbeelding L : V → W ook inderdaad een geadjungeerde heeft. En inderdaad, dit hoeft niet zo te zijn in het oneindig dimensionale geval. Zelfs niet als W = V (dus als L een operator is). We zullen hiervan geen voorbeeld geven. In het algemeen geldt dat “mooi gedefinieerde operatoren een geadjungeerde hebben”. (iv) Merk op dat de geadjungeerde afbeelding van het inwendig product afhangt. Als op de inwendig product ruimte V of W het inwendig product veranderd wordt, dan verandert ook de geadjungeerde afbeelding L∗ van een gegeven lineaire afbeelding L : V → W . (v) Merk op dat dat de uitdrukking ⟨L(v), w⟩ = ⟨v, L∗ (w)⟩ (voor alle v ∈ V en w ∈ W ) via de rekenregels van het inwendig product (eerst ⟨L(v), w⟩ = ⟨v, L∗ (w)⟩) geeft dat: ⟨w, L(v)⟩ = ⟨L∗ (w), v⟩, voor alle v ∈ V en w ∈ W . We zeggen: L mag door het inwendig product gehaald worden en wordt L∗ . STELLING 6.1. Stel dat V, W een inwendig product ruimtes zijn. Als L : V → W een geadjungeerde heeft dan: 1. heeft L∗ : W → V dat ook en (L∗ )∗ = L. 2. heeft cL : V → W dat ook en (cL)∗ = cL∗ . Bewijs: De lineaire afbeelding L : V → W heeft een geadjungeerde, d.w.z. er is een (unieke) lineaire afbeelding L∗ : W → V met ⟨L(v), w⟩ = ⟨v, L∗ (w)⟩ voor alle v ∈ V en w ∈ W . 6.1. De geadjungeerde van een lineaire afbeelding 131 1. Beschouw nu L∗ : W → V . Omdat bovenstaande identiteit geeft dat: ⟨L∗ (w), v⟩ = ⟨w, L(v)⟩ voor alle w ∈ W en v ∈ V . bestaat er kennelijk een afbeelding, namelijk L, die voldoet aan de eis van de geadjungeerde van L∗ . Dus: L = L∗ ∗ . 2. Omdat ⟨(cL)(v), w⟩ = ⟨c(L(v)), w⟩ = c ⟨L(v), w⟩ = c ⟨v, L∗ (w)⟩ = ⟨v, c(L∗ (w))⟩ = ⟨v, (cL∗ )(w)⟩, voor alle v ∈ V en w ∈ W , volgt het gestelde. STELLING 6.2. Stel dat V, W, Z een inwendig product ruimtes zijn. 1. Als de afbeeldingen Li : V → W (i = 1, 2) geadjungeerde hebben, dan heeft de afbeelding L1 + L2 : V → W dat ook en (L1 + L2 )∗ = (L1 )∗ + (L2 )∗ . 2. Als de afbeeldingen L1 : V → W en L2 : W → Z geadjungeerde hebben, dan heeft de afbeelding L2 ◦ L1 : V → Z dat ook en (L2 ◦ L1 )∗ = (L1 )∗ ◦ (L2 )∗ . 3. Id : V → V heeft een geadjungeerde en Id∗ = Id. U mag de bewijzen zelf leveren in de opgaven. Tenslotte zullen we nog geadjungeerden van structureel simpele afbeeldingen bepalen. Voorbeeld 6.3. Laat V een rëel inwendig product ruimte zijn. We bekijken lineaire afbeeldingen L : R → V . Merk op dat R een inwendig product ruimte is met ⟨r, s⟩R = rs. Fixeer v ∈ V en definieer de afbeelding φv : R → V bekijken gedefiniëerd door: φv (r) = rv. Merk op dat de afbeelding φv : R → V inderdaad een lineaire afbeelding is. (Ga na!) We willen de geadjungeerde afbeelding bepalen. Kennelijk heeft deze geadjungeerde afbeelding φ∗v : V → R de eigenschap: ⟨φv (r), u⟩V = ⟨r, φ∗v (u)⟩R , for all r ∈ R, u ∈ V Hieruit kunnen we de formule van φ∗v (u) halen. Links lezen we: ⟨φv (r), u⟩ = ⟨rv, u⟩ = r ⟨v, u⟩. Rechts lezen we: ⟨r, φ∗v (u)⟩R = rφ∗v (u), dus kennelijk geldt: r ⟨v, u⟩ = rφ∗v (u), en dus: for all r ∈ R, u ∈ V φ∗v (u) = ⟨v, u⟩ Herinner: als q ∈ Rn met ∥q∥ = 1 dan is qqT de projectiematrix van de projectie op Span{q} d.w.z. projSpan{q} (x) = qqT (x) (Dus: qqT is de standaardmatrix van de projectie op Span{q}. Een zelfde soort uitspraak hebben we nu gekregen in een oneindig dimensionaal inwendig product ruimte! STELLING 6.4. Laat V een rëel inwendig product ruimte zijn. Als q ∈ V met ∥q∥ = 1 dan geldt voor W = Span{q} dat: projW = φq ◦ φ∗q 132 Hoofdstuk 6. De geadjungeerde van een lineaire operator Bewijs: We kennen de formule voor de projectie op W , omdat {q} een orthonormale basis is voor W . We concluderen: ( ) ( ) ⟨q, x⟩ ⟨q, x⟩ projW (x) = q= q = (⟨q, x⟩)q ⟨q, q⟩ ∥q∥2 Aan de andere kant: we kunnen φq ◦ φ∗q (x) uitwerken met de formules uit Voorbeeld 14.15. Dit zijn: φq (r) = rq en φ∗q (x) = ⟨q, x⟩. Dan verkrijgen we: (φq ◦ φ∗q )(x) = φq (φ∗q (x) = φq (⟨q, x⟩) = (⟨q, x⟩)q = projW (x) De conclusie volgt. Tenslotte bepalen we de geadjungeerde van de projectie projW zelf. STELLING 6.5. Laat V een (rëel of complex) inwendig product ruimte zijn. Als W een eindig dimensionale deelruimte is en de projectie projW wordt beschouwd als projW : V → V (dus niet als projW : V → W ), dan geldt: projW ∗ = projW Bewijs: Het is voldoende aan te tonen: ⟨projW (x), y⟩ = ⟨x, projW (y)⟩ , voor alle x, y ∈ V. Om dit in te zien⟨schrijven we: ⟩x = w1 + w1♯ en⟨ y = w2⟩+ w2♯ met wi ∈ W en wi♯ ∈ W ⊥ . We zien: ⟨projW (x), y⟩ = w1 , w2 + w2♯ = ⟨w1 , w2 ⟩ + w1 , w2♯ = ⟨w1 , w2 ⟩. ⟩ ⟨ Evenzo: ⟨x, projW (y)⟩ = w1 + w1♯ , w2 = ⟨w1 , w2 ⟩. De conclusie volgt. 6.2 De geadjungeerde van een lineaire operator De algemene definitie van de geadjungeerde van een afbeelding L : V → W is gepresenteerd. Wij zijn echter het meest geı̈nteresseerd in de situatie V = W , dus als L : V → V een operator is. We herhalen de definitie voor dit speciale geval. Definitie: Stel L : V → V een lineaire operator op de inwendig productruimtes V . Een lineaire operator L∗ : V → V met de eigenschap ⟨L(v), u⟩ = ⟨v, L∗ (u)⟩ voor alle v, u ∈ V (6.2) wordt de geadjungeerde operator L∗ van L genoemd. Als L : V → V een geadjungeerde operator heeft, dan loopt de geadjungeerde operator L∗ ook van V naar V . Toch is het soms goed voor het inzicht dat men zich realiseert dat L∗ : V → V de omgekeerde richting heeft van L : V → V . We geven enkele voorbeelden. 6.2. De geadjungeerde van een lineaire operator 133 Voorbeeld 6.6. In college 14 hebben we gezien dat de geadjungeerde L∗ van de operator L(x) = Ax op Cn met standaard inwendig product bestaat. Er geldt L∗ (x) = A∗ x. Hierbij is A een (eventueel complexe) n × n matrix. De geadjungeerde van de afbeelding L op Rn (met standaard inwendig product) gedefinieerd door L(x) = Ax is de afbeelding L∗ op Rn met L∗ (x) = AT x. Voorbeeld 6.7. Bekijk de operator L op Beschouw de vectorruimte C([−1, 1], C) voorzien van ∫1 het standaard inwendig product ⟨f, g⟩ = −1 f (t)g(t) dt. Bekijk de operator L op C([−1, 1], C) die gedefinieerd wordt door ∫ 1 ∫ 1 x−t x L(f )(x) = e f (t) dt = e e−t f (t) dt. −1 −1 Dus L voegt aan iedere functie f een veelvoud van de exponentiële functie ex toe. We laten zien dat de operator L∗ gedefinieerd door ∫ 1 ∫ 1 L∗ (f )(x) = et−x f (t) dt = e−x et f (t) dt. −1 −1 de geadjungeerde van L is. Dit doen we door ⟨L(f ), g⟩ en ⟨f, L∗ (g)⟩ te berekenen en vervolgens te beredeneren dat ze gelijk zijn. ) ∫ ∫ ( ∫ 1 ⟨L(f ), g⟩ = −1 ∫ 1 L(f )(x)g(x) dx = (∫ 1 = e e−t f (t) −1 ∫ 1 = e−t f (t) dt g(x) dx = −1 −1 ) 1 x 1 ex −1 e−t f (t) dt ∫ (∫ )∫ 1 e−t f (t) dt g(x) dx = 1 ex g(x) dx = dt −1 −1 1 ex g(x) dx. −1 −1 en ⟨f, L∗ (g)⟩ = ∫ 1 f (x)L∗ (g)(x) dx = −1 1 ∫ ∫ −1 1 −1 1 et g(t)dt = ∫ f (x) e−x (∫ 1 ) et g(t)dt dx −1 e−x f (x) dx −1 Het is wellicht niet duidelijk dat deze integralen hetzelfde opleveren. Maar als we in de eerste integraal de variabele x de naam t en de variabele t de naam x geven, dan verschijnt de tweede intergraal (met omgekeerde integratie volgorde). En dus hebben beide integralen dezelfde waarde. Dus volgt dat ⟨L(f ), g⟩ = ⟨f, L∗ (g)⟩, hetgeen we wilden aantonen. In bovenstaand voorbeeld bestaat de geadjungeerde van de gegeven operator. Het zal iedereen duidelijk zijn dat het (bij dit voorbeeld) verdraaid lastig zal zijn om de geadjungeerde operator zelf te verzinnen (in het voorbeeld werd de formule van de geadjungeerde gegeven). Met name als je niet van te voren zou weten of deze wel bestaat. De vraag is natuurlijk: bestaan ze altijd en als de geadjungeerde bestaat, hoe vind je die dan? Eindig dimensionaal zal de geadjungeerde altijd bestaan (zie stelling 6.9) en eigenlijk geeft deze stelling ook een methode hoe de geadjungeerde dan te vinden. In de opgaven vindt u een voorbeeld van een operator op een oneindig-dimensionale inwendig productruimte die geen geadjungeerde heeft. Ook bestaat in het oneindig-dimensionale geval geen standaardprocedure die de geadjungeerde oplevert. Je bent dan aangewezen op de definitie en op je puzzelend vermogen. We geven een voorbeeld. 134 Hoofdstuk 6. De geadjungeerde van een lineaire operator Voorbeeld 6.8. Laat V een complex inwendig productruimte zijn. Fixeer a ∈ V . Definieer de operator L : V → V via L(x) = ⟨a, x⟩ a Bepaal een formule voor de geadjungeerde operator L∗ . (U mag zelf nagaan dat de afbeelding lineair is.) Er moet gelden: ⟨L(x), y⟩ = ⟨x, L∗ (y)⟩ De eerste kunnen we bepalen. ⟨L(x), y⟩ = ⟨⟨a, x⟩ a, y⟩ en kennelijk moeten we dit omschrijven naar ⟨x, ??⟩, waarbij ?? gelijk is aan L∗ (y). Welnu: ⟨L(x), y⟩ = ⟨⟨a, x⟩ a, y⟩ = ⟨a, x⟩ ⟨a, y⟩ = ⟨x, a⟩ ⟨a, y⟩ = ⟨x, ⟨a, y⟩ a⟩ Kennelijk L∗ (y) = ⟨a, y⟩ a. Opmerkelijk, kennelijk geldt: L en L∗ zijn dezelfde afbeelding! Dan nu de stelling voor het eindig-dimensionale geval: STELLING 6.9. De geadjungeerde van een lineaire operator L op een eindig-dimensionale inwendig productruimte V over L bestaat (en is uniek). Als voor V een orthonormale basis B gekozen wordt en als A de matrix van L ten opzichte van deze basis is, dan geldt dat A∗ de matrix van L∗ is ten opzichte van B. Met andere woorden: ∗ [L∗ ] = [L] . B←B B←B mits de basis B orthonormaal is. Bewijs: Definieer L∗ via coördinatisering ten opzichte van B door [L∗ (x)]B = A∗ [x]B . We zullen laten zien dat deze operator op V de geadjungeerde van L is. Daarmee is dan aangetoond dat deze bestaat (uniciteit was al bekend). Omdat B een orthonormale basis is, hebben we ⟨v, w⟩ = ([v]B )∗ [w]B (zie stelling 5.37). Dus voor alle x en y uit V geldt dat ⟨L(x), y⟩ = ([L(x)]B )∗ [y]B = (A[x]B )∗ [y]B = ([x]B )∗ (A∗ [y]B ) = ([x]B )∗ [L∗ (y)]B = ⟨x, L∗ (y)⟩ waarmee het gestelde volgt. Opmerking: Als gewerkt wordt op een reële vectorruimte komt hermitisch transponeren overeen met transponeren. Dus kan in bovenstaande de “*” overal vervangen worden door “T”. Behalve dan bij L∗ . Ook in het reële geval wordt de geadjungeerde van een operator L, L∗ genoemd en dus niet LT . De stelling zegt niet alleen dat de geadjungeerde van operatoren op eindig-dimensionale vectorruimten altijd bestaat, maar geeft zelfs een methode om de geadjungeerde in die situatie te bepalen. Deze methode werkt als je een orthonormale basis voor de vectorruimte hebt. In het volgende voorbeeld laten we zien hoe dat gaat. R2 met product en beschouw de operator Voorbeeld 6.10. Beschouw([ ])het [standaardinwendig ] x1 x2 2 2 L : R → R gegeven door L = . We bepalen L∗ : R2 → R2 . x2 x1 [ ] 0 1 Beschouw E = {e1 , e2 }, de standaardbasis. Kennelijk geldt dat [L] = . Omdat E = 1 0 E←E 6.2. De geadjungeerde van een lineaire operator 135 ( {e1 , e2 } een orthonormale basis is, geldt: [L∗ ] = E←E ] [ ] [ ][ 0 1 x1 x2 = . U ziet: L∗ = L. 1 0 x2 x1 )T [L] E←E [ = 0 1 1 0 ] ([ . En dus: L∗ x1 x2 ]) = Voorbeeld 6.11. Voorzie nu R2 van het inwendig product ⟨x, y⟩ [= x1 y]1 + x1 y2 + x2 y1 + 2x2 y2 . ([ ]) x x2 1 Bekijk weer de operator L op R2 gegeven door L = . We bepalen opnieuw x2 x1 ∗ 2 2 ∗ L : R → R (en zullen inzien [dat inderdaad L afhangt van het i.p.) ] 0 1 Er geldt nog steeds dat [L] = , maar nu is E geen orthonormale basis. Om de geadjun1 0 E←E geerde afbeelding te vinden, voeren we de volgende stappen uit: 1. Bepaal een orthonormale basis: via Gram-Schmidt vinden we, vanuit de standaardbasis E, de orthonormale basis (ga na!): ([ ] [ ]) 1 −1 B= , . 0 1 2. Bepaal ten opzichte van B de matrix van L: [ ]−1 [ ][ 1 −1 0 1 1 [L] = P [L] P = 0 1 1 0 0 B←E E←EE←B B←B −1 1 ] [ = 1 0 1 −1 ] . 3. Bepaal de hermitisch getransponeerde: dat is dan de matrix van L∗ ten opzichte van B. Dus: [ ] 1 1 ∗ [L ] = . 0 −1 B←B 4. Ten opzichte van de standaardbasis is de matrix van L∗ dan [ ][ ][ ]−1 [ ] 1 1 1 −1 1 3 [L∗ ] = P [L∗ ] P = 1 −1 = . 0 1 0 −1 0 1 0 −1 E←B B←BB←E E←E ([ ]) [ ] x1 x1 + 3x2 ∗ Er geldt dus L = . x2 −x2 Er is nog een tweede methode om de geadjungeerde van een operator te bepalen. Deze werkt met een willekeurige basis en maakt gebruik van de Grammatrix van het inwendig product ten opzichte van die basis. STELLING 6.12. Als L een lineaire operator op een eindig-dimensionale inwendig productruimte V over L is en als B een basis is voor V , dan geldt )∗ ( [L∗ ] = GB [L] GB −1 . B←B B←B Bewijs: We gebruiken Stelling 5.35 om de inwendige producten te berekenen. )∗ ( )∗ ( ∗ ∗ [ ] [ ] ⟨L(x), y⟩ = [L(x)]B GB [y]B = L [x]B GB [y]B = ([x]B ) L GB [y]B B←B en B←B ⟨x, L∗ (y)⟩ = ([x]B )∗ GB [L∗ (y)]B = ([x]B )∗ GB [L∗ ] [y]B . B←B 136 Hoofdstuk 6. De geadjungeerde van een lineaire operator ( Omdat deze twee voor elke x en y gelijk zijn, volgt: [L∗ ] = G−1 B B←B ( )∗ [L] )∗ [L] B←B ( GB = B←B GB = GB [L∗ ] , zodat GB [L] GB −1 B←B )∗ B←B , (we gebruiken hier dat de matrix GB Hermitisch is) hetgeen bewezen moest worden. Voorbeeld 6.13. Als bovenstaande stelling toegepast wordt op de operator en inwendig productruimte uit Voorbeeld 6.11 t.o.v. de standaardbasis E, dan hebben we [ ] [ ] 1 1 0 1 GE = en M = , 1 2 1 0 zodat [L∗ ] = E←E ( )∗ ([ 1 −1 [ ] GE L GE = 1 E←E 1 2 ][ 0 1 1 0 ][ 2 −1 −1 1 ])∗ [ = 1 0 Dit is in overeenstemming met het resultaat van Voorbeeld 6.11. 6.3 3 −1 ] . Zelfgeadjungeerde (hermitische) operatoren We zullen in deze paragraaf de klasse van zogenaamde zelfgeadjungeerde operatoren definiëren. Er zal in deze paragraaf blijken dat bij dit soort operatoren een orthogonale eigenbasis (dat is een dus een volledig uit eigenvectoren bestaande orthogonale basis) bestaat voor de vectorruimte waarop de operator werkt, mits deze eindig dimensionale is. Definitie: Een lineaire operator L op een inwendig productruimte V heet zelfgeadjungeerd als L gelijk is aan zijn geadjungeerde L∗ , wat wil zeggen dat ⟨L(v), w⟩ = ⟨v, L(w)⟩ , voor alle v en w in V . Als V een reële vectorruimte is, noemen we zo’n operator ook wel symmetrisch en als V een complexe vectorruimte zeggen we wel dat de operator hermitisch is. Voorbeeld 6.14. Uit de inleiding van §6.1 (of Stelling 6.9) volgt dat een matrixtransformaties T : Cn → Cn (met standaard inwendig product) met T (x) = Ax een zelfgeadjungeerde lineaire operator is als en slechts als A een hermitische matrix is. Evenzo is een matrixtransformatie T : Rn → Rn (met standaard inwendig product) met T (x) = Ax zelfgeadjungeerd als en slechts als A een symmetrische matrix is. De volgende stelling, die bij eindig dimensionale inwendige productruimten gebruikt kan worden om na te gaan of een operator zelfgeadjungeerd is, volgt direct uit stelling 6.9. STELLING 6.15. Een lineaire operator op een eindig-dimensionale inwendig productruimte is zelfgeadjungeerd als en slechts als de matrix ten opzichte van een orthonomale basis hermitisch is (in het complexe geval) of symmetrisch (in het reële geval). 6.3. Zelfgeadjungeerde (hermitische) operatoren 137 Herinner hierbij dat symmetrische matrices per definitie reëel zijn. Nagaan of een operator op een oneindig-dimensionale vectorruimte zelfgeadjungeerd is, zal met de definitie moeten gebeuren, zie het volgende voorbeeld. Voorbeeld 6.16. We laten zien dat de lineaire operator D : Pol(R) → Pol(R) uit voorbeeld 3.44, die gedefinieerd werd door D(p)(X) = (1 − X 2 ) dp d2 p − 2X = (1 − X 2 )p′′ (X) − 2Xp′ (X), dX 2 dX een symmetrische operator is, mits Pol(R) voorzien wordt van het inwendig product ∫ 1 ⟨p, q⟩ = p(x)q(x) dx. −1 Er geldt namelijk ∫ ⟨D(p), q⟩ = 1 D(p)(x)q(x) dx −1 ∫ 1 = ∫ −1 1 ( ) (1 − x2 )p′′ (x) − 2xp′ (x) q(x) dx ) d ( (1 − x2 )p′ (x) q(x) dx −1 dx ∫ 1 [ ]1 = (1 − x2 )p′ (x)q(x) −1 − (1 − x2 )p′ (x)q ′ (x) dx = ∫ =− −1 1 −1 (1 − x2 )p′ (x)q ′ (x) dx. Bij het één na laatste =-teken is partieel geı̈ntegreerd. Als in deze uitdrukking p en q omgewisseld worden verandert er niets!! Dat betekent dat ⟨D(p), q⟩ = ⟨D(q), p⟩. Verder werken we hier met een inwendig product op een reële vectorruimte zodat ⟨D(q), p⟩ = ⟨p, D(q)⟩. Dus ⟨D(p), q⟩ = ⟨p, D(q)⟩ en daaraan zien je dat D een symmetrische operator is1 . Eigenwaarden en eigenvectoren van zelf geadjungeerde operatoren We herinneren ons de stelling dat iedere Hermitische (symmetrische) matrix A reële eigenwaarden heeft en (unitair) diagonaliseerbaar is, en dat de ruimte Cn (of Rn ) een orthogonale basis van eigenvectoren van A heeft( zie Stelling 4.33). Dan vertelt Stelling 6.15 ons: STELLING 6.17. Stel L : V → V is een zelfgeadjungeerde lineaire operator op een eindigdimensionale inwendig productruimte V . Dan zijn alle eigenwaarden van L reëel en V heeft een orthogonale basis van eigenvectoren van L. Bewijs: Laat B een orthonormale basis van V zijn en we beschouwen de coördinatisering via deze basis B. Volgens Stelling 5.37 geldt: ⟨v, u⟩V = ⟨[v]B , [u]B ⟩Cn Beschouw de matrixtransformatie [L] B←B 1 De ∗. We weten: hier geschetste methode wordt in het bij kwantummechanica gebruikte boek toegepast. 138 Hoofdstuk 6. De geadjungeerde van een lineaire operator 1. λ is eigenwaarde van de matrix [L] als en slechts als λ eigenwaarde is van de operator L, en B←B 2. v is eigenvector van L bij λ als en slechts als [v]B eigenvector is van de matrix [L] bij λ. B←B Tenslotte geeft stelling 6.15 dat de matrix [L] Hermitisch is. Dan zijn de eigenwaarden van B←B [L] reëel, dus geeft 1. dat die van L dat ook zijn. Tenslotte, een orthogonale basis van Cn van B←B eigenvectoren van [L] levert volgens 2. (een basis van V van) eigenvectoren van L op. Volgens ∗ B←B is dat zelfs een orthogonale basis van V . We willen soortgelijke resultaten voor het oneindig dimensionale geval. Het bewijs van de volgende reultaten is hetzelfde als dat Stelling 4.15 in § 4.3.) STELLING 6.18. Een zelfgeadjungeerde (hermitische, symmetrische) operator L op een inwendig product ruimte V heeft de volgende eigenschappen: (i) de eigenwaarden zijn allemaal reëel; (ii) eigenvectoren bij verschillende eigenwaarden staan loodrecht. Bewijs: Neem een eigenwaarde λ en een bijbehorende eigenvector v. Dan hebben we: λ ⟨v, v⟩ = ⟨v, λv⟩ = ⟨v, L(v)⟩ = ⟨L(v), v⟩ = ⟨λv, v⟩ = λ ⟨v, v⟩ . Omdat een eigenvector per definitie niet nul is, is ⟨v, v⟩ = ∥v∥2 ook ongelijk aan nul. De gevonden vergelijking kan dus door ⟨v, v⟩ gedeeld worden, zodat overblijft λ = λ. Dat betekent dat λ reëel is, waarmee de eerste uitspraak bewezen is. Voor de tweede uitspraak nemen we eigenvectoren v1 bij eigenwaarde λ1 en v2 bij eigenwaarde λ2 met λ1 ̸= λ2 . Dan volgt λ2 ⟨v1 , v2 ⟩ = ⟨v1 , λ2 v2 ⟩ = ⟨v1 , L(v2 )⟩ = ⟨L(v1 ), v2 ⟩ = ⟨λ1 v1 , v2 ⟩ = λ1 ⟨v1 , v2 ⟩ . en dus geldt (λ2 − λ1 ) ⟨v1 , v2 ⟩ = 0. Omdat λ1 vanwege de eerste uitspraak reëel is, hebben we λ1 = λ1 en omdat λ1 ̸= λ2 volgt dat (λ2 − λ1 ) ̸= 0. Maar dan ⟨v1 , v2 ⟩ = 0, wat zegt dat v1 en v2 loodrecht op elkaar staan. Tenslotte, is de eigenschap dat iedere Hermitische (symmetrische) matrix A unitair diagonaliseeerbaar is (equivalent: Cn (of Rn ) heeft een orthonormale basis van eigenvectoren van A) te vertalen naar de oneindig dimensionale situatie? Het antwoord is ja. Echter, we hebben niet voldoende kennis ontwikkeld om de volgende stelling te bewijzen. STELLING 6.19. Stel dat L : V → V een zelfgeadjungeerde (hermitische, symmetrische) operator op een inwendig product ruimte V is. Dan bestaat er in V een maximaal orthonormale verzameling bestaande uit eigenvectoren van L. 6.3. Zelfgeadjungeerde (hermitische) operatoren 139 Voorbeeld 6.20. Kijk nog eens naar de operator D uit de voorbeelden 3.44 en 6.16. In het tweede voorbeeld hebben we gezien dat D een symmetrische operator is. We weten dus dat de eigenwaarden reëel zijn en dat eigenvectoren bij verschillende eigenwaarden loodrecht op elkaar staan. In voorbeeld 3.44 hebben we berekend dat de getallen van de vorm −n2 − n voor n = 0, 1, 2, . . . de eigenwaarden van D zijn. Deze zijn inderdaad reëel. Ook hebben we gezien dat het ne -graads (Legendre–)polynoom Pn de eigenruimte bij eigenwaarde −n2 − n opspant. Met bovenstaande stelling volgt nu dat de polynomen P0 , P1 , P2 , . . . een oneindige orthogonale verzameling vormt. Het zijn immers eigenvectoren bij verschillende eigenwaarden van een symmetrische operator. In college 11 werd beweerd dat we deze Legendre–polynomen ook vinden als het Gram-Schmidt proces toegepast wordt op 1, X, X 2 , X 3 , . . . . We zullen nu laten zien dat dit (op een factor na) inderdaad zo is. Immers: als Gram-Schmidt wordt toegepast op 1, X, X 2 , X 3 , . . . vind je achtereenvolgens polynomen p0 van graad 0, p1 ∈ Span{p0 }⊥ = Span{1}⊥ van graad 1, p2 ∈ Span{p0 , p1 }⊥ = Span{1, X}⊥ van graad 2, p3 ∈ Span{p0 , p1 , p2 }⊥ = Span{1, X, X 2 }⊥ van graad 3, enzovoorts. Er geldt dus dat pn een polynoom is van graad n uit Span{1, X, . . . , X n−1 }⊥ . Kijk nu naar het polynoom Pn : deze heeft graad n en staat loodrecht op de ruimte opgespannen door P0 , . . . , Pn−1 . Omdat dit n − 1 onafhankelijke polynomen zijn in het lineair omhulsel van 1, X, X 2 , . . . , X n−1 en omdat de dimensie hiervan n−1 is, vormen P0 , . . . , Pn−1 een basis voor Span{1, X, X 2 , . . . , X n−1 }. Blijkbaar is de ruimte opgespannen door P0 , . . . , Pn−1 precies gelijk aan Span{1, X, X 2 , . . . , X n−1 } en geldt dus dat Pn en pn polynomen van graad n uit Span{1, X, . . . , X n−1 }⊥ zijn. Omdat dim(Span{1, X, . . . , X n−1 }) = n − 1 vormen de polynomen van graad n die loodrecht op deze span staan een 1-dimensionale ruimte. Dat betekent dat pn en Pn scalaire veelvouden van elkaar zijn en dus op een factor na precies hetzelfde zijn. Beschouw dit als winst: toepassen van Gram-Schmidt betekent relatief veel rekenwerk terwijl het produceren van de eigenvectoren (en dus van de Legendre polynomen) met de methode van voorbeeld 3.44 veel makkelijker gaat. Tenslotte merken we op dat uit stelling 6.19 volgt dat de verzameling Legendre-polynomen {p0 , p1 , . . . , pn , . . .} een maximale orthogonale verzameling in Pol(R) is. Toepassing in de kwantummechanica De zelfgeadjungeerde operatoren spelen een grote rol in de kwantummechanica. De meetbare grootheden (positie, impuls, energie van een deeltje) worden namelijk door zelfgeadjungeerde operatoren beschreven. De eigenwaarden van deze operatoren zijn de waarden die deze meetbare grootheden kunnen aannemen (bij energie zijn het de energieniveaus). Deze operatoren zijn dus van groot belang in de fysica en een voorname reden om zo ver te gaan met lineaire algebra. In voorbeeld 6.21 gaan we hier iets verder op in (dit voorbeeld is niet van belang voor het vak, maar slechts bedoeld om een link te leggen tussen lineaire algebra en kwantummechanica). Voorbeeld 6.21. We kunnen er niet aan ontkomen om één van de belangrijkste toepassingen van de theorie van hermitische operatoren aan te stippen, namelijk de kwantummechanica. In de kwantummechanica worden toestanden van een deeltje aangegeven door functies die genoteerd worden als Ψ(x). Hierbij is x de plaats (dus element van Rn ) en Ψ(x) een element van Cn . Met zo’n toestandsfunctie kan de kans om een deeltje binnen een bepaald volume V aan te treffen berekend worden. Deze kans is gelijk aan ∫ ∫ ∥Ψ(x)∥2 dx = Ψ(x)Ψ(x) dx. V V 140 Hoofdstuk 6. De geadjungeerde van een lineaire operator De kans om het deeltje ergens in de hele ruimte aan te treffen is natuurlijk 1. De vectorruimte U opgespannen door alle toestandsfuncties is een hermitisch-productruimte als we het inwendig product definiëren door2 ∫ ⟨f, g⟩ = f (x)g(x) dx. R3 De toestandsfuncties zijn dan genormeerde vectoren uit U . Alle te meten waarden van grootheden als impuls en plaats blijken eigenwaarden te zijn van lineaire operatoren die werken op de toestandsfuncties. Als Ψ(x1 , x2 , x3 ) = (ψ1 , ψ2 , ψ3 ) dan wordt de lineaire operator p̂ : U → U die de impuls “representeert” gedefinieerd door p̂(Ψ) = −i dψ1 dx1 dψ2 dx2 dψ3 dx3 (kort genoteerd: p̂ = −i∇ = (−i dxd 1 , −i dxd 2 , −i dxd 3 )) en de operator x̂ : U → U die de plaats “representeert” gedefinieerd door x̂(Ψ) = (x1 ψ1 , x2 ψ2 , x3 ψ3 ) (kort genoteerd: x̂ = (x1 , x2 , x3 )). Dit alles is zo geconstrueerd dat de verwachtingswaarde van de impuls in een toestand Ψ gelijk is aan ⟨Ψ, p̂(Ψ)⟩ en die van de plaats aan ⟨Ψ, x̂(Ψ)⟩. Als Ψ een eigenvector is (van p̂ respectievelijk x̂) is deze verwachtingswaarde precies de eigenwaarde. Bij kwantummechanica zal (met stellingen uit de lineaire algebra) blijken dat de eerder genoemde operatoren zelfgeadjungeerd zijn en dus reële eigenwaarden hebben, hetgeen te verwachten is omdat verwachtingen ook reëel zijn. Ook bestaat er (zoals we in §6.7 zullen zien) bij de operatoren een basis voor U die volledig uit eigenvectoren bestaat. Het gevolg daarvan is dat elke toestand een lineaire combinatie is van eigenvectoren en de verwachtingswaarden dezelfde combinatie, maar dan van de bijbehorende eigenwaarden. Om deze reden wordt in de kwantummechanica van alle meetbare grootheden (=operatoren) geëist dat ze hermitisch zijn. 6.4 Hilbertruimten De vertaling van de eindigdimensionale resultaten naar het oneindig dimensionale geval is vrij succesvol. Om deze nog verder te verbeteren moeten we ook inzien wat er fout kan gaan. Waar we ons in het eindig dimensionale geval nooit zorgen hoefde te maken was continuı̈teit van afbeeldingen. Een lineaire afbeelding L : Rn → Rm is gewoon continu. Tuusen oneindig dimensionale ruimtes is dat echter niet het geval. Maar waarschijnlijk zien we op dit moment nog helemaal niet in wat dat zal betekenen. Omdat we op een inwendig product ruimte V een afstandsbegrip hebben via d(u, v) = ∥u − v∥, kunnen we op een V het begrip:“limiet van een rij” introduceren. 2 Het product wordt ook vaak geschreven als ⟨f |g⟩ en een verwachtingswaarde van p als ⟨Ψ|p|Ψ⟩. De (toestands)functies worden vaak geschreven als |Ψ⟩ en deze worden kets genoemd. De complex geconjugeerde (toestands)functies worden dan geschreven als ⟨Ψ| en worden bra’s genoemd. Aan elkaar geplakt geven de bra ⟨f | en de ket |g⟩ het product ⟨f |g⟩, net als de woorden aan elkaar geplakt het woord bra(c)ket opleveren. 6.4. Hilbertruimten 141 Definitie: Laat V een inwendig product ruimte zijn en stel dat {vn }n∈N een rij van vectoren in V is. We zeggen dat deze rij in V convergent is (met limiet ℓ ∈ V ), als geldt: voor iedere ε > 0 bestaat een n0 ∈ N met de eigenschap: d(vn , ℓ) < ε, voor iedere n > n0 . We schrijven weer: lim vn = ℓ. Men kan weer aantonen dat als een rij een limiet heeft, dan n→∞ is die limiet uniek bepaald. (Merk op dat dit precies de definitie van limiet is die we kennen in R.) Omdat het afstandsbegrip in V gekoppeld is aan de norm op V , heet de rij {vn } ook wel: “convergent in de norm”. We zijn dit al eerder tegengekomen op C([−π, π], R). Aan een continue functie f : [−π, π] → R kunnen we de Fourier rij {Fn }n≥1 in C([−π, π], R) toevoegen. n ∑ (Herinner: Fn (x) = a0 + (ak cos(kx) + bk sin(kx)).) In de ruimte V = C([−π, π], R) zal gelden: k=1 lim Fn = f n→∞ Nu we het limiet begrip hebben kunnen we continuı̈teit definiëren. Definitie: Laat L : V → W een lineaire afbeelding zijn tussen de inwendig product ruimtes V en W . De afbeelding L heet continu als voor iedere rij {vn } in V met lim vn = ℓ geldt: n→∞ lim L(vn ) = L(ℓ). n→∞ De continue lineaire afbeeldingen blijken de belangrijke lineaire afbeeldingen te zijn. Projecties ijn altijd continu. Men kan aantonen: STELLING 6.22. Laat L : V → W een continue lineaire afbeelding zijn tussen de inwendig product ruimtes V en W . De afbeelding L heeft een geadjungeerde afbeelding L∗ : W → V . Vervolgens zal men ook kritischer zijn op de te bestuderen inwendig productruimtes. Daarom: Definitie: Laat V een inwendig product ruimte zijn en stel dat {vn }n∈N een rij van vectoren in V is. We zeggen dat deze rij een Cauchyrij is als geldt: voor iedere ε > 0 bestaat een n0 ∈ N met de eigenschap: d(vn , vm ) < ε, voor alle n, m > n0 . Intuı̈tief: een rij is een Cauchyrij als de termen op den duur willekeurig dicht bij elkaar komen. In het bijzonder zal gelden dat convergente rijen Cauchyrijen zijn. 142 Hoofdstuk 6. De geadjungeerde van een lineaire operator Men kan aantonen dat in sommige ruimten ook het tegenovergestelde geldt: STELLING 6.23. Een Cauchyrij in R zal convergent zijn. Dit geldt ook in Rn en Cn . Inwendig productruimtes met deze eigenschap worden volledig genoemd en blijken de interessante ruimtes te zijn. Definitie: Een Hilbertruimte V is een inwendig productruimte met de eigenschap dat iedere Cauchyrij convergent is. Welke ruimtes te we zijn tegengekomen zijn Hilbertruimtes? Niet al te veel! STELLING 6.24. Eindig dimensionale inwendigproduct ruimtes zijn Hilbertruimtes. Van de oneindig domensionale ruimtes die we zijn tegengekomen zijn alleen ℓ2 (R), ℓ2 (C), L2 ([a, b], R) en L2 ([a, b], C) Hilbertruimtes. 6.5 De spectraalstelling voor zelfgeadjungeerde operatoren Herriner de spectraalstelling voor Hermitische matrices, en wel vorm 1 van deze stelling. STELLING 6.25. (Spectraalstelling, vorm 1) Laat A een hermitische n×n matrix zijn. Laat B = {q1 , . . . , qn } een orthonormale basis zijn van Cn bestaande uit eigenvectoren van A, zeg Aqi = λi qi met λi ∈ R (i = 1, . . . , n). Dan geldt: A= n ∑ i=1 λi qi qi ∗ = n ∑ λi [projSpan{qi } ] i=1 De Hermitische matrix is een lineaire combinatie van projectiematrices qi qi ∗ = [projSpan{qi } ] van projecties op onderling loodrechte Span{qi } ⊂ Eλi met gewichten: de (reële) eigenwaarden. En nu de zelfgeadjungeerde operatoren L : V → V . We weten uit stelling 6.19 dat V een maximaal orthonormale familie eigenvectoren heeft. In stelling 6.4 hebben we geleerd de projectie op de 1 dimensionale deelruimte W = Span{q} (met ∥q∥ = 1) te beschrijven als projW = φq ◦ φ∗q . En ja, de stelling is nog steeds waar in het oneindig dimensionale geval. Echter, er zijn wat restricyies nodig (die in het eindig dimensionale geval geen extra eisen zijn). De operatoren moeten continu zijn en de onderliggende inwendig product ruimte moet een Hilbertrumte zijn. Voor bewijzen verwijzen we naar de literatuur. 6.6. Unitaire en orthogonale operatoren 143 STELLING 6.26. (Spectraalstelling, vorm 1) Stel dat L : V → V een continue zelfgeadjungeerde operator is op een Hilbertruimten V . Laat {qi |i ∈ I} een maximaal orthonormale verzameling in V zijn, bestaande uit eigenvectoren van L, zeg L(qi ) = λi qi met λi ∈ R (i ∈ I). Dan geldt: ∑ ∑ L= λi (φqi ◦ φ∗qi ) = λi projSpan{qi } i∈I i∈I De zelfgeadjungeerde operator is een oneindige som van van projecties op onderling loodrechte Span{qi } ⊂ Eλi met gewichten: de (reële) eigenwaarden. Merk op dat er, afgezien van de afwezigheid van het bewijs, nog een probleem aan deze stelling kleeft. Er wordt gesproken over een oneindige som van operatoren en eigenlijk weten we op dit moment niet wat daarmee bedoelt wordt (omdat geen afstandsbegrip op de vectorruimte van alle operatoren van V naar V geintroduceerd is). We weten dat een nadeel van vorm 1 van de spectraalstelling is dat deze decompositie i.h.a. niet uniek is. Daarvoor hadden we vorm 2. Herriner voor Hermitische matrices: STELLING 6.27. (Spectraalstelling, vorm 2) Laat A een hermitische n × n matrix zijn, zeg met (reëele) eigenwaarden λ1 , . . . , λk en eigenruimten Eλi (i = 1, . . . , k). Dan geldt: A= k ∑ λi [projEλ ] i i=1 Voor operatoren luidt vorm 2 als volgt. STELLING 6.28. (Spectraalstelling, vorm 2) Stel dat L : V → V een continue zelfgeadjungeerde operator is op een Hilbertruimte V . Zeg met eigenwaarden {λi : i ∈ I}. Dan geldt: ∑ L= λi projEλ i i∈I Tenslotte merken we op dat ook hier een probleem is. Natuurlijk, afwezigheid van het bewijs en aanwezigheid van een oneindige sommatie. Maar hier staat ook de projectie op de deelruimte Eλ . Die bestaat kennelijk, ook als Eλ oneindig dimensionaal is. Met onze opgebouwde kennis kunnen wij op dit moment niet inzien waarom die projectie zou bestaan. Daarvoor moet je de literatuur inzien. 6.6 Unitaire en orthogonale operatoren We behandelen nu een tweede type operator waarvoor ook geldt dat eigenvectoren bij verschillende eigenwaarden loodrecht staan. Dit wordt de vertaling van het begrip unitaire matrix (of orthogonale matrix, in het reële geval) naar de operatoren toe. Stelling 3.4 en de laatste stelling van college 8 144 Hoofdstuk 6. De geadjungeerde van een lineaire operator kunnen ons op het idee brengen van de volgende definitie. Definitie: Een lineaire operator L op een inwendig of productruimte V is een unitaire operator (als V een complexe vectorruimte is) of orthogonale operator (als V een reële vectorruimte is) als ⟨L(v), L(w)⟩ = ⟨v, w⟩ voor alle v en w in V . Voordat we voorbeelden van unitaire/orthogonale operatoren geven, zullen we een stelling bewijzen die lijkt op Stelling 4.17 voor unitaire matrices. Merk op dat het bewijs hetzelfde is als in Stelling 4.17 STELLING 6.29. Een unitaire of orthogonale operator L op een inwendig product ruimte V heeft de volgende eigenschappen: (i) de eigenwaarden hebben allemaal modulus 1 (dus als λ een eigenwaarde is, dan |λ| = 1); (ii) eigenvectoren bij verschillende eigenwaarden staan loodrecht. Bewijs: Neem een eigenwaarde λ en een bijbehorende eigenvector v. Er geldt dan ⟨v, v⟩ = ⟨L(v), L(v)⟩ = ⟨λv, λv⟩ = λλ ⟨v, v⟩ = |λ|2 ⟨v, v⟩ Omdat een eigenvector per definitie niet nul is, is ⟨v, v⟩ = ∥v∥2 ook ongelijk aan nul. De gevonden vergelijking kan dus door ⟨v, v⟩ gedeeld worden, zodat overblijft |λ|2 = 1 en dus |λ| = 1. Hiermee is de eerste uitspraak bewezen. Voor de tweede uitspraak nemen we eigenvectoren v1 bij eigenwaarde λ1 en v2 bij eigenwaarde λ2 met λ1 ̸= λ2 . Merk op dat λ1 λ1 = |λ1 |2 = 1 en dus λ1 = 1/λ1 . Er volgt ⟨v1 , v2 ⟩ = ⟨L(v1 ), L(v2 )⟩ = ⟨λ1 v1 , λ2 v2 ⟩ = λ1 λ2 ⟨v1 , v2 ⟩ = λ2 ⟨v1 , v2 ⟩ λ1 en dus (1 − Omdat λ1 ̸= λ2 volgt dat (1 − op elkaar staan. λ2 λ1 ) λ2 ) ⟨v1 , v2 ⟩ = 0. λ1 ̸= 0. Maar dan ⟨v1 , v2 ⟩ = 0, wat zegt dat v1 en v2 loodrecht Merk op dat uit de definitie volgt een een unitaire operator L : V → V injectief is. Inderdaad, als L(v) = 0, dan geeft de identiteit 0 = ⟨0, 0⟩ = ⟨L(v), L(v)⟩ = ⟨v, v⟩ dat ∥v∥ = 0 en dus v = 0. We hebben aangetoond dat Ker(L) = {0}, d.w.z. L is injectief. Als V eindig dimensionaal is, zal een unitaire operator L : V → V injectief zijn en dus ook surjectief en dus inverteerbaar. Oneindig dimensionaal hoeft dat niet. Voorbeeld 6.30. De shift Σ2 : ℓ2 (R) → ℓ2 (R) met Σ2 (x1 , . . . , xn , . . .) = (0, x1 , . . . , xn , . . .) 6.6. Unitaire en orthogonale operatoren 145 is orthogonaal (ga na), maar niet surjectief (ga na) dus niet inverteerbaar. Evenzo, de shift Σ2 : ℓ2 (C) → ℓ2 (C) is unitair, maar niet inverteerbaar. Omdat deze shift niet inverteerbaar is, kan dus ook niet gelden: L∗ = L−1 ! Wel geldt het volgende: STELLING 6.31. Laat L : V → V een operator zijn. Equivalent zijn: 1. L : V → V is een surjectieve unitaire operator. 2. L heeft een geadjungeerde en er geldt: L∗ = L−1 Bewijs: Stel dat L : V → V is een surjectieve unitaire operator. Omdat L ook injectief is, en surjectief, zal L zeker inverteerbaar zijn. Als we in de identiteit ⟨L(v), L(w)⟩ = ⟨v, w⟩ , voor alle v, w de variable L(v) even p noemen, dan kan p iedere waarde in V aannemen, want L is surjectief, en er geldt: v = L−1 (p). De identiteit leest dus als: ⟨ ⟩ ⟨p, L(w)⟩ = L−1 (p), w , voor alle p, w ∈ V Dit was de L∗ definieërende karakteristieke eigenschap uit § 6.1 en dus: L∗ = L−1 . Omgekeerd, stel dat L∗ = L−1 . Dan is L inverteerbaar en dus surjectief. Als we in de eigenschap: ⟨v, L(w)⟩ = ⟨L∗ (v), w⟩ , voor alle v, w ∈ V van L∗ , voor L∗ L−1 lezen, krijgen we: ⟨ ⟩ ⟨v, L(w)⟩ = L−1 (v), w , voor alle v, w ∈ V. Lezen we nu voor L−1 (v), zeg z, dan kan ook z iedere waarde in V aannemen (want ook L−1 is surjectief) dan v = L(z) en we lezen: ⟨L(z), L(w)⟩ = ⟨z, w⟩ , voor alle z, w ∈ V. Hier staat dat L unitair is. Unitaire en orthogonale afbeeldingen hebben allerlei eigenschappen. Zo geldt bijvoorbeeld dat ze lengtebewarend zijn (en orthogonale afbeeldingen ook nog hoekbewarend (zie de opgaven). Dat wil zeggen dat het beeld van een vector dezelfde lengte heeft als de oorspronkelijke vector (en dat de hoek tussen twee beelden hetzelfde is als de hoek tussen de oorspronkelijke vectoren). In feite is dat niet zo verrassend: lengtes en hoeken hebben met inwendig producten te maken en unitaire (orthogonale) afbeeldingen zijn per definitie “inwendig-product-bewarend”. Genoemde eigenschappen verklaren ook de naamgeving voor deze afbeeldingen: “orthogonale afbeelding” omdat twee onderling loodrechte vectoren door een orthogonale afbeelding weer worden afgebeeld op onderling loodrechte vectoren en “unitair” omdat eenheidsvectoren weer op eenheidsvectoren worden afgebeeld. De volgende stelling laat zien dat zelfs geldt dat elke lengtebewarende operator unitair (orthogonaal) is. 146 Hoofdstuk 6. De geadjungeerde van een lineaire operator STELLING 6.32. Voor een lineaire operator L op een inwendig productruimte V zijn de volgende voorwaarden equivalent. (i) L is unitair; (ii) ∥L(v)∥ = ∥v∥ voor alle v in V ; (iii) L beeldt eenheidsvectoren af op eenheidsvectoren. Bewijs: De bewijzen van “(i)⇒(ii)” en van “(ii)⇒(iii)” mag je zelf geven (zie opgave ??). We bewijzen nu eerst dat “(iii)⇒(ii)”. Neem daartoe een vector v uit V . Als v ̸= 0 kunnen we de 1 eenheidsvector v̂ = ∥v∥ v maken, waarvoor op grond van (iii) geldt dat ∥L(v̂)∥ = 1. Omdat L lineair is volgt 1 L(v̂) = L(v), ∥v∥ dus ∥L(v)∥ = ∥v∥. Natuurlijk geldt (ii) ook als v = 0: omdat L lineair is weten we dat L(0) = 0 en dus ook ∥L(0)∥ = ∥0∥ Nu het lastigste deel van het bewijs: (ii)⇒(i). We bewijzen het voor de situatie dat V een complexe vectorruimte is. Neem v en w uit V . Uit (ii) volgt dat ∥L(v + w)∥2 = ∥v + w∥2 . Dit uitwerken met behulp van inwendig producten levert ∥L(v)∥2 + ∥L(w)∥2 + 2Re ⟨L(v), L(w)⟩ = ∥v∥2 + ∥w∥2 + 2Re ⟨v, w⟩ . Omdat, wederom op grond van (ii), ∥L(v)∥ = ∥v∥ en ∥L(w)∥ = ∥w∥, volgt hieruit Re ⟨L(v), L(w)⟩ = Re ⟨v, w⟩ . Nu moet nog aangetoond worden dat ook Im ⟨L(v), L(w)⟩ = Im ⟨v, w⟩. Dat gaat op dezelfde manier door in plaats van w de vector iw in te vullen. Je vindt dan namelijk Re ⟨L(v), L(iw)⟩ = Re ⟨v, iw⟩ dus Re(i ⟨L(v), L(w)⟩) = Re(i ⟨v, w⟩). Gebruik nu dat voor complexe getallen z geldt dat Re(iz) = − Im(z). Voorbeeld 6.33. Neem een functie h in C([0, 2π], C) (met standaard inwendig product) die de eigenschap heeft dat |h(x)| = 1 voor alle x ∈ [0, 2π] en definieer de operator L op C([0, 2π], C) door L(f ) = hf (dus L(f )(x) = h(x)f (x)). Dan geldt ∫ 2π ∥L(f )∥2 = ⟨L(f ), L(f )⟩ = h(x)f (x)h(x)f (x) dx 0 ∫ 2π = h(x)h(x)f (x)f (x) dx ∫ 0 2π |h(x)|2 f (x)f (x) dx = ∫ 0 2π f (x)f (x) dx = ∥f ∥2 . = 0 De operator is blijkbaar lengtebewarend en dus unitair. 6.7. Normale operatoren en de spectraalstelling 147 GEVOLG 6.34. De samenstelling van twee unitaire (orthogonale) operatoren is weer unitair (orthogonaal). (Dit geldt niet voor zelfgeadjungeerde operatoren.) Bewijs: Dit is direct duidelijk als we het derde criterium van stelling 6.32 bekijken: als v een eenheidsvector is, is L2 (v) ook een eenheidsvector en L1 (L2 (v)) dus ook. De samenstelling L1 ◦ L2 is dus lengtebewarend en daarom unitair. Dat dit niet geldt voor zelfgeadjungeerde operatoren blijkt onder andere uit het feit dat het product van symmetrische matrices niet weer symmetrisch hoeft te zijn. Uit de definitie volgt nog een karakterisering die straks handig blijkt te zijn: We hebben nog niet gekeken naar matrixrepresentaties van unitaire (orthogonale) operatoren in de situatie dat ze werken op eindig-dimensionale inwendig productruimten. Dat gaan we nu doen. Wel is het dan handig om ten opzichte van een orthonormale basis te werken. STELLING 6.35. Stel dat V een eindig-dimensionale inwendig productruimte is met orthonormale basis B en laat L : V → V een operator zijn. Dan geldt: de operator L : V → V is een unitaire (orthogonale) operator als en slechts als de transformatiematrix [L] ten opzichte B←B van de orthonormale basis B een unitaire (orthogonale) matrix. 6.7 Normale operatoren en de spectraalstelling In deze paragraaf gaan we het begrip normale matrix op operator niveau bekijken. en we gaan het begrip normale operator introduceren. Definitie: Een lineaire operator L op een inwendig productruimte V is normaal als L en L∗ commuteren, dus als L ◦ L∗ = L∗ ◦ L. Voorbeeld 6.36. Alle zelfgeadjungeerde operatoren en alle surjectieve unitaire (en orthogonale) operatoren zijn normaal. Een niet surjectieve unitaire operator hoeft niet normaal te zijn. Voorbeeld 6.37. De shift Σ2 : ℓ2 (C) → ℓ2 (C) met Σ2 (x1 , . . . , xn , . . .) = (0, x1 , . . . , xn , . . .) is unitair maar niet surjectief. We weten ook dat Σ2 ∗ = Σ1 (met Σ1 (x1 , . . . , xn , . . .) = (x2 , . . . , xn , . . .). Maar dan geldt: Σ2 ∗ ◦ Σ2 = Σ1 ◦ Σ2 = Id ̸= Σ2 ◦ Σ1 = Σ2 ◦ Σ2 ∗ . De volgende stelling geeft het verband tussen normale operatoren op een eindig dimensionale ruimte en normale matrices: 148 Hoofdstuk 6. De geadjungeerde van een lineaire operator STELLING 6.38. Een operator LV → V op een eindig-dimensionale complexe inwen- dig productruimte V is normaal als en slechts als de transformatiematrix [L] van L ten opzichte B←B van een orthonormale basis B een normale matrix is. Bewijs: Dit volgt direct uit het feit dat A∗ de matrix van L∗ is ten opzichte van de basis (het is namelijk een orthonormale basis) en het feit dat de matrix van de samenstelling van twee lineaire afbeeldingen ten opzichte van de basis het product van de matrices is. We weten: STELLING 6.39. Een vierkante (eventueel complexe) matrix A is normaal als en slechts als in Cn een orthonormale basis van eigenvectoren van A bestaat. Dat wil zeggen, als en slechts als er een unitaire matrix U en een diagonaalmatrix D bestaan zo dat A = U DU −1 = U DU ∗ . In operatortaal wordt dat: STELLING 6.40 (De spectraalstelling, eenvoudige formulering). Een lineaire operator L : V → V op een eindig-dimensionale complexe inwendig productruimte V is een normale operator als en slechts als in V een orthonormale basis van eigenvectoren van L bestaat. Tenslotte de spectraalstellingen. Eerst vorm 1. STELLING 6.41. (Spectraalstelling, vorm 1) Stel dat L : V → V een continue normale operator is op een Hilbertruimten V . Dan bestaat een maximaal orthonormale verzameling {qi |i ∈ I} in V zijn, bestaande uit eigenvectoren van L, zeg L(qi ) = λi qi met λi ∈ C (i ∈ I). Dan geldt: ∑ ∑ L= λi (φqi ◦ φ∗qi ) = λi projSpan{qi } i∈I i∈I Merk op dat stelling 6.26 een onderdeel van stelling 6.41 is. Echter bij stelling 6.26 is er sprake van reele eigenwaarden. Bij stelling 6.41 kunnen de eigenwaarden complex zijn. We weten dat een nadeel van vorm 1 van de spectraalstelling is dat deze decompositie i.h.a. niet uniek is. Daarvoor hadden we vorm 2. Voor operatoren luidt vorm 2 als volgt. 6.7. Normale operatoren en de spectraalstelling 149 STELLING 6.42. (Spectraalstelling, vorm 2) Stel dat L : V → V een continue normale operator is op een Hilbertruimte V . Zeg met eigenwaarden {λi : i ∈ I}. Dan geldt: ∑ L= λi projEλ i i∈I Toegift 1: Een voorbeeld van een unitaire matrix, de discrete Fourrier transformatie De discrete Fourrier transformatie (de DFT) is een lineaire afbeelding F : CN → CN . Deze voert een rij complexe getallen (z0 , z1 , · · · , zN −1 ) ter lengte N om in een rij (Z0 , Z1 , · · · , ZN −1 ) van complexe getallen ter lengte N , via de formule: Zk = N −1 ∑ zn e− 2πi N kn k = 0, 1, · · · , N − 1 , n=0 Dit is niet de enige formule die men tegenkomt in de literatuur, ook de formules: Zk = en N −1 2πi 1 ∑ zn e− N kn , N n=0 N −1 2πi 1 ∑ Zk = √ zn e− N kn , N n=0 k = 0, 1, · · · , N − 1 k = 0, 1, · · · , N − 1 zijn gebruikelijke “DFT’s”. Wij kiezen voor de laatste formule omdat dit wiskundig gezien de mooiste is. Ook zullen we trouw blijven aan de lineaire algebra notatie, de vector wordt vertikaal geschreven engenummerd van 1 tot N (i.p.v. 0 tot N − 1). z1 Z1 N z2 Z2 2πi 1 ∑ Dus als z = . , dan F (z) = = Z met Zk = √ zn e− N (k−1)(n−1) , k = . . . . N n=1 . zN ZN 1, 2, · · · , N . 2πi 2πi Als we schrijven ζ = e− N (en omdat ζ k = e− N k (en ζ 0 = 1)) verkrijgen we zo: z1 + z2 + z3 + ··· + zN Z1 z1 + Z2 z2 ζ + z3 ζ 2 + ··· + zN ζ N −1 2 4 1 z1 + Z3 z2 ζ + z3 ζ + · · · + zN ζ 2(N −1) F (z) = Z = = = √ . .. .. .. .. N .. + . + . + ··· + . . ZN 1 =√ N 1 1 1 .. . z1 + z2 ζ N −1 1 ζ ζ2 .. . 1 ζ2 ζ4 .. . 1 ζ N −1 ζ 2(N −1) + z3 ζ 2(N −1) + ··· 1 z1 z2 ··· ζ N −1 · · · ζ 2(N −1) z3 .. .. . ··· . ··· 151 ζ (N −1) 2 zN ··· + = Uz zN ζ (N −1) 2 152 Toegift 1: Een voorbeeld van een unitaire matrix, de discrete Fourrier transformatie We hebben laten zien dat de discrete Fourrier transformatie inderdaad een lineaire transformatie is met standaardmatrix bovenstaande matrix U . Om te laten zien dat U = [ u1 · · · , uN ] een unitaire matrix is volstaat het om te laten zien dat de verzameling {u1 · · · , uN } orthonormaal is. Merk op dat 2πi 1 Ui,j = √ e− N (i−1)(j−1) N Daarom ⟨uℓ , uk ⟩ = N N 1 ∑ + 2πi (ℓ−1)(j−1) − 2πi (k−1)(j−1) 1 ∑ − 2πi (ℓ−1)(j−1) − 2πi (k−1)(j−1) e N e N = e N = e N N j=1 N j=1 N N 1 ∑ ( − 2πi (k−ℓ) )(j−1) 1 ∑ − 2πi (k−ℓ)(j−1) = e N e N N j=1 N j=1 Hier staat de som van een meetkundige reeks en omdat 1 + a + · · · + aN −1 = ⟨uℓ , uk ⟩ = 1 − aN volgt: 1−a 2πi N 1 ∑ ( − 2πi (k−ℓ) )(j−1) 1−1 1 1 − (e− N (k−ℓ) )N 1 1 − e−2πi(k−ℓ) 1 e N = = = =0 2πi 2πi − − (k−ℓ) (k−ℓ) N j=1 N 1−e N N 1−e N N 1 − e− 2πi N (k−ℓ) Dus inderdaad, uℓ ⊥uk , als k ̸= ℓ. Vervolgens: ∥uℓ ∥2 = ⟨uℓ , uℓ ⟩ = N N N 1 ∑ − 2πi (ℓ−1)(j−1) − 2πi (ℓ−1)(j−1) 1 ∑ + 2πi (ℓ−1)(j−1) − 2πi (k−1)(j−1) 1 ∑ e N e N = e N e N = 1=1 N j=1 N j=1 N j=1 Dus inderdaad, ∥uℓ ∥ = 1, voor ℓ = 1 · · · N . We hebben aangetoond dat {u1 , . . . , uN } een orthonormale verzameling in CN is en we concluderen dat U een unitaire matrix is. Opmerking: {u1 , . . . , uN } is een veel gebruikte orthonormale basis voor CN . Nu is de inverse operator ook te bepalen. Merk op dat U T = U en we zien dat voor de unitaire U geldt: U −1 = U ∗ = U . Omdat Z = F (z) = U z volgt: z = U −1 Z = U Z, m.a.w.: N 2πi 1 ∑ zk = √ Zn e+ N kn , N n=1 Opmerking: k = 1, · · · , N Als de DFT formule Zk = N ∑ zn e− 2πi N kn , k = 1, · · · , N n=1 gebruikt wordt, dan ziet de inverse formules er als volgt uit. Kennelijk geldt nu: Z = Bz met √ √ 1 1 B = N U . Daarom B −1 = ( N U )−1 = √ U −1 = √ U en dus: N N zk = N 2πi 1 ∑ Zn e+ N kn , N n=1 k = 1, · · · , N Toegift 1: Een voorbeeld van een unitaire matrix, de discrete Fourrier transformatie 153 Omdat de DF T matrix unitair is geldt: ⟨F (v), F (w)⟩ = ⟨v, w⟩ (zie opgave ?? van college 2) en dus: N N ∑ ∑ V n Wn = vn wn (formule Plancherel) n=1 en ∥V∥2 = n=1 N ∑ Vn Vn = n=1 Opmerking: N ∑ vn vn = ∥v∥2 (formule Parseval) n=1 Als de DFT formule Zk = N ∑ zn e− 2πi N kn , k = 1, · · · , N n=1 gebruikt wordt, dan zien de formules van Plancherel en Parseval er als volgt uit. N N ∑ 1 ∑ V n Wn = vn wn N n=1 n=1 en (formule Plancherel) N N ∑ 1 1 ∑ Vn Vn = vn vn = ∥v∥2 ∥V∥2 = N N n=1 n=1 (formule Parseval) Toegift 2: Commuterende matrices en simultaan diagonaliseerbaarheid Definitie: De reële matrices A en B heten simultaan reëel diagonaliseerbaar als een reële inverteerbare matrix P bestaat en twee reële diagonaalmatrices D1 en D2 zodat A = P D1 P −1 en B = P D2 P −1 . Simultane reële diagonaliseerbaarheid van A en B is equivalent met het bestaan van een basis van Rn die zowel bestaat uit eigenvectoren van A als uit eigenvectoren van B. Evenzo: Definitie: De matrices A en B heten simultaan (complex) diagonaliseerbaar als een (complexe) inverteerbare matrix P bestaat en twee (complexe) diagonaalmatrices D1 en D2 zodat A = P D1 P −1 en B = P D2 P −1 . Simultane (complexe) diagonaliseerbaarheid van A en B is equivalent met het bestaan van een basis van Cn die zowel bestaat uit eigenvectoren van A als uit eigenvectoren van B LEMMA 8.1. Laat A en B twee simultaan diagonaliseerbare matrices zijn. Dan geldt: AB = BA. Bewijs: Stel D1 en D2 zijn diagonaalmatrices en P een matrix zodat geldt: A = P D1 P −1 en B = P D2 P −1 . Dan geldt: AB = P D1 P −1 P D2 P −1 = P D1 D2 P −1 en BA = P D2 P −1 P D1 P −1 = P D2 D1 P −1 . Omdat voor diagonaalmatrices geldt D1 D2 = D2 D1 concluderen we: D1 D2 = D2 D1 . Verrassend voor mij geldt ook het omgekeerde. Hieraan is al af te lezen dat commutativiteit van het product van twee matrices een strenge eis is op A en B. STELLING 8.2. 1. Laat A en B twee reëel diagonaliseerbare matrices zijn met: AB = BA. Dan geldt: A en B zijn simultaan reëel diagonaliseerbaar. 2. Laat A en B twee diagonaliseerbare matrices zijn met: AB = BA. Dan geldt: A en B zijn simultaan diagonaliseerbaar. We zullen alleen het bewijs leveren voor het reële geval. Het complexe geval gaat letterlijk hetzelfde, vervang Rn steeds door Cn . Het bewijs is echter niet geheel triviaal en vergt enkelijke lemma’s. 155 156 Toegift 2: Commuterende matrices en simultaan diagonaliseerbaarheid Definitie: Laat A een n × n matrix zijn. We zeggen dat een deelruimte W van Rn invariant is onder A (of: A-invariant is) als geldt: als w ∈ W dan ook Aw ∈ W , voor alle w ∈ W . LEMMA 8.3. Laat A een reële n × n matrix zijn en W een A-invariante deelruimte van Rn . Dan geldt: als v1 , . . . vk eigenvectoren van A zijn bij verschillende eigenwaarden λ1 , . . . , λk met v1 + · · · + vk ∈ W , dan vi ∈ W , voor i = 1, . . . , k. Bewijs: We tonen dit aan met inductie naar k. Als k = 1 dan is de uitspraak duidelijk correct. Stel de uitspraak is juist bij ieder k-tal vectoren van A bij verschillende eigenwaarden. Neem nu een k+1-tal eigenvectoren bij verschillende eigenwaarden, zeg de eigenvectoren v1 , . . . vk , vk+1 bij de onderling verschillende eigenwaarden λ1 , . . . , λk , λk+1 met v1 + · · · + vk + vk+1 ∈ W. (1) Onze aannames impliceren dat A(v1 + · · · + vk + vk+1 ) ∈ W ⇒ A(v1 ) + · · · + A(vk ) + A(vk+1 ) ∈ W en dus: λ1 v1 + · · · + λk vk + λk+1 vk+1 ∈ W. (2) Vermenigvuldig de eerste formule met λk+1 en trek de tweede formule hiervan af. We verkrijgen: (λk+1 − λ1 )v1 + · · · + (λk+1 − λk )vk ∈ W. Omdat λk+1 − λi ̸= 0 zijn (λk+1 − λi )vi (i = 1, . . . , k) k-veel eigenvectoren bij verschillende eigenwaarden λi (i = 1, . . . , k). De inductieaanname geeft dat (λk+1 −λi )vi ∈ W voor (i = 1, . . . , k). En dus (omdat λk+1 −λi ̸= 0) volgt ook dat vi ∈ W voor (i = 1, . . . , k). Tenslotte hebben we dan ook vk+1 ∈ W , als verschil van de twee vectoren v1 + · · · + vk + vk+1 en v1 + · · · + vk uit W . Hiermee is ook de uitspraak voor k + 1 vectoren bewezen. LEMMA 8.4. Laat A een reëel diagonaliseerbare n × n matrix zijn en W een A-invariante deelruimte van Rn . Dan geldt: W heeft een basis bestaande uit eigenvectoren van de matrix A. Bewijs: De matrix A is reëel diagonaliseerbaar, dus bestaat er een basis B = {v1 , . . . , vn } van Rn bestaande uit eigenvectoren van A. De deelruimte W heeft ook een basis, zeg w1 , . . . , wk . Iedere van deze vectoren wi is een sommatie van de basis van Rn bestaande uit eigenvectoren van A. Door in deze sommatie eigenvectoren bij dezelfde eigenwaarden bij elkaar te nemen en te zien als één eigenvector, zien we: “iedere vector wi is te schrijven als: wi = V1i + · · · + Vℓi i waarbij V1i , . . . , Vℓi i eigenvectoren van A zijn bij verschillende eigenwaarden. Via het vorige lemma (hier gebruiken we dat W A-invariant is) kunnen we concluderen dat de eigenvectoren V1i , . . . , Vℓi i in W moeten zitten. We kunnen concluderen dat W wordt opgespannen door eindig veel eigenvectoren van A. Via de uitdunningsstelling kunnen we hieruit een basis (van eigenvectoren van A) voor W kiezen. We hebben genoeg bagage ingeladen om stelling 8.2 te bewijzen. Bewijs: Laat A en B commuterende reëel diagonaliserende matrices zijn. Beschouw de eigenruimten van B, zeg Eλ1 , . . . , Eλk . Claim: ieder van deze eigenruimtes is A-invariant. Om deze claim te bewijzen is het commuteren AB = BA nodig. Kies Eλ , een eigenruimte van B, en kies x ∈ Eλ . Dan geldt zeker Bx = λx. Toegift 2: Commuterende matrices en simultaan diagonaliseerbaarheid 157 Uit AB = BA volgt: ABx = BAx, dus Aλx = BAx en dus λ(Ax) = B(Ax). We lezen hieruit: Ax is een eigenvector van B bij de eigenwaarde λ, d.w.z. Ax ∈ Eλ . Hiermee is de claim bewezen. Nu passen we lemma 8.4 toe en concluderen dat iedere eigenruimte Eλ van B een basis heeft bestaande uit eigenvectoren van A. Deze basis bestaat natuurlijk ook uit eigenvectoren van B. Als we op deze manier alle eigenruimtes van B doorlopen vinden we een basis van Rn bestaande uit zowel eigenvectoren van A als van B, en daarmee is de simultane diagonalisering van A en B gevonden. Opmerking: Pas op. In bovenstaande situatie kan men niet concluderen dat A en B dezelfde eigenruimtes hebben. Neem maar B = I en A een matrix met meerdere eigenruimtes. Bovenstaande stelling gaat ook op als meerdere matrices commuteren. Om precies te zijn: STELLING 8.5. Laat A1 , . . . , Ak diagonaliseerbare matrices zijn met: Ai Aj = Aj Ai , voor alle i, j. Dan geldt: A1 , . . . , Ak zijn simultaan diagonaliseerbaar (d.w.z. er is één matrix P zodat Ai = P Di P −1 , voor alle i). Toegift 3: Gegeneraliseerde eigenvectoren, de Jordan normaalvorm Herinner: een vector v ∈ Cn heet een eigenvector van de matrix A bij de eigenwaarde λ als (A − λI)v = 0. We weten: een matrix A is (complex) diagonaliseerbaar als en slechts als Cn een basis heeft bestaande uit eigenvectoren van A. Wat als zo’n basis niet bestaat? Kennelijk is A dan niet te diagonaliseren. Maar bestaat er dan wellicht wel een andere vorm/type standaard matrix waarmee A gelijkvormig is? Definitie: Laat λ ∈ C een getal zijn. Een k × k λ 1 0 0 λ 1 .. . 0 λ . . .. .. .. . 0 0 ··· matrix van de vorm: ··· 0 ··· 0 ··· 0 .. . 1 0 λ heet een Jordanblok en wordt genoteerd met Jλk of kortweg Jλ of zelfs J. Merk op: bij het Jordanblok Jλ bestaat de diagonaal uit louter lambda’s en daarboven een “bovendiagonaal” van énen. De rest van de kentallen zijn 0. Definitie: Een matrix A heet in Jordannormaalvorm als deze bestaat uit Jordanblokken over de diagonaal en de rest louter uit nullen Voorbeeld 9.1. De matrices A1 en 1 0 0 0 2 1 0 0 2 A1 = 0 0 0 0 0 0 0 0 0 A2 met: 0 0 0 3 0 0 0 0 0 1 3 0 0 0 0 0 1 3 A2 = 2 0 0 0 0 0 0 2 0 0 0 0 0 1 2 0 0 0 0 0 0 2 0 0 0 0 0 1 2 0 0 0 0 0 1 2 zijn matrices in Jordannormaalvorm. Inderdaad, de matrix A1 bestaat op de diagonaal uit de Jordanblokken: [ ] 3 1 1 [ ] 2 1 0 3 1 . 1 0 2 0 0 3 159 160 Toegift 3: Gegeneraliseerde eigenvectoren, de Jordan normaalvorm Evenzo: A2 bestaat uit de Jordanblokken: [ 2 ] [ 2 1 0 2 ] 2 1 0 2 0 0 1 1 . 2 Men kan bewijzen: STELLING 9.2. Iedere matrix A is gelijkvormig met een matrix in Jordannormaalvorm Het bewijs van bovenstaande stelling is verdraaid lastig en presenteren we niet. We zullen wel enige stappen aangegeven hoe een matrix op Jordannormaalvorm te brengen is. Als eerste stap geven we de volgende stelling. STELLING 9.3. Als de matrix A gelijkvormig is met de matrix J in Jordannormaalvorm bestaande uit de Jordanblokken Jλℓ11 , . . . , Jλℓkk , dan zijn λ1 , . . . , λk precies de eigenwaarden van A. Bewijs: Omdat A en J gelijkvormig zijn hebben ze hetzelfde karakteristiek polynoom. H Het karakteristiek polynoom van J is simpel te bepalen: pA (λ) = pJ (λ) = (λ1 − λ)l1 · · · (λk − λ)ℓk (ga na) en de conclusie volgt. Om tot de volgende stappen te komen beschouwen we de matrices A1 en A2 uit Voorbeeld 9.1 nogmaals. Voorbeeld 9.4. (Vervolg) Bekijk nogmaals de matrix A1 . Dan: 1. De vector e1 is eigenvector van A1 bij λ = 1, dus: Ae1 = 1e1 , equivalent: (A1 − 1I6 )e1 = 0. 2. De vector e2 is ook een eigenvector van A1 , echter bij de eigenwaarde λ = 2. Dus: (A1 − 2I6 )e2 = 0. 3. De vector e3 is geen eigenvector van A1 , wel geldt: (A1 − 2I6 )e3 = e2 . (A1 − 2I6 )2 e3 = 0. 4. De vector e4 is weer een eigenvector van A1 en wel bij de eigenwaarde λ = 3. Dus: (A1 − 3I6 )e4 = 0. 5. De vector e5 is geen eigenvector van A1 , wel geldt: (A1 − 3I6 )e4 = e3 . (A1 − 3I6 )2 e5 = 0. 6. De vector e6 is geen eigenvector van A1 , wel geldt: (A1 − 3I6 )e6 = e5 . (A1 − 3I6 )3 e6 = 0. Min of meer dezelfde observaties zijn geldig voor A2 , met dat verschil dat al de eigenwaarden 2 zijn. Er geldt bijvoorbeeld: (A2 − 2I6 )3 e6 = 0. We stellen vervolgens de vraag: bij een gegeven lineaire afbeelding T : Cn → Cn : wat moet gelden voor een basis B = {b1 , . . . , bn } opdat de transformatiematrix [T ] = [ [T (b1 )]B · · · [T (bn )]B ] een Jordanblok Jλn is? De volgende stelling is simpel te verifiëren. B←B Toegift 3: Gegeneraliseerde eigenvectoren, de Jordan normaalvorm 161 STELLING 9.5. Gegeven een afbeelding T : Cn → Cn en een basis B = {b1 , . . . , bn }. Equivalent zijn: 1. De transformatiematrix [T ] = is een Jordanblok Jλn . B←B 2. Er geldt: (T − λI)(b1 ) = 0 en (T − λI)(bk ) = bk−1 voor k = 2, . . . , n. Hier staat dus: b1 is eigenvector van T bij λ en b2 is een oerbeeld b1 onder T − λI etc. In het bijzonder zal gelden voor de basis B uit Stelling 9.5: (T − λI)k (bk ) = 0. Definitie: Laat A een n × n matrix zijn. Een vector b ∈ Cn heet een gegeneraliseerde eigenvector van A bij de eigenwaarde λ als k ∈ N bestaat zodat (A − λI)k (b) = 0. Een cykel van gegeneraliseerde eigenvectoren van A is een rij b1 , . . . , bℓ van gegeneraliseerde eigenvectoren met: (A − λI)(b1 ) = 0 en (A − λI)(bk ) = bk−1 voor k = 2, . . . , ℓ. De cykel wordt genoteerd met bℓ → · · · → b2 → b1 → 0 Hier staat de pijl voor de operatie (afbeelding) A − λI. Merk op dat in deze notatie van de cykel alleen de laatste vector b1 een eigenvector is. Zonder bewijs vermelden we: STELLING 9.6. Laat A een n × n matrix zijn. 1. Als bℓ → · · · → b2 → b1 → 0 een cykel in A is dan zijn de vectoren b1 , . . . , bℓ lineair onafhankelijk. 2. Als biℓi → · · · → bi 1 → 0 (i = 1, . . . , k) cykels in A zijn waarvan de eigenvectoren {bi1 |i = 1..k} onafhankelijk zijn, dan is de hele verzameling gegeneraliseerde eigenvectoren {bij |j = 1..ℓi , i = 1..k} onafhankelijk. STELLING 9.7. Laat A een n × n matrix zijn. Dan heeft Cn een basis B die puur bestaat uit cykels van gegeneraliseerde eigenvectoren van A. Zeg dit zijn de cykels biℓi → · · · → bi 1 → 0 bij λi (i = 1, . . . , k). Als P = [ b11 · · · b1ℓ1 b21 · · · b2ℓ2 · · · · · · , ] dan is A = P JP −1 met J een matrix in Jordannormaalvorm bestaande uit de Jordanblokken Jλℓ11 , . . . , Jλℓkk . Op de volgorde van de Jordanblokken na, is de matrix J uniek. Die heet dan ook de Jordaannormaalvorm van A. Een matrix op Jordannormaalvorm brengen is dus een zoektocht naar de cykels van de matrix. Voorbeeld 9.8. (Zie § 7.8, opgave 17 uitBoyce, duPrima.) 1 1 1 Beschouw de matrix A = 2 1 −1 . Enig rekenwerk laat zien dat pA (λ) = (2 − λ)3 . De −3 2 4 enige eigenwaarden van A is dus λ = 2 en enig rekenwerk laat zien dat dim(E2 ) = 1 en dat 0 1 een basis voor de eigenruimte is. Tot zover niets nieuws. −1 Nu kunnen we met onze nieuwe kennis concluderen dat dit moet betekenen dat de Jordannormaalvorm van A moet bestaan uit één Jordanblok, en wel 2 1 0 J23 = 0 2 1 0 0 2 162 Toegift 3: Gegeneraliseerde eigenvectoren, de Jordan normaalvorm Vervolgens zoeken we een bijbehorende cykel. 0 Het eindpunt van de cykel moet (een veelvoud van) b1 = 1 zijn. Omdat (A − 2I)(b2 ) = b1 −1 1 0 1 lossen we op (A − 2I)x = b1 wat levert: x = 1 + c 1 . Kies b2 = 1 . (We moeten 0 −1 0 een b2 nemen die onder A − 2I een oerbeeld heeft. Gelukkig doet dat hier er niet toe, iedere keuze van b2 zal zo’n oerbeeld hebben!) 2 0 2 Oplossen van (A − 2I)x = b2 levert x = 0 + c 1 . Neem dus bijvoorbeeld b3 = 0 . 3 −1 3 Dan is b3 → b1 → b cykel. 1 → 0 de gezochte 0 1 2 Conclusie: als P = 1 1 0 dan A = P J23 P −1 . −1 0 3 Voorbeeld 9.9. (Zie § 7.8,opgave 18 uit Boyce, duPrima.) 5 −3 −2 Beschouw de matrix A = 8 −5 −4 . Enig rekenwerk laat zien dat pA (λ) = (1 − λ)3 . −4 3 3 De van A is dus λ = 1 en enig rekenwerk laat zien dat dim(E1 ) = 2 en dat enige eigenwaarden 0 1 0 , 2 een basis voor de eigenruimte is. Tot zover niets nieuws. −3 2 Nu onze nieuwe kennis. Omdat dim(E1 ) = 2 zullen er dus twee cykels zijn. Op dot moment zien we dat de Jordannormaalvorm uniek bepaald moet zijn, namelijk 1 0 J = 0 1 0 0 0 1 1 Voor de cykelter lengte twee we dus een eigenvector met oerbeeld onder A − I nodig. hebben 1 0 Echter, noch 0 , noch 2 blijken zo’n oerbeeld te hebben. (Deze kunnen dus allebei als 2 −3 cykel ter lengte één gebruikt worden.) Een eigenvector met oerbeeld onder A − I zal er uit moeten 1 0 zien als v = c1 0 + c2 2 . We moeten dus nagaan voor welke c1 , c2 de vergelijking 2 −3 (A − I)x = v consistent is. Omdat: 4 −3 −2 8 −6 −4 −4 3 2 4 −3 −2 c1 ∼ 0 2c2 0 0 2c1 − 3c2 0 0 0 c1 2c2 − 2c1 3c1 − 3c2 zien we dat dit het geval is als c1 = c2 . Oplossen (A − I)x = b21 levert x = 0 0 −1 2 Nemen we c1 = c2 = 2 dan krijgen we b21 = 4 . −2 1 0 + d1 0 + d2 2 . 2 −3 Toegift 3: Gegeneraliseerde eigenvectoren, de Jordan normaalvorm 163 0 Neem bijvoorbeeld b22 = 0 . −1 1 2 0 4 0 dan: A = P JP −1 . Conclusie: als P = 0 2 −2 −1 In het algemeen kunnen we als in bovenstaande voorbeelden een matrix naar Jordannormaalvorm brengen. Dus: Stap 1: Bepaal alle eigenwaarden λ met hun algebraı̈sche multpliciteit a.m.(λ). Stap 2: Bepaal alle meetkundige multipliciteiten m.m.(λ). Stap 3. 1. Als m.m.(λ) = a.m.(λ): geen probleem. 2. Als m.m.(λ) = 1 geen probleem, er is 1 cykel te vinden als in voorbeeld 9.8. 3. Als 1 < m.m.(λ) < a.m.(λ) is i.h.a. het lastige geval. Als bijvoorbeeld m.m.(λ) = 3 en a.m.(λ) = 5 dan zijn er 3 cykels op te speuren die tesamen een 5 × 5 matrix vullen. Het is altijd goed om je eerst voor te stellen waar je naar moet gaan zoeken. Hier hebben we de keuze tussen: of twee cykels ter lengte één en één cykel ter lengte drie of één cykel ter lengte één en twee cykels ter lengte twee. Voorzichtig speuren als in voorbeeld 9.9 volgt.