Uitleg artikel algemene relativiteitstheorie: paragraaf 10

Trefwoorden: algemene relativiteitstheorie, Annalen der Physik, Die Grundlage der allgemeinen Relativitätstheorie/De grondslag van de algemene relativiteitstheorie, Königlich Preussischen Akademie der Wissenschaften/Koninklijke Pruisische Academie der Wetenschappen
Hoofdstuk B:
Wiskundige hulpmiddelen voor de opstelling van algemeen covariante vergelijkingen.


Paragraaf 10:
De vorming van tensoren door differentiëren.

Christoffel

In paragraaf 9 kwamen de Christoffel-symbolen op ons pad. De Christoffel-symbolen kwamen voort uit de manier waarop wij zochten naar de vergelijking van de geodetische lijn. Dit zijn de Christoffel-symbolen van de eerste - respectievelijk tweede soort:



Einstein

Hierin staan afgeleiden van de metrische tensor gμν. Maar wat betekent dat nou precies, om een tensor te differentiëren? Hoe gaat dat in zijn werk en wat levert dat op? Daar gaan we het in deze paragraaf uitgebreid over hebben. En in de eerste alinea gebruikt Einstein al gelijk de woorden leicht (= gemakkelijk) en einfach (= eenvoudig), dus dit wordt een eitje. Althans, volgens Einstein...

Stel je hebt een functie φ die invariant is, de functie φ beschrijft bijvoorbeeld de temperatuur op iedere plaats in deze ruimte. De functie φ beschrijft dus een scalarveld. Indien je zou wisselen van coördinatenstelsel (lees: een andere waarnemer) dan verandert er niets aan de temperatuur zoals die wordt waargenomen vanuit dat andere coördinatenstelsel. Maar hoe zit het dan met temperatuurverschillen tussen ‘hier’ en ‘daar’, oftewel met een verschil dφ? Dat hangt er dan vanaf waaraan ik dφ relateer, want een dφ/dt of een dφ/dx kan voor mij heel anders zijn dan voor een andere waarnemer. Mijn beleving van tijd en ruimte hoeven namelijk helemaal niet gelijk te zijn aan die van een andere waarnemer, sterker nog, de kans is uiterst klein dat een andere waarnemer dezelfde beleving heeft. Echter, wanneer ik dφ relateer aan iets anders dat invariant is dan wordt het verhaal heel anders. We weten inmiddels dat het ruimtetijdinterval ds invariant is, dat is immers één van de steunpilaren van de algemene relativiteitstheorie. Door dφ te ‘koppelen’ aan ds heb ik behoud van invariantie:
Je kunt dit ook als volgt zien. Dat verschilletje dφ is de overstap van de ene φ naar de andere φ die infinitesimaal dicht bij de eerste ligt. Als ik die twee φ’s φ1 en φ2 noem dan kan ik ook schrijven:
Omdat zowel φ1 als φ2 en ook ds invariant is, volgt hieruit dat dφ/ds een invariante grootheid is. Deze grootheid geef ik aan met ψ:
Voor dφ/ds kan ik ook schrijven:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Daarmee wordt vergelijking (10.4):

Oorspronkelijke vergelijking uit het artikel van Einstein:
Omdat ψ invariant is betekent dit dat het product van ∂φ/∂xμ en dxμ/ds dat ook is. Met andere woorden, de ene term moet covariant zijn en de andere term contravariant. En dat klopt ook helemaal, want ∂φ/∂xμ is de gradiënt en dus covariant (zie het voorbeeld met het weiland en de grassprietjes op het einde van paragraaf 5). En dxμ/ds is een ‘gewone’ vector en dus contravariant. In de linkerterm herkennen we dus een covariante vector:

Oorspronkelijke vergelijking uit het artikel van Einstein:
En in de rechterterm een contravariante vector:
Daarmee kunnen we vergelijking (10.4) ook schrijven als:
We zijn hier uitgegaan van de invariante functie φ en hebben die gedifferentieerd naar ds om vervolgens tot de ontdekking te komen dat dat wederom iets invariants oplevert. Ons vertrekpunt was de functie φ:
Die hebben we vervolgens gedifferentieerd naar ds:
En dat kunnen we natuurlijk nog een keer doen:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Met vergelijking (10.10) gaan we nu verder aan de slag door daar vergelijking (10.5) in te betrekken en de productregel te gebruiken voor het nemen van de afgeleide:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Wij bewegen ons dus door de ruimte waar die invariante grootheid φ ‘heerst’. En we springen van punt naar punt, telkens een stukje ds verder. We stellen nu dat we daarbij een geodetisch pad volgen, en dat betekent dat onze beweging voldoet aan de vergelijking van de geodetische lijn zoals we die in paragraaf 9 hebben afgeleid:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Deze vergelijking kunnen we ook iets anders opschrijven:
En dit kunnen we invullen in vergelijking (10.11):

Oorspronkelijke vergelijking uit het artikel van Einstein:
Omdat het niet uitmaakt of we eerst naar xμ differentiëren en dan naar xν of andersom, én omdat de Christoffel-symbolen symmetrisch zijn in de eerste twee indices (die mogen verwisseld worden), én omdat dxμ/ds en dxν/ds allebei contravariant zijn (en samen gezien kunnen worden als een contravariante tensor van de tweede rang), volgt hieruit dat het deel tussen haken een covariante tensor van de tweede rang moet zijn:

Oorspronkelijke vergelijking uit het artikel van Einstein:
We hadden oorspronkelijk een covariante vector, oftewel een covariante tensor van de eerste rang:

Oorspronkelijke vergelijking uit het artikel van Einstein:
En die kunnen we weer invullen in vergelijking (10.14/E25) en dan krijgen we:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Dus door een covariante tensor van de eerste rang (een vector) te differentiëren en er vervolgens de Christoffel-symbolen in te betrekken zijn we uitgekomen bij een covariante tensor van de tweede rang. Waarbij ik gelijk de opmerking plaats dat ik het een beetje ongelukkig vind dat Einstein zowel de vector die als input dient alsmede de resulterende tensor met de letter A aanduidt. Ik zou één van beide met een B hebben aangeduid, maar goed, formeel gezien mag het. En net als bij de vergelijking van de geodetische lijn uit paragraaf 9 zien we ook hier twee termen staan in de vergelijking. De linkerterm ∂Aμ/∂xν is de recht-toe-recht-aan afgeleide en de rechterterm komt erbij als een soort correctie voor al die zaken die erbij komen als ‘alles niet meer vlak en recht is en geen hoeken van 90 graden maakt’. Einstein noemt dit resultaat de uitbreiding (“erweiterung”) van een covariante tensor van de eerste rang (een vector), maar tegenwoordig praat iedereen over de afgeleide van een dergelijke tensor en om precies te zijn: over de covariante afgeleide van een dergelijke tensor.

Hierboven had ik het al even over het voorbeeld aan het einde van paragraaf 5 betreffende het weiland met de grassprietjes. Daar kwam de gradiëntvector langs toen we de functie f, die de hoogte van alle grassprietjes beschrijft, gingen differentiëren:
De gradiëntvector ν is niet anders dan de vector Aμ van vergelijking (10.6/E24), oftewel Aμ kun je ook als een gradiëntvector zien. En Einstein gaat hier nog even over door, want hij wil over willekeurige covariante vectoren praten en niet specifiek over gradiënten. Hij pakt nogmaals de ∂φ/∂xμ van vergelijking (10.6/E24) erbij en zet daar de invariante grootheid ψ van vergelijking (10.4) tegenaan. Daar is niets op tegen want ψ is invariant, ψ is een scalar (net als φ). De vector ∂φ/∂xμ wordt daardoor waarschijnlijk langer of korter, maar het totaal blijft een covariante vector:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Stel dat je vier van deze covariante vectoren hebt en die tel je bij elkaar op, dan is het resultaat daarvan weer een covariante vector:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Voor de duidelijkheid ga ik de componenten van de vector Sμ helemaal uitschrijven:



We nemen een vector Aμ, een covariante vector dus, waarvan de componenten functies zijn van de coördinaten xν. Voor de componenten van A geldt dus:



Vervolgens stelt Einstein:

Oorspronkelijke vergelijking uit het artikel van Einstein:


Oorspronkelijke vergelijking uit het artikel van Einstein:


Oorspronkelijke vergelijking uit het artikel van Einstein:


Oorspronkelijke vergelijking uit het artikel van Einstein:
En dat vullen we in in vergelijking (10.19):



En tenslotte kiezen we een coördinatenstelsel waarin het volgende geldt:

Oorspronkelijke vergelijking uit het artikel van Einstein:


Oorspronkelijke vergelijking uit het artikel van Einstein:


Oorspronkelijke vergelijking uit het artikel van Einstein:


Oorspronkelijke vergelijking uit het artikel van Einstein:
En ook dat vullen we in in vergelijking (10.22):



Kort samengevat in indexnotatie:
En op deze manier bewijst Einstein dat voor een willekeurige covariante vector, dus niet alleen voor een gradiëntvector, door te differentiëren vergelijking (10.15/E26) ontstaat. En het was al duidelijk geworden dat Aμν uit vergelijking (10.15/E26) een tensor is, maar is dit ook waar indien Aμ een willekeurige covariante vector is? Eerst gingen we uit van de covariante vector Aμ door te stellen dat dit de afgeleide is van de invariante functie φ naar de coördinaten xμ, met andere woorden, Aμ is een gradiëntvector. Later kwam er een willekeurige covariante vector in beeld in de vorm van ψ ∂φ/∂xμ. Het gaat er nu dus om of vergelijking (10.15/E26) ook een tensor beschrijft in het geval dat voor Aμ geldt:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Als je dan alle stappen nogmaals volgt die geleid hebben tot vergelijking (10.14/E25), ontstaat dezelfde vergelijking maar dan met de grootheid ψ erbij in. De grootheid ψ is namelijk invariant, een scalar dus, die er overal bij ‘insluipt’:

Oorspronkelijke vergelijking uit het artikel van Einstein:
We zagen reeds dat de afgeleide ∂φ/∂xμ een covariante vector is:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Dan moet dat ook gelden voor de afgeleide ∂ψ/∂xν (want φ en ψ zijn immers allebei invariant):
Het product van deze twee covariante vectoren is een tensor, een covariante tensor van de tweede rang:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Door de tensoren van (10.27) en (10.27b) bij elkaar op te tellen is het resultaat uiteraard ook een tensor:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Wat betreft het deel tussen de haken:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Dit deel komt perfect overeen met de tensor van de eerste rang zoals die in vergelijking (10.15/E26) staat, waarmee bewezen is dat vergelijking (10.15/E26) voor iedere willekeurige covariante vector Aμ geldt.

En automatisch dringt de vraag zich dan op hoe dit allemaal uitpakt voor een tensor van een willekeurige rang. Alles wat we tot nu toe gedaan hebben in deze paragraaf ging over het differentiëren van een vector, een tensor van de eerste rang, en hoe dat vervolgens leidde tot een tensor van de tweede rang. En Einstein merkt op (in de voetnoot van deze pagina) dat iedere tensor van de tweede rang te vormen is door twee vectoren A (A11, A12, A13, A14) en B (1, 1, 1, 0) middels het tensor product met elkaar te vermenigvuldigen. Dan ontstaat:

Oorspronkelijke vergelijking uit het artikel van Einstein:
En door dit viermaal te doen en de resultaten bij elkaar op te tellen kun je een willekeurige tensor van de tweede rang vormen. Dat lijkt mij een open deur, maar Einstein vond het kennelijk belangrijk dit nog even specifiek te vermelden.

We pakken vergelijking (10.15/E26) er weer eens bij:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Ik ga knutselen met de notatie, om te beginnen noteer ik de gewone afgeleide naar xν als ,ν:
We hebben hier de covariante afgeleide staan van de vector A naar xν, dat noteer ik als ;ν:
De index ν verander ik in σ:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Dit kan ik uiteraard ook opschrijven voor een willekeurige vector B:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Nu vermenigvuldig ik vergelijking (10.31) met de vector B:
En ik vermenigvuldig de vector A met vergelijking (10.32):
Vervolgens tel ik (10.33) en (10.34) bij elkaar op en ik maak gebruik van de productregel van het differentiëren:
De Christoffel-symbolen zijn symmetrisch in de eerste twee indices, dus die mag ik verwisselen:
Die punt-komma-notatie is wel leuk, maar in essentie voegt het niets toe. Althans, zoals Einstein het doet. Het object dat covariant gedifferentieerd wordt en het resultaat geeft hij telkens dezelfde letter A en daarmee wordt het verwarrend (ofschoon, zoals ik al aangaf, hij formeel geen overtreding begaat). Hoe het ook zij, het linkerlid is simpelweg een tensor van de derde rang en Einstein gebruikt nergens de punt-komma-notatie dus die laat ik nu weer weg om het resultaat van Einstein te kunnen reproduceren:

Oorspronkelijke vergelijking uit het artikel van Einstein:
Hier staat de covariante afgeleide van een covariante tensor van de tweede rang. Tenslotte merkt Einstein nog op dat de vergelijkingen (10.15/E26) en (10.6/E24) speciale gevallen zijn van vergelijking (10.37/E27), omdat daar uitgegaan is van een tensor van de eerste respectievelijk nulde rang.

Een logische vraag (vind ik) is: is de covariante afgeleide een ‘echte’ afgeleide? Het simpele antwoord is: nee. Het niet-simpele antwoord is, zoals zo vaak, een stuk gecompliceerder. Waarom hebben we dat ‘ding’ in het leven geroepen en wat zijn de voordelen van de covariante afgeleide? Daarvoor doe ik deze paragraaf nog eens over maar dan op een andere manier.

Stel we hebben een scalarveld φ en die differentiëren we naar de coördinaten xμ, dan krijgen we een covariante vector Aμ zoals we hiervoor al hebben gezien:

Oorspronkelijke vergelijking uit het artikel van Einstein:

In drie dimensies komt dit overeen met het voorbeeld van het weiland en de grassprietjes op het einde van paragraaf 5 en dat leverde de gradiënt op, een covariante vector:

Een vector Aμ, respectievelijk Aμ, transformeert als volgt (zie paragraaf 5 voor alle details):

De vraag is of de afgeleide van een vector een tensor is? Daar komen we als volgt achter, ik differentieer de vergelijkingen (10.38) naar de coördinaten in het coördinatenstelsel waar ik naar toe transformeer:

Door nog iets verder te knutselen kan ik ook schrijven:

De eerste term aan de rechterkant van de vergelijkingen (10.40) transformeert zoals een tensor zou moeten transformeren, maar de tweede term aan de rechterkant gooit roet in het eten. Het is overduidelijk dat de gewone afgeleide niet transformeert als een tensor en dus geen tensor is. Is dit vervelend? Is dit onverwacht? Kunnen we hier iets mee? Moeten we hier iets mee? Wat gebeurt hier eigenlijk precies?

Ik borduur daarom nog even voort op het voorbeeld van het weiland met de grassprietjes. Want stel dat het weiland niet vlak is, maar glooiend zoals op het plaatje hiernaast, dan heb ik er een complicerende factor bij. Ik kan het ene grassprietje niet blindelings vergelijken met het grassprietje ernaast omdat de ondergrond niet vlak is. Indien de hele Aarde een grasveld zou zijn dan staat een grassprietje op de evenaar haaks op een grassprietje die op de noordpool staat (waarbij ik het tweedimensionale aardoppervlak dan beschouw vanuit een hogere dimensie, de derde). Wil ik een grassprietje vergelijken met een ander grassprietje dan zal ik het ene sprietje naar de andere moeten transporteren en daarna pas de sprieten vergelijken.

Wanneer ik nu in plaats van grassprietjes aan vectoren denk dan zal ik op de een of andere manier een vector moeten kunnen verplaatsen van het ene punt naar een ander punt. Hierbij blijft de lengte van de vector gelijk, oftewel de vector wordt verplaatst parallel aan zichzelf: parallel transport. Stel ik heb een vector Aμ op een bepaalde positie met coördinaten xα. Deze vector ga ik vervolgens verplaatsen naar een klein stukje dxα verderop. Het verschil tussen beide vectoren is dan:
Het ligt in de lijn der verwachtingen dat dAμ afhankelijk is van de vector Aμ, en van het stukje dxα, en van iets dat nu nog onbekend is. Dat onbekende iets noem ik Ω. En omdat we het hier hebben over een infinitesimale verplaatsing mag ik ervan uitgaan dat Ω een lineair (eerste orde) ‘ding’ is. Voor dAμ kan ik dan schrijven:
Dan moet ik Ω natuurlijk ook indices meegeven:
Hoe nu verder? Daarvoor maak ik gebruik van het inwendig product, en dat ziet er in een Cartesisch coördinatenstelsel zo uit:
In een willekeurig coördinatenstelsel komt de metrische tensor er bij in:
Indien ik een inwendig product toepas op dezelfde vector dan is A = B, en de cosinus is gelijk aan één omdat de hoek tussen een vector en zichzelf uiteraard gelijk is aan nul. Vergelijking (10.45) ziet er dan zo uit:
Deze vergelijking ga ik differentiëren waarbij ik dien te bedenken dat de lengte van de vector tijdens de parallelle verplaatsing gelijk blijft (en de afgeleide dus nul is):
Vervolgens maak ik gebruik van (10.43):
Bovenstaande vergelijking schrijf ik nog tweemaal op, maar dan met de indices μ, ν en α cyclisch verwisseld:

Nu tel ik de vergelijkingen (10.48) en (10.49) bij elkaar op en ik trek (10.50) er van af:
Omdat de metrische tensor symmetrisch is mag ik ook schrijven:
Wat is de uitweg uit deze brij van indices? Daarvoor kijken we nogmaals naar vergelijking (10.43), want stel nou dat de vector Aν een infinitesimaal klein vectortje dxν is:
Wat maakt het nu nog uit of ik dxν verplaats over een afstandje dxα of dxα verplaats over een afstandje dxν? De situatie is volstrekt symmetrisch. En de enige conclusie die hieruit te trekken is, is dat Ω symmetrisch moet zijn in de indices ν en α. Dat maakt het leven ineens een heel stuk simpeler en ook vergelijking (10.52):
De onbekende Ω blijkt het Christoffel-symbool van de tweede soort te zijn! Vergelijking (10.43) wordt dus:
Zo komen de Christoffel-symbolen veel natuurlijker te voorschijn dan in de vorige paragraaf (vind ik). En dit verklaart ook de andere naam voor de Christoffel-symbolen, namelijk de affiene connectiecoëfficienten, of kortweg de affiene connecties of nog korter de connecties. Connectie is namelijk een ander woord voor verbinding en de Christoffel-symbolen verbinden als het ware twee punten in een ruimte. Hoe pakt dit uit voor een covariante vector Aμ? Daarvoor begin ik weer bij vergelijking (10.43), maar dan met een covariante vector in plaats van een contravariante vector:
Ik maak nu gebruik van:
Hiervan neem ik de afgeleide:
Dit ga ik gebruiken in (10.56) en ik knutsel nog wat verder:
Hier staat exact hetzelfde als vergelijking (10.43)! Met andere woorden ook hier is de onbekende Ω het Christoffel-symbool van de tweede soort, het enige verschil is dat er nu een minteken bijkomt. En het wordt nog boeiender wanneer ik het Christoffel-symbool van de tweede soort transformeer naar een ander coördinatenstelsel. Zoals we geleerd hebben in paragraaf 6 is dit de transformatievergelijking van de covariante metrische tensor gμν:
Vergelijking (10.60) ga ik differentiëren naar de coördinaten x:
Bovenstaande vergelijking schrijf ik nog tweemaal op, maar dan met de indices α, β en γ cyclisch verwisseld. De indices μ, ν en λ verwissel ik tegelijkertijd ook cyclisch, maar alleen in de eerste term aan de rechterkant van de vergelijking:

Nu tel ik de vergelijkingen (10.61) en (10.62) bij elkaar op en ik trek (10.63) er van af. Zo komen we tot de transformatievergelijking van het Christoffel-symbool van de eerste soort:
Ik breng ook nog even de transformatievergelijking van de contravariante metrische tensor gμν in herinnering:
Met behulp van (10.64) en (10.65) kan ik nu ook de transformatievergelijking van het Christoffel-symbool van de tweede soort opschrijven:
Wat zijn coördinaten? Coördinaten zijn projecties op de coördinaatassen. En er gebeurt iets met die projecties tijdens het verplaatsen van een vector in een ruimte die gekromd is. De gewone afgeleide van een contravariante vector ziet er zo uit:
Oftewel:
Maar tegelijkertijd veranderen de projecties op de coördinaatassen (lees: de vectorcomponenten) tijdens het parallel transport van de vector. Dus er ontstaat een nieuw soort afgeleide die uit twee onderdelen bestaat en die geef ik aan met een grote D:
Deze covariante afgeleide kom je in verschillende vormen tegen in de literatuur:
Die voorlaatste is iets om bedacht op te zijn, namelijk dat de Christoffel-symbolen ook wel verticaal geflipt opgeschreven worden. En let er ook op dat er bij de Γ-notatie een tekenwisseling kan plaatsvinden (nogal wat auteurs geven Γ geen minteken mee). Het voordeel van de Γ-notatie is wel dat je veel gemakkelijker ziet waar de indices moeten staan. Voor het parallel transport van een covariante vector verschijnt er een minteken in de vergelijking en ziet de covariante afgeleide er daarom zo uit:
En dit komt uiteraard helemaal overeen met het resultaat van Einstein, maar wel op een hele andere manier bereikt:

Oorspronkelijke vergelijking uit het artikel van Einstein:
De laatste belangrijke stap is om de covariante afgeleide te transformeren naar een ander coördinatenstelsel (voor een contravariante - respectievelijk covariante vector):

De covariante afgeleide is, de naam zegt het al, covariant. Het is, in tegenstelling tot de gewone afgeleide, een tensor! Of beter gezegd, de covariante afgeleide vertoont tensorgedrag, hij is onafhankelijk van coördinatenstelsels. Net zoals de gradiënt vectorgedrag vertoont, maar op zichzelf geen vector is (het is slechts een operator), zo vertoont de covariante afgeleide tensorgedrag (en is ook slechts een operator). In het tweede deel van de uitleg van deze paragraaf (vanaf vergelijking (10.37)), is het iets dat heel natuurlijk en logisch tevoorschijn is gekomen. Gekromde ruimte, Christoffel-symbolen, affiene connecties, parallel transport, de gewone afgeleide en de covariante afgeleide zijn allemaal zaken die onlosmakelijk met elkaar verbonden zijn en uit elkaar voortvloeien.

Moeder Natuur
De covariante afgeleide is niet ‘uitgevonden’ om ‘iets tensor-achtigs’ in het leven te roepen dat met differentiëren te maken heeft en ook ‘iets dergelijks’ doet (lees: de aanpak van Einstein in zijn artikel, het eerste deel van de uitleg van deze paragraaf), maar de covariante afgeleide is een concept dat een onvermijdelijk onderdeel is van de beschrijving van het universum zoals Moeder Natuur dat voor ons heeft laten ontstaan. Wij, de mensen, willen dat universum doorgronden en daarom kunnen wij niet om de covariante afgeleide heen. De ‘gewone’ afgeleide voldoet alleen in bepaalde coördinatenstelsels en daar heeft Moeder Natuur uiteraard geen boodschap aan.