1 1 0.5 0.5 -1 -1 -0.5 0.5 1 -0.5 0.5 1 1.5 -0.5 -0.5 -1 Fractales de Rauzy (Ver V. Sirvent, p. 191) Vol. XI • No. 2 • Año 2004 ' $ Boletı́n de la Asociación Matemática Venezolana & Volumen XI, Número 2, Año 2004 I.S.S.N. 1315–4125 % Editor Argimiro Arratia Comité Editorial Oswaldo Araujo Eduardo Lima de Sá Alejandra Cabaña Gerardo Mendoza Joaquı́n Ortega El Boletı́n de la Asociación Matemática Venezolana se publica dos veces al año en forma impresa y en formato electrónico. Sus objetivos, información para los autores y direcciones postal y electrónica se encuentran en el interior de la contraportada. Desde el Volumen VI, Año 1999, el Boletı́n aparece reseñado en Mathematical Reviews, MathScinet y Zentralblatt für Mathematik. Asociación Matemática Venezolana Presidente Carlos A. Di Prisco Capı́tulos Regionales CAPITAL Carlos A. Di Prisco, Matemáticas, IVIC cdiprisc@ivic.ve LOS ANDES Oswaldo Araujo, Matemáticas, ULA araujo@ciens.ula.ve ZULIA–FALCON Fernando Sánchez, Matemáticas, LUZ fsanchez@luz.ve CENTRO–OCCIDENTAL Neptalı́ Romero nromero@uicm.ucla.edu.ve Matemáticas, UCLA ORIENTE Jacques Laforgue laforgue@sucre.udo.edu.ve Matemáticas, UDO La Asociación Matemática Venezolana fue legalmente fundada en 1990 como una organización civil cuya finalidad es trabajar por el desarrollo de la matemática en Venezuela. Para más información ver su portal de internet o escribir a su dirección postal. Asociación Matemática Venezolana Apartado 47.898, Caracas 1041–A, Venezuela amv@usb.ve http://amv.ivic.ve/ El Boletı́n de la Asociación Matemática Venezolana está dirigido a un público matemático general que incluye investigadores, profesores y estudiantes de todos los niveles de la enseñanza, además de profesionales de la matemática en cualquier espacio del mundo laboral. Son bienvenidos artı́culos originales de investigación en cualquier área de la matemática; artı́culos de revisión sobre alguna especialidad de la matemática, su historia o filosofı́a, o sobre educación matemática. El idioma oficial es el español, pero también se aceptan contribuciones en inglés, francés o portugués. Todas las contribuciones serán cuidadosamente arbitradas. El Boletı́n publica información sobre los eventos matemáticos más relevantes a nivel nacional e internacional, además de artı́culos de revisión y crı́tica de libros de matemática. Se agradece el envı́o de esta información con suficiente antelación. Todo el material a ser publicado es revisado cuidadosamente por los editores. Sin embargo, el contenido de toda colaboración firmada es responsabilidad exclusiva del autor. Cualquier colaboración debe ser enviada al Editor, preferiblemente por correo electrónico (via bol-amv@ma.usb.ve) como archivo postscript, pdf, o un dialecto estándar de TeX. Las colaboraciones en forma impresa deben enviarse por triplicado con figuras y sı́mbolos cuidadosamente dibujados a la Dirección Postal. Para la preparación del manuscrito final recomendamos y agradecemos usar los archivos de estilo LaTeX del Boletı́n que se encuentran en su página web. El precio actual de un ejemplar es de Bs. 10.000 (US$ 10). The Boletı́n de la Asociación Matemática Venezolana (Bulletin of the Venezuelan Mathematical Association) is address to a broad mathematical audience that includes researchers, teachers and students at all collegiate levels, and also to any mathematics professional wherever in the labour world. We welcome papers containing original research in any area of mathematics; expository papers on any topic of mathematics, its history or philosophy, or education. The official language is Spanish, but contributions in English, French or Portuguese are also acceptable. All contributions will be carefully refereed. The Boletı́n publishes information on any relevant mathematical event, national or international, and also book reviews. We appreciate receiving this type of information with plenty of time in advance. All material to be published is carefully revised by the editors. Nonetheless, the content of all signed contributions is of the exclusive responsability of the author. All contributions should be sent to the Editor, preferably by email (via bolamv@ma.usb.ve) in postscript, pdf, or any standard self-contained TeX file. Submissions in printed form should be sent in triplicate with figures and symbols carefully drawn to our Postal Address. For the preparation of the final manuscript we recommend and appreciate the use of the appropriate LaTeX style file of the Boletı́n, which can be downloaded from its web page. The current price for one issue is Bs. 10.000 (US$ 10). $ ' Boletı́n de la Asociación Matemática Venezolana Apartado 47.898, Caracas 1041–A, Venezuela Tel.: +58-212-5041412. Fax: +58-212-5041416 email: bol-amv@ma.usb.ve URL: http://boletinamv.ma.usb.ve/ & Impreso en Venezuela por Editorial Texto, C.A. Telfs.: 632.97.17 – 632.74.86 % ' $ Boletı́n de la Asociación Matemática Venezolana & Volumen XI, Número 2, Año 2004 PRESENTACIÓN % 131 ARTÍCULOS Classical analogues of quantum paradoxes Henryk Gzyl Conservación de propiedades del anillo de polinomios y del anillo de series en la clase de los anillos de conductor finito Nelsy González, Omaida Sepúlveda & Oswaldo Lezama Simetrı́a y nuevas soluciones de la ecuación de Black Scholes Nikolay Sukhomlin Sistemas de numeración, sistemas dinámicos substitutivos y fractales de Rauzy Vı́ctor F. Sirvent 133 151 175 191 ENSAYO Determinismo, indeterminismo y la flecha del tiempo en la ciencia contemporánea Daniel A. Morales 213 MATEMÁTICAS RECREATIVAS La importancia de cada nodo en una estructura de enlaces: Google-PageRankTM Roberto Markarian & Nelson Möller 233 INFORMACIÓN INTERNACIONAL La Esquina Olı́mpica Rafael Sánchez Lamoneda 253 LIBROS Los Crı́menes de Oxford, por Guillermo Martı́nez Reseñado por Carlos Augusto Di Prisco 257 EDITORIAL Quince años de la AMV Carlos Augusto Di Prisco 261 AGRADECIMIENTO 263 Asociación Matemática Venezolana Apartado 47.898, Caracas 1041 – A, Venezuela Boletı́n de la Asociación Matemática Venezolana Vol. XI • No. 2 • Año 2004 Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 131 Presentación En este Boletı́n ofrecemos al lector los artı́culos de investigación de Henryk Gzyl, en mecánica cuántica; Nelsy González, Omaida Sepúlveda y Oswaldo Lezama, en álgebra; Nikolay Sukhomlin, sobre la ecuación de Black Scholes; Vı́ctor F. Sirvent, sobre sistemas dinámicos y fractales; un ensayo filosófico de Daniel A. Morales sobre el determinismo e indeterminismo en las ciencias naturales y en la matemática; por último, la explicación de la matemática que fundamenta el popular buscador de internet Google, por Roberto Markarian y Nelson Möller. Todos artı́culos de gran calidad, aceptados por nuestro comité editorial luego de riguroso arbitraje por expertos en cada uno de los temas de estas investigaciones. Las secciones habituales de nuestro Boletı́n traen información que no pueden dejar de leer: los nuevos logros de nuestros campeones de olimpiadas matemáticas reportado por Rafael Sánchez, y reseña de lo más reciente en la literatura matemática por Carlos Di Prisco. Además, Di Prisco, quien se estrena como nuevo presidente de la Asociación Matemática Venezolana, cierra este Boletı́n con un breve homenaje a los quince años bien cumplidos de la AMV. A. A. Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 133 Classical analogues of quantum paradoxes Henryk Gzyl Abstract In this note we discuss a few simple classical (as opposed to quantum) prediction problems. The thrust of this work is to examine the predictive role of probability theory and we shall see that some situations are not really paradoxical. In particular we want to separate the role of probability as a predictive tool from one of the basic sources of strangeness in quantum mechanics, namely the principle of superposition of states. For that we shall re-examine some of the quantum paradoxes, recast as a problem about making a prediction about the result of a random experiment in classical physics when some information is known. 1 Preliminaries There is a vast, academic and non-academic, which does not mean non-serious, popular literature, about the strangeness of quantum phenomena and how this strangeness forces us to re-examine our image or our paradigms about the material world. A very small sample is [A],[C],[d’E], [F],[K],[KN],[M],[T] and the fabulous collection [WZ]. But no item in this collection separates the two issues mentioned in the abstract, namely, that the strangeness in quantum theory does not come from its being a curious mathematical model about phenomena that seem to be intrinsically random, but from the inner structure of the mathematical model itself. In quantum mechanics the strangeness does not come from its being a probabilistic theory, but from a combination of two facts: on one hand the superposition principle (implicit in the fact that states are modeled by vectors over the field of complex numbers), and on the other hand, from the fact that probabilities are obtained from the absolute values of the components of the vector describing the states. What we are going to do in this note is to examine some problems in which a prediction has to be made about a classical experimental setup that imitates and parallels the setup associated to some of the quantum paradoxes. Thus in spirit we are close to Mermin’s [Me]. Our emphasis is on examining in what does the process of prediction consist of, and what is the influence of the available information on it. 134 H. Gzyl In a lengthy (but necessary for making this note self contained) appendix we recall the very basic ingredients of mathematical probability theory. The readers familiar with that material, may skip it, but those that have never heard of it, must read it. It is basically a collection of standard definitions accompanied by an explanation for their need. The important part of that section is the description of the predictive tool in probability theory, namely the concept of conditional expectation, and the formal use of the concept of σ-algebras as carriers of information. The content of each section is described below, but the message is that a predictor is described by a conditional expectation, which is a random variable whose value depends on information provided by a measurement, and once the measurement is made, the predictor provides us with a prediction. In section 2 we consider an alternative, simple version of the two slit experiment. Instead of two slits, we have two point light sources. Here the randomness will come from the fact that we do not know which source is on, and we have to predict the observed signal. In section 3 we shall consider the classical version of Schroedinger’s cat and in section 4 the classical version of the EPR paradox (after Einstein, Rosen and Podolsky). Both in the first and last example the role of prior information role will be important for completing the prediction of the outcome. In section 5 we present a proof of the proof of Bell’s inequalities, just to emphasize that there is nothing in them having to do with quantum phenomena. See [K] for a glimpse at the vast literature in this area. We close this section with a few words about random variables. The formal definition is given in section 6, but an understanding of the concept is essential for following section (2)-(5). A random variable is the mathematical object ( a function, to be specific) designed to model the result of a measurement in an experiment, and an experiment can be thought of as a sequence (finite, infinite, discrete or continuous, of measurements). The values taken by the random variable, are identified with the results of possible measurements of the variable, but the actual mathematical framework chosen does not have anything to do with the actual measurement process. A couple of example will clarify the issue. For example, to describe the results of the toss of a coin we need functions taking values in the set {H, T }, or to describe life-times, we shall use variables taking values in [0, ∞), regardless of how toss the coin or how we measure the life-times. But more important, a random variable is a function which stands for a collection of values. This issue is related to the question: In what state is the coin? Or, has the particle decayed or not?. The state is known after the coin or the particle are observed. This is the exact counterpart of the fact that a function is a collection of values taken at points and should not be confused with the values of the function at specific points. This is essential when interpreting Classical analogues of quantum paradoxes 135 conditional expectations, which are random variables, whose values are the best predictors of some variable when another variable is observed. 2 The two sources experiment To avoid dealing with waves behind diffracting holes, we shall consider an experimental setup in which we have two sources emitting continuously monochromatic light of frequency ν, located at x± = (0, 0, ±h). An observer at x would eiνkx−x± k coming from each of them. But regretfully Mr. see a signal u± (x) = 2πkx−x ±k Prankster is in charge of the lights and he tosses one or two coins to decide which source he will let shine or not. Thus the observer does not know in advance what Mr. Prankster will do but he has to predict what will be observed on the basis of any observation that he may gather. Assume first that the decision will be made on the basis of a coin toss. In order to model this set up he chooses Ω = {H, T } and then the signal at any arbitrary (but fixed x, to avoid dealing with function valued random variables) all he knows is that the signal has to be modeled by a random variable U = u+ (x)IH + u− (x)IT , and if does not have any other information, then the best prediction he can make is that on the average he will observe E[U ] = pH u+ (x) + pT u− (x). This is a good point to insist on the difference between a prediction like E[U ] and an observed value: When one observes a random variable, U in this case, each time one of its possible values is seen, even if the initial set up is the same. Since these differ from observation to observation, one performs a statistical analysis on the data, and an expected (value to be seen upon average) is provided. But assume that he is given information consisting of the specification of which bulb is on. This is modeled by a σ-algebra F = {∅, {H}, {T }, Ω}, i.e., the full information about the setup. He knows that his best predictor must be computed as E[U | F] = U , and when he is told that the result of the toss is an H, he then predicts that he will observe u+ (x). Assume now that the observer knows that Mr. Prankster is using two coins. Then to model the outcome of a single toss he considers Ω = {(H, H), (H, T ), (T, H), (T, T )}, and all the information about the experiment is contained in the σ-algebra P(Ω). Assume that he knows the probabilities {p1 , p2 , p3 , p4 } as listed above. The signal to be observed is modeled by the random variable (random field) U = (u+ (x) + u− (x))I{(H,H)} + u+ (x))I{(H,T )} + u− (x))I{(T,H)} . Note again that the vales of U , that is of the observed field, depend on the result of the throw of the two coins. Now in the absence of any information, the best prediction that the observer can make is given by E[U ] = p1 (u+ (x) + u− (x)) + 136 H. Gzyl p2 u+ (x) + p3 u− (x) = (p1 + p2 )u+ (x) + (p1 + p3 )u− (x). Clearly p1 + p2 and p1 + p3 are, respectively the probabilities that the sources at x± are on. These were denoted by pH and pT a few lines above. Assume now that all the observer is able to find out is that either the two sources may be in the same state. That is, assume that both of the sources are on or off, or that either of them may be on and the other off. The given information corresponds to the partition of {{(H, H), (T, T )}, {(H, T ), (T, H)}} of Ω. Denote by G the σ-algebra that it generates. The best predictor given this information is the random variable E[U | G] taking values E[U | {(H, H), (T, T )}] = E[U | {(H, T ), (T, H)}] = p1 p1 (u+ (x) + u− (x)) = (u+ (x) + u− (x)) p1 + p4 p1 + p 4 p2 u+ (x) + p3 u− (x) p2 p3 = u+ (x) + u− (x). p2 + p 3 p2 + p3 p2 + p 3 respectively whenever the event {(H, H), (T, T )} or {(H, T ), (T, H)} occurs. The probabilities of occurrence of each of the events are, respectively p1 +p4 and p2 + p3 . To make the role of the prior information more apparent, assume that the observer knows that one of the events in the following partition of Ω occurs: {{(H, H), (T, T )}, {(H, T )}, {(T, H)}}. The difference with the previous case is that when the observer finds out that one of the sources is uncovered, he knows that the other is covered. If we denote by G1 the σ algebra generated by that partition, then the best predictor of the random field U is the random variable (random field) E[U | G1 ] = u+ (x)I{(H,T )} +u− (x)I{(T,H)} + p1 (u+ (x)+u− (x))I{(H,H),(T,T )} . p1 + p4 Observe for example, that if the toss of the coins were (T, T ), then we would see no signal, but if it were (H, T ), we would see u+ (x). And equally important, that the three possible results would occur with probabilities p2 , p3 and p1 +p4 . The difference between this and the first case treated, is that now both sources may be on or off, whereas in the first case one was on while the other was off. 3 Is the bird in the cage or not? Let us now examine the classical variant of the Schroedinger cat paradox. Our setup consists of a light bulb with an exponential lifetime, and a bird in a cage. The setup is such that if the light bulb burns out, the latch on the bird’s cage is released and the bird flies away. The issue is whether, upon observation, will we find the bird in the cage or not? To describe the result of one measurement of a lifetime, the following sample space is adequate: Ω = [0, ∞), and all questions we can ask about the measurement are represented by F = B([0, ∞)). As Classical analogues of quantum paradoxes 137 probability measure we choose P (dt) = τ1 e−t/τ . The random variable of interest is the lifetime of the bulb, described by T : Ω → [0, ∞) such that T (u) = u, that is we shall find convenient to think of the points u ∈ Ω as “life-histories” of the light bulb. The distribution of this variable is P ({T > t}) = e−t/τ , which is to be read as: the fraction of life-histories longer that t is e−t/τ . Let the position of the latch be denoted by > if it is open and by ⊥ if it is closed. The random state of the latch at time t is described by a random variable Xt : Ω → {>, ⊥} given by Xt (u) = > whenever T(u) ≤ t; or Xt (u) = ⊥ whenever T(u) > t. What happens here? Well, the observer decides when he is going to look at the bird, that is the observer chooses t, whereas nature chooses the life history u of the bulb. If u = T (u) ≤ t then the bulb is still on at the time of observation, whereas if u = T (u) > t, the bulb has burnt out and the bird has flown away. Is there anything paradoxical here? It does not seem so. If the caretaker of the bird is to receive a payment d if nothing has happened, and he has to pay a penalty δ if the bird escapes, what is our best prediction of his fortune at time t? Clearly if no information is available, his fortune at time t is d(1 − e−t/τ ) − δe−t/τ . We leave it up to the reader to see why, and direct her/him to Peres’ [P] for a discussion from the point of view of a physicist. 4 Split coins and recoiling particles In this section we shall consider non quantum variants of the EPR paradox. Again the aim is to emphasize the role of prior knowledge. Suppose you have a coin-like object with two faces which can be either R(ed) or B(lue), but these properties for all you know, have been assigned at random. The assignment is by means of a random variable taking values in the set {(R, R), (R, B), (B, B)}. When performing an experiment consisting of one measurement, it suffices to take Ω = {{R, R}, {R, B}, {B, B}}. Clearly we think of the color assignment as a multi set: sets in which an element may appear repeated a number of times. This description takes care of the intuitive symmetry of a coin respect to the labeling of the faces. An observation of a coloring of a coin is actually a pair of observations, which we list sequentially. Formally speaking X : Ω → {R, B} × {R, B} and an equivalence relation has been defined on the range, which identifies (R, B) and (B, R). The values of X are obviously X({B, B}) = (X1 ({B, B}), X2 ({B, B})) = (B, B), etc. This may seem like overdoing it, but is really necessary if we want our model to reflect the symmetry of the coin with respect to “flips” (We may also think of colorings as mappings {1, 2} → {B, R} which are invariant under the “flip” F : {1, 2} → {1, 2}, F (1) = 2, and F (2) = 1). 138 H. Gzyl If we assign probabilities to the elementary events by Ω by P ({B, B}) = p1 , P ({R, B}) = p2 and P ({R, R}) = p3 , then clearly P ({X1 = B}) = p1 + p22 and P ({X1 = R}) = p3 + p22 . Suppose now that Mr. Prankster splits the coin in two (each half comprising a face), and a half given to some team mate. You have to guess the color of that face. You will receive either of the following pieces of information about the half in Mr. Prankster’s hand: (i) the color of that half, (ii) the color of that half and the coloring of the coin, or (iii) only the coloring of the coin. Case 1 Assume you are told that X2 = R. In this case all you can predict is that either X1 = B or that X1 = R with the two probabilities given above. Case 2 Assume that you are told that X2 = B and that the coloring is {B, R}. Clearly in this case you predict that P (X1 = R | X = {B, R}, X2 = B) = 1. You do not have to invoke super luminal propagation of information or anything. Just apply basic probability (which in this case could not be more trivial). Case 3 Here there are several possibilities depending on the explicit form of the information. For example, if told that both faces are equal but nothing else, you will compute basic conditional probabilities and conclude that the coloring 3 1 or R with the probability p1p+p . If you are told is B with probability p1p+p 3 3 that the coloring is mixed, you will assert that one face is R and the other is B with probability 1. A variation on this theme, corresponding to a simple version of the problem of the recoiling particles, is the following: Assume that the particles are marked (distinguishable) and an integer 1 ≤ Xi ≤ N, i = 1, 2 is assigned to each. Assume that the numbers are chosen at random but not necessarily independently of each other. For example, the numbers may measure “quanta” of energy transferred to each particle during the splitting process. Assume that you may observe X1 and you want to predict X2 . The underlying sample space for this situation is Ω = {1, 2, ..., N }×{1, 2, ..., N }, and the information about the measurement is described by a probability law P on Ω given by P (X1 = i, X2 = j) = pij , and each observable is modeled by a coordinate map, for example X1 : Ω → {1, ..., N }, such that X1 (a, b) = a.. When the Xi are independent P (X1 = i, X2 = j) = P (X1 = i)P (X2 = j) = pi pj , but this is not necessary for what comes below. Any prediction about X2 will depend about the information we are given about X1 and about the pair. Let us consider three cases (i) we only know X1 , (ii) we are given X1 and we now that a ≤ X1 + X2 ≤ b is constant, but we do not know which constant, and (iii) is as the second case, but the value of the constant X1 + X2 = k is specified. 139 Classical analogues of quantum paradoxes p Case 1 We know from Example 1 in the appendix that E[X2 = j | X1 ] = pXX1 j . 1 That is the best predictor of the probability of the event {X2 = j} depends on the observation of X1 . When we learn that X1 = i, at that moment we know p that we predict X2 = j with probability piji . But before the observation of X1 , the best predictor is a random variable. Case 2 This time the generic information is the trace of σ(X1 ) on the event {a ≤ X1 + X2 ≤ b}, that is the σ-algebra generated by the collection {a − i ≤ X2 ≤ b − i; 1 ≤ i ≤ N }. Let us denote this by the obvious σ(X1 ) ∩ {a ≤ X1 + X2 ≤ b}. In this case the best predictor of X2 (not of any particular value of the variable) is E[X2 | σ(X1 ) ∩ {a ≤ X1 + X2 ≤ b}] and we leave it up to the interested reader to compute the possible values of this random variable according to Example 1 in the appendix. Case 3 Let us examine the most standard example corresponding to the classical version of the EPR paradox. Assume that it is known that X1 + X2 = k. If nothing is known about X1 , the best predictor of X2 is E[X2 | X1 + X2 = k] = N X (k − i)+ pi i=1 pi I{X1 =i} where the explanation of the term (k − i)+ is clear: the value k − i is an allowed value for X2 while it is bigger or equal to 0. Notice that when we are given the event {X1 = i} ∪ {X1 + X2 = k} (which is not empty, that is it describes a possible event only when k ≥ i, then E[X2 |{X1 = i} ∪ {X1 + X2 = k}] = k − i! This is clear because {X1 = i} ∪ {X1 + X2 = k} = {X2 = k − i}, that is specifying the conserved quantity and one of the variables and the value of one of them, automatically specifies the other, regardless whether we measure it or not. In this case knowledge does not have to do with transmission of information, it has to do with logic. Let us now consider these three cases under the assumption that X1 and X2 are continuous, say, real valued random variables, having a joint distribution function ρ(x1 , x2 ). Let us now re-examine some possibilities. Case 4 Assume that all knowledge that may be available to us consists of the result of a measurement of X1 . What is our best predictor of X2 ?. We already 140 H. Gzyl know that it is E[X2 | X1 ], and in example 2 of the appendix, we show that this R 2 ,X1 ) is the random variable x2 ρ(xρ(X) dx2 , whose value becomes known once X1 is measured. When X1 = x1 is observed, our best predictor of X2 becomes Z ρ(x2 , x1 ) dx2 . E[X2 | X1 = x1 ] = x2 ρ(x1 ) Case 5 Let us consider now the case where only Z ≡ X1 + X2 is available for observation. What is our best predictor of X2 in this case? This is similar to the case considered above, except that now we must first find the joint distribution of (Z, X2 ). It is a simple computation to verify that it is ρ̂(z, x2 ) = ρ(z − x2 , x2 ) R and that ρ̂(z) = ρ(z − x2 , x2 )dx2 . Now the computation of E[X2 | Z] is a particular case of Case 4. Case 6 Assume to finish that we may measure both Z and X1 . In this case note that for bounded continuous functions h, f, g, a simple change of variables should convince anyone that E[h(X2 )f (X1 + X2 )g(X1 )] = E[h(Z − X1 )f (Z)g(X1 )] = E[E[h(X2 ) | Z, X1 ]f (Z)g(X1 )] from which it is clear (see definition (6.4) that E[h(X2 ) | Z, X1 ] = h(Z − X1 ). This is clearly what is expected, and the predictive formalism reflects it. 5 Bell inequalities There are some inequalities, called Bell inequalities, satisfied by any set of three random variables taking values in [−1, 1]. And it said that their violation is a manifestation of the fact that the system under study is quantum and not classical, or that it “obeys a logic” different that the logic of classical probability. Actually, the following is an exercise of chapter 1 of [B]: Let X, Y, Z, be three random variables taking values in [−1, 1]. Show that 1 − E[XY ] ≥ |E[XZ] − E[Y Z]|. One possible proof of the inequality runs as follows: Consider (1 + X)(1 − Y )(1 + Z) = 1 + X − Y − Z − XY + XZ − Y Z (1 − X)(1 + Y )(1 − Z) = 1 − X + Y + Z − XY + XZ − Y Z adding these two and noticing that the left hand side is always positive, rearranging and taking expected values, we obtain E[Y Z] − E[XZ] ≤ 1 − E[XY ]. Classical analogues of quantum paradoxes 141 To obtain the other half of the inequality, consider (1 − X)(1 + Y )(Z − 1) = −1 + X − Y + Z + XY − XZ + Y Z (1 + X)(Y − 1)(1 + Z) = −1 − X + Y − Z + XY − XZ + Y Z adding and noticing that the left hand side is always negative, we obtain after rearranging and taking expected values, that 1 − E[XY ] ≤ E[XZ] − E[Y Z] which finishes the proof. And for fun consider the particular case: Let ξ, η, ζ be random variables taking (any) two values each, such that P (ξ = a) = 1/2, P (η = b) = 1/2 and P (ζ = c) = 1/2, and consider that random variables X = I{ξ = a}; Y = I{η=b} and Z = I{ζ=c} . A direct application of the inequalities plus multiplication by 2, lead us to the inequality 2 − P (ξ = a | η = b) ≥ |P (η = b | ζ = c) − P (ξ = a | ζ = c)|. Comment 5.1 Note that in the assumption about X, Y and Z, nothing is said about whether these variables represent measurements at near or far away locations, nor about the times the measurements are to be taken, or about possible physical or other kind of interpretation of the random variables. The only assumption made is about their possible values, nothing is even assumed about their joint distribution. If the inequalities are violated, it must be that the underlying mathematical structure of the probabilistic model under examination does not coincide with the classical probabilistic model, not due to some non-explicit assumption about causality or whatever. Here is an example of a quantum system that does seem to satisfy the Bell inequalities: Consider three identical, distinguishable and spinless particles moving on the real line, under the action of a three particle force given by the potential V (x1 , x2 , x3 ) = 0 or = +∞ depending on whether (x21 + x22 + x23 is respectively ≤ 1 or ≥ 1. Mathematically speaking, this system is equivalent to a particle confined to move freely inside a sphere of radius 1. Can there exist a state Ψ(x1 , x2 , x3 ) such that the probability density |Ψ(x1 , x2 , x3 )|2 violates Bell inequalities? Offhand, it seems that the answer is: “No, there is not.” But life is full of surprises. To finish, we direct the reader to the exposé [B] for a nice presentation of the “geometric” ideas behind the inequalities as well as further references. 6 6.1 Appendix: The very basics of probabilistic modeling Ensembles a.k.a Sample Spaces The basic construct in probability theory is that of a sample space. This corresponds to what is called (but never explicitly defined) an ensemble in most 142 H. Gzyl books in statistical thermodynamics. The construct is specified by a triplet (Ω, F, P) where the set Ω should be thought of as the “experiments” (i.e., sequences of measurements), or sometimes it may be convenient to think of it as “the set of sates of nature”. The set F is the mathematical construct describing the information about our system (i.e., it contains the objects that describe all questions we assume valid to ask about our system). Its elements are called events and formally it is a σ-algebra of subsets of Ω, that is a collection of sets satisfying: i) ∅ ∈ Ω ii) A ∈ F ⇒ Ac ≡ Ω − A ∈ F iii) S If Ak for k = 1, 2, ... is a countable collection of elements of Ω, then k Ak ⊂ Ω. Observe that the arithmetical structure of the set operations parallel that of the logical connectives in ordinary speech. That is why F is to be thought of as the class of allowed questions about the collection of experiments described by Ω. And to finish with the list,we have Definition 6.1 We say that P is a probability measure or law on the sample space (Ω, F), that is a function P : Ω → [0, 1] satisfying the conditions 1)P(Ω) = 1 2)If = 1, 2, ... is a countable collection of disjoint elements of Ω, then S Ak for kP P( k Ak ) ≡ k P(Ak ). Comment 6.1 A pair (S, S) where S is any set and S is a σ-algebra of subsets of S is called a measurable space, because an additive function (called measure or volume) can be consistently defined on it. The difference between probability and arbitrary measures is that the later do not have to be normalized to 1. 6.2 Observables a.k.a Random Variables And important notion in both classical and quantum mechanics is the concept of random variable, it is central to mathematical probability theory, just because it is the mathematical object embodying the notion of measurement, not the actual process or act of measurement, but the object describing the result of the measurement. The technical definition is the following: Definition 6.2 We assume we have already chosen a sample space (Ω, F) and we also have a measurable space (S, S). An S-valued random variable is a function X : Ω → S such that for any A ∈ S we have {X ∈ A} ≡ X −1 (A) ∈ F. Comment 6.2 We can interpret X(ω) as the value of the observable X in the experiment ω. It is here where the mathematical modeling of the randomness is Classical analogues of quantum paradoxes 143 located. Notice that different values of the observable are achieved in different experiments. Thus, the interpretation of the ω and of and of X(ω) are tailored to complement each other. Also, if the sets in S describe questions about the results of measurements, then the measurability condition just transfers questions about measurements onto questions about experiments taking given values. When S = R and S = B(R), we just say that X is a random variable. For any topological space S, the class B(S) denotes the smallest σ-algebra containing the open sets of S and is called the Borel σ-algebra of S. Also, now and then we shall make use if the notation IA to denote the indicator function of the set A, defined by IA (x) = 1 or 0 depending on whether x ∈ A or not. The important example for us corresponds to the case in which F is generated by a partition π = {Λ1 , ..., ΛK }. In this case any random variable is described by K X X= xj IΛj j=1 that is, X takes value xj whenever the event Λj takes place. Three simple but important examples of σ-algebras are worth recording. (i)First, consider a partition Π = {Ai , ..., An , , ...}, that is, a finite or infinite disjoint collection of subsets of Ω whose union is Ω. The σ-algebra F = σ(Π) that the partition generates is the collection of all possible union of P sets of Π. Any F-measurable function (random variable) is of the form X = n xn IAn . (ii) Conversely, any random variable X taking only a countable collection of values {x1 , x2 , ....} generates a σ-algebra, obviously denoted by σ(X) generated by the partition {{X = xn } | n = 1, 2, ...}. (iii)To finish the list, there is the trivial σ-algebra F0 ≡ {∅, Ω}. The reader should verify that all F0 -measurable random variables are constant. Actually, usually the construction of sample spaces and of the basic random variables is carried out simultaneously. A typical example of sample space is the following: Consider a finite set R = {r1 , ..., rk } and form Ω ≡ RN where N is either finite or ∞. In any case think as follows Ω = {ω : {1, 2, ..., N } → R} is the collection of sequences of length N (finite or infinite). Each sequence describes an experiment and to describe the measurements it is convenient to introduce the following R-valued random variables: Xi : Ω → R defined by Xi (ω) ≡ ω(i). Mathematically speaking this is just a coordinate map, but it is the mathematical object that models the result of the i − th measurement in the experiment Ω. The information about this setup is provided but the results of all possible experiments. This corresponds to the σ-algebra generated by the collection (of “cylinders”) {Xi1 ∈ B1 , ..., Xim ∈ Bm : 1 ≤ i1 ≤ i2 ≤ ... ≤ im ; B1 , ..., Bm ⊆ R} 144 H. Gzyl To construct a probability on (Ω, F) there are many ways to proceed. If we want the X independent we start from any assigni to be statistically P P ment Q(B) = q where qi ∈B i qi ∈R qi = 1 and define P({Xi1 ∈ B1 , ..., Xim ∈ Q Bm }) = Q(Bi ). That is we start from a probability Q on R which we may have to find by doing statistical analysis, and we end up with a probability law on the class of all possible questions about the experiments. But more interesting probability laws are conceivable. For example, when N < ∞, we may define a measure on Ω by putting P(ω) ≡ eβ P E(i,j)Xi (ω),Xj (ω) Z(β) where Z(β) is a normalization factor, which should remind us of the partition function. Anyway, this is as simple as you can get and say something interesting and familiar. But the list examples in the applied literature, ranging from signal processing to mathematical finance is enormous. 6.3 A simple ensemble A standard construction in probability theory, which can obviously identified with the physicist’s notion of ensemble (which by the way is never made explicit in any book on statistical physics), is useful for describing sequences of independent measurements. Denote by S the set in which the measurements take value. Let us assume that it is either a discrete set or a subset of some Rd . In the first case we consider S = P(S) to be the σ-algebra on S. In the second QN case S = B(S). We set Ω ≡ j=1 S, and we describe all the questions about the experiments by F ⊗N j=1 S. We understand that N is either finite or N = ∞ depending on whether we need to describe finite or infinite sequences of measurements. The results of the measurements are described by the coordinate maps Xn : Ω → S defined by Xn (ω) = sn if ω = {s1 , s2 , ...} Thus, note that in this set up, ω = {s1 , s2 , ...} clearly denotes an experiment, that is, a sequence of measurements yielding values s1 , s2 , .... A probability assignment which makes the Xn statistically independent is the following: Let µ : S → [0, 1] be a given probability on (S, S), which we want to describe the distributions of particular measurements, and we put P ({Xn1 ∈ A1 , ..., Xnk ∈ Ak }) ≡ µ(A1 )...µ(Ak ), for any n1 < ... < nk and any A1 , ...Ak in S. In particular P ({Xn ∈ A}) = µ(A), and thus the Xn are by construction independent and identically distributed. For example in order to describe an experiment consisting on the measurement of the life-time of a light bulb, or the life-time of a decaying particle, or the penetration of a particle Rin an absorbing medium, we take N = 1, S = [0, ∞) , S = B(S) and µ(A) = τ1 A e−t/τ dt. Classical analogues of quantum paradoxes 6.4 145 Basic predictions In order to do predictions we need to introduce two notions, that of mathematical expectation and that of conditional expectation. Logically speaking, the former is a particular case of the later, but it is easier to begin with the simpler notion. The definition or construction of the mathematical expectation is done stepwise. P We shall define a simple function or simple random variable by X ≡ xi IAi where {A1 , A2 , ..., Am } denotes a finite partition of Ω. Now we define the expected value (or the mathematical expectation) of a simple random variable by X E[X] = xi P(Ai ) This is the intuitive thing to do, and so it is to extend this to any variable: one can prove that any positive random variable X is an increasing limit of simple functions Xn , then we define E[X] ≡ limn E[Xn ], and to finish one notices that any random variable can be written as X = X + − X − , and when the expected of each of these is finite we say that X is integrable and write E[X] = E[X + ] − E[X − ]. Actually to express that summarily we write E[|X|] < ∞. We are finally ready to introduce the most basic probabilistic notion: that of conditional expectation. Definition 6.3 Let (Ω, F, P) be some probability space, and G be s sub-σ-algebra of F. Let Y be an integrable, F-measurable, real valued random variable. The conditional expectation of Y given G is a G-measurable random variable denoted by E[Y | G] satisfying the following condition E[Y H] = E[E[Y | G]H] for any G − measurable, bounded H. (1) Let us list some of its properties and then show how it is computed starting from (1). Theorem 6.1 Let (Ω, F, P) be a probability space and let G be a subσ-algebra of F. Then the following hold: (i) E[1 | G] = 1. (ii) If X1 ≥ X2 are random variables, then E[X1 | G] = E[X2 | G]. (iii) For a, b ∈ R E[aX1 + bX2 | G] = aE[X1 | G] + E[X2 | G]. (iv) (Filtering or tower property) If H ⊂ G is another subσ-algebra, then for any integrable X; E[E[X | G] | H] = E[X | H]. (v) If Z is any bounded, G-measurable random variable, then E[ZX | G] = ZE[X | G]. (vi) E[X | F0 ] = E[X] Even though we do not state it explicitly, the mapping X → E[X | G] behaves in all respect as an expected value, except that it is a random variable. When 146 H. Gzyl G = σ(Y ), where Y is a given random variable, we shall write E[X | Y ] instead of E[X | σ(Y )]. The result that explains why conditional expectations are (best) predictors is contained in the following Theorem 6.2 Let (Ω, F, P) be a probability space. Let X be an integrable random variable and let Y be another random variable. Then the function g(Y ) that minimizes E[(X − g(Y ))2 ] is g(Y ) = E[X | Y ] Comment 6.3 Implicit in the statement of the theorem is an intuitive result that we need to complete the proof. Let us state a simple version of that result: Theorem 6.3 Let (Ω, F, P) be a probability space, and let Y1 , ..., YN be a collection of random variables. If Z is a random variable, measurable with respect to σ(Y1 , ..., YN ), then there exists a Borel measurable function h : RN → R such that Z = h(Y1 , ..., YN ). Proof of theorem (6.2). It is basically a computation. Consider E[(X − g(Y ))2 ] = E[((X − E[X | Y ]) + (E[X | Y ] − g(Y )))2 ] = E[(X −E[X | Y ])2 ]+E[(E[X | Y ]−g(Y ))2 ]+2E[(X −E[X | Y ])(E[X | Y ]−g(Y ))] We shall now verify that the last term vanishes. Therefore the assertion is clear, since we can choose G(Y ) = E[X | Y ]. Observe that from the definition it follows that by (1) (i.e., the defining property of the conditional expectation) E[(X −E[X | Y ])(E[X | Y ]−g(Y ))] = E[E[(X −E[X | Y ]) | Y ](E[X | Y ]−g(Y ))] and now by properties (i) and (v) in theorem (6.1), with X there replaced by 1 and Z by E[X | Y ], it follows that the conditional expectation under the integral sign vanishes. To illustrate how the definition is applied, let us now work out two standard examples: Example 1 Consider the a σ-algebra σ(π), generated by the partition π = {A1 , ..., An , ..} of Ω. Assume that P(Aj ) > 0 ∀j ≥ 1. Then P since E[X | σ(π)] is σ(π)-measurable, it can be written as E[X | σ(π)] = j cj IAj . Clearly, to compute the cj it suffices to apply the defining identity (1) to the binary random variables IAk . Thus X E[E[X | σ(π)]IAk ] = E[XIAk ] = E[( cj IAj )IAk ] = ck P(Ak ), j Classical analogues of quantum paradoxes and therefore E[X | σ(π)] = X E[XIAj ] j P(Aj ) IAj . 147 (2) Example 2 Consider now two random variables X and Y , about which you know the jointR distribution ρ(x, y), i.e., for any bounded function F (X, Y ), E[F (X, Y )] = F (x, y)ρ(x, R y)dxdy. Assume that X is integrable, which presently means that E[|X|] = |x|ρ(x, y)dxdy < ∞. To compute E[H(X) | Y ] for any bounded H(X), note that for any bounded g(Y ), Z Z Z ρ(x, y) E[H(X)g(Y )] = H(x)g(y)ρ(x, y)dxdy = g(y)( h(x) dx)ρ̂(y)dy ρ̂(y) R where we set ρ̂(y) = ρ(x, y)dx. Also, temporarily put E[H(X) | Y ] = h(y), then Z E[E[H(X) | Y ]g(Y )] = E[h(Y )g(Y )] = h(y)g(y)ρ̂(y)dy. Since this identity is true for any g(y), then it must be true that Z ρ(x, Y ) dx). h(Y ) = E[H(X) | Y ] = h(x) ρ̂(Y ) Comment 6.4 what is important is that we are displaying the conditional expectation as a random variable. That is, the best predictor of H(X) given that Y is measured is a random variable, whose value is known once Y is observed, and not before. 6.5 The notion of independence The proper definition of independence is at the level of σ-algebras. We have, within the usual model (Ω, F, P ) Definition 6.4 (a) A collection {Gi | i ∈ I} (where I is any set of indices) of sub-σ-algebras of F, is said to be independent whenever for any finite subset J ⊂ I, and foe any collection {Ai | i ∈ J} we have Y P (∩{i∈J} Ai ) = P (Ai ). {i∈J} (b) A family {Xi | i ∈ I} is independent whenever σ(Xi ) are independent. Independence is a family property, and is a tricky property to verify. And it is sometimes confused with functional independence. Let us examine this source of confusion in a simple case. Consider Ω = R2 and F = B(R2 ). Consider the 148 H. Gzyl two random variables X, Y : Ω → R X(x, y) = x, Y (x, y) = y. These are functionally independent at least in two senses. First they are linearly independent as vectors in the class of functions defined over Ω, and second they are functionally independent, that is Y ∈ / σ(X) (nor viceversa), that is, Y cannot be written as function of X. But they may not be independent as random variables, as the following two examples show: Example 3 Consider the uniform distribution on the unit disk on Ω, that is P (dx, dy) = π1 whenever (x, y) ∈ {(ξ, η) | (ξ)2 + (η)2 ≤ 1}, and equal to zero otherwise. We leave it up to reader to find two sets A, B in the disk and verify that P ({X ∈ A, Y ∈ B}) 6= P ({X ∈ A})P ({Y ∈ B}). Example 4 Within the same setup of the previous example, Assume that X and Y have a joint Gaussian distribution with correlation ρ 6= 0. They again, they are not independent, no matter how functionally independent they are. Let us now examine another source of confusion. Consider the following model for the coin tossing experiment. Ω = {0, 1}N = {ω : N → {0, 1}}. Now experiments are specified by the “observation” of the random variables Xn : Ω → {0, 1} by Xn (ω) = ω(n). Observe that specifying an experiment ω ∈ Ω amounts to prescribing the result of the measurement of all Xn . The information available to the observer is modeled by the σ-algebra generated by the cylinder sets {∩{i∈J} {Xi = αi }; | αi ∈ {0, 1}; J finite}.One extends P from its values on cylinders, which to make life easy we take as P ({∩{i∈J} {Xi = αi }) = ( 21 )|J| , where we denote the cardinality if J by |J|. Let Θ : Ω → Ω be the shift operator defined by Xn ◦Θ = Xn+1 , that is, the shift of a sequence by one unit to the left, and let Θn describe the n − th iterate of Θ. It is rather easy to see that the mappings Θn are not independent, whereas the Xn are independent by construction. Consider for example the events Λ1 = {X2 = 0} and Λ2 = {X1 = 1, X2 = 1}. Consider for example: {Θ ∈ Λ1 } ∩ {Θ2 ∈ Λ2 } = ∅, but P ({Θ ∈ Λ1 }) = 1/2 and P ({Θ2 ∈ Λ2 }) = 1/4. Notice that the flow Θn is deterministic, that is, given the initial point ω of the orbit, the values Θn (ω) are completely determined. But to give the initial point an infinite sequence of independent random variables has to be observed. Classical analogues of quantum paradoxes 149 References [A] Aczel, A. “Entanglement” Plume-Penguin, New York, 2003. [B] Borkar, V.A. “Probability Theory” Springer-Verlag, Berlin, 1995. [C] Cromer, A. “Uncommon Sense” Oxford Univ. Press, Oxford, 1993. [D] Deutsch, D. “The fabric of reality” Penguin Books, New York, 1997. [d’E] d’Espagnat, B. “Reality and the Physicist” Cambridge Univ. Press, Cambridge, 1990. [F] Fine, A. “The Shaky Game: Einstein Realism and the Quantum theory” Chicago Univ. Press, Chicago, 1990. [K] Kavafos, M. “Bell’s Theorem, Quantum Theory and Conceptions of the Universe” Kluwer Acad. Pubs., Dordrecht, 1989 . [KN] Kavafos, M. and Nadeau, R.“The Conscious Universe” Springer-Verlag, Berlin, 1990. [L] Lindley, D. “Where did the weirdness go?” Basic Books, New York, 1996. [M] Malament, D.B. “Notes on the geometric interpretation of Bell type inequalities” Downloaded from the authors web page. [Ma] Mayants, L. “The Enigma of Probability in Physics” Kluwer Acad. Pubs., Dordrecht, 1984. [Me] Mermin, D. “Bringing home the atomic world: quantum mysteries for anyone” Am. J.Phys. 49 (1981), pp. 940-943. [P] Peres, A. “The classic paradoxes of quantum theory” The Foundations of Physics, 14 (1984),pp. 1131-1145. [S] Silverman, M.P. “More than a mystery” Springer-Verlag, New York, 1995. [TM] Tarozzi, G. and v.d Merwe, A. “The Nature of Quantum Paradoxes’, Kluwer Acad. Press, Dordrecht, 1988. [WZ] Wheeler, J. and Zurek, H. “Quantum Theory and Measurement” Springer-Verlag, Berlin, 1990. Henryk Gzyl Depto. de Estadı́stica; Univ. Carlos III de Madrid. España hgzyl@est-econ.uc3m.es; hgzyl@reacciun.ve Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 151 Conservación de propiedades del anillo de polinomios y del anillo de series en la clase de los anillos de conductor finito Nelsy González, Omaida Sepúlveda y Oswaldo Lezama Resumen En este artı́culo se analiza la conservación de propiedades del anillo de coeficientes R a los anillos de polinomios y series R [x] y R [[x]] , respectivamente. Este estudio se realiza en la clase de los anillos de conductor finito, en particular se estudian propiedades como GCD, G − GCD, coherencia, cuasi coherencia y conductor finito. ABSTRACT. In this paper is considered the preservation of properties of the ring of coefficients R to the rings R[x] and R [[x]], where R[x] denotes the polynomials ring and R [[x]] is the power series ring. This study is carry out in the context of finite conductor rings; in particular, properties like GCD, G − GCD, coherence, quasi coherence and finite conductor are analized. 1 INTRODUCCIÓN Para un anillo conmutativo R se tiene que R ⊂ R [x] ⊂ R[[x]], donde R[x] es el anillo de polinomios y R[[x]] el anillo de series. Hay propiedades de R que conserva tanto R[x] como R[[x]], pero algunas propiedades sólo las toma R [x] ó R[[x]] : por ejemplo, es conocido que si R es un anillo local, R [x] no es local y R[[x]] es local. (Ver [19]). Ası́ mismo, es conocido que si R es un anillo Noetheriano, entonces R [x1 , ..., xn ] es un anillo Noetheriano, el mismo resultado se tiene para el anillo R[[x]], por otro lado, se sabe que los anillos de polinomios y de series son un dominio de Prüfer si y sólo si los coeficientes están en un cuerpo y n = 1 (ver [22]). También, si R es un anillo coherente, R [x] no es necesariamente un anillo coherente (ver [12]). Resulta entonces interesante estudiar la preservación de propiedades del anillo de coeficientes, al anillo de polinomios R [x1 , ..., xn ] y al anillo de series R[[x]]. Dentro de las múltiples propiedades que pueden ser investigadas se encuentran aquellas que 152 N. González, O. Sepúlveda, O. Lezama definen subclases de anillos en la colección de los dominios de conductor finito, y que en la actualidad son materia de investigación entre los expertos del área. En este sentido se deben destacar los trabajos recientes de Sarah Glaz (Universidad de Connecticut, Storrs, Estados Unidos) y de Daniel Anderson (Universidad de Iowa, Iowa, Estados Unidos), los cuales constituyeron la motivación para la realización del presente trabajo. 2 PRELIMINARES Un dominio se dice que es de conductor finito si la intersección de dos ideales principales es un ideal finitamente generado. Entre las subclases de los dominios de conductor finito se encuentran los dominios cuasi-coherentes, en los cuales la intersección de un número finito de ideales principales es nuevamente un ideal finitamente generado. Como una subclase de estos últimos se encuentran los dominios coherentes, cuya particularidad radica en que la intersección de dos ideales finitamente generados es un ideal finitamente generado. Otra subclase especial de los dominios de conductor finito la conforman los llamados dominios G-GCD, los cuales requieren que la intersección de dos ideales enteros invertibles sea un ideal entero invertible. Estos dominios tienen como subclase a los dominios GCD, que son aquellos en los cuales cualquier par de elementos posee máximo común divisor (m.c.d). En general, propiedades como GCD, G-GCD, coherencia y conductor finito aparecen frecuentemente en la literatura, debido, a que como se mencionó antes, es de gran interés estudiar bajo qué condiciones estas propiedades son conservadas por los anillos R [x] y R [[x]]. Por tal razón, uno de los propósitos de este trabajo es presentar el estudio de la preservación de estas propiedades. Se adopta la notación y terminologı́a que se encuentra en [8], [14] ó [17]. Los anillos considerados en este artı́culo son conmutativos con elemento unidad. Usualmente, o salvo que se especifique otra situación, R denota un dominio de integridad (DI) con cuerpo de fracciones K, Spec (R) denota el espectro primo de R conformado por todos los ideales primos de R y M ax (R) el espectro maximal de R conformado por todos los ideales maximales de R. Además, si M es un R−módulo y P ∈ Spec(R), entonces MP denota la localización de M por el ideal primo P . RP denota la localización de R por el ideal primo P , y c(f ) denota el ideal fraccionario generado por los coeficientes de f , con f ∈ K [x] . Definición 2.1 Sean I, J ideales fraccionarios de R. Se define el ideal [I :R J] = {r ∈ R | rJ ⊂ I} , a este ideal se le suele denominar el ideal conductor de J en I. Anillos de polinomios y series 153 Definición 2.2 Sea I un ideal fraccionario de R. Se define el conjunto I−1 = [R :K I] = {x ∈ K | xI ⊆ R} . En adelante se usará [R : I] para denotar el cociente [R :K I] . Definición 2.3 Un dominio de integridad R es llamado un dominio de Prüfer si cada ideal finitamente generado de R es invertible. En [22] se encuentra un estudio detallado de estos dominios, los cuales constituyen otra subclase importante de los dominios de conductor finito. Nótese que todo dominio de Prüfer es coherente. Una subclase importante de los dominios de Prüfer la conforman los dominios de Bézout. Hay que recordar que un dominio de integridad R es llamado un dominio de Bézout si cada ideal no nulo finitamente generado de R es principal. Definición 2.4 Un ideal fraccionario I de un dominio de integridad R se dice divisorial si es una intersección de ideales fraccionarios invertibles. El ideal fraccionario divisorial más pequeño que contiene a I se denota por Iv . Además, Iv es llamado la clausura divisorial de I. Un ideal fracccionario I de R es un v-ideal de tipo finito si existe un ideal fraccionario finitamente generado J de R tal que I = Jv . Proposición 2.5 [8] Sea R un DI e I un ideal fraccionario de R. (i) El ideal (I −1 )−1 es la intersección de los ideales principales que contienen a I. (ii) Iv = (I −1 )−1 . (iii) El ideal I es divisorial si y sólo si I = Iv . Demostración: (i) Sea {haλ i}λ∈Λ la familia de ideales fraccionarios principales de R que contienen a I, sea J la intersección de esta familia y sea I −1 −1 el ideal [R : I] . Se debe concluir que I −1 = J. −1 En efecto, sea x ∈ I −1 y λ ∈ Λ, entonces de I ⊆ haλ i , se sigue que a−1 λ I ⊆R −1 −1 y que aλ ∈ I . Como xI −1 ⊆ R, entonces xa−1 ∈ R y ası́ x ∈ ha i . En conλ λ −1 −1 secuencia, I ⊆ J. −1 Recı́procamente, si x ∈ / I −1 , entonces xI −1 6⊆ R, esto es, existe t ∈ I −1 −1 tal que xt ∈ / R y ası́ x ∈ / t . Como hti ⊆ I −1 , entonces I ⊆ t−1 . Por consiguiente, x ∈ / J. 154 N. González, O. Sepúlveda, O. Lezama −1 (ii) Por la definición del ideal Iv se concluye que Iv ⊆ I −1 . Ahora, si −1 −1 x∈ I y si J es un ideal fraccionario invertible tal que I ⊆ J, entonces xI −1 ⊆ R y como J −1 ⊆ I −1 , se tiene que xJ −1 ⊆ R. Luego, x ∈ J y ası́, x ∈ Iv . (iii) Es consecuencia inmediata de la definición de ideal divisorial. Definición 2.6 Sea D un dominio de integridad, K su cuerpo de fracciones y t∈K: (i) t ∈ K es entero sobre D si es raı́z de un polinomio mónico con coeficientes en D. (ii) t ∈ K es casi entero sobre D si existe un elemento d ∈ D, d 6= 0, tal que dtn ∈ D para todo entero positivo n. (iii) Un dominio de integridad D es enteramente cerrado si cada elemento de K entero sobre D pertenece a D. (iv) Un dominio de integridad D es completamente enteramente cerrado si cada elemento de K casi entero sobre D pertenece a D. Nótese que ser completamente enteramente cerrado implica ser enteramente cerrado ( ver [22]). En el caso Noetheriano las dos condiciones coinciden. A continuación se presentan algunas propiedades y caracterizaciones de los dominios GCD y G − GCD; las pruebas que incluimos son claras y sencillas y difieren o no son presentadas en la literatura disponible. Proposición 2.7 Un dominio de integridad R es un GCD si y sólo si para todo a, b ∈ R, hai ∩ hbi es principal. Demostración: Para la implicacón directa, si a = 0 ó b = 0, entonces hai ∩ hbi es principal. Sean a, b 6= 0 y sea d = m.c.d(a, b), entonces d | a y d | b, esto es, a = dx y b = dy, luego m.c.d(x, y) = 1, nótese que hxi ∩ hyi = hxyi : como xy ∈ hxi ∩ hyi implica que hxyi ⊆ hxi ∩ hyi , sea ahora z ∈ hxi ∩ hyi , entonces z es múltiplo de x y de y, por tanto z es múltiplo de m.c.m(x, y) = m, pero m.c.d(x, y) = 1, entonces m = xy, es decir z ∈ hxyi ası́ que hxi ∩ hyi ⊆ hxyi . Finalmente, hay que ver que hai ∩ hbi = hdxyi : claramente dxy ∈ hai ∩ hbi , luego hdxyi ⊆ hai ∩ hbi , ahora hai ∩ hbi = hdxi ∩ hdyi = hdi hxi ∩ hdi hyi = hdi (hxi ∩ hyi) = hdi hxyi = hdxyi . Recı́procamente, sean a, b no nulos y sea hci = hai ∩ hbi , c 6= 0 ya que R es 155 Anillos de polinomios y series un dominio de integridad y ab ∈ hci . Note que c = m.c.m(a, b) : c ∈ hai y c ∈ hbi , entonces a | c y b | c, sea ahora x tal que a | x y b | x, esto indica que x ∈ hai ∩ hbi , entonces x ∈ hci ası́ c | x. Como a | ab y b | ab, entonces c | ab, esto es, ab = cd. Se tiene que d = m.c.d(a, b) : a | c implica que c = aa0 , entonces ab = aa0 d ası́ b = a0 d, es decir d | b, similarmente d | a. Sea e | a y e | b, entonces a = ex y b = ey, ası́ hei hxyi ⊆ hei (hxi ∩ hyi) = hei hxi ∩ hei hyi = hexi ∩ heyi = hai ∩ hbi = hci, es decir, hexyi ⊆ hci luego exy = λc. Ahora, como ab = cd se tiene que exey = cd, ası́ que e(xey) = cd, esto es, e(λc) = cd, entonces λe = d, es decir, e | d. Proposición 2.8 Sea R un dominio de Prüfer, entonces R es un dominio GCD si y sólo si R es un dominio de Bézout. Demostración: Para la implicación directa basta probar que cada ideal generado por dos elementos no nulos a y b es principal: Sea d = m.c.d(a, b), la idea es mostrar que hdi = ha, bi . Como d | a y d | b, entonces a = dα y b = dβ, ası́ cada combinación de a y b es múltiplo de d, esto implica que ha, bi ⊆ hdi . Nótese ahora que hdi ⊆ ha, bi : como R es dominio de Prüfer, entonces I = ha, bi es invertible, por tanto 1 = ax + by con x, y ∈ I −1 , p p m sea x = m n , y = q , entonces d = da n + db q , pero ax, bx, by, ay ∈ R, ası́ m m que ax = a n = d1 ∈ R, dualmente bx = b n = d2 ∈ R, por tanto am = nd1 y bm = nd2 , con lo cual n | am y n | bm esto implica que n | m.c.d(am, bm) = md, esto es md = nd0 , d0 ∈ R, similarmente b pq = e1 ∈ R, a pq = e2 ∈ R, entonces q | bp y q | ap, ası́ que q | m.c.d(ap, bp) = pd, es decir pd = qd00 , d00 ∈ R, en 0 bqd00 consecuencia d = and = ad0 + bd00 . Por tanto hdi = ha, bi . n + q Recı́procamente, Sean a, b ∈ R no nulos, entonces ha, bi = hdi , hay que ver que d = m.c.d(a, b) : a ∈ ha, bi = hdi , entonces a = dλ, de donde d | a. Análogamente, d | b. Sea e | a, i.e, a = ea0 y sea e | b, entonces como d = αa+βb se tiene que d = αea0 + βeb0 por consiguiente e | d. Proposición 2.9 Sea R un dominio GCD, entonces R es enteramente cerrado. Demostración: La prueba se realiza en dos pasos: Paso 1. Sea t = rs ∈ K − {0} raı́z de un polinomio a0 + a1 x + ... + an xn ∈ R [x] . Sea d = m.c.d(r, s), ası́ r = dp y s = dq, es decir, t = pq , además m.c.d(p, q) = 1, 2 n−1 n nótese que p | a0 y q | an : a0 + a1 ( pq ) + a2 ( pq2 )... + an−1 ( pqn−1 ) + an ( pqn ) = 0, 156 N. González, O. Sepúlveda, O. Lezama entonces a0 q n + a1 pq n−1 + ... + an pn = 0, esto indica que p | a0 q n , pero como m.c.d(p, q) = 1, se tiene que p | a0 . También, q | an pn y q | an . Paso 2. Sea t = rs ∈ K − {0} entero en R, es decir, satisface un polinomio mónico con coeficentes en R. Se puede tomar t = pq con m.c.d(p, q) = 1, luego por el Paso 1, q | an = 1, esto es q ∈ R∗ , entonces pq ∈ R. Proposición 2.10 R es un dominio G − GCD si y sólo si la intersección de dos ideales fraccionarios invertibles de R es invertible. Demostración: Sean J1 , J2 ideales fraccionarios invertibles de R, entonces existen r1 , r2 no nulos en R, tales que r1 J1 , r2 J2 ⊆ R. Además, r1 J1 , r2 J2 son ideales enteros invertibles ((ri Ji )−1 = ri−1 Ji−1 , i = 1, 2). También, r1 r2 J1 , r1 r2 J2 son ideales enteros invertibles, por lo tanto r1 r2 J1 ∩ r1 r2 J2 = I ⊆ R es invertible, entonces (r1 r2 )−1 (r1 r2 J1 ∩ r1 r2 J2 ) = (r1 r2 )−1 I, ası́ J1 ∩ J2 = (r1 r2 )−1 I y (r1 r2 )−1 I es invertible. La inclusión recı́proca se tiene del hecho que todo ideal entero invertible es un ideal fraccionario invertible. Proposición 2.11 [7] Sea R un dominio de integridad, entonces las siguientes afirmaciones son equivalentes: (i) R es un dominio G − GCD. (ii) hai ∩ hbi es invertible ∀a, b ∈ R − {0} . (iii) [a :R b] es invertible ∀a, b ∈ R − {0} . (iv) El grupo de ideales fraccionarios invertibles de R, denotado por Inv(R), es un grupo reticular ordenado bajo el orden parcial I 6 J si y sólo si J ⊆ I. (v) Cada v − ideal de tipo finito es invertible. Demostración: (i) ⇒ (ii) Es claro, ya que todo ideal principal es invertible. (ii) ⇒ (i) Sean I = ha1 , ..., an i y J = hb1 , ..., bm i ideales invertibles de R, es suficiente mostrar que I ∩ J es finitamente generado y localmente invertible, ver [22, CapÌtulo 1]. Sea R un anillo local e I un ideal invertible, se tiene entonces que 1 = x1 y1 + ... + xn yn , donde xi ∈ I, yi ∈ I −1 e I = hx1 , x2 , ..., xn i, dado que xi yi ∈ R, 1 ≤ i ≤ n, se debe tener que xi yi ∈ R∗ para algún i, entonces existe c ∈ R tal que xi yi c = 1, ası́ xj = xi (yi cxj ), como yi ∈ I −1 , yi xj ∈ R, e igualmente yi xj c ∈ R, esto es xj ∈ hxi i , entonces I ⊆ hxi i ⊆ I, ası́ que I es principal y generado por algún xi . Ahora, si M ∈ M ax(R) se tiene que 157 Anillos de polinomios y series ai1 1 D b j1 1 E para algún i1 , j1 con 1 6 i1 6 n, 1 6 j1 6 m, ası́ D E b IM ∩ JM = (I ∩ J)M = ∩ 1j1 = hai1 iM ∩ hbj1 iM = (hai1 i ∩ hbj1 i)M = hciM , es decir, I ∩ J P es localmente invertible. Para ver que I ∩ J es finitamente generado nótese que hai i ∩ hbj i ⊆ I ∩ J, ası́ que IM = y JM = ai1 1 i,j P P (I ∩ J)M /( hai i ∩ hbj i)M = (IM ∩ JM )/ hai iM ∩ hbj iM i,j i,j P = hai1 iM ∩ hbj1 iM / hai iM ∩ hbj iM i,j P P ⊆ hai iM ∩ hbj iM / hai iM ∩ hbj iM = 0, i,j por consiguiente I ∩ J = i,j P hai i ∩ hbj i es finitamente generado. i,j (i) ⇒ (v) Sea I un v − ideal de tipo finito, es decir I = Jv para algún J fraccionario finitamente generado de R, J = hu1 , ..., un i con ui ∈ K. −1 −1 Nótese que J −1 = (u1 , ..., un )−1 = hu1 i ∩ ... ∩ hun i (J −1 )−1 es invertible, es decir, I = Jv es invertible. es invertible y ası́ (ii) ⇔ (iii) Es inmediata de la observación hai ∩ hbi = [a :R b] hbi. (i) ⇒ (v) Sea G = Inv(R); sean I, J ∈ G, entonces I ∩ J ⊆ I y I ∩ J ⊆ J, ası́ I 6 I ∩ J y J 6 I ∩ J, además, por hipótesis I ∩ J ∈ G, sea ahora K tal que I 6 K, J 6 K, entonces K ⊆ I y K ⊆ J con lo cual K ⊆ I ∩ J y por lo tanto I ∩ J 6 K. ası́ I ∩ J = Sup(I, J) indicando esto que Inv(R) es un grupo reticular ordenado. (iv) ⇒ (i) Sean I, J ∈ G y sea K = Sup(I, J) ası́ I 6 K, J 6 K lo cual indica que K ⊆ I y K ⊆ J y por tanto K ⊆ I ∩ J. Sea ahora x ∈ I ∩ J entonces x ∈ I y x ∈ J ası́ hxi ⊆ I, hxi ⊆ J, esto es, I 6 hxi y J 6 hxi y dado que hxi ∈ G se tiene que K 6 hxi , i.e, hxi ⊆ K de donde x ∈ K; en conclusión I ∩ J = K. (v) ⇒ (iv) Si I, J ∈ G entonces (I + J)v es invertible, ya que es un v − ideal de tipo finito. Nótese que Inf (I, J) = (I + J)v : como I ⊆ I + J ⊆ (I + J)v y J ⊆ I + J ⊆ (I + J)v se tiene que (I + J)v 6 I y (I + J)v 6 J. Sea ahora K ∈ G tal que K 6 I y K 6 J, vease entonces que K 6 (I + J)v : (I + J) ⊆ K implica que (I + J)v ⊆ Kv = K ası́ K 6 (I + J)v . Proposición 2.12 Si R es un dominio GCD, entonces R es un dominio G − GCD. Demostración: Sean I, J ideales enteros invertibles de R, entonces I, J son finitamente generados, denotados por I = ha1 , a2 , ..., at i , J = hb1 , b2 , ..., bl i 158 N. González, O. Sepúlveda, O. Lezama hay que ver que I ∩ J es invertible, para esto se puede demostrar que I ∩ J es finitamente generado y que todas sus localizaciones maximales son invertibles, nótese que esto se tiene inmediatamente con un razonamiento análogo a la prueba de la proposición anterior para el caso (ii) ⇒ (i). Nótese que si R es un dominio de Prüfer, entonces R es un dominio G−GCD. Corolario 2.13 [7] Sea R un dominio G − GCD, S un sistema multiplicativo, entonces RS −1 es un dominio G − GCD, además RP es un dominio GCD ∀P ∈ Spec(R) y entonces R es enteramente cerrado. Demostración: Dados ar , sb ∈ RS −1 , se tiene que ar ∩ sb = a1 ∩ b −1 ∩ hbi S −1 = (hai ∩ hbi)S −1 . Si hai ∩ hbi = I es invertible, en1 = hai S −1 tonces II = R, ası́ que (II −1 )S −1 = RS −1 y por tanto IS −1 I −1 S −1 = RS −1 indicando esto que IS −1 es invertible, con lo cual ar ∩ sb es invertible, en consecuencia RS −1 es un dominio G−GCD. Véase ahora que RP es un dominio GCD : dado que RP es un anillo local y en anillos locales los ideales invertibles son principales se tiene que la intersección de ideales principales es un ideal principal. Finalmente, ya que R = ∩RP (ver P ∈M ax(R) [22, CapÌtulo 1]) y que cada RP es enter- amente cerrado, (por ser RP un GCD) se puede concluir que R es enteramente cerrado. 3 ANILLO DE POLINOMIOS A la fecha son muy pocos los resultados que se tienen en lo concerniente a la preservación de la propiedad de conductor finito de un anillo de polinomios, es más, este aún continua siendo un problema abierto. En esta sección se presentan los resultados concocidos en este contexto, mostrando el estado del arte del problema. Para probar los cuatro teoremas centrales de esta sección son necesarias varias propiedades de tipo técnico relativas a ideales divisoriales y polinomios primitivos. Las demostraciones de varias de estas afirmaciones preliminares no se encuentran en la literatura y aquı́ son presentadas en forma clara. Lema 3.1 [7] Sea R un dominio de integridad con cuerpo de fracciones K, e I un ideal fraccionario no nulo de R, entonces: [R [x] : IR [x]] = [R : I] [x] , es decir, (IR [x])−1 = I −1 R [x] y ası́ (IR [x])v = Iv R [x] Anillos de polinomios y series 159 Demostración: Nótese que [R [x] : IR [x]] ⊆ K [x] : en efecto, existe t 6= 0 p(x) en R, tal que tI ⊆ R, sea p(x) q(x) ∈ [R [x] : IR [x]] , entonces q(x) I [x] ⊆ R [x] , sea p(x) q(x) α1 p(x) tr(x) q(x) = s α 6= 0 en I, luego = r(x), entonces consiguiente ∈ K [x] . p(x) q(x) αt = tr(x), pero αt = s ∈ R, por Ahora, sea g ∈ (IR [x])−1 , equivalentemente g ∈ (R [x] : IR [x]) sı́ y solo si g ∈ [R [x] : I [x]] lo que equivale a gI [x] ⊆ R [x] sı́ y solamente si c(g)I ⊆ R, lo cual conlleva a que c(g) ⊆ [R : I] , es decir c(g) ⊆ I −1 , ası́ que g ∈ I −1 R [x] . Para la última parte si f ∈ (IR [x])v , es decir f ∈ ((IR [x])−1 )−1 equivale a que f ∈ (I −1 R [x])−1 , por consiguiente f ∈ (I −1 )−1 R [x]) ası́ que f ∈ Iv R [x] . Lema 3.2 [7] Si I1 es un ideal divisorial de R [x] e I = I1 ∩ K 6= 0, entonces I es un ideal divisorial de R. Más precisamente, r −1 I = ∩ r(c(g)) | I1 ⊆ R [x] , r ∈ R, g ∈ R [x] . g Demostración: Observese D E que si I1 es un o ideal divisorial de R [x] , entonces nD E f f R [x] | I1 ⊆ h R [x] , h 6= 0 ; Si I = I1 ∩ K 6= 0, y además I1 = ∩ D E h D E D E I1 ⊆ fh R [x] , entonces I1 ∩K ⊆ fh ∩K, por consiguiente fh R [x]∩K 6= 0, D E D E y existen r ∈ R, g ∈ R [x] , tales que fh R [x] = gr R [x] : en efecto, sea D E α ∈ K ∩ fh R [x] , esto es, α = rt = p fh , con r, t ∈ R − {0} , p ∈ R [x] − {0} , de r tal forma que fh = pt = gr , g ∈ R [x] − {0} . Ası́ nD E D E o r r I1 = ∩ R [x] : I ⊆ R [x] , r ∈ R, 0 = 6 g ∈ R [x] . Sea 1 g n g o r −1 J = ∩ r(c(g)) | I1 ⊆ ( g )R [x] , 0 6= g ∈ R [x] , r ∈ R , nótese que I = J : D E ⊆) Sea u ∈ I, ası́ u ∈ I1 , por tanto u ∈ gr , es decir u = h gr , de tal forma que ug D E= hr ∈ hri , por consiguiente ug ∈ rR [x] , r ∈ R, 0 6= g ∈ R [x] , I1 ⊆ gr R [x] , entonces uc(g) ⊆ rR, luego u ∈ J. D E ⊇) Sea u ∈ J, u ∈ rc(g)−1 , para todo r, g tal que I1 ⊆ gr R [x] , c(g)u ⊆ rR, entonces ug ∈ rR [x] , luego u ∈ gr R [x] , ası́ que u ∈ I1 ∩ K = I. 160 N. González, O. Sepúlveda, O. Lezama La conclusión de que I es un ideal divisorial de R se debe a que I es intersección de ideales divisoriales de R. Nóteseir(c(g))−1 es divisorial; en efecto, h −1 −1 −1 −1 −1 r [hg0 , g1 , ..., gn i] = r hg0 i ∩ ... ∩ hgn i , y (r(hg0 i ∩...∩hgn i )−1 )−1 = h i −1 −1 r hg0 i ∩ ... ∩ hgn i = rc(g)−1 . Proposición 3.3 [7] Sea R un dominio enteramente cerrado, I1 un ideal entero divisorial de R [x] , entonces: (i) Si I = I1 ∩ R 6= 0, entonces I es un ideal entero divisorial de R y además I1 = IR [x] . (ii) Si I1 ∩ R = 0, entonces existe f ∈ R [x] y un ideal I divisorial de R tal que I1 = f IR [x] . I1 ⊆ R [x] , además I = I1 ∩ R = I1 ∩ K = nDemostración: (i) Por hipótesis o r −1 ∩ r(c(g)) : I1 ⊆ ( g )R [x] ; nótese que por el lema anterior I es divisorial, véase entonces que I1 = IR [x] : es claro que IR [x] ⊆ I1 , para la inclusión recı́proca sea f ∈ I1 , f g ∈ rR [x] , r ∈ R, 0 6= g ∈ R [x], ası́ c(f g) ⊆ rR y como R es enteramente cerrado se tiene que c(f )c(g) ⊆ (c(f )c(g))v = c(f g)v ⊆ rR, ([7, Lema 6.1.2]) entonces c(f ) ⊆ [rR : c(g)] = r [R : c(g)] y c(f ) ⊆ I, esto es, f ∈ IR [x] . (ii) Si I1 ∩ R = 0, existe f ∈ I1 , f 6= 0 tal que I1 K [x] = f K [x] : en efecto, f K [x] ⊆ I1 K [x] , ahora I1 K [x] = hh(x)iK(x) , h(x) = g(x) ∈ I1 , entonces r E D g(x) 1 = r g(x) = hf (x)i . Luego I1 ⊆ I1 K [x] ∩ R [x] = f K [x] ∩ h(x) = r R [x] = f (c(f ))−1 R [x] , sea 0 6= a ∈ R tal que a(c(f ))−1 ⊆ R, como I1 ⊆ f (c(f ))−1 R [x] , aI1 ⊆ f (ac(f )−1 R [x]), aI1 ⊆ f L, donde L = ac(f )−1 R [x] , ası́ que fa I1 ⊆ L ⊆ R [x] , observese que J1 = fa I1 es un ideal entero divisorial de R [x] , ası́ J1 K [x] = ( fa I1 )K [x] = K [x] , luego J1 K [x] = K [x] y J = J1 ∩ R 6= 0, por tanto a ∈ J, por parte (i) J1 = JR [x] , con lo cual I1 = f a−1 J1 , I1 = f a−1 JR [x] donde a−1 J es un ideal divisorial de R. Proposición 3.4 [7] Sea R un dominio de integridad con cuerpo de fracciones K, entonces R es enteramente cerrado si y sólo si cada ideal entero I de R [x] con Iv ∩ R 6= 0 satisface Iv = (c(I) [x])v = c(I)v [x] ; donde c(I) es el ideal de R generado por los coeficientes de elementos de I. Demostración: ⇒) Dado que R es enteramente cerrado, se aplica la proposición anterior y se tiene que Iv = (Iv ∩ R) [x] , donde Iv ∩ R es un ideal entero Anillos de polinomios y series 161 divisorial de R, ası́ c(Iv ) = Iv ∩ R, claramente I ⊆ c(I) [x] , por consiguiente Iv ⊆ (c(I) [x])v , además por el Lema 14 se concluye que (c(I) [x])v = c(I)v [x] , por tanto c(Iv ) ⊆ c(I)v , además c(I)v ⊆ c(Iv ); en efecto, dado que I ⊆ Iv , se tiene que c(I) ⊆ c(Iv ) y como c(Iv ) = Iv ∩ R es un ideal divisorial de R, se deduce que (c(Iv ))v = c(Iv ), por tanto c(I)v ⊆ (c(Iv ))v = c(Iv ). Ası́ que Iv = (Iv ∩ R) [x] = c(Iv ) [x] = c(I)v [x] = (c(I) [x])v . ⇐) Para esta implicación sean f, g ∈ R [x] − {0}, y r ∈ R − {0} tal que c(f g) ⊆ rR, de esta inclusión se tiene que hrf, rgi ⊆ rR [x] : rf ∈ rR [x] , r ∈ fr R [x] , f g ∈ rR [x] , g ∈ fr R [x] , ası́ que hr, gi ⊆ fr R [x] es divisorial por ser principal. Por hipótesis (hr, gi)v = c hr, giv [x] , (note que hr, giv ∩ R 6= 0; hr, gi ⊆ hr, giv , r 6= 0) por tanto c(g) [x] ⊆ c(hr, gi) [x] ⊆ c(hr, gi)v [x] = hr, giv ⊆ fr R [x] , de donde f c(g) [x] ⊆ rR [x] y ası́ c(f )c(g) ⊆ rR, lo cual implica que R es enteramente cerrado (ver [15, Lema 1.31 (iv)]). Proposición 3.5 (Lema de Gauss) Sea R un dominio GCD, si f, g ∈ R [x] son polinomios primitivos, entonces f g es un polinomio primitivo. Demostración: Por efectos de espacio la prueba se ilustra para polinomios de primer y tercer grado; mostrando un modelo que puede seguirse para polinomios de cualquier orden finito. Sean f = f0 + f1 x y g = g0 + g1 x, entonces h = f g = f0 g0 + (f0 g1 + f1 g0 )x + f1 g1 x2 . Sean d = m.c.d(f0 g0 , f0 g1 + f1 g0 , f1 g1 ), u = m.c.d(f0 , d), ası́ u | f0 g1 , u | f0 g1 +f1 g0 , u | f1 g1 , luego u | f1 g0 , y u | f1 g1 , entonces u | m.c.d(f1 g0 , f1 g1 ), ası́ que u | f1 m.c.d(g0 , g1 ), entonces u | f1 , pero como u | f0 , se tiene que u | m.c.d(f0 , f1 ), por consiguiente u = 1, es decir, m.c.d(f0 , d) = 1, pero dado que d | f0 g0 , se tiene que d | g0 . Análogamente, sea v = m.c.d(f1 , d), ası́ v | f0 g0 , v | f0 g1 + f1 g0 , v | f1 g1 , luego v | f0 g1 , y v | f1 g1 , entonces v | m.c.d(f0 g1 , f1 g1 ), ası́ que v | g1 m.c.d(f0 , f1 ), entonces v | g1 , pero como v | g0 , se tiene que v = 1, es decir, m.c.d(f1 , d) = 1, y d | f1 g1 , ası́ que d | g1 , por tanto d = 1 y el caso del producto de polinomios primitivos lineales queda concluido. Ahora, sean f = f0 +f1 x+f2 x2 +f3 x3 y g = g0 +g1 x+g2 x2 +g3 x3 , entonces h = f g = f0 g0 + (f0 g1 + f1 g0 )x + (f0 g2 + f1 g1 + f2 g0 )x2 + (f0 g3 + f1 g2 + f2 g1 + f3 g0 )x3 + (f1 g3 +f2 g2 +f3 g1 )x4 +(f2 g3 +f3 g2 )x5 +(f3 g3 )x6 . Sea d = m.c.d(f0 g0 , f0 g1 + f1 g0 , f0 g2 + f1 g1 + f2 g0 , f0 g3 + f1 g2 + f2 g1 + f3 g0 , f1 g3 + f2 g2 + f3 g1 , f2 g3 + f3 g2 , f3 g3 ). Existen una serie de máximos común divisores u, u0 , u00 , y para cada uno una serie de divisibilidades ası́: sean u = m.c.d(f0 , d), u0 = m.c.d(u, f1 ) = m.c.d(d, f0 , f1 ) y u00 = m.c.d(u0 , f2 ) = m.c.d(d, f0 , f1 , f2 ) entonces u00 | f3 g0 , u00 | f3 g1 , u00 | f3 g2 , y u00 | f3 g3 , por consiguiente 00 u | m.c.d(f3 g0 , f3 g1 , f3 g2 , f3 g3 ), es decir u00 | f3 m.c.d(g0 , g1 , g2 , g3 ), ası́ u00 | f3 . Como u00 | f0 , u00 | f1 , u00 | f2 y u00 | f3 , se tiene que u00 = 1. 162 N. González, O. Sepúlveda, O. Lezama Ahora para u0 se tiene que u0 | f2 g0 , pero como m.c.d(u0 , f2 ) = u00 = 1, se tiene que u0 | g0 . También u0 | f2 g1 + f3 g0 , ası́ que u0 | f2 g1 , pero m.c.d(u0 , f2 ) = u00 = 1, ası́ que u0 | g1 . De igual forma u0 | f2 g2 + f3 g1 , luego u0 | f2 g2 , pero m.c.d(u0 , f2 ) = u00 = 1, ası́ que u0 | g2 . Ası́ mismo u0 | f2 g3 + f3 g2 , por tanto u0 | f2 g3 , pero m.c.d(u0 , f2 ) = u00 = 1, ası́ que u0 | g3 . Como u0 | g0 , u0 | g1 , u0 | g2 , u0 | g3 , se tiene que u0 = 1. Razonando para u se tiene que u | f1 g0 , pero m.c.d(u, f1 ) = u0 = 1, ası́ que u | g0 . Además u | f1 g1 +f2 g0 , por tanto u | f1 g1 , pero m.c.d(u, f1 ) = u0 = 1, ası́ que u | g1 . Similarmente, u | f1 g3 + f2 g1 + f3 g0 , ası́ u | f1 g3 , pero m.c.d(u, f1 ) = u0 = 1, ası́ que u | g2 . Finalmente, u | f1 g3 + f2 g1 + f3 g0 , luego u | f1 g3 , pero m.c.d(u, f1 ) = u0 = 1, ası́ que u | g3 . Recapitulando, u | g0 , u | g1 , u | g2 y u | g3 , por consiguiente u = 1. Con un procedimiento análogo al anterior se obtiene que m.c.d(g0 , d) = 1. Como d | f0 g0 y además u = m.c.d(f0 , d) = 1 y m.c.d(g0 , d) = 1 se concluye que d = 1. Proposición 3.6 Sea R un dominio GCD y sea f = hg un polinomio primitivo, entonces h y g son polinomios primitivos. Demostración: Sean h = h0 + h1 x + ... + ht xt y g = g0 + g1 x + ... + gm xm , entonces f = h0 g0 +(h0 g1 +h1 g0 )x+...+ht gm xt+m . Sea d = m.c.d(h0 , h1 , ..., ht ), entonces d | hi 0 ≤ i ≤ t, luego d divide a todo coeficiente de f, es decir, d divide al máximo común divisor de los coeficientes de f, esto es, d | 1, luego d = 1 y h es primitivo. El mismo razonamiento se utiliza para g. Proposición 3.7 Sea R un dominio GCD, si g es un polinomio primitivo no constante en R [x] , entonces g es un producto finito de polinomios primos. Demostración: Sea g un polinomio primitivo no constante de R [x] , entonces g = k1 k2 ...kt donde los ki son irreducibles en K [x] , ahora g = r11 h1 ... r1t ht con hi ∈ R [x] , entonces r1 ...rt g = h1 ...ht , como R es un GCD se tiene que r1 ...rt g = h1 ...ht = a1 g1 ...at gt , con gi ∈ R [x] polinomios primitivos. Tomando máximo común divisor a los coeficientes de los polinomios obtenidos en la igualdad anterior se tiene que r1 ...rt = a1 ...at , con lo cual g = g1 ...gt , gi ∈ R [x] primitivos. Nótese que cada gi es irreducible en R [x] , (de lo contrario gi serı́a reducible en K [x] y entonces ki = arii gi serı́a reducible, lo cual es una contradicción). Véase ahora que hgi i es primo en R [x] : en efecto, dada la inclusión canónica ι : R [x] ,→ K [x] , hgi i en K [x] es primo debido a que K [x] es un P ID y gi irreducible, resta ver que hgi i es primo en R [x] , i.e, ι−1 (hgi i) = hgi iR[x] : en efecto, Anillos de polinomios y series 163 ι−1 (hgi i) es un ideal primo en R [x] , sea hgi ∈ hgi iR[x] , entonces hgi ∈ K [x] , ası́ que hgi ∈ ι−1 (hgi i), luego hgi iR[x] ⊆ ι−1 (hgi i). Para la otra contenencia, sea t un polinomio de R [x] tal que t ∈ ι−1 (hgi i), entonces ι(t) ∈ hgi i, ası́ t = kgi , k ∈ K [x] , más precisamente, t = ar hgi , h ∈ R [x] primitivo, por tanto, rt = ahgi , entonces r.b.t0 = a.h.gi , con t0 un polinomio primitivo, ası́ tomando m.c.d a ambos miembros de la igualdad anterior se sigue que r.b = a, y reemplazando se obtiene que t = rb r hgi , t = bhgi ∈ R [x] , y t ∈ hgi iR[x] . Por tanto, g = g1 ...gt es producto de polinomios primos. Proposición 3.8 Sea R un dominio GCD, si f1 , g1 son dos polinomios primitivos en R [x] , entonces f1 y g1 poseen máximo común divisor. Demostración: Para la prueba se presentan dos casos: Caso 1. Por proposición anterior f1 = P1 ...Pl y g1 = Q1 ...Qs , con Pi , Qi primos y f1 , g1 polinomios primitivos, si {P1 , ..., Pl } ∩ {Q1, ..., Qs } = φ entonces m.c.d(f1 , g1 ) = 1 : sea h tal que h | f1 y h | g1 , entonces f1 = hf 0 y g1 = hg 0 , como f1 , g1 son primitivos, h es un polinomio primitivo, (ver Proposición 19). Si h fuese una constante, serı́a invertible y ası́ m.c.d(f1 , g1 ) = 1, si no es constante, por ser h, f 0 , g 0 polinomios primitivos, se descomponen en producto de primos, ası́ h = T1 ...Tk , f 0 = U1 ...Uw , g 0 = V1 ...Vv , con Ti , Ui , Vi polinomios primos. Como hf1 i es principal invertible y se descompone en un producto finito de ideales primos, esta descomposición es única, dualmente para g1 , pero como no hay elementos comunes entre f1 y g1 , entonces h es constante invertible. Luego m.c.d(f1 , g1 ) = 1. Caso 2. {P1 , ..., Pl } ∩ {Q1, ..., Qs } 6= φ, se supone que P1 , ..., Pt son los primos comunes tales que f1 = (P1θ1 ...Ptθt ).(otros primos) y g1 = (P1θ1 ...Ptθt ).(otros primos), hay que ver que m.c.d(f1 , g1 ) = (P1θ1 ...Ptθt ) : en efecto, sea h tal que h | f1 y h | g1 , entonces h es un polinomio primitivo, si h no es constante, entonces por ser h primitivo, es un producto finito de primos, es decir, h = (Qγ11 ...Qγl l ), con Qi primos, ası́ mismo f 0 y g 0 son también un producto de polinomios primos, y la descomposición de f 0 , g 0 es única, ası́ que {Q1, ..., Ql } ⊆ {P1 , ..., Pt } , nótese que γj ≤ θj : en efecto, si para algún j, γj > θj , entonces hay un primo común γ γ Pj j | f1 , Pj j | g1 lo cual es una contradicción, luego γj ≤ θj . Teorema 3.9 Sea R un dominio GCD con cuerpo de fracciones K, entonces las siguientes afirmaciones son equivalentes: (i) R es un dominio GCD. (ii) R [x] es un dominio GCD. 164 N. González, O. Sepúlveda, O. Lezama Demostración: (i) ⇒ (ii) Sean f, g no unidades en R [x] − {0} , tales que f = af1 , g = bg1 , donde a, b ∈ R y f1 , g1 son polinomios primitivos en R [x] , por hipótesis sea c = m.c.d(a, b), c ∈ R, como f1 , g1 son polinomios primitivos, tienen máximo común divisor h en R [x] , (proposición anterior) y es tal que h es primitivo. De otro lado, ch es divisor común de f y g en R [x] , nótese que ch es el máximo común divisor: en efecto, supóngase que s es divisor común de f y g en R [x] , entonces se escribe s = ds1 , d ∈ R y s1 primitivo en R [x] , ası́ existen t, l ∈ R [x] tales que f = st y g = sl, con t = e1 t1 y l = e2 l1 , donde e1 , e2 ∈ R y t1 , l1 son polinomios primitivos en R [x] , de esto se sigue que f = ds1 e1 t1 = de1 s1 t1 = af1 , con s1 t1 primitivo, además como la presentación de f es única, se tiene que d | a y s1 | f1 en R [x] , similarmente g = ds1 e2 l1 = de2 s1 l1 = bg1 , de donde d | b y s1 | g1 en R [x] , como d divide simultáneamente a a y a b, se tiene que d | c de igual forma s1 | h en R [x] , lo cual conduce a que s | ch. En consecuencia ch es el máximo común divisor de f y h. (ii) ⇒ (i) Es inmediata, ya que R ⊆ R [x] , y para f ∈ R [x], f tiene grado positivo, ası́ por razones de grado los polinomios constantes tienen máximo común divisor en R. Una prueba inductiva sobre el número de variables de R [x1 , ..., xn ] , muestra que el teorema anterior es también válido para el caso de n variables. En virtud del teorema anterior y del hecho que dentro de la gama de los dominios de Prüfer los únicos dominios que son GCD son los Bézout, se concluye que en las subclases de los dominios de Prüfer los únicos dominios que satisfacen que el anillo R [x] sea GCD son los dominios de Bézout. Para el siguiente teorema se considera la propiedad G−GCD. En particular, ahı́ se muestra que R [x1 , ..., xn ] es un dominio G − GCD si y sólo si R es un domino G−GCD. De igual forma, el resultado obtenido en este teorema permite concluir que si R es un dominio de Prüfer, entonces R [x1 , ..., xn ] es un dominio G − GCD. Es conocido que el conjunto S = {f ∈ R [x] : c(f ) = R} es un sistema multiplicativo de R [x] . Teorema 3.10 Sea R un dominio de integridad con cuerpo de fracciones K, entonces las siguientes afirmaciones son equivalentes: (i) R es un dominio G − GCD. (ii) R [x] es un dominio G − GCD. (iii) R (x) es un dominio GCD, donde R (x) = R [x] S −1 . Anillos de polinomios y series 165 Demostración: (i) ⇒ (ii) Según la Proposición 11 se debe probar que cada v-ideal de tipo finito es invertible; sea I un v − ideal de tipo finito en R [x], i.e, I = hk1 ....kn iv donde ki ∈ L, el cuerpo de fracciones de R [x] , como I es un ideal fraccionario en R [x] se puede escoger un g ∈ R [x]−{0} tal que gI ⊆ R [x] . Note que gI es un ideal entero divisorial de tipo finito y que I es invertible si y sólo si gI es invertible. Ası́, se puede asumir que I es entero en R [x] , para probar que I es invertible se consideran dos casos: (1) I ∩ R 6= 0, aplicando la Proposición 17 y el Corolario 13 se obtiene que I = hk1 ....kn iv = c(k1 ....kn )v [x] . Dado que R es un G − GCD se puede ver que c(k1 ....kn )v es un ideal invertible de R y ası́ I es un ideal invertible de R [x] (ver Lema 14). (2) I ∩R = 0, argumentando como en la Proposición 16 (ii), existe un 0 6= a ∈ R y f ∈ I, f 6= 0 tal que J = fa I es un ideal entero divisorial de R [x] de tipo finito y J ∩ R 6= 0, ası́ por el caso (1), J es un ideal invertible de R [x] y por tanto I es un ideal invertible de R [x] . (ii) ⇒ (iii) Recuérdese que por Corolario 13, R (x) es un dominio G − GCD, y que cada ideal invertible de R (x) es principal (P icR (x) = 0), lo cual indica que R (x) es un dominio GCD. (iii) ⇒ (i) Sean I, J ideales invertibles de R, por Lema 14, IR (x) y JR (x) son ideales invertibles de R (x) y por hipótesis son ideales principales de R (x) , por lo tanto (I ∩ J)R (x) = IR (x) ∩ JR (x) es un ideal principal de R (x) y ası́ I ∩ J es un ideal invertible de R. Nótese que la Proposición 16 fue establecida para dominios de integridad, desconocemos si se cumple para anillos con divisores de cero. De ser ası́, ayudarı́a a resolver el siguiente interrogante: ¿Si R es un anillo G − GCD, entonces R [x] es un anillo G − GCD? En lo referente a la preservación de la coherencia por el anillo de polinomios la situación es más complicada, ya que las técnicas clásicas de manejo de ideales no son suficientes. Para este caso se adoptan procedimientos propios de álgebra homológica, algunas condiciones de planitud y finitud. Aquı́ vale la pena resaltar que existen dominios coherentes sobre los cuales el anillo de polinomios R [x] no es coherente, esto lo muestra el ejemplo de Soublin en el cual Si = Q [[t, u]] denota el anillo de series en dos variables t, u ∞ Q sobre los racionales, y S = Si . Soublin mostró que S es un anillo coherente i=1 de w.dimS = 2 y que el anillo de polinomios S [x] no es un anillo coherente (ver [14]). 166 N. González, O. Sepúlveda, O. Lezama La ténica usada en [9] para la prueba del siguiente teorema es el álgebra homológica y resulta demasiado extensa. A continuación se presenta una prueba corta a través de ideales divisoriales. Teorema 3.11 Sea R un dominio coherente enteramente cerrado, entonces R [x] es un dominio cuasi-coherente. Demostración: Sean f1 , f2 , ..., fn ∈ R [x] , I = hf1 i ∩ hf2 i ∩ ... ∩ hfn i y J = I ∩ R. Para ver que I es finitamente generado se consideran dos casos: (1) Si J 6= 0 : nótese que I es un ideal divisorial de R [x] , entonces por la Proposición 16, I = JR [x] , con J un ideal entero divisorial de R. Por consideraciones de grado f1 , f2 , ..., fn ∈ R, y teniendo en cuenta que R es coherente, se sigue que J es finitamente generado. Luego I también es finitamente generado. (2) Si J = 0 : por la demostración de la parte (ii) de la Proposición 16 se tiene que existen un elemento no nulo a en R y un polinomio no nulo f ∈ I,tales que J1 = fa I es un ideal entero divisorial de R [x] . Sea J2 = J1 ∩ R, según la prueba mensionada, J2 es un ideal entero divisorial no nulo de R y se puede aplicar el caso (1) para decir que J1 esD finitamente generado como ideal de E f f R [x] . Entonces J1 = hj1 (x), ..., jt (x)i y a j1 (x), ..., a jt (x) = I, es decir, I es finitamente generado. Del teorema anterior se puede deducir que si R es un dominio de Prüfer, entonces R [x] es un dominio cuasi-coherente. La misma técnica usada en el teorema anterior permite demostrar el siguiente teorema. Teorema 3.12 Sea R un dominio cuasi coherente enteramente cerrado, entonces R [x] es un dominio de conductor finito. En la misma dirección de los resultados anteriores se plantea la siguiente pregunta, cuya respuesta desconocemos: ¿Si R es dominio de conductor finito, entonces R [x] es G − GCD? (ver [11]). Anillos de polinomios y series 4 167 ANILLO DE SERIES En esta sección se consideran las propiedades GCD y G − GCD para el caso del anillo de series, mostrando a través de dos ejemplos que dichas propiedades no se preservan. Es de notar que la propiedad de coherencia tampoco se preseva al anillo de series (ver [14]). Para comenzar veamos algunos preliminares. Teorema 4.1 [17] Sea K es un cuerpo, entonces K[[x]] es dominio de factorización única (UFD) y por lo tanto, completamente enteramente cerrado. Demostración: Como K es cuerpo, K[[x]] es un dominio de ideales princi∞ pales, más exactamente {hxn i}n=1 es el conjunto de todos los ideales no nulos, con único ideal maximal hxi. Ası́, como es un dominio de ideales principales, por el Teorema 1.6 de [24] es UFD y por el Teorema 1.7 de [24] si es UFD es completamente enteramente cerrado. Teorema 4.2 [8] Si D es un dominio de integridad, entonces D[[x]] es completamente enteramente cerrado, si y sólo si, D es completamente enteramente cerrado. Demostración: Se tiene el siguiente diagrama conmutativo para D dominio de integrigad, K su cuerpo de fracciones, L el cuerpo de fracciones de D [[x]] y K ((x)) el cuerpo de fracciones de K [[x]]: K ↑ D L ↑ D [[X]] K((X)) ↑ K [[X]] Para la implicación directa, sea K el cuerpo de fracciones de D, y se tiene que D = D[[x]] ∩ K. Por hipótesis, D[[x]] es completamente enteramente cerrado y como K es completamente enteramente cerrado y la intersección de dominios completamente enteramente cerrados es completamente enteramente cerrado (ver [8] ), entonces D es completamente enteramente cerrado. Recı́procamente, el cuerpo de fracciones L de D [[x]] es subcuerpo de K((x)) y K[[x]] (según el diagrama inicial de esta prueba); y K[[x]] es un dominio de factorización única, por tanto por el Teorema 26 es completamente enteramente cerrado. Sea α ∈ L casi entero sobre D[[x]]; existe h ∈ D[[x]] tal que hαn ∈ D[[x]] para todo n ≥ 1. Pero como h, hαn ∈ K[[x]] y este es completamente P enteramente ∞ i cerrado, entonces α ∈ K[[x]]. Es decir, podemos suponer α = i=0 ai x ∈ K[[x]] ∩ L, y se prueba que α ∈ D[[x]]. 168 N. González, O. Sepúlveda, O. Lezama Existe un elemento no nulo g ∈ D[[x]] tal que gαn ∈ D[[x]] para cada entero positivo n. Se prueba por inducción sobre i que ai ∈ D. Ası́, si se asume que a0 , . . . , aj−1 ∈ D, con j entero no negativo, entonces sea α∗ = a0 + . . . + aj−1 xj−1 ∈ D[[x]], y g(α − α∗ )n ∈ D[[x]], cada entero positivo n. Si aj = 0, entonces aj ∈ D; Ppara ∞ si aj 6= 0, sea gP= i=0 bi xi , con bm el primer coeficiente no nulo de g de tal ∞ forma que g = i=m bi xi . Entonces si n es un entero positivo, g(α − α∗ )n = X ∞ i=m bi xi X ∞ i=j ai xi n = bm anj xm+nj + (otros términos de orden superior) ∈ D[[x]]. Se sigue que bm anj ∈ D para cada entero positivo n, ası́ que aj es un elemento de K casi entero sobre D, y por tanto, por hipótesis es un elemento de D, ası́ ∞ P α= ai xi ∈ D[[x]]. i=0 Teorema 4.3 [8] Sea D es un dominio de integridad con cuerpo de fracciones K. Si D[[x]] es enteramente cerrado, entonces D es enteramente cerrado. Demostración: Sea α ∈ K tal que α satisface un polinomio mónico con coeficientes en D, entonces α ∈ L y satisface un polinomio mónico con coeficientes en D[[x]]. Por la hipótesis, α ∈ D [[x]], esto es α ∈ K ∩ D [[x]] = D. El siguiente teorema establece que el recı́proco del teorema anterior no es siempre cierto. Teorema 4.4 [8] Sea D un dominio enteramente cerrado que no es completamente enteramente cerrado. Entonces, D [[x]] no es enteramente cerrado. Demostración: Se tiene aplicando el Teorema 1.11 y la Proposición1.12 de [24]. D. D. Anderson muestra en su último artı́culo “GCD domains and power series rings” ( 2002), que si V es un dominio de valuación y V [[x]] un dominio GCD, entonces V debe ser de dimensión de Krull 1 con grupo de valuaciones Z ó R. Además, da un ejemplo de un dominio de valuación W de dimensión de Krull 1 con grupo de valuaciones R, para el cual W [[x]] no es dominio GCD. Anillos de polinomios y series 169 El siguiente teorema es útil para ilustrar ejemplos que muestran que la propiedad GCD no se preserva al anillo de series. Teorema 4.5 [8] Sea V un dominio de valuación no trivial en el cuerpo K, con ideal máximal M . Entonces: (i) V es enteramente cerrado. (ii) V es Noetheriano, si y sólo si, V es de dimensión de Krull 1 y discreto. (iii) V es completamente enteramente cerrado, si y sólo si, V es de dimensión de Krull 1. Demostración: (i) Si x ∈ K − V, entonces V ⊂ hxi, ası́ que V ⊂ hxi ⊂ n−1 x ⊂ ... ⊂ hxn i para cada n ∈ Z+ . Ası́, si {di }i=0 es un conjunto finito de elementos de V, entonces 2 d0 + d1 x + ... + dn−1 xn−1 ∈ xn−1 , ası́ que xn 6= d0 + d1 x + ... + dn−1 xn−1 . Por tanto, x no es entero sobre V. Se sigue que V es enteramente cerrado. (ii) Para la implicación inversa, se asume que V es 1-dimensional y discreto. Entonces M k k=1 es el conjunto de ideales propios de V. Por tanto, si x ∈ M − M 2 , entonces M 2 ⊂ hxi ⊆ M, y como consecuencia, M = hxi . Se sigue que cada ideal de V es principal, y V es Noetheriano. Recı́procamente, si V es Noetheriano, V es un dominio de ideales principales. En consecuencia, V es 1-dimensional y contiene ideales propios no idempotentes, ası́ V es discreto. (iii) Para la implicaciÛn directa, sea V completamente enteramente cerrado y sea P un ideal primo de V contenido propiamente en M. Si x ∈ M −P, entonces n ∞ n P ⊂ ∩∞ n=1 hx i. Pero el Teorema 1.11 de [24] muestra que ∩n=1 hx i = h0i . Ası́, P = h0i y V es 1-dimensional. Recı́procamente, sea x ∈ K − V. Entonces y = x−1 ∈ V. Por el Teorema 1.11 n ∞ n de [24] ∩∞ n=1 hy i es primo en V. Y como V es 1-dimensional, ∩n=1 hy i = h0i . n + Por tanto, si d 6= 0, d ∈ V, entonces hy i ⊂ hdi para algún n ∈ Z . Se sigue / V, y como d es un elemento arbitrario de V, se tiene que x no que ydn = dxn ∈ es casi entero sobre V. Luego, V es completamente enteramente cerrado. Corolario 4.6 Sea V un dominio de valuación de dimensión > 1, entonces V no es completamente enteramente cerrado, y por tanto V [[x]] no es G − GCD. Demostración: Se tiene como consecuencia del teorema anterior y el Teorema 29. A continuación se presenta un ejemplo de un dominio de valuación y por tanto dominio GCD (ver Proposición 8), cuyo anillo de series no es dominio GCD. 170 N. González, O. Sepúlveda, O. Lezama Ejemplo 4.7 Sea A = K+ xK [[x]] y V = R + xK [[x]] un subanillo de A, con K el cuerpo de fracciones de R xK [[x]] = M el ideal máximal de A y R ∩ M = 0. Se tiene entonces que: (i) Si R es un dominio de valuación y en consecuencia GCD, entonces V = R + xK [[x]] es dominio de valuación: Se consideran en R + M los ideales ha + mi y hb + ni, con a, b ∈ R y m, n ∈ M ; se puede suponer en R que hai ⊆ hbi , es decir, a = rb. Si b = 0, a = 0 y hmi , hni son comparables en A; se supone ahora que hmi ⊇ hni , entonces existe v ∈ A, v = k + m0 tal que n = vm = (k + m0 )m. Como R ∈ DV , k ∈ R ó k −1 ∈ R. Si k ∈ R, entonces en R+M se tiene que hni ⊆ hmi. Si k −1 ∈ R , 1r = k, y n = ( 1r + m0 )m, con lo cual rn = (1 + rm0 )m; además, 1 + rm0 ∈ U (A) con lo que en A se tiene hni = hrni = hmi . Entonces, existe (k 00 + m00 ) ∈ A tal que m = (k 00 + m00 )( 1r + m0 )m. Si m = 0, n = vm = 0 y entonces ha + mi ⊆ hb + ni . Si m 6= 0, (k 00 + m00 )( 1r + m0 ) = 1 y se sigue que k 00 = r ya que K ∩ M = 0, y entonces m = (r + m00 )n con lo que hmi ⊆ hni . Si b 6= 0, b + n 6= 0 porque R ∩ M = 0 y a + m = rb + m. Se define en K, −1 z = m−rn ∈ A. Si z −1 ∈ A, como m − rn ∈ M, b+n , entonces z ∈ A ó z −1 z (m − rn) ∈ M y por lo tanto b + n ∈ M de lo que b = 0, una contradicción. Entonces, z ∈ A y z(b + n) = m − rn ∈ M y como b + n ∈ / M entonces z ∈ M y a + m = (r + z)(b + n), es decir, ha + mi ⊆ hb + ni . (ii) Sea V = Z(p) + xQ [[x]], entonces su dimensión de Krull es ≥ 2, con p un número primo. (iii) Según el Teorema 30, V = Z(p) + xQ [[x]] no es completamente enteramente cerrado y aplicando el Corolario 31, V [[x]] no es G − GCD. El siguiente ejemplo, similar al anterior, muestra que un anillo de series sobre un dominio Bézout no es necesariamente G − GCD. Ejemplo 4.8 Sea R un dominio Prüfer, K 6= R su cuerpo de fracciones. Sea A = K+ xK [[x]], T = R + xK [[x]] un subanillo de A, xK [[x]] = M el ideal máximal de A y R ∩ M = 0. Se tiene entonces que: (i) Si R es un dominio Bézout y en consecuencia GCD, entonces T = R + xK [[x]] es dominio Bézout: Sea J = ha1 + m1 , a2 + m2 i un ideal de R + M , ası́ el ideal I = ha1 , a2 i = hbi . Si b = 0, J = hm1 , m2 i es un ideal del dominio de valuación K [[x]] Anillos de polinomios y series 171 con lo cual J resulta principal generado por m1 ó m2 . Si b 6= 0, ai = ci b, i = 1, 2, luego ai + mi = b(ci + 1b mi ) con 1b mi ∈ M, o sea en R + M se tiene que J ⊆ hbi ; nótese que b ∈ J : existen d1 , d2 ∈ R tales que b = d1 a1 + d2 a2 . Se supone, sin perdida de generalidad que a1 6= 0, entonces a1 + m1 ∈ /M y por tanto a1 + m1 ∈ U (K [[x]]), luego (d1 m1 + d2 m2 )(a1 + m1 )−1 ∈ K + M y existe k + n ∈ K + M tal que (a1 + m1 )(k + n) = (d1 m1 + d2 m2 ). Pero K ∩ M = 0, con lo cual k = 0 y (a1 + m1 )(n) = d1 m1 + d2 m2 . Por lo tanto, b = (d1 − n) (a1 + m1 ) + d2 (a2 +m2 ), es decir, b ∈ J de lo cual J = hbi . (ii) Sea T = Z + xQ [[x]] un dominio Bézout de dimensión de Krull ≥ 2. (iii) Según el Teorema 30, T = Z + xQ [[x]] no es completamente enteramente cerrado y aplicando el Corolario 31, T [[x]] no es G − GCD. Quedan planteados varios interrogantes como: ¿Bajo qué condiciones R [[x]] es dominio GCD ? En el caso del anillo de series cuando R es enteramente cerrado pero no completamente enteramente cerrado, el Corolario 31 permite concluir que su anillo de series no es dominio G − GCD. Ası́ queda la siguiente conjetura: Si R es un dominio completamente enteramente cerrado y GCD, entonces R [[x]] es un dominio GCD. Referencias [1] D.D.Anderson, GCD Domains, Gauss’ Lemma, and contents of polynomials, Kluwer Math And Appl. Vol 520, (2000), 1-31 [2] D.D. Anderson And R.O. Quintero, Some generalizations of GCD domains, Lecture Notes in pure And Applied Math # 189, Marcel Dekker, (1997), 189-195. [3] D.D. Anderson And B.G. Kang, Content formulas for polynomials and power series and completed integral closure, J. Algebra 181 (1996), 82-94. [4] M.F. Atiyah, I.G. Macdonald, Introducción al Álgebra Conmutativa, Ed. Reverté S.A, Barcelona, 1978. [5] N. Bourbaki, Commutative Algebra, Addison Wesley, Massachusetts, 1972. [6] J. Brewer, Power series over commutative rings, Marcel Dekker, New York, 1981. 172 N. González, O. Sepúlveda, O. Lezama [7] M. Fontana, J. A. Huckaba and I. Papick, Prüfer Domains, Marcel Dekker, New York, 1997. [8] R. Gilmer, Multiplicative Ideal Theory, Marcel Dekker, New York, 1972. [9] S. Glaz, Finite conductor rings, Proc. of AMS, to appear. [10] S. Glaz, Finite conductor rings with zero-divisors, Kluwer Math. And Appl. Vol 520 (2000), 251-271 [11] S. Glaz, and S. Chapman, One hundred problems in commutative rings theory, Kluwer Math. and Appl. Vol 520 (2000), 459-477. [12] S. Glaz, Commutative ring characterized by homological conditions, Handbook to the Heart of Algebra, Kluwer Pub, to appear. [13] S. Glaz, Finite conductor properties of R(x) and R<x>, Dekker, Proc. of Huckaba Retirement Conference, Missouri (2000), to appear. [14] S. Glaz, Commutative Coherent Rings, Lecture Notes in Mathematics, No. 1371, Springer-Verlag, New York, 1989. [15] N. González, Anillo de Polinomios Sobre Anillos de Conductor Finito, Tesis de Maestrı́a, Universidad Nacional de Colombia, Bogotá, 2002. [16] J. A. Huckaba, Commutative Rings With Zero Divisors, Marcel Dekker, New York, 1988. [17] I. Kaplansky, Commutative Rings, Allyn- Bacon, Boston, 1970. [18] E. Kunz, Introduction to Commutative Algebra and Algebraic Geometry, Birkhauser Boston, 1985. [19] O. Lezama y G. Rodriguez, Anillos Modulos y Categorias, Universidad Nacional de Colombia, Bogotá, 1994. [20] H. Matsumura, Commutative Algebra, W.A. Benjamin, Inc, New York, 1970. [21] G. Picavet, About GCD domains, to appear in Advances in Commutative Ring Theory, Marcel Dekker, (2001). [22] S. Rocuts, Dominios de Prüfer: Caracterizaciones Subclases y Ejemplos, Tesis de Grado, Universidad Nacional de Colombia, Bogotá, 1999. [23] J.J. Rotman, An Introduction to Homological Algebra, Academic Press, Orlando, 1979. Anillos de polinomios y series 173 [24] O. Sepúlveda, Anillo de Series Formales Sobre Anillos Conductor Finito, Tesis de Maestrı́a, Universidad Nacional de Colombia, Bogotá, 2002. [25] K. Spindler, Abstract Algebra with Aplications, Vol I and II, Marcel Dekker, New York, 1994. [26] W. Vasconcelos, The Rings of Dimension Two, Lecture Notes in Pure and Appl. Math. No. 22, Marcel Dekker, New York, 1976. [27] O. Zariski and P. Samuel, Commutative Algebra, Vol. I, D. Van Nostradand Company, New Jersey, 1958. Nelsy González & Omaida Sepúlveda Universidad Pedagógica y Tecnológica de Colombia Campus Universitario, Duitama - Boyacá, Colombia ngonzalez@duitama.uptc.edu.co omaidasd@latinmail.com Oswaldo Lezama Universidad Nacional de Colombia Campus Universitario, Bogotá, Colombia olezama@matematicas.unal.edu.co http://www.virtual.unal.edu.co/cursos/ciencias/15930/olezama/ Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 175 Simetrı́a y nuevas soluciones de la ecuación de Black Scholes Nikolay Sukhomlin Resumen En el enfoque local estudiamos la ecuación de Black Scholes, construimos sus operadores de simetrı́a, mostramos que su función de Green y otras soluciones usadas en la práctica financiera son las funciones propias de un operador de simetrı́a (o de la combinación lineal de ellas). Este hecho sugiere la importancia del estudio de la simetrı́a del “master equation” del modelo dinámico. Introducimos el concepto de leyes de conservación en el modelo de Black Scholes, las cuales en los casos sencillos se manifiestan por la existencia de relaciones estables durante la evolución del proceso entre el valor de una opción y la rapidez de su cambio. También encontramos el grupo de equivalencia de la ecuación de Black Scholes lo que permite clasificar los operadores de simetrı́a diferenciales hasta tercer orden, realizar la separación de variables y encontrar varias clases de nuevas soluciones de esta ecuación. Introducción El modelo de Black Scholes es el más usado en la teorı́a de los mercados financieros. La ecuación de Black Scholes constituye la parte principal del modelo, véase por ejemplo [1]: o n 1 2 2 ∂2 ∂ ∂ (1) AV ≡ ∂t + 2 σ x ∂x2 + r x ∂x − r V (t, x) = 0 donde V ( t , x ) es el valor de la opción de comprar o de vender un bien financiero con el precio x en el momento t. En la teorı́a de finanzas la constante real σ ( σ 6= 0) se llama volatilidad; la constante r define el riesgo de la inversión. En el modelo de Black Scholes la ecuación (1) se deduce a partir de un proceso estocástico de tipo de difusión. Se conoce que la transformación τ = −σ 2 t + const, ξ = ln x, V (t, x) = U (τ, ξ) exp β ln x − (β − 1)2 t / 2 β ≡ 1 2 − r σ2 (2 a) (2 b) (2 c) 176 N. Sukhomlin reduce la ecuación (1) a la ecuación de difusión: − ∂∂ Uτ + 1 ∂2 U 2 ∂ ξ2 = 0 (2 d) En la teorı́a de procesos estocásticos la ecuación de Black Scholes (1) corresponde a la ecuación retrógrada de Kolmogorov adonde la difusión se realiza ”hacia el pasado”. Actualmente la ecuación de Black Scholes se estudia activamente en diferentes aspectos, véase por ejemplo [2-7]. La estructura del artı́culo es la siguiente: en la sección 1 establecemos los operadores de simetrı́a de primer orden, notamos que ellos crean un álgebra de Lie, constatamos la estructura especial del operador A y encontramos las funciones propias de dos tipos de estos operadores. También introducimos el concepto de ley de conservación en el modelo de Black Scholes. En la sección 2 construimos el grupo de equivalencia de dicha ecuación como el producto cartesiano de dos subgrupos: uno es continuo y otro discreto. En la sección 3 clasificamos los operadores de simetrı́a hasta el tercer orden relacionado al grupo de equivalencia. En la sección 4, al separar las variables, encontramos los representantes más sencillos de las soluciones correspondientes a todas las cinco clases de los operadores de simetrı́a de segundo orden y construimos algunas otras nuevas soluciones que entran en estas clases. 1 Simetrı́a de la ecuación de Black Scholes y Leyes de conservación La idea básica de nuestro enfoque consiste en la búsqueda y en el estudio de ciertas relaciones entre el valor de una opción V ( t , x ) y la rapidez de su cambio relacionado con el precio. El hecho de la existencia de relaciones que se conservan durante todo el proceso modelado, nos lleva a información practica muy importante. Por ejemplo, este nos permite evaluar la volatilidad, o sugiere la formulación apropiada de los problemas de frontera. En la teorı́a de las ecuaciones diferenciales parciales el primer paso del programa de resolución consiste en el estudio del álgebra de simetrı́a de la ecuación. Este estudio puede tener varios objetivos: con la finalidad de la separación de variables [8, 9] o para la aplicación de la teorı́a de Lie [4, 7, 10-12]. Nosotros seguimos la primera orientación. La simetrı́a de la ecuación de difusión es bien conocida. Dado que la ecuación de Black Scholes se puede reducir a la ecuación de difusión, su simetrı́a es similar. Sin hacer los cálculos, pasamos directamente a los resultados. El conjunto de los operadores de simetrı́a de la ecuación (1) diferenciales lineales de primer orden y que conmutan con el operador A constituye un espacio vectorial con la base: 177 La ecuación de Black Scholes B1 = x ∂∂x − β , B2 = σ 2 t x ∂∂x − ln x − σ 2 t β (3 a) (3 b) y también un operador de simetrı́a trivial del orden cero: B3 = 1. Observamos que: B2 = σ 2 t B1 − ln x (3 c) y que se verifican las condiciones de conmutación: [ B2 , B1 ] = B3 , [ B2 , B 3 ] = [ B1 , B 3 ] = 0 (3 d) La simetrı́a mencionada es intrı́nseca de la ecuación de Black Scholes (1). Es fácil verificar que el operador (3a) define totalmente el operador A: ∂ A = σ 2 σ12 ∂t + 12 B12 − 21 (β − 1)2 . (3 e) Visto que [ A , Bi ] = 0 ( i = 1, 2, 3 ), es obvio que toda función de los operadores B1 , B2 , B3 conmutará con A y en consecuencia, será un operador de simetrı́a de la ecuación (1). Este hecho nos permitirá en las secciones 3 y 4 clasificar los operadores de simetrı́a y construir las nuevas soluciones exactas de la ecuación de Black Scholes usando el metodo de separacion de variables en el enfoque de V. Shapovalov [8]. En las teorı́as económicas, sociales y financieras no se suele usar la noción de operador de simetrı́a. Sin embargo la importancia de este concepto reside en el hecho de que cada operador de simetrı́a está ligado con una ley de conservación, pero el concepto de ley de conservación tampoco está desarrollado en dichas teorı́as. Como en la mecánica clásica y la cuántica, aquı́ este concepto tiene un papel importante en la descripción del sistema dinámico. Vamos introducir el concepto de ley de conservación y lo ilustramos para el modelo de Black Scholes. Hallamos las soluciones de la ecuación (1) que son las funciones propias del operador de simetrı́a (3 a), es decir resolvemos el sistema: A V (t, x) = 0 , B V (t, x) = λ V (t, x) . (4 a) (4 b) con B = B1 en este caso. Después de cálculos sencillos encontramos una familia de soluciones parametrizadas por λ: n 2 o Vλ ( t, x ) = C xλ + β exp σ2 (β − 1)2 − λ2 t (C = const ) (5) Esta familia de soluciones corresponde a la ley de conservación que se expresa por la relación (4 b): elasticidad-precio del valor de la opción que se conserva en este caso: 178 N. Sukhomlin Ep ≡ x ∂V V ∂x = (λ + β ) = const. (6) Este hecho significa que al elegir la solución (5), elegimos la relación (6) entre el valor V y la rapidez de su variación. La existencia de esta ley de conservación permite experimentalmente evaluar la potencia del precio en la función (5): λ + β. En el caso general las relaciones entre la función incógnita y sus derivadas pueden ser mucho menos evidentes: véase por ejemplo las formulas (7), (14) y (15). La importancia práctica de una ley de conservación se encuentra en el hecho de que matemáticamente es mucho más fácil encontrarla que resolver la ecuación (1). Además, la existencia de una ley de conservación no depende del sistema de coordenadas en las cuales está escrita la ecuación. Nuestro estudio permite explicitar la simetrı́a que verifica la solución (5) y establecer el sentido de las constantes que la definen. Esta función es cóncava a la condición: 0 < λ + β < 1. El segundo operador de simetrı́a de primer orden B2 define otra ley de conservación: la relación (4 b) informa que la misma elasticidad ahora no se conserva, sino depende linealmente del logaritmo del precio y es inversamente proporcional al tiempo. En consecuencia se conserva la expresión: (7) σ 2 t Vx ∂∂ Vx − β − ln x = λ = const. Esta igualdad se construye usando la formula (3 c). También es posible interpretar esta ley como conservación del valor inicial del precio x0 : para el tiempo t → 0 el operador B2 se reduce a la expresión: − (ln x0 ) ⇒ x0 = exp {−λ}. Ahora la relación (7) se puede escribir: Ep ≡ Vx ∂∂ Vx = σ12 t ln xx0 + β . La resolución del sistema de tipo (4) con el operador B2 (3 b) nos lleva al resultado siguiente: 2 [ ln x + σ2 β t + λ ] C √ (C = const). (8) Vλ (t, x) = t exp 2 σ2 t Esta función representa la función de Green de la ecuación de Black Scholes (1) bien conocida en la literatura. Mencionamos que si r = σ 2 /2 entonces la solución (8) queda: Vλ (t, x) = C √ t x x0 1 2 σ2 t ln “ x x0 ” . Podemos constatar que la función (8) es cóncava con la condición: 2 ln(x/x0 ) − rt2 + 1 < σ2 t − 1 , lo que se verifica a partir del momento del tiempo t = 4/σ 2 . 179 La ecuación de Black Scholes 2 Grupo de equivalencia de la ecuación de Black Scholes Sea la ecuación de Black Scholes (1). Estudiamos las transformaciones de variables: τ = τ (t), ξ = ξ(t, x), V (t, x) = a(t, x) Q(τ , ξ) (9) tales que la ecuación (1) no cambia su estructura, salvo que aparece un factor multiplicativo a la izquierda: n o ∂Q 1 2 2 ∂2 f ( t , x ) ∂∂ Q + σ + r ξ − r Q = 0, (10) ξ 2 0 0 0 τ 2 ∂ξ ∂ξ donde Q es la nueva incógnita. Ası́ aparece una libertad complementaria: considerar las constantes σ0 , r0 como distintas de las constantes σ, r o como iguales. El problema de encontrar todas las transformaciones con la propiedad mencionada se resuelve por el Teorema 1 y para prepararlo enunciamos dos proposiciones. Proposición 1. Sea la ecuación de Black Scholes (1). La transformación siguiente: 2 2 τ = ασ2σ ( t − t0 ) , ξ = xx0 , (11 a) 0 V ( t , x ) = Q ( τ , ξ ) exp{ (β − α β0 ) ln x + 2 + σ2 ( β − 1 )2 − α2 ( β0 − 1 )2 t } (11 b) convierte la ecuación (1) en la ecuación de tipo (10) con el factor exterior: 2 2 f ( t, x) = ασ2σ exp{ (β − α β0 ) ln x + 0 2 + σ2 ( β − 1 )2 − α2 ( β0 − 1 )2 t } para cualesquiera valores de las constantes: α, t0 , x0 (α 6= 0, x0 6= 0). la constante β está definida por (2 c) y β0 ≡ 12 − σr02 . Aquı́ 0 Las transformaciones (11) constituyen un grupo continuo con tres parámetros: la constante α corresponde a un cambio en la escala del tiempo con la variación simultánea de la coordenada x ; la constante t0 representa la libertad de elección del origen del tiempo y la constante x0 está ligada con la libertad de elección del precio inicial (notamos la imposición: x0 6= 0). Llamamos este grupo galileano G por analogı́a con el grupo correspondiente en la teorı́a de difusión. El grupo galileano G crea una relación de equivalencia sobre el conjunto de las soluciones de la ecuación (1). Además de este grupo, existe una transformación especial que tampoco cambia la estructura de la ecuación (1). Proposición 2. Sea la ecuación de Black Scholes (1). La transformación siguiente: 180 N. Sukhomlin τ = − σ21σ2 0 +β 1 t , ξ = exp − σln2xt , 2 τ , ξ) V ( t , x ) = Q (√ exp{ ( ln x2 σ+2 tβ0 ) t 2 2 ln x + σ ( β 2− 1 ) t + σ2r0σ2 1t } 0 (12 a) + (12 b) convierte la ecuación (1) en la ecuación de tipo (10) con el factor exterior: f (t, x) = + β ln x 2 1 √ exp{ ( ln x2 σ+2 tβ0 ) + σ02 σ 2 t2 t 2 2 + σ ( β 2− 1 ) t + σ2r0σ2 1t } . 0 Ambas proposiciones se comprueban fácilmente por la sustitución. En realidad las constantes en la fórmula (12 a) se pueden eliminar por una transformación del grupo galileano G: por ejemplo, usando la transformación (11), la ecuación (1) se puede reducir a otra de la misma estructura con σ0 = 1 y la constante r0 puede ser igual a cero o a una constante cualquiera. En este caso la transformación (12 a) se presenta por: xI = exp − lnt x , tI = − 1t . (12 c) La denotamos ν. Estudiamos ahora nlas potencias de ν: o 1 ln xI 2 II = x , tII = − t1I = t ; ν corresponde a x = exp − tI ν 3 corresponde a xIII = exp lnt x , tIII = − 1t ; ν 4 corresponde a xIV = x, tIV = t: transformación idéntica i. Concluimos que el conjunto ν, ν 2 , ν 3 , ν 4 = i constituye un grupo discreto que denotamos N . Teorema 1. Sea la ecuación de Black Scholes (1) con las constantes σ (σ 6= 0), r dadas. El grupo de equivalencia más amplio que admite la ecuación (1) es Γ = G ⊗ N donde G es el grupo galileano y N es el grupo discreto definidos arriba por las fórmulas (11) y (12). El teorema se verifica sin dificultad por la sustitución de la transformación (9) en la ecuación (1) y la imposición de la estructura (10). Notamos que el grupo galileano G (y en consecuencia el grupo Γ) es parametrizado por tres parámetros α, t0 , x0 (α 6= 0, x0 6= 0). Ası́ se crea una partición sobre el conjunto de todas las soluciones de la ecuación (1). Observamos que al mismo tiempo se crea una clasificación de las leyes de conservación. Es fácil verificar que el operador (3 a) se transforma por el elemento ν del grupo N en el operador (3 b) y viceversa, lo que significa que las soluciones (5) y (8) entran en la misma clase de equivalencia. Más exactamente, la aplicación de la transformación (9) en la forma (12) con el factor definido por la relación (12 b) resulta: 0 a− 1 B1 a = B2 ; 0 a− 1 B2 a = − B1 ; (13) La ecuación de Black Scholes 0 181 0 donde los operadores B1 B2 tienen las formas (3 a) y (3 b) escritas en las coordenadas τ, ξ (12 a) y con σ0 , β0 . Recordamos que los operadores B1 y B2 no conmutan: véase la formula (3 d); entonces es normal que se pongan en relación de equivalencia sólo por los elementos del grupo discreto N y no se puedan poner en equivalencia por los elementos del grupo continuo G. 3 Clasificación de los operadores de simetrı́a de la ecuación de Black Scholes hasta el tercer orden En nuestro articulo [13] hicimos la clasificación de los operadores de simetrı́a hasta tercer orden para la ecuación de Schrödinger libre. La misma clasificación relacionada con el grupo de equivalencia Γ del Teorema 1 se puede hacer para la ecuación de difusión (2 d) y en consecuencia para la ecuación de Black Scholes (1). Los resultados se presentan en el teorema siguiente. Teorema 2. Sea la ecuación de Black Scholes (1) con el operador A por ejemplo en la forma (3 e). Todos los operadores lineales diferenciales de hasta tercer orden que conmutan con A entran en una de las siguientes 6 clases de equivalencia y en 8 agrupaciones de clases de equivalencia: 1) Todos los operadores de primer orden constituyen una sola clase de equivalencia cuyo representante más sencillo es B1 (ó B2 ) definido por la fórmula (3 a). 2) Todos los operadores de segundo orden constituyen cinco clases de equivalencia cuyos representantes más sencillos son: a) B22 + B12 , (14 a) b) B22 − B12 , (14 b) c) B1 B2 + B2 B1 , (14 c) d) B12 + B2 , (14 d) e) B12 . (14 e) 3) Todos los operadores de tercer orden constituyen ocho agrupaciones de clases de equivalencia parametrizadas por tres o cuatro constantes arbitrarias ω , µ , ν , η y cuyos representantes más sencillos son: (15 a) 1. B23 + (B2 B12 + B12 B2 ) + ω B13 + µ B12 + ν B2 + η B1 , (15 b) 2. B23 − (B2 B12 + B12 B2 ) + ω B13 + µ B12 + ν B2 + η B1 , (15 c) 3. B23 + B13 + µ B12 + ν B2 + η B1 , 4. B23 − B13 + µ B12 + ν B2 + η B1 , (15 d) 5. B23 + µ B12 + ν B2 + η B1 , (15 e) 182 N. Sukhomlin 6. (B22 B1 + B1 B22 ) + B13 + µ B12 + ν B2 + η B1 , (15 f) 7. (B22 B1 + B1 B22 ) − B13 + µ B12 + ν B2 + η B1 , (15 g) 8. (B22 B1 + B1 B22 ) + µ B12 + ν B2 + η B1 . (15 h) La demostración del teorema similar para la ecuación de Schrodinger libre está hecha en nuestro artı́culo [13]. El Teorema 2 se comprueba de la misma manera. La idea de la demostración es la siguiente: se construye la forma cúbica de los operadores B1 , B2 , B3 de estructura más general. Luego se aplican las transformaciones del grupo Γ para simplificar el operador inicial. El hecho que cualquier operador de simetrı́a diferencial lineal de tercer orden de la ecuación de Black Scholes (1) tiene la estructura de esta forma cúbica es también nuevo. Notamos que el Teorema 2 también dice que existen 6 clases y 8 agrupaciones de clases de las leyes de conservación, cada una está definida por la relación (4 b) y las fórmulas (14) y (15). Como mencionamos arriba, cada operador de simetrı́a está ligado con una ley de conservación especı́fica. Además, a cada operador corresponde un conjunto de funciones propias que son las soluciones de la ecuación (1) y que constituyen una base en un espacio funcional. También cada operador de simetrı́a corresponde a un sistema privilegiado de coordenadas que permite separar las variables en la ecuación (1) y resolverla exactamente. Realizamos este programa en la sección siguiente. 4 Nuevas soluciones exactas de la ecuación de Black Scholes El Teorema 2 de la sección anterior nos permite abordar el problema de la resolución sistemática de la ecuación de Black Scholes (1). Algunas soluciones son muy conocidas como aquellas que presentamos en la sección 1; pero la mayorı́a de las soluciones que enumeramos abajo son nuevas. Recordamos que las soluciones con la simetrı́a dada las buscamos a partir del sistema de tipo (4). La solución (5) representa la solución más sencilla de la clase de soluciones equivalentes que admiten un operador de simetrı́a de primer orden. Cualquier solución de esta clase se puede construir al desarrollar la función (5) usando todos los elementos del grupo Γ del Teorema 1. Visto los resultados de la fórmula (13) podemos constatar que la función de Green (8) entra en la misma clase de equivalencia. En nuestro artı́culo [14] encontramos las soluciones de la ecuación de Schrödinger libre correspondientes a las cinco clases de operadores de segundo orden correspondientes a las fórmulas (14) arriba. Usando las relaciones de similitud entre esta última ecuación, ecuación de difusión (2 d) y la ecuación de Black 183 La ecuación de Black Scholes Scholes (1) podemos construir por el mismo procedimiento las soluciones de cada una de las cinco clases de equivalencia de la ecuación de Black Scholes. Todos estos resultados son nuevos. Conforme al Teorema 2 el conjunto de las soluciones de la ecuación (1) que verifican el sistema (4) con los operadores de simetrı́a de segundo orden se separa en 5 clases de equivalencia. Los operadores más sencillos de cada clase de equivalencia son enumerados en las fórmulas de (14 a) hasta (14 e). Pasemos ahora a la resolución del sistema (4) para cada una de estas cinco clases. a) Sea la clase de equivalencia definida por el operador (14 a): B = B22 + B12 = (σ 4 t2 + 1) B12 − 2 σ 2 t (ln x) B1 + ln2 x − σ 2 t . Es fácil verificar que la función siguiente cumple el sistema (4) y en consecuencia es la solución de la ecuación de Black Scholes: Vλ ( t , x ) = + β ln x − 2 Φ(ξ) exp { 2 (σ4σt2 t+ 1) ln2 x (σ 4 t2 + 1)1 / 4 λ σ2 2 2 2 arctg (σ t ) + 2 (β − 1 ) t } , 4 2 −1/2 ξ ≡ (σ t La función Φ(ξ) + 1) + (16) ln x . verifica la ecuación diferencial ordinaria siguiente: Φ 00 + ξ2 Φ = λ Φ , cuyas soluciones son las funciones del cilindro parabólico. Las soluciones correspondientes a la familia de soluciones (16) describen en la mecánica cuántica los estados llamados coherentes. b) Sea la clase definida por el operador (14 b): B = B22 − B12 = (σ 4 t2 − 1) B12 − 2 σ 2 t (ln x) B1 + ln2 x − σ 2 t . . En este caso la solución de la ecuación de Black Scholes se presenta en la forma: Vλ ( t , x ) = + β ln x + λ 2 Φ(ξ) | σ 4 t2 − 1| 2 2 exp { 2 (σ4σt2 t− 1) ln2 x + arcth (σ t ) + ξ ≡ 4 2 σ t σ2 2 (β − −1/2 − 1 1 )2 t } , (17) ln x . La función Φ ( ξ ) verifica la ecuación diferencial ordinaria de tipo de oscilador armónico en la mecánica: Φ00 − ξ 2 Φ = λ Φ . Las soluciones que se anulan al infinito se expresan por los polinomios de Tchebyshev - Hermite Hn ( ξ ); el espectro de los valores propios del operador mencionado es discreto: 184 N. Sukhomlin Φn ( ξ ) = Cn Hn ( ξ ) exp − ξ 2 / 2 , λn = − (2 n + 1) , n = 0, 1, 2, ... con las funciones Hn ( ξ ) que verifican la ecuación de Hermite: Hn00 − 2 ξ Hn0 + 2 n Hn = 0 . Como se conoce las funciones Φn ( ξ ) representan una base ortonormal en L2 . Las soluciones (17) se definen sobre un intervalo finito del tiempo y se pueden fácilmente adaptar al modelo de Black Scholes. c) Sea la clase de equivalencia definida por el operador (14 c): B = B2 B1 + B2 B1 = 2 σ 2 t B12 − 2 (ln x) B1 − 1. La solución de la ecuación de Black Scholes se presenta como: Vλ ( t , x ) = Φ ( ξ ) exp { 4 σ12 t ln2 x + 2 1 ln (σ 2 t ) + σ2 (β − 1 )2 t } , + β ln x − λ + 4 ξ ≡ ( σ 2 t )− 1 / 2 ln x , Φ 00 (18) − ( ξ2 / 4 ) Φ = ( λ / 2 ) Φ . Las funciones Φ ( ξ ) de la última ecuación como en el caso anterior se expresan por los polinomios de Tchebyshev - Hermite Hn ; el espectro de los valores propios del operador mencionado es también discreto: √ Φn ( ξ ) = Cn Hn ( ξ / 2) exp − ξ 2 / 4 , λn = − 2 n − 1 , n = 0, 1, 2, ... Finalmente la solución (18) en este caso se presenta como: √ n Vλ ( t , x ) = Cn t 2 Hn ( ξ / 2) exp { β ln x + σ2 2 (β − 1 )2 t } (19) Esta solución tiene una propiedad interesante: ella verifica una de las condiciones complementarias del modelo de Black Scholes ( si β > 0): x → 0+ ⇒ Vn ∼ xβ (ln x)n ⇒ limx→0+ ( Vn ) = limx→0+ ( const xβ ) = 0. Por otro lado constatamos que si x → ∞ ⇒ Vn ∼ xβ (ln x)n . Esto permite aproximar bastante bien la otra condición de frontera si β es pequeña y construir una serie de tipo exponencial usando las soluciones (19). Más exactamente para Cn = σ n : n 2 o P∞ (20) V ◦ (t, x) ≡ n=0 n1! Vn (t, x) = x1 + β exp σ2 (β − 1 )2 t 185 La ecuación de Black Scholes Esta función es el caso particular de la solución (5) para λ = 1. En la aproximación β ≈ 0 , β 6= 0 , la solución de la ecuación de Black Scholes que verifica las condiciones complementarias será la combinación lineal de (20) y de (19) para n = 0: V ( t , x ) = xβ exp n σ2 2 (β − 1 )2 ( t − T ) oh x e− σ2 2 ( t−T ) −K i . Precisamente la aproximación es en la presencia del factor xβ ≈ 1 si . β ≈ 0 . Por ejemplo, para . r = 0.05; σ = 0.317 ⇒ β = 0.002. d) Sea la clase de equivalencia definida por el operador (14 d): B = B12 + B2 . La solución de la ecuación de Black Scholes en este caso tiene la forma siguiente: Vλ ( t , n x) = o 2 6 3 2 Φ ( ξ ) exp β − σ2 t ln x − σ12t + σ2 (β − 1 )2 − λ t (21) ξ ≡ ln x + σ 4 t2 / 4 . La función Φ ( ξ ) verifica la ecuación de Airy: Φ00 − ξ Φ = λ Φ. e) La última clase de equivalencia de los operadores de segundo orden tiene como operador más sencillo (14 e): B = B12 . Las soluciones de la ecuación de Black Scholes con B = B12 para cualesquiera valores del parámetro λ son parecidas a las funciones (5) pero aquı́ dependen de dos constantes arbitrarias C , D (porque el operador de simetrı́a en este caso es de segundo orden): Vλ ( t , x ) = n √ √ o 2 ( C e λ ln x + D e− λ ln x ) exp β ln x + σ2 (β − 1 )2 − λ t (22) En conclusión notamos que se pueden construir otras soluciones de cada clase de equivalencia a partir de las soluciones mencionadas usando todos los elementos del grupo de equivalencia Γ del Teorema 1. Al aplicar, por ejemplo la transformación (12 c) del subgrupo discreto N a la última función (21), llegamos a nueva solución de la ecuación de Black Scholes (que queda sin embargo equivalente a la solución (22)): + D0 √ t n o √ λ + 2 λ ln x + (ln x + β σ 2 t)2 + 2 r σ 2 t2 C0 Vλ0 = √ exp + 2 σ2 t n t √ o 2 2 2 2 exp λ − 2 λ ln x + (ln2 xσ2+t β σ t) + 2 r σ t (23) Aquı́ no utilizamos las primas arriba de las variables. Observamos que si por ejemplo λ < 0, las soluciones (22) y (23) contienen las funciones senos y cosenos del ln x, lo que permite usar el desarrollo en la serie de Fourier para verificar las condiciones de frontera. Recordamos que nuestro enfoque es local y entonces el problema de condiciones de frontera necesita un paso más para su estudio. 186 N. Sukhomlin También la nueva solución de la ecuación de Black Scholes que pertenece a la clase de equivalencia definida por la solución (19) es: Vn0 ( t , x ) = Cn0 t− n+1 2 2 σ2 2 Hn ( ρ ) exp { 2lnσ2xt + β ln x + ρ ≡ √ −ln2xσ2 t . (β − 1 )2 t } , √ La unidad imaginaria − 1 en la expresión ρ no influye en el resultado porque los polinomios de numero par H2 k ( ρ ) contienen únicamente los términos con potencias pares de ρ y por lo tanto son reales. En los polinomios H2 k + 1 ( ρ ) todos los términos son de potencia impar y la unidad imaginaria se puede sacar como factor común, el que queda incluido en la constante C20 k + 1 que será en este caso también imaginaria. La solución ”clásica” de la ecuación de Black Scholes es la función siguiente (véase por ejemplo [2], p. 17): V ( t , x ) = x Φ ( θ ) − K e− r (T − t ) Φ ( ω ) (24) con la función de distribución normal estandar: Rz 2 √1 e− u / 2 d u , 2π −∞ ln x − (1 − β) σ 2 t + T σ 2 (1 − β) − ln K √ σ T −t Φ(z) ≡ θ ≡ ω ≡ ln x + β σ 2 t − (T σ 2 β + ln K ) √ σ T −t , , En realidad cada término de la fórmula (24) representa una solución de la ecuación de Black Scholes. Dichos términos tienen la simetrı́a superior: el operador de simetrı́a correspondiente es un operador integral. Observando que las funciones x , y e− r (T − t ) son las soluciones particulares de la ecuación de Black Scholes (1), constatamos que cada uno de los términos de la solución (24) represente un producto de dicha solución particular por la función Φ ( z ) que en consecuencia verifica la ecuación diferencial ordinaria: Φ00 + z Φ0 = 0 . La nueva solución de la ecuación de Black Scholes que es equivalente a (24) relacionada con el grupo discreto N es la función siguiente: V 0 ( t , x ) = V1 − V2 (25) donde cada término es también una solución de la ecuación de Black Scholes: n 2 o 2 2 2 b V1 ≡ Φ (√ν σ(t,2 tx) ) exp 2lnσ2xt + β + 1σ− ln x + (b2−σ21)t + r + σ 2β t , 2t ν (t, x) ≡ −ρT V1 ≡ Ke ln x + (1 − b) + [ T σ 2 (1 − b) − ln K] σ 2 t √ σ 2 t (T s2 σ 2 t + 1) 2 exp ((2b − 1) / 2 σ t) √ σ2 t , 2 Φ ( µ (t, x) ) exp{ 2lnσ2xt + 187 La ecuación de Black Scholes + β − b σ2 t ln x + µ(t, x) ≡ (b − 1)2 2 σ2 t + r + σ2 β 2 2 ln x − b − [ T σ 2 b + ln K] σ 2 t √ σ 2 t (T s2 σ 2 t + 1) t }, , Concluimos que la función (25) V 0 ( t , x ) = V1 − V2 es una solución de la ecuación de Black Scholes (1) para cualesquiera valores de las constantes K , T , s , ρ K > 0 , T > 0 , s > 0 , b ≡ 21 − sρ2 y la función Φ ( z ) es la función de distribución normal. Encontrar las soluciones exactas a partir de los operadores de tercer orden y de orden superior es más difı́cil porque sus órdenes son superiores al orden de la ecuación (1). Por ejemplo en nuestro artı́culo [15] encontramos tal solución de la ecuación de Schrödinger libre correspondiente a una subclase de la clase 5 de los operadores de tercer orden correspondiente a la fórmula (15 e). Esta solución se presenta como una serie de potencias con coeficientes dependientes del tiempo. Usando este resultado es fácil construir la nueva solución de ecuación de Black Scholes. Finalizamos al mencionar que el modelo estudiado se puede extrapolar en diferentes direcciones. Por ejemplo, es posible considerar la ecuación de Black Scholes como la ”proyección” de una ecuación de este tipo relacionada con varias variables { x1 , x2 , ... , xn } . También es posible considerar que las fluctuaciones aleatorias no son válidas para todas las variables xi : ası́ llegamos a una ecuación ultraparabólica. Otro modelo puede estudiar la influencia de la variación de los valores de unas opciones sobre otras, lo que nos lleva al sistema de ecuaciones ligadas que generalizan el modelo de Black Scholes. También es posible usar el paralelismo entre la mecánica cuántica y la mecánica clásica que pone en relación la ecuación de Schrödinger y la ecuación correspondiente de Hamilton Jacobi. En este sentido es posible también desarrollar el paralelismo entre la ecuación de Black Scholes y una ecuación diferencial no lineal de primer orden de tipo de Hamilton Jacobi. Este permitirá usar los métodos poderosos de la mecánica analı́tica en la teorı́a de Black Scholes. El autor agradece a los árbitros anónimos por las sugerencias interesantes y a Rodolfo Echarri y Alexander Shapovalov por las discusiones fructı́feras sobre el tema y al Departamento de Fı́sica de la Universidad Autónoma de Santo Domingo por el apoyo. Bibliografı́a 1. J. Stampfi, V. Goodman (2002), Matemáticas para las finanzas, Thomson, Australia. 188 N. Sukhomlin 2. H. Fontanals, R. Lacayo, J. Vives (2002), Alternative solutions of the Black Scholes equation, (http://www.ub.es/div2/recerca/documents/resum/e58.htm). 3. P. Poncet, R. Abgrall (2002), A few Multiresolution Schemes for the Black Scholes equation, (http://perso.wanadoo.fr/poncet/research/C-2000-Cemracs.pdf). 4. A. Charlemagne (2003), Classification of invariant solutions of the BlackScholes equation, (http://duck.cs.und.ac.za/˜banasiak/pooe.pdf). 5. D. Silverman (1999), Solution of the Black Scholes equation using the Green’s function of the Diffusion equation, (http://www.physics.uci.edu/˜silverma/bseqn/bs.pdf). 6. R. Almgren (2001), Solving the Black-Scholes Equation, (http://www.math.toronto.edu/almgren/finmath/pde-01/notes1.pdf). 7. C Wafo Soh, N H Ibragimov (1999), “Solution of the Cauchy Problem for the Black-Scholes Equation using its symmetries”, Proceedings of the International Conference at the Sophus Lie Conference Centre, Nordfjordeid, 30 June-5 July (Norway: Mars Publishers). (http://www.cam.wits.ac.za/staff/wafo.html). 8. V. Shapovalov (1980), Differential Equations, 16, pp. 1864 - 1874. 9. W. Miller, Jr. (1977), Symmetry and Separation of Variables, AddisonWesley Publishing Company, London. 10. L. V. Ovsiannikov (1982), Group analysis of differential equations, Boston, Academic Press. 11. P. Oliver (1996), Equivalence, Invariants and Symmetry, Cambridge. 12. M. Cohen de Lara (1995), “Geometric and symmetry properties of nondegenerate diffusion processes”, The Annals of Probability, Vol 25, pp. 1557 - 1604. 13. N. Sukhomlin, M. Arias (2004), “Estudio de simetrı́a y de posibilidades de la resolución exacta de las ecuaciones de Schrödinger y Hamilton - Jacobi para un sistema aislado, I. Clasificación de los operadores de simetrı́a de tercer orden” (en publicación). 14. N. Sukhomlin (2004), “Estudio de simetrı́a y de posibilidades de la resolución exacta de las ecuaciones de Schrödinger y Hamilton - Jacobi para un sistema aislado, II. Resolución exacta de las ecuaciones de Schrödinger y de Hamilton - Jacobi” (en publicación). La ecuación de Black Scholes 189 15. N. Sukhomlin, J. Álvarez, D. Pérez (2003), “Función de Green para una partı́cula cuasi relativista I. Partı́cula libre” (en publicación). Nikolay Sukhomlin Departamento de Fı́sica, Universidad Autónoma de Santo Domingo, República Dominicana Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 191 Sistemas de numeración, sistemas dinámicos substitutivos y fractales de Rauzy Vı́ctor F. Sirvent 1 Introducción En este trabajo se presenta una introducción a la representación geométrica de sistemas dinámicos substitutivos. Estas representaciones geométricas se basan en sistemas de numeración ad hoc asociados a la substitución. Y se obtienen unos conjuntos fractales, conocidos como fractales de Rauzy. El objetivo de este trabajo es mostrar como estos tres conceptos están relacionados. Se comienza con dos ejemplos representativos, el caso Fibonacci y el caso Tribonacci, donde se exponen las ideas principales que luego son usadas en el caso general, el cual se presenta en la última sección. Los sistemas dinámicos substitutivos o substituciones están muy ligados con la teorı́a de tilings, la cual no se expone aquı́. Para ello ver [71, 67, 66]. Tampoco se presentan aquı́ los aspectos relacionados con la teorı́a ergódica asociada a este tipo de sistemas dinámicos. 2 El caso Fibonacci Considere los números de Fibonacci fk+2 = fk+1 + fk con f0 = 1, f1 = 1. A cada número natural n se le puede representar de manera única como suma de números de Fibonacci, siempre que no haya dos números de Fibonacci consecutivos. Es decir: Proposición 2.1 ([76]) Dado n existe ni0 , . . . , nik tal que n = fni0 +· · ·+fnik con nij > nij−1 + nij−2 , con 2 ≤ j ≤ k. A esta representación de los números naturales se le llama representación de Zeckendorff. P Esto nos permite, escribir n = i≥0 i (n)fi donde (n) = 0 (n)1 (n) . . . es una sucesión infinita en {0, 1} tal que no contiene dos “1” consecutivos y su cola consiste de “0”. Consideremos la clausura de estas sucesiones en la topologı́a producto de {0, 1}N esto nos da el espacio: F = {a = a0 a1 . . . | ai · ai+1 = 0 ∀i}. 192 V. Sirvent Aquı́ · es el producto usual de números enteros. La relación de recurrencia de los números de Fibonacci está asociada a la √ ecuación polinómica x2 = x + 1. La cual tiene como raices λ = (1 + 5)/2, la razón dorada, y α = −1/λ. Proposición 2.2 Sea J = [−1, −1/α]. Entonces X { ai αi | a0 a1 . . . ∈ F} = J i≥0 P∞ Demostración: Como α es negativo, se tiene que 0 α2i = −1/α es la cota P∞ 2i+1 superior y 0 α = −1 la cota inferior, por lo que X ai αi | a0 a1 . . . ∈ F} ⊂ [−1, −1/α]. { i≥0 Por otro lado, considere las transformaciones h1 , h2 : J → J, h1 (x) = αx h2 (x) = α2 x + 1 Debido a que la unión de h1 (J), h2 (J) es J y sus interiores son disjuntos, a cada elemento x de J se le puede escribir de la forma: x = ∩n≥1 hx1 · · · hxn (J) para una cierta sucesión x1 x2 . . ., donde xi = 1 ó 2. Debido Pa las expresiones de h1 , h2 , el elemento de ∩n≥0 hx1 · · · hxn (J) es de la forma i≥0 ai αi , para un cierto a ∈ F. Más aún, si se definen f0 , f1 : J → J, f0 (x) = αx, al elemento x = P f1 (x) = αx + 1 ai αi , se le expresa de la forma x = ∩n≥0 fa0 · · · fan (J). Como h1 = f0 y h2 = f1 ◦ f0 , este hecho nos da la relación entre a y la sucesión x1 x2 · · · . A continuación se hará un paréntesis, en esta discusión, ya que se requiere introducir unos conceptos básicos de fractales. Definición 2.3 Un sistema iterativo de funciones o IFS (por sus siglas en inglés: iterated function system) consiste en un espacio métrico completo (X, d) junto con un conjunto finito de contracciones fi : X → X con constante de contracción 0 ≤ ci < 1, para i = 1, . . . , n. Se dice que el factor de contracción del IFS es c = max{ci | i = 1, . . . , n}. Fractales de Rauzy 193 0 0 1 Figura 1: Grafo Fibonacci Denotaremos por H(X) el conjunto formado por todos los subconjuntos compactos no vacı́os de X. Este espacio tiene una distancia natural, la métrica de Hausdorff: dH (A, B) = inf{δ | A ⊂ Bδ y B ⊂ Aδ } donde Aδ = {x ∈ X | d(x, A) ≤ δ para algún δ}. Si (X, d) es completo entonces (H(X), dH ) también es completo. Teorema 2.4 (Hutchinson) Sea {f1 , . . . , fn } un IFS con factor de contracción c. Entonces la transformación F : H(X) → H(X) definida por F (E) = n [ fi (E) i=1 para todo E ∈ H(X), es una contracción en (H(X), dH ) con factor c. Para la demostración del teorema véase [11, 20]. Definición 2.5 Al único punto fijo de la contracción del teorema 2.4 se le llama atractor del IFS. Este tipo de conjuntos fue introducido originalmente por Moran [35] y sin embargo su definición fue modificada posteriormente por Hutchinson [27]. En el caso que se presenta en la demostración de la Proposición 2.2, el par {h1 , h2 } forma un IFS y el intervalo J es su atractor. La relación entre las funciones hi y fi , nos permite presentar el IFS {h1 , h2 } de la siguiente manera: Considere el grafo dirigido, de la figura 1. Note que todos los elementos de F se obtienen como caminos infinitos en el grafo anterior. Como para cada elemento x de J existe un a ∈ F tal que x = ∩n≥0 fa0 · · · fan (J). 194 V. Sirvent El par {f0 , f1 } junto con el grafo dirigido, es un ejemplo de un GIFS, teniendo a J como atractor. Sea E = {1, . . . , k} y GE un grafo dirigido primitivo con etiquetas en E. Sea {h1 , . . . , hk } un IFS en un espacio métrico completo (X, d) y ΣGE = {a0 a1 . . . ∈ E N | a0 a1 . . . an es un camino en E ∀n}. Se define la aplicación π : ΣGE →X, donde π(a) es el único elemento de ∩i≥0 hai (X). El IFS {h1 , . . . , hk } junto con ΣGE se le denomina sistema iterativo de funciones controlado por el grafo dirigido o simplemente GIFS, por sus siglas en inglés graph-directed iterated function system. Al conjunto formado por la imagen de ΣGE bajo π, se le denomina el atractor del GIFS. En general, no todo atractor de un GIFS se puede presentar como el atractor de un IFS. En F se puede definir un sistema dinámico de la siguiente manera: cualquier elemento en F, cuya cola consiste en “0”, corresponde a un número natural, por lo tanto se puede definir su consecutivo. Esto induce por continuidad una transformación continua T en F. Al sistema dinámico (F, T ) se le denomina sistema ádico de Fibonacci. El cual es minimal, es decir toda órbita es densa en F. Sea la transformación ξ: F a −→ P J i 7−→ i≥0 ai α . La cual es sobreyectiva y continua. De la demostración anterior se tiene que ξ(a) = ∩n≥0 fa0 · · · fan (J). Más aún el siguiente diagrama conmuta T F −−−−→ ξy F ξ y (2-1) J −−−−→ J f donde f (x) = x + 1 (mod J). Al sistema simbólico (F, T ) se le asocia el sistema “geométrico” (J, f ), de manera tal que existe una estrecha relación entre la estructura de las órbitas de ambos sitemas. Como la transformación ξ es sobreyectiva, el sistema (F, T ) tiene una estructura de órbitas más rica que (J, f ). Se dice que el sistema dinámico (J, f ) es una realización geométrica del sistema ádico (F, T ). Esta dinámica tiene una estructura autosimilar. Nótese que F = F0 ∪ F10 donde F0 = {a ∈ F : a0 = 0} y F10 = {a ∈ F : a0 = 1, a1 = 0}. Lo cual se puede expresar de la forma: F0 = τ (F10 ) y F10 = T τ 2 (F), donde τ : F → F, τ (a0 a1 . . .) = 0a0 a1 . . .. Es decir F es el punto fijo del IFS: {τ, T τ 2 }. Esta Fractales de Rauzy 195 estructura se refleja en la dinámica. Sea T̃ la transformación inducida por T en F0 , es decir, T̃ (a) = T N (a) (a) donde N (a) = min{n : T n (a) ∈ F0 }. Como el conjunto F admite la partición F00 = τ (F0 ), F010 = T τ 2 (F0 ). Se tiene que T̃ es T en F010 y sobre F00 es igual a T 2 . Esta estructura autosimilar se traduce en el intervalo J de la siguente forma. Sea h : J → J definido por h(x) = αx y J0 = h(J), J10 = f h2 (J). Note que h = h1 , f h = h2 , donde h1 , h2 son las transformaciones definidas en la demostración de la proposición 2.2. Como se mencionó anteriormente el par {h, f h2 } forma un IFS, cuyo atractor es el intervalo J. Substitución de Fibonacci: Considere el alfabeto A = {a, b} y A∗ = ∪i≥0 Ai el conjunto de palabras finitas en dicho alfabeto. Sea la transformación ζ : A → A∗ dada por a → ab, b → a. La aplicación ζ induce una transformacion en A∗ , por juxtaposición de palabras: ζ(U V ) = ζ(U )ζ(V ) y esta a su vez induce otra transformación en AN . La cual se seguirá denotando por ζ. Esta transformación es la substitución de Fibonacci. Note que la longitud de la palabra ζ i (a) es igual al número de Fibonacci fi . Esta transformación tiene un único punto fijo: u = ζ ∞ (a) = abaababaaba . . . Sea σ el “shift” en AN : σ(v0 v1 v2 . . .) = v1 v2 . . ., donde v0 v1 v2 . . . ∈ AN . Se define Ω = {σ N (u) : N ∈ N}. El sistema (Ω, σ) se llama sistema dinámico asociado a la substitución ζ. Es fácil verificar que dicho sistema dinámico es minimal. Los sistemas dinámicos (Ω, σ) y (F, T ) son isomorfos. El isomorfismo viene dado por el siguiente hecho. Sea UN = u0 u1 . . . uN −1 , la palabra formada por los N primeros del punto fijo. Si la representación de Zeckendorff del Psı́mbolos L número N es j=0 j fj , para un L. Entonces se tiene UN = ζ L (δ(L )) · · · ζ(δ(1 ))δ(0 )) donde δ(0) = ∅, la palabra vacia y δ(1) = a. Por lo mencionado anteriormente se tiene que el sistema dinámico (J, f ) es una realización geométrica del sistema simbólico (Ω, σ). Se dice que el sistema dinámico simbólico (Σ, σ) se realiza geométricamente si existe un sistema dinámico (X, f ) donde X es una estructura geométrica, por ejemplo una variedad diferenciable, y una aplicación ψ : Σ → X continua y sobreyectiva tal que el siguiente diagrama conmute: σ Σ −−−−→ ψy Σ ψ y X −−−−→ X f (2-2) 196 V. Sirvent Al sistema (X, f ) se le llama una realización geométrica de (Σ, σ). El tener una realización geométrica de un sistema simbólico nos permite codificar las órbitas del sistema geométrico, de manera tal que el itinerario de las órbitas viene dado por el sistema simbólico. Veamos como la codificación de las órbitas del sistema (J, f ) viene dado por las sucesiones que se encuentran en Ω. Sea ν : J → {1, 2}, dada por ν(x) = i si x ∈ Ji , donde Ji = hi (J), para i = 1, 2. Aquı́ se considera a J, J1 , J2 , semiabiertos, cerrados a izquierda, para que ν esté bien definida. Los intervalos Ji son los intervalos de continuidad de f . El itinerario o codificación de la órbita (futura), bajo f , del punto x de acuerdo con esta partición viene dado por la sucesión {ν(f n (x))}n≥0 , la cual denotaremos por θ(x). Veamos que el itinerario de la órbita de x = 0, viene dado por u el punto fijo de la substitución. Sea fe la transformación inducida por f en J1 . Como J1 admite la partición dada por h(J1 ), h(J2 ), el itinerario común de todos los puntos de h(J1 ), bajo f , es “12”, mientras que bajo fe es “1”; y para h(J2 ) es “1” y “2” para f y fe respectivamente. Ası́ se tiene que la relación entre la codificación de la órbita de f y fe, en J1 , viene dada precisamente por la substitución ζ. Si ahora se continúa este proceso de inducción en h(J1 ), luego en h2 (J1 ) y ası́ sucesivamente, se tiene que en la etapa k-ésima el itinerario común de los puntos de hk (J1 ), bajo f , es ζ k+1 (1). Mientras que bajo la transformación inducida en hk (J), es “1”. En hk (J2 ) es ζ k+1 (2) y “2” para f y la transformación inducida, en hk (J), respectivamente. Ası́ la relación entre el itinerario de los puntos en hk (J), bajo f y la transformación inducida viene dada por ζ k . Como ∩k≥0 hk (J) = {0}, se tiene que θ(0) = ζ ∞ (1) = u. Esto nos permite tener el siguiente diagrama conmutativo: f J −−−−→ θy J yθ (2-3) Ω −−−−→ Ω σ Resulta ser que la transformación θ no es sobreyectiva, debido a la elección de intervalos semiabiertos en la partición de J. A cada elemento de J, su itinerario viene dado por un elemento de Ω. 3 El caso tribonacci y el fractal de Rauzy El caso tribonacci sigue las mismas ideas expuestas en la sección anterior, sin embargo hay ciertas diferencias, que se expondrán. Los números de tribonacci se obtienen de la relación de recurrencia: gk+3 = gk+2 +gk+1 +gk con g0 = 1, g1 = 2 y g2 = 4. De manera similar al caso Fibonacci, existe una representación de 197 Fractales de Rauzy 1 0.5 -1 -0.75 -0.5 -0.25 0.25 0.5 -0.5 Figura 2: El fractal de Rauzy y su descomposición autosimilar. Zeckendorff, asociada a esta familia de números. Lo cual nos permite representar P n = i≥0 i (n)gi , aquı́ (n) = 0 (n)1 (n) . . . es una sucesión infinita en {0, 1} tal que no contiene tres “1” consecutivos y su cola está formada por “0”. Ası́ obtenemos, la clausura de tales sucesiones: T = {a = a0 a1 . . . | ai · ai+1 · ai+2 = 0 ∀i}. En el espacio T se define una dinámica ádica T , siendo el sistema dinámico (T , T ) minimal. La ecuación asociada a esta relación de recurrencia es x3 = x2 + x + 1, la cual tiene como raı́z real λ y β, β como raı́ces complejas. Al conjunto X R={ ai β i | a0 a1 . . . ∈ T } i≥0 se le llama el Fractal de Rauzy. Este objeto geométrico fue introducido originalmente por G. Rauzy en [49]. El conjunto R es compacto, conexo, simplemente conexo [49]. Su frontera es fractal, con dimensión de Hausdorff no entera, la cual ha sido estudiada en [28, 57, 33]. De manera similar a la expuesto en la demostracion de la proposición 2.2, el fractal de Rauzy es el atractor del IFS, formado por las transformaciones {h1 , h2 , h3 }, las cuales están definidas en el plano complejo de la siguiente manera: h1 (z) = βz h2 (z) = β 2 z + 1 h3 (z) = β 3 z + β 2 + 1. 198 V. Sirvent 0 0 1 0 1 Figura 3: Grafo tribonacci Esto nos da la siguiente estructura autosimilar en R, sean R1 = h1 (R), R2 = h2 (R) y R3 = h3 (R). Estos conjuntos tienen interior disjuntos y su unión nos da todo R. Más adelante mostraremos la relevancia dinámica de esta descomposición autosimilar. Este IFS, se puede presentar como un GIFS. Considere el grafo dirigido, de la figura 3 Todos los elementos de T se obtienen como caminos infinitos en este grafo. Sean las transformaciones: f0 (z) = βz, f1 (z) = βz + 1. Como h1 = f0 , h2 = f1 f0 , h3 = f12 f0 , se tiene que el IFS {h1 , h2 , h3 } se obtiene del GIFS dado por el grafo anterior y las transformaciones {f0 , f1 } y su atractor es precisamente el fractal de Rauzy R. La dinámica ádica se realiza geométricamente de la siguiente manera. Sea ξR : T a −→ P R i 7−→ i≥0 ai β . Como en el caso Fibonacci, se tiene ξR (a) = ∩n≥0 fa0 · · · fan (R). Esta aplicación es sobreyectiva y continua, y genera el siguiente diagrama conmutativo: T T −−−−→ ξR y T ξ yR (3-4) R −−−−→ R F donde la transformación F intercambia tres subregiones autosimilares de R, descritas anteriormnente [49]. Obviamente esta transformación F no es continua. Fractales de Rauzy 199 Sin embargo, resulta ser que R es un dominio fundamental para el toro 2dimensional, T2 , y la transformación F se convierte en una translación definida por un vector con componentes racionalmente independientes [49], en el toro. Obteniendo de esta manera el siguiente diagrama conmutativo: T T −−−−→ ξc Ry T c yξR (3-5) T2 −−−−→ T2 b F b Donde ξc R y F , son las transformaciones que se obtienen de ξR y F , al tomar el cociente bajo el lattice que convierte a R en un dominio fundamental de T2 . Se pueden definir subconjuntos dinámicos de R, prohibiendo ciertas subpalabras finitas en T . En estos conjuntos se tiene una dinámica inducida. Las propiedades dinámicas y geométricas de estos sistemas han sido estudiadas en [54, 56, 61] Veamos ahora como esta dinámica está relacionada con substituciones. Substitución Tribonacci: Considere el alfabeto A = {a, b, c} y A∗ = ∪i≥0 Ai el conjunto de palabras finitas en dicho alfabeto. Sea la transformación ζ : A → A∗ dada por a → ab, b → ac, c → a. Como se explicó en el caso Fibonacci, esta transformacion induce otra en AN , la cual tiene un único punto fijo: u = ζ ∞ (a). A él se le asocia el sistema dinámico minimal (Ω, σ), donde Ω es la clausura bajo el “shift”, σ, del punto fijo u. Este sistema dinámico se relaciona con el sistema ádico de manera similar al caso Fibonacci. Teniendo que (Ω, σ) y (T , T ) son isomorfos. Por lo que (T2 , Fb) es una realización gemétrica de (Ω, σ). Por la construcción anterior si se codifica la órbita del origen bajo Fb, usando las regiones R1 , R2 , R3 , se obtiene u, el punto fijo de la substitución. Más aún el itinerario de la órbita de cada punto bajo Fb, usando la partición anterior nos da un elemento de Ω. k-bonacci substituciones: Las construcciones expuestas anteriormente para los caso Fibonacci y tribonacci se generalizan de manera inmediata para el caso k-bonacci. Los números k-bonacci son aquellos que se obtienen de la relación de recurrencia de grado k: gn+k = gn+k−1 + · · · + gn+1 + gn , para n ≥ 0, con gj = 2j para j = 0, . . . , k − 1. A ellos se le asocia el sistema ádico (T (k), T ), donde T (k) es, como antes, la clausura de las sucesiones de “0” y “1” asociada a la representación de Zeckendorf: T (k) = {a = a0 a1 . . . | k−1 Y j=0 ai+j = 0 ∀i}. 200 V. Sirvent Y también se les asocia las siguientes substituciones: 1 → 12 2 → 13 .. ζk : . k − 1 → 1k k → 1. El polinomio asociado la relación de recurrencia de k-bonacci es xk − xk−1 − · · · − x − 1. El cual tiene una única raı́z real mayor que 1, en valor absoluto, λ. En el caso k impar las otras raı́ces son β1 , β1 , . . . , βl , βl , en el caso k impar las raı́ces son β1 , β1 , . . . , βl , βl , ω donde las βj son complejas no reales y w real. Todos ellas tienen norma menor que 1. El fractal de Rauzy asociado a la substitucion ζk es el objeto en Cl ≈ R2l = k−1 R , si k es impar, o en Cl × R ≈ R2l+1 = Rk−1 , si k es par; definido por: X X X R(k) = {( ai β1i , . . . , ai βli , ai ω i ) | a ∈ T (k)}. i≥0 i≥0 i≥0 Este conjunto es compacto, conexo y es igual a la clausura de su interior [67]. También tiene una estructura autosimilar, que nos da una partición natural en k sub-regiones. El IFS que nos da esta estructura autosimilar, es una generalización inmediata del IFS, definido en el caso tribonacci. En R(k) se define una transformación que intercambia los k subregiones autosimilares. Más aún R(k) es un dominio fundamental para el toro (k − 1)dimensional, y la transformación de intercambio de subregiones se convierte en una traslación dada por un vector con componentes racionalmente independientes. Estas k regiones nos dan que la codificación de las órbitas de la translación vienen dadas por elementos del sistema dinámico asociado a ζk . 4 Caso general Sea A un alfabeto finito y ζ : A → A∗ una substitución. La cual induce una transformación en el espacio de sucesiones infinitas (hacia un lado) sobre A, tal como se explicó en las casos particulares estudiados anteriormente. Se está interesado en los puntos fijos de ζ o de ζ k para algún k. Estos siempre existen, cuando la longitud de la palabra ζ n (a) va a infinito, para todo a del alfabeto A, cuando n crece. Si se remueven del alfabeto los sı́mbolos que no aparecen en el punto fijo, se tiene que existe un sı́mbolo que se denotará por 1, tal que ζ(1) comience por 1. Bajo estas condiciones se tiene u un punto fijo de la substitución ζ, tal que u = ζ ∞ (1). A esta suscesión se le asocia el sistema Fractales de Rauzy 201 dinámico (Ω, σ) tal como se describió en los ejemplos anteriores. Este sistema dinámico es minimal si y sólo si para todo a ∈ A existe un k tal que ζ k (a) contiene el sı́mbolo 1. Un ejemplo de importancia histórica es la substitución de Thue-Morse: ζ: 0 → 01 1 → 10. Esta substitución tiene dos puntos fijos: ζ ∞ (0) = 01101001 . . . y ζ ∞ (1) = 10010110 . . .. Nótese que se obtiene una sucesión de la otra intercambiando 0 por 1 y viceversa. Esta sucesión ha aparecido en varias áreas de la matemática. Originalmente surgió en el año 1851 en [46], estudiando potencias de números, luego fue introducida por Thue [73] al estudiar sucesiones no periódicas y posteriormente por Morse [36] al estudiar flujos geodésicos sobre superficies de curvatura negativa. Existe una amplia bibliografı́a sobre esta substitución. A diferencia de los ejemplos estudiados en las secciones anteriormente. Esta substitución es de longitud constante, es decir, la longitud de la palabra imagen de cada sı́mbolo del alfabeto es la misma. A la substitución ζ se le asocia su matriz de incidencia M = M (ζ), donde sus elementos Mij es el número de veces que aparece el sı́mbolo i en ζ(j). Se dice que una matriz M es positiva si sus elementos son enteros nonegativos. M es primitiva si existe un número positivo k tal que M k es positiva. Teorema 4.1 (Perron-Frobenius) Sea M una matriz positiva primitiva. Entonces M admite un autovalor estrictamente positivo λ, tal que λ > |β| para cualquier otro autovalor β de M . El autovalor λ es simple. Más aún, existe un autovector estrictamente positivo que corresponde con λ. Al autovector λ y al correspondiente autovector positivo del teorema anterior se le conoce como autovalor y autovector de Perron-Frobenius, respectivamente. Se dice que la substitución ζ es primitiva si su matriz M = M (ζ) es primitiva. La substitución ζ es Pisot unimodular si | det(M )| = 1, el polinomio caracterı́stico de M es irreducible en Q y este tiene una raı́z real mayor que 1 y sus otras raı́ces tienen norma estrı́ctamente menor que 1. La raı́z mayor es el autovalor de Perron-Frobenius de la matriz M . Toda substitución de Pisot unimodular es primitiva [14]. La frecuencia con que aparecen los sı́mbolos en la sucesión viene dada por el autovector de Perron-Frobenius de la matriz de incidencia. Muchas otras propiedades métricas del sistema dinámico substitutivo, vienen del autovalor de Perron-Frobenius y su correspondiente autovector. Una propiedad importante de los sistemas dinámicos substitutivos es que 202 V. Sirvent son auto-inducidos, es decir el siguiente diagrama conmuta, Ω ζy σ −−−−→ Ω ζ y (4-6) ζ(Ω) −−−−→ ζ(Ω) σ e donde (Ω, σ) es el sistema que proviene de la substitución ζ, y σ e es la transformación inducida de σ en ζ(Ω), o sea σ e(v) = σ n(v) (v), donde n(v) es el tiempo de retorno de v en ζ(Ω). La transformación ζ : Ω → ζ(Ω) es continua y sobreyectiva. Esta propiedad de las substituciones induce una estructura autosimilar en el espacio Ω. 4.1 Sistemas de numeración y autómatas de Prefijos asociados a substituciones Sea ζ una substitución primitiva con un único punto fijo u = ζ ∞ (1) tal que u0 = 1. A estas substituciones se le puede asociar un sistema de numeración basado en el autómata de prefijos. Definición 4.2 Un autómata es una quı́ntupla (S, L, t, i, f ) donde S es el conjunto de estados, L las etiquetas, t : S × S → L la función de transición, i los estados iniciales y f los estados finales del autómata. Al autómata se representará por un grafo dirigido con etiquetas, donde los vértices están dados por S, las etiquetas por L, las transiciones por la función t. Se considerarán los caminos sobre el autómata que comiencen en los estados iniciales y terminen en los estados finales. En [18] se encuentra descrita la teorı́a general de autómatas. El autómata de prefijos de ζ se define en [50] de la siguiente manera: • El conjunto de los estados es el alfabeto A. • El conjunto de etiquetas está formado por los prefijos propios de las palabras obtenidas al aplicar ζ a cada elemento del alfabeto. Se admite la palabra vacı́a ∅ como prefijo propio. Este conjunto se denotará por Pref. • Transiciones: Si p, q son estados del autómata y W una palabra de Pref entonces existe una transición de p a q etiquetada por W , si y sólo si la palabra W q es prefijo de ζ(p). • El estado inicial es “1”. • Todos los estados son estados de salida o finales. Fractales de Rauzy 203 1 1 1 2 0 Figura 4: Autómata de prefijos asociado a la substitución de Fibonacci 0 1 1 2 0 1 0 3 Figura 5: Autómata de prefijos asociado a la substitución de Tribonacci 0 1 1 2 3 0 0 3 Figura 6: Autómata de prefijos asociado a la substitución 1 → 12, 2 → 13, 3→1 204 V. Sirvent Estos autómatas tienen la propiedad: Teorema 4.3 ([50]) Sea U un prefijo no vacı́o de u, el punto fijo de la substitución ζ. Entonces existe un único camino en el autómata de prefijos, comenzando por el estado 1 y etiquetado por (W (n), W (n − 1) · · · , W (0)) tal que W (n) 6= ∅, la palabra vacı́a, y U = ζ n (W (n))ζ n−1 (W (n − 1)) · · · W (0). Recı́procamente, a cualquiera de estos caminos le corresponde un prefijo de u, dado por la fórmula anterior. De acuerdo con este teorema, se puede escribir u0 . . . un−1 los primeros n sı́mbolos de u ası́: u0 . . . un−1 = ζ k (W (k))ζ k−1 (W (k − 1)) · · · W (0). Por lo tanto n = |ζ k (W (k))| + |ζ k−1 (W (k − 1))| + · · · + |W (0)| donde |W | denota la longitud de la palabra W . De esta forma se tiene un sistema de numeración basado en el autómata de prefijos. Como se vió en las secciones anteriores, si se toma la substitución de Fibonacci, el sistema de numeración que se obtiene es el sistema de Zeckendroff, similarmente en el caso k-bonacci. De manera análoga se puede definir el autómata de sufijos y se tiene el mismo sistema de numeración [50, 51]. En [17] se encuentra una versión general del Teorema 4.3 y en [22] un estudio general de sistemas de numeración basados en relaciones de recurrencia y en autómatas. Con los sistemas de numeración basados en substituciones se pueden definir operaciones binarias en los naturales que dan origen a semigrupos aritméticos que son representaciones de la estructura autosimilar de los sistemas dinámicos asociados a las substituciones, para detalles véase [55, 58]. Otra operación binaria en los naturales asociada a substituciones es la multiplicación de Fibonacci, la cual ha sido estudiada en [30, 7, 34]. En [21, 44] se pueden ver otros semigrupos aritméticos. 4.2 Sistemas ádicos El sistema dinámico (Ω, σ) asociado a la substitución ζ, admite una representación equivalente llamada sistema ádico. Sea + N = {a = a0 a1 . . . ∈ PrefZ | an . . . a0 es un camino en Aut para todo n ∈ Z+ } donde Aut es el autómata de prefijos de ζ. Como todos los caminos finitos en Aut corresponden a números naturales, se puede definir una transformación continua T en N , que es la extensión de la adición por 1 en los enteros. De esta forma se tiene el sistema dinámico (N , T ), el cual es llamado sistema ádico de ζ. Este sistema también es llamado odómetro o máquina de sumar. Para más detalles sobre sistemas ádicos véase [74, 24]. Toda substitución minimal es isomorfa a su transformación ádica ( [26]). Fractales de Rauzy 4.3 205 Representación geométrica de (Ω, σ) Sea A∗ el monoide generado sobre el alfabeto A donde está definida la substitución ζ, la cual satisface las propiedades requeridas en la sección anterior, y (G, +) un grupo topológico dotado de una distancia. Sea ∆ : A∗ → G una transformación tal que ∆(U V ) = ∆(U ) + ∆(V ) y que ∆(ζ n (U )) converge exponencialmente a cero. Sea an . . . a0 un camino finito en el autómata de prefijos de ζ. Por el teorema 4.3 existe W ∈ A∗ tal que W = ζ n (an ) · · · a0 por lo tanto ∆(W ) = ∆(ζ n (an )) + · · · + ∆(a0 ). Esto nos permite introducir la transformación: Φ : N → G, donde N es el conjunto P∞de donde esta definido el sistema ádico. La cual está definida ası́: Φ(a) = i=0 ∆(ζ i (ai )) se observa que no tiene problemas de definición por la propiedad de convergencia. Sea u = ζ(u) = Un σ n (u) se define la transformación δ : Ω → G de la siguiente manera δ(u) = ∆(Un ) + δ(σ n (u)). Como u = ζ ∞ (1) se define δ(u) = 0, por lo tanto δ(σ n (u)) = −∆(Un ). Sea v un elemento de Ω, se puede escribir v = v0 σ(v) por lo que δ(σ(v)) = δ(v) − ∆(v0 ). Por lo que podemos resumir que al shift σ en Ω le corresponde una translación en un número finito de pedazos, en G. La naturaleza del grupo (G, +) y de la aplicación ∆ depende del tipo de substitución, en particular de M = M (ζ) la matriz asociada a la substitución. Sea ζ una substitución de longitud constante, se define ∆(U ) = |U | la longitud de la palabra de U , es decir la distancia p-ádica, la cual tiene la propiedad ∆(ζ(U )) = p∆(U ), donde p es la longitud de la substitución. Por lo tanto Φ(a) = |a0 | + p|a1 | + · · · + pn |an | + · · · La dinámica del shift se realiza como una translación en −1 sobre los números p-ádicos. En el caso de la substitución de Thue-Morse, ésta se realiza como una translación en −1 sobre los números 2-ádicos [23]. En caso que ζ sea Pisot unitaria en un alfabeto de k elementos se toma G = Rk−1 y v1 r1 (U ) .. ∆(U ) = |U | ... − (4-7) , . vk−1 rk−1 (U ) donde (v1 , . . . , vk ) es el autovector positivo de Perron-Frobenius de la matriz M y ri (U ) es el número de veces que se encuentra el sı́mbolo i en la palabra U . Esta aplicación tiene la propiedad ∆(U V ) = ∆(U )+∆(V ) y ∆(ζ(U )) = B∆(U ) donde B es la restricción de la matriz B al autoespacio contractivo de M [49]. P Por lo que Φ(a) = i≥0 B i ∆(ai ). Esta suma converge ya que los autovalores de B están todos en el interior del cı́rculo unitario y los ai son finitos ya que son prefijos propios de la substitución. De esta manera δ(Ω) = { ∞ X i=0 B i ∆(ai ) | a ∈ N } 206 V. Sirvent 0.75 0.5 0.25 -1 -0.75 -0.5 -0.25 0.25 0.5 0.75 -0.25 -0.5 Figura 7: El fractal de Rauzy de la substitución 1 → 12, 2 → 3, 3 → 1. A este conjunto se le conoce como el Fractal de Rauzy asociado a la substitución ζ. Como se vió antes δ(σ(v)) = δ(v) − ∆(v 0) v1 = δ(v) − ... + ev0 vk donde ej = (0, . . . , 0) si j = k y en el caso j 6= k es el vector canónico en la dirección j-esima. Por lo que shift se puede realizar como una translación en k direcciones en Rk−1 , lo cual es un intercambio de k pedazos en Rk−1 . Más aún el conjunto δ(Ω) es un dominio fundamental del toro (k − 1)-dimensional y el shift se realiza como una translación sobre el toro, Tk−1 . [49, 70, 15]. La traslación viene dada por el vector (v1 , . . . , vk ), cuyas componentes son racionalmente independientes. Se puede cambiar la definición de ∆, cambiando coordenadas. Si ∆(U ) = |U |(w~1 + · · · + wk−1 ~ ) donde w~1 , . . . , wk−1 ~ es una base del espacio contractivo de M , se tiene que ∆(U V ) = ∆(U ) + ∆(V ) y ∆(ζ(U )) = A∆(U ), donde A es una matriz equivalente a B. Por lo tanto se puede escribir a la transformación Φ de la siguiente manera: P i i≥0 β1 ∆(ai ) .. Φ(a) = . P i β ∆(a ) i i≥0 l donde β1 , . . . , βl son los autovalores de norma menores que uno de la matriz M . En el ejemplo de la substitución tribonacci, esta es la construcción presentada en la sección anterior. 207 Fractales de Rauzy 1 0.5 -1 -0.5 0.5 1 1.5 -0.5 Figura 8: El fractal de Rauzy de la substitución 1 → 32, 2 → 1, 3 → 2. 1 0.5 -1 -0.5 0.5 1 -0.5 -1 Figura 9: El fractal de Rauzy de la substitución 1 → 12, 2 → 31, 3 → 1. 208 V. Sirvent Los fractales de Rauzy son conjuntos cerrados, de interior no vacı́o y coinciden con la clausura de su interior [67]. Por otro lado los fractales de Rauzy se pueden obtener como atractores de GIFS, donde el grafo asociado es el grafo del automata de prefijos donde los lados que unen vértices, se le ha dado la orientación opuesta. Para más detalles ver [26, 67]. Referencias [1] R. Adler, Symbolic dynamics and Markov Partition, Bull. Amer. Math. Soc., 35, (1998), 1-56. [2] V. Afraimovich, Pesin’s dimension for Poincaré recurrences, Chaos, 7 (1997), 12-20. [3] V. Afraimovich, Poincaré recurrences of couple subsystems in synchronized regimes, Taiwanese J. of Math. 3 (1999), 139-161. [4] V. Affraimovich, A. Maass and J. Urias, Symbolic dynamics for sticky sets in Hamiltonian systems, Nonlinearity, 13 (2000),617-637. [5] V. Afraimovich, J. Schmeling, E. Ugalde and J. Urias, Spectra of dimensions for Poincaré recurrences, Discrete and Continuous Dynamical Systems, 6, (2000), 901-914. [6] V. Afraimovich and G.M. Zaslavsky. Fractal and multifractal properties of exit times and Poincaré recurrences, Physical Review E 55 (1997), 5418-5426. [7] P. Arnoux, Some remarks about Fibonacci multiplication, Appl. Math. Lett. 2 (1989), 319-320. [8] P. Arnoux, Représentation géométrique des systèmes dynamiques symboliques, Habilitation, Université D’Aix-Marseille II, 1991. [9] P. Arnoux and S. Ito, Pisot substitutions and Rauzy fractals, Bull. Belg. Math. Soc. Simon Stevin 8 (2001), 181-207. [10] P. Arnoux and G. Rauzy, Représentation géométrique de suites de complexité 2n + 1, Bull. Soc. Math. France, 119, (1991), 199-215. [11] M.F. Barnsley, Fractals everywhere, Second Edition, Academic Press Professional, London, 1993. [12] P. Billingsley, Ergodic theory and information, Wiley, 1965, New York. [13] H. Bruin, Dimensions of recurrence times and minimal subshifts. Dynamical systems (Luminy-Marseille, 1998), 117–124, World Sci. Publishing, River Edge, NJ, 2000. Fractales de Rauzy 209 [14] V. Canterini and A. Siegel, Automate des préfixes-suffixes associé à une substitution primitive, J. Théor.. Nombres Bordeaux 13 (2001),353–369. [15] V. Canterini and A. Siegel, Geometric Representation of primitive substitution of Pisot type, Trans. Amer. Math. Soc, 353 (2001), 5121–5144 [16] F.M. Dekking, Recurrent Sets, Adv. Math. 44 (1982), 78-104. [17] J.M. Dumont et A. Thomas, Systèmes de numération et fonctions fractales relatifs aux substitutions, Theoretical Computer Science, 65 (1989),153-169. [18] S. Eilenberg, Automata, languages and machines, Academic Press, New York, 1974. [19] K. Falconer, The geometry of fractal sets, Cambridge University Press, 1985, Cambridge. [20] K. Falconer, Fractal Geometry -Mathematical foundations and applications, John Wiley & Sons, 1990, Chichester. [21] A.S. Fraenkel, H. Porta and K.B. Stolarsky, Some arithmetic semigroups, in Analytic Number Theory: Proceedings of a Conference in Honor of Paul T. Bateman, edited by B.C. Berndt et al., Birkhauser: Boston 1990, 255-264. [22] C. Frougny, Representations of numbers and finite automata, Math. Systems Theory, 25 (1992), 37-60. [23] W.H. Gottschalk, Substitution minimal sets, Trans. Amer. Math. Soc.,109, (1963), 467-491 [24] P.J. Grabner, P. Liardet and R. Tichy, Odometers and systems of numeration, Acta Arithmetica, 70 (1995), 103-123. [25] C. Holton and L. Zamboni, Geometric realization of substitutions, Bull. Soc. Math. France, 126 (1998), 149-179. [26] C. Holton and L. Zamboni, Directed graphs and substitutions. Theory Comput. Sys. 34 (2001), 545-564. [27] J.E. Hutchinson, Fractals and self-similarity, Indiana U. Math. J. 30 (1981), 713-747. [28] S. Ito and M. Kimura, On the Rauzy fractal, Japan J. Indust. Appl. Math. 8 (1991), 461-486. [29] D.E. Knuth, The art of computer programming, Vol 2, Seminumerical Algorithms, Addison–Wesley, Reading MA, 1981. [30] D.E. Knuth, Fibonacci multiplication, Appl. Math. Lett.,1 (1988), 57-60. [31] D. Lind and B. Marcus, An Introduction to Symbolic Dynamics and Coding, Cambridge University Press, Cambridge, UK, 1995. 210 V. Sirvent [32] R.D. Mauldin and S.C. Williams, Hausdorff dimension in graph directed constructions, Trans. of the Amer. Math. Soc. 309 (1988), 811-829. [33] A. Messaoudi, Frontière du fractal de Rauzy et système de numération complexe, Acta Arith. 95 (2000), 195-224. [34] A. Messaoudi, Tribonacci multiplication. Appl. Math. Lett. 15 (2002), no. 8, 981–985. [35] P.A.P. Moran, Aditive functions of intervals and Hausdorff measure. Proc. Cambridge Philos. Soc., 42, (1946), 15-23. [36] M. Morse, Recurrent geodesics on a surface of negative curvature, Trans. Amer. Math. Soc.,22, (1921),84-110. [37] M. Morse, Symbolic Dynamics, Lectures of 1937-38, Notes by Rufus Oldenburger, The Institute for Advanced Study, Princeton, New Jersey, 1966. [38] M. Morse and G. Hedlund, Symbolic dynamics, Amer. J. of Math., 60, (1938), 286-303. [39] M. Morse and G. Hedlund, Symbolic dynamics II: sturmian trajectories, Amer. J. of Math., 62, (1940), 1-42 [40] S. Ngai, V.F. Sirvent, J.J.P. Veerman and Y. Wang, 2-Reptiles in the Plane, Geometriae Dedicata, 82 (2000), 325-344. [41] V. Penné, B. Saussol and S. Vaienti, Dimensions for recurrence times: topological and dynamical properties, Discrete and Continuous Dynamical Systems, 5 (1999), 783-798. [42] C. Petronio, Thurston’s solitaire tilings of the plane. Rend. Istit. Mat. Univ. Trieste 26 (1994) 261–295. [43] Y.B. Pesin, Dimension Theory in Dynamical Systems: Contemporary Views and Applications. Chicago Lectures in Mathematics, The University Chicago Press (1997). [44] H. Porta and K.B. Stolarsky, Wythoff pairs as semigroup invariants, Advances in Math., 85 (1991), 69-82. [45] B. Praggastis, Numeration systems and Markov partitions from self-similar tilings, Trans. Amer. Math. Soc. 351 (1999), 3315–3349. [46] E. Prouhet, Mémoire sur quelques relations entre les puissances des nombres, C.R. Acad. Sci. Paris, 33, (1851), 31. [47] Pytheas Fogg Substitutions in Dynamics, Arithmetics and Combinatorics Editors: V. Berthé, S. Ferenczi, C. Mauduit, et al., Lecture Notes in Mathematics, Vol. 1794, Springer Verlag 2002 Fractales de Rauzy 211 [48] M. Queffélec, Substitution Dynamical Systems -Spectral Analysis, Lecture Notes in Mathematics, Vol 1294, Springer-Verlag, 1987, Berlin. [49] G. Rauzy, Nombres algébriques et substitutions, Bull. Soc. Math. France 110 (1982), 147-178. [50] G. Rauzy, Sequences Defined by Iterated Morphisms, in Sequences (Napoles/Positano, 1988), Edited by R.M. Capocelli, Springer, New York, 1990, 275-286. [51] G. Rauzy, Rotations sur les groupes, nombres algébriques et substitutions, Séminaire de théorie des nombres de Bordaux 21 (1988), 1-12. [52] G. Rauzy, Numbers and automata. Formal properties of finite automata and applications (Ramatuelle, 1988), 176-185, Lecture Notes in Comput. Sci., 386, Springer, Berlin, 1989. [53] V.F. Sirvent, Properties of Geometrical Realizations of Substitutions associated to a Family of Pisot Numbers, Ph.D. thesis, University of Warwick, 1993. [54] V.F. Sirvent, Relationships between the dynamical systems associated to the Rauzy substitutions, Theoret. Comput. Sci. 164 (1996), 41-57. [55] V.F. Sirvent, A semigroup associated with k-bonacci numbers with dynamic interpretation, The Fibonacci Quarterly, 35 (1997), 335-340. [56] V.F. Sirvent, On some dynamical subsets of the Rauzy Fractal, Theoret. Comput. Sci. 180 (1997), 363-370. [57] V.F. Sirvent, Identifications and dimension of the Rauzy Fractal, Fractals 5 (1997), 281-294. [58] V.F. Sirvent, Semigroups and the self-similar structure of the flipped tribonacci substitution, Applied Mathematics Letters, 12 (1999), 25-29. [59] V.F. Sirvent, Modelos geométricos asociados a substituciones, Trabajo de ascenso, Universidad Simón Bolı́var, 1998. [60] V.F. Sirvent, Geodesic laminations as geometric realizations of Pisot substitutions, Ergodic Theory Dynam. Systems (2000), 20, 1253-1266. [61] V.F. Sirvent, The common dynamics of the tribonacci substitutions, Bull. Belgian Math. Soc. 7, (2000), 571-582. [62] V.F. Sirvent, The Arnoux semi-conjugacy is Hölder continuous, Journal of Mathematical Analysis and Applications (2001), 259, 357-367. [63] V.F. Sirvent, Spectra of recurrence dimension for adic systems. Stochastics and Dynamics, 2 (2002), 599-608. 212 V. Sirvent [64] V.F. Sirvent, Geodesic laminations as geometric realizations of Arnoux-Rauzy sequences, Bull. Belg. Math. Soc. Simon Stevin, 10 (2003), 221-229. [65] V.F. Sirvent, Hilbert’s Space Filling Curves and Geodesic Laminations, Mathematical Physics Electronic Journal, 9 (2003) [66] V.F Sirvent and B. Solomyak, Pure Discrete Spectrum for One-dimensional Substitution Systems of Pisot Type . Canad. Math. Bull., 45 (2002), 697-710. [67] V.F. Sirvent and Y. Wang, Self-Affine Tiling Via Substitution Dynamical Systems and Rauzy Fractals. Pacific Journal of Mathematics, 206 (2002), 465-485. [68] B. Solomyak, A dynamical system with a discrete spectrum (Russian), Uspekhi Mat. Nauk 41 (1986), 209-210. English translation: Russian Math. Surveys 41 (1986), 219-220. [69] B. Solomyak, Substitutions, adic transformations, and beta-expansions, Symbolic dynamics and its applications(New Haven, CT, 1991), 361-372, Contemp. Math., 135, AMS, Providence, 1992. [70] B. Solomyak, On the spectral theory of adic transformations, Advances in Soviet Methematics, 9 (1992), 217-230. [71] B. Solomyak, Dynamics of self-similar tilings, Ergodic Theory Dynam. Systems, 17, (1997), no. 3, 695–738. [72] W. Thurston, Groups, tilings, and finite state automata, AMS Colloquium Lecture Notes, unpublished, 1889. [73] A. Thue, Uber unendliche Zeichenreihen (1906), Selected mathematical paers of Axel Thue, Universitetsforlaget, 1977. [74] A.M. Vershik, Uniform algebraic approximation of shift and multiplication operators, Soviet. Math. Dokl., 24 (1981), 97-100. [75] A.M. Vershik, Arithmetic Isomorphism of Hyperbolic Toral Automorphisms and Sofic Shifts, UDC 519.56, 517.919. [76] E. Zeckendorf, Représentation des nombres naturels par une somme des nombres de Fibonacci ou de nombres de Lucas, Bull. Soc. Roy. Sci. Liège 3-4, 1972, 179-182. Vı́ctor Sirvent Departamento de Matemáticas, Universidad Simón Bolı́var, Apartado 89000, Caracas 1086-A, Venezuela. sirvent@ma.usb.ve Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 213 ENSAYO Determinismo, indeterminismo y la flecha del tiempo en la ciencia contemporánea Daniel A. Morales 1 Introducción La ciencia ha sido muy efectiva en su afán de entender el universo y la posición del hombre en éste. Lo increı́ble es que podamos lograr esto sin movernos prácticamente de nuestro propio planeta. Nuestro principal instrumento para lograr esta proeza es la mente humana. El entender cómo la mente es capaz de establecer ese vı́nculo entre el comportamiento del mundo exterior y nuestros conceptos es uno de los grandes retos futuros de la ciencia. Desde el punto de vista filosófico este problema está relacionado con las ideas de realismo e idealismo que discutiremos más adelante. Estas ideas filosóficas también se hacen evidentes en las teorı́as actuales de la ciencia. Comenzaremos discutiendo algunas nociones fundamentales para el resto del ensayo. En primer lugar, ¿qué significan las ideas de complejidad y de simplicidad? Estas son nociones fundamentales en la ciencia. Podemos preguntarnos ¿qué es más complejo, un insecto o un ser humano?, o ¿qué es más complejo, un ser humano o el universo como un todo? Los logros antiguos y recientes de la ciencia demuestran que mientras que podemos entender el universo como un todo, se nos dificulta entender los aspectos más básicos del comportamiento humano. De manera que lo más importante para considerar un sistema como simple o complejo no puede ser solamente el número de partı́culas que lo componen. Esta diferencia ha sido expuesta elocuentemente por uno de los pensadores actuales más importantes como Murray Gell-Mann en su libro el Quark y el Jaguar [15]: ¿qué es más simple un quark, la partı́cula última constituyente de la materia, o un jaguar? ¿Podemos cuantificar las nociones de simplicidad y de complejidad, de tal manera que podamos afirmar inequı́vocamente que un jaguar es más complejo que un quark, o a la inversa? La fı́sica hasta ahora ha tratado esencialmente con sistemas simples, la razón es que los sistemas simples pueden ser estudiados más fácilmente usando la matemática. C.N. Yang, uno de los fı́sicos teóricos más famosos del siglo XX apunta que [38]: Mientras más simple es el problema, es más seguro que el análisis esté más cercano a alguna estructura matemática básica. 214 D. A. Morales Además, a la fı́sica le interesa los aspectos esenciales del universo y no los detalles. Esta manera de atacar los problemas ha sido muy fructı́fera y la fı́sica actual puede mostrar muy orgullosamente un conjunto de leyes de la naturaleza. En última instancia estas leyes se representan matemáticamente y no verbalmente. Aunque, al final cuando comunicamos estas leyes a los miembros de “la otra cultura” (las humanidades) como la llamó C.P. Snow (1905-1980) [29], debemos hacerlo verbalmente o por escrito. Muchos aceptan que una ciencia es más fundamental en la medida en que sea más matematizable, afirmación ésta que podrı́amos designar como el sueño pitagórico o la“falacia jonia” como lo llama Isaiah Berlin (1909-1997), asociando esta idea con los filósofos presocráticos y la afirmación de que el mundo es ordenado y que puede ser explicado por leyes matemáticas que rigen el comportamiento de simples entidades [19]. De todas las ciencias naturales es la fı́sica la que más se acerca a esta premisa. El lenguaje matemático es el instrumento más poderoso de que dispone el hombre para entender el universo en el que vive. Albert Einstein (1879-1955) en su libro Mi Visión del Mundo escribe [13]: Según nuestra experiencia estamos autorizados a pensar que la Naturaleza es la realización de lo matemáticamente más simple. Creo que a través de una construcción matemática pura es posible hallar los conceptos y las relaciones que iluminen una comprensión de la Naturaleza. Los conceptos usables matemáticamente pueden estar próximos a la experiencia, pero en ningún caso pueden deducirse de ella. Está claro que la experiencia es el único criterio que tiene la Fı́sica para determinar la utilidad de una construcción matemática. Pero el principio creativo se encuentra en realidad en la matemática. De algún modo creo que es cierto que a través del pensamiento puede comprenderse la realidad, tal como lo soñaron los antiguos. El éxito que ha tenido la fı́sica en entender el universo usando la matemática es una evidencia de lo que Eugene Wigner (1902-1995) designó como la irracional efectividad de la matemática en las ciencias naturales [36]: El milagro de lo apropiado del lenguaje matemático para la formulación de las leyes de la fı́sica es un regalo maravilloso que no entendemos ni merecemos. La complejidad de la existencia y del conocimiento humano ha traı́do como consecuencia la creación de parcelas del conocimiento. Esta parcelación ha provocado el aislamiento entre las diferentes ramas del saber. Por esta separación y jerarquización del conocimiento ya no es posible para una sola persona poseer y estar al tanto de todo lo que ocurre en las diversas ramas del conocimiento. Pero puede ser que esta jerarquización sea simplemente ilusoria: a la naturaleza no le importa como el hombre ha clasificado el conocimiento. Determinismo, indeterminismo y la flecha del tiempo 215 Para tratar de entender la jerarquı́a del conocimiento han surgido dos corrientes filosóficas: el reduccionismo y la emergencia. ¿Puede la sociologı́a o la sicologı́a ser reducida a las ciencias fı́sicas? En general, ¿puede una rama del conocimiento considerada como poco matematizada ser reducida a las leyes de otra más matematizada?, o, por el contrario, existen leyes emergentes, es decir leyes presentes en la rama inferior de la jerarquı́a que nunca van a ser obtenidas como consecuencia de las leyes presentes en las ramas superiores de la jerarquı́a? ¿Son estas leyes emergentes consecuencia de la complejidad de los sistemas con los que trabaja la rama inferior? Otro aspecto relacionado con la discusión anterior lo constituye la noción de evolución. El pasaje de un organismo simple a uno complejo es una transformación en el tiempo que es irreversible, es decir, no observamos el caso contrario. Por otra parte, nuestra vida transcurre del nacimiento a la muerte de manera irremediable y nunca observamos una reversión de este hecho. Si tiramos un vaso de vidrio al piso éste se romperá en muchos pedazos y nunca observamos que el vaso de manera espontánea se reconstruya a sı́ mismo. Si nosotros miramos una pelı́cula proyectada al revés observamos claramente que el transcurrir de las secuencias no es natural. En otras palabras, los fenómenos macroscópicos que observamos revelan claramente una flecha del tiempo, dirigida del pasado hacia el futuro [27,28]. Sin embargo, las leyes de la fı́sica son reversibles en el tiempo. Las ecuaciones matemáticas que expresan las leyes fı́sicas no cambian cuando el parámetro tiempo t presente en estas ecuaciones es sustituido por el parámetro menos tiempo -t. Esto significa que las ecuaciones fundamentales de la fı́sica no distinguen entre el pasado y el futuro. Nos encontramos entonces ante una paradoja. Si consideramos a las leyes fı́sicas como una sı́ntesis del comportamiento del universo, entonces porqué estas leyes son indiferentes al sentido del tiempo, mientras que nuestra apreciación de los fenómenos naturales diariamente nos dice que existe claramente una flecha del tiempo. Los fenómenos observados en nuestro universo, sea en quı́mica, geologı́a, biologı́a, sicologı́a o sociologı́a muestran una dirección preferencial en su dinámica, una flecha del tiempo. Ahora, ¿cómo puede surgir una flecha del tiempo de ecuaciones completamente simétricas? Este problema es conocido como la paradoja temporal. Fue identificado en el siglo XIX por el fı́sico vienés Ludwig Boltzmann (1844-1906) al tratar de formular para la fı́sica una teorı́a de la evolución de la misma manera como Charles Darwin (1809-1882) lo habı́a hecho para la biologı́a. Sin embargo los intentos de Boltzmann tuvieron que luchar contra las leyes de Newton, el paradigma de determinismo y objetividad en la fı́sica. Posteriormente, la flecha del tiempo fue relegada al terreno de la fenomenologı́a: se acepta que la flecha del tiempo es consecuencia de la incapacidad de la mente humana para percibir la totalidad de una sola vez, de manera que la flecha del tiempo aparece como consecuencia de las aproximaciones que nuestra mente introduce en la descripción 216 D. A. Morales de la naturaleza. Sin embargo, hay varios intentos recientes para formular leyes del movimiento que describan la dinámica de procesos irreversibles en el tiempo [26]. Conectado al problema de la existencia o no de una flecha del tiempo real está la pregunta de sı́ nuestro futuro está determinado por nuestro momento presente o, si por el contrario, no hay forma de predecir el futuro a partir del presente. El sentido común nos indica que hay algo de verdad en esta premisa: si cometemos un acto antisocial ahora, es bastante probable que en el futuro paremos en la cárcel. Pero, si esto fuera ası́ en general, ¿podrı́amos predecir el resultado al girar una ruleta, simplemente mirando como el crupier tira la pelotita? A comienzos del siglo XX el gran filósofo de la ciencia Karl Popper (19021994) escribió [25]: El sentido común nos inclina, por una parte, a asegurar que cada evento es causado por algunos eventos precedentes, de manera que cada evento puede ser explicado o predicho. . . . Por otra parte. . . el sentido común atribuye a las personas maduras y sanas. . . la habilidad para escoger libremente entre posibilidades alternativas de actuación. Los aspectos delineados anteriormente son sólo algunos de los problemas fundamentales a los que se enfrenta la ciencia actual. He querido englobar todos los problemas anteriores bajo el tema del determinismo e indeterminismo y la flecha del tiempo en la ciencia contemporánea. Estos aspectos han estado muy interrelacionados en las culturas humanas: ¿poseo libre albedrı́o para seleccionar mi futuro o por el contrario cualquier cosa que haga no será capaz de cambiar mi futuro que ya ha sido preestablecido desde mi nacimiento? Esta discusión también está conectada con la llamada ciencia del caos, muy de moda en la actualidad. Queremos ahora discutir estos aspectos con mayor profundidad. 2 Los griegos y el tiempo Los problemas discutidos anteriormente no son nuevos, en el sentido de que preguntas similares ya se la hacı́an filósofos de la antigüedad. En particular quiero empezar discutiendo estas nociones en los griegos. El gran problema de la filosofı́a griega era el problema del ser y el devenir: de qué estaban formadas las diversas cosas que observamos a nuestro alrededor y si nuestra noción del pasaje del tiempo era real o tan sólo una ilusión o, en otras palabras, el problema fundamental era la naturaleza de la materia y del tiempo.Diversas teorı́as exponı́an que las cosas estaban formadas por uno o todos de cuatro elementos: agua, aire, fuego o tierra, y que fue la unión de estos cuatro elementos en diferentes proporciones y en diferentes organizaciones lo que dio origen a nuestro Determinismo, indeterminismo y la flecha del tiempo 217 universo. Asociado a la composición de las cosas estaba la noción de devenir, el decaimiento y muerte de las cosas. Filósofos como Heráclito (540-475 a.C) [18] sostenı́an que lo real era lo que se percibı́a por medio de los sentidos y estos nos indicaban que las cosas cambiaban, se transformaban: A los que se bañan en los mismos rı́os, aguas distintas cada vez fluyen, y las almas son exhaladas de la humedad. Mientras que filósofos como Parménides (515-450 a.C) [18] sostenı́an que nuestros sentidos nos engañan y nos dan una idea ilusoria del devenir. Lo que es real es lo que es permanente, inmanente y que no cambia; el cambio es ilusorio: Y del camino ya sólo queda un solo relato: que es. Y para éste hay muchı́simas señales de que lo que es no engendrado e imperecedero. Pues es integro, inmóvil e infinito ni fue ni será, pues es ahora todo al mismo tiempo, uno solo, continuo. Albert Einstein sostenı́a que el paso del tiempo era tan sólo una ilusión, razón por la cual Popper solı́a llamarlo “Parménides”. Entre los documentos más importantes que tenemos sobre las ideas filosóficas sobre el tiempo y la irreversibilidad son las cartas que Einstein intercambió con su amigo de toda la vida Michele Besso. Besso siempre insistı́a en interrogar a Einstein sobre el problema del tiempo, la irreversibilidad y su conexión con las leyes de la fı́sica. Einstein le respondı́a una y otra vez que la irreversibilidad era una ilusión, una impresión suscitada por unas condiciones iniciales improbables. No hay irreversibilidad en las leyes fundamentales de la fı́sica. Debes aceptar la idea de que el tiempo es subjetivo, con su insistencia sobre el “ahora” no debe tener ninguna significación objetiva. Cuando Besso muere, Einstein le escribe a la hermana e hijos de éste [12]: Michele se me ha anticipado en dejar este mundo extraño. Esto nada significa. Para nosotros, fı́sicos creyentes, la distinción entre pasado, presente y futuro es solo una ilusión, por persistente que ésta sea. En esta búsqueda por la composición fundamental de la materia, la idea más ingeniosa y que parcialmente encuentra un asidero experimental en nuestra ciencia actual, es aquella expuesta por Demócrito (460-371 a.C) y Leucipo (430 a.C), de que todo lo existente (el alma incluida) puede concebirse como formada por entidades microscópicas, indivisibles, llamadas átomos y el vacı́o. Estas ideas son expuestas posteriormente de manera elocuente e ilustrativa en el gran poema de la antigüedad “De rerum natura” (De la naturaleza de las cosas) del gran poeta latino Tito Lucrecio Caro (95-55 a.C) [37]. Otro filósofo de la escuela atomı́stica cuyas ideas quiero discutir en relación con la flecha del 218 D. A. Morales tiempo es Epicuro (341-270 a.C). Éste, como representante de la escuela atomista, aceptaba la existencia de los átomos y el vacı́o. Pero esta escuela también asumı́a que los átomos se movı́an en trayectorias rectas y paralelas, a lo cual Epicuro se oponı́a. ¿Cómo se podı́a explicar la existencia de la diversidad en nuestro mundo si no se producı́an choques entre los átomos?¿Cómo se puede explicar el libre albedrı́o de los seres humanos en un mundo completamente determinı́stico y sin azar? Para resolver este dilema Epicuro introduce la idea del clinamen (declinación): las trayectorias de los átomos no son siempre paralelas sino que algunas veces se desvı́an de estas trayectorias y chocan produciendo la gran diversidad de cosas que observamos en nuestro mundo. Como lo expone Lucrecio en su De rerum natura [37]: En momentos inciertos y en lugares inciertos, ellos (los átomos) se desvı́an ligeramente de sus cursos, justamente lo suficiente como para que consideremos que han cambiado su dirección. Sin embargo, Epicuro no proporciona ningún mecanismo por medio del cual el clinamen actúa. Ası́, arribamos a los dos más grandes pensadores de la antigüedad, Platón (427-347 a.C) [23] y Aristóteles (384-322 a.C) [1] cuyas visiones filosóficas sobre el universo siguen vigentes y son punto de discusión en las teorı́as más actuales de la fı́sica.Platón sostenı́a que el mundo que observamos no representa sino una imagen imperfecta de un mundo más perfecto que es el mundo de las ideas inmanentes. En ese mundo se encuentran presentes en estado latente todas las realidades posibles que se pueden presentar en el universo, los arquetipos de las cosas visibles. Aristóteles, por el contrario, sostenı́a que la realidad es el mundo que observamos, lo que es real es el devenir, la transformación de las cosas, todo lo que observamos con nuestros sentidos. No podemos pensar como real otra cosa que no sea lo que observamos a nuestro alrededor. Un concepto importante en Aristóteles es el de potencia y acto. Potencia es la posibilidad latente que tiene un cuerpo para transformarse en otro, en acto, en realidad. Estas ideas filosóficas de Platón y Aristóteles han sido asociadas a los puntos de vista del pájaro y la rana. El pájaro por su capacidad de volar tiene una visión más amplia de la realidad y puede tener acceso a realidades que la rana no tiene. La rana, por el contrario, al estar condicionada a moverse y tener acceso a una realidad más limitada que el pájaro no admite como real nada a lo que no pueda tener acceso. En la actualidad ambos puntos de vista han sido asociados con las visiones de muchos teóricosy la de los experimentales . Los puntos de vista de Platón y Aristóteles nos han acompañado aún en la ciencia actual como veremos más adelante. Determinismo, indeterminismo y la flecha del tiempo 3 219 El tiempo y el determinismo Se considera que la ciencia contemporánea, basada en el llamado método cientı́fico, comienza con las ideas de Galileo (1564-1642), Kepler (1571-1630) y Newton (1642-1727). Con Newton se origina la verdadera revolución cientı́fica. Newton establece los principios fı́sico-matemáticos que nos permiten entender el movimiento de los cuerpos: sus tres leyes de la mecánica. Estas leyes constituyen el núcleo central de lo que se conoce como mecánica clásica, el cuerpo de teorı́as desarrolladas por los fı́sicos desde mediados del siglo XVII hasta finales del siglo XIX. La premisa fundamental de la mecánica clásica es que la materia consiste de un conjunto de partı́culas con masa y carga y que las posiciones instantáneas y velocidades de esas partı́culas se pueden determinar experimentalmente con precisión arbitraria. En este sentido, uno asocia con los sistemas fı́sicos un conjunto de variables dinámicas que poseen en cada instante valores bien definidosque determinan el estado del sistema. La evolución futura del sistema queda completamente definida dando los valores de estas variables en el estado presente. La evolución en el tiempo de las variables que caracterizan al estado del sistema se determina entonces resolviendo un conjunto de ecuaciones de movimiento. La discusión anterior nos permite formular una caracterı́stica fundamental de la mecánica clásica: dada la función de fuerza para un sistema fı́sico, el estado mecánico del sistema en cualquier otro instante estará completa y unı́vocamente especificado o determinado por el estado mecánico a algún instante inicial arbitrario. Es esta caracterı́stica de las ecuaciones de movimiento la que define a la mecánica clásica como una teorı́a determinista. Esta caracterı́stica aparece reflejada en un pasaje de Pierre Simon Laplace (1749-1827) muy citado [20]: Debemos considerar el estado presente del universo como una consecuencia de su estado previo y como la causa del estado que seguirá. Una inteligencia que conozca todas las fuerzas que actúan en la naturaleza en un instante dado ası́ como también las posiciones momentáneas de todas las cosas en el universo, serı́a capaz de comprender en una sola fórmula los movimientos de los cuerpos más grandes como también los de los átomos más ligeros en el mundo, con tal de que su intelecto fuera lo suficientemente poderoso para someter todos los datos al análisis; para ella nada serı́a incierto, tanto el futuro como el pasado estarı́an presentes simultáneamente ante sus ojos. La perfección que la mente humana ha sido capaz de darle a la astronomı́a proporciona una indicación de tal inteligencia. Descubrimientos en mecánica y geometrı́a, acoplados con aquellos en gravitación universal, han traı́do a la mente dentro del alcance de comprender en la misma fórmula analı́tica el estado pasado y futuro del sistema del mundo. Todos los esfuerzos de la mente en la 220 D. A. Morales búsqueda de la verdad tienden a aproximarnos a la inteligencia que hemos imaginado, aunque ella (la mente) permanecerá infinitamente remota de tal inteligencia. La opinión anterior está muy ligada al concepto de tiempo. ¿Está el futuro escrito o en continua construcción?, ¿están nuestros actos determinados desde el principio o poseemos libre albedrı́o para escoger nuestro futuro? 4 Indeterminismo, probabilidad y mecánica cuántica Durante el siglo XX aparecen dos grandes teorı́as de la fı́sica: la teorı́a de la relatividad y la mecánica cuántica. La teorı́a de la relatividad trata con fenómenos que se dan a altas velocidades mientras que la mecánica cuántica trata con el comportamiento de los entes microscópicos que constituyen la materia. Aquı́ nos concentraremos en las ideas fundamentales de la mecánica cuántica. Experimentos que se hicieron al final del siglo XIX y en el primer cuarto del siglo XX indicaban que la mecánica clásica no era aplicable a los átomos. El comportamiento del mundo microscópico era tal que ameritaba la deducción de nuevas leyes a ese nivel. El desarrollo fundamental lo realizaron, entre otros, N. Bohr (1885-1962), W. Heisenberg (1901-1976), L. de Broglie (1892-1987) y E. Schrödinger (1887-1961). Heisenberg desarrolló su mecánica de matrices dentro del marco filosófico del pensamiento positivista de E. Mach (1838-1916) que establecı́a que cualquier teorı́a explicativa de la naturaleza debı́a contener solamente elementos que tuvieran una correspondencia con la realidad, es decir cualquier elemento teórico que no fuera observable no podı́a incluirse en la formulación de la teorı́a. Estas son extensiones de las ideas idealistas de Berkeley (1685-1753) [2]. Otra manera alternativa fue desarrollada por Schrödinger, basado en una idea de L. de Broglie. Este último decı́a que ası́ como la luz poseı́a un comportamiento dual de onda y partı́cula (fotón) ası́ también las partı́culas microscópicas, como los electrones, poseı́an un comportamiento dual, de partı́cula y onda: allı́ donde van las ondas van las partı́culas. De Broglie entonces postuló que, debido al comportamiento ondulatorio de los entes microscópicos, le podı́amos asociar una longitud de onda que era inversamente proporcional a la masa de la partı́cula. Ası́, los electrones que tienen una masa muy pequeña poseen una longitud de onda apreciable, y, por el contrario, partı́culas macroscópicas, tales como una pelota de béisbol, que poseen masas grandes no tienen comportamiento ondulatorio sino de partı́cula. Schrödinger toma esta idea de De Broglie y la combina con la ecuación clásica de las ondas para encontrar una ecuación diferencial para las ondas de materia, HY=EY, donde H es un operador hermı́tico y E son sus autovalores. Esto último introduce en la teorı́a fı́sica un elemento no observable: la función de Determinismo, indeterminismo y la flecha del tiempo 221 onda Y, que básicamente representa la amplitud de la onda de materia, en general un número complejo. Note las diferencias filosóficas de las dos teorı́as. La de Heisenberg, idealista: la teorı́a sólo contiene los elementos que podemos observar, todo lo demás no tiene existencia real, y la de Schrödinger: la teorı́a contiene elementos que no podemos medir pero que son necesarios para explicar eventos que sı́ son medibles. Ahora, ¿cuál era el significado de esta “función de onda”? Esta pregunta todavı́a en la actualidad constituye uno de los acertijos fundamentales de la mecánica cuántica. M. Born (1882-1970) estableció que ya que las partı́culas tienen comportamiento de ondas no es posible determinar con certeza sus posiciones. Lo único que podemos calcular es el cuadrado de la función de onda, lo cual representa la probabilidad de encontrar la partı́cula en una cierta posición del espacio. Esta interpretación introduce un aspecto de aleatoriedad en la mecánica cuántica y sugiere que aspectos de indeterminismo están presentes en las leyes de la naturaleza. Esta situación no le gustaba nada a Einstein, un convencido determinista, quién entonces expresa que “no creı́a que Dios jugara a los dados con el universo”. Para entender esto debemos recordar que Einstein creı́a en el Dios de Spinoza (1632-1677), un dios identificado con la naturaleza, donde el azar no es posible, lo que nos parece contingente es solo una ilusión; solo nos parece contingente porque no conocemos su causa ni su mecanismo. A pesar de ello, de acuerdo a la teorı́a cuántica, y recordando las palabras de P. Dirac (1902-1984), toda la quı́mica y gran parte de la fı́sica podı́a ser calculada a partir de primeros principios sin necesidad de hacer más experimentos. La estructura y propiedades de cualquier sustancia desconocida podı́an ser predichas con gran precisión, y la velocidad, mecanismo y productos de cualquier proceso fı́sico o quı́mico desconocidos podı́an ser determinados. Lo único que se requerı́a era resolver las ecuaciones de la mecánica cuántica. Las aplicaciones de la mecánica cuántica han transformado nuestras vidas. Se estima que el 30% del producto territorial bruto de los E.E.U.U. se basa en invenciones desarrolladas gracias a la mecánica cuántica, desde semiconductores en los chips de las computadoras hasta los rayos láser utilizados en los lectores de discos compactos y DVDs, aparatos de resonancia magnética nuclear en los hospitales y celulares, entre otros. Ahora quiero discutir el aspecto de indeterminismo y probabilidad en la mecánica cuántica. Uno de los principios fundamentales de esta teorı́a lo constituye el principio de indeterminación de Heisenberg que éste formuló en 1927. De acuerdo con este principio las ecuaciones de la mecánica cuántica restringen la precisión con la cual un observador puede medir simultáneamente ciertas cantidades, por ejemplo la posición y la velocidad de un electrón. Heisenberg estableció que aunque las leyes de la mecánica cuántica contenı́an elementos estadı́sticos en su formulación, estos elementos no eran propiedad de la misma 222 D. A. Morales naturaleza sino que aparecı́an como consecuencia de la perturbación causada cuando el observador querı́a observar la naturaleza. Por ejemplo, la determinación de la posición de un electrón de manera precisa requiere la utilización de radiación electromagnética de alta frecuencia, lo que implica alta energı́a. En el proceso de colisión de un fotón de esta radiación con un electrón producirá un cambio brusco en el momento del electrón. Este cambio será mayor en la medida en que la frecuencia de la luz se haga cada vez mayor. Por otra parte, la determinación de la posición del electrón con poca precisión requerirá luz de baja frecuencia, esto es, baja energı́a. En este último caso la colisión de un fotón con un electrón no provocará un cambio muy importante en el momento de este último, de manera que éste puede ser medido con gran precisión. Este ejemplo ilustra el hecho de que existe una relación dual o complementaria entre la posición con que se mide el momento de un electrón y la precisión con que se determina su posición. Si x es la precisión con que se mide la posición de una partı́cula de caracterı́sticas microscópicas y p es la precisión en la medida de su momento, entonces el principio de indeterminación establece que el producto de estas dos cantidades no puede ser menor que h/2p, esto es ∆x∆p ≥ h/2p, donde h es la constante de Planck. El principio de indeterminación tiene importantes y profundas consecuencias sobre el principio de causalidad. Este principio, uno de los más queridos y protegidos por los fı́sicos del siglo XIX, establece que los efectos siempre preceden a sus causas. Este principio está entonces en la base del determinismo de Newton y Laplace. El principio de indeterminación niega el principio de causalidad. Como dice Heisenberg [6]: En la formulación estricta de la ley causal -si conocemos el presente, podemos calcular el futuro- no es la conclusión la que está errada sino la premisa. Los valores iniciales de la posición y de la velocidad no pueden ser medidos simultáneamente con absoluta precisión, de manera que uno no puede calcular un futuro único para la partı́cula sino un conjunto de posibles futuros. Sólo la medición determinará que futuro se observará en la realidad. De esta manera la conexión causal entre presente y futuro se pierde y es sustituida sólo por probabilidades de los eventos posibles. Estas ideas también se pueden discutir desde el punto de vista de la ecuación de Schrödinger, que es una ecuación simétrica en el tiempo y además determinista con respecto a su elemento principal, la función de onda. La función de onda contiene en potencia, en el sentido de Aristóteles, todas las posibilidades futuras del sistema bajo estudio. Aunque la evolución en el tiempo de la función de onda es perfectamente determinista: dada la función de onda en un instante dado se puede calcular exactamente la evolución en el tiempo de la función de onda, la ecuación de Schrödinger no nos puede decir con certeza cuál de Determinismo, indeterminismo y la flecha del tiempo 223 todas las posibilidades se convertirá en acto, en el sentido de Aristóteles, en el futuro. De esta manera, la irreversibilidad temporal en la mecánica cuántica entra como consecuencia del observador. Es la persona que realiza la medición la que determina cuál de entre todas las posibilidades se convertirá en acto. Sin embargo, a pesar de que la mecánica cuántica nos ha permitido entender muchos de los aspectos del mundo microscópico, todavı́a existen aspectos que no entendemos. Uno de los problemas de la mecánica cuántica es que es una teorı́a que posee una ecuación determinista, la ecuación de Schrödinger, y un conjunto de reglas ad hoc que nos dicen como calcular las probabilidades de las diferentes posibilidades asociadas con un determinado evento. Sin embargo, a pesar de todo el tiempo transcurrido desde la creación de la mecánica cuántica hasta la actualidad, todavı́a nadie ha deducido una ecuación que nos diga con certeza cuál de las diferentes posibilidades se dará en la realidad. Ya que de acuerdo a la mecánica cuántica, los electrones se comportan como ondas, ellos presentan las caracterı́sticas que asociamos con las ondas. En particular, las funciones de onda describen combinaciones de diferentes estados, las llamadas superposiciones. Un electrón, por ejemplo, podrı́a estar en una superposición de estados correspondientes a diferentes posiciones. Schrödinger afirmaba que este principio de superposición debı́a aplicarse también a los objetos macroscópicos ya que estos estaban formados por átomos. Un experimento mental muy conocido que ilustra este hecho es el experimento del gato encerrado en una caja. Supongamos que colocamos un gato en una cajaherméticamente cerrada, con oxı́geno para que el gato pueda respirar, y una muestra de un elemento radiactivo cuya emisión desencadena que un gas venenoso encerrado en un recipiente se libere y mate al gato. Como la emisión o el decaimiento del elemento radiactivo es aleatorio, la función de onda del átomo radiactivo es una superposición del estado que decae y el estado que no decae, y por lo tanto, produce un gato que está al mismo tiempo vivo y muerto. Sólo cuando una persona abre la caja la superposición se borra quedando un solo estado: el gato muerto o el gato vivo. 5 El reduccionismo matemático Otro aspecto importante está relacionado con la aplicación de la mecánica cuántica a energı́as y distancias muy pequeñas. En fı́sica se trabaja en construir una teorı́a general de donde todo surja como consecuencia de los principios establecidos por esta teorı́a. Esta gran teorı́a, llamada teorı́a de unificación y en la cual el mismo Einstein estuvo trabajando gran parte de su vida sin lograr obtenerla, representa la gran ambición en el siglo XXI. Para lograr esto debemos construir una gran teorı́a que combine la teorı́a de la relatividad general de Einstein con la mecánica cuántica. A partir de esta teorı́a general se deberı́a poder 224 D. A. Morales construir todo el árbol jerárquico del conocimiento humano. En cada rama de ese árbol aparecen conceptos necesarios para entender aspectos relacionados con esa rama particular, tales como protones, electrones, átomos, moléculas, células, organismos, sociedades, culturas. La útima gran teorı́a de la fı́sica no debe contener conceptos, ya que ello implicarı́a que deberı́amos construir otra teorı́a más fundamental para derivar esos conceptos. La última teorı́a deberı́a ser matemática, sin palabras ni conceptos y sin el parámetro tiempo, es decir matemática y atemporal a partir de la cual cualquier cientı́fico pueda derivar toda la existencia del universo [32,33]. Muchos no creen que lo anterior sea posible. Estos creen que en cada rama de la jerarquı́a del conocimiento aparecen leyes y propiedades que dependen de la complejidad de los sistemas estudiados en esa rama y que no son derivables de los conceptos de la rama inmediatamente sobre esta. Por ejemplo, un zoólogo tan eminente como Ernst Mayr arguye en su libro Thisis Biology[21] que las ciencias fı́sicas no pueden explicar muchos aspectos relacionados con la vida y que muchos aspectos estudiados por los fı́sicos no son relevantes para el mundo viviente, o para cualquier otra ciencia fuera de la fı́sica. Los organismos vivos deben ser entendidos a cada nivel de organización; no pueden ser reducidos a las leyes de la fı́sica y la quı́mica. Más adelante escribe [21]: La unidad de la ciencia no podrá alcanzarse hasta que se acepte que la ciencia contiene un conjunto de provincias separadas, una de las cuales es la fı́sica, otra de las cuales es la biologı́a. Serı́a fútil tratar de “reducir” la biologı́a, una ciencia provincial, a la fı́sica, otra ciencia provincial, o viceversa. Al comentar sobre las ideas de C.P. Snow expuestas en su libro The Two Cultures sobre la separación entre los cientı́ficos y los humanistas apunta que [29]: La brecha entre la fı́sica y las humanidades, como él (Snow) correctamente apunta, es en verdad virtualmente infranqueable. Simplemente no existe un camino de la fı́sica a la ética, la cultura, la mente, el libre albedrı́o y otras preocupaciones humanı́sticas. La ausencia en la fı́sica de estos importantes tópicos contribuyó a la alienación de los cientı́ficos y los humanistas que Snow reclama. Pero, todas estas preocupaciones tienen relaciones substanciales con las ciencias de la vida. Otro opositor a la teorı́a reduccionista es Roald Hoffmann, ganador del Premio Nobel de Quı́mica. En este sentido él comenta [11]: . . . Un gran defecto de los fı́sicos teóricos es su tendencia al reduccionismo: creen que todo en la naturaleza puede reducirse a unos Determinismo, indeterminismo y la flecha del tiempo 225 cuantos principios y partı́culas simples. “Ni la naturaleza ni la vida funcionan de ese modo en la realidad”. “La complejidad, y no la simplicidad, es la esencia de la vida”. Vemos, de las dos posiciones anteriores, que el problema de la reducción y la emergencia en la ciencia no está resuelto Estas posiciones apuntan al hecho de que cuando los sistemas adquieren cierta complejidad otras leyes aparecen. Y es precisamente en este terreno que otro tipo de indeterminación, ahora al nivel clásico, emerge: el caos. 6 El caos De acuerdo al diccionario Larousse la palabra caos viene del griego khaos que significa abismo. En filosofı́a expresa la confusión general de los elementos y de la materia, antes de la creación del mundo. Este estado de confusión original ha sido plasmado en diversas obras de la antigüedad. A continuación transcribo un párrafo muy hermoso de Las Metamorfosis de Ovidio (43 a.C-17 d.C) [22], obra que indudablemente presenta elementos en su composición que reflejan las teorı́as que sobre el universo tenı́an los antiguos griegos: Antes de existir el mar, la tierra y el cielo, continentes de todo, existı́a el Caos. El Sol no alumbraba aún el mundo. La Luna todavı́a no estaba sujeta a sus vicisitudes. La Tierra no se hallaba todavı́a suspensa en el vacı́o, o tal vez quieta por su propio peso. No se conocı́an las márgenes de los mares. El aire y el agua se confundı́an con la tierra, que todavı́a no se habı́a solidificado. Toda era informe. Al frı́o se oponı́a el calor. Lo seco a lo húmedo. El cuerpo duro se hundı́a en el blando. Lo pesado era ligero a la vez. Dios, o la Naturaleza, puso fin a estos despropósitos, y separó al cielo de la tierra, a ésta de las aguas y al aire pesado del cielo purı́simo. Y ası́, el Caos dejó de ser. Dios puso a cada cuerpo en el lugar que le correspondı́a y estableció las leyes que habı́an de regirlos. El fuego, que es el más ligero de los elementos, se ubicó en la región más elevada. Más abajo, el aire. La Tierra, encontrada en su equilibrio, la más profunda . . . Algunas de las ideas sobre el determinismo y el caos ya habı́an sido anticipadas en 1903 por el gran matemático francés Henri Poincaré en su libro The value of Science [24]: Si conociéramos con precisión infinita las leyes de la naturaleza y la situación inicial del universo, podrı́amos predecir exactamente la 226 D. A. Morales situación de este mismo universo en un momento posterior. Pero incluso aunque las leyes naturales no tuvieran ningún secreto para nosotros, sólo podrı́amos conocer la situación inicial de modo aproximado. Todo lo que necesitamos para poder decir que un fenómeno ha sido predicho y que está regido por leyes es poder predecir la situación posterior con la misma aproximación que la inicial. Pero esto no siempre es posible; puede ocurrir que las pequeñas diferencias en las condiciones iniciales se hagan muy grandes en el resultado final. Un pequeño error al principio producirá un error enorme al final. La predicción se hace imposible y tenemos un fenómeno fortuito. Murray Gell-Mann apunta [15]: Dado que nada puede medirse con la precisión absoluta, el caos da origen a una indeterminación efectiva en el nivel clásico que se superpone a la indeterminación cuántica. La interacción entre estas dos clases de impredictibilidad es un aspecto fascinante y todavı́a poco estudiado de la fı́sica contemporánea. Robert May, uno de los padres de la teorı́a del caos, define ası́ esta ciencia [14]: En la ciencia, el caos se refiere a la idea de que el comportamiento de algo puede ser a pesar de todos los intentos y propósitos impredecible aún cuando sea descrito por una “ecuación determinista” muy simple; por determinista queremos decir que las ecuaciones, y todos los parámetros en ella son completamente conocidos, sin elementos estadı́sticos o inciertos. Tal ecuación parece predecir con certeza el futuro de algo, dado su estado a algún momento inicial. Un aspecto esencial del sistema caótico es que las ecuaciones que rigen su comportamiento son no lineales, de manera que un pequeño cambio en las condiciones iniciales de un experimento, o una situación en el mundo real, puede provocar un gran cambio en el comportamiento futurodel sistema [30]. Esto significa que si conducimos el experimento dos veces a partir de condiciones iniciales ligeramente diferentes, a medida que el tiempo transcurre las diferencias entre el comportamiento del sistema en las dos situaciones se vuelve tan diferente que es imposible hacer ninguna predicción. Esta situación es conocida como “el efecto mariposa”; el aleteo de una mariposa en Brasil podrı́a provocar al cabo de unos meses un tornado en Texas [16].La única manera entonces de hacer predicciones es conociendo las condiciones iniciales del sistema con absoluta certeza, algo imposible. En el caso de sistemas lineales, dos sistemas que Determinismo, indeterminismo y la flecha del tiempo 227 partan de condiciones iniciales ligeramente diferentes no difieren mucho en su comportamiento a medida que el tiempo transcurre. Los efectos no lineales que aparecen en sistemas caóticos son tı́picos de sistemas complejos: por ejemplo el comportamiento de un cardumen en el tiempo, el comportamiento de poblaciones y culturas mundiales, el comportamiento de la economı́a mundial, la actividad eléctrica en nuestros cerebros y corazón, el congestionamiento en las autopistas, todos estos son ejemplos de sistemas reales cuyo comportamiento temporal puede ser estudiado con la teorı́a del caos. A diferencia de los fı́sicos fundamentales que quieren descubrir las leyes fundamentales de la naturaleza y sus restricciones, los cientı́ficos que trabajan en el campo de la teorı́a del caos y la complejidad utilizan ecuaciones que son sólo modelos aproximados de la realidad. El caotista quiere capturar los aspectos esenciales de su sistema bajo estudio, no quiere describir todos los aspectos del sistema. Para ello utiliza ecuaciones muy simples, que muestran universalidad, en el sentido de que la misma ecuación puede describir variados sistemas aparentemente diferentes: una población de pájaros y el comportamiento de la bolsa de Nueva York, por ejemplo [16]. La ecuación más sencilla que muestra caos y que ha sido utilizada ampliamente para describir muchos sistemas es la ecuación logı́stica: y = ax(1 − x), donde a es una constante. Describiré la ecuación logı́stica con un párrafo de la obra Arcadia,Acto 1, Escena 4 [31]: Lo que ella hace, cada vez que obtiene un valor para y, es usar ese como su próximo valor para x. Y ası́ sucesivamente. Como una retroalimentación. Ella reintroducela solución en la ecuación, y entonces la resuelve de nuevo. Iteración, tú sabes. Lo que resulta del procedimiento anterior es que para ciertos valores del parámetro de la ecuación, el futuro no puede predecirse a partir del estado presente. La distribución final de valores de x luce aleatorio, destruyendo cualquier predicción, aún cuando la ecuación de donde partimos es completamente determinista. Este resultado representa caos, indeterminismo al nivel clásico. En otras palabras, caos a partir del orden: Lo impredictivo y lo predeterminado se solapan de tal manera para hacer todo de la manera que es. Es como la naturaleza se crea a sı́ misma, en cada escala, el cristal de nieve y la tormenta.[31]. La moderna teorı́a del caos comenzó en el año 1966, cuando Edward Lorenz, estudiando un modelo matemático del comportamiento atmosférico, descubrió que sus ecuaciones mostraban caos. La resolución de esas ecuaciones con condiciones iniciales muy parecidas mostraba que al cabo de unos pocos segundos las soluciones se diferenciaban mucho unas de las otras. Con este resultado, Lorenz explicó porqué no se puede hacer predicciones del clima con más de unos pocos dı́as de anticipación. Cualquier error en la medición de las condi- 228 D. A. Morales ciones atmosféricas en un momento determinado se amplificará exponencialmente al cabo de poco tiempo invalidando cualquier predicción del clima. A este efecto Lorenz lo llamó “efecto mariposa”, recordando el cuento El Sonido de un Trueno del año 1952 del gran escritor de ciencia ficción Ray Bradbury [5]. En ese cuento la muerte de una mariposa prehistórica y su consecuente incapacidad para reproducirse, desencadena un final diferente en una elección presidencial. Hasta ahora hemos discutido sólo la teorı́a del caos en la ciencia clásica. Pero la teorı́a del caos también hace su aparición en la mecánica cuántica. La ecuación de Schrödinger es una ecuación lineal de manera que el caos, en el mismo sentido que aparece en las leyes clásicas, no puede hacer su aparición en la mecánica cuántica. Sin embargo, el caos cuántico está ligado no a la aleatoriedad de los niveles energéticos o de la función de onda, sino a la aleatoriedad en la distribución del espaciado entre los niveles de energı́a. En sı́ntesis, el caos cuántico se refiere a la aleatoriedad del espaciado de los niveles de energı́a a nivel cuántico de sistemas que presentan caos a nivel clásico [3, 7, 8, 17, 34]. El espaciado de los niveles energéticos de sistemas cuánticos no caóticos sigue una distribución de Poisson y la contraparte clásica de estos sistemas presenta una dinámica regular o completamente integrable, mientras que aquel de sistemas cuánticos caóticos sigue distribuciones correspondientes a ciertos tipos de matrices llamadas aleatorias y su contraparte clásica presenta una dinámica irregular, sin constantes de movimiento. Lo increı́ble es que este problema fı́sico presente conexiones con uno de los problemas no resuelto más importante de la matemática actual, como lo es la hipótesis de Riemann. La hipótesis de Riemann establece que los ceros complejos de la función zeta de Riemann, ζ(z), tienen todos parte real igual a 1/2, de manera que las cantidades {Γj } definidas 1 por ζ( − iΓj ) = 0 son todas reales. Esta conjetura está, además, relacionada 2 con la distribución de los números primos. La conexión se puede apreciar en la relación −1 ∞ X Y 1 1 ζ(z) = = 1− z nz p n=1 p=primo con Re(z) > 1. La conexión entre el caos cuántico y la hipótesis de Riemann tiene una historia muy interesante. En los años 50s, Eugene Wigner hizo la importante observación que la estadı́stica de las matrices que describı́an el comportamiento de núcleos pesados no era muy diferente de la estadı́stica correspondiente a matrices hermı́ticas aleatorias. Esta observación fue clave en la interpretación de los espectros de energı́a de núcleos pesados, ya que los elementos matriciales correspondientes a estos sistemas no eran conocidos. La observación de Wigner predice entonces que la distribución (la distribución, no los valores individuales) de los niveles de energı́a de un núcleo pesado sigue la misma ley que Determinismo, indeterminismo y la flecha del tiempo 229 la de matrices hermı́ticas aleatorias. Estas ideas fueron elaboradas posteriormente por Freeman Dyson, entre otros, y la proposición teórica fue confirmada hace 30 años en la distribución de los niveles nucleares del elemento erbio-166. La función de correlación de dos puntos de la distribución de los ceros de la 2 función zeta de Riemann 1 − sinπxπx es la misma que la función de correlación de dos puntos de matrices hermı́ticas aleatorias. Esto sugiere que los ceros de la función zeta realmente poseen caracterı́sticas espectrales. Si esto es ası́, los ceros de la función zeta deberı́an estar asociados a los autovalores de algún operador hermı́tico desconocido. Esta idea fue originalmente propuesta, de manera independiente, por David Hilbert y George Pólya. Si este operador existe, él determinará tanto la posición exacta de cada cero de la función zeta como la distribución exacta de los números primos. Por otra parte, debido a la conexión con el problema fı́sico del caos cuántico, los fı́sicos están también buscando un operador hamiltoniano correspondiente a un sistema fı́sico y cuyos autovalores sean las cantidades reales {Γj } correspondientes a la parte imaginaria de los ceros de la función zeta de Riemann. De acuerdo a Michael Berry, en el futuro estaremos leyendo los ceros de la función zeta de Riemann directamente de un espectro de un sistema fı́sico, tomado en el laboratorio. 7 Conclusión Hemos discutido el determinismo e indeterminismo en la ciencia natural, donde la matemática es un ingrediente fundamental en estos estudios. Sin embargo, existe también el problema de determinismo e indeterminismo en la matemática misma, problema éste relacionado con la lógica. Estas ideas son discutidas bajo el nombre de teorı́a de la información algorı́tmica [9,10]. Lo increı́ble es que estas ideas puramente matemáticas, sin relación aparente con el mundo natural, también están al final relacionadas con el mismo problema en las ciencias naturales. Para los platónicos, esto era de esperar: al final todo el universo y sus leyes no son más que representaciones de arquetipos que existen en el mundo perfecto de las ideas, el mundo de las matemáticas. Concluiremos este artı́culo transcribiendo la parte final del ensayo de Jorge Luis Borges (Nueva Refutación del Tiempo). Después de describir sus ideas que presentan el tiempo como una ilusión, Borges comenta [4]: And yet, and yet. . . Negar la sucesión temporal, negar el yo, negar el universo astronómico, son desesperaciones aparentes y consuelos secretos. Nuestro destino (a diferencia del infierno de Swedenborg y del infierno de la mitologı́a tibetana) no es espantoso por irreal; es espantosoporque es irreversible y de hierro. El tiempo es la sustancia de que estoy hecho. El tiempo es un rı́o que me arrebata, pero yo soy el rı́o; es un tigre que me destroza, pero yo soy el tigre; es un fuego 230 D. A. Morales que me consume, pero yo soy el fuego. El mundo, desgraciadamente, es real; yo, desgraciadamente, soy Borges. Referencias [1] Aristotle, Physics, Oxford University Press, Oxford, 1999. [2] G. Berkeley, Principles of Human Knowledge and Three Dialogues,Oxford University Press, Oxford, 1996. [3] M. V. Berry y J. P. Keating, “The Riemann zeros and eigenvalue asymptotics”, SIAM Review, 41 (1999), 236-266. [4] J. L. Borges, Otras Inquisiciones, Alianza Editorial, Madrid, 1997. [5] R. Bradbury, El Sonido de un Trueno en Las Doradas Manzanas del Sol, Minotauro, Barcelona, 2002. [6] D. C. Cassidy, “Heisenberg, uncertainty and the quantum revolution”, Sci. Amer. May, (1992) 110-111. [7] B. Cipra, What’s Happening in the Mathematical Sciences 1998-1999, vol 4, AMS,Providence,RI, 1999. [8] J. B. Conrey, “The Riemann hypothesis”, Notices of the American Mathematical Society, 50 (2003), 341-353. [9] G. Chaitin, “Computers, Paradoxes and the Foundations of Mathematics”, American Scientist, March-April (2002), 164-171. [10] G. Chaitin, “Información y Azar”, Boletı́n de la Asociación Matemática Venezolana, IX (1) (2002), 55-81. [11] L. Chang,The New York Times Grandes Logros de los Genios de Hoy, McGraw-Hill, México, 2000. [12] A. Einstein, Correspondencia con Michele Besso (1903-1955), Edición, prólogo y notas de P. Speziali, Traducción de M. Puigcerver, Tusquets Editores, Barcelona, 1994. [13] A. Einstein, Mi visión del mundo, Fábula Tusquets Editores, Barcelona, 1997. [14] G. Farmelo (editor), It Must be Beautiful: Great Equations of Modern Science, Granta Books,London, 2002. Determinismo, indeterminismo y la flecha del tiempo 231 [15] M. Gell-Mann, El Quark y el Jaguar, Tusquets Editores, S.A., Barcelona, 1995. [16] J. Gleick, Chaos, Heinemann, 1988. [17] B. Hayes, “The spectrum of Riemannium”, American Scientist 91 (2003), 296-300. [18] Heráclito, Parménides y Empédocles,Textos Presocráticos, traducción de M. Del Pino, Edicomunicación, Barcelona, 1995. [19] G. Holton, Einstein, historia y otras pasiones, Taurus, Madrid, 1998. [20] P. S. Laplace, Philosophical Essays on Probabilities, traducido por F. W. Truscott y F. L. Emory, Dover, New York, 1951. [21] E. Mayr, This is Biology, The Belknap Press, Cambridge, Mass., 1997. [22] Ovidio, La Metamorfosis, Edicomunicación, S.A., España, 1995. [23] Platón, Diálogos, Editorial Porrúa, México, 1996. [24] H. Poincaré, The Value of Science, The Modern Library,New York, 2001. [25] K. Popper, El universo abierto, Tecnos, Madrid, 1984. [26] H. Price, Time’s Arrow and Archimedes Point, Oxford University Press, New York, 1996. [27] I. Prigogine, The End of Certainty, The Free Press,New York, 1997. [28] Scientific American, September, 2002. Número especial sobre el tiempo. [29] C.P. Snow, TheTwo Cultures, Cambridge University Press, Cambridge, 1998. [30] I. Stewart, Does God Play Dice? The Mathematics of Chaos, Basil Blackwell,New York, 1989. [31] T. Stoppard,Arcadia, Faber and Faber Limited,London, 1993. [32] M. Tegmark, “Parallel Universes”, Scientific American, May 2003, 30-41. [33] M. Tegmark y J.A. Wheeler, “100 Years of Quantum Mysteries”, Scientific American, February (2001), 54-61. [34] A. Terras, “Finite quantum chaos”, Amer. Math. Month. 109 (2002), 121-139. 232 D. A. Morales [35] Tito Lucrecio Caro, De la Naturaleza de las Cosas, traducción de L. Alvarado, Equinoccio Editorial de la Universidad Simón Bolı́var, Baruta, 1982. [36] E. Wigner, “The unreasonable effectiveness of mathematics in the natural sciences”, Commun. Pure Appl. Math, 13 (1960), 1-14. [37] S. Wolfram,A New Kind of Science, Wolfram Media, 2002. [38] D. Z. Zhang, “C. N. Yang and Contemporary Mathematics”, Math. Intelligencer 15 (1993), 13-21. Daniel A. Morales Facultad de Ciencias Universidad de Los Andes Venezuela Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 233 MATEMÁTICAS RECREATIVAS La importancia de cada nodo en una estructura de enlaces: Google-PageRankTM Roberto Markarian & Nelson Möller Resumen Al buscar información en Internet, es importante cómo vemos ordenado el resultado de nuestra búsqueda. Este resultado es una numerosa cantidad de páginas con algo común a los temas o nombres consultados. En este trabajo, explicamos un procedimiento que asocia a cada página de la Red un número que cuantifica su “relevancia” y permite ordenar los resultados de la búsqueda. Este método fue popularizado por, y constituyó la base del buscador Google. Como se enlazan la páginas de la Red, determina una matriz cuyos vectores propios tienen propiedades que permiten utilizar sus componentes como una medida de “relevancia”. Nuestro objetivo es mostrar la utilización de nociones básicas del Algebra Lineal en estos cálculos. Introducción La siguiente cita, extraı́da del periódico Le Monde [La], ilustra en términos generales las ideas que profundizaremos: “A mediados de los ’90, frente al creciente flujo de información, dos estudiantes de computación de la Universidad estadounidense de Stanford, Sergey Brin y Larry Page, intuyeron algo: un motor de búsqueda que se basara en el estudio matemático de las relaciones entre los diferentes sitios darı́a mucho mejor resultado que las técnicas rudimentarias que se empleaban entonces. Convencidos de que las páginas más ‘pertinentes’ son las más frecuentemente citadas (las que los otros sitios ponen como referencia en su lista de enlaces en hipertexto) deciden hacer del tema su proyecto de estudios, estableciendo ası́ las bases de un motor más ‘matemático’, al que bautizaron Google en el momento de crear su empresa, en setiembre de 1998.” El mismo artı́culo continúa: 234 Markarian & Möller Para evaluar la ‘pertinencia’ de las páginas existentes en internet, Brin y Page inventaron el ‘Page Rank’, una escala de valores propia de Google. En la misma, la importancia de las páginas web es reevaluada permanentemente en función de la cantidad de menciones de que son objeto en los diferentes sitios. Por lo tanto, los sitios aislados, que no figuran en las listas de enlaces hipertextuales, resultan poco visibles, sin ‘legitimidad’. En cambio los sitios muy citados se convierten para Google en sitios de referencia. Ese original algoritmo ofrece resultados impresionantes. Buscar material en Internet plantea simultáneamente dos problemas: ¿Qué páginas tienen elementos relacionados con lo que buscamos? ¿Cómo se presenta (ordena) todo lo hallado? En este trabajo, miramos un aspecto matemático relacionado al segundo punto: analizaremos uno de los elementos, utilizado por el buscador Google para ordenar los resultados de una búsqueda. El primer problema, que tiene también gran relación con elementos del Algebra Lineal, no será tratado aquı́; una referencia es [BDJ]. Los resultados iniciales de nuestra búsqueda suelen ser muchas páginas de direcciones relacionadas con el tema, pero pocas veces miramos más allá de las primeras. Por ello es muy útil un procedimiento que ordene los resultados de acuerdo a la “relevancia”que tienen las páginas. Es allı́ donde interviene uno de los principales elementos introducidos por el Google en 1998, el PageRank [BP]: “Para medir la importancia relativa de las páginas web nosotros proponemos PageRank, un método para calcular un ordenamiento (ranking en inglés) para toda página basado en el gráfico de la Red.” Expresándolo de manera un tanto simplificado, lo que buscamos es que la importancia de cada página sea proporcional a la suma de las importancias de todos los sitios que enlazan con ella. Matemáticamente, si llamamos K a la constante de proporcionalidad y xi a la importancia, tenemos un sistema de ecuaciones del tipo x1 = K(x14 +x97 +x1002 ) x2 = K(x11104 +x20006 ) .. . .. . donde en cada igualdad el lado derecho es la suma de la importancia de todos los sitios que enlazan a la página correspondiente. Sea A la matriz cuya entrada aij es 1 si el sitio j tiene un enlace con la página i y 0 caso contrario. Esta matriz permite reescribir las ecuaciones anteriores en Google-PageRankTM : El Algebra Lineal la forma xi = K n X 235 aij xj . j=1 Entonces, el problema de hallar vectores x = (x1 , x2 , · · · , xn ) que satisfacen esa 1 x, que es un problema igualdad se transforma en encontrar x tal que Ax = K de valores y vectores propios de una matriz que toma en cuenta la estructura de vı́nculos (links en inglés) de la Red. El teorema de Perron - Frobenius sobre los valores propios de matrices con entradas reales no negativas es una pieza clave para mostrar que el método usado por PageRank funciona. En la versión original de Perron (1907) el teorema expresa que el valor propio de mayor valor absoluto de una matriz (con entradas) positiva(s) es positivo y su espacio propio es generado por un vector propio con coordenadas del mismo signo. Frobenius (1908, 1912) extendió estos resultados a matrices no negativas. Este resultado es central a la hora de implementar computacionalmente el cálculo. En los años 50, ya se habı́a observado el papel de este vector propio asociado al mayor valor propio de una matriz positiva, para obtener un ordenamiento [Ke]. Su vigencia actual se debe a su aplicación a Internet y a la posibilidad de implementar el cálculo para matrices muy grandes Este trabajo, por su destino original,de divulgación, contiene detalles conocidos por toda aquella persona con una formación profesional en el cual el teorema de Perron-Frobenius sea utilizado frecuentemente. Por lo tanto puede ser leı́do de varias maneras; quienes estén interesados en la descripción general del PageRank y sus implicaciones pueden leer las Secciones 1, 2, 4 y 5. Quienes estén interesados en esos asuntos y en el planteamiento y solución de los principales problemas matemáticos deben leer además la Sección 3 y principalmente el Apéndice. 1. Algo de Historia La Red ha crecido en una forma vertiginosa. Hagamos un poco de historia para situar el contexto de invención del procedimiento (algoritmo) utilizado por Google. En 1996-98 ya comenzaba a notarse la dificultad de hallar material en internet debido a su rápido crecimiento. En ese momento “buscadores”también llamados “motores de búsqueda”, como Altavista, Lycos, Yahoo, ya tenı́an gran relevancia. En principio [Pe], todo motor de búsqueda está compuesto de por lo menos tres elementos principales: un robot de indexación (también conocido como 236 Markarian & Möller araña, spider o web crawler), una base de datos y una interface de consulta de la base de datos. Normalmente los usuarios interactúan con la interface de consulta, y a través de ella consultan la base de datos. El robot de indexación es el encargado de “navegar”la Web colectando toda la información que este pueda procesar, almacenándola en la base de datos para su posterior consulta. Muchos motores desarrollaban tecnologı́as que permitı́an restringir la búsqueda. Estas restricciones empleaban argumentos lógicos que no eran de manejo sencillo. Yahoo hacı́a “manualmente” el trabajo de ordenar de acuerdo a ciertos criterios “objetivos” las bases de datos disponibles. Dichas bases de datos tenı́an un tamaño considerable, por lo que ya estaba muy popularizado el uso de buscadores, y los que funcionaban bien eran un gran negocio: Yahoo se vendió en una abultada cifra. Los algoritmos de búsqueda recibı́an un gran impulso y a pesar de ello no se simplificaba el hallar lo deseado. En ese contexto, y en pleno boom de las compañı́as puntocom, fue que comenzó en la Universidad de Stanford la historia de Google. Sergey Brin y Lawrence Page presentaron un trabajo de posgrado donde se definı́a la “importancia” de una página web tomando en cuenta los enlaces que recibe. Su buscador hace una lista de respuestas a nuestra búsqueda en un “orden de relevancia”decreciente, esta fue la mejora en su interface de consulta que popularizó su uso. Hemos puesto el comillado porque se señalan deficiencias y crı́ticas al modo cómo se hace la cuantificación ( de “relevancia”). Algunas de éstas serán comentadas más adelante. 2. Como ordenar las páginas de la Red. Estando en una página web A determinada tenemos dos números importantes: ◦ cantidad de vı́nculos entrantes = cantidad de páginas que tienen un vı́nculo hacia la página A; ◦ cantidad de vı́nculos salientes. Las páginas web varı́an mucho en el número de vı́nculos entrantes que poseen. Generalmente las páginas que tienen muchos vı́nculos entrantes son más importantes que las que sólo tienen unos pocos. Sin embargo, hay muchos casos en los cuales sólo el contar el número de vı́nculos entrantes no se corresponde con el sentido usual de la importancia de una página web. Como escribı́an Brin y Page [BP]: “Por ejemplo, si una página tiene un vı́nculo de la página principal de Yahoo, éste puede ser un solo vı́nculo pero uno muy importante. Dicha página deberı́a estar mejor clasificada que otras páginas con muchos vı́nculos pero de lugares desconocidos”. Google-PageRankTM : El Algebra Lineal 237 Por tanto, una página tiene una clasificación alta si la suma de las clasificaciones de sus vı́nculos entrantes es alto. Esto cubre ambos casos: muchos vı́nculos entrantes o pocos con alta clasificación. El algoritmo original del PageRank fue descrito en varios trabajos por Brin y Page [BP]. Posteriormente presentaron una versión mejorada, que es la que expondremos. El propósito es cuantificar la probabilidad de que un usuario (aleatorio) llegue a la página A utilizando la Red. Se define el PageRank por: P R(T1 ) P R(Tn ) (1 − d) +d + ... + P R(A) = N C(T1 ) C(Tn ) donde: N es el número total de páginas web desde las que salen vı́nculos. n es el número total de páginas web desde las que salen vı́nculos a la página A. P R(A) es el PageRank de la página A. P R(Ti ) es el PageRank de las páginas Ti que tienen un vı́nculo hacia la página A. C(Ti ) es el número de vı́nculos salientes de la página Ti . d es un factor de amortiguación que puede ser tomado entre 0 y 1. Como la suma de esos números sobre todas las páginas web, da uno es una distribución de probabilidad (indexada por el parámetro d) . Esta “normalización”(suma=1) facilita la utilización de resultados generales que no dependen del tamaño del sistema (el número total de páginas). Analizando con cuidado dicha fórmula se observarán las siguientes caracterı́sticas del PageRank: está definido para cada página y es determinado por los PageRanks de las páginas que tienen un vı́nculo dirigido hacia ella; los sitios que enlazan a la página A no influyen uniformemente; depende del número de vı́nculos salientes que ellas posean: a más vı́nculos salientes de una página menos beneficiará el PageRank de las páginas a las que se una; un nuevo vı́nculo a una página siempre aumenta su valor; la definición es recursiva: la clasificación de una página depende de todas las otras que tienen vı́nculos hacia ella, por ello la clasificación de cada página depende de todos los sitios de la Red. 238 Markarian & Möller En sus explicaciones Brin y Page dan una justificación sencilla para el algoritmo. El PageRank modela el comportamiento de un usuario que estando en una página puede: • elegir al azar entre los vı́nculos contenidos en la página actual, o • saltar al azar a cualquier página de la Red ingresando la dirección; todo ello sin tener en cuenta el contenido de los mismos (esto ha suscitado comentarios y modelos alternativos ver [DR]). Cuantificando esos comportamientos posibles, se supone que seguirá un enlace de la página en que está con probabilidad d, o que salta a cualquier página con probabilidad 1 − d. La definición del PageRank establece un procedimiento para determinar una probabilidad de que un usuario aleatorio llegue a la página web A. El navegaante aleatorio visita una página web con una probabilidad proporcional al PageRank de la página. La probabilidad de elegir un vı́nculo depende de los vı́nculos que puede elegir en la página en que está. El seguimiento de los vı́nculos está indexado probabilı́sticamente por el factor de amortiguamiento d. Parece razonable suponer que d > 1/2, o sea, estando en una página, se tiende a usar más los vı́nculos que allı́ están, que hacer una nueva elección al azar. En la Sección 3 profundizaremos en el significado y el uso de d. La única excepción son las páginas hacia las que no va ningún vı́nculo, a las cuales en este modelo, por estar aisladas, sólo se llega al azar. No caben dudas que a ellas se puede llegar buscándolas explı́citamente, pero para usar este procedimiento -que es el mejor procedimiento de búsqueda!- no se necesitan ‘buscadores’. El PageRank de estas páginas es 1−d N . Vamos a ver que, por la naturaleza de la definición, es posible utilizar un algoritmo iterativo que aproxima los valores de PageRank. O sea, a cada página se le asigna un valor inicial y se realizan iteraciones que modifican sucesivamente estos valores iniciales. Esto es, a partir de distribuciones iniciales prefijadas, se repite un mismo procedimiento para obtener nuevos valores para cada página, y ası́ sucesivamente. Este es un punto importante a la hora de implementar el mecanismo, pues en términos computacionales es más sencillo calcular iterativamente el valor y el vector propio que mediante otros procedimientos. Algunas preguntas surgen naturalmente. ¿Por qué este procedimiento funciona? ¿Será que este procedimiento asigna a cada página un valor único, su PageRank? Explicaremos en detalle como se realiza este cálculo en el ejemplo de la siguiente Sección. Las respuestas afirmativas, en general, incluyen el uso de una versión del teorema de Perron-Frobenius que se dará en el Apéndice. Google-PageRankTM : El Algebra Lineal 3. 239 Un ejemplo Veamos ahora como es el procedimiento recursivo en un ejemplo dado por el siguiente diagrama. 1 2 5 3 4 Tenemos 5 páginas web e indicamos con una flecha los vı́nculos. Por ejemplo, de la página 1 salen dos vı́nculos a las 3 y 5, y entra un vı́nculo de la página 2. Veamos las fórmulas de PageRank de una manera más compacta, intentando utilizar la nomenclatura probabilı́stica relacionada con la distribución estacionaria de una cadena de Markov 1 . Llamamos πi = P R(i) al PageRank de la página i: ` ´ π1 = 1−d 5 π2 = 1−d 5 +d π2 2 , +d ` π5 ´ , ` π1 2 π3 = 1−d 5 +d π4 = 1−d 5 + d (π3 ) , π5 = 1−d 5 +d 2 ` π1 2 + + π5 2 π2 2 ´ , ´ + π4 . Si definimos la matriz: 1 B 1 B 1−d 1 5 B @ 1 1 0 1/2 0 0 1/2 0 0 0 1/2 1 0 P = 0 B B +d B @ yπ = π1 π2 π3 π4 π5 1 1 1 1 1 1 1 1 1 1 0 0 0 1 0 1 1 1 1 1 0 0 0 0 1 1 1 1 1 1 0 1/2 1/2 0 0 1 C C C A 1 C C C A ! , utilizando que P5 i=1 πi = 1 podemos resumir las 5 ecuaciones en2 π = P π. 1 Ver el capı́tulo 5 de [Ha]. lenguaje probabilı́stico suele ser más común llamar P a la transpuesta de nuestra matriz y llegar a π = πP . 2 En 240 Markarian & Möller Modelo de navegación3 Obtendremos la matriz P recurriendo a las explicaciones dadas en la sección anterior para justificar la definición. Resumamos la estructura de vı́nculos en la matriz de conectividad A, definida por 1 si hay un vı́nculo de la página j a la i, aij = 0 si no hay un vı́nculo de la página j a la i. En el caso del ejemplo A= 0 0 1 0 1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 1 1 0 0 . Supongamos que el usuario tiene los siguientes dos modos de navegación: 1. Elige una página al azar. 2. Sigue los vı́nculo de la página en la que está. Elegimos un número d, 0 < d < 1; la probabilidad del modo 2. Queremos saber lo siguiente: estando en una página determinada ¿cuál es la probabilidad de que en el próximo paso esté en otra determinada página? Para esto introducimos otra matriz P, llamada matriz de transición cuya entrada pij es la probabilidad de que estando en la página j pase al sitio i. Tenemos que: ( d 1−d + si hay un vı́nculo de j a i vı́nculos salen de j total páginas pij = 1−d si no hay vı́nculo de j a i total páginas Observe que la matriz P se puede obtener a partir de la matriz de conectividad A de la siguiente manera: P5 C(Tj )= vı́nculos que salen de la página j = i=1 aij . Dividimos la columna j de A por C(Tj ). Formamos una nueva matriz C con la columnas del paso anterior. ! 1 ... 1 (1−d) . . Entonces: P = 5 .. .. + dC. 1 ... 1 3 Si ha estudiado cadenas de Markov es posible que las siguientes explicaciones le resulten elementales y rudimentarias. Google-PageRankTM : El Algebra Lineal 241 Proceso de Iteración Un vector de probabilidades es p1 ! .. . p= p5 donde 0 ≤ pj ≤ 1 y la página j. P5 j=1 pj = 1. El número pj es la probabilidad de estar en Si p(k) es el vector de probabilidades en el k-ésimo paso de la navegación, tenemos que p(k+1) = P p(k) . Por ejemplo, si comenzamos en la página 1: p(0) = (1, 0, 0, 0, 0) después del primer paso p(1) = P p(0) es el vector (1−d) 5 (1−d) 5 d/2+ (1−d) . (1−d)5 5 (1−d) 5 d/2+ De la misma manera, al segundo paso p(2) = P p(1) = P 2 p(0) y podemos continuar para obtener que p(k) = P p(k−1) = P k p(0) . Observe que todos los vectores p(k) son de probabilidad. Lo que nos interesa son las probabilidades a largo plazo; o sea, nos preguntamos si los vectores de probabilidad p(k) = P k p(0) , k = 1, 2, . . . convergen a algún vector de equilibrio π independientemente del vector de probabilidades inicial p(0) . Si eso sucede, entonces en particular π = lı́m P k+1 π = lı́m P P k π = P ( lı́m P k π) = P π. k→∞ k→∞ k→∞ Por lo tanto π es un vector propio asociado al valor propio 1. Además por la independencia del vector inicial, si consideramos los vectores ej de la base canónica tenemos que las columnas de P k son P k ej → π, lo que implica que P k → P∞ donde cada columna de P∞ es el vector π. Convergencia en norma uno4 . Es importante tener en cuenta que los lı́mites que aparecen en este trabajo se refieren a que la norma uno del vector diferencia 4 En lenguaje probabilı́stico convergencia en variación total. 242 Markarian & Möller (t) tiende a cero. Esto significa que si vj , vj son las coordenadas j-ésimas de v (t) y v (vectores de Rn ), respectivamente, entonces lı́mt v (t) = v significa que ||v (t) − v||1 = n X (t) |vj − vj | → 0 cuando t → ∞. j=1 Veamos cómo hacemos el cálculo recursivamente en nuestro ejemplo5 utilizando d = 0,85 1. Comenzamos con un vector de probabilidad inicial 0,2 0,2 p(0) = 0,2 , 0,2 0,2 2. Calculamos ,03 ,455 ,03 ,03 ,455 ,03 ,03 ,03 ,455 ,455 ,115 ,115 ,2 . ,2 ,37 p(1) = P p(0) = = ,030 ,03 ,03 ,88 ,03 ,030 ,03 ,03 ,03 ,88 ,030 0,2 ,455 0,2 ,455 0,2 ,03 0,2 ,03 0,2 Miramos cuán próximos están: δ1 = = = ||p(1) − p(0) ||1 |,115 − 0,2| + |,115 − 0,2| +|,2 − 0,2| + |,2 − 0,2| + |,37 − 0,2| ,34. 3. Calculamos p(k) = P p(k−1) , hasta que estén suficientemente próximos, o sea δk < ε.6 4. Si ε es muy pequeño, la componente i del vector p(k) será una buena aproximación al PageRank de la página i. En el ejemplo si tomamos k=11, llegamos a: 0 0,09934354879645 1 (10) p = ⇒ 5 Sólo 0,16700649449556 @ 0,20994655573428 A 0,20521883387311 0,31848456710061 0 0,10097776016061 1 (11) p 0,16535594101776 = @ 0,20757694925625 A 0,20845457237414 0,31763477719124 δ11 = ||p(11) − p(10) ||1 = 0,00973989973037. aparecen los resultados de los cálculos. Realizados en MATLAB, formato largo. problema de estimar k en función de ε tiene importancia a la hora de implementar el cálculo; esta estimación involucra a otro valor propio de P [HK]. 6 El Google-PageRankTM : El Algebra Lineal 243 Si calculamos directamente7 el vector propio, se obtiene un resultado muy cercano al anterior 0,10035700400292 0,16554589177158 0,20819761847282 . 0,20696797570190 0,31893151005078 Observe que la página 5 es la que tiene mejor clasificación. Si se realiza el cálculo con un esquema del tipo que sigue, se verá que nuevamente la página 5 será la más relevante. 2 1 3 4 5 ¿Qué sucede si la página 5 no enlaza consigo misma? (En ese caso la página 5 representa lo que se conoce como enlace colgado.) Si vuelve al ejemplo anterior verá que aparece una división por 0 al definir la matriz P . En ese caso se calcula el de las páginas 1, 2, 3, 4 y después con esos números el de la 5. Esto es un fenómeno presente muchas veces en el cálculo del PageRank real, por ejemplo debido a enlaces a páginas que no han sido todavı́a descargadas por las “arañas” del Google (éstas aparentan no poseer enlaces salientes). 4. Google en serio Se considera el conjunto W de páginas que se pueden alcanzar a partir de una página en Google. Sea N el número de páginas en W , este número varı́a con el tiempo, (en mayo 2002 era alrededor de 2700 millones [Mo]). Consideramos la matriz N × N de conectividad de W . La matriz es enorme pero tiene una gran cantidad de ceros (en ingles, sparse matrix). Consideramos la matriz P construida de manera análoga a lo hecho en nuestro ejemplo. Esta matriz tiene todas sus entradas no negativas y la suma de los elementos de cada columna da uno; se dice que es una matriz de Markov. De acuerdo con lo expresado en la Sección anterior se trata de encontrar un vector π tal que π = P π. Se prueba P que si la matriz es de Markov y i πi = 1, entonces π es único. El elemento πj de π es el PageRank de la página j (a menos de posibles cambios de escala). Observemos que la forma recursiva de implementar el algoritmo al realizar el cálculo no es algo menor, estamos hablando de manejar una matriz que tiene 7 Utilizando las funciones eig y norm del MATLAB. 244 Markarian & Möller un tamaño de varios millones. En el Apéndice se mostrará por qué funciona esta implementación que asigna una calificación no nula única a cada página. En teorı́a sucede que toda página posee un PageRank positivo pero en el ordenamiento real se introducen como penalización una calificación nula llamada PR 0. Desde que se popularizó la utilización del Google los responsables (webmaster) de algunas sitios han intentado aumentar la calificación de sus páginas intentando manipular sus enlaces. A su vez, los administradores de Google quieren evitar trampas de este tipo, por lo que se intenta detectar y penalizar tales intentos. Públicamente se desconoce la forma en que se realiza, puesto que, diversos elementos que hacen funcionar su buscador son secretos comerciales. En la Red, existe material que especula acerca de la implementación de esta penalización [EF]. 5. Consideraciones generales En este momento, Google no sólo es el buscador más utilizado, sino que, le vende servicios a portales importantes: Yahoo, AOL, etc. Se estima que, por venta de servicios y licencias de su tecnologı́a de búsqueda tiene ganancias por 150 millones de dólares [Ec]. Un elemento no menor luego de la caı́da de las puntocom de marzo 2000. El 27 de junio de 2002, la Comisión Federal de Comercio de los Estados Unidos estableció ciertas reglas; recomendando que cualquier ordenamiento influido por criterios monetarios más que por criterios “imparciales” y “objetivos” debı́a ser claramente indicado para proteger los intereses de los consumidores. Por ello, cualquier algoritmo como éste, que aparenta ser objetivo, continuará siendo un aspecto importante para las búsquedas en la Red. Google es también el único motor de búsqueda que recorre la Red frecuentemente para mantener actualizada su base de datos (por lo menos ası́ lo ha hecho en los últimos dos años). Lleva, aproximadamente, una semana cubrir la Red y otra para calcular el PageRank. El ciclo de puesta al dı́a de Google es de aproximadamente 30 dias. Se ha advertido, que el PageRank vigente influye el recorrido mensual realizado por Google, hace que páginas con PageRank más alto sean recorridas más rápidamente y en mayor profundidad que otras con menor clasificación. Este último punto, hace que se vea como discriminatoria la naturaleza del PageRank [La], [Bra]. Se llega a afirmar que, los nuevos sitios lanzados en el 2002 tienen mayor dificultad en conseguir tráfico que antes del dominio de Google y que la estructura de enlaces de la Red ha cambiado significativamente a partir del predominio del Google. Debido a la naturaleza del orden que establece el PageRank, una búsqueda no lleva hacia la referencia “principal”sobre el tema sino hacia la acepción más Google-PageRankTM : El Algebra Lineal 245 ampliamente citada. Ya hemos observado que existen quienes intentan mejorar su calificación, y que, Google trata de controlar tales comportamientos. Se han realizado experiencias exitosas que muestran las posibilidades de utilizar “artificialmente” esta caracterı́stica para subir el PageRank de una página. En los términos utilizados en [La]: “En realidad, el poder de influencia de los diferentes actores depende sobre todo de su grado de apropiación de la Red: no alcanza con desarrollar un sitio, también hay que ser capaz de establecer vı́nculos con los otros sitios y obtener el reconocimiento de ‘los que cuentan’ en internet.” El artı́culo enfatiza aun: “Es sin duda en los temas polı́ticos -sobre los cuales cohabitan en internet puntos de vista radicalmente diferentes- donde Google pone de manifiesto sus lı́mites: sus criterios matemáticos pueden privilegiar de facto ciertas opiniones y brindar una pertinencia indebida a textos que sólo representan la opinión de unos pocos. La base y la sobrerepresentación de que se benefician los ‘adelantados’ de internet, la densidad de lazos que mantienen (sobre todo a través del fenómeno esencialmente estadounidense de los weblogs), designan matemáticamente- a los actuales ‘gurús’ de Google. Por cierto que el sistema pasó brillantemente las pruebas en cuestiones técnicas y prácticas. Pero existen terrenos en los que la pertinencia escapa a los algoritmos.” Google empresa, finalmente lanzó su cotización en el mercado electrónico NASDAQ, el 18 de agosto de 2004. Su lanzamiento, por un monto superior a 20 mil millones de dólares, utilizó un mecanismo no habitual, conocido como Remate Holandés Modificado(Modified Dutch Auction). El Google IPO (siglas en Ingles de Oferta Pública Inicial) fue la manera como se recabaron las ofertas a tráves de ciertas agencias. Este proceso sufrió varios retrasos, desde observaciones por parte de la comisión reguladora (SEC) originados por la existencia de acciones en poder de ex-funcionarios, colaboradores, etc; hasta observaciones por las declaraciones de Brin y Page a Playboy en el perı́odo en el que se debı́a mantener reservas. Han habido varias quejas y rumores sobre el acceso a este proceso, además de los retrasos mencionados debidos a las observaciones de la SEC. Para el que esté interesado, la sigla en NASDAQ de Google es GOOG. Estas son noticias ajenas al fin principal del artı́culo, sobre las cuales se producen novedades continuamente. 246 Markarian & Möller Se dice que Microsoft también estarı́a por lanzar su propia tecnologı́a de búsqueda[Ec]. Apéndice: Por qué funciona el algoritmo. Importancia de las matrices no negativas. En este Apéndice daremos una demostración algebraica de una versión probabilı́stica del Teorema de Perron-Frobenius. Distintas versiones de este teorema fueron probadas en contextos totalmente abstractos, pero la importancia de la teorı́a de matrices no negativas se ha extendido a campos muy amplios: las teorı́as de probabilidad y de sistemas dinámicos, el análisis numérico, la demografı́a, la economı́a matemática y la programación dinámica. Ver, por ejemplo [MC]. Esto se debe a que diversas variables que se miden en el mundo real, interactúan a través de relaciones positivas o nulas. A su vez, una cantidad de modelos que formalizan esas interacciones son procesos iterativos lineales en que se comienza con un estado v y se evoluciona por la aplicación reiterada de una matriz A, de modo que luego de n pasos se tiene el estado v (n) = An v. Muchas veces es fundamental saber cuándo este proceso converge a un estado único, cualquiera sea el estado de comienzo v. La teorı́a de matrices positivas responde a ésta (y muchas otras) cuestión(es). El enfoque que haremos aquı́ tiene por prerequisitos algún manejo algebraico y cursos elementales de álgebra lineal. Este enfoque sencillo y directo puede hacer perder parte del “sabor probabilı́stico”que en profundidad tienen muchos de los contenidos. Pedimos disculpas por esta opción que no es involuntaria. Se pueden encontrar otras pruebas y desarrollo de estos temas en [MC]; [Ha] Ch. 5; [Re] Ch. 2. Un tratado muy completo sobre matrices no negativas, que comienza con los resultados que nos interesan, es [Se]. Convergencia Sea B ∈ Mn×n (C) una matriz con valor propio λ1 = 1 de multiplicidad algebraica 1, y los demás valores propios satisfaciendo 1 > |λ2 | ≥ . . . ≥ |λn |. Los λi , i ≥ 2 se pueden repetir. El uno es lo que se llama un valor propio dominante. Pn Si existe una base de vectores propios vi , i = 1, . . . , n, entonces v = i=1 αi vi y n X B k (v) = α1 v1 + αi λki vi , i=2 donde sabemos que lı́mk λki = 0 para i = 2, . . . , n. Google-PageRankTM : El Algebra Lineal 247 Si no hay una base de vectores propios, o sea si la multiplicidad algebraica de alguno de los λi , i ≥ 2; es diferente de la multiplicidad geométrica, entonces habrán elementos w1 , w2 de una base (de Jordan) que satisfacen Bw1 = λi w1 + w2 , Bw2 = λi w2 . Un breve cálculo permite deducir que w2 . Este sencillo cálculo es generalizable a todas las siB k w1 = λki w1 + kλk−1 i tuaciones que se pueden presentar al tomar una base de Jordan. En la matriz de Jordan se tienen los llamados bloques de Jordan que son de la forma λI + N donde λ es un valor propio (real o complejo) I es una matriz identidad, digamos que s por s, y N una matriz “nilpotente”todas cuyas entradas son cero, excepto la linea subdiagonal P (ai,i−1 ) que está formada por s unos que verifica N s = 0. Entonces (λI + N )k = i=0 λk−i Cik N i , donde Cik son las combinaciones de k elementos tomados de a i. Por tanto B k v será combinación lineal de vectores de la base, cuyos coeficientes –con excepción del correspondiente al vector propio asociado al valor propio 1– tienden a cero cuando8 k → ∞ por tener cada valor propio –distinto del primero– módulo menor que uno. Ası́, sea la matriz B diagonalizable o no, si el uno tiene multiplicidad algebraica uno y las demás raı́ces del polinomio caracterı́stico tienen módulo menor que uno podemos garantizar que lı́m B k v = α1 v1 . k La igualdad anterior es la que nos permite realizar el cálculo iterativo cuando α1 6= 0 porque la aplicación sucesiva de la matriz B a cualquier vector con α1 6= 0 converge a múltiplos de un mismo vector (un vector propio de valor propio 1). El teorema de Perron-Frobenius nos permitirá también elegir vectores con los que comenzar el proceso, con α1 6= 0, para los que la convergencia no será al vector nulo. Matrices de Markov. Resultados principales. Decimos que una matriz B es positiva si todos sus elementos son números positivos. Lo notamos B > 0. Si X ∈ Mn×1 (R)(o M1×n (R)) es positivo decimos que X es un vector positivo. Dadas dos matrices A, B del mismo tamaño decimos que A > B si A − B es una matriz positiva. Tenemos definiciones análogas para A ≥ 0 (no negativo) si sustituimos positivos por elementos mayores o iguales a cero. Diremos que p ∈ Rn es un vector de probabilidad si es no negativo y la suma de sus componentes es uno. Definición 1 (Matrices de Markov) Dada una matriz positiva M del espacio Mn×n (R), decimos Pn que es de Markov si la suma de los elementos de cada columna es uno ( i=1 mij = 1, ∀j = 1, . . . n.) 8 Recuerde que lı́mk λki ks = 0. 248 Markarian & Möller Se probará que las matrices de Markov satisfacen las propiedades de la matriz B anterior: tienen un valor propio uno con multiplicidad algebraica uno y todos los demás valores propios con módulo menor que uno. También se probará que si el vector v es de probabilidad el valor α1 antes referido es distinto de cero. Gran parte de estas demostraciones se harán usando la matriz traspuesta M T de la matriz de Markov, que satisface que los elementos de sus filas suman uno, y tiene los mismos valores propios que M (por tener el mismo polinomio caracterı́stico). En el transcurso de la demostración de los puntos principales se demostrarán otros resultados interesantes. Resumimos todos los resultados en el siguiente Teorema. Si M es una matriz de Markov, entonces todos sus valores propios tienen módulo menor o igual que uno y sólo uno de ellos, el uno, tiene módulo uno. La multiplicidad algebraica del uno es uno y es el único que un vector propio no nulo es positivo. Para cualquier vector de probabilidad p, M k p converge en la norma 1 9 al único vector de probabilidad que es vector propio del valor propio uno. Como ya se vió estas condiciones aseguran la convergencia de M k v (para cualquier v) a un múltiplo del vector propio v1 del valor propio uno. Comencemos probando que si M es de Markov y p es de probabilidad también lo es M k p. Alcanza con probar que M p es de probabilidad. En efecto , la suma de las componentes de M p es n n X X mij pj = i=1 j=1 n X j=1 pj n X i=1 mij = n X pj 1 = 1. j=1 La segunda de las igualdades es consecuencia de que M es de Markov (ver definición). Entonces las iteraciones de un vector de probabilidad convergerán a un vector de probabilidad, que será el único vector probabilidad que es vector propio del valor propio uno. Por tanto el vector lı́mite no es nulo y se muestra, de pasada, que al escribir un vector de probabilidad v como combinación lineal de los vectores de la base de Jordan, resultará α1 6= 0. Convergencia de M T . Probaremos ahora que para cualquier w ∈ Rn , (M T )k w converge cuando k → ∞. Esta prueba será independiente de la estructura de valores y vectores propios de M T ; sólo utilizará el hecho de que M es de Markov. Necesitaremos el siguiente resultado que presentamos en forma de ejercicio con sugerencia. Ejercicio: Sean c = (c1 , . . . , cn ) ∈ Rn , 0 < γ < 1/2 tales que: 0 < γ ≤ cj , c1 + . . . + cn = 1, entonces el promedio ponderado de los números w1 , . . . wn se 9 Ver definición en Sección 3. Google-PageRankTM : El Algebra Lineal 249 define como w = c1 w1 + . . . + cn wn . Sean wmin y wmax los valores mı́nimo y máximo de los w0 s. Entonces el promedio w satisface: γwmax + (1 − γ)wmin ≤ w ≤ (1 − γ)wmax + γwmin , y wmin ≤ w ≤ wmax . Se sugiere, para probar las primeras desigualdades, hacerlo por inducción completa en n, suponiendo, por ejemplo, que al pasar de n a n + 1, se agrega el wmax . Para aplicar este resultado a nuestro problema, consideramos γ = mı́n{mij } (si n > 2, resulta γ < 1/2). Como las filas de M T suman 1, los elementos de z = M T w son promedios ponderados de los elementos de w. El resultado del ejercicio nos da estimativas para las componentes máxima y mı́nima de z, zmax ≤ (1 − γ)wmax + γwmin , γwmax + (1 − γ)wmin ≤ zmin . Esas desigualdades implican que wmin ≤ zmin ≤ zmax ≤ wmax ; zmax − zmin ≤ (1 − 2γ)(wmax − wmin ); como 0 < (1 − 2γ) < 1 la diferencia entre el valor máximo y mı́nimo de la iteración resulta una contracción. Por tanto los vectores resultantes de la aplicación sucesiva de M T convergen en la norma 1 a un vector no nulo con todas sus componentes iguales y distintas de cero si wmax > 0. Si se comienza el proceso tomando como vector w, cualquier vector con todas sus componentes iguales se observa que este vector z1 es un vector propio asociado al valor propio uno. Este es el único vector propio asociado al valor propio uno porque si hubiera otro z2 6= z1 , resultarı́a (M T )m z2 = z2 , y convergerı́a a z1 . Absurdo. Valores propios Veremos ahora que el uno tiene multiplicidad algebraica uno. Si asumimos que su multiplicidad es k > 1, como fue observado al principio de este Apéndice, resultará que la de Jordan tendrá un bloque I +N con N k = 0. Por tanto Pmatriz k m m i (I + N ) v = i=0 Ci N v que no puede converger a un vector de coordenadas acotadas puesto que las combinaciones Cim , 0 ≤ i ≤ k van para infinito con m. Las mismas expresiones usadas al principio de este Apéndice, al introducir la matriz de Jordan, muestran que no pueden haber valores propios con módulo mayor que uno, pues λm−i → ∞ cuando m → ∞. Por último, debemos probar que no hay valores propios complejos de módulo 1. Si existiera un λ = a + bi con b 6= 0 y argumento ϕ 6= 0, |λ|= 1, la matriz de a b Jordan real tendrá una submatriz de la forma J = . Entonces J m = −b a 250 Markarian & Möller cos mϕ sin mϕ . Por tanto M m v tendrá dos componentes que no − sin mϕ cos mϕ convergerán, porque las que correspondan a esa submatriz estarán dependiendo del valor de mϕ (si ϕ 6= 0, los senos y cosenos correspondientes convergen a por lo menos dos valores distintos al crecer m. Obsérvese que si ϕ es irracional, los senos y cosenos convergen a todos los valores entre -1 y 1). |λ|m Los resultados necesarios para asegurar la convergencia de M m v cuando v es un vector de probabilidad ya han sido probados. Ahora daremos otras pruebas de los mismos resultados, y completaremos el resultado faltante. Otra demostración El teorema de Gershgorin nos permite, sin calcular explı́citamente los valores propios, tener una idea de su valor: Los valores propios de una matriz P {aij } se encuentran en los cı́rculos del plano complejo de centro aii y radio i6=j aij . Como nuestra matriz es de Markov los centros son mii < 1 y los radios 1 − mii , por lo que los cı́rculos que contienen los valores propios están todos dentro del cı́rculo de centro en el origen y radio 1. Todos esos cı́rculos contienen el punto (1,0), siendo el único común con el cı́rculo unitario centrado en el origen; de lo que se deduce que el único valor propio de módulo 1 es el 1. Observación: Podemos tener matrices con valor propio 1 pero que M k no converja o que, el lı́mite M k p dependa de p. Ejemplos de esto son (en dimensión 2) ( 01 10 ) o la matriz identidad. Sea M una matriz de Markov. Consideramos r = sup{λ ≥ 0 : M x ≥ λx para algún 0 6= x ≥ 0}. Como el uno es valor propio de M existe un vector propio z = (z1 , . . . , zn ). Si llamamos M (j) a la columna j de M la igualdad M z = z la podemos escribir n X zj M (j) = z. j=1 Si tomamos valor absoluto a ambos lados de la igualdad, utilizamos la desigualdad triangular y llamamos |z| al vector (|z1 |, . . . , |zn |) obtenemos: M |z| ≥ |z|. De donde concluimos que r ≥ 1. Mostraremos que r = 1. Para ello alcanza con probar que r es valor propio de M pues los valores propios de M tienen módulos menores o iguales a uno. Google-PageRankTM : El Algebra Lineal 251 Afirmación: r es valor propio de M . Sea 0 6= ξ ≥ 0 tal que M ξ ≥ rξ. Si M ξ 6= rξ tenemos que el vector 0 6= y = M ξ − rξ > 0 como M es positiva se cumple que M y > 0 y por lo tanto existe ε > 0 tal que M y ≥ εM ξ o sea M (M ξ − rξ) ≥ εM ξ ⇒ M (M ξ) ≥ (r + ε)M ξ. Considerando el vector M ξ la desigualdad anterior contradice la definición del r. Entonces M ξ = rξ como querı́amos mostrar. Obsérvese que como M > 0 llegamos a que el vector ξ = (ξ1 , . . . , ξn ) es positivo. Afirmación: El uno es el único valor propio asociado con un vector propio z con todas sus componentes ≥ 0. Este enunciado sólo tiene sentido para valores propios reales porque los valores propios no reales (complejos) deben tener vectores propios con algunas o todas sus coordenadas complejas. Sea z = (z1 , . . . , zn ) un tal vector propio de M , con valor propio λ. Algún zi deber ser mayor que cero (¿Por qué?). Sea zi , con zi 6= 0 . α = mı́n ξi De la definición de α vemos que existe algún p, 1 ≤ p ≤ n con zp = αξp > 0. Como λz = M z ≥ αM ξ = αξ si miramos la componente p-ésima λzp ≥ αξp = zp ⇒ λ ≥ 1. Referencias [BDJ] M. Berry, Z. Drmac & E. Jessup, Matrices, Vector Spaces and Information Retrieval, SIAM Review 41 (1999), 335-362. [BP] Sergey Brin & Lawrence Page, The anatomy of a large scale hypertextual web search engine. Computer Networks and ISDN Systems, 33 (1998), 107117. [Bra] Daniel Brandt, PageRank: Google’s original sin. http://www.google-watch.org/pagerank.html [DR] Pedro Domingos & Matthew Richardson, The intelligent surfer: probabilistic combination of link and content information in PageRank. Advances in Neural Information Processing Systems 14 (2002). [Ec] How good is google? The economist, print edition, October 30th, 2003. 252 Markarian & Möller [EF] A Survey of Google’s PageRank. http://pr.efactory.de [Gr] Juan-Miguel Gracia, Algebra Lineal tras los buscadores de Internet. http://www.vc.ehu.es/campus/centros/farmacia/deptosf/depme/gracia1.htm [Ha] O. Haggstrom, Finite Markov Chains and Algotihmic Applications, Cambridge University Press, 2002. [HK] T. Haveliwala and S. Kamvar, The Second Eigenvalue of the Google Matrix. A Stanford University Technical Report http://dbpubs.stanford.edu:8090/pub/2003-20 [Ka] Jerry Kazdan, Solving Equations, An elegant Legacy. American Math. Monthly, 105 (1998), 1-21. Versión expandida en http://www.math.upenn.edu/˜kazdan [Ke] M. Kendall, Further contributions to the theory of paiRed comparisons. Biometrics 11 (1955), 43-62. [La] Pierre Lazuly, El mundo según Google. Le Monde diplomatique/el Dipló/, edición cono sur, Octubre 2003, 36-37. [MC] C.R. MacCluer, The many proofs and applications of Perron’s Theorem, SIAM Review 42 (2000), 487-498. [Mo] Cleve Moler, The World’s Largest Matrix Computation. Matlab News and notes, Cleve’s corner. http://www.mathworks.com/company/newsletter/clevescorner/ [Pe] Motores de consulta. http://librosdigitales.net/eureka/eureka0903/motores.htm [Re] S. Resnick, Adventures in Stochastic Processes, Birkhauser, 1992. [Se] E. Seneta, Non-negative Matrices and Markov Chains. 2md. Edition. Springer, 1981. [We] T. Wei, The algebraic foundations of ranking theory. Cambridge University, England (1952). Tésis no publicada. [Wi] Herbert Wilf, Searching the http://www.math.upenn.edu/˜wilf/ Roberto Markarian & Nelson Möller IMERL - Facultad de Ingenieria Universidad de la República - URUGUAY web with eigenvectors. Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 253 INFORMACIÓN INTERNACIONAL La Esquina Olı́mpica Rafael Sánchez Lamoneda En esta oportunidad reseñaremos la actividad olı́mpica del segundo semestre de 2004. Como ya es tradición participamos en la 45 Olimpiada Internacional de Matemáticas, IMO, celebrada en Atenas, Grecia, del 6 al 18 de Julio y la XIX Olimpiada Iberoamericana de Matemáticas, OIM, celebrada en Castellón, España, del 18 al 26 de Septiembre. Además recibimos los resultados de la Olimpiada Bolivariana de Matemáticas. En todas estas competencias ganamos premios, mostrando que vamos por buen camino y que nuestros estudiantes alcanzan niveles de competencia adecuados, cuando se trabaja fuerte con ellos. Antes de enumerar los premios y los ganadores, quiero aprovechar la oportunidad para reconocer el trabajo desinteresado que llevan adelante Adolfo Rodrı́guez, Héctor Chang, David Segui y Tomás Kabbabe, jóvenes exolı́mpicos, que ahora estudian matemáticas o carreras afines y que comparten sus actividades con la labor de entrenamiento de los estudiantes que conforman nuestras delegaciones. A continuación se listan las delegaciones y premios obtenidos en la segunda mitad del año. 45a IMO Leonardo Urbina. Mención Honorı́fica. Rodrigo Ipince Tomás Kabbabe. Tutor de delegación.USB. Rafael Sánchez. Jefe de delegación. UCV. XIX OIM Maximiliano Liprandi. Medalla de Bronce. Rodrigo Ipince. Mención Honorı́fica. Roland Hablutzel. Mención Honorı́fica. Andrés Guzmán. Mención Honorı́fica. David Segui. Tutor de la delegación. USB. Henry Martı́nez. Jefe de la delegación. UPEL-IPC. 254 R. Sánchez Mención aparte haremos de la Olimpiada Bolivariana de Matemáticas. Este evento lo organiza la Universidad Antonio Nariño de Colombia y participan por correspondencia los paı́ses andinos y Panamá. Hay dos niveles de competencia, los cuales tienen que ver con la escolaridad de los concursantes, nivel intermedio y nivel superior . Los resultados obtenidos este año son bastante buenos. En el nivel intermedio el joven Andrés Guzmán ganó medalla de oro y en el nivel superior Leonardo Urbina obtuvo medalla de oro y Tamara Mendt y Carlos Molina ganaron medallas de bronce. Una información completa sobre este evento y los otros que hemos reseñado, la pueden encontrar visitando nuestra página web, http://ares.unimet.edu.ve/matematica/acm . Sin más preámbulos los dejo con los problemas de la 45a IMO. 45a Olimpiada Internacional de Matemáticas Primer dı́a Lunes 12 de julio de 2004 Problema 1. Sea ABC un triángulo acutángulo con AB 6= AC. La circunferencia de diámetro BC corta a los lados AB y AC en M y N , respectivamente. Sea O el punto medio del lado BC. Las bisectrices de los ángulos ∠BAC y ∠M ON se cortan en R. Demostrar que las circunferencias circunscritas de los triángulos BM R y CN R tienen un punto en común que pertenece al lado BC. Problema 2. Encontrar todos los polinomios P (x) con coeficientes reales que satisfacen la igualdad P (a − b) + P (b − c) + P (c − a) = 2 P (a + b + c) para todos los números reales a, b, c tales que ab + bc + ca = 0. Problema 3. Un gancho es una figura formada por seis cuadrados unitarios como se muestra en el diagrama o cualquiera de las figuras que se obtienen de ésta rotándola y/o reflejándola. Determinar todos los rectángulos m × n que pueden cubrirse con ganchos de modo que • el rectángulo se cubre sin huecos y sin superposiciones; La Esquina Olı́mpica 255 • ninguna parte de ningún gancho sobresale del rectángulo. Duración del examen: 4 horas 30 minutos. Cada problema vale 7 puntos. 45a Olimpiada Internacional de Matemáticas Segundo dı́a Martes 13 de julio de 2004 Problema 4. Sea n ≥ 3 un entero. Sean t1 , t2 , . . . , tn números reales positivos tales que 1 1 1 2 n + 1 > (t1 + t2 + · · · + tn ) + + ··· + . t1 t2 tn Demostrar que ti , tj , tk son las medidas de los lados de un triángulo para todos los i, j, k con 1 ≤ i < j < k ≤ n. Problema 5. En un cuadrilátero convexo ABCD la diagonal BD no es la bisectriz ni del ángulo ∠ABC ni del ángulo ∠CDA. Un punto P en el interior de ABCD verifica ∠P BC = ∠DBA y ∠P DC = ∠BDA. Demostrar que los vértices del cuadrilátero ABCD pertenecen a una misma circunferencia si y sólo si AP = CP . Problema 6. Un entero positivo es alternante si, en su representación decimal, en toda pareja de dı́gitos consecutivos uno es par y el otro es impar. Encontrar todos los enteros positivos n tales que n tiene un múltiplo que es alternante. Duración del examen: 4 horas 30 minutos. Cada problema vale 7 puntos. Escuela de Matemáticas Universidad Central de Venezuela, Venezuela rsanchez@euler.ciens.ucv.ve Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 257 LIBROS Guillermo Martı́nez, Los Crı́menes de Oxford Editorial Destino, Barcelona, Collección Ancora y Delfı́n Volumen 992, 2004 Reseñado por Carlos Augusto Di Prisco El último teorema de Fermat y el anuncio de su demostración por Andrew Wiles, el teorema de incompletitud de Gödel y sus implicaciones filosóficas, la doctrina pitagórica y su representación mı́stica de los números, todos estos hitos de la historia de las matemáticas, antigua y reciente, aparecen en esta obra de Guillermo Martı́nez ligados a una serie de misteriosos crı́menes y a una relación amorosa para ofrecer al lector una novela enmarcada en la tradición de la novela negra inglesa. En este ámbito nuestro autor elabora un juego en el que se combinan las actividades casi rituales de la vida académica y la rica complejidad de las relaciones humanas. En Guillermo Martı́nez se conjugan dos vidas, la del matemático y la del escritor. Nació en Bahı́a Blanca, Argentina en 1962. Doctor en matemáticas, docente e investigador en la Facultad de Ciencias exactas de la Universidad de Buenos Aires, se ha destacado como nueva figura literaria en Argentina y ahora a nivel mundial. Los Crı́menes de Oxford, su tercera novela publicada, recibió el premio Planeta Argentina 2003. En 1989 publicó la colección de cuentos, Infierno grande, que contiene piezas de gran valor, algunas de las cuales dejan en el lector una satisfacción no desprovista de angustia por los desenlaces de las situaciones narradas; otras, deleitarán a todo aquel que se haya enfrentado alguna vez a ochenta estudiantes principiantes sin más instrumentos de defensa que una barra de tiza y una pizarra. Guillermo Martı́nez ha publicado también una serie de trabajos matemáticos en revistas de gran prestigio cientı́fico tales como Algebra Universalis, Studia logica, Order, y Annals of Pure and Applied Logic. No es la primera vez que se da una afortunada combinación de matemáticas y literatura en un autor. Bertrand Russell, cuyo trabajo matemático de principios del siglo veinte tuvo una gran importancia para el desarrollo de los fundamentos de las matemáticas, recibió el Premio Nobel de literatura; y el autor de Alicia en el paı́s de las maravillas , Lewis Carroll, era también especialista en lógica matemática. Un joven matemático argentino llega a Oxford con una beca para estudiar durante un año bajo la guı́a de una destacada profesora. A los pocos dı́as de su llegada, la propietaria de la casa donde ha alquilado una habitación aparece asesinada, y ası́, sin quererlo, se encuentra en el centro de una investigación policial que debe ir descifrando las señales cargadas de contenido matemático 258 libros : G. Martı́nez, Los Crı́menes de Oxford que a manera de reto intelectual deja el supuesto criminal, aparentemente para medir fuerzas con uno de los matemáticos más famosos de la época, Arthur Seldom, quien años antes habı́a publicado un libro sobre series en el que incluye, justamente, una sección sobre crı́menes en serie. Ya no de forma tan azarosa se envuelve también este joven en una relación amorosa que lo sumerge aún más en la intriga. El estudiante, quien es el narrador de la historia, observa cuidadosamente su alrededor y describe modales y carcterı́sticas inglesas con fino humor. De los ingleses y su cuidadoso ahorro de gestos dice: “aún en esa risa espontánea habı́a algo contenido, como si se tomaran una libertad infrecuente de la que no debı́an abusar...”. Martı́nez reconoce, en una entrevista reciente, una cierta coincidencia “entre su mirada y la del protagonista de su novela”; de hecho, algunos pasajes parecieran tener un revelador carácter autobiográfico: “¿Porqué se hizo Ud. matemático?- me preguntó sorpresivamente. -No sédije- quizás fue una equivocación, siempre creı́ que iba a seguir una carrera humanı́stica. Supongo que lo que me atrajo de las matemáticas es la clase de verdad que encierran los teoremas: atemporal, inmortal, suficiente en si misma, y a la vez absolutamente democrática.” Esta novela fue publicada en Argentina en 2003 con el tı́tulo Crı́menes imperceptibles , a mi manera de ver, más apropiado que el tı́tulo adoptado para la edición española de 2004. Durante la búsqueda de pistas que orienten la invesigación hacia el culpable, el joven argentino y el profesor Arthur Seldom, conocido por sus estudios sobre las implicaciones del teorema de Gödel, llegan a la conclusión de que el autor de los asesinatos desea precisamente que sus actos sean imperceptibles, crı́menes perfectos que no dejen huellas, que no causen daño ni sufrimiento innecesario, buscando sus vı́ctimas entre personas cuyas expectativa de vida ya ha sido sobrepasada. El crimen perfecto no es aquel que permanece sin solución, sino el que “se resuelve con un culpable equivocado”. En palabras del autor, se trata en este caso de crı́menes casi abstractos. Quizás el verdadero protagonista de la novela es el profesor Seldom quien se convierte en la figura clave para descifrar los mensajes que anuncian las muertes. Este personaje hace reflexiones profundas, y nos hace intuir una compleja personalidad de la que quedamos con ganas de saber mucho más. “Hay una diferencia entre la verdad y la parte de la verdad que puede demostrarse, ése es en realidad un corolario de Tarski sobre el teorema de Gödeldijo Seldom-. Por supuesto, los jueces, los forenses, los arqueólogos, sabı́an esto mucho antes que los matemáticos. Pensemos en cualquier crimen con sólo dos posibles sospechosos. Cualquiera de ellos abe toda la verdad que interesa: yo fui o yo no fui. Pero la justicia no puede acceder directamente a esa verdad, y tiene que recorrer un penoso camino indirecto para reunir pruebas: interrogatorios, coartadas, huellas digitales... Demasiadas veces las evidencias que se encuentran no alcanzan para probar la culpabilidad de uno ni la inocencia del otro. En el fondo, lo que demostró Gödel en 1930 con su teorema de incompletitud libros : G. Martı́nez, Los Crı́menes de Oxford 259 es que exactamente lo mismo ocurre en la matemática... ” “...el método axiomático puede ser a veces tan insuficiente como los criterios precarios de aproximación de la justicia...” Esta bien lograda novela corta, de poco más de doscientas páginas, capta desde la primera lı́nea la atención del lector, y lo mantiene en suspenso hasta el inesperado desenlace final. Guillermo Martı́nez demuestra una vez más su calidad de escritor. Su primera novela, Acerca de Roderer, fue publicada en 1996, y recibió comentarios elogiosos de la crı́tica. Posteriormente publicó La mujer del maestro (1998), y un libro de ensayos titulado Borges y la matemática (2003). Carlos Augusto Di Prisco Instituto Venezolano de Investigaciones Cientı́ficas Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 261 EDITORIAL Quince años de la Asociación Matemática Venezolana En mayo de 1989 se realizó en la Universidad de Oriente, Cumaná, una reunión para promover la creación de la Asociación Matemática Venezolana. Unos sesenta matemáticos estuvieron presentes, y acordaron establecer una asociación sin fines de lucro y de carácter cientı́fico con el objetivo de contribuir al desarrollo de la matemática en Venezuela. El 10 de enero de 1990 se registró el acta constitutiva de la Asociación Matemática Venezolana para formalizar su existencia y para darle personalidad jurı́dica. La Asociación se inició con base en algunas actividades que la comunidad matemática venı́a desarrollando en Venezuela desde un poco antes: la Escuela Venezolana de Matemáticas y las Jornadas Venezolanas de Matemáticas. Desde entonces las actividades de la AMV se han consolidado y diversificado. Hoy en dı́a, además de las Jornadas y la Escuela, la Asociación promueve la realización de los talleres de formación matemática TForMa, y publica un boletı́n con dos números por año. Las Jornadas Venezolanas de Matemáticas se realizan anualmente como encuentro de los matemáticos venezolanos y son el foro natural para la presentación de resultados de investigación de los distintos grupos que mantienen su actividad en las universidades e institutos nacionales. Las jornadas se organizan en torno a sesiones temáticas de presentación de trabajos, e incluyen algunas conferencias plenarias. En marzo de 2005 se realizarán las décimo octavas jornadas en la Universidad Central de Venezuela. La Escuela Venezolana de Matemáticas se realiza anualmente también desde hace dieciocho años. Su sede permanente es la Facultad de Ciencias de la Univesidad de Los Andes. En cada oportunidad, la Escuela ofrece varios cursos intensivos, generalmente cuatro, de nivel de postgrado, con el objetivo principal de ofrecer a los estudiantes que se inician en el cuarto nivel de estudios de matemáticas una perspectiva amplia de los temas que se desarrollan en el paı́s. Se pretende que en cada curso se llegue a plantear problemas o direcciones de investigación que puedan servir como punto de partida para la realización de tesis y trabajos de grado. Se pide al profesor de cada curso que escriba unas notas de una cien páginas que sirvan de bibliografı́a básica para el curso y de material de estudio que el interesado pueda utilizar posteriormente. Se cuenta ya con una colección de más de ochenta tı́tulos en diversas áreas de las matemáticas escritos para estas escuelas, lo que constituye una fuente bibliográfica valiosa que está al alcance de cualquier estudioso que desee profundizar conocimientos. Los Talleres de Formación Matemática TForMa tienen la finalidad de darle a los estudiantes de las licenciaturas de matemáticas una oportunidad de recibir información cientı́fica complementaria a los cursos que usualmente se dictan 262 Editorial : Quince años de la AMV en los programas de licenciatura y a la vez sirven de lugar de encuentro de estudiantes de distintas universidades. Estos talleres se iniciaron en 2000 y se han realizado en distintas instituciones de educación superior. Para los cursos de los talleres también se elaboran textos de apoyo. El Boletı́n de la Asociación se publica de manera continua desde su primer número aparecido en 1994. Inicialmente su contenido fue más de carácter informativo y de divulgación cientı́fica especializada, pero recientemente se han comenzado a publicar en el Boletı́n artı́culos de investigación con resultados originales. Además, el Boletı́n incluye secciones de información matemática nacional e internacional, temas de matemáticas recreativas, y una sección llamada La Esquina Olı́mpica que contiene información sobre competencias matemáticas y los problemas que allı́ se plantean. La Asociación ha dado su apoyo también al proyecto de olimpı́adas matemáticas, tanto a nivel nacional como internacional, y en la actualidad se están estableciendo los mecanismos para que todos los capı́tulos de la Asociación participen activamente en este programa. Alguna información adicional sobre la AMV y sus actividades se puede obtener en http://amv.ivic.ve Carlos A. Di Prisco Presidente de la AMV Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 263 AGRADECIMIENTO Agradecemos la colaboración prestada por las siguientes personas en el trabajo editorial del volúmen XI del Boletı́n de la AMV: Isaı́as Alonso Mallo, Julio César Alvarez, Diómedes Bárcenas, Pedro Berrizbeitia, Antonio Campillo, Carlos Di Prisco, Vicenç Font, José Giménez, Luis Gómez Sánchez, Henryk Gzyl, John Neuberger, Neptalı́ Romero, Jesús Tapia y Juan Tena