Vol. XI • No. 2 • A˜ no 2004 1

1 1 0.5 0.5 -1 -1 -0.5 0.5 1 -0.5 0.5 1 1.5 -0.5 -0.5 -1 Fractales de Rauzy (Ver V. Sirvent, p. 191) Vol. XI • No. 2 • Año 2004 ' $ Boletı́n de la Asociación Matemática Venezolana & Volumen XI, Número 2, Año 2004 I.S.S.N. 1315–4125 % Editor Argimiro Arratia Comité Editorial Oswaldo Araujo Eduardo Lima de Sá Alejandra Cabaña Gerardo Mendoza Joaquı́n Ortega El Boletı́n de la Asociación Matemática Venezolana se publica dos veces al año en forma impresa y en formato electrónico. Sus objetivos, información para los autores y direcciones postal y electrónica se encuentran en el interior de la contraportada. Desde el Volumen VI, Año 1999, el Boletı́n aparece reseñado en Mathematical Reviews, MathScinet y Zentralblatt für Mathematik. Asociación Matemática Venezolana Presidente Carlos A. Di Prisco Capı́tulos Regionales CAPITAL Carlos A. Di Prisco, Matemáticas, IVIC cdiprisc@ivic.ve LOS ANDES Oswaldo Araujo, Matemáticas, ULA araujo@ciens.ula.ve ZULIA–FALCON Fernando Sánchez, Matemáticas, LUZ fsanchez@luz.ve CENTRO–OCCIDENTAL Neptalı́ Romero nromero@uicm.ucla.edu.ve Matemáticas, UCLA ORIENTE Jacques Laforgue laforgue@sucre.udo.edu.ve Matemáticas, UDO La Asociación Matemática Venezolana fue legalmente fundada en 1990 como una organización civil cuya finalidad es trabajar por el desarrollo de la matemática en Venezuela. Para más información ver su portal de internet o escribir a su dirección postal. Asociación Matemática Venezolana Apartado 47.898, Caracas 1041–A, Venezuela amv@usb.ve http://amv.ivic.ve/ El Boletı́n de la Asociación Matemática Venezolana está dirigido a un público matemático general que incluye investigadores, profesores y estudiantes de todos los niveles de la enseñanza, además de profesionales de la matemática en cualquier espacio del mundo laboral. Son bienvenidos artı́culos originales de investigación en cualquier área de la matemática; artı́culos de revisión sobre alguna especialidad de la matemática, su historia o filosofı́a, o sobre educación matemática. El idioma oficial es el español, pero también se aceptan contribuciones en inglés, francés o portugués. Todas las contribuciones serán cuidadosamente arbitradas. El Boletı́n publica información sobre los eventos matemáticos más relevantes a nivel nacional e internacional, además de artı́culos de revisión y crı́tica de libros de matemática. Se agradece el envı́o de esta información con suficiente antelación. Todo el material a ser publicado es revisado cuidadosamente por los editores. Sin embargo, el contenido de toda colaboración firmada es responsabilidad exclusiva del autor. Cualquier colaboración debe ser enviada al Editor, preferiblemente por correo electrónico (via bol-amv@ma.usb.ve) como archivo postscript, pdf, o un dialecto estándar de TeX. Las colaboraciones en forma impresa deben enviarse por triplicado con figuras y sı́mbolos cuidadosamente dibujados a la Dirección Postal. Para la preparación del manuscrito final recomendamos y agradecemos usar los archivos de estilo LaTeX del Boletı́n que se encuentran en su página web. El precio actual de un ejemplar es de Bs. 10.000 (US$ 10). The Boletı́n de la Asociación Matemática Venezolana (Bulletin of the Venezuelan Mathematical Association) is address to a broad mathematical audience that includes researchers, teachers and students at all collegiate levels, and also to any mathematics professional wherever in the labour world. We welcome papers containing original research in any area of mathematics; expository papers on any topic of mathematics, its history or philosophy, or education. The official language is Spanish, but contributions in English, French or Portuguese are also acceptable. All contributions will be carefully refereed. The Boletı́n publishes information on any relevant mathematical event, national or international, and also book reviews. We appreciate receiving this type of information with plenty of time in advance. All material to be published is carefully revised by the editors. Nonetheless, the content of all signed contributions is of the exclusive responsability of the author. All contributions should be sent to the Editor, preferably by email (via bolamv@ma.usb.ve) in postscript, pdf, or any standard self-contained TeX file. Submissions in printed form should be sent in triplicate with figures and symbols carefully drawn to our Postal Address. For the preparation of the final manuscript we recommend and appreciate the use of the appropriate LaTeX style file of the Boletı́n, which can be downloaded from its web page. The current price for one issue is Bs. 10.000 (US$ 10). $ ' Boletı́n de la Asociación Matemática Venezolana Apartado 47.898, Caracas 1041–A, Venezuela Tel.: +58-212-5041412. Fax: +58-212-5041416 email: bol-amv@ma.usb.ve URL: http://boletinamv.ma.usb.ve/ & Impreso en Venezuela por Editorial Texto, C.A. Telfs.: 632.97.17 – 632.74.86 % ' $ Boletı́n de la Asociación Matemática Venezolana & Volumen XI, Número 2, Año 2004 PRESENTACIÓN % 131 ARTÍCULOS Classical analogues of quantum paradoxes Henryk Gzyl Conservación de propiedades del anillo de polinomios y del anillo de series en la clase de los anillos de conductor finito Nelsy González, Omaida Sepúlveda & Oswaldo Lezama Simetrı́a y nuevas soluciones de la ecuación de Black Scholes Nikolay Sukhomlin Sistemas de numeración, sistemas dinámicos substitutivos y fractales de Rauzy Vı́ctor F. Sirvent 133 151 175 191 ENSAYO Determinismo, indeterminismo y la flecha del tiempo en la ciencia contemporánea Daniel A. Morales 213 MATEMÁTICAS RECREATIVAS La importancia de cada nodo en una estructura de enlaces: Google-PageRankTM Roberto Markarian & Nelson Möller 233 INFORMACIÓN INTERNACIONAL La Esquina Olı́mpica Rafael Sánchez Lamoneda 253 LIBROS Los Crı́menes de Oxford, por Guillermo Martı́nez Reseñado por Carlos Augusto Di Prisco 257 EDITORIAL Quince años de la AMV Carlos Augusto Di Prisco 261 AGRADECIMIENTO 263 Asociación Matemática Venezolana Apartado 47.898, Caracas 1041 – A, Venezuela Boletı́n de la Asociación Matemática Venezolana Vol. XI • No. 2 • Año 2004 Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 131 Presentación En este Boletı́n ofrecemos al lector los artı́culos de investigación de Henryk Gzyl, en mecánica cuántica; Nelsy González, Omaida Sepúlveda y Oswaldo Lezama, en álgebra; Nikolay Sukhomlin, sobre la ecuación de Black Scholes; Vı́ctor F. Sirvent, sobre sistemas dinámicos y fractales; un ensayo filosófico de Daniel A. Morales sobre el determinismo e indeterminismo en las ciencias naturales y en la matemática; por último, la explicación de la matemática que fundamenta el popular buscador de internet Google, por Roberto Markarian y Nelson Möller. Todos artı́culos de gran calidad, aceptados por nuestro comité editorial luego de riguroso arbitraje por expertos en cada uno de los temas de estas investigaciones. Las secciones habituales de nuestro Boletı́n traen información que no pueden dejar de leer: los nuevos logros de nuestros campeones de olimpiadas matemáticas reportado por Rafael Sánchez, y reseña de lo más reciente en la literatura matemática por Carlos Di Prisco. Además, Di Prisco, quien se estrena como nuevo presidente de la Asociación Matemática Venezolana, cierra este Boletı́n con un breve homenaje a los quince años bien cumplidos de la AMV. A. A. Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 133 Classical analogues of quantum paradoxes Henryk Gzyl Abstract In this note we discuss a few simple classical (as opposed to quantum) prediction problems. The thrust of this work is to examine the predictive role of probability theory and we shall see that some situations are not really paradoxical. In particular we want to separate the role of probability as a predictive tool from one of the basic sources of strangeness in quantum mechanics, namely the principle of superposition of states. For that we shall re-examine some of the quantum paradoxes, recast as a problem about making a prediction about the result of a random experiment in classical physics when some information is known. 1 Preliminaries There is a vast, academic and non-academic, which does not mean non-serious, popular literature, about the strangeness of quantum phenomena and how this strangeness forces us to re-examine our image or our paradigms about the material world. A very small sample is [A],[C],[d’E], [F],[K],[KN],[M],[T] and the fabulous collection [WZ]. But no item in this collection separates the two issues mentioned in the abstract, namely, that the strangeness in quantum theory does not come from its being a curious mathematical model about phenomena that seem to be intrinsically random, but from the inner structure of the mathematical model itself. In quantum mechanics the strangeness does not come from its being a probabilistic theory, but from a combination of two facts: on one hand the superposition principle (implicit in the fact that states are modeled by vectors over the field of complex numbers), and on the other hand, from the fact that probabilities are obtained from the absolute values of the components of the vector describing the states. What we are going to do in this note is to examine some problems in which a prediction has to be made about a classical experimental setup that imitates and parallels the setup associated to some of the quantum paradoxes. Thus in spirit we are close to Mermin’s [Me]. Our emphasis is on examining in what does the process of prediction consist of, and what is the influence of the available information on it. 134 H. Gzyl In a lengthy (but necessary for making this note self contained) appendix we recall the very basic ingredients of mathematical probability theory. The readers familiar with that material, may skip it, but those that have never heard of it, must read it. It is basically a collection of standard definitions accompanied by an explanation for their need. The important part of that section is the description of the predictive tool in probability theory, namely the concept of conditional expectation, and the formal use of the concept of σ-algebras as carriers of information. The content of each section is described below, but the message is that a predictor is described by a conditional expectation, which is a random variable whose value depends on information provided by a measurement, and once the measurement is made, the predictor provides us with a prediction. In section 2 we consider an alternative, simple version of the two slit experiment. Instead of two slits, we have two point light sources. Here the randomness will come from the fact that we do not know which source is on, and we have to predict the observed signal. In section 3 we shall consider the classical version of Schroedinger’s cat and in section 4 the classical version of the EPR paradox (after Einstein, Rosen and Podolsky). Both in the first and last example the role of prior information role will be important for completing the prediction of the outcome. In section 5 we present a proof of the proof of Bell’s inequalities, just to emphasize that there is nothing in them having to do with quantum phenomena. See [K] for a glimpse at the vast literature in this area. We close this section with a few words about random variables. The formal definition is given in section 6, but an understanding of the concept is essential for following section (2)-(5). A random variable is the mathematical object ( a function, to be specific) designed to model the result of a measurement in an experiment, and an experiment can be thought of as a sequence (finite, infinite, discrete or continuous, of measurements). The values taken by the random variable, are identified with the results of possible measurements of the variable, but the actual mathematical framework chosen does not have anything to do with the actual measurement process. A couple of example will clarify the issue. For example, to describe the results of the toss of a coin we need functions taking values in the set {H, T }, or to describe life-times, we shall use variables taking values in [0, ∞), regardless of how toss the coin or how we measure the life-times. But more important, a random variable is a function which stands for a collection of values. This issue is related to the question: In what state is the coin? Or, has the particle decayed or not?. The state is known after the coin or the particle are observed. This is the exact counterpart of the fact that a function is a collection of values taken at points and should not be confused with the values of the function at specific points. This is essential when interpreting Classical analogues of quantum paradoxes 135 conditional expectations, which are random variables, whose values are the best predictors of some variable when another variable is observed. 2 The two sources experiment To avoid dealing with waves behind diffracting holes, we shall consider an experimental setup in which we have two sources emitting continuously monochromatic light of frequency ν, located at x± = (0, 0, ±h). An observer at x would eiνkx−x± k coming from each of them. But regretfully Mr. see a signal u± (x) = 2πkx−x ±k Prankster is in charge of the lights and he tosses one or two coins to decide which source he will let shine or not. Thus the observer does not know in advance what Mr. Prankster will do but he has to predict what will be observed on the basis of any observation that he may gather. Assume first that the decision will be made on the basis of a coin toss. In order to model this set up he chooses Ω = {H, T } and then the signal at any arbitrary (but fixed x, to avoid dealing with function valued random variables) all he knows is that the signal has to be modeled by a random variable U = u+ (x)IH + u− (x)IT , and if does not have any other information, then the best prediction he can make is that on the average he will observe E[U ] = pH u+ (x) + pT u− (x). This is a good point to insist on the difference between a prediction like E[U ] and an observed value: When one observes a random variable, U in this case, each time one of its possible values is seen, even if the initial set up is the same. Since these differ from observation to observation, one performs a statistical analysis on the data, and an expected (value to be seen upon average) is provided. But assume that he is given information consisting of the specification of which bulb is on. This is modeled by a σ-algebra F = {∅, {H}, {T }, Ω}, i.e., the full information about the setup. He knows that his best predictor must be computed as E[U | F] = U , and when he is told that the result of the toss is an H, he then predicts that he will observe u+ (x). Assume now that the observer knows that Mr. Prankster is using two coins. Then to model the outcome of a single toss he considers Ω = {(H, H), (H, T ), (T, H), (T, T )}, and all the information about the experiment is contained in the σ-algebra P(Ω). Assume that he knows the probabilities {p1 , p2 , p3 , p4 } as listed above. The signal to be observed is modeled by the random variable (random field) U = (u+ (x) + u− (x))I{(H,H)} + u+ (x))I{(H,T )} + u− (x))I{(T,H)} . Note again that the vales of U , that is of the observed field, depend on the result of the throw of the two coins. Now in the absence of any information, the best prediction that the observer can make is given by E[U ] = p1 (u+ (x) + u− (x)) + 136 H. Gzyl p2 u+ (x) + p3 u− (x) = (p1 + p2 )u+ (x) + (p1 + p3 )u− (x). Clearly p1 + p2 and p1 + p3 are, respectively the probabilities that the sources at x± are on. These were denoted by pH and pT a few lines above. Assume now that all the observer is able to find out is that either the two sources may be in the same state. That is, assume that both of the sources are on or off, or that either of them may be on and the other off. The given information corresponds to the partition of {{(H, H), (T, T )}, {(H, T ), (T, H)}} of Ω. Denote by G the σ-algebra that it generates. The best predictor given this information is the random variable E[U | G] taking values E[U | {(H, H), (T, T )}] = E[U | {(H, T ), (T, H)}] = p1 p1 (u+ (x) + u− (x)) = (u+ (x) + u− (x)) p1 + p4 p1 + p 4 p2 u+ (x) + p3 u− (x) p2 p3 = u+ (x) + u− (x). p2 + p 3 p2 + p3 p2 + p 3 respectively whenever the event {(H, H), (T, T )} or {(H, T ), (T, H)} occurs. The probabilities of occurrence of each of the events are, respectively p1 +p4 and p2 + p3 . To make the role of the prior information more apparent, assume that the observer knows that one of the events in the following partition of Ω occurs: {{(H, H), (T, T )}, {(H, T )}, {(T, H)}}. The difference with the previous case is that when the observer finds out that one of the sources is uncovered, he knows that the other is covered. If we denote by G1 the σ algebra generated by that partition, then the best predictor of the random field U is the random variable (random field) E[U | G1 ] = u+ (x)I{(H,T )} +u− (x)I{(T,H)} + p1 (u+ (x)+u− (x))I{(H,H),(T,T )} . p1 + p4 Observe for example, that if the toss of the coins were (T, T ), then we would see no signal, but if it were (H, T ), we would see u+ (x). And equally important, that the three possible results would occur with probabilities p2 , p3 and p1 +p4 . The difference between this and the first case treated, is that now both sources may be on or off, whereas in the first case one was on while the other was off. 3 Is the bird in the cage or not? Let us now examine the classical variant of the Schroedinger cat paradox. Our setup consists of a light bulb with an exponential lifetime, and a bird in a cage. The setup is such that if the light bulb burns out, the latch on the bird’s cage is released and the bird flies away. The issue is whether, upon observation, will we find the bird in the cage or not? To describe the result of one measurement of a lifetime, the following sample space is adequate: Ω = [0, ∞), and all questions we can ask about the measurement are represented by F = B([0, ∞)). As Classical analogues of quantum paradoxes 137 probability measure we choose P (dt) = τ1 e−t/τ . The random variable of interest is the lifetime of the bulb, described by T : Ω → [0, ∞) such that T (u) = u, that is we shall find convenient to think of the points u ∈ Ω as “life-histories” of the light bulb. The distribution of this variable is P ({T > t}) = e−t/τ , which is to be read as: the fraction of life-histories longer that t is e−t/τ . Let the position of the latch be denoted by > if it is open and by ⊥ if it is closed. The random state of the latch at time t is described by a random variable Xt : Ω → {>, ⊥} given by Xt (u) = > whenever T(u) ≤ t; or Xt (u) = ⊥ whenever T(u) > t. What happens here? Well, the observer decides when he is going to look at the bird, that is the observer chooses t, whereas nature chooses the life history u of the bulb. If u = T (u) ≤ t then the bulb is still on at the time of observation, whereas if u = T (u) > t, the bulb has burnt out and the bird has flown away. Is there anything paradoxical here? It does not seem so. If the caretaker of the bird is to receive a payment d if nothing has happened, and he has to pay a penalty δ if the bird escapes, what is our best prediction of his fortune at time t? Clearly if no information is available, his fortune at time t is d(1 − e−t/τ ) − δe−t/τ . We leave it up to the reader to see why, and direct her/him to Peres’ [P] for a discussion from the point of view of a physicist. 4 Split coins and recoiling particles In this section we shall consider non quantum variants of the EPR paradox. Again the aim is to emphasize the role of prior knowledge. Suppose you have a coin-like object with two faces which can be either R(ed) or B(lue), but these properties for all you know, have been assigned at random. The assignment is by means of a random variable taking values in the set {(R, R), (R, B), (B, B)}. When performing an experiment consisting of one measurement, it suffices to take Ω = {{R, R}, {R, B}, {B, B}}. Clearly we think of the color assignment as a multi set: sets in which an element may appear repeated a number of times. This description takes care of the intuitive symmetry of a coin respect to the labeling of the faces. An observation of a coloring of a coin is actually a pair of observations, which we list sequentially. Formally speaking X : Ω → {R, B} × {R, B} and an equivalence relation has been defined on the range, which identifies (R, B) and (B, R). The values of X are obviously X({B, B}) = (X1 ({B, B}), X2 ({B, B})) = (B, B), etc. This may seem like overdoing it, but is really necessary if we want our model to reflect the symmetry of the coin with respect to “flips” (We may also think of colorings as mappings {1, 2} → {B, R} which are invariant under the “flip” F : {1, 2} → {1, 2}, F (1) = 2, and F (2) = 1). 138 H. Gzyl If we assign probabilities to the elementary events by Ω by P ({B, B}) = p1 , P ({R, B}) = p2 and P ({R, R}) = p3 , then clearly P ({X1 = B}) = p1 + p22 and P ({X1 = R}) = p3 + p22 . Suppose now that Mr. Prankster splits the coin in two (each half comprising a face), and a half given to some team mate. You have to guess the color of that face. You will receive either of the following pieces of information about the half in Mr. Prankster’s hand: (i) the color of that half, (ii) the color of that half and the coloring of the coin, or (iii) only the coloring of the coin. Case 1 Assume you are told that X2 = R. In this case all you can predict is that either X1 = B or that X1 = R with the two probabilities given above. Case 2 Assume that you are told that X2 = B and that the coloring is {B, R}. Clearly in this case you predict that P (X1 = R | X = {B, R}, X2 = B) = 1. You do not have to invoke super luminal propagation of information or anything. Just apply basic probability (which in this case could not be more trivial). Case 3 Here there are several possibilities depending on the explicit form of the information. For example, if told that both faces are equal but nothing else, you will compute basic conditional probabilities and conclude that the coloring 3 1 or R with the probability p1p+p . If you are told is B with probability p1p+p 3 3 that the coloring is mixed, you will assert that one face is R and the other is B with probability 1. A variation on this theme, corresponding to a simple version of the problem of the recoiling particles, is the following: Assume that the particles are marked (distinguishable) and an integer 1 ≤ Xi ≤ N, i = 1, 2 is assigned to each. Assume that the numbers are chosen at random but not necessarily independently of each other. For example, the numbers may measure “quanta” of energy transferred to each particle during the splitting process. Assume that you may observe X1 and you want to predict X2 . The underlying sample space for this situation is Ω = {1, 2, ..., N }×{1, 2, ..., N }, and the information about the measurement is described by a probability law P on Ω given by P (X1 = i, X2 = j) = pij , and each observable is modeled by a coordinate map, for example X1 : Ω → {1, ..., N }, such that X1 (a, b) = a.. When the Xi are independent P (X1 = i, X2 = j) = P (X1 = i)P (X2 = j) = pi pj , but this is not necessary for what comes below. Any prediction about X2 will depend about the information we are given about X1 and about the pair. Let us consider three cases (i) we only know X1 , (ii) we are given X1 and we now that a ≤ X1 + X2 ≤ b is constant, but we do not know which constant, and (iii) is as the second case, but the value of the constant X1 + X2 = k is specified. 139 Classical analogues of quantum paradoxes p Case 1 We know from Example 1 in the appendix that E[X2 = j | X1 ] = pXX1 j . 1 That is the best predictor of the probability of the event {X2 = j} depends on the observation of X1 . When we learn that X1 = i, at that moment we know p that we predict X2 = j with probability piji . But before the observation of X1 , the best predictor is a random variable. Case 2 This time the generic information is the trace of σ(X1 ) on the event {a ≤ X1 + X2 ≤ b}, that is the σ-algebra generated by the collection {a − i ≤ X2 ≤ b − i; 1 ≤ i ≤ N }. Let us denote this by the obvious σ(X1 ) ∩ {a ≤ X1 + X2 ≤ b}. In this case the best predictor of X2 (not of any particular value of the variable) is E[X2 | σ(X1 ) ∩ {a ≤ X1 + X2 ≤ b}] and we leave it up to the interested reader to compute the possible values of this random variable according to Example 1 in the appendix. Case 3 Let us examine the most standard example corresponding to the classical version of the EPR paradox. Assume that it is known that X1 + X2 = k. If nothing is known about X1 , the best predictor of X2 is E[X2 | X1 + X2 = k] = N X (k − i)+ pi i=1 pi I{X1 =i} where the explanation of the term (k − i)+ is clear: the value k − i is an allowed value for X2 while it is bigger or equal to 0. Notice that when we are given the event {X1 = i} ∪ {X1 + X2 = k} (which is not empty, that is it describes a possible event only when k ≥ i, then E[X2 |{X1 = i} ∪ {X1 + X2 = k}] = k − i! This is clear because {X1 = i} ∪ {X1 + X2 = k} = {X2 = k − i}, that is specifying the conserved quantity and one of the variables and the value of one of them, automatically specifies the other, regardless whether we measure it or not. In this case knowledge does not have to do with transmission of information, it has to do with logic. Let us now consider these three cases under the assumption that X1 and X2 are continuous, say, real valued random variables, having a joint distribution function ρ(x1 , x2 ). Let us now re-examine some possibilities. Case 4 Assume that all knowledge that may be available to us consists of the result of a measurement of X1 . What is our best predictor of X2 ?. We already 140 H. Gzyl know that it is E[X2 | X1 ], and in example 2 of the appendix, we show that this R 2 ,X1 ) is the random variable x2 ρ(xρ(X) dx2 , whose value becomes known once X1 is measured. When X1 = x1 is observed, our best predictor of X2 becomes Z ρ(x2 , x1 ) dx2 . E[X2 | X1 = x1 ] = x2 ρ(x1 ) Case 5 Let us consider now the case where only Z ≡ X1 + X2 is available for observation. What is our best predictor of X2 in this case? This is similar to the case considered above, except that now we must first find the joint distribution of (Z, X2 ). It is a simple computation to verify that it is ρ̂(z, x2 ) = ρ(z − x2 , x2 ) R and that ρ̂(z) = ρ(z − x2 , x2 )dx2 . Now the computation of E[X2 | Z] is a particular case of Case 4. Case 6 Assume to finish that we may measure both Z and X1 . In this case note that for bounded continuous functions h, f, g, a simple change of variables should convince anyone that E[h(X2 )f (X1 + X2 )g(X1 )] = E[h(Z − X1 )f (Z)g(X1 )] = E[E[h(X2 ) | Z, X1 ]f (Z)g(X1 )] from which it is clear (see definition (6.4) that E[h(X2 ) | Z, X1 ] = h(Z − X1 ). This is clearly what is expected, and the predictive formalism reflects it. 5 Bell inequalities There are some inequalities, called Bell inequalities, satisfied by any set of three random variables taking values in [−1, 1]. And it said that their violation is a manifestation of the fact that the system under study is quantum and not classical, or that it “obeys a logic” different that the logic of classical probability. Actually, the following is an exercise of chapter 1 of [B]: Let X, Y, Z, be three random variables taking values in [−1, 1]. Show that 1 − E[XY ] ≥ |E[XZ] − E[Y Z]|. One possible proof of the inequality runs as follows: Consider (1 + X)(1 − Y )(1 + Z) = 1 + X − Y − Z − XY + XZ − Y Z (1 − X)(1 + Y )(1 − Z) = 1 − X + Y + Z − XY + XZ − Y Z adding these two and noticing that the left hand side is always positive, rearranging and taking expected values, we obtain E[Y Z] − E[XZ] ≤ 1 − E[XY ]. Classical analogues of quantum paradoxes 141 To obtain the other half of the inequality, consider (1 − X)(1 + Y )(Z − 1) = −1 + X − Y + Z + XY − XZ + Y Z (1 + X)(Y − 1)(1 + Z) = −1 − X + Y − Z + XY − XZ + Y Z adding and noticing that the left hand side is always negative, we obtain after rearranging and taking expected values, that 1 − E[XY ] ≤ E[XZ] − E[Y Z] which finishes the proof. And for fun consider the particular case: Let ξ, η, ζ be random variables taking (any) two values each, such that P (ξ = a) = 1/2, P (η = b) = 1/2 and P (ζ = c) = 1/2, and consider that random variables X = I{ξ = a}; Y = I{η=b} and Z = I{ζ=c} . A direct application of the inequalities plus multiplication by 2, lead us to the inequality 2 − P (ξ = a | η = b) ≥ |P (η = b | ζ = c) − P (ξ = a | ζ = c)|. Comment 5.1 Note that in the assumption about X, Y and Z, nothing is said about whether these variables represent measurements at near or far away locations, nor about the times the measurements are to be taken, or about possible physical or other kind of interpretation of the random variables. The only assumption made is about their possible values, nothing is even assumed about their joint distribution. If the inequalities are violated, it must be that the underlying mathematical structure of the probabilistic model under examination does not coincide with the classical probabilistic model, not due to some non-explicit assumption about causality or whatever. Here is an example of a quantum system that does seem to satisfy the Bell inequalities: Consider three identical, distinguishable and spinless particles moving on the real line, under the action of a three particle force given by the potential V (x1 , x2 , x3 ) = 0 or = +∞ depending on whether (x21 + x22 + x23 is respectively ≤ 1 or ≥ 1. Mathematically speaking, this system is equivalent to a particle confined to move freely inside a sphere of radius 1. Can there exist a state Ψ(x1 , x2 , x3 ) such that the probability density |Ψ(x1 , x2 , x3 )|2 violates Bell inequalities? Offhand, it seems that the answer is: “No, there is not.” But life is full of surprises. To finish, we direct the reader to the exposé [B] for a nice presentation of the “geometric” ideas behind the inequalities as well as further references. 6 6.1 Appendix: The very basics of probabilistic modeling Ensembles a.k.a Sample Spaces The basic construct in probability theory is that of a sample space. This corresponds to what is called (but never explicitly defined) an ensemble in most 142 H. Gzyl books in statistical thermodynamics. The construct is specified by a triplet (Ω, F, P) where the set Ω should be thought of as the “experiments” (i.e., sequences of measurements), or sometimes it may be convenient to think of it as “the set of sates of nature”. The set F is the mathematical construct describing the information about our system (i.e., it contains the objects that describe all questions we assume valid to ask about our system). Its elements are called events and formally it is a σ-algebra of subsets of Ω, that is a collection of sets satisfying: i) ∅ ∈ Ω ii) A ∈ F ⇒ Ac ≡ Ω − A ∈ F iii) S If Ak for k = 1, 2, ... is a countable collection of elements of Ω, then k Ak ⊂ Ω. Observe that the arithmetical structure of the set operations parallel that of the logical connectives in ordinary speech. That is why F is to be thought of as the class of allowed questions about the collection of experiments described by Ω. And to finish with the list,we have Definition 6.1 We say that P is a probability measure or law on the sample space (Ω, F), that is a function P : Ω → [0, 1] satisfying the conditions 1)P(Ω) = 1 2)If = 1, 2, ... is a countable collection of disjoint elements of Ω, then S Ak for kP P( k Ak ) ≡ k P(Ak ). Comment 6.1 A pair (S, S) where S is any set and S is a σ-algebra of subsets of S is called a measurable space, because an additive function (called measure or volume) can be consistently defined on it. The difference between probability and arbitrary measures is that the later do not have to be normalized to 1. 6.2 Observables a.k.a Random Variables And important notion in both classical and quantum mechanics is the concept of random variable, it is central to mathematical probability theory, just because it is the mathematical object embodying the notion of measurement, not the actual process or act of measurement, but the object describing the result of the measurement. The technical definition is the following: Definition 6.2 We assume we have already chosen a sample space (Ω, F) and we also have a measurable space (S, S). An S-valued random variable is a function X : Ω → S such that for any A ∈ S we have {X ∈ A} ≡ X −1 (A) ∈ F. Comment 6.2 We can interpret X(ω) as the value of the observable X in the experiment ω. It is here where the mathematical modeling of the randomness is Classical analogues of quantum paradoxes 143 located. Notice that different values of the observable are achieved in different experiments. Thus, the interpretation of the ω and of and of X(ω) are tailored to complement each other. Also, if the sets in S describe questions about the results of measurements, then the measurability condition just transfers questions about measurements onto questions about experiments taking given values. When S = R and S = B(R), we just say that X is a random variable. For any topological space S, the class B(S) denotes the smallest σ-algebra containing the open sets of S and is called the Borel σ-algebra of S. Also, now and then we shall make use if the notation IA to denote the indicator function of the set A, defined by IA (x) = 1 or 0 depending on whether x ∈ A or not. The important example for us corresponds to the case in which F is generated by a partition π = {Λ1 , ..., ΛK }. In this case any random variable is described by K X X= xj IΛj j=1 that is, X takes value xj whenever the event Λj takes place. Three simple but important examples of σ-algebras are worth recording. (i)First, consider a partition Π = {Ai , ..., An , , ...}, that is, a finite or infinite disjoint collection of subsets of Ω whose union is Ω. The σ-algebra F = σ(Π) that the partition generates is the collection of all possible union of P sets of Π. Any F-measurable function (random variable) is of the form X = n xn IAn . (ii) Conversely, any random variable X taking only a countable collection of values {x1 , x2 , ....} generates a σ-algebra, obviously denoted by σ(X) generated by the partition {{X = xn } | n = 1, 2, ...}. (iii)To finish the list, there is the trivial σ-algebra F0 ≡ {∅, Ω}. The reader should verify that all F0 -measurable random variables are constant. Actually, usually the construction of sample spaces and of the basic random variables is carried out simultaneously. A typical example of sample space is the following: Consider a finite set R = {r1 , ..., rk } and form Ω ≡ RN where N is either finite or ∞. In any case think as follows Ω = {ω : {1, 2, ..., N } → R} is the collection of sequences of length N (finite or infinite). Each sequence describes an experiment and to describe the measurements it is convenient to introduce the following R-valued random variables: Xi : Ω → R defined by Xi (ω) ≡ ω(i). Mathematically speaking this is just a coordinate map, but it is the mathematical object that models the result of the i − th measurement in the experiment Ω. The information about this setup is provided but the results of all possible experiments. This corresponds to the σ-algebra generated by the collection (of “cylinders”) {Xi1 ∈ B1 , ..., Xim ∈ Bm : 1 ≤ i1 ≤ i2 ≤ ... ≤ im ; B1 , ..., Bm ⊆ R} 144 H. Gzyl To construct a probability on (Ω, F) there are many ways to proceed. If we want the X independent we start from any assigni to be statistically P P ment Q(B) = q where qi ∈B i qi ∈R qi = 1 and define P({Xi1 ∈ B1 , ..., Xim ∈ Q Bm }) = Q(Bi ). That is we start from a probability Q on R which we may have to find by doing statistical analysis, and we end up with a probability law on the class of all possible questions about the experiments. But more interesting probability laws are conceivable. For example, when N < ∞, we may define a measure on Ω by putting P(ω) ≡ eβ P E(i,j)Xi (ω),Xj (ω) Z(β) where Z(β) is a normalization factor, which should remind us of the partition function. Anyway, this is as simple as you can get and say something interesting and familiar. But the list examples in the applied literature, ranging from signal processing to mathematical finance is enormous. 6.3 A simple ensemble A standard construction in probability theory, which can obviously identified with the physicist’s notion of ensemble (which by the way is never made explicit in any book on statistical physics), is useful for describing sequences of independent measurements. Denote by S the set in which the measurements take value. Let us assume that it is either a discrete set or a subset of some Rd . In the first case we consider S = P(S) to be the σ-algebra on S. In the second QN case S = B(S). We set Ω ≡ j=1 S, and we describe all the questions about the experiments by F ⊗N j=1 S. We understand that N is either finite or N = ∞ depending on whether we need to describe finite or infinite sequences of measurements. The results of the measurements are described by the coordinate maps Xn : Ω → S defined by Xn (ω) = sn if ω = {s1 , s2 , ...} Thus, note that in this set up, ω = {s1 , s2 , ...} clearly denotes an experiment, that is, a sequence of measurements yielding values s1 , s2 , .... A probability assignment which makes the Xn statistically independent is the following: Let µ : S → [0, 1] be a given probability on (S, S), which we want to describe the distributions of particular measurements, and we put P ({Xn1 ∈ A1 , ..., Xnk ∈ Ak }) ≡ µ(A1 )...µ(Ak ), for any n1 < ... < nk and any A1 , ...Ak in S. In particular P ({Xn ∈ A}) = µ(A), and thus the Xn are by construction independent and identically distributed. For example in order to describe an experiment consisting on the measurement of the life-time of a light bulb, or the life-time of a decaying particle, or the penetration of a particle Rin an absorbing medium, we take N = 1, S = [0, ∞) , S = B(S) and µ(A) = τ1 A e−t/τ dt. Classical analogues of quantum paradoxes 6.4 145 Basic predictions In order to do predictions we need to introduce two notions, that of mathematical expectation and that of conditional expectation. Logically speaking, the former is a particular case of the later, but it is easier to begin with the simpler notion. The definition or construction of the mathematical expectation is done stepwise. P We shall define a simple function or simple random variable by X ≡ xi IAi where {A1 , A2 , ..., Am } denotes a finite partition of Ω. Now we define the expected value (or the mathematical expectation) of a simple random variable by X E[X] = xi P(Ai ) This is the intuitive thing to do, and so it is to extend this to any variable: one can prove that any positive random variable X is an increasing limit of simple functions Xn , then we define E[X] ≡ limn E[Xn ], and to finish one notices that any random variable can be written as X = X + − X − , and when the expected of each of these is finite we say that X is integrable and write E[X] = E[X + ] − E[X − ]. Actually to express that summarily we write E[|X|] < ∞. We are finally ready to introduce the most basic probabilistic notion: that of conditional expectation. Definition 6.3 Let (Ω, F, P) be some probability space, and G be s sub-σ-algebra of F. Let Y be an integrable, F-measurable, real valued random variable. The conditional expectation of Y given G is a G-measurable random variable denoted by E[Y | G] satisfying the following condition E[Y H] = E[E[Y | G]H] for any G − measurable, bounded H. (1) Let us list some of its properties and then show how it is computed starting from (1). Theorem 6.1 Let (Ω, F, P) be a probability space and let G be a subσ-algebra of F. Then the following hold: (i) E[1 | G] = 1. (ii) If X1 ≥ X2 are random variables, then E[X1 | G] = E[X2 | G]. (iii) For a, b ∈ R E[aX1 + bX2 | G] = aE[X1 | G] + E[X2 | G]. (iv) (Filtering or tower property) If H ⊂ G is another subσ-algebra, then for any integrable X; E[E[X | G] | H] = E[X | H]. (v) If Z is any bounded, G-measurable random variable, then E[ZX | G] = ZE[X | G]. (vi) E[X | F0 ] = E[X] Even though we do not state it explicitly, the mapping X → E[X | G] behaves in all respect as an expected value, except that it is a random variable. When 146 H. Gzyl G = σ(Y ), where Y is a given random variable, we shall write E[X | Y ] instead of E[X | σ(Y )]. The result that explains why conditional expectations are (best) predictors is contained in the following Theorem 6.2 Let (Ω, F, P) be a probability space. Let X be an integrable random variable and let Y be another random variable. Then the function g(Y ) that minimizes E[(X − g(Y ))2 ] is g(Y ) = E[X | Y ] Comment 6.3 Implicit in the statement of the theorem is an intuitive result that we need to complete the proof. Let us state a simple version of that result: Theorem 6.3 Let (Ω, F, P) be a probability space, and let Y1 , ..., YN be a collection of random variables. If Z is a random variable, measurable with respect to σ(Y1 , ..., YN ), then there exists a Borel measurable function h : RN → R such that Z = h(Y1 , ..., YN ). Proof of theorem (6.2). It is basically a computation. Consider E[(X − g(Y ))2 ] = E[((X − E[X | Y ]) + (E[X | Y ] − g(Y )))2 ] = E[(X −E[X | Y ])2 ]+E[(E[X | Y ]−g(Y ))2 ]+2E[(X −E[X | Y ])(E[X | Y ]−g(Y ))] We shall now verify that the last term vanishes. Therefore the assertion is clear, since we can choose G(Y ) = E[X | Y ]. Observe that from the definition it follows that by (1) (i.e., the defining property of the conditional expectation) E[(X −E[X | Y ])(E[X | Y ]−g(Y ))] = E[E[(X −E[X | Y ]) | Y ](E[X | Y ]−g(Y ))] and now by properties (i) and (v) in theorem (6.1), with X there replaced by 1 and Z by E[X | Y ], it follows that the conditional expectation under the integral sign vanishes. To illustrate how the definition is applied, let us now work out two standard examples: Example 1 Consider the a σ-algebra σ(π), generated by the partition π = {A1 , ..., An , ..} of Ω. Assume that P(Aj ) > 0 ∀j ≥ 1. Then P since E[X | σ(π)] is σ(π)-measurable, it can be written as E[X | σ(π)] = j cj IAj . Clearly, to compute the cj it suffices to apply the defining identity (1) to the binary random variables IAk . Thus X E[E[X | σ(π)]IAk ] = E[XIAk ] = E[( cj IAj )IAk ] = ck P(Ak ), j Classical analogues of quantum paradoxes and therefore E[X | σ(π)] = X E[XIAj ] j P(Aj ) IAj . 147 (2) Example 2 Consider now two random variables X and Y , about which you know the jointR distribution ρ(x, y), i.e., for any bounded function F (X, Y ), E[F (X, Y )] = F (x, y)ρ(x, R y)dxdy. Assume that X is integrable, which presently means that E[|X|] = |x|ρ(x, y)dxdy < ∞. To compute E[H(X) | Y ] for any bounded H(X), note that for any bounded g(Y ), Z Z Z ρ(x, y) E[H(X)g(Y )] = H(x)g(y)ρ(x, y)dxdy = g(y)( h(x) dx)ρ̂(y)dy ρ̂(y) R where we set ρ̂(y) = ρ(x, y)dx. Also, temporarily put E[H(X) | Y ] = h(y), then Z E[E[H(X) | Y ]g(Y )] = E[h(Y )g(Y )] = h(y)g(y)ρ̂(y)dy. Since this identity is true for any g(y), then it must be true that Z ρ(x, Y ) dx). h(Y ) = E[H(X) | Y ] = h(x) ρ̂(Y ) Comment 6.4 what is important is that we are displaying the conditional expectation as a random variable. That is, the best predictor of H(X) given that Y is measured is a random variable, whose value is known once Y is observed, and not before. 6.5 The notion of independence The proper definition of independence is at the level of σ-algebras. We have, within the usual model (Ω, F, P ) Definition 6.4 (a) A collection {Gi | i ∈ I} (where I is any set of indices) of sub-σ-algebras of F, is said to be independent whenever for any finite subset J ⊂ I, and foe any collection {Ai | i ∈ J} we have Y P (∩{i∈J} Ai ) = P (Ai ). {i∈J} (b) A family {Xi | i ∈ I} is independent whenever σ(Xi ) are independent. Independence is a family property, and is a tricky property to verify. And it is sometimes confused with functional independence. Let us examine this source of confusion in a simple case. Consider Ω = R2 and F = B(R2 ). Consider the 148 H. Gzyl two random variables X, Y : Ω → R X(x, y) = x, Y (x, y) = y. These are functionally independent at least in two senses. First they are linearly independent as vectors in the class of functions defined over Ω, and second they are functionally independent, that is Y ∈ / σ(X) (nor viceversa), that is, Y cannot be written as function of X. But they may not be independent as random variables, as the following two examples show: Example 3 Consider the uniform distribution on the unit disk on Ω, that is P (dx, dy) = π1 whenever (x, y) ∈ {(ξ, η) | (ξ)2 + (η)2 ≤ 1}, and equal to zero otherwise. We leave it up to reader to find two sets A, B in the disk and verify that P ({X ∈ A, Y ∈ B}) 6= P ({X ∈ A})P ({Y ∈ B}). Example 4 Within the same setup of the previous example, Assume that X and Y have a joint Gaussian distribution with correlation ρ 6= 0. They again, they are not independent, no matter how functionally independent they are. Let us now examine another source of confusion. Consider the following model for the coin tossing experiment. Ω = {0, 1}N = {ω : N → {0, 1}}. Now experiments are specified by the “observation” of the random variables Xn : Ω → {0, 1} by Xn (ω) = ω(n). Observe that specifying an experiment ω ∈ Ω amounts to prescribing the result of the measurement of all Xn . The information available to the observer is modeled by the σ-algebra generated by the cylinder sets {∩{i∈J} {Xi = αi }; | αi ∈ {0, 1}; J finite}.One extends P from its values on cylinders, which to make life easy we take as P ({∩{i∈J} {Xi = αi }) = ( 21 )|J| , where we denote the cardinality if J by |J|. Let Θ : Ω → Ω be the shift operator defined by Xn ◦Θ = Xn+1 , that is, the shift of a sequence by one unit to the left, and let Θn describe the n − th iterate of Θ. It is rather easy to see that the mappings Θn are not independent, whereas the Xn are independent by construction. Consider for example the events Λ1 = {X2 = 0} and Λ2 = {X1 = 1, X2 = 1}. Consider for example: {Θ ∈ Λ1 } ∩ {Θ2 ∈ Λ2 } = ∅, but P ({Θ ∈ Λ1 }) = 1/2 and P ({Θ2 ∈ Λ2 }) = 1/4. Notice that the flow Θn is deterministic, that is, given the initial point ω of the orbit, the values Θn (ω) are completely determined. But to give the initial point an infinite sequence of independent random variables has to be observed. Classical analogues of quantum paradoxes 149 References [A] Aczel, A. “Entanglement” Plume-Penguin, New York, 2003. [B] Borkar, V.A. “Probability Theory” Springer-Verlag, Berlin, 1995. [C] Cromer, A. “Uncommon Sense” Oxford Univ. Press, Oxford, 1993. [D] Deutsch, D. “The fabric of reality” Penguin Books, New York, 1997. [d’E] d’Espagnat, B. “Reality and the Physicist” Cambridge Univ. Press, Cambridge, 1990. [F] Fine, A. “The Shaky Game: Einstein Realism and the Quantum theory” Chicago Univ. Press, Chicago, 1990. [K] Kavafos, M. “Bell’s Theorem, Quantum Theory and Conceptions of the Universe” Kluwer Acad. Pubs., Dordrecht, 1989 . [KN] Kavafos, M. and Nadeau, R.“The Conscious Universe” Springer-Verlag, Berlin, 1990. [L] Lindley, D. “Where did the weirdness go?” Basic Books, New York, 1996. [M] Malament, D.B. “Notes on the geometric interpretation of Bell type inequalities” Downloaded from the authors web page. [Ma] Mayants, L. “The Enigma of Probability in Physics” Kluwer Acad. Pubs., Dordrecht, 1984. [Me] Mermin, D. “Bringing home the atomic world: quantum mysteries for anyone” Am. J.Phys. 49 (1981), pp. 940-943. [P] Peres, A. “The classic paradoxes of quantum theory” The Foundations of Physics, 14 (1984),pp. 1131-1145. [S] Silverman, M.P. “More than a mystery” Springer-Verlag, New York, 1995. [TM] Tarozzi, G. and v.d Merwe, A. “The Nature of Quantum Paradoxes’, Kluwer Acad. Press, Dordrecht, 1988. [WZ] Wheeler, J. and Zurek, H. “Quantum Theory and Measurement” Springer-Verlag, Berlin, 1990. Henryk Gzyl Depto. de Estadı́stica; Univ. Carlos III de Madrid. España hgzyl@est-econ.uc3m.es; hgzyl@reacciun.ve Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 151 Conservación de propiedades del anillo de polinomios y del anillo de series en la clase de los anillos de conductor finito Nelsy González, Omaida Sepúlveda y Oswaldo Lezama Resumen En este artı́culo se analiza la conservación de propiedades del anillo de coeficientes R a los anillos de polinomios y series R [x] y R [[x]] , respectivamente. Este estudio se realiza en la clase de los anillos de conductor finito, en particular se estudian propiedades como GCD, G − GCD, coherencia, cuasi coherencia y conductor finito. ABSTRACT. In this paper is considered the preservation of properties of the ring of coefficients R to the rings R[x] and R [[x]], where R[x] denotes the polynomials ring and R [[x]] is the power series ring. This study is carry out in the context of finite conductor rings; in particular, properties like GCD, G − GCD, coherence, quasi coherence and finite conductor are analized. 1 INTRODUCCIÓN Para un anillo conmutativo R se tiene que R ⊂ R [x] ⊂ R[[x]], donde R[x] es el anillo de polinomios y R[[x]] el anillo de series. Hay propiedades de R que conserva tanto R[x] como R[[x]], pero algunas propiedades sólo las toma R [x] ó R[[x]] : por ejemplo, es conocido que si R es un anillo local, R [x] no es local y R[[x]] es local. (Ver [19]). Ası́ mismo, es conocido que si R es un anillo Noetheriano, entonces R [x1 , ..., xn ] es un anillo Noetheriano, el mismo resultado se tiene para el anillo R[[x]], por otro lado, se sabe que los anillos de polinomios y de series son un dominio de Prüfer si y sólo si los coeficientes están en un cuerpo y n = 1 (ver [22]). También, si R es un anillo coherente, R [x] no es necesariamente un anillo coherente (ver [12]). Resulta entonces interesante estudiar la preservación de propiedades del anillo de coeficientes, al anillo de polinomios R [x1 , ..., xn ] y al anillo de series R[[x]]. Dentro de las múltiples propiedades que pueden ser investigadas se encuentran aquellas que 152 N. González, O. Sepúlveda, O. Lezama definen subclases de anillos en la colección de los dominios de conductor finito, y que en la actualidad son materia de investigación entre los expertos del área. En este sentido se deben destacar los trabajos recientes de Sarah Glaz (Universidad de Connecticut, Storrs, Estados Unidos) y de Daniel Anderson (Universidad de Iowa, Iowa, Estados Unidos), los cuales constituyeron la motivación para la realización del presente trabajo. 2 PRELIMINARES Un dominio se dice que es de conductor finito si la intersección de dos ideales principales es un ideal finitamente generado. Entre las subclases de los dominios de conductor finito se encuentran los dominios cuasi-coherentes, en los cuales la intersección de un número finito de ideales principales es nuevamente un ideal finitamente generado. Como una subclase de estos últimos se encuentran los dominios coherentes, cuya particularidad radica en que la intersección de dos ideales finitamente generados es un ideal finitamente generado. Otra subclase especial de los dominios de conductor finito la conforman los llamados dominios G-GCD, los cuales requieren que la intersección de dos ideales enteros invertibles sea un ideal entero invertible. Estos dominios tienen como subclase a los dominios GCD, que son aquellos en los cuales cualquier par de elementos posee máximo común divisor (m.c.d). En general, propiedades como GCD, G-GCD, coherencia y conductor finito aparecen frecuentemente en la literatura, debido, a que como se mencionó antes, es de gran interés estudiar bajo qué condiciones estas propiedades son conservadas por los anillos R [x] y R [[x]]. Por tal razón, uno de los propósitos de este trabajo es presentar el estudio de la preservación de estas propiedades. Se adopta la notación y terminologı́a que se encuentra en [8], [14] ó [17]. Los anillos considerados en este artı́culo son conmutativos con elemento unidad. Usualmente, o salvo que se especifique otra situación, R denota un dominio de integridad (DI) con cuerpo de fracciones K, Spec (R) denota el espectro primo de R conformado por todos los ideales primos de R y M ax (R) el espectro maximal de R conformado por todos los ideales maximales de R. Además, si M es un R−módulo y P ∈ Spec(R), entonces MP denota la localización de M por el ideal primo P . RP denota la localización de R por el ideal primo P , y c(f ) denota el ideal fraccionario generado por los coeficientes de f , con f ∈ K [x] . Definición 2.1 Sean I, J ideales fraccionarios de R. Se define el ideal [I :R J] = {r ∈ R | rJ ⊂ I} , a este ideal se le suele denominar el ideal conductor de J en I. Anillos de polinomios y series 153 Definición 2.2 Sea I un ideal fraccionario de R. Se define el conjunto I−1 = [R :K I] = {x ∈ K | xI ⊆ R} . En adelante se usará [R : I] para denotar el cociente [R :K I] . Definición 2.3 Un dominio de integridad R es llamado un dominio de Prüfer si cada ideal finitamente generado de R es invertible. En [22] se encuentra un estudio detallado de estos dominios, los cuales constituyen otra subclase importante de los dominios de conductor finito. Nótese que todo dominio de Prüfer es coherente. Una subclase importante de los dominios de Prüfer la conforman los dominios de Bézout. Hay que recordar que un dominio de integridad R es llamado un dominio de Bézout si cada ideal no nulo finitamente generado de R es principal. Definición 2.4 Un ideal fraccionario I de un dominio de integridad R se dice divisorial si es una intersección de ideales fraccionarios invertibles. El ideal fraccionario divisorial más pequeño que contiene a I se denota por Iv . Además, Iv es llamado la clausura divisorial de I. Un ideal fracccionario I de R es un v-ideal de tipo finito si existe un ideal fraccionario finitamente generado J de R tal que I = Jv . Proposición 2.5 [8] Sea R un DI e I un ideal fraccionario de R. (i) El ideal (I −1 )−1 es la intersección de los ideales principales que contienen a I. (ii) Iv = (I −1 )−1 . (iii) El ideal I es divisorial si y sólo si I = Iv . Demostración: (i) Sea {haλ i}λ∈Λ la familia de ideales fraccionarios principales de R que contienen a I, sea J la intersección de esta familia y sea I −1 −1 el ideal [R : I] . Se debe concluir que I −1 = J. −1 En efecto, sea x ∈ I −1 y λ ∈ Λ, entonces de I ⊆ haλ i , se sigue que a−1 λ I ⊆R −1 −1 y que aλ ∈ I . Como xI −1 ⊆ R, entonces xa−1 ∈ R y ası́ x ∈ ha i . En conλ λ −1 −1 secuencia, I ⊆ J. −1 Recı́procamente, si x ∈ / I −1 , entonces xI −1 6⊆ R, esto es, existe t ∈ I −1 −1 tal que xt ∈ / R y ası́ x ∈ / t . Como hti ⊆ I −1 , entonces I ⊆ t−1 . Por consiguiente, x ∈ / J. 154 N. González, O. Sepúlveda, O. Lezama −1 (ii) Por la definición del ideal Iv se concluye que Iv ⊆ I −1 . Ahora, si −1 −1 x∈ I y si J es un ideal fraccionario invertible tal que I ⊆ J, entonces xI −1 ⊆ R y como J −1 ⊆ I −1 , se tiene que xJ −1 ⊆ R. Luego, x ∈ J y ası́, x ∈ Iv . (iii) Es consecuencia inmediata de la definición de ideal divisorial. Definición 2.6 Sea D un dominio de integridad, K su cuerpo de fracciones y t∈K: (i) t ∈ K es entero sobre D si es raı́z de un polinomio mónico con coeficientes en D. (ii) t ∈ K es casi entero sobre D si existe un elemento d ∈ D, d 6= 0, tal que dtn ∈ D para todo entero positivo n. (iii) Un dominio de integridad D es enteramente cerrado si cada elemento de K entero sobre D pertenece a D. (iv) Un dominio de integridad D es completamente enteramente cerrado si cada elemento de K casi entero sobre D pertenece a D. Nótese que ser completamente enteramente cerrado implica ser enteramente cerrado ( ver [22]). En el caso Noetheriano las dos condiciones coinciden. A continuación se presentan algunas propiedades y caracterizaciones de los dominios GCD y G − GCD; las pruebas que incluimos son claras y sencillas y difieren o no son presentadas en la literatura disponible. Proposición 2.7 Un dominio de integridad R es un GCD si y sólo si para todo a, b ∈ R, hai ∩ hbi es principal. Demostración: Para la implicacón directa, si a = 0 ó b = 0, entonces hai ∩ hbi es principal. Sean a, b 6= 0 y sea d = m.c.d(a, b), entonces d | a y d | b, esto es, a = dx y b = dy, luego m.c.d(x, y) = 1, nótese que hxi ∩ hyi = hxyi : como xy ∈ hxi ∩ hyi implica que hxyi ⊆ hxi ∩ hyi , sea ahora z ∈ hxi ∩ hyi , entonces z es múltiplo de x y de y, por tanto z es múltiplo de m.c.m(x, y) = m, pero m.c.d(x, y) = 1, entonces m = xy, es decir z ∈ hxyi ası́ que hxi ∩ hyi ⊆ hxyi . Finalmente, hay que ver que hai ∩ hbi = hdxyi : claramente dxy ∈ hai ∩ hbi , luego hdxyi ⊆ hai ∩ hbi , ahora hai ∩ hbi = hdxi ∩ hdyi = hdi hxi ∩ hdi hyi = hdi (hxi ∩ hyi) = hdi hxyi = hdxyi . Recı́procamente, sean a, b no nulos y sea hci = hai ∩ hbi , c 6= 0 ya que R es 155 Anillos de polinomios y series un dominio de integridad y ab ∈ hci . Note que c = m.c.m(a, b) : c ∈ hai y c ∈ hbi , entonces a | c y b | c, sea ahora x tal que a | x y b | x, esto indica que x ∈ hai ∩ hbi , entonces x ∈ hci ası́ c | x. Como a | ab y b | ab, entonces c | ab, esto es, ab = cd. Se tiene que d = m.c.d(a, b) : a | c implica que c = aa0 , entonces ab = aa0 d ası́ b = a0 d, es decir d | b, similarmente d | a. Sea e | a y e | b, entonces a = ex y b = ey, ası́ hei hxyi ⊆ hei (hxi ∩ hyi) = hei hxi ∩ hei hyi = hexi ∩ heyi = hai ∩ hbi = hci, es decir, hexyi ⊆ hci luego exy = λc. Ahora, como ab = cd se tiene que exey = cd, ası́ que e(xey) = cd, esto es, e(λc) = cd, entonces λe = d, es decir, e | d. Proposición 2.8 Sea R un dominio de Prüfer, entonces R es un dominio GCD si y sólo si R es un dominio de Bézout. Demostración: Para la implicación directa basta probar que cada ideal generado por dos elementos no nulos a y b es principal: Sea d = m.c.d(a, b), la idea es mostrar que hdi = ha, bi . Como d | a y d | b, entonces a = dα y b = dβ, ası́ cada combinación de a y b es múltiplo de d, esto implica que ha, bi ⊆ hdi . Nótese ahora que hdi ⊆ ha, bi : como R es dominio de Prüfer, entonces I = ha, bi es invertible, por tanto 1 = ax + by con x, y ∈ I −1 , p p m sea x = m n , y = q , entonces d = da n + db q , pero ax, bx, by, ay ∈ R, ası́ m m que ax = a n = d1 ∈ R, dualmente bx = b n = d2 ∈ R, por tanto am = nd1 y bm = nd2 , con lo cual n | am y n | bm esto implica que n | m.c.d(am, bm) = md, esto es md = nd0 , d0 ∈ R, similarmente b pq = e1 ∈ R, a pq = e2 ∈ R, entonces q | bp y q | ap, ası́ que q | m.c.d(ap, bp) = pd, es decir pd = qd00 , d00 ∈ R, en 0 bqd00 consecuencia d = and = ad0 + bd00 . Por tanto hdi = ha, bi . n + q Recı́procamente, Sean a, b ∈ R no nulos, entonces ha, bi = hdi , hay que ver que d = m.c.d(a, b) : a ∈ ha, bi = hdi , entonces a = dλ, de donde d | a. Análogamente, d | b. Sea e | a, i.e, a = ea0 y sea e | b, entonces como d = αa+βb se tiene que d = αea0 + βeb0 por consiguiente e | d. Proposición 2.9 Sea R un dominio GCD, entonces R es enteramente cerrado. Demostración: La prueba se realiza en dos pasos: Paso 1. Sea t = rs ∈ K − {0} raı́z de un polinomio a0 + a1 x + ... + an xn ∈ R [x] . Sea d = m.c.d(r, s), ası́ r = dp y s = dq, es decir, t = pq , además m.c.d(p, q) = 1, 2 n−1 n nótese que p | a0 y q | an : a0 + a1 ( pq ) + a2 ( pq2 )... + an−1 ( pqn−1 ) + an ( pqn ) = 0, 156 N. González, O. Sepúlveda, O. Lezama entonces a0 q n + a1 pq n−1 + ... + an pn = 0, esto indica que p | a0 q n , pero como m.c.d(p, q) = 1, se tiene que p | a0 . También, q | an pn y q | an . Paso 2. Sea t = rs ∈ K − {0} entero en R, es decir, satisface un polinomio mónico con coeficentes en R. Se puede tomar t = pq con m.c.d(p, q) = 1, luego por el Paso 1, q | an = 1, esto es q ∈ R∗ , entonces pq ∈ R. Proposición 2.10 R es un dominio G − GCD si y sólo si la intersección de dos ideales fraccionarios invertibles de R es invertible. Demostración: Sean J1 , J2 ideales fraccionarios invertibles de R, entonces existen r1 , r2 no nulos en R, tales que r1 J1 , r2 J2 ⊆ R. Además, r1 J1 , r2 J2 son ideales enteros invertibles ((ri Ji )−1 = ri−1 Ji−1 , i = 1, 2). También, r1 r2 J1 , r1 r2 J2 son ideales enteros invertibles, por lo tanto r1 r2 J1 ∩ r1 r2 J2 = I ⊆ R es invertible, entonces (r1 r2 )−1 (r1 r2 J1 ∩ r1 r2 J2 ) = (r1 r2 )−1 I, ası́ J1 ∩ J2 = (r1 r2 )−1 I y (r1 r2 )−1 I es invertible. La inclusión recı́proca se tiene del hecho que todo ideal entero invertible es un ideal fraccionario invertible. Proposición 2.11 [7] Sea R un dominio de integridad, entonces las siguientes afirmaciones son equivalentes: (i) R es un dominio G − GCD. (ii) hai ∩ hbi es invertible ∀a, b ∈ R − {0} . (iii) [a :R b] es invertible ∀a, b ∈ R − {0} . (iv) El grupo de ideales fraccionarios invertibles de R, denotado por Inv(R), es un grupo reticular ordenado bajo el orden parcial I 6 J si y sólo si J ⊆ I. (v) Cada v − ideal de tipo finito es invertible. Demostración: (i) ⇒ (ii) Es claro, ya que todo ideal principal es invertible. (ii) ⇒ (i) Sean I = ha1 , ..., an i y J = hb1 , ..., bm i ideales invertibles de R, es suficiente mostrar que I ∩ J es finitamente generado y localmente invertible, ver [22, CapÌtulo 1]. Sea R un anillo local e I un ideal invertible, se tiene entonces que 1 = x1 y1 + ... + xn yn , donde xi ∈ I, yi ∈ I −1 e I = hx1 , x2 , ..., xn i, dado que xi yi ∈ R, 1 ≤ i ≤ n, se debe tener que xi yi ∈ R∗ para algún i, entonces existe c ∈ R tal que xi yi c = 1, ası́ xj = xi (yi cxj ), como yi ∈ I −1 , yi xj ∈ R, e igualmente yi xj c ∈ R, esto es xj ∈ hxi i , entonces I ⊆ hxi i ⊆ I, ası́ que I es principal y generado por algún xi . Ahora, si M ∈ M ax(R) se tiene que 157 Anillos de polinomios y series ai1 1 D b j1 1 E para algún i1 , j1 con 1 6 i1 6 n, 1 6 j1 6 m, ası́ D E b IM ∩ JM = (I ∩ J)M = ∩ 1j1 = hai1 iM ∩ hbj1 iM = (hai1 i ∩ hbj1 i)M = hciM , es decir, I ∩ J P es localmente invertible. Para ver que I ∩ J es finitamente generado nótese que hai i ∩ hbj i ⊆ I ∩ J, ası́ que IM = y JM = ai1 1 i,j P P (I ∩ J)M /( hai i ∩ hbj i)M = (IM ∩ JM )/ hai iM ∩ hbj iM i,j i,j P = hai1 iM ∩ hbj1 iM / hai iM ∩ hbj iM i,j P P ⊆ hai iM ∩ hbj iM / hai iM ∩ hbj iM = 0, i,j por consiguiente I ∩ J = i,j P hai i ∩ hbj i es finitamente generado. i,j (i) ⇒ (v) Sea I un v − ideal de tipo finito, es decir I = Jv para algún J fraccionario finitamente generado de R, J = hu1 , ..., un i con ui ∈ K. −1 −1 Nótese que J −1 = (u1 , ..., un )−1 = hu1 i ∩ ... ∩ hun i (J −1 )−1 es invertible, es decir, I = Jv es invertible. es invertible y ası́ (ii) ⇔ (iii) Es inmediata de la observación hai ∩ hbi = [a :R b] hbi. (i) ⇒ (v) Sea G = Inv(R); sean I, J ∈ G, entonces I ∩ J ⊆ I y I ∩ J ⊆ J, ası́ I 6 I ∩ J y J 6 I ∩ J, además, por hipótesis I ∩ J ∈ G, sea ahora K tal que I 6 K, J 6 K, entonces K ⊆ I y K ⊆ J con lo cual K ⊆ I ∩ J y por lo tanto I ∩ J 6 K. ası́ I ∩ J = Sup(I, J) indicando esto que Inv(R) es un grupo reticular ordenado. (iv) ⇒ (i) Sean I, J ∈ G y sea K = Sup(I, J) ası́ I 6 K, J 6 K lo cual indica que K ⊆ I y K ⊆ J y por tanto K ⊆ I ∩ J. Sea ahora x ∈ I ∩ J entonces x ∈ I y x ∈ J ası́ hxi ⊆ I, hxi ⊆ J, esto es, I 6 hxi y J 6 hxi y dado que hxi ∈ G se tiene que K 6 hxi , i.e, hxi ⊆ K de donde x ∈ K; en conclusión I ∩ J = K. (v) ⇒ (iv) Si I, J ∈ G entonces (I + J)v es invertible, ya que es un v − ideal de tipo finito. Nótese que Inf (I, J) = (I + J)v : como I ⊆ I + J ⊆ (I + J)v y J ⊆ I + J ⊆ (I + J)v se tiene que (I + J)v 6 I y (I + J)v 6 J. Sea ahora K ∈ G tal que K 6 I y K 6 J, vease entonces que K 6 (I + J)v : (I + J) ⊆ K implica que (I + J)v ⊆ Kv = K ası́ K 6 (I + J)v . Proposición 2.12 Si R es un dominio GCD, entonces R es un dominio G − GCD. Demostración: Sean I, J ideales enteros invertibles de R, entonces I, J son finitamente generados, denotados por I = ha1 , a2 , ..., at i , J = hb1 , b2 , ..., bl i 158 N. González, O. Sepúlveda, O. Lezama hay que ver que I ∩ J es invertible, para esto se puede demostrar que I ∩ J es finitamente generado y que todas sus localizaciones maximales son invertibles, nótese que esto se tiene inmediatamente con un razonamiento análogo a la prueba de la proposición anterior para el caso (ii) ⇒ (i). Nótese que si R es un dominio de Prüfer, entonces R es un dominio G−GCD. Corolario 2.13 [7] Sea R un dominio G − GCD, S un sistema multiplicativo, entonces RS −1 es un dominio G − GCD, además RP es un dominio GCD ∀P ∈ Spec(R) y entonces R es enteramente cerrado. Demostración: Dados ar , sb ∈ RS −1 , se tiene que ar ∩ sb = a1 ∩ b −1 ∩ hbi S −1 = (hai ∩ hbi)S −1 . Si hai ∩ hbi = I es invertible, en1 = hai S −1 tonces II = R, ası́ que (II −1 )S −1 = RS −1 y por tanto IS −1 I −1 S −1 = RS −1 indicando esto que IS −1 es invertible, con lo cual ar ∩ sb es invertible, en consecuencia RS −1 es un dominio G−GCD. Véase ahora que RP es un dominio GCD : dado que RP es un anillo local y en anillos locales los ideales invertibles son principales se tiene que la intersección de ideales principales es un ideal principal. Finalmente, ya que R = ∩RP (ver P ∈M ax(R) [22, CapÌtulo 1]) y que cada RP es enteramente cerrado, (por ser RP un GCD) se puede concluir que R es enteramente cerrado. 3 ANILLO DE POLINOMIOS A la fecha son muy pocos los resultados que se tienen en lo concerniente a la preservación de la propiedad de conductor finito de un anillo de polinomios, es más, este aún continua siendo un problema abierto. En esta sección se presentan los resultados concocidos en este contexto, mostrando el estado del arte del problema. Para probar los cuatro teoremas centrales de esta sección son necesarias varias propiedades de tipo técnico relativas a ideales divisoriales y polinomios primitivos. Las demostraciones de varias de estas afirmaciones preliminares no se encuentran en la literatura y aquı́ son presentadas en forma clara. Lema 3.1 [7] Sea R un dominio de integridad con cuerpo de fracciones K, e I un ideal fraccionario no nulo de R, entonces: [R [x] : IR [x]] = [R : I] [x] , es decir, (IR [x])−1 = I −1 R [x] y ası́ (IR [x])v = Iv R [x] Anillos de polinomios y series 159 Demostración: Nótese que [R [x] : IR [x]] ⊆ K [x] : en efecto, existe t 6= 0 p(x) en R, tal que tI ⊆ R, sea p(x) q(x) ∈ [R [x] : IR [x]] , entonces q(x) I [x] ⊆ R [x] , sea p(x) q(x) α1 p(x) tr(x) q(x) = s α 6= 0 en I, luego = r(x), entonces consiguiente ∈ K [x] . p(x) q(x) αt = tr(x), pero αt = s ∈ R, por Ahora, sea g ∈ (IR [x])−1 , equivalentemente g ∈ (R [x] : IR [x]) sı́ y solo si g ∈ [R [x] : I [x]] lo que equivale a gI [x] ⊆ R [x] sı́ y solamente si c(g)I ⊆ R, lo cual conlleva a que c(g) ⊆ [R : I] , es decir c(g) ⊆ I −1 , ası́ que g ∈ I −1 R [x] . Para la última parte si f ∈ (IR [x])v , es decir f ∈ ((IR [x])−1 )−1 equivale a que f ∈ (I −1 R [x])−1 , por consiguiente f ∈ (I −1 )−1 R [x]) ası́ que f ∈ Iv R [x] . Lema 3.2 [7] Si I1 es un ideal divisorial de R [x] e I = I1 ∩ K 6= 0, entonces I es un ideal divisorial de R. Más precisamente, r −1 I = ∩ r(c(g)) | I1 ⊆ R [x] , r ∈ R, g ∈ R [x] . g Demostración: Observese D E que si I1 es un o ideal divisorial de R [x] , entonces nD E f f R [x] | I1 ⊆ h R [x] , h 6= 0 ; Si I = I1 ∩ K 6= 0, y además I1 = ∩ D E h D E D E I1 ⊆ fh R [x] , entonces I1 ∩K ⊆ fh ∩K, por consiguiente fh R [x]∩K 6= 0, D E D E y existen r ∈ R, g ∈ R [x] , tales que fh R [x] = gr R [x] : en efecto, sea D E α ∈ K ∩ fh R [x] , esto es, α = rt = p fh , con r, t ∈ R − {0} , p ∈ R [x] − {0} , de r tal forma que fh = pt = gr , g ∈ R [x] − {0} . Ası́ nD E D E o r r I1 = ∩ R [x] : I ⊆ R [x] , r ∈ R, 0 = 6 g ∈ R [x] . Sea 1 g n g o r −1 J = ∩ r(c(g)) | I1 ⊆ ( g )R [x] , 0 6= g ∈ R [x] , r ∈ R , nótese que I = J : D E ⊆) Sea u ∈ I, ası́ u ∈ I1 , por tanto u ∈ gr , es decir u = h gr , de tal forma que ug D E= hr ∈ hri , por consiguiente ug ∈ rR [x] , r ∈ R, 0 6= g ∈ R [x] , I1 ⊆ gr R [x] , entonces uc(g) ⊆ rR, luego u ∈ J. D E ⊇) Sea u ∈ J, u ∈ rc(g)−1 , para todo r, g tal que I1 ⊆ gr R [x] , c(g)u ⊆ rR, entonces ug ∈ rR [x] , luego u ∈ gr R [x] , ası́ que u ∈ I1 ∩ K = I. 160 N. González, O. Sepúlveda, O. Lezama La conclusión de que I es un ideal divisorial de R se debe a que I es intersección de ideales divisoriales de R. Nóteseir(c(g))−1 es divisorial; en efecto, h −1 −1 −1 −1 −1 r [hg0 , g1 , ..., gn i] = r hg0 i ∩ ... ∩ hgn i , y (r(hg0 i ∩...∩hgn i )−1 )−1 = h i −1 −1 r hg0 i ∩ ... ∩ hgn i = rc(g)−1 . Proposición 3.3 [7] Sea R un dominio enteramente cerrado, I1 un ideal entero divisorial de R [x] , entonces: (i) Si I = I1 ∩ R 6= 0, entonces I es un ideal entero divisorial de R y además I1 = IR [x] . (ii) Si I1 ∩ R = 0, entonces existe f ∈ R [x] y un ideal I divisorial de R tal que I1 = f IR [x] . I1 ⊆ R [x] , además I = I1 ∩ R = I1 ∩ K = nDemostración: (i) Por hipótesis o r −1 ∩ r(c(g)) : I1 ⊆ ( g )R [x] ; nótese que por el lema anterior I es divisorial, véase entonces que I1 = IR [x] : es claro que IR [x] ⊆ I1 , para la inclusión recı́proca sea f ∈ I1 , f g ∈ rR [x] , r ∈ R, 0 6= g ∈ R [x], ası́ c(f g) ⊆ rR y como R es enteramente cerrado se tiene que c(f )c(g) ⊆ (c(f )c(g))v = c(f g)v ⊆ rR, ([7, Lema 6.1.2]) entonces c(f ) ⊆ [rR : c(g)] = r [R : c(g)] y c(f ) ⊆ I, esto es, f ∈ IR [x] . (ii) Si I1 ∩ R = 0, existe f ∈ I1 , f 6= 0 tal que I1 K [x] = f K [x] : en efecto, f K [x] ⊆ I1 K [x] , ahora I1 K [x] = hh(x)iK(x) , h(x) = g(x) ∈ I1 , entonces r E D g(x) 1 = r g(x) = hf (x)i . Luego I1 ⊆ I1 K [x] ∩ R [x] = f K [x] ∩ h(x) = r R [x] = f (c(f ))−1 R [x] , sea 0 6= a ∈ R tal que a(c(f ))−1 ⊆ R, como I1 ⊆ f (c(f ))−1 R [x] , aI1 ⊆ f (ac(f )−1 R [x]), aI1 ⊆ f L, donde L = ac(f )−1 R [x] , ası́ que fa I1 ⊆ L ⊆ R [x] , observese que J1 = fa I1 es un ideal entero divisorial de R [x] , ası́ J1 K [x] = ( fa I1 )K [x] = K [x] , luego J1 K [x] = K [x] y J = J1 ∩ R 6= 0, por tanto a ∈ J, por parte (i) J1 = JR [x] , con lo cual I1 = f a−1 J1 , I1 = f a−1 JR [x] donde a−1 J es un ideal divisorial de R. Proposición 3.4 [7] Sea R un dominio de integridad con cuerpo de fracciones K, entonces R es enteramente cerrado si y sólo si cada ideal entero I de R [x] con Iv ∩ R 6= 0 satisface Iv = (c(I) [x])v = c(I)v [x] ; donde c(I) es el ideal de R generado por los coeficientes de elementos de I. Demostración: ⇒) Dado que R es enteramente cerrado, se aplica la proposición anterior y se tiene que Iv = (Iv ∩ R) [x] , donde Iv ∩ R es un ideal entero Anillos de polinomios y series 161 divisorial de R, ası́ c(Iv ) = Iv ∩ R, claramente I ⊆ c(I) [x] , por consiguiente Iv ⊆ (c(I) [x])v , además por el Lema 14 se concluye que (c(I) [x])v = c(I)v [x] , por tanto c(Iv ) ⊆ c(I)v , además c(I)v ⊆ c(Iv ); en efecto, dado que I ⊆ Iv , se tiene que c(I) ⊆ c(Iv ) y como c(Iv ) = Iv ∩ R es un ideal divisorial de R, se deduce que (c(Iv ))v = c(Iv ), por tanto c(I)v ⊆ (c(Iv ))v = c(Iv ). Ası́ que Iv = (Iv ∩ R) [x] = c(Iv ) [x] = c(I)v [x] = (c(I) [x])v . ⇐) Para esta implicación sean f, g ∈ R [x] − {0}, y r ∈ R − {0} tal que c(f g) ⊆ rR, de esta inclusión se tiene que hrf, rgi ⊆ rR [x] : rf ∈ rR [x] , r ∈ fr R [x] , f g ∈ rR [x] , g ∈ fr R [x] , ası́ que hr, gi ⊆ fr R [x] es divisorial por ser principal. Por hipótesis (hr, gi)v = c hr, giv [x] , (note que hr, giv ∩ R 6= 0; hr, gi ⊆ hr, giv , r 6= 0) por tanto c(g) [x] ⊆ c(hr, gi) [x] ⊆ c(hr, gi)v [x] = hr, giv ⊆ fr R [x] , de donde f c(g) [x] ⊆ rR [x] y ası́ c(f )c(g) ⊆ rR, lo cual implica que R es enteramente cerrado (ver [15, Lema 1.31 (iv)]). Proposición 3.5 (Lema de Gauss) Sea R un dominio GCD, si f, g ∈ R [x] son polinomios primitivos, entonces f g es un polinomio primitivo. Demostración: Por efectos de espacio la prueba se ilustra para polinomios de primer y tercer grado; mostrando un modelo que puede seguirse para polinomios de cualquier orden finito. Sean f = f0 + f1 x y g = g0 + g1 x, entonces h = f g = f0 g0 + (f0 g1 + f1 g0 )x + f1 g1 x2 . Sean d = m.c.d(f0 g0 , f0 g1 + f1 g0 , f1 g1 ), u = m.c.d(f0 , d), ası́ u | f0 g1 , u | f0 g1 +f1 g0 , u | f1 g1 , luego u | f1 g0 , y u | f1 g1 , entonces u | m.c.d(f1 g0 , f1 g1 ), ası́ que u | f1 m.c.d(g0 , g1 ), entonces u | f1 , pero como u | f0 , se tiene que u | m.c.d(f0 , f1 ), por consiguiente u = 1, es decir, m.c.d(f0 , d) = 1, pero dado que d | f0 g0 , se tiene que d | g0 . Análogamente, sea v = m.c.d(f1 , d), ası́ v | f0 g0 , v | f0 g1 + f1 g0 , v | f1 g1 , luego v | f0 g1 , y v | f1 g1 , entonces v | m.c.d(f0 g1 , f1 g1 ), ası́ que v | g1 m.c.d(f0 , f1 ), entonces v | g1 , pero como v | g0 , se tiene que v = 1, es decir, m.c.d(f1 , d) = 1, y d | f1 g1 , ası́ que d | g1 , por tanto d = 1 y el caso del producto de polinomios primitivos lineales queda concluido. Ahora, sean f = f0 +f1 x+f2 x2 +f3 x3 y g = g0 +g1 x+g2 x2 +g3 x3 , entonces h = f g = f0 g0 + (f0 g1 + f1 g0 )x + (f0 g2 + f1 g1 + f2 g0 )x2 + (f0 g3 + f1 g2 + f2 g1 + f3 g0 )x3 + (f1 g3 +f2 g2 +f3 g1 )x4 +(f2 g3 +f3 g2 )x5 +(f3 g3 )x6 . Sea d = m.c.d(f0 g0 , f0 g1 + f1 g0 , f0 g2 + f1 g1 + f2 g0 , f0 g3 + f1 g2 + f2 g1 + f3 g0 , f1 g3 + f2 g2 + f3 g1 , f2 g3 + f3 g2 , f3 g3 ). Existen una serie de máximos común divisores u, u0 , u00 , y para cada uno una serie de divisibilidades ası́: sean u = m.c.d(f0 , d), u0 = m.c.d(u, f1 ) = m.c.d(d, f0 , f1 ) y u00 = m.c.d(u0 , f2 ) = m.c.d(d, f0 , f1 , f2 ) entonces u00 | f3 g0 , u00 | f3 g1 , u00 | f3 g2 , y u00 | f3 g3 , por consiguiente 00 u | m.c.d(f3 g0 , f3 g1 , f3 g2 , f3 g3 ), es decir u00 | f3 m.c.d(g0 , g1 , g2 , g3 ), ası́ u00 | f3 . Como u00 | f0 , u00 | f1 , u00 | f2 y u00 | f3 , se tiene que u00 = 1. 162 N. González, O. Sepúlveda, O. Lezama Ahora para u0 se tiene que u0 | f2 g0 , pero como m.c.d(u0 , f2 ) = u00 = 1, se tiene que u0 | g0 . También u0 | f2 g1 + f3 g0 , ası́ que u0 | f2 g1 , pero m.c.d(u0 , f2 ) = u00 = 1, ası́ que u0 | g1 . De igual forma u0 | f2 g2 + f3 g1 , luego u0 | f2 g2 , pero m.c.d(u0 , f2 ) = u00 = 1, ası́ que u0 | g2 . Ası́ mismo u0 | f2 g3 + f3 g2 , por tanto u0 | f2 g3 , pero m.c.d(u0 , f2 ) = u00 = 1, ası́ que u0 | g3 . Como u0 | g0 , u0 | g1 , u0 | g2 , u0 | g3 , se tiene que u0 = 1. Razonando para u se tiene que u | f1 g0 , pero m.c.d(u, f1 ) = u0 = 1, ası́ que u | g0 . Además u | f1 g1 +f2 g0 , por tanto u | f1 g1 , pero m.c.d(u, f1 ) = u0 = 1, ası́ que u | g1 . Similarmente, u | f1 g3 + f2 g1 + f3 g0 , ası́ u | f1 g3 , pero m.c.d(u, f1 ) = u0 = 1, ası́ que u | g2 . Finalmente, u | f1 g3 + f2 g1 + f3 g0 , luego u | f1 g3 , pero m.c.d(u, f1 ) = u0 = 1, ası́ que u | g3 . Recapitulando, u | g0 , u | g1 , u | g2 y u | g3 , por consiguiente u = 1. Con un procedimiento análogo al anterior se obtiene que m.c.d(g0 , d) = 1. Como d | f0 g0 y además u = m.c.d(f0 , d) = 1 y m.c.d(g0 , d) = 1 se concluye que d = 1. Proposición 3.6 Sea R un dominio GCD y sea f = hg un polinomio primitivo, entonces h y g son polinomios primitivos. Demostración: Sean h = h0 + h1 x + ... + ht xt y g = g0 + g1 x + ... + gm xm , entonces f = h0 g0 +(h0 g1 +h1 g0 )x+...+ht gm xt+m . Sea d = m.c.d(h0 , h1 , ..., ht ), entonces d | hi 0 ≤ i ≤ t, luego d divide a todo coeficiente de f, es decir, d divide al máximo común divisor de los coeficientes de f, esto es, d | 1, luego d = 1 y h es primitivo. El mismo razonamiento se utiliza para g. Proposición 3.7 Sea R un dominio GCD, si g es un polinomio primitivo no constante en R [x] , entonces g es un producto finito de polinomios primos. Demostración: Sea g un polinomio primitivo no constante de R [x] , entonces g = k1 k2 ...kt donde los ki son irreducibles en K [x] , ahora g = r11 h1 ... r1t ht con hi ∈ R [x] , entonces r1 ...rt g = h1 ...ht , como R es un GCD se tiene que r1 ...rt g = h1 ...ht = a1 g1 ...at gt , con gi ∈ R [x] polinomios primitivos. Tomando máximo común divisor a los coeficientes de los polinomios obtenidos en la igualdad anterior se tiene que r1 ...rt = a1 ...at , con lo cual g = g1 ...gt , gi ∈ R [x] primitivos. Nótese que cada gi es irreducible en R [x] , (de lo contrario gi serı́a reducible en K [x] y entonces ki = arii gi serı́a reducible, lo cual es una contradicción). Véase ahora que hgi i es primo en R [x] : en efecto, dada la inclusión canónica ι : R [x] ,→ K [x] , hgi i en K [x] es primo debido a que K [x] es un P ID y gi irreducible, resta ver que hgi i es primo en R [x] , i.e, ι−1 (hgi i) = hgi iR[x] : en efecto, Anillos de polinomios y series 163 ι−1 (hgi i) es un ideal primo en R [x] , sea hgi ∈ hgi iR[x] , entonces hgi ∈ K [x] , ası́ que hgi ∈ ι−1 (hgi i), luego hgi iR[x] ⊆ ι−1 (hgi i). Para la otra contenencia, sea t un polinomio de R [x] tal que t ∈ ι−1 (hgi i), entonces ι(t) ∈ hgi i, ası́ t = kgi , k ∈ K [x] , más precisamente, t = ar hgi , h ∈ R [x] primitivo, por tanto, rt = ahgi , entonces r.b.t0 = a.h.gi , con t0 un polinomio primitivo, ası́ tomando m.c.d a ambos miembros de la igualdad anterior se sigue que r.b = a, y reemplazando se obtiene que t = rb r hgi , t = bhgi ∈ R [x] , y t ∈ hgi iR[x] . Por tanto, g = g1 ...gt es producto de polinomios primos. Proposición 3.8 Sea R un dominio GCD, si f1 , g1 son dos polinomios primitivos en R [x] , entonces f1 y g1 poseen máximo común divisor. Demostración: Para la prueba se presentan dos casos: Caso 1. Por proposición anterior f1 = P1 ...Pl y g1 = Q1 ...Qs , con Pi , Qi primos y f1 , g1 polinomios primitivos, si {P1 , ..., Pl } ∩ {Q1, ..., Qs } = φ entonces m.c.d(f1 , g1 ) = 1 : sea h tal que h | f1 y h | g1 , entonces f1 = hf 0 y g1 = hg 0 , como f1 , g1 son primitivos, h es un polinomio primitivo, (ver Proposición 19). Si h fuese una constante, serı́a invertible y ası́ m.c.d(f1 , g1 ) = 1, si no es constante, por ser h, f 0 , g 0 polinomios primitivos, se descomponen en producto de primos, ası́ h = T1 ...Tk , f 0 = U1 ...Uw , g 0 = V1 ...Vv , con Ti , Ui , Vi polinomios primos. Como hf1 i es principal invertible y se descompone en un producto finito de ideales primos, esta descomposición es única, dualmente para g1 , pero como no hay elementos comunes entre f1 y g1 , entonces h es constante invertible. Luego m.c.d(f1 , g1 ) = 1. Caso 2. {P1 , ..., Pl } ∩ {Q1, ..., Qs } 6= φ, se supone que P1 , ..., Pt son los primos comunes tales que f1 = (P1θ1 ...Ptθt ).(otros primos) y g1 = (P1θ1 ...Ptθt ).(otros primos), hay que ver que m.c.d(f1 , g1 ) = (P1θ1 ...Ptθt ) : en efecto, sea h tal que h | f1 y h | g1 , entonces h es un polinomio primitivo, si h no es constante, entonces por ser h primitivo, es un producto finito de primos, es decir, h = (Qγ11 ...Qγl l ), con Qi primos, ası́ mismo f 0 y g 0 son también un producto de polinomios primos, y la descomposición de f 0 , g 0 es única, ası́ que {Q1, ..., Ql } ⊆ {P1 , ..., Pt } , nótese que γj ≤ θj : en efecto, si para algún j, γj > θj , entonces hay un primo común γ γ Pj j | f1 , Pj j | g1 lo cual es una contradicción, luego γj ≤ θj . Teorema 3.9 Sea R un dominio GCD con cuerpo de fracciones K, entonces las siguientes afirmaciones son equivalentes: (i) R es un dominio GCD. (ii) R [x] es un dominio GCD. 164 N. González, O. Sepúlveda, O. Lezama Demostración: (i) ⇒ (ii) Sean f, g no unidades en R [x] − {0} , tales que f = af1 , g = bg1 , donde a, b ∈ R y f1 , g1 son polinomios primitivos en R [x] , por hipótesis sea c = m.c.d(a, b), c ∈ R, como f1 , g1 son polinomios primitivos, tienen máximo común divisor h en R [x] , (proposición anterior) y es tal que h es primitivo. De otro lado, ch es divisor común de f y g en R [x] , nótese que ch es el máximo común divisor: en efecto, supóngase que s es divisor común de f y g en R [x] , entonces se escribe s = ds1 , d ∈ R y s1 primitivo en R [x] , ası́ existen t, l ∈ R [x] tales que f = st y g = sl, con t = e1 t1 y l = e2 l1 , donde e1 , e2 ∈ R y t1 , l1 son polinomios primitivos en R [x] , de esto se sigue que f = ds1 e1 t1 = de1 s1 t1 = af1 , con s1 t1 primitivo, además como la presentación de f es única, se tiene que d | a y s1 | f1 en R [x] , similarmente g = ds1 e2 l1 = de2 s1 l1 = bg1 , de donde d | b y s1 | g1 en R [x] , como d divide simultáneamente a a y a b, se tiene que d | c de igual forma s1 | h en R [x] , lo cual conduce a que s | ch. En consecuencia ch es el máximo común divisor de f y h. (ii) ⇒ (i) Es inmediata, ya que R ⊆ R [x] , y para f ∈ R [x], f tiene grado positivo, ası́ por razones de grado los polinomios constantes tienen máximo común divisor en R. Una prueba inductiva sobre el número de variables de R [x1 , ..., xn ] , muestra que el teorema anterior es también válido para el caso de n variables. En virtud del teorema anterior y del hecho que dentro de la gama de los dominios de Prüfer los únicos dominios que son GCD son los Bézout, se concluye que en las subclases de los dominios de Prüfer los únicos dominios que satisfacen que el anillo R [x] sea GCD son los dominios de Bézout. Para el siguiente teorema se considera la propiedad G−GCD. En particular, ahı́ se muestra que R [x1 , ..., xn ] es un dominio G − GCD si y sólo si R es un domino G−GCD. De igual forma, el resultado obtenido en este teorema permite concluir que si R es un dominio de Prüfer, entonces R [x1 , ..., xn ] es un dominio G − GCD. Es conocido que el conjunto S = {f ∈ R [x] : c(f ) = R} es un sistema multiplicativo de R [x] . Teorema 3.10 Sea R un dominio de integridad con cuerpo de fracciones K, entonces las siguientes afirmaciones son equivalentes: (i) R es un dominio G − GCD. (ii) R [x] es un dominio G − GCD. (iii) R (x) es un dominio GCD, donde R (x) = R [x] S −1 . Anillos de polinomios y series 165 Demostración: (i) ⇒ (ii) Según la Proposición 11 se debe probar que cada v-ideal de tipo finito es invertible; sea I un v − ideal de tipo finito en R [x], i.e, I = hk1 ....kn iv donde ki ∈ L, el cuerpo de fracciones de R [x] , como I es un ideal fraccionario en R [x] se puede escoger un g ∈ R [x]−{0} tal que gI ⊆ R [x] . Note que gI es un ideal entero divisorial de tipo finito y que I es invertible si y sólo si gI es invertible. Ası́, se puede asumir que I es entero en R [x] , para probar que I es invertible se consideran dos casos: (1) I ∩ R 6= 0, aplicando la Proposición 17 y el Corolario 13 se obtiene que I = hk1 ....kn iv = c(k1 ....kn )v [x] . Dado que R es un G − GCD se puede ver que c(k1 ....kn )v es un ideal invertible de R y ası́ I es un ideal invertible de R [x] (ver Lema 14). (2) I ∩R = 0, argumentando como en la Proposición 16 (ii), existe un 0 6= a ∈ R y f ∈ I, f 6= 0 tal que J = fa I es un ideal entero divisorial de R [x] de tipo finito y J ∩ R 6= 0, ası́ por el caso (1), J es un ideal invertible de R [x] y por tanto I es un ideal invertible de R [x] . (ii) ⇒ (iii) Recuérdese que por Corolario 13, R (x) es un dominio G − GCD, y que cada ideal invertible de R (x) es principal (P icR (x) = 0), lo cual indica que R (x) es un dominio GCD. (iii) ⇒ (i) Sean I, J ideales invertibles de R, por Lema 14, IR (x) y JR (x) son ideales invertibles de R (x) y por hipótesis son ideales principales de R (x) , por lo tanto (I ∩ J)R (x) = IR (x) ∩ JR (x) es un ideal principal de R (x) y ası́ I ∩ J es un ideal invertible de R. Nótese que la Proposición 16 fue establecida para dominios de integridad, desconocemos si se cumple para anillos con divisores de cero. De ser ası́, ayudarı́a a resolver el siguiente interrogante: ¿Si R es un anillo G − GCD, entonces R [x] es un anillo G − GCD? En lo referente a la preservación de la coherencia por el anillo de polinomios la situación es más complicada, ya que las técnicas clásicas de manejo de ideales no son suficientes. Para este caso se adoptan procedimientos propios de álgebra homológica, algunas condiciones de planitud y finitud. Aquı́ vale la pena resaltar que existen dominios coherentes sobre los cuales el anillo de polinomios R [x] no es coherente, esto lo muestra el ejemplo de Soublin en el cual Si = Q [[t, u]] denota el anillo de series en dos variables t, u ∞ Q sobre los racionales, y S = Si . Soublin mostró que S es un anillo coherente i=1 de w.dimS = 2 y que el anillo de polinomios S [x] no es un anillo coherente (ver [14]). 166 N. González, O. Sepúlveda, O. Lezama La ténica usada en [9] para la prueba del siguiente teorema es el álgebra homológica y resulta demasiado extensa. A continuación se presenta una prueba corta a través de ideales divisoriales. Teorema 3.11 Sea R un dominio coherente enteramente cerrado, entonces R [x] es un dominio cuasi-coherente. Demostración: Sean f1 , f2 , ..., fn ∈ R [x] , I = hf1 i ∩ hf2 i ∩ ... ∩ hfn i y J = I ∩ R. Para ver que I es finitamente generado se consideran dos casos: (1) Si J 6= 0 : nótese que I es un ideal divisorial de R [x] , entonces por la Proposición 16, I = JR [x] , con J un ideal entero divisorial de R. Por consideraciones de grado f1 , f2 , ..., fn ∈ R, y teniendo en cuenta que R es coherente, se sigue que J es finitamente generado. Luego I también es finitamente generado. (2) Si J = 0 : por la demostración de la parte (ii) de la Proposición 16 se tiene que existen un elemento no nulo a en R y un polinomio no nulo f ∈ I,tales que J1 = fa I es un ideal entero divisorial de R [x] . Sea J2 = J1 ∩ R, según la prueba mensionada, J2 es un ideal entero divisorial no nulo de R y se puede aplicar el caso (1) para decir que J1 esD finitamente generado como ideal de E f f R [x] . Entonces J1 = hj1 (x), ..., jt (x)i y a j1 (x), ..., a jt (x) = I, es decir, I es finitamente generado. Del teorema anterior se puede deducir que si R es un dominio de Prüfer, entonces R [x] es un dominio cuasi-coherente. La misma técnica usada en el teorema anterior permite demostrar el siguiente teorema. Teorema 3.12 Sea R un dominio cuasi coherente enteramente cerrado, entonces R [x] es un dominio de conductor finito. En la misma dirección de los resultados anteriores se plantea la siguiente pregunta, cuya respuesta desconocemos: ¿Si R es dominio de conductor finito, entonces R [x] es G − GCD? (ver [11]). Anillos de polinomios y series 4 167 ANILLO DE SERIES En esta sección se consideran las propiedades GCD y G − GCD para el caso del anillo de series, mostrando a través de dos ejemplos que dichas propiedades no se preservan. Es de notar que la propiedad de coherencia tampoco se preseva al anillo de series (ver [14]). Para comenzar veamos algunos preliminares. Teorema 4.1 [17] Sea K es un cuerpo, entonces K[[x]] es dominio de factorización única (UFD) y por lo tanto, completamente enteramente cerrado. Demostración: Como K es cuerpo, K[[x]] es un dominio de ideales princi∞ pales, más exactamente {hxn i}n=1 es el conjunto de todos los ideales no nulos, con único ideal maximal hxi. Ası́, como es un dominio de ideales principales, por el Teorema 1.6 de [24] es UFD y por el Teorema 1.7 de [24] si es UFD es completamente enteramente cerrado. Teorema 4.2 [8] Si D es un dominio de integridad, entonces D[[x]] es completamente enteramente cerrado, si y sólo si, D es completamente enteramente cerrado. Demostración: Se tiene el siguiente diagrama conmutativo para D dominio de integrigad, K su cuerpo de fracciones, L el cuerpo de fracciones de D [[x]] y K ((x)) el cuerpo de fracciones de K [[x]]: K ↑ D L ↑ D [[X]] K((X)) ↑ K [[X]] Para la implicación directa, sea K el cuerpo de fracciones de D, y se tiene que D = D[[x]] ∩ K. Por hipótesis, D[[x]] es completamente enteramente cerrado y como K es completamente enteramente cerrado y la intersección de dominios completamente enteramente cerrados es completamente enteramente cerrado (ver [8] ), entonces D es completamente enteramente cerrado. Recı́procamente, el cuerpo de fracciones L de D [[x]] es subcuerpo de K((x)) y K[[x]] (según el diagrama inicial de esta prueba); y K[[x]] es un dominio de factorización única, por tanto por el Teorema 26 es completamente enteramente cerrado. Sea α ∈ L casi entero sobre D[[x]]; existe h ∈ D[[x]] tal que hαn ∈ D[[x]] para todo n ≥ 1. Pero como h, hαn ∈ K[[x]] y este es completamente P enteramente ∞ i cerrado, entonces α ∈ K[[x]]. Es decir, podemos suponer α = i=0 ai x ∈ K[[x]] ∩ L, y se prueba que α ∈ D[[x]]. 168 N. González, O. Sepúlveda, O. Lezama Existe un elemento no nulo g ∈ D[[x]] tal que gαn ∈ D[[x]] para cada entero positivo n. Se prueba por inducción sobre i que ai ∈ D. Ası́, si se asume que a0 , . . . , aj−1 ∈ D, con j entero no negativo, entonces sea α∗ = a0 + . . . + aj−1 xj−1 ∈ D[[x]], y g(α − α∗ )n ∈ D[[x]], cada entero positivo n. Si aj = 0, entonces aj ∈ D; Ppara ∞ si aj 6= 0, sea gP= i=0 bi xi , con bm el primer coeficiente no nulo de g de tal ∞ forma que g = i=m bi xi . Entonces si n es un entero positivo, g(α − α∗ )n = X ∞ i=m bi xi X ∞ i=j ai xi n = bm anj xm+nj + (otros términos de orden superior) ∈ D[[x]]. Se sigue que bm anj ∈ D para cada entero positivo n, ası́ que aj es un elemento de K casi entero sobre D, y por tanto, por hipótesis es un elemento de D, ası́ ∞ P α= ai xi ∈ D[[x]]. i=0 Teorema 4.3 [8] Sea D es un dominio de integridad con cuerpo de fracciones K. Si D[[x]] es enteramente cerrado, entonces D es enteramente cerrado. Demostración: Sea α ∈ K tal que α satisface un polinomio mónico con coeficientes en D, entonces α ∈ L y satisface un polinomio mónico con coeficientes en D[[x]]. Por la hipótesis, α ∈ D [[x]], esto es α ∈ K ∩ D [[x]] = D. El siguiente teorema establece que el recı́proco del teorema anterior no es siempre cierto. Teorema 4.4 [8] Sea D un dominio enteramente cerrado que no es completamente enteramente cerrado. Entonces, D [[x]] no es enteramente cerrado. Demostración: Se tiene aplicando el Teorema 1.11 y la Proposición1.12 de [24]. D. D. Anderson muestra en su último artı́culo “GCD domains and power series rings” ( 2002), que si V es un dominio de valuación y V [[x]] un dominio GCD, entonces V debe ser de dimensión de Krull 1 con grupo de valuaciones Z ó R. Además, da un ejemplo de un dominio de valuación W de dimensión de Krull 1 con grupo de valuaciones R, para el cual W [[x]] no es dominio GCD. Anillos de polinomios y series 169 El siguiente teorema es útil para ilustrar ejemplos que muestran que la propiedad GCD no se preserva al anillo de series. Teorema 4.5 [8] Sea V un dominio de valuación no trivial en el cuerpo K, con ideal máximal M . Entonces: (i) V es enteramente cerrado. (ii) V es Noetheriano, si y sólo si, V es de dimensión de Krull 1 y discreto. (iii) V es completamente enteramente cerrado, si y sólo si, V es de dimensión de Krull 1. Demostración: (i) Si x ∈ K − V, entonces V ⊂ hxi, ası́ que V ⊂ hxi ⊂ n−1 x ⊂ ... ⊂ hxn i para cada n ∈ Z+ . Ası́, si {di }i=0 es un conjunto finito de elementos de V, entonces 2 d0 + d1 x + ... + dn−1 xn−1 ∈ xn−1 , ası́ que xn 6= d0 + d1 x + ... + dn−1 xn−1 . Por tanto, x no es entero sobre V. Se sigue que V es enteramente cerrado. (ii) Para la implicación inversa, se asume que V es 1-dimensional y discreto. Entonces M k k=1 es el conjunto de ideales propios de V. Por tanto, si x ∈ M − M 2 , entonces M 2 ⊂ hxi ⊆ M, y como consecuencia, M = hxi . Se sigue que cada ideal de V es principal, y V es Noetheriano. Recı́procamente, si V es Noetheriano, V es un dominio de ideales principales. En consecuencia, V es 1-dimensional y contiene ideales propios no idempotentes, ası́ V es discreto. (iii) Para la implicaciÛn directa, sea V completamente enteramente cerrado y sea P un ideal primo de V contenido propiamente en M. Si x ∈ M −P, entonces n ∞ n P ⊂ ∩∞ n=1 hx i. Pero el Teorema 1.11 de [24] muestra que ∩n=1 hx i = h0i . Ası́, P = h0i y V es 1-dimensional. Recı́procamente, sea x ∈ K − V. Entonces y = x−1 ∈ V. Por el Teorema 1.11 n ∞ n de [24] ∩∞ n=1 hy i es primo en V. Y como V es 1-dimensional, ∩n=1 hy i = h0i . n + Por tanto, si d 6= 0, d ∈ V, entonces hy i ⊂ hdi para algún n ∈ Z . Se sigue / V, y como d es un elemento arbitrario de V, se tiene que x no que ydn = dxn ∈ es casi entero sobre V. Luego, V es completamente enteramente cerrado. Corolario 4.6 Sea V un dominio de valuación de dimensión > 1, entonces V no es completamente enteramente cerrado, y por tanto V [[x]] no es G − GCD. Demostración: Se tiene como consecuencia del teorema anterior y el Teorema 29. A continuación se presenta un ejemplo de un dominio de valuación y por tanto dominio GCD (ver Proposición 8), cuyo anillo de series no es dominio GCD. 170 N. González, O. Sepúlveda, O. Lezama Ejemplo 4.7 Sea A = K+ xK [[x]] y V = R + xK [[x]] un subanillo de A, con K el cuerpo de fracciones de R xK [[x]] = M el ideal máximal de A y R ∩ M = 0. Se tiene entonces que: (i) Si R es un dominio de valuación y en consecuencia GCD, entonces V = R + xK [[x]] es dominio de valuación: Se consideran en R + M los ideales ha + mi y hb + ni, con a, b ∈ R y m, n ∈ M ; se puede suponer en R que hai ⊆ hbi , es decir, a = rb. Si b = 0, a = 0 y hmi , hni son comparables en A; se supone ahora que hmi ⊇ hni , entonces existe v ∈ A, v = k + m0 tal que n = vm = (k + m0 )m. Como R ∈ DV , k ∈ R ó k −1 ∈ R. Si k ∈ R, entonces en R+M se tiene que hni ⊆ hmi. Si k −1 ∈ R , 1r = k, y n = ( 1r + m0 )m, con lo cual rn = (1 + rm0 )m; además, 1 + rm0 ∈ U (A) con lo que en A se tiene hni = hrni = hmi . Entonces, existe (k 00 + m00 ) ∈ A tal que m = (k 00 + m00 )( 1r + m0 )m. Si m = 0, n = vm = 0 y entonces ha + mi ⊆ hb + ni . Si m 6= 0, (k 00 + m00 )( 1r + m0 ) = 1 y se sigue que k 00 = r ya que K ∩ M = 0, y entonces m = (r + m00 )n con lo que hmi ⊆ hni . Si b 6= 0, b + n 6= 0 porque R ∩ M = 0 y a + m = rb + m. Se define en K, −1 z = m−rn ∈ A. Si z −1 ∈ A, como m − rn ∈ M, b+n , entonces z ∈ A ó z −1 z (m − rn) ∈ M y por lo tanto b + n ∈ M de lo que b = 0, una contradicción. Entonces, z ∈ A y z(b + n) = m − rn ∈ M y como b + n ∈ / M entonces z ∈ M y a + m = (r + z)(b + n), es decir, ha + mi ⊆ hb + ni . (ii) Sea V = Z(p) + xQ [[x]], entonces su dimensión de Krull es ≥ 2, con p un número primo. (iii) Según el Teorema 30, V = Z(p) + xQ [[x]] no es completamente enteramente cerrado y aplicando el Corolario 31, V [[x]] no es G − GCD. El siguiente ejemplo, similar al anterior, muestra que un anillo de series sobre un dominio Bézout no es necesariamente G − GCD. Ejemplo 4.8 Sea R un dominio Prüfer, K 6= R su cuerpo de fracciones. Sea A = K+ xK [[x]], T = R + xK [[x]] un subanillo de A, xK [[x]] = M el ideal máximal de A y R ∩ M = 0. Se tiene entonces que: (i) Si R es un dominio Bézout y en consecuencia GCD, entonces T = R + xK [[x]] es dominio Bézout: Sea J = ha1 + m1 , a2 + m2 i un ideal de R + M , ası́ el ideal I = ha1 , a2 i = hbi . Si b = 0, J = hm1 , m2 i es un ideal del dominio de valuación K [[x]] Anillos de polinomios y series 171 con lo cual J resulta principal generado por m1 ó m2 . Si b 6= 0, ai = ci b, i = 1, 2, luego ai + mi = b(ci + 1b mi ) con 1b mi ∈ M, o sea en R + M se tiene que J ⊆ hbi ; nótese que b ∈ J : existen d1 , d2 ∈ R tales que b = d1 a1 + d2 a2 . Se supone, sin perdida de generalidad que a1 6= 0, entonces a1 + m1 ∈ /M y por tanto a1 + m1 ∈ U (K [[x]]), luego (d1 m1 + d2 m2 )(a1 + m1 )−1 ∈ K + M y existe k + n ∈ K + M tal que (a1 + m1 )(k + n) = (d1 m1 + d2 m2 ). Pero K ∩ M = 0, con lo cual k = 0 y (a1 + m1 )(n) = d1 m1 + d2 m2 . Por lo tanto, b = (d1 − n) (a1 + m1 ) + d2 (a2 +m2 ), es decir, b ∈ J de lo cual J = hbi . (ii) Sea T = Z + xQ [[x]] un dominio Bézout de dimensión de Krull ≥ 2. (iii) Según el Teorema 30, T = Z + xQ [[x]] no es completamente enteramente cerrado y aplicando el Corolario 31, T [[x]] no es G − GCD. Quedan planteados varios interrogantes como: ¿Bajo qué condiciones R [[x]] es dominio GCD ? En el caso del anillo de series cuando R es enteramente cerrado pero no completamente enteramente cerrado, el Corolario 31 permite concluir que su anillo de series no es dominio G − GCD. Ası́ queda la siguiente conjetura: Si R es un dominio completamente enteramente cerrado y GCD, entonces R [[x]] es un dominio GCD. Referencias [1] D.D.Anderson, GCD Domains, Gauss’ Lemma, and contents of polynomials, Kluwer Math And Appl. Vol 520, (2000), 1-31 [2] D.D. Anderson And R.O. Quintero, Some generalizations of GCD domains, Lecture Notes in pure And Applied Math # 189, Marcel Dekker, (1997), 189-195. [3] D.D. Anderson And B.G. Kang, Content formulas for polynomials and power series and completed integral closure, J. Algebra 181 (1996), 82-94. [4] M.F. Atiyah, I.G. Macdonald, Introducción al Álgebra Conmutativa, Ed. Reverté S.A, Barcelona, 1978. [5] N. Bourbaki, Commutative Algebra, Addison Wesley, Massachusetts, 1972. [6] J. Brewer, Power series over commutative rings, Marcel Dekker, New York, 1981. 172 N. González, O. Sepúlveda, O. Lezama [7] M. Fontana, J. A. Huckaba and I. Papick, Prüfer Domains, Marcel Dekker, New York, 1997. [8] R. Gilmer, Multiplicative Ideal Theory, Marcel Dekker, New York, 1972. [9] S. Glaz, Finite conductor rings, Proc. of AMS, to appear. [10] S. Glaz, Finite conductor rings with zero-divisors, Kluwer Math. And Appl. Vol 520 (2000), 251-271 [11] S. Glaz, and S. Chapman, One hundred problems in commutative rings theory, Kluwer Math. and Appl. Vol 520 (2000), 459-477. [12] S. Glaz, Commutative ring characterized by homological conditions, Handbook to the Heart of Algebra, Kluwer Pub, to appear. [13] S. Glaz, Finite conductor properties of R(x) and R<x>, Dekker, Proc. of Huckaba Retirement Conference, Missouri (2000), to appear. [14] S. Glaz, Commutative Coherent Rings, Lecture Notes in Mathematics, No. 1371, Springer-Verlag, New York, 1989. [15] N. González, Anillo de Polinomios Sobre Anillos de Conductor Finito, Tesis de Maestrı́a, Universidad Nacional de Colombia, Bogotá, 2002. [16] J. A. Huckaba, Commutative Rings With Zero Divisors, Marcel Dekker, New York, 1988. [17] I. Kaplansky, Commutative Rings, Allyn- Bacon, Boston, 1970. [18] E. Kunz, Introduction to Commutative Algebra and Algebraic Geometry, Birkhauser Boston, 1985. [19] O. Lezama y G. Rodriguez, Anillos Modulos y Categorias, Universidad Nacional de Colombia, Bogotá, 1994. [20] H. Matsumura, Commutative Algebra, W.A. Benjamin, Inc, New York, 1970. [21] G. Picavet, About GCD domains, to appear in Advances in Commutative Ring Theory, Marcel Dekker, (2001). [22] S. Rocuts, Dominios de Prüfer: Caracterizaciones Subclases y Ejemplos, Tesis de Grado, Universidad Nacional de Colombia, Bogotá, 1999. [23] J.J. Rotman, An Introduction to Homological Algebra, Academic Press, Orlando, 1979. Anillos de polinomios y series 173 [24] O. Sepúlveda, Anillo de Series Formales Sobre Anillos Conductor Finito, Tesis de Maestrı́a, Universidad Nacional de Colombia, Bogotá, 2002. [25] K. Spindler, Abstract Algebra with Aplications, Vol I and II, Marcel Dekker, New York, 1994. [26] W. Vasconcelos, The Rings of Dimension Two, Lecture Notes in Pure and Appl. Math. No. 22, Marcel Dekker, New York, 1976. [27] O. Zariski and P. Samuel, Commutative Algebra, Vol. I, D. Van Nostradand Company, New Jersey, 1958. Nelsy González & Omaida Sepúlveda Universidad Pedagógica y Tecnológica de Colombia Campus Universitario, Duitama - Boyacá, Colombia ngonzalez@duitama.uptc.edu.co omaidasd@latinmail.com Oswaldo Lezama Universidad Nacional de Colombia Campus Universitario, Bogotá, Colombia olezama@matematicas.unal.edu.co http://www.virtual.unal.edu.co/cursos/ciencias/15930/olezama/ Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 175 Simetrı́a y nuevas soluciones de la ecuación de Black Scholes Nikolay Sukhomlin Resumen En el enfoque local estudiamos la ecuación de Black Scholes, construimos sus operadores de simetrı́a, mostramos que su función de Green y otras soluciones usadas en la práctica financiera son las funciones propias de un operador de simetrı́a (o de la combinación lineal de ellas). Este hecho sugiere la importancia del estudio de la simetrı́a del “master equation” del modelo dinámico. Introducimos el concepto de leyes de conservación en el modelo de Black Scholes, las cuales en los casos sencillos se manifiestan por la existencia de relaciones estables durante la evolución del proceso entre el valor de una opción y la rapidez de su cambio. También encontramos el grupo de equivalencia de la ecuación de Black Scholes lo que permite clasificar los operadores de simetrı́a diferenciales hasta tercer orden, realizar la separación de variables y encontrar varias clases de nuevas soluciones de esta ecuación. Introducción El modelo de Black Scholes es el más usado en la teorı́a de los mercados financieros. La ecuación de Black Scholes constituye la parte principal del modelo, véase por ejemplo [1]: o n 1 2 2 ∂2 ∂ ∂ (1) AV ≡ ∂t + 2 σ x ∂x2 + r x ∂x − r V (t, x) = 0 donde V ( t , x ) es el valor de la opción de comprar o de vender un bien financiero con el precio x en el momento t. En la teorı́a de finanzas la constante real σ ( σ 6= 0) se llama volatilidad; la constante r define el riesgo de la inversión. En el modelo de Black Scholes la ecuación (1) se deduce a partir de un proceso estocástico de tipo de difusión. Se conoce que la transformación τ = −σ 2 t + const, ξ = ln x, V (t, x) = U (τ, ξ) exp β ln x − (β − 1)2 t / 2 β ≡ 1 2 − r σ2 (2 a) (2 b) (2 c) 176 N. Sukhomlin reduce la ecuación (1) a la ecuación de difusión: − ∂∂ Uτ + 1 ∂2 U 2 ∂ ξ2 = 0 (2 d) En la teorı́a de procesos estocásticos la ecuación de Black Scholes (1) corresponde a la ecuación retrógrada de Kolmogorov adonde la difusión se realiza ”hacia el pasado”. Actualmente la ecuación de Black Scholes se estudia activamente en diferentes aspectos, véase por ejemplo [2-7]. La estructura del artı́culo es la siguiente: en la sección 1 establecemos los operadores de simetrı́a de primer orden, notamos que ellos crean un álgebra de Lie, constatamos la estructura especial del operador A y encontramos las funciones propias de dos tipos de estos operadores. También introducimos el concepto de ley de conservación en el modelo de Black Scholes. En la sección 2 construimos el grupo de equivalencia de dicha ecuación como el producto cartesiano de dos subgrupos: uno es continuo y otro discreto. En la sección 3 clasificamos los operadores de simetrı́a hasta el tercer orden relacionado al grupo de equivalencia. En la sección 4, al separar las variables, encontramos los representantes más sencillos de las soluciones correspondientes a todas las cinco clases de los operadores de simetrı́a de segundo orden y construimos algunas otras nuevas soluciones que entran en estas clases. 1 Simetrı́a de la ecuación de Black Scholes y Leyes de conservación La idea básica de nuestro enfoque consiste en la búsqueda y en el estudio de ciertas relaciones entre el valor de una opción V ( t , x ) y la rapidez de su cambio relacionado con el precio. El hecho de la existencia de relaciones que se conservan durante todo el proceso modelado, nos lleva a información practica muy importante. Por ejemplo, este nos permite evaluar la volatilidad, o sugiere la formulación apropiada de los problemas de frontera. En la teorı́a de las ecuaciones diferenciales parciales el primer paso del programa de resolución consiste en el estudio del álgebra de simetrı́a de la ecuación. Este estudio puede tener varios objetivos: con la finalidad de la separación de variables [8, 9] o para la aplicación de la teorı́a de Lie [4, 7, 10-12]. Nosotros seguimos la primera orientación. La simetrı́a de la ecuación de difusión es bien conocida. Dado que la ecuación de Black Scholes se puede reducir a la ecuación de difusión, su simetrı́a es similar. Sin hacer los cálculos, pasamos directamente a los resultados. El conjunto de los operadores de simetrı́a de la ecuación (1) diferenciales lineales de primer orden y que conmutan con el operador A constituye un espacio vectorial con la base: 177 La ecuación de Black Scholes B1 = x ∂∂x − β , B2 = σ 2 t x ∂∂x − ln x − σ 2 t β (3 a) (3 b) y también un operador de simetrı́a trivial del orden cero: B3 = 1. Observamos que: B2 = σ 2 t B1 − ln x (3 c) y que se verifican las condiciones de conmutación: [ B2 , B1 ] = B3 , [ B2 , B 3 ] = [ B1 , B 3 ] = 0 (3 d) La simetrı́a mencionada es intrı́nseca de la ecuación de Black Scholes (1). Es fácil verificar que el operador (3a) define totalmente el operador A: ∂ A = σ 2 σ12 ∂t + 12 B12 − 21 (β − 1)2 . (3 e) Visto que [ A , Bi ] = 0 ( i = 1, 2, 3 ), es obvio que toda función de los operadores B1 , B2 , B3 conmutará con A y en consecuencia, será un operador de simetrı́a de la ecuación (1). Este hecho nos permitirá en las secciones 3 y 4 clasificar los operadores de simetrı́a y construir las nuevas soluciones exactas de la ecuación de Black Scholes usando el metodo de separacion de variables en el enfoque de V. Shapovalov [8]. En las teorı́as económicas, sociales y financieras no se suele usar la noción de operador de simetrı́a. Sin embargo la importancia de este concepto reside en el hecho de que cada operador de simetrı́a está ligado con una ley de conservación, pero el concepto de ley de conservación tampoco está desarrollado en dichas teorı́as. Como en la mecánica clásica y la cuántica, aquı́ este concepto tiene un papel importante en la descripción del sistema dinámico. Vamos introducir el concepto de ley de conservación y lo ilustramos para el modelo de Black Scholes. Hallamos las soluciones de la ecuación (1) que son las funciones propias del operador de simetrı́a (3 a), es decir resolvemos el sistema: A V (t, x) = 0 , B V (t, x) = λ V (t, x) . (4 a) (4 b) con B = B1 en este caso. Después de cálculos sencillos encontramos una familia de soluciones parametrizadas por λ: n 2 o Vλ ( t, x ) = C xλ + β exp σ2 (β − 1)2 − λ2 t (C = const ) (5) Esta familia de soluciones corresponde a la ley de conservación que se expresa por la relación (4 b): elasticidad-precio del valor de la opción que se conserva en este caso: 178 N. Sukhomlin Ep ≡ x ∂V V ∂x = (λ + β ) = const. (6) Este hecho significa que al elegir la solución (5), elegimos la relación (6) entre el valor V y la rapidez de su variación. La existencia de esta ley de conservación permite experimentalmente evaluar la potencia del precio en la función (5): λ + β. En el caso general las relaciones entre la función incógnita y sus derivadas pueden ser mucho menos evidentes: véase por ejemplo las formulas (7), (14) y (15). La importancia práctica de una ley de conservación se encuentra en el hecho de que matemáticamente es mucho más fácil encontrarla que resolver la ecuación (1). Además, la existencia de una ley de conservación no depende del sistema de coordenadas en las cuales está escrita la ecuación. Nuestro estudio permite explicitar la simetrı́a que verifica la solución (5) y establecer el sentido de las constantes que la definen. Esta función es cóncava a la condición: 0 < λ + β < 1. El segundo operador de simetrı́a de primer orden B2 define otra ley de conservación: la relación (4 b) informa que la misma elasticidad ahora no se conserva, sino depende linealmente del logaritmo del precio y es inversamente proporcional al tiempo. En consecuencia se conserva la expresión: (7) σ 2 t Vx ∂∂ Vx − β − ln x = λ = const. Esta igualdad se construye usando la formula (3 c). También es posible interpretar esta ley como conservación del valor inicial del precio x0 : para el tiempo t → 0 el operador B2 se reduce a la expresión: − (ln x0 ) ⇒ x0 = exp {−λ}. Ahora la relación (7) se puede escribir: Ep ≡ Vx ∂∂ Vx = σ12 t ln xx0 + β . La resolución del sistema de tipo (4) con el operador B2 (3 b) nos lleva al resultado siguiente: 2 [ ln x + σ2 β t + λ ] C √ (C = const). (8) Vλ (t, x) = t exp 2 σ2 t Esta función representa la función de Green de la ecuación de Black Scholes (1) bien conocida en la literatura. Mencionamos que si r = σ 2 /2 entonces la solución (8) queda: Vλ (t, x) = C √ t x x0 1 2 σ2 t ln “ x x0 ” . Podemos constatar que la función (8) es cóncava con la condición: 2 ln(x/x0 ) − rt2 + 1 < σ2 t − 1 , lo que se verifica a partir del momento del tiempo t = 4/σ 2 . 179 La ecuación de Black Scholes 2 Grupo de equivalencia de la ecuación de Black Scholes Sea la ecuación de Black Scholes (1). Estudiamos las transformaciones de variables: τ = τ (t), ξ = ξ(t, x), V (t, x) = a(t, x) Q(τ , ξ) (9) tales que la ecuación (1) no cambia su estructura, salvo que aparece un factor multiplicativo a la izquierda: n o ∂Q 1 2 2 ∂2 f ( t , x ) ∂∂ Q + σ + r ξ − r Q = 0, (10) ξ 2 0 0 0 τ 2 ∂ξ ∂ξ donde Q es la nueva incógnita. Ası́ aparece una libertad complementaria: considerar las constantes σ0 , r0 como distintas de las constantes σ, r o como iguales. El problema de encontrar todas las transformaciones con la propiedad mencionada se resuelve por el Teorema 1 y para prepararlo enunciamos dos proposiciones. Proposición 1. Sea la ecuación de Black Scholes (1). La transformación siguiente: 2 2 τ = ασ2σ ( t − t0 ) , ξ = xx0 , (11 a) 0 V ( t , x ) = Q ( τ , ξ ) exp{ (β − α β0 ) ln x + 2 + σ2 ( β − 1 )2 − α2 ( β0 − 1 )2 t } (11 b) convierte la ecuación (1) en la ecuación de tipo (10) con el factor exterior: 2 2 f ( t, x) = ασ2σ exp{ (β − α β0 ) ln x + 0 2 + σ2 ( β − 1 )2 − α2 ( β0 − 1 )2 t } para cualesquiera valores de las constantes: α, t0 , x0 (α 6= 0, x0 6= 0). la constante β está definida por (2 c) y β0 ≡ 12 − σr02 . Aquı́ 0 Las transformaciones (11) constituyen un grupo continuo con tres parámetros: la constante α corresponde a un cambio en la escala del tiempo con la variación simultánea de la coordenada x ; la constante t0 representa la libertad de elección del origen del tiempo y la constante x0 está ligada con la libertad de elección del precio inicial (notamos la imposición: x0 6= 0). Llamamos este grupo galileano G por analogı́a con el grupo correspondiente en la teorı́a de difusión. El grupo galileano G crea una relación de equivalencia sobre el conjunto de las soluciones de la ecuación (1). Además de este grupo, existe una transformación especial que tampoco cambia la estructura de la ecuación (1). Proposición 2. Sea la ecuación de Black Scholes (1). La transformación siguiente: 180 N. Sukhomlin τ = − σ21σ2 0 +β 1 t , ξ = exp − σln2xt , 2 τ , ξ) V ( t , x ) = Q (√ exp{ ( ln x2 σ+2 tβ0 ) t 2 2 ln x + σ ( β 2− 1 ) t + σ2r0σ2 1t } 0 (12 a) + (12 b) convierte la ecuación (1) en la ecuación de tipo (10) con el factor exterior: f (t, x) = + β ln x 2 1 √ exp{ ( ln x2 σ+2 tβ0 ) + σ02 σ 2 t2 t 2 2 + σ ( β 2− 1 ) t + σ2r0σ2 1t } . 0 Ambas proposiciones se comprueban fácilmente por la sustitución. En realidad las constantes en la fórmula (12 a) se pueden eliminar por una transformación del grupo galileano G: por ejemplo, usando la transformación (11), la ecuación (1) se puede reducir a otra de la misma estructura con σ0 = 1 y la constante r0 puede ser igual a cero o a una constante cualquiera. En este caso la transformación (12 a) se presenta por: xI = exp − lnt x , tI = − 1t . (12 c) La denotamos ν. Estudiamos ahora nlas potencias de ν: o 1 ln xI 2 II = x , tII = − t1I = t ; ν corresponde a x = exp − tI ν 3 corresponde a xIII = exp lnt x , tIII = − 1t ; ν 4 corresponde a xIV = x, tIV = t: transformación idéntica i. Concluimos que el conjunto ν, ν 2 , ν 3 , ν 4 = i constituye un grupo discreto que denotamos N . Teorema 1. Sea la ecuación de Black Scholes (1) con las constantes σ (σ 6= 0), r dadas. El grupo de equivalencia más amplio que admite la ecuación (1) es Γ = G ⊗ N donde G es el grupo galileano y N es el grupo discreto definidos arriba por las fórmulas (11) y (12). El teorema se verifica sin dificultad por la sustitución de la transformación (9) en la ecuación (1) y la imposición de la estructura (10). Notamos que el grupo galileano G (y en consecuencia el grupo Γ) es parametrizado por tres parámetros α, t0 , x0 (α 6= 0, x0 6= 0). Ası́ se crea una partición sobre el conjunto de todas las soluciones de la ecuación (1). Observamos que al mismo tiempo se crea una clasificación de las leyes de conservación. Es fácil verificar que el operador (3 a) se transforma por el elemento ν del grupo N en el operador (3 b) y viceversa, lo que significa que las soluciones (5) y (8) entran en la misma clase de equivalencia. Más exactamente, la aplicación de la transformación (9) en la forma (12) con el factor definido por la relación (12 b) resulta: 0 a− 1 B1 a = B2 ; 0 a− 1 B2 a = − B1 ; (13) La ecuación de Black Scholes 0 181 0 donde los operadores B1 B2 tienen las formas (3 a) y (3 b) escritas en las coordenadas τ, ξ (12 a) y con σ0 , β0 . Recordamos que los operadores B1 y B2 no conmutan: véase la formula (3 d); entonces es normal que se pongan en relación de equivalencia sólo por los elementos del grupo discreto N y no se puedan poner en equivalencia por los elementos del grupo continuo G. 3 Clasificación de los operadores de simetrı́a de la ecuación de Black Scholes hasta el tercer orden En nuestro articulo [13] hicimos la clasificación de los operadores de simetrı́a hasta tercer orden para la ecuación de Schrödinger libre. La misma clasificación relacionada con el grupo de equivalencia Γ del Teorema 1 se puede hacer para la ecuación de difusión (2 d) y en consecuencia para la ecuación de Black Scholes (1). Los resultados se presentan en el teorema siguiente. Teorema 2. Sea la ecuación de Black Scholes (1) con el operador A por ejemplo en la forma (3 e). Todos los operadores lineales diferenciales de hasta tercer orden que conmutan con A entran en una de las siguientes 6 clases de equivalencia y en 8 agrupaciones de clases de equivalencia: 1) Todos los operadores de primer orden constituyen una sola clase de equivalencia cuyo representante más sencillo es B1 (ó B2 ) definido por la fórmula (3 a). 2) Todos los operadores de segundo orden constituyen cinco clases de equivalencia cuyos representantes más sencillos son: a) B22 + B12 , (14 a) b) B22 − B12 , (14 b) c) B1 B2 + B2 B1 , (14 c) d) B12 + B2 , (14 d) e) B12 . (14 e) 3) Todos los operadores de tercer orden constituyen ocho agrupaciones de clases de equivalencia parametrizadas por tres o cuatro constantes arbitrarias ω , µ , ν , η y cuyos representantes más sencillos son: (15 a) 1. B23 + (B2 B12 + B12 B2 ) + ω B13 + µ B12 + ν B2 + η B1 , (15 b) 2. B23 − (B2 B12 + B12 B2 ) + ω B13 + µ B12 + ν B2 + η B1 , (15 c) 3. B23 + B13 + µ B12 + ν B2 + η B1 , 4. B23 − B13 + µ B12 + ν B2 + η B1 , (15 d) 5. B23 + µ B12 + ν B2 + η B1 , (15 e) 182 N. Sukhomlin 6. (B22 B1 + B1 B22 ) + B13 + µ B12 + ν B2 + η B1 , (15 f) 7. (B22 B1 + B1 B22 ) − B13 + µ B12 + ν B2 + η B1 , (15 g) 8. (B22 B1 + B1 B22 ) + µ B12 + ν B2 + η B1 . (15 h) La demostración del teorema similar para la ecuación de Schrodinger libre está hecha en nuestro artı́culo [13]. El Teorema 2 se comprueba de la misma manera. La idea de la demostración es la siguiente: se construye la forma cúbica de los operadores B1 , B2 , B3 de estructura más general. Luego se aplican las transformaciones del grupo Γ para simplificar el operador inicial. El hecho que cualquier operador de simetrı́a diferencial lineal de tercer orden de la ecuación de Black Scholes (1) tiene la estructura de esta forma cúbica es también nuevo. Notamos que el Teorema 2 también dice que existen 6 clases y 8 agrupaciones de clases de las leyes de conservación, cada una está definida por la relación (4 b) y las fórmulas (14) y (15). Como mencionamos arriba, cada operador de simetrı́a está ligado con una ley de conservación especı́fica. Además, a cada operador corresponde un conjunto de funciones propias que son las soluciones de la ecuación (1) y que constituyen una base en un espacio funcional. También cada operador de simetrı́a corresponde a un sistema privilegiado de coordenadas que permite separar las variables en la ecuación (1) y resolverla exactamente. Realizamos este programa en la sección siguiente. 4 Nuevas soluciones exactas de la ecuación de Black Scholes El Teorema 2 de la sección anterior nos permite abordar el problema de la resolución sistemática de la ecuación de Black Scholes (1). Algunas soluciones son muy conocidas como aquellas que presentamos en la sección 1; pero la mayorı́a de las soluciones que enumeramos abajo son nuevas. Recordamos que las soluciones con la simetrı́a dada las buscamos a partir del sistema de tipo (4). La solución (5) representa la solución más sencilla de la clase de soluciones equivalentes que admiten un operador de simetrı́a de primer orden. Cualquier solución de esta clase se puede construir al desarrollar la función (5) usando todos los elementos del grupo Γ del Teorema 1. Visto los resultados de la fórmula (13) podemos constatar que la función de Green (8) entra en la misma clase de equivalencia. En nuestro artı́culo [14] encontramos las soluciones de la ecuación de Schrödinger libre correspondientes a las cinco clases de operadores de segundo orden correspondientes a las fórmulas (14) arriba. Usando las relaciones de similitud entre esta última ecuación, ecuación de difusión (2 d) y la ecuación de Black 183 La ecuación de Black Scholes Scholes (1) podemos construir por el mismo procedimiento las soluciones de cada una de las cinco clases de equivalencia de la ecuación de Black Scholes. Todos estos resultados son nuevos. Conforme al Teorema 2 el conjunto de las soluciones de la ecuación (1) que verifican el sistema (4) con los operadores de simetrı́a de segundo orden se separa en 5 clases de equivalencia. Los operadores más sencillos de cada clase de equivalencia son enumerados en las fórmulas de (14 a) hasta (14 e). Pasemos ahora a la resolución del sistema (4) para cada una de estas cinco clases. a) Sea la clase de equivalencia definida por el operador (14 a): B = B22 + B12 = (σ 4 t2 + 1) B12 − 2 σ 2 t (ln x) B1 + ln2 x − σ 2 t . Es fácil verificar que la función siguiente cumple el sistema (4) y en consecuencia es la solución de la ecuación de Black Scholes: Vλ ( t , x ) = + β ln x − 2 Φ(ξ) exp { 2 (σ4σt2 t+ 1) ln2 x (σ 4 t2 + 1)1 / 4 λ σ2 2 2 2 arctg (σ t ) + 2 (β − 1 ) t } , 4 2 −1/2 ξ ≡ (σ t La función Φ(ξ) + 1) + (16) ln x . verifica la ecuación diferencial ordinaria siguiente: Φ 00 + ξ2 Φ = λ Φ , cuyas soluciones son las funciones del cilindro parabólico. Las soluciones correspondientes a la familia de soluciones (16) describen en la mecánica cuántica los estados llamados coherentes. b) Sea la clase definida por el operador (14 b): B = B22 − B12 = (σ 4 t2 − 1) B12 − 2 σ 2 t (ln x) B1 + ln2 x − σ 2 t . . En este caso la solución de la ecuación de Black Scholes se presenta en la forma: Vλ ( t , x ) = + β ln x + λ 2 Φ(ξ) | σ 4 t2 − 1| 2 2 exp { 2 (σ4σt2 t− 1) ln2 x + arcth (σ t ) + ξ ≡ 4 2 σ t σ2 2 (β − −1/2 − 1 1 )2 t } , (17) ln x . La función Φ ( ξ ) verifica la ecuación diferencial ordinaria de tipo de oscilador armónico en la mecánica: Φ00 − ξ 2 Φ = λ Φ . Las soluciones que se anulan al infinito se expresan por los polinomios de Tchebyshev - Hermite Hn ( ξ ); el espectro de los valores propios del operador mencionado es discreto: 184 N. Sukhomlin Φn ( ξ ) = Cn Hn ( ξ ) exp − ξ 2 / 2 , λn = − (2 n + 1) , n = 0, 1, 2, ... con las funciones Hn ( ξ ) que verifican la ecuación de Hermite: Hn00 − 2 ξ Hn0 + 2 n Hn = 0 . Como se conoce las funciones Φn ( ξ ) representan una base ortonormal en L2 . Las soluciones (17) se definen sobre un intervalo finito del tiempo y se pueden fácilmente adaptar al modelo de Black Scholes. c) Sea la clase de equivalencia definida por el operador (14 c): B = B2 B1 + B2 B1 = 2 σ 2 t B12 − 2 (ln x) B1 − 1. La solución de la ecuación de Black Scholes se presenta como: Vλ ( t , x ) = Φ ( ξ ) exp { 4 σ12 t ln2 x + 2 1 ln (σ 2 t ) + σ2 (β − 1 )2 t } , + β ln x − λ + 4 ξ ≡ ( σ 2 t )− 1 / 2 ln x , Φ 00 (18) − ( ξ2 / 4 ) Φ = ( λ / 2 ) Φ . Las funciones Φ ( ξ ) de la última ecuación como en el caso anterior se expresan por los polinomios de Tchebyshev - Hermite Hn ; el espectro de los valores propios del operador mencionado es también discreto: √ Φn ( ξ ) = Cn Hn ( ξ / 2) exp − ξ 2 / 4 , λn = − 2 n − 1 , n = 0, 1, 2, ... Finalmente la solución (18) en este caso se presenta como: √ n Vλ ( t , x ) = Cn t 2 Hn ( ξ / 2) exp { β ln x + σ2 2 (β − 1 )2 t } (19) Esta solución tiene una propiedad interesante: ella verifica una de las condiciones complementarias del modelo de Black Scholes ( si β > 0): x → 0+ ⇒ Vn ∼ xβ (ln x)n ⇒ limx→0+ ( Vn ) = limx→0+ ( const xβ ) = 0. Por otro lado constatamos que si x → ∞ ⇒ Vn ∼ xβ (ln x)n . Esto permite aproximar bastante bien la otra condición de frontera si β es pequeña y construir una serie de tipo exponencial usando las soluciones (19). Más exactamente para Cn = σ n : n 2 o P∞ (20) V ◦ (t, x) ≡ n=0 n1! Vn (t, x) = x1 + β exp σ2 (β − 1 )2 t 185 La ecuación de Black Scholes Esta función es el caso particular de la solución (5) para λ = 1. En la aproximación β ≈ 0 , β 6= 0 , la solución de la ecuación de Black Scholes que verifica las condiciones complementarias será la combinación lineal de (20) y de (19) para n = 0: V ( t , x ) = xβ exp n σ2 2 (β − 1 )2 ( t − T ) oh x e− σ2 2 ( t−T ) −K i . Precisamente la aproximación es en la presencia del factor xβ ≈ 1 si . β ≈ 0 . Por ejemplo, para . r = 0.05; σ = 0.317 ⇒ β = 0.002. d) Sea la clase de equivalencia definida por el operador (14 d): B = B12 + B2 . La solución de la ecuación de Black Scholes en este caso tiene la forma siguiente: Vλ ( t , n x) = o 2 6 3 2 Φ ( ξ ) exp β − σ2 t ln x − σ12t + σ2 (β − 1 )2 − λ t (21) ξ ≡ ln x + σ 4 t2 / 4 . La función Φ ( ξ ) verifica la ecuación de Airy: Φ00 − ξ Φ = λ Φ. e) La última clase de equivalencia de los operadores de segundo orden tiene como operador más sencillo (14 e): B = B12 . Las soluciones de la ecuación de Black Scholes con B = B12 para cualesquiera valores del parámetro λ son parecidas a las funciones (5) pero aquı́ dependen de dos constantes arbitrarias C , D (porque el operador de simetrı́a en este caso es de segundo orden): Vλ ( t , x ) = n √ √ o 2 ( C e λ ln x + D e− λ ln x ) exp β ln x + σ2 (β − 1 )2 − λ t (22) En conclusión notamos que se pueden construir otras soluciones de cada clase de equivalencia a partir de las soluciones mencionadas usando todos los elementos del grupo de equivalencia Γ del Teorema 1. Al aplicar, por ejemplo la transformación (12 c) del subgrupo discreto N a la última función (21), llegamos a nueva solución de la ecuación de Black Scholes (que queda sin embargo equivalente a la solución (22)): + D0 √ t n o √ λ + 2 λ ln x + (ln x + β σ 2 t)2 + 2 r σ 2 t2 C0 Vλ0 = √ exp + 2 σ2 t n t √ o 2 2 2 2 exp λ − 2 λ ln x + (ln2 xσ2+t β σ t) + 2 r σ t (23) Aquı́ no utilizamos las primas arriba de las variables. Observamos que si por ejemplo λ < 0, las soluciones (22) y (23) contienen las funciones senos y cosenos del ln x, lo que permite usar el desarrollo en la serie de Fourier para verificar las condiciones de frontera. Recordamos que nuestro enfoque es local y entonces el problema de condiciones de frontera necesita un paso más para su estudio. 186 N. Sukhomlin También la nueva solución de la ecuación de Black Scholes que pertenece a la clase de equivalencia definida por la solución (19) es: Vn0 ( t , x ) = Cn0 t− n+1 2 2 σ2 2 Hn ( ρ ) exp { 2lnσ2xt + β ln x + ρ ≡ √ −ln2xσ2 t . (β − 1 )2 t } , √ La unidad imaginaria − 1 en la expresión ρ no influye en el resultado porque los polinomios de numero par H2 k ( ρ ) contienen únicamente los términos con potencias pares de ρ y por lo tanto son reales. En los polinomios H2 k + 1 ( ρ ) todos los términos son de potencia impar y la unidad imaginaria se puede sacar como factor común, el que queda incluido en la constante C20 k + 1 que será en este caso también imaginaria. La solución ”clásica” de la ecuación de Black Scholes es la función siguiente (véase por ejemplo [2], p. 17): V ( t , x ) = x Φ ( θ ) − K e− r (T − t ) Φ ( ω ) (24) con la función de distribución normal estandar: Rz 2 √1 e− u / 2 d u , 2π −∞ ln x − (1 − β) σ 2 t + T σ 2 (1 − β) − ln K √ σ T −t Φ(z) ≡ θ ≡ ω ≡ ln x + β σ 2 t − (T σ 2 β + ln K ) √ σ T −t , , En realidad cada término de la fórmula (24) representa una solución de la ecuación de Black Scholes. Dichos términos tienen la simetrı́a superior: el operador de simetrı́a correspondiente es un operador integral. Observando que las funciones x , y e− r (T − t ) son las soluciones particulares de la ecuación de Black Scholes (1), constatamos que cada uno de los términos de la solución (24) represente un producto de dicha solución particular por la función Φ ( z ) que en consecuencia verifica la ecuación diferencial ordinaria: Φ00 + z Φ0 = 0 . La nueva solución de la ecuación de Black Scholes que es equivalente a (24) relacionada con el grupo discreto N es la función siguiente: V 0 ( t , x ) = V1 − V2 (25) donde cada término es también una solución de la ecuación de Black Scholes: n 2 o 2 2 2 b V1 ≡ Φ (√ν σ(t,2 tx) ) exp 2lnσ2xt + β + 1σ− ln x + (b2−σ21)t + r + σ 2β t , 2t ν (t, x) ≡ −ρT V1 ≡ Ke ln x + (1 − b) + [ T σ 2 (1 − b) − ln K] σ 2 t √ σ 2 t (T s2 σ 2 t + 1) 2 exp ((2b − 1) / 2 σ t) √ σ2 t , 2 Φ ( µ (t, x) ) exp{ 2lnσ2xt + 187 La ecuación de Black Scholes + β − b σ2 t ln x + µ(t, x) ≡ (b − 1)2 2 σ2 t + r + σ2 β 2 2 ln x − b − [ T σ 2 b + ln K] σ 2 t √ σ 2 t (T s2 σ 2 t + 1) t }, , Concluimos que la función (25) V 0 ( t , x ) = V1 − V2 es una solución de la ecuación de Black Scholes (1) para cualesquiera valores de las constantes K , T , s , ρ K > 0 , T > 0 , s > 0 , b ≡ 21 − sρ2 y la función Φ ( z ) es la función de distribución normal. Encontrar las soluciones exactas a partir de los operadores de tercer orden y de orden superior es más difı́cil porque sus órdenes son superiores al orden de la ecuación (1). Por ejemplo en nuestro artı́culo [15] encontramos tal solución de la ecuación de Schrödinger libre correspondiente a una subclase de la clase 5 de los operadores de tercer orden correspondiente a la fórmula (15 e). Esta solución se presenta como una serie de potencias con coeficientes dependientes del tiempo. Usando este resultado es fácil construir la nueva solución de ecuación de Black Scholes. Finalizamos al mencionar que el modelo estudiado se puede extrapolar en diferentes direcciones. Por ejemplo, es posible considerar la ecuación de Black Scholes como la ”proyección” de una ecuación de este tipo relacionada con varias variables { x1 , x2 , ... , xn } . También es posible considerar que las fluctuaciones aleatorias no son válidas para todas las variables xi : ası́ llegamos a una ecuación ultraparabólica. Otro modelo puede estudiar la influencia de la variación de los valores de unas opciones sobre otras, lo que nos lleva al sistema de ecuaciones ligadas que generalizan el modelo de Black Scholes. También es posible usar el paralelismo entre la mecánica cuántica y la mecánica clásica que pone en relación la ecuación de Schrödinger y la ecuación correspondiente de Hamilton Jacobi. En este sentido es posible también desarrollar el paralelismo entre la ecuación de Black Scholes y una ecuación diferencial no lineal de primer orden de tipo de Hamilton Jacobi. Este permitirá usar los métodos poderosos de la mecánica analı́tica en la teorı́a de Black Scholes. El autor agradece a los árbitros anónimos por las sugerencias interesantes y a Rodolfo Echarri y Alexander Shapovalov por las discusiones fructı́feras sobre el tema y al Departamento de Fı́sica de la Universidad Autónoma de Santo Domingo por el apoyo. Bibliografı́a 1. J. Stampfi, V. Goodman (2002), Matemáticas para las finanzas, Thomson, Australia. 188 N. Sukhomlin 2. H. Fontanals, R. Lacayo, J. Vives (2002), Alternative solutions of the Black Scholes equation, (http://www.ub.es/div2/recerca/documents/resum/e58.htm). 3. P. Poncet, R. Abgrall (2002), A few Multiresolution Schemes for the Black Scholes equation, (http://perso.wanadoo.fr/poncet/research/C-2000-Cemracs.pdf). 4. A. Charlemagne (2003), Classification of invariant solutions of the BlackScholes equation, (http://duck.cs.und.ac.za/˜banasiak/pooe.pdf). 5. D. Silverman (1999), Solution of the Black Scholes equation using the Green’s function of the Diffusion equation, (http://www.physics.uci.edu/˜silverma/bseqn/bs.pdf). 6. R. Almgren (2001), Solving the Black-Scholes Equation, (http://www.math.toronto.edu/almgren/finmath/pde-01/notes1.pdf). 7. C Wafo Soh, N H Ibragimov (1999), “Solution of the Cauchy Problem for the Black-Scholes Equation using its symmetries”, Proceedings of the International Conference at the Sophus Lie Conference Centre, Nordfjordeid, 30 June-5 July (Norway: Mars Publishers). (http://www.cam.wits.ac.za/staff/wafo.html). 8. V. Shapovalov (1980), Differential Equations, 16, pp. 1864 - 1874. 9. W. Miller, Jr. (1977), Symmetry and Separation of Variables, AddisonWesley Publishing Company, London. 10. L. V. Ovsiannikov (1982), Group analysis of differential equations, Boston, Academic Press. 11. P. Oliver (1996), Equivalence, Invariants and Symmetry, Cambridge. 12. M. Cohen de Lara (1995), “Geometric and symmetry properties of nondegenerate diffusion processes”, The Annals of Probability, Vol 25, pp. 1557 - 1604. 13. N. Sukhomlin, M. Arias (2004), “Estudio de simetrı́a y de posibilidades de la resolución exacta de las ecuaciones de Schrödinger y Hamilton - Jacobi para un sistema aislado, I. Clasificación de los operadores de simetrı́a de tercer orden” (en publicación). 14. N. Sukhomlin (2004), “Estudio de simetrı́a y de posibilidades de la resolución exacta de las ecuaciones de Schrödinger y Hamilton - Jacobi para un sistema aislado, II. Resolución exacta de las ecuaciones de Schrödinger y de Hamilton - Jacobi” (en publicación). La ecuación de Black Scholes 189 15. N. Sukhomlin, J. Álvarez, D. Pérez (2003), “Función de Green para una partı́cula cuasi relativista I. Partı́cula libre” (en publicación). Nikolay Sukhomlin Departamento de Fı́sica, Universidad Autónoma de Santo Domingo, República Dominicana Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 191 Sistemas de numeración, sistemas dinámicos substitutivos y fractales de Rauzy Vı́ctor F. Sirvent 1 Introducción En este trabajo se presenta una introducción a la representación geométrica de sistemas dinámicos substitutivos. Estas representaciones geométricas se basan en sistemas de numeración ad hoc asociados a la substitución. Y se obtienen unos conjuntos fractales, conocidos como fractales de Rauzy. El objetivo de este trabajo es mostrar como estos tres conceptos están relacionados. Se comienza con dos ejemplos representativos, el caso Fibonacci y el caso Tribonacci, donde se exponen las ideas principales que luego son usadas en el caso general, el cual se presenta en la última sección. Los sistemas dinámicos substitutivos o substituciones están muy ligados con la teorı́a de tilings, la cual no se expone aquı́. Para ello ver [71, 67, 66]. Tampoco se presentan aquı́ los aspectos relacionados con la teorı́a ergódica asociada a este tipo de sistemas dinámicos. 2 El caso Fibonacci Considere los números de Fibonacci fk+2 = fk+1 + fk con f0 = 1, f1 = 1. A cada número natural n se le puede representar de manera única como suma de números de Fibonacci, siempre que no haya dos números de Fibonacci consecutivos. Es decir: Proposición 2.1 ([76]) Dado n existe ni0 , . . . , nik tal que n = fni0 +· · ·+fnik con nij > nij−1 + nij−2 , con 2 ≤ j ≤ k. A esta representación de los números naturales se le llama representación de Zeckendorff. P Esto nos permite, escribir n = i≥0 i (n)fi donde (n) = 0 (n)1 (n) . . . es una sucesión infinita en {0, 1} tal que no contiene dos “1” consecutivos y su cola consiste de “0”. Consideremos la clausura de estas sucesiones en la topologı́a producto de {0, 1}N esto nos da el espacio: F = {a = a0 a1 . . . | ai · ai+1 = 0 ∀i}. 192 V. Sirvent Aquı́ · es el producto usual de números enteros. La relación de recurrencia de los números de Fibonacci está asociada a la √ ecuación polinómica x2 = x + 1. La cual tiene como raices λ = (1 + 5)/2, la razón dorada, y α = −1/λ. Proposición 2.2 Sea J = [−1, −1/α]. Entonces X { ai αi | a0 a1 . . . ∈ F} = J i≥0 P∞ Demostración: Como α es negativo, se tiene que 0 α2i = −1/α es la cota P∞ 2i+1 superior y 0 α = −1 la cota inferior, por lo que X ai αi | a0 a1 . . . ∈ F} ⊂ [−1, −1/α]. { i≥0 Por otro lado, considere las transformaciones h1 , h2 : J → J, h1 (x) = αx h2 (x) = α2 x + 1 Debido a que la unión de h1 (J), h2 (J) es J y sus interiores son disjuntos, a cada elemento x de J se le puede escribir de la forma: x = ∩n≥1 hx1 · · · hxn (J) para una cierta sucesión x1 x2 . . ., donde xi = 1 ó 2. Debido Pa las expresiones de h1 , h2 , el elemento de ∩n≥0 hx1 · · · hxn (J) es de la forma i≥0 ai αi , para un cierto a ∈ F. Más aún, si se definen f0 , f1 : J → J, f0 (x) = αx, al elemento x = P f1 (x) = αx + 1 ai αi , se le expresa de la forma x = ∩n≥0 fa0 · · · fan (J). Como h1 = f0 y h2 = f1 ◦ f0 , este hecho nos da la relación entre a y la sucesión x1 x2 · · · . A continuación se hará un paréntesis, en esta discusión, ya que se requiere introducir unos conceptos básicos de fractales. Definición 2.3 Un sistema iterativo de funciones o IFS (por sus siglas en inglés: iterated function system) consiste en un espacio métrico completo (X, d) junto con un conjunto finito de contracciones fi : X → X con constante de contracción 0 ≤ ci < 1, para i = 1, . . . , n. Se dice que el factor de contracción del IFS es c = max{ci | i = 1, . . . , n}. Fractales de Rauzy 193 0 0 1 Figura 1: Grafo Fibonacci Denotaremos por H(X) el conjunto formado por todos los subconjuntos compactos no vacı́os de X. Este espacio tiene una distancia natural, la métrica de Hausdorff: dH (A, B) = inf{δ | A ⊂ Bδ y B ⊂ Aδ } donde Aδ = {x ∈ X | d(x, A) ≤ δ para algún δ}. Si (X, d) es completo entonces (H(X), dH ) también es completo. Teorema 2.4 (Hutchinson) Sea {f1 , . . . , fn } un IFS con factor de contracción c. Entonces la transformación F : H(X) → H(X) definida por F (E) = n [ fi (E) i=1 para todo E ∈ H(X), es una contracción en (H(X), dH ) con factor c. Para la demostración del teorema véase [11, 20]. Definición 2.5 Al único punto fijo de la contracción del teorema 2.4 se le llama atractor del IFS. Este tipo de conjuntos fue introducido originalmente por Moran [35] y sin embargo su definición fue modificada posteriormente por Hutchinson [27]. En el caso que se presenta en la demostración de la Proposición 2.2, el par {h1 , h2 } forma un IFS y el intervalo J es su atractor. La relación entre las funciones hi y fi , nos permite presentar el IFS {h1 , h2 } de la siguiente manera: Considere el grafo dirigido, de la figura 1. Note que todos los elementos de F se obtienen como caminos infinitos en el grafo anterior. Como para cada elemento x de J existe un a ∈ F tal que x = ∩n≥0 fa0 · · · fan (J). 194 V. Sirvent El par {f0 , f1 } junto con el grafo dirigido, es un ejemplo de un GIFS, teniendo a J como atractor. Sea E = {1, . . . , k} y GE un grafo dirigido primitivo con etiquetas en E. Sea {h1 , . . . , hk } un IFS en un espacio métrico completo (X, d) y ΣGE = {a0 a1 . . . ∈ E N | a0 a1 . . . an es un camino en E ∀n}. Se define la aplicación π : ΣGE →X, donde π(a) es el único elemento de ∩i≥0 hai (X). El IFS {h1 , . . . , hk } junto con ΣGE se le denomina sistema iterativo de funciones controlado por el grafo dirigido o simplemente GIFS, por sus siglas en inglés graph-directed iterated function system. Al conjunto formado por la imagen de ΣGE bajo π, se le denomina el atractor del GIFS. En general, no todo atractor de un GIFS se puede presentar como el atractor de un IFS. En F se puede definir un sistema dinámico de la siguiente manera: cualquier elemento en F, cuya cola consiste en “0”, corresponde a un número natural, por lo tanto se puede definir su consecutivo. Esto induce por continuidad una transformación continua T en F. Al sistema dinámico (F, T ) se le denomina sistema ádico de Fibonacci. El cual es minimal, es decir toda órbita es densa en F. Sea la transformación ξ: F a −→ P J i 7−→ i≥0 ai α . La cual es sobreyectiva y continua. De la demostración anterior se tiene que ξ(a) = ∩n≥0 fa0 · · · fan (J). Más aún el siguiente diagrama conmuta T F −−−−→   ξy F  ξ y (2-1) J −−−−→ J f donde f (x) = x + 1 (mod J). Al sistema simbólico (F, T ) se le asocia el sistema “geométrico” (J, f ), de manera tal que existe una estrecha relación entre la estructura de las órbitas de ambos sitemas. Como la transformación ξ es sobreyectiva, el sistema (F, T ) tiene una estructura de órbitas más rica que (J, f ). Se dice que el sistema dinámico (J, f ) es una realización geométrica del sistema ádico (F, T ). Esta dinámica tiene una estructura autosimilar. Nótese que F = F0 ∪ F10 donde F0 = {a ∈ F : a0 = 0} y F10 = {a ∈ F : a0 = 1, a1 = 0}. Lo cual se puede expresar de la forma: F0 = τ (F10 ) y F10 = T τ 2 (F), donde τ : F → F, τ (a0 a1 . . .) = 0a0 a1 . . .. Es decir F es el punto fijo del IFS: {τ, T τ 2 }. Esta Fractales de Rauzy 195 estructura se refleja en la dinámica. Sea T̃ la transformación inducida por T en F0 , es decir, T̃ (a) = T N (a) (a) donde N (a) = min{n : T n (a) ∈ F0 }. Como el conjunto F admite la partición F00 = τ (F0 ), F010 = T τ 2 (F0 ). Se tiene que T̃ es T en F010 y sobre F00 es igual a T 2 . Esta estructura autosimilar se traduce en el intervalo J de la siguente forma. Sea h : J → J definido por h(x) = αx y J0 = h(J), J10 = f h2 (J). Note que h = h1 , f h = h2 , donde h1 , h2 son las transformaciones definidas en la demostración de la proposición 2.2. Como se mencionó anteriormente el par {h, f h2 } forma un IFS, cuyo atractor es el intervalo J. Substitución de Fibonacci: Considere el alfabeto A = {a, b} y A∗ = ∪i≥0 Ai el conjunto de palabras finitas en dicho alfabeto. Sea la transformación ζ : A → A∗ dada por a → ab, b → a. La aplicación ζ induce una transformacion en A∗ , por juxtaposición de palabras: ζ(U V ) = ζ(U )ζ(V ) y esta a su vez induce otra transformación en AN . La cual se seguirá denotando por ζ. Esta transformación es la substitución de Fibonacci. Note que la longitud de la palabra ζ i (a) es igual al número de Fibonacci fi . Esta transformación tiene un único punto fijo: u = ζ ∞ (a) = abaababaaba . . . Sea σ el “shift” en AN : σ(v0 v1 v2 . . .) = v1 v2 . . ., donde v0 v1 v2 . . . ∈ AN . Se define Ω = {σ N (u) : N ∈ N}. El sistema (Ω, σ) se llama sistema dinámico asociado a la substitución ζ. Es fácil verificar que dicho sistema dinámico es minimal. Los sistemas dinámicos (Ω, σ) y (F, T ) son isomorfos. El isomorfismo viene dado por el siguiente hecho. Sea UN = u0 u1 . . . uN −1 , la palabra formada por los N primeros del punto fijo. Si la representación de Zeckendorff del Psı́mbolos L número N es j=0 j fj , para un L. Entonces se tiene UN = ζ L (δ(L )) · · · ζ(δ(1 ))δ(0 )) donde δ(0) = ∅, la palabra vacia y δ(1) = a. Por lo mencionado anteriormente se tiene que el sistema dinámico (J, f ) es una realización geométrica del sistema simbólico (Ω, σ). Se dice que el sistema dinámico simbólico (Σ, σ) se realiza geométricamente si existe un sistema dinámico (X, f ) donde X es una estructura geométrica, por ejemplo una variedad diferenciable, y una aplicación ψ : Σ → X continua y sobreyectiva tal que el siguiente diagrama conmute: σ Σ −−−−→   ψy Σ  ψ y X −−−−→ X f (2-2) 196 V. Sirvent Al sistema (X, f ) se le llama una realización geométrica de (Σ, σ). El tener una realización geométrica de un sistema simbólico nos permite codificar las órbitas del sistema geométrico, de manera tal que el itinerario de las órbitas viene dado por el sistema simbólico. Veamos como la codificación de las órbitas del sistema (J, f ) viene dado por las sucesiones que se encuentran en Ω. Sea ν : J → {1, 2}, dada por ν(x) = i si x ∈ Ji , donde Ji = hi (J), para i = 1, 2. Aquı́ se considera a J, J1 , J2 , semiabiertos, cerrados a izquierda, para que ν esté bien definida. Los intervalos Ji son los intervalos de continuidad de f . El itinerario o codificación de la órbita (futura), bajo f , del punto x de acuerdo con esta partición viene dado por la sucesión {ν(f n (x))}n≥0 , la cual denotaremos por θ(x). Veamos que el itinerario de la órbita de x = 0, viene dado por u el punto fijo de la substitución. Sea fe la transformación inducida por f en J1 . Como J1 admite la partición dada por h(J1 ), h(J2 ), el itinerario común de todos los puntos de h(J1 ), bajo f , es “12”, mientras que bajo fe es “1”; y para h(J2 ) es “1” y “2” para f y fe respectivamente. Ası́ se tiene que la relación entre la codificación de la órbita de f y fe, en J1 , viene dada precisamente por la substitución ζ. Si ahora se continúa este proceso de inducción en h(J1 ), luego en h2 (J1 ) y ası́ sucesivamente, se tiene que en la etapa k-ésima el itinerario común de los puntos de hk (J1 ), bajo f , es ζ k+1 (1). Mientras que bajo la transformación inducida en hk (J), es “1”. En hk (J2 ) es ζ k+1 (2) y “2” para f y la transformación inducida, en hk (J), respectivamente. Ası́ la relación entre el itinerario de los puntos en hk (J), bajo f y la transformación inducida viene dada por ζ k . Como ∩k≥0 hk (J) = {0}, se tiene que θ(0) = ζ ∞ (1) = u. Esto nos permite tener el siguiente diagrama conmutativo: f J −−−−→   θy J   yθ (2-3) Ω −−−−→ Ω σ Resulta ser que la transformación θ no es sobreyectiva, debido a la elección de intervalos semiabiertos en la partición de J. A cada elemento de J, su itinerario viene dado por un elemento de Ω. 3 El caso tribonacci y el fractal de Rauzy El caso tribonacci sigue las mismas ideas expuestas en la sección anterior, sin embargo hay ciertas diferencias, que se expondrán. Los números de tribonacci se obtienen de la relación de recurrencia: gk+3 = gk+2 +gk+1 +gk con g0 = 1, g1 = 2 y g2 = 4. De manera similar al caso Fibonacci, existe una representación de 197 Fractales de Rauzy 1 0.5 -1 -0.75 -0.5 -0.25 0.25 0.5 -0.5 Figura 2: El fractal de Rauzy y su descomposición autosimilar. Zeckendorff, asociada a esta familia de números. Lo cual nos permite representar P n = i≥0 i (n)gi , aquı́ (n) = 0 (n)1 (n) . . . es una sucesión infinita en {0, 1} tal que no contiene tres “1” consecutivos y su cola está formada por “0”. Ası́ obtenemos, la clausura de tales sucesiones: T = {a = a0 a1 . . . | ai · ai+1 · ai+2 = 0 ∀i}. En el espacio T se define una dinámica ádica T , siendo el sistema dinámico (T , T ) minimal. La ecuación asociada a esta relación de recurrencia es x3 = x2 + x + 1, la cual tiene como raı́z real λ y β, β como raı́ces complejas. Al conjunto X R={ ai β i | a0 a1 . . . ∈ T } i≥0 se le llama el Fractal de Rauzy. Este objeto geométrico fue introducido originalmente por G. Rauzy en [49]. El conjunto R es compacto, conexo, simplemente conexo [49]. Su frontera es fractal, con dimensión de Hausdorff no entera, la cual ha sido estudiada en [28, 57, 33]. De manera similar a la expuesto en la demostracion de la proposición 2.2, el fractal de Rauzy es el atractor del IFS, formado por las transformaciones {h1 , h2 , h3 }, las cuales están definidas en el plano complejo de la siguiente manera: h1 (z) = βz h2 (z) = β 2 z + 1 h3 (z) = β 3 z + β 2 + 1. 198 V. Sirvent 0 0 1 0 1 Figura 3: Grafo tribonacci Esto nos da la siguiente estructura autosimilar en R, sean R1 = h1 (R), R2 = h2 (R) y R3 = h3 (R). Estos conjuntos tienen interior disjuntos y su unión nos da todo R. Más adelante mostraremos la relevancia dinámica de esta descomposición autosimilar. Este IFS, se puede presentar como un GIFS. Considere el grafo dirigido, de la figura 3 Todos los elementos de T se obtienen como caminos infinitos en este grafo. Sean las transformaciones: f0 (z) = βz, f1 (z) = βz + 1. Como h1 = f0 , h2 = f1 f0 , h3 = f12 f0 , se tiene que el IFS {h1 , h2 , h3 } se obtiene del GIFS dado por el grafo anterior y las transformaciones {f0 , f1 } y su atractor es precisamente el fractal de Rauzy R. La dinámica ádica se realiza geométricamente de la siguiente manera. Sea ξR : T a −→ P R i 7−→ i≥0 ai β . Como en el caso Fibonacci, se tiene ξR (a) = ∩n≥0 fa0 · · · fan (R). Esta aplicación es sobreyectiva y continua, y genera el siguiente diagrama conmutativo: T T −−−−→   ξR y T  ξ yR (3-4) R −−−−→ R F donde la transformación F intercambia tres subregiones autosimilares de R, descritas anteriormnente [49]. Obviamente esta transformación F no es continua. Fractales de Rauzy 199 Sin embargo, resulta ser que R es un dominio fundamental para el toro 2dimensional, T2 , y la transformación F se convierte en una translación definida por un vector con componentes racionalmente independientes [49], en el toro. Obteniendo de esta manera el siguiente diagrama conmutativo: T T −−−−→   ξc Ry T  c yξR (3-5) T2 −−−−→ T2 b F b Donde ξc R y F , son las transformaciones que se obtienen de ξR y F , al tomar el cociente bajo el lattice que convierte a R en un dominio fundamental de T2 . Se pueden definir subconjuntos dinámicos de R, prohibiendo ciertas subpalabras finitas en T . En estos conjuntos se tiene una dinámica inducida. Las propiedades dinámicas y geométricas de estos sistemas han sido estudiadas en [54, 56, 61] Veamos ahora como esta dinámica está relacionada con substituciones. Substitución Tribonacci: Considere el alfabeto A = {a, b, c} y A∗ = ∪i≥0 Ai el conjunto de palabras finitas en dicho alfabeto. Sea la transformación ζ : A → A∗ dada por a → ab, b → ac, c → a. Como se explicó en el caso Fibonacci, esta transformacion induce otra en AN , la cual tiene un único punto fijo: u = ζ ∞ (a). A él se le asocia el sistema dinámico minimal (Ω, σ), donde Ω es la clausura bajo el “shift”, σ, del punto fijo u. Este sistema dinámico se relaciona con el sistema ádico de manera similar al caso Fibonacci. Teniendo que (Ω, σ) y (T , T ) son isomorfos. Por lo que (T2 , Fb) es una realización gemétrica de (Ω, σ). Por la construcción anterior si se codifica la órbita del origen bajo Fb, usando las regiones R1 , R2 , R3 , se obtiene u, el punto fijo de la substitución. Más aún el itinerario de la órbita de cada punto bajo Fb, usando la partición anterior nos da un elemento de Ω. k-bonacci substituciones: Las construcciones expuestas anteriormente para los caso Fibonacci y tribonacci se generalizan de manera inmediata para el caso k-bonacci. Los números k-bonacci son aquellos que se obtienen de la relación de recurrencia de grado k: gn+k = gn+k−1 + · · · + gn+1 + gn , para n ≥ 0, con gj = 2j para j = 0, . . . , k − 1. A ellos se le asocia el sistema ádico (T (k), T ), donde T (k) es, como antes, la clausura de las sucesiones de “0” y “1” asociada a la representación de Zeckendorf: T (k) = {a = a0 a1 . . . | k−1 Y j=0 ai+j = 0 ∀i}. 200 V. Sirvent Y también se les asocia las siguientes substituciones:  1 → 12     2 → 13   .. ζk : .    k − 1 → 1k    k → 1. El polinomio asociado la relación de recurrencia de k-bonacci es xk − xk−1 − · · · − x − 1. El cual tiene una única raı́z real mayor que 1, en valor absoluto, λ. En el caso k impar las otras raı́ces son β1 , β1 , . . . , βl , βl , en el caso k impar las raı́ces son β1 , β1 , . . . , βl , βl , ω donde las βj son complejas no reales y w real. Todos ellas tienen norma menor que 1. El fractal de Rauzy asociado a la substitucion ζk es el objeto en Cl ≈ R2l = k−1 R , si k es impar, o en Cl × R ≈ R2l+1 = Rk−1 , si k es par; definido por: X X X R(k) = {( ai β1i , . . . , ai βli , ai ω i ) | a ∈ T (k)}. i≥0 i≥0 i≥0 Este conjunto es compacto, conexo y es igual a la clausura de su interior [67]. También tiene una estructura autosimilar, que nos da una partición natural en k sub-regiones. El IFS que nos da esta estructura autosimilar, es una generalización inmediata del IFS, definido en el caso tribonacci. En R(k) se define una transformación que intercambia los k subregiones autosimilares. Más aún R(k) es un dominio fundamental para el toro (k − 1)dimensional, y la transformación de intercambio de subregiones se convierte en una traslación dada por un vector con componentes racionalmente independientes. Estas k regiones nos dan que la codificación de las órbitas de la translación vienen dadas por elementos del sistema dinámico asociado a ζk . 4 Caso general Sea A un alfabeto finito y ζ : A → A∗ una substitución. La cual induce una transformación en el espacio de sucesiones infinitas (hacia un lado) sobre A, tal como se explicó en las casos particulares estudiados anteriormente. Se está interesado en los puntos fijos de ζ o de ζ k para algún k. Estos siempre existen, cuando la longitud de la palabra ζ n (a) va a infinito, para todo a del alfabeto A, cuando n crece. Si se remueven del alfabeto los sı́mbolos que no aparecen en el punto fijo, se tiene que existe un sı́mbolo que se denotará por 1, tal que ζ(1) comience por 1. Bajo estas condiciones se tiene u un punto fijo de la substitución ζ, tal que u = ζ ∞ (1). A esta suscesión se le asocia el sistema Fractales de Rauzy 201 dinámico (Ω, σ) tal como se describió en los ejemplos anteriores. Este sistema dinámico es minimal si y sólo si para todo a ∈ A existe un k tal que ζ k (a) contiene el sı́mbolo 1. Un ejemplo de importancia histórica es la substitución de Thue-Morse: ζ: 0 → 01 1 → 10. Esta substitución tiene dos puntos fijos: ζ ∞ (0) = 01101001 . . . y ζ ∞ (1) = 10010110 . . .. Nótese que se obtiene una sucesión de la otra intercambiando 0 por 1 y viceversa. Esta sucesión ha aparecido en varias áreas de la matemática. Originalmente surgió en el año 1851 en [46], estudiando potencias de números, luego fue introducida por Thue [73] al estudiar sucesiones no periódicas y posteriormente por Morse [36] al estudiar flujos geodésicos sobre superficies de curvatura negativa. Existe una amplia bibliografı́a sobre esta substitución. A diferencia de los ejemplos estudiados en las secciones anteriormente. Esta substitución es de longitud constante, es decir, la longitud de la palabra imagen de cada sı́mbolo del alfabeto es la misma. A la substitución ζ se le asocia su matriz de incidencia M = M (ζ), donde sus elementos Mij es el número de veces que aparece el sı́mbolo i en ζ(j). Se dice que una matriz M es positiva si sus elementos son enteros nonegativos. M es primitiva si existe un número positivo k tal que M k es positiva. Teorema 4.1 (Perron-Frobenius) Sea M una matriz positiva primitiva. Entonces M admite un autovalor estrictamente positivo λ, tal que λ > |β| para cualquier otro autovalor β de M . El autovalor λ es simple. Más aún, existe un autovector estrictamente positivo que corresponde con λ. Al autovector λ y al correspondiente autovector positivo del teorema anterior se le conoce como autovalor y autovector de Perron-Frobenius, respectivamente. Se dice que la substitución ζ es primitiva si su matriz M = M (ζ) es primitiva. La substitución ζ es Pisot unimodular si | det(M )| = 1, el polinomio caracterı́stico de M es irreducible en Q y este tiene una raı́z real mayor que 1 y sus otras raı́ces tienen norma estrı́ctamente menor que 1. La raı́z mayor es el autovalor de Perron-Frobenius de la matriz M . Toda substitución de Pisot unimodular es primitiva [14]. La frecuencia con que aparecen los sı́mbolos en la sucesión viene dada por el autovector de Perron-Frobenius de la matriz de incidencia. Muchas otras propiedades métricas del sistema dinámico substitutivo, vienen del autovalor de Perron-Frobenius y su correspondiente autovector. Una propiedad importante de los sistemas dinámicos substitutivos es que 202 V. Sirvent son auto-inducidos, es decir el siguiente diagrama conmuta, Ω   ζy σ −−−−→ Ω  ζ y (4-6) ζ(Ω) −−−−→ ζ(Ω) σ e donde (Ω, σ) es el sistema que proviene de la substitución ζ, y σ e es la transformación inducida de σ en ζ(Ω), o sea σ e(v) = σ n(v) (v), donde n(v) es el tiempo de retorno de v en ζ(Ω). La transformación ζ : Ω → ζ(Ω) es continua y sobreyectiva. Esta propiedad de las substituciones induce una estructura autosimilar en el espacio Ω. 4.1 Sistemas de numeración y autómatas de Prefijos asociados a substituciones Sea ζ una substitución primitiva con un único punto fijo u = ζ ∞ (1) tal que u0 = 1. A estas substituciones se le puede asociar un sistema de numeración basado en el autómata de prefijos. Definición 4.2 Un autómata es una quı́ntupla (S, L, t, i, f ) donde S es el conjunto de estados, L las etiquetas, t : S × S → L la función de transición, i los estados iniciales y f los estados finales del autómata. Al autómata se representará por un grafo dirigido con etiquetas, donde los vértices están dados por S, las etiquetas por L, las transiciones por la función t. Se considerarán los caminos sobre el autómata que comiencen en los estados iniciales y terminen en los estados finales. En [18] se encuentra descrita la teorı́a general de autómatas. El autómata de prefijos de ζ se define en [50] de la siguiente manera: • El conjunto de los estados es el alfabeto A. • El conjunto de etiquetas está formado por los prefijos propios de las palabras obtenidas al aplicar ζ a cada elemento del alfabeto. Se admite la palabra vacı́a ∅ como prefijo propio. Este conjunto se denotará por Pref. • Transiciones: Si p, q son estados del autómata y W una palabra de Pref entonces existe una transición de p a q etiquetada por W , si y sólo si la palabra W q es prefijo de ζ(p). • El estado inicial es “1”. • Todos los estados son estados de salida o finales. Fractales de Rauzy 203 1 1 1 2 0 Figura 4: Autómata de prefijos asociado a la substitución de Fibonacci 0 1 1 2 0 1 0 3 Figura 5: Autómata de prefijos asociado a la substitución de Tribonacci 0 1 1 2 3 0 0 3 Figura 6: Autómata de prefijos asociado a la substitución 1 → 12, 2 → 13, 3→1 204 V. Sirvent Estos autómatas tienen la propiedad: Teorema 4.3 ([50]) Sea U un prefijo no vacı́o de u, el punto fijo de la substitución ζ. Entonces existe un único camino en el autómata de prefijos, comenzando por el estado 1 y etiquetado por (W (n), W (n − 1) · · · , W (0)) tal que W (n) 6= ∅, la palabra vacı́a, y U = ζ n (W (n))ζ n−1 (W (n − 1)) · · · W (0). Recı́procamente, a cualquiera de estos caminos le corresponde un prefijo de u, dado por la fórmula anterior. De acuerdo con este teorema, se puede escribir u0 . . . un−1 los primeros n sı́mbolos de u ası́: u0 . . . un−1 = ζ k (W (k))ζ k−1 (W (k − 1)) · · · W (0). Por lo tanto n = |ζ k (W (k))| + |ζ k−1 (W (k − 1))| + · · · + |W (0)| donde |W | denota la longitud de la palabra W . De esta forma se tiene un sistema de numeración basado en el autómata de prefijos. Como se vió en las secciones anteriores, si se toma la substitución de Fibonacci, el sistema de numeración que se obtiene es el sistema de Zeckendroff, similarmente en el caso k-bonacci. De manera análoga se puede definir el autómata de sufijos y se tiene el mismo sistema de numeración [50, 51]. En [17] se encuentra una versión general del Teorema 4.3 y en [22] un estudio general de sistemas de numeración basados en relaciones de recurrencia y en autómatas. Con los sistemas de numeración basados en substituciones se pueden definir operaciones binarias en los naturales que dan origen a semigrupos aritméticos que son representaciones de la estructura autosimilar de los sistemas dinámicos asociados a las substituciones, para detalles véase [55, 58]. Otra operación binaria en los naturales asociada a substituciones es la multiplicación de Fibonacci, la cual ha sido estudiada en [30, 7, 34]. En [21, 44] se pueden ver otros semigrupos aritméticos. 4.2 Sistemas ádicos El sistema dinámico (Ω, σ) asociado a la substitución ζ, admite una representación equivalente llamada sistema ádico. Sea + N = {a = a0 a1 . . . ∈ PrefZ | an . . . a0 es un camino en Aut para todo n ∈ Z+ } donde Aut es el autómata de prefijos de ζ. Como todos los caminos finitos en Aut corresponden a números naturales, se puede definir una transformación continua T en N , que es la extensión de la adición por 1 en los enteros. De esta forma se tiene el sistema dinámico (N , T ), el cual es llamado sistema ádico de ζ. Este sistema también es llamado odómetro o máquina de sumar. Para más detalles sobre sistemas ádicos véase [74, 24]. Toda substitución minimal es isomorfa a su transformación ádica ( [26]). Fractales de Rauzy 4.3 205 Representación geométrica de (Ω, σ) Sea A∗ el monoide generado sobre el alfabeto A donde está definida la substitución ζ, la cual satisface las propiedades requeridas en la sección anterior, y (G, +) un grupo topológico dotado de una distancia. Sea ∆ : A∗ → G una transformación tal que ∆(U V ) = ∆(U ) + ∆(V ) y que ∆(ζ n (U )) converge exponencialmente a cero. Sea an . . . a0 un camino finito en el autómata de prefijos de ζ. Por el teorema 4.3 existe W ∈ A∗ tal que W = ζ n (an ) · · · a0 por lo tanto ∆(W ) = ∆(ζ n (an )) + · · · + ∆(a0 ). Esto nos permite introducir la transformación: Φ : N → G, donde N es el conjunto P∞de donde esta definido el sistema ádico. La cual está definida ası́: Φ(a) = i=0 ∆(ζ i (ai )) se observa que no tiene problemas de definición por la propiedad de convergencia. Sea u = ζ(u) = Un σ n (u) se define la transformación δ : Ω → G de la siguiente manera δ(u) = ∆(Un ) + δ(σ n (u)). Como u = ζ ∞ (1) se define δ(u) = 0, por lo tanto δ(σ n (u)) = −∆(Un ). Sea v un elemento de Ω, se puede escribir v = v0 σ(v) por lo que δ(σ(v)) = δ(v) − ∆(v0 ). Por lo que podemos resumir que al shift σ en Ω le corresponde una translación en un número finito de pedazos, en G. La naturaleza del grupo (G, +) y de la aplicación ∆ depende del tipo de substitución, en particular de M = M (ζ) la matriz asociada a la substitución. Sea ζ una substitución de longitud constante, se define ∆(U ) = |U | la longitud de la palabra de U , es decir la distancia p-ádica, la cual tiene la propiedad ∆(ζ(U )) = p∆(U ), donde p es la longitud de la substitución. Por lo tanto Φ(a) = |a0 | + p|a1 | + · · · + pn |an | + · · · La dinámica del shift se realiza como una translación en −1 sobre los números p-ádicos. En el caso de la substitución de Thue-Morse, ésta se realiza como una translación en −1 sobre los números 2-ádicos [23]. En caso que ζ sea Pisot unitaria en un alfabeto de k elementos se toma G = Rk−1 y     v1 r1 (U )     .. ∆(U ) = |U |  ...  −  (4-7) , . vk−1 rk−1 (U ) donde (v1 , . . . , vk ) es el autovector positivo de Perron-Frobenius de la matriz M y ri (U ) es el número de veces que se encuentra el sı́mbolo i en la palabra U . Esta aplicación tiene la propiedad ∆(U V ) = ∆(U )+∆(V ) y ∆(ζ(U )) = B∆(U ) donde B es la restricción de la matriz B al autoespacio contractivo de M [49]. P Por lo que Φ(a) = i≥0 B i ∆(ai ). Esta suma converge ya que los autovalores de B están todos en el interior del cı́rculo unitario y los ai son finitos ya que son prefijos propios de la substitución. De esta manera δ(Ω) = { ∞ X i=0 B i ∆(ai ) | a ∈ N } 206 V. Sirvent 0.75 0.5 0.25 -1 -0.75 -0.5 -0.25 0.25 0.5 0.75 -0.25 -0.5 Figura 7: El fractal de Rauzy de la substitución 1 → 12, 2 → 3, 3 → 1. A este conjunto se le conoce como el Fractal de Rauzy asociado a la substitución ζ. Como se vió antes δ(σ(v)) = δ(v) − ∆(v  0)  v1   = δ(v) −  ...  + ev0 vk donde ej = (0, . . . , 0) si j = k y en el caso j 6= k es el vector canónico en la dirección j-esima. Por lo que shift se puede realizar como una translación en k direcciones en Rk−1 , lo cual es un intercambio de k pedazos en Rk−1 . Más aún el conjunto δ(Ω) es un dominio fundamental del toro (k − 1)-dimensional y el shift se realiza como una translación sobre el toro, Tk−1 . [49, 70, 15]. La traslación viene dada por el vector (v1 , . . . , vk ), cuyas componentes son racionalmente independientes. Se puede cambiar la definición de ∆, cambiando coordenadas. Si ∆(U ) = |U |(w~1 + · · · + wk−1 ~ ) donde w~1 , . . . , wk−1 ~ es una base del espacio contractivo de M , se tiene que ∆(U V ) = ∆(U ) + ∆(V ) y ∆(ζ(U )) = A∆(U ), donde A es una matriz equivalente a B. Por lo tanto se puede escribir a la transformación Φ de la siguiente manera:  P  i i≥0 β1 ∆(ai )   .. Φ(a) =   . P i β ∆(a ) i i≥0 l donde β1 , . . . , βl son los autovalores de norma menores que uno de la matriz M . En el ejemplo de la substitución tribonacci, esta es la construcción presentada en la sección anterior. 207 Fractales de Rauzy 1 0.5 -1 -0.5 0.5 1 1.5 -0.5 Figura 8: El fractal de Rauzy de la substitución 1 → 32, 2 → 1, 3 → 2. 1 0.5 -1 -0.5 0.5 1 -0.5 -1 Figura 9: El fractal de Rauzy de la substitución 1 → 12, 2 → 31, 3 → 1. 208 V. Sirvent Los fractales de Rauzy son conjuntos cerrados, de interior no vacı́o y coinciden con la clausura de su interior [67]. Por otro lado los fractales de Rauzy se pueden obtener como atractores de GIFS, donde el grafo asociado es el grafo del automata de prefijos donde los lados que unen vértices, se le ha dado la orientación opuesta. Para más detalles ver [26, 67]. Referencias [1] R. Adler, Symbolic dynamics and Markov Partition, Bull. Amer. Math. Soc., 35, (1998), 1-56. [2] V. Afraimovich, Pesin’s dimension for Poincaré recurrences, Chaos, 7 (1997), 12-20. [3] V. Afraimovich, Poincaré recurrences of couple subsystems in synchronized regimes, Taiwanese J. of Math. 3 (1999), 139-161. [4] V. Affraimovich, A. Maass and J. Urias, Symbolic dynamics for sticky sets in Hamiltonian systems, Nonlinearity, 13 (2000),617-637. [5] V. Afraimovich, J. Schmeling, E. Ugalde and J. Urias, Spectra of dimensions for Poincaré recurrences, Discrete and Continuous Dynamical Systems, 6, (2000), 901-914. [6] V. Afraimovich and G.M. Zaslavsky. Fractal and multifractal properties of exit times and Poincaré recurrences, Physical Review E 55 (1997), 5418-5426. [7] P. Arnoux, Some remarks about Fibonacci multiplication, Appl. Math. Lett. 2 (1989), 319-320. [8] P. Arnoux, Représentation géométrique des systèmes dynamiques symboliques, Habilitation, Université D’Aix-Marseille II, 1991. [9] P. Arnoux and S. Ito, Pisot substitutions and Rauzy fractals, Bull. Belg. Math. Soc. Simon Stevin 8 (2001), 181-207. [10] P. Arnoux and G. Rauzy, Représentation géométrique de suites de complexité 2n + 1, Bull. Soc. Math. France, 119, (1991), 199-215. [11] M.F. Barnsley, Fractals everywhere, Second Edition, Academic Press Professional, London, 1993. [12] P. Billingsley, Ergodic theory and information, Wiley, 1965, New York. [13] H. Bruin, Dimensions of recurrence times and minimal subshifts. Dynamical systems (Luminy-Marseille, 1998), 117–124, World Sci. Publishing, River Edge, NJ, 2000. Fractales de Rauzy 209 [14] V. Canterini and A. Siegel, Automate des préfixes-suffixes associé à une substitution primitive, J. Théor.. Nombres Bordeaux 13 (2001),353–369. [15] V. Canterini and A. Siegel, Geometric Representation of primitive substitution of Pisot type, Trans. Amer. Math. Soc, 353 (2001), 5121–5144 [16] F.M. Dekking, Recurrent Sets, Adv. Math. 44 (1982), 78-104. [17] J.M. Dumont et A. Thomas, Systèmes de numération et fonctions fractales relatifs aux substitutions, Theoretical Computer Science, 65 (1989),153-169. [18] S. Eilenberg, Automata, languages and machines, Academic Press, New York, 1974. [19] K. Falconer, The geometry of fractal sets, Cambridge University Press, 1985, Cambridge. [20] K. Falconer, Fractal Geometry -Mathematical foundations and applications, John Wiley & Sons, 1990, Chichester. [21] A.S. Fraenkel, H. Porta and K.B. Stolarsky, Some arithmetic semigroups, in Analytic Number Theory: Proceedings of a Conference in Honor of Paul T. Bateman, edited by B.C. Berndt et al., Birkhauser: Boston 1990, 255-264. [22] C. Frougny, Representations of numbers and finite automata, Math. Systems Theory, 25 (1992), 37-60. [23] W.H. Gottschalk, Substitution minimal sets, Trans. Amer. Math. Soc.,109, (1963), 467-491 [24] P.J. Grabner, P. Liardet and R. Tichy, Odometers and systems of numeration, Acta Arithmetica, 70 (1995), 103-123. [25] C. Holton and L. Zamboni, Geometric realization of substitutions, Bull. Soc. Math. France, 126 (1998), 149-179. [26] C. Holton and L. Zamboni, Directed graphs and substitutions. Theory Comput. Sys. 34 (2001), 545-564. [27] J.E. Hutchinson, Fractals and self-similarity, Indiana U. Math. J. 30 (1981), 713-747. [28] S. Ito and M. Kimura, On the Rauzy fractal, Japan J. Indust. Appl. Math. 8 (1991), 461-486. [29] D.E. Knuth, The art of computer programming, Vol 2, Seminumerical Algorithms, Addison–Wesley, Reading MA, 1981. [30] D.E. Knuth, Fibonacci multiplication, Appl. Math. Lett.,1 (1988), 57-60. [31] D. Lind and B. Marcus, An Introduction to Symbolic Dynamics and Coding, Cambridge University Press, Cambridge, UK, 1995. 210 V. Sirvent [32] R.D. Mauldin and S.C. Williams, Hausdorff dimension in graph directed constructions, Trans. of the Amer. Math. Soc. 309 (1988), 811-829. [33] A. Messaoudi, Frontière du fractal de Rauzy et système de numération complexe, Acta Arith. 95 (2000), 195-224. [34] A. Messaoudi, Tribonacci multiplication. Appl. Math. Lett. 15 (2002), no. 8, 981–985. [35] P.A.P. Moran, Aditive functions of intervals and Hausdorff measure. Proc. Cambridge Philos. Soc., 42, (1946), 15-23. [36] M. Morse, Recurrent geodesics on a surface of negative curvature, Trans. Amer. Math. Soc.,22, (1921),84-110. [37] M. Morse, Symbolic Dynamics, Lectures of 1937-38, Notes by Rufus Oldenburger, The Institute for Advanced Study, Princeton, New Jersey, 1966. [38] M. Morse and G. Hedlund, Symbolic dynamics, Amer. J. of Math., 60, (1938), 286-303. [39] M. Morse and G. Hedlund, Symbolic dynamics II: sturmian trajectories, Amer. J. of Math., 62, (1940), 1-42 [40] S. Ngai, V.F. Sirvent, J.J.P. Veerman and Y. Wang, 2-Reptiles in the Plane, Geometriae Dedicata, 82 (2000), 325-344. [41] V. Penné, B. Saussol and S. Vaienti, Dimensions for recurrence times: topological and dynamical properties, Discrete and Continuous Dynamical Systems, 5 (1999), 783-798. [42] C. Petronio, Thurston’s solitaire tilings of the plane. Rend. Istit. Mat. Univ. Trieste 26 (1994) 261–295. [43] Y.B. Pesin, Dimension Theory in Dynamical Systems: Contemporary Views and Applications. Chicago Lectures in Mathematics, The University Chicago Press (1997). [44] H. Porta and K.B. Stolarsky, Wythoff pairs as semigroup invariants, Advances in Math., 85 (1991), 69-82. [45] B. Praggastis, Numeration systems and Markov partitions from self-similar tilings, Trans. Amer. Math. Soc. 351 (1999), 3315–3349. [46] E. Prouhet, Mémoire sur quelques relations entre les puissances des nombres, C.R. Acad. Sci. Paris, 33, (1851), 31. [47] Pytheas Fogg Substitutions in Dynamics, Arithmetics and Combinatorics Editors: V. Berthé, S. Ferenczi, C. Mauduit, et al., Lecture Notes in Mathematics, Vol. 1794, Springer Verlag 2002 Fractales de Rauzy 211 [48] M. Queffélec, Substitution Dynamical Systems -Spectral Analysis, Lecture Notes in Mathematics, Vol 1294, Springer-Verlag, 1987, Berlin. [49] G. Rauzy, Nombres algébriques et substitutions, Bull. Soc. Math. France 110 (1982), 147-178. [50] G. Rauzy, Sequences Defined by Iterated Morphisms, in Sequences (Napoles/Positano, 1988), Edited by R.M. Capocelli, Springer, New York, 1990, 275-286. [51] G. Rauzy, Rotations sur les groupes, nombres algébriques et substitutions, Séminaire de théorie des nombres de Bordaux 21 (1988), 1-12. [52] G. Rauzy, Numbers and automata. Formal properties of finite automata and applications (Ramatuelle, 1988), 176-185, Lecture Notes in Comput. Sci., 386, Springer, Berlin, 1989. [53] V.F. Sirvent, Properties of Geometrical Realizations of Substitutions associated to a Family of Pisot Numbers, Ph.D. thesis, University of Warwick, 1993. [54] V.F. Sirvent, Relationships between the dynamical systems associated to the Rauzy substitutions, Theoret. Comput. Sci. 164 (1996), 41-57. [55] V.F. Sirvent, A semigroup associated with k-bonacci numbers with dynamic interpretation, The Fibonacci Quarterly, 35 (1997), 335-340. [56] V.F. Sirvent, On some dynamical subsets of the Rauzy Fractal, Theoret. Comput. Sci. 180 (1997), 363-370. [57] V.F. Sirvent, Identifications and dimension of the Rauzy Fractal, Fractals 5 (1997), 281-294. [58] V.F. Sirvent, Semigroups and the self-similar structure of the flipped tribonacci substitution, Applied Mathematics Letters, 12 (1999), 25-29. [59] V.F. Sirvent, Modelos geométricos asociados a substituciones, Trabajo de ascenso, Universidad Simón Bolı́var, 1998. [60] V.F. Sirvent, Geodesic laminations as geometric realizations of Pisot substitutions, Ergodic Theory Dynam. Systems (2000), 20, 1253-1266. [61] V.F. Sirvent, The common dynamics of the tribonacci substitutions, Bull. Belgian Math. Soc. 7, (2000), 571-582. [62] V.F. Sirvent, The Arnoux semi-conjugacy is Hölder continuous, Journal of Mathematical Analysis and Applications (2001), 259, 357-367. [63] V.F. Sirvent, Spectra of recurrence dimension for adic systems. Stochastics and Dynamics, 2 (2002), 599-608. 212 V. Sirvent [64] V.F. Sirvent, Geodesic laminations as geometric realizations of Arnoux-Rauzy sequences, Bull. Belg. Math. Soc. Simon Stevin, 10 (2003), 221-229. [65] V.F. Sirvent, Hilbert’s Space Filling Curves and Geodesic Laminations, Mathematical Physics Electronic Journal, 9 (2003) [66] V.F Sirvent and B. Solomyak, Pure Discrete Spectrum for One-dimensional Substitution Systems of Pisot Type . Canad. Math. Bull., 45 (2002), 697-710. [67] V.F. Sirvent and Y. Wang, Self-Affine Tiling Via Substitution Dynamical Systems and Rauzy Fractals. Pacific Journal of Mathematics, 206 (2002), 465-485. [68] B. Solomyak, A dynamical system with a discrete spectrum (Russian), Uspekhi Mat. Nauk 41 (1986), 209-210. English translation: Russian Math. Surveys 41 (1986), 219-220. [69] B. Solomyak, Substitutions, adic transformations, and beta-expansions, Symbolic dynamics and its applications(New Haven, CT, 1991), 361-372, Contemp. Math., 135, AMS, Providence, 1992. [70] B. Solomyak, On the spectral theory of adic transformations, Advances in Soviet Methematics, 9 (1992), 217-230. [71] B. Solomyak, Dynamics of self-similar tilings, Ergodic Theory Dynam. Systems, 17, (1997), no. 3, 695–738. [72] W. Thurston, Groups, tilings, and finite state automata, AMS Colloquium Lecture Notes, unpublished, 1889. [73] A. Thue, Uber unendliche Zeichenreihen (1906), Selected mathematical paers of Axel Thue, Universitetsforlaget, 1977. [74] A.M. Vershik, Uniform algebraic approximation of shift and multiplication operators, Soviet. Math. Dokl., 24 (1981), 97-100. [75] A.M. Vershik, Arithmetic Isomorphism of Hyperbolic Toral Automorphisms and Sofic Shifts, UDC 519.56, 517.919. [76] E. Zeckendorf, Représentation des nombres naturels par une somme des nombres de Fibonacci ou de nombres de Lucas, Bull. Soc. Roy. Sci. Liège 3-4, 1972, 179-182. Vı́ctor Sirvent Departamento de Matemáticas, Universidad Simón Bolı́var, Apartado 89000, Caracas 1086-A, Venezuela. sirvent@ma.usb.ve Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 213 ENSAYO Determinismo, indeterminismo y la flecha del tiempo en la ciencia contemporánea Daniel A. Morales 1 Introducción La ciencia ha sido muy efectiva en su afán de entender el universo y la posición del hombre en éste. Lo increı́ble es que podamos lograr esto sin movernos prácticamente de nuestro propio planeta. Nuestro principal instrumento para lograr esta proeza es la mente humana. El entender cómo la mente es capaz de establecer ese vı́nculo entre el comportamiento del mundo exterior y nuestros conceptos es uno de los grandes retos futuros de la ciencia. Desde el punto de vista filosófico este problema está relacionado con las ideas de realismo e idealismo que discutiremos más adelante. Estas ideas filosóficas también se hacen evidentes en las teorı́as actuales de la ciencia. Comenzaremos discutiendo algunas nociones fundamentales para el resto del ensayo. En primer lugar, ¿qué significan las ideas de complejidad y de simplicidad? Estas son nociones fundamentales en la ciencia. Podemos preguntarnos ¿qué es más complejo, un insecto o un ser humano?, o ¿qué es más complejo, un ser humano o el universo como un todo? Los logros antiguos y recientes de la ciencia demuestran que mientras que podemos entender el universo como un todo, se nos dificulta entender los aspectos más básicos del comportamiento humano. De manera que lo más importante para considerar un sistema como simple o complejo no puede ser solamente el número de partı́culas que lo componen. Esta diferencia ha sido expuesta elocuentemente por uno de los pensadores actuales más importantes como Murray Gell-Mann en su libro el Quark y el Jaguar [15]: ¿qué es más simple un quark, la partı́cula última constituyente de la materia, o un jaguar? ¿Podemos cuantificar las nociones de simplicidad y de complejidad, de tal manera que podamos afirmar inequı́vocamente que un jaguar es más complejo que un quark, o a la inversa? La fı́sica hasta ahora ha tratado esencialmente con sistemas simples, la razón es que los sistemas simples pueden ser estudiados más fácilmente usando la matemática. C.N. Yang, uno de los fı́sicos teóricos más famosos del siglo XX apunta que [38]: Mientras más simple es el problema, es más seguro que el análisis esté más cercano a alguna estructura matemática básica. 214 D. A. Morales Además, a la fı́sica le interesa los aspectos esenciales del universo y no los detalles. Esta manera de atacar los problemas ha sido muy fructı́fera y la fı́sica actual puede mostrar muy orgullosamente un conjunto de leyes de la naturaleza. En última instancia estas leyes se representan matemáticamente y no verbalmente. Aunque, al final cuando comunicamos estas leyes a los miembros de “la otra cultura” (las humanidades) como la llamó C.P. Snow (1905-1980) [29], debemos hacerlo verbalmente o por escrito. Muchos aceptan que una ciencia es más fundamental en la medida en que sea más matematizable, afirmación ésta que podrı́amos designar como el sueño pitagórico o la“falacia jonia” como lo llama Isaiah Berlin (1909-1997), asociando esta idea con los filósofos presocráticos y la afirmación de que el mundo es ordenado y que puede ser explicado por leyes matemáticas que rigen el comportamiento de simples entidades [19]. De todas las ciencias naturales es la fı́sica la que más se acerca a esta premisa. El lenguaje matemático es el instrumento más poderoso de que dispone el hombre para entender el universo en el que vive. Albert Einstein (1879-1955) en su libro Mi Visión del Mundo escribe [13]: Según nuestra experiencia estamos autorizados a pensar que la Naturaleza es la realización de lo matemáticamente más simple. Creo que a través de una construcción matemática pura es posible hallar los conceptos y las relaciones que iluminen una comprensión de la Naturaleza. Los conceptos usables matemáticamente pueden estar próximos a la experiencia, pero en ningún caso pueden deducirse de ella. Está claro que la experiencia es el único criterio que tiene la Fı́sica para determinar la utilidad de una construcción matemática. Pero el principio creativo se encuentra en realidad en la matemática. De algún modo creo que es cierto que a través del pensamiento puede comprenderse la realidad, tal como lo soñaron los antiguos. El éxito que ha tenido la fı́sica en entender el universo usando la matemática es una evidencia de lo que Eugene Wigner (1902-1995) designó como la irracional efectividad de la matemática en las ciencias naturales [36]: El milagro de lo apropiado del lenguaje matemático para la formulación de las leyes de la fı́sica es un regalo maravilloso que no entendemos ni merecemos. La complejidad de la existencia y del conocimiento humano ha traı́do como consecuencia la creación de parcelas del conocimiento. Esta parcelación ha provocado el aislamiento entre las diferentes ramas del saber. Por esta separación y jerarquización del conocimiento ya no es posible para una sola persona poseer y estar al tanto de todo lo que ocurre en las diversas ramas del conocimiento. Pero puede ser que esta jerarquización sea simplemente ilusoria: a la naturaleza no le importa como el hombre ha clasificado el conocimiento. Determinismo, indeterminismo y la flecha del tiempo 215 Para tratar de entender la jerarquı́a del conocimiento han surgido dos corrientes filosóficas: el reduccionismo y la emergencia. ¿Puede la sociologı́a o la sicologı́a ser reducida a las ciencias fı́sicas? En general, ¿puede una rama del conocimiento considerada como poco matematizada ser reducida a las leyes de otra más matematizada?, o, por el contrario, existen leyes emergentes, es decir leyes presentes en la rama inferior de la jerarquı́a que nunca van a ser obtenidas como consecuencia de las leyes presentes en las ramas superiores de la jerarquı́a? ¿Son estas leyes emergentes consecuencia de la complejidad de los sistemas con los que trabaja la rama inferior? Otro aspecto relacionado con la discusión anterior lo constituye la noción de evolución. El pasaje de un organismo simple a uno complejo es una transformación en el tiempo que es irreversible, es decir, no observamos el caso contrario. Por otra parte, nuestra vida transcurre del nacimiento a la muerte de manera irremediable y nunca observamos una reversión de este hecho. Si tiramos un vaso de vidrio al piso éste se romperá en muchos pedazos y nunca observamos que el vaso de manera espontánea se reconstruya a sı́ mismo. Si nosotros miramos una pelı́cula proyectada al revés observamos claramente que el transcurrir de las secuencias no es natural. En otras palabras, los fenómenos macroscópicos que observamos revelan claramente una flecha del tiempo, dirigida del pasado hacia el futuro [27,28]. Sin embargo, las leyes de la fı́sica son reversibles en el tiempo. Las ecuaciones matemáticas que expresan las leyes fı́sicas no cambian cuando el parámetro tiempo t presente en estas ecuaciones es sustituido por el parámetro menos tiempo -t. Esto significa que las ecuaciones fundamentales de la fı́sica no distinguen entre el pasado y el futuro. Nos encontramos entonces ante una paradoja. Si consideramos a las leyes fı́sicas como una sı́ntesis del comportamiento del universo, entonces porqué estas leyes son indiferentes al sentido del tiempo, mientras que nuestra apreciación de los fenómenos naturales diariamente nos dice que existe claramente una flecha del tiempo. Los fenómenos observados en nuestro universo, sea en quı́mica, geologı́a, biologı́a, sicologı́a o sociologı́a muestran una dirección preferencial en su dinámica, una flecha del tiempo. Ahora, ¿cómo puede surgir una flecha del tiempo de ecuaciones completamente simétricas? Este problema es conocido como la paradoja temporal. Fue identificado en el siglo XIX por el fı́sico vienés Ludwig Boltzmann (1844-1906) al tratar de formular para la fı́sica una teorı́a de la evolución de la misma manera como Charles Darwin (1809-1882) lo habı́a hecho para la biologı́a. Sin embargo los intentos de Boltzmann tuvieron que luchar contra las leyes de Newton, el paradigma de determinismo y objetividad en la fı́sica. Posteriormente, la flecha del tiempo fue relegada al terreno de la fenomenologı́a: se acepta que la flecha del tiempo es consecuencia de la incapacidad de la mente humana para percibir la totalidad de una sola vez, de manera que la flecha del tiempo aparece como consecuencia de las aproximaciones que nuestra mente introduce en la descripción 216 D. A. Morales de la naturaleza. Sin embargo, hay varios intentos recientes para formular leyes del movimiento que describan la dinámica de procesos irreversibles en el tiempo [26]. Conectado al problema de la existencia o no de una flecha del tiempo real está la pregunta de sı́ nuestro futuro está determinado por nuestro momento presente o, si por el contrario, no hay forma de predecir el futuro a partir del presente. El sentido común nos indica que hay algo de verdad en esta premisa: si cometemos un acto antisocial ahora, es bastante probable que en el futuro paremos en la cárcel. Pero, si esto fuera ası́ en general, ¿podrı́amos predecir el resultado al girar una ruleta, simplemente mirando como el crupier tira la pelotita? A comienzos del siglo XX el gran filósofo de la ciencia Karl Popper (19021994) escribió [25]: El sentido común nos inclina, por una parte, a asegurar que cada evento es causado por algunos eventos precedentes, de manera que cada evento puede ser explicado o predicho. . . . Por otra parte. . . el sentido común atribuye a las personas maduras y sanas. . . la habilidad para escoger libremente entre posibilidades alternativas de actuación. Los aspectos delineados anteriormente son sólo algunos de los problemas fundamentales a los que se enfrenta la ciencia actual. He querido englobar todos los problemas anteriores bajo el tema del determinismo e indeterminismo y la flecha del tiempo en la ciencia contemporánea. Estos aspectos han estado muy interrelacionados en las culturas humanas: ¿poseo libre albedrı́o para seleccionar mi futuro o por el contrario cualquier cosa que haga no será capaz de cambiar mi futuro que ya ha sido preestablecido desde mi nacimiento? Esta discusión también está conectada con la llamada ciencia del caos, muy de moda en la actualidad. Queremos ahora discutir estos aspectos con mayor profundidad. 2 Los griegos y el tiempo Los problemas discutidos anteriormente no son nuevos, en el sentido de que preguntas similares ya se la hacı́an filósofos de la antigüedad. En particular quiero empezar discutiendo estas nociones en los griegos. El gran problema de la filosofı́a griega era el problema del ser y el devenir: de qué estaban formadas las diversas cosas que observamos a nuestro alrededor y si nuestra noción del pasaje del tiempo era real o tan sólo una ilusión o, en otras palabras, el problema fundamental era la naturaleza de la materia y del tiempo.Diversas teorı́as exponı́an que las cosas estaban formadas por uno o todos de cuatro elementos: agua, aire, fuego o tierra, y que fue la unión de estos cuatro elementos en diferentes proporciones y en diferentes organizaciones lo que dio origen a nuestro Determinismo, indeterminismo y la flecha del tiempo 217 universo. Asociado a la composición de las cosas estaba la noción de devenir, el decaimiento y muerte de las cosas. Filósofos como Heráclito (540-475 a.C) [18] sostenı́an que lo real era lo que se percibı́a por medio de los sentidos y estos nos indicaban que las cosas cambiaban, se transformaban: A los que se bañan en los mismos rı́os, aguas distintas cada vez fluyen, y las almas son exhaladas de la humedad. Mientras que filósofos como Parménides (515-450 a.C) [18] sostenı́an que nuestros sentidos nos engañan y nos dan una idea ilusoria del devenir. Lo que es real es lo que es permanente, inmanente y que no cambia; el cambio es ilusorio: Y del camino ya sólo queda un solo relato: que es. Y para éste hay muchı́simas señales de que lo que es no engendrado e imperecedero. Pues es integro, inmóvil e infinito ni fue ni será, pues es ahora todo al mismo tiempo, uno solo, continuo. Albert Einstein sostenı́a que el paso del tiempo era tan sólo una ilusión, razón por la cual Popper solı́a llamarlo “Parménides”. Entre los documentos más importantes que tenemos sobre las ideas filosóficas sobre el tiempo y la irreversibilidad son las cartas que Einstein intercambió con su amigo de toda la vida Michele Besso. Besso siempre insistı́a en interrogar a Einstein sobre el problema del tiempo, la irreversibilidad y su conexión con las leyes de la fı́sica. Einstein le respondı́a una y otra vez que la irreversibilidad era una ilusión, una impresión suscitada por unas condiciones iniciales improbables. No hay irreversibilidad en las leyes fundamentales de la fı́sica. Debes aceptar la idea de que el tiempo es subjetivo, con su insistencia sobre el “ahora” no debe tener ninguna significación objetiva. Cuando Besso muere, Einstein le escribe a la hermana e hijos de éste [12]: Michele se me ha anticipado en dejar este mundo extraño. Esto nada significa. Para nosotros, fı́sicos creyentes, la distinción entre pasado, presente y futuro es solo una ilusión, por persistente que ésta sea. En esta búsqueda por la composición fundamental de la materia, la idea más ingeniosa y que parcialmente encuentra un asidero experimental en nuestra ciencia actual, es aquella expuesta por Demócrito (460-371 a.C) y Leucipo (430 a.C), de que todo lo existente (el alma incluida) puede concebirse como formada por entidades microscópicas, indivisibles, llamadas átomos y el vacı́o. Estas ideas son expuestas posteriormente de manera elocuente e ilustrativa en el gran poema de la antigüedad “De rerum natura” (De la naturaleza de las cosas) del gran poeta latino Tito Lucrecio Caro (95-55 a.C) [37]. Otro filósofo de la escuela atomı́stica cuyas ideas quiero discutir en relación con la flecha del 218 D. A. Morales tiempo es Epicuro (341-270 a.C). Éste, como representante de la escuela atomista, aceptaba la existencia de los átomos y el vacı́o. Pero esta escuela también asumı́a que los átomos se movı́an en trayectorias rectas y paralelas, a lo cual Epicuro se oponı́a. ¿Cómo se podı́a explicar la existencia de la diversidad en nuestro mundo si no se producı́an choques entre los átomos?¿Cómo se puede explicar el libre albedrı́o de los seres humanos en un mundo completamente determinı́stico y sin azar? Para resolver este dilema Epicuro introduce la idea del clinamen (declinación): las trayectorias de los átomos no son siempre paralelas sino que algunas veces se desvı́an de estas trayectorias y chocan produciendo la gran diversidad de cosas que observamos en nuestro mundo. Como lo expone Lucrecio en su De rerum natura [37]: En momentos inciertos y en lugares inciertos, ellos (los átomos) se desvı́an ligeramente de sus cursos, justamente lo suficiente como para que consideremos que han cambiado su dirección. Sin embargo, Epicuro no proporciona ningún mecanismo por medio del cual el clinamen actúa. Ası́, arribamos a los dos más grandes pensadores de la antigüedad, Platón (427-347 a.C) [23] y Aristóteles (384-322 a.C) [1] cuyas visiones filosóficas sobre el universo siguen vigentes y son punto de discusión en las teorı́as más actuales de la fı́sica.Platón sostenı́a que el mundo que observamos no representa sino una imagen imperfecta de un mundo más perfecto que es el mundo de las ideas inmanentes. En ese mundo se encuentran presentes en estado latente todas las realidades posibles que se pueden presentar en el universo, los arquetipos de las cosas visibles. Aristóteles, por el contrario, sostenı́a que la realidad es el mundo que observamos, lo que es real es el devenir, la transformación de las cosas, todo lo que observamos con nuestros sentidos. No podemos pensar como real otra cosa que no sea lo que observamos a nuestro alrededor. Un concepto importante en Aristóteles es el de potencia y acto. Potencia es la posibilidad latente que tiene un cuerpo para transformarse en otro, en acto, en realidad. Estas ideas filosóficas de Platón y Aristóteles han sido asociadas a los puntos de vista del pájaro y la rana. El pájaro por su capacidad de volar tiene una visión más amplia de la realidad y puede tener acceso a realidades que la rana no tiene. La rana, por el contrario, al estar condicionada a moverse y tener acceso a una realidad más limitada que el pájaro no admite como real nada a lo que no pueda tener acceso. En la actualidad ambos puntos de vista han sido asociados con las visiones de muchos teóricosy la de los experimentales . Los puntos de vista de Platón y Aristóteles nos han acompañado aún en la ciencia actual como veremos más adelante. Determinismo, indeterminismo y la flecha del tiempo 3 219 El tiempo y el determinismo Se considera que la ciencia contemporánea, basada en el llamado método cientı́fico, comienza con las ideas de Galileo (1564-1642), Kepler (1571-1630) y Newton (1642-1727). Con Newton se origina la verdadera revolución cientı́fica. Newton establece los principios fı́sico-matemáticos que nos permiten entender el movimiento de los cuerpos: sus tres leyes de la mecánica. Estas leyes constituyen el núcleo central de lo que se conoce como mecánica clásica, el cuerpo de teorı́as desarrolladas por los fı́sicos desde mediados del siglo XVII hasta finales del siglo XIX. La premisa fundamental de la mecánica clásica es que la materia consiste de un conjunto de partı́culas con masa y carga y que las posiciones instantáneas y velocidades de esas partı́culas se pueden determinar experimentalmente con precisión arbitraria. En este sentido, uno asocia con los sistemas fı́sicos un conjunto de variables dinámicas que poseen en cada instante valores bien definidosque determinan el estado del sistema. La evolución futura del sistema queda completamente definida dando los valores de estas variables en el estado presente. La evolución en el tiempo de las variables que caracterizan al estado del sistema se determina entonces resolviendo un conjunto de ecuaciones de movimiento. La discusión anterior nos permite formular una caracterı́stica fundamental de la mecánica clásica: dada la función de fuerza para un sistema fı́sico, el estado mecánico del sistema en cualquier otro instante estará completa y unı́vocamente especificado o determinado por el estado mecánico a algún instante inicial arbitrario. Es esta caracterı́stica de las ecuaciones de movimiento la que define a la mecánica clásica como una teorı́a determinista. Esta caracterı́stica aparece reflejada en un pasaje de Pierre Simon Laplace (1749-1827) muy citado [20]: Debemos considerar el estado presente del universo como una consecuencia de su estado previo y como la causa del estado que seguirá. Una inteligencia que conozca todas las fuerzas que actúan en la naturaleza en un instante dado ası́ como también las posiciones momentáneas de todas las cosas en el universo, serı́a capaz de comprender en una sola fórmula los movimientos de los cuerpos más grandes como también los de los átomos más ligeros en el mundo, con tal de que su intelecto fuera lo suficientemente poderoso para someter todos los datos al análisis; para ella nada serı́a incierto, tanto el futuro como el pasado estarı́an presentes simultáneamente ante sus ojos. La perfección que la mente humana ha sido capaz de darle a la astronomı́a proporciona una indicación de tal inteligencia. Descubrimientos en mecánica y geometrı́a, acoplados con aquellos en gravitación universal, han traı́do a la mente dentro del alcance de comprender en la misma fórmula analı́tica el estado pasado y futuro del sistema del mundo. Todos los esfuerzos de la mente en la 220 D. A. Morales búsqueda de la verdad tienden a aproximarnos a la inteligencia que hemos imaginado, aunque ella (la mente) permanecerá infinitamente remota de tal inteligencia. La opinión anterior está muy ligada al concepto de tiempo. ¿Está el futuro escrito o en continua construcción?, ¿están nuestros actos determinados desde el principio o poseemos libre albedrı́o para escoger nuestro futuro? 4 Indeterminismo, probabilidad y mecánica cuántica Durante el siglo XX aparecen dos grandes teorı́as de la fı́sica: la teorı́a de la relatividad y la mecánica cuántica. La teorı́a de la relatividad trata con fenómenos que se dan a altas velocidades mientras que la mecánica cuántica trata con el comportamiento de los entes microscópicos que constituyen la materia. Aquı́ nos concentraremos en las ideas fundamentales de la mecánica cuántica. Experimentos que se hicieron al final del siglo XIX y en el primer cuarto del siglo XX indicaban que la mecánica clásica no era aplicable a los átomos. El comportamiento del mundo microscópico era tal que ameritaba la deducción de nuevas leyes a ese nivel. El desarrollo fundamental lo realizaron, entre otros, N. Bohr (1885-1962), W. Heisenberg (1901-1976), L. de Broglie (1892-1987) y E. Schrödinger (1887-1961). Heisenberg desarrolló su mecánica de matrices dentro del marco filosófico del pensamiento positivista de E. Mach (1838-1916) que establecı́a que cualquier teorı́a explicativa de la naturaleza debı́a contener solamente elementos que tuvieran una correspondencia con la realidad, es decir cualquier elemento teórico que no fuera observable no podı́a incluirse en la formulación de la teorı́a. Estas son extensiones de las ideas idealistas de Berkeley (1685-1753) [2]. Otra manera alternativa fue desarrollada por Schrödinger, basado en una idea de L. de Broglie. Este último decı́a que ası́ como la luz poseı́a un comportamiento dual de onda y partı́cula (fotón) ası́ también las partı́culas microscópicas, como los electrones, poseı́an un comportamiento dual, de partı́cula y onda: allı́ donde van las ondas van las partı́culas. De Broglie entonces postuló que, debido al comportamiento ondulatorio de los entes microscópicos, le podı́amos asociar una longitud de onda que era inversamente proporcional a la masa de la partı́cula. Ası́, los electrones que tienen una masa muy pequeña poseen una longitud de onda apreciable, y, por el contrario, partı́culas macroscópicas, tales como una pelota de béisbol, que poseen masas grandes no tienen comportamiento ondulatorio sino de partı́cula. Schrödinger toma esta idea de De Broglie y la combina con la ecuación clásica de las ondas para encontrar una ecuación diferencial para las ondas de materia, HY=EY, donde H es un operador hermı́tico y E son sus autovalores. Esto último introduce en la teorı́a fı́sica un elemento no observable: la función de Determinismo, indeterminismo y la flecha del tiempo 221 onda Y, que básicamente representa la amplitud de la onda de materia, en general un número complejo. Note las diferencias filosóficas de las dos teorı́as. La de Heisenberg, idealista: la teorı́a sólo contiene los elementos que podemos observar, todo lo demás no tiene existencia real, y la de Schrödinger: la teorı́a contiene elementos que no podemos medir pero que son necesarios para explicar eventos que sı́ son medibles. Ahora, ¿cuál era el significado de esta “función de onda”? Esta pregunta todavı́a en la actualidad constituye uno de los acertijos fundamentales de la mecánica cuántica. M. Born (1882-1970) estableció que ya que las partı́culas tienen comportamiento de ondas no es posible determinar con certeza sus posiciones. Lo único que podemos calcular es el cuadrado de la función de onda, lo cual representa la probabilidad de encontrar la partı́cula en una cierta posición del espacio. Esta interpretación introduce un aspecto de aleatoriedad en la mecánica cuántica y sugiere que aspectos de indeterminismo están presentes en las leyes de la naturaleza. Esta situación no le gustaba nada a Einstein, un convencido determinista, quién entonces expresa que “no creı́a que Dios jugara a los dados con el universo”. Para entender esto debemos recordar que Einstein creı́a en el Dios de Spinoza (1632-1677), un dios identificado con la naturaleza, donde el azar no es posible, lo que nos parece contingente es solo una ilusión; solo nos parece contingente porque no conocemos su causa ni su mecanismo. A pesar de ello, de acuerdo a la teorı́a cuántica, y recordando las palabras de P. Dirac (1902-1984), toda la quı́mica y gran parte de la fı́sica podı́a ser calculada a partir de primeros principios sin necesidad de hacer más experimentos. La estructura y propiedades de cualquier sustancia desconocida podı́an ser predichas con gran precisión, y la velocidad, mecanismo y productos de cualquier proceso fı́sico o quı́mico desconocidos podı́an ser determinados. Lo único que se requerı́a era resolver las ecuaciones de la mecánica cuántica. Las aplicaciones de la mecánica cuántica han transformado nuestras vidas. Se estima que el 30% del producto territorial bruto de los E.E.U.U. se basa en invenciones desarrolladas gracias a la mecánica cuántica, desde semiconductores en los chips de las computadoras hasta los rayos láser utilizados en los lectores de discos compactos y DVDs, aparatos de resonancia magnética nuclear en los hospitales y celulares, entre otros. Ahora quiero discutir el aspecto de indeterminismo y probabilidad en la mecánica cuántica. Uno de los principios fundamentales de esta teorı́a lo constituye el principio de indeterminación de Heisenberg que éste formuló en 1927. De acuerdo con este principio las ecuaciones de la mecánica cuántica restringen la precisión con la cual un observador puede medir simultáneamente ciertas cantidades, por ejemplo la posición y la velocidad de un electrón. Heisenberg estableció que aunque las leyes de la mecánica cuántica contenı́an elementos estadı́sticos en su formulación, estos elementos no eran propiedad de la misma 222 D. A. Morales naturaleza sino que aparecı́an como consecuencia de la perturbación causada cuando el observador querı́a observar la naturaleza. Por ejemplo, la determinación de la posición de un electrón de manera precisa requiere la utilización de radiación electromagnética de alta frecuencia, lo que implica alta energı́a. En el proceso de colisión de un fotón de esta radiación con un electrón producirá un cambio brusco en el momento del electrón. Este cambio será mayor en la medida en que la frecuencia de la luz se haga cada vez mayor. Por otra parte, la determinación de la posición del electrón con poca precisión requerirá luz de baja frecuencia, esto es, baja energı́a. En este último caso la colisión de un fotón con un electrón no provocará un cambio muy importante en el momento de este último, de manera que éste puede ser medido con gran precisión. Este ejemplo ilustra el hecho de que existe una relación dual o complementaria entre la posición con que se mide el momento de un electrón y la precisión con que se determina su posición. Si x es la precisión con que se mide la posición de una partı́cula de caracterı́sticas microscópicas y p es la precisión en la medida de su momento, entonces el principio de indeterminación establece que el producto de estas dos cantidades no puede ser menor que h/2p, esto es ∆x∆p ≥ h/2p, donde h es la constante de Planck. El principio de indeterminación tiene importantes y profundas consecuencias sobre el principio de causalidad. Este principio, uno de los más queridos y protegidos por los fı́sicos del siglo XIX, establece que los efectos siempre preceden a sus causas. Este principio está entonces en la base del determinismo de Newton y Laplace. El principio de indeterminación niega el principio de causalidad. Como dice Heisenberg [6]: En la formulación estricta de la ley causal -si conocemos el presente, podemos calcular el futuro- no es la conclusión la que está errada sino la premisa. Los valores iniciales de la posición y de la velocidad no pueden ser medidos simultáneamente con absoluta precisión, de manera que uno no puede calcular un futuro único para la partı́cula sino un conjunto de posibles futuros. Sólo la medición determinará que futuro se observará en la realidad. De esta manera la conexión causal entre presente y futuro se pierde y es sustituida sólo por probabilidades de los eventos posibles. Estas ideas también se pueden discutir desde el punto de vista de la ecuación de Schrödinger, que es una ecuación simétrica en el tiempo y además determinista con respecto a su elemento principal, la función de onda. La función de onda contiene en potencia, en el sentido de Aristóteles, todas las posibilidades futuras del sistema bajo estudio. Aunque la evolución en el tiempo de la función de onda es perfectamente determinista: dada la función de onda en un instante dado se puede calcular exactamente la evolución en el tiempo de la función de onda, la ecuación de Schrödinger no nos puede decir con certeza cuál de Determinismo, indeterminismo y la flecha del tiempo 223 todas las posibilidades se convertirá en acto, en el sentido de Aristóteles, en el futuro. De esta manera, la irreversibilidad temporal en la mecánica cuántica entra como consecuencia del observador. Es la persona que realiza la medición la que determina cuál de entre todas las posibilidades se convertirá en acto. Sin embargo, a pesar de que la mecánica cuántica nos ha permitido entender muchos de los aspectos del mundo microscópico, todavı́a existen aspectos que no entendemos. Uno de los problemas de la mecánica cuántica es que es una teorı́a que posee una ecuación determinista, la ecuación de Schrödinger, y un conjunto de reglas ad hoc que nos dicen como calcular las probabilidades de las diferentes posibilidades asociadas con un determinado evento. Sin embargo, a pesar de todo el tiempo transcurrido desde la creación de la mecánica cuántica hasta la actualidad, todavı́a nadie ha deducido una ecuación que nos diga con certeza cuál de las diferentes posibilidades se dará en la realidad. Ya que de acuerdo a la mecánica cuántica, los electrones se comportan como ondas, ellos presentan las caracterı́sticas que asociamos con las ondas. En particular, las funciones de onda describen combinaciones de diferentes estados, las llamadas superposiciones. Un electrón, por ejemplo, podrı́a estar en una superposición de estados correspondientes a diferentes posiciones. Schrödinger afirmaba que este principio de superposición debı́a aplicarse también a los objetos macroscópicos ya que estos estaban formados por átomos. Un experimento mental muy conocido que ilustra este hecho es el experimento del gato encerrado en una caja. Supongamos que colocamos un gato en una cajaherméticamente cerrada, con oxı́geno para que el gato pueda respirar, y una muestra de un elemento radiactivo cuya emisión desencadena que un gas venenoso encerrado en un recipiente se libere y mate al gato. Como la emisión o el decaimiento del elemento radiactivo es aleatorio, la función de onda del átomo radiactivo es una superposición del estado que decae y el estado que no decae, y por lo tanto, produce un gato que está al mismo tiempo vivo y muerto. Sólo cuando una persona abre la caja la superposición se borra quedando un solo estado: el gato muerto o el gato vivo. 5 El reduccionismo matemático Otro aspecto importante está relacionado con la aplicación de la mecánica cuántica a energı́as y distancias muy pequeñas. En fı́sica se trabaja en construir una teorı́a general de donde todo surja como consecuencia de los principios establecidos por esta teorı́a. Esta gran teorı́a, llamada teorı́a de unificación y en la cual el mismo Einstein estuvo trabajando gran parte de su vida sin lograr obtenerla, representa la gran ambición en el siglo XXI. Para lograr esto debemos construir una gran teorı́a que combine la teorı́a de la relatividad general de Einstein con la mecánica cuántica. A partir de esta teorı́a general se deberı́a poder 224 D. A. Morales construir todo el árbol jerárquico del conocimiento humano. En cada rama de ese árbol aparecen conceptos necesarios para entender aspectos relacionados con esa rama particular, tales como protones, electrones, átomos, moléculas, células, organismos, sociedades, culturas. La útima gran teorı́a de la fı́sica no debe contener conceptos, ya que ello implicarı́a que deberı́amos construir otra teorı́a más fundamental para derivar esos conceptos. La última teorı́a deberı́a ser matemática, sin palabras ni conceptos y sin el parámetro tiempo, es decir matemática y atemporal a partir de la cual cualquier cientı́fico pueda derivar toda la existencia del universo [32,33]. Muchos no creen que lo anterior sea posible. Estos creen que en cada rama de la jerarquı́a del conocimiento aparecen leyes y propiedades que dependen de la complejidad de los sistemas estudiados en esa rama y que no son derivables de los conceptos de la rama inmediatamente sobre esta. Por ejemplo, un zoólogo tan eminente como Ernst Mayr arguye en su libro Thisis Biology[21] que las ciencias fı́sicas no pueden explicar muchos aspectos relacionados con la vida y que muchos aspectos estudiados por los fı́sicos no son relevantes para el mundo viviente, o para cualquier otra ciencia fuera de la fı́sica. Los organismos vivos deben ser entendidos a cada nivel de organización; no pueden ser reducidos a las leyes de la fı́sica y la quı́mica. Más adelante escribe [21]: La unidad de la ciencia no podrá alcanzarse hasta que se acepte que la ciencia contiene un conjunto de provincias separadas, una de las cuales es la fı́sica, otra de las cuales es la biologı́a. Serı́a fútil tratar de “reducir” la biologı́a, una ciencia provincial, a la fı́sica, otra ciencia provincial, o viceversa. Al comentar sobre las ideas de C.P. Snow expuestas en su libro The Two Cultures sobre la separación entre los cientı́ficos y los humanistas apunta que [29]: La brecha entre la fı́sica y las humanidades, como él (Snow) correctamente apunta, es en verdad virtualmente infranqueable. Simplemente no existe un camino de la fı́sica a la ética, la cultura, la mente, el libre albedrı́o y otras preocupaciones humanı́sticas. La ausencia en la fı́sica de estos importantes tópicos contribuyó a la alienación de los cientı́ficos y los humanistas que Snow reclama. Pero, todas estas preocupaciones tienen relaciones substanciales con las ciencias de la vida. Otro opositor a la teorı́a reduccionista es Roald Hoffmann, ganador del Premio Nobel de Quı́mica. En este sentido él comenta [11]: . . . Un gran defecto de los fı́sicos teóricos es su tendencia al reduccionismo: creen que todo en la naturaleza puede reducirse a unos Determinismo, indeterminismo y la flecha del tiempo 225 cuantos principios y partı́culas simples. “Ni la naturaleza ni la vida funcionan de ese modo en la realidad”. “La complejidad, y no la simplicidad, es la esencia de la vida”. Vemos, de las dos posiciones anteriores, que el problema de la reducción y la emergencia en la ciencia no está resuelto Estas posiciones apuntan al hecho de que cuando los sistemas adquieren cierta complejidad otras leyes aparecen. Y es precisamente en este terreno que otro tipo de indeterminación, ahora al nivel clásico, emerge: el caos. 6 El caos De acuerdo al diccionario Larousse la palabra caos viene del griego khaos que significa abismo. En filosofı́a expresa la confusión general de los elementos y de la materia, antes de la creación del mundo. Este estado de confusión original ha sido plasmado en diversas obras de la antigüedad. A continuación transcribo un párrafo muy hermoso de Las Metamorfosis de Ovidio (43 a.C-17 d.C) [22], obra que indudablemente presenta elementos en su composición que reflejan las teorı́as que sobre el universo tenı́an los antiguos griegos: Antes de existir el mar, la tierra y el cielo, continentes de todo, existı́a el Caos. El Sol no alumbraba aún el mundo. La Luna todavı́a no estaba sujeta a sus vicisitudes. La Tierra no se hallaba todavı́a suspensa en el vacı́o, o tal vez quieta por su propio peso. No se conocı́an las márgenes de los mares. El aire y el agua se confundı́an con la tierra, que todavı́a no se habı́a solidificado. Toda era informe. Al frı́o se oponı́a el calor. Lo seco a lo húmedo. El cuerpo duro se hundı́a en el blando. Lo pesado era ligero a la vez. Dios, o la Naturaleza, puso fin a estos despropósitos, y separó al cielo de la tierra, a ésta de las aguas y al aire pesado del cielo purı́simo. Y ası́, el Caos dejó de ser. Dios puso a cada cuerpo en el lugar que le correspondı́a y estableció las leyes que habı́an de regirlos. El fuego, que es el más ligero de los elementos, se ubicó en la región más elevada. Más abajo, el aire. La Tierra, encontrada en su equilibrio, la más profunda . . . Algunas de las ideas sobre el determinismo y el caos ya habı́an sido anticipadas en 1903 por el gran matemático francés Henri Poincaré en su libro The value of Science [24]: Si conociéramos con precisión infinita las leyes de la naturaleza y la situación inicial del universo, podrı́amos predecir exactamente la 226 D. A. Morales situación de este mismo universo en un momento posterior. Pero incluso aunque las leyes naturales no tuvieran ningún secreto para nosotros, sólo podrı́amos conocer la situación inicial de modo aproximado. Todo lo que necesitamos para poder decir que un fenómeno ha sido predicho y que está regido por leyes es poder predecir la situación posterior con la misma aproximación que la inicial. Pero esto no siempre es posible; puede ocurrir que las pequeñas diferencias en las condiciones iniciales se hagan muy grandes en el resultado final. Un pequeño error al principio producirá un error enorme al final. La predicción se hace imposible y tenemos un fenómeno fortuito. Murray Gell-Mann apunta [15]: Dado que nada puede medirse con la precisión absoluta, el caos da origen a una indeterminación efectiva en el nivel clásico que se superpone a la indeterminación cuántica. La interacción entre estas dos clases de impredictibilidad es un aspecto fascinante y todavı́a poco estudiado de la fı́sica contemporánea. Robert May, uno de los padres de la teorı́a del caos, define ası́ esta ciencia [14]: En la ciencia, el caos se refiere a la idea de que el comportamiento de algo puede ser a pesar de todos los intentos y propósitos impredecible aún cuando sea descrito por una “ecuación determinista” muy simple; por determinista queremos decir que las ecuaciones, y todos los parámetros en ella son completamente conocidos, sin elementos estadı́sticos o inciertos. Tal ecuación parece predecir con certeza el futuro de algo, dado su estado a algún momento inicial. Un aspecto esencial del sistema caótico es que las ecuaciones que rigen su comportamiento son no lineales, de manera que un pequeño cambio en las condiciones iniciales de un experimento, o una situación en el mundo real, puede provocar un gran cambio en el comportamiento futurodel sistema [30]. Esto significa que si conducimos el experimento dos veces a partir de condiciones iniciales ligeramente diferentes, a medida que el tiempo transcurre las diferencias entre el comportamiento del sistema en las dos situaciones se vuelve tan diferente que es imposible hacer ninguna predicción. Esta situación es conocida como “el efecto mariposa”; el aleteo de una mariposa en Brasil podrı́a provocar al cabo de unos meses un tornado en Texas [16].La única manera entonces de hacer predicciones es conociendo las condiciones iniciales del sistema con absoluta certeza, algo imposible. En el caso de sistemas lineales, dos sistemas que Determinismo, indeterminismo y la flecha del tiempo 227 partan de condiciones iniciales ligeramente diferentes no difieren mucho en su comportamiento a medida que el tiempo transcurre. Los efectos no lineales que aparecen en sistemas caóticos son tı́picos de sistemas complejos: por ejemplo el comportamiento de un cardumen en el tiempo, el comportamiento de poblaciones y culturas mundiales, el comportamiento de la economı́a mundial, la actividad eléctrica en nuestros cerebros y corazón, el congestionamiento en las autopistas, todos estos son ejemplos de sistemas reales cuyo comportamiento temporal puede ser estudiado con la teorı́a del caos. A diferencia de los fı́sicos fundamentales que quieren descubrir las leyes fundamentales de la naturaleza y sus restricciones, los cientı́ficos que trabajan en el campo de la teorı́a del caos y la complejidad utilizan ecuaciones que son sólo modelos aproximados de la realidad. El caotista quiere capturar los aspectos esenciales de su sistema bajo estudio, no quiere describir todos los aspectos del sistema. Para ello utiliza ecuaciones muy simples, que muestran universalidad, en el sentido de que la misma ecuación puede describir variados sistemas aparentemente diferentes: una población de pájaros y el comportamiento de la bolsa de Nueva York, por ejemplo [16]. La ecuación más sencilla que muestra caos y que ha sido utilizada ampliamente para describir muchos sistemas es la ecuación logı́stica: y = ax(1 − x), donde a es una constante. Describiré la ecuación logı́stica con un párrafo de la obra Arcadia,Acto 1, Escena 4 [31]: Lo que ella hace, cada vez que obtiene un valor para y, es usar ese como su próximo valor para x. Y ası́ sucesivamente. Como una retroalimentación. Ella reintroducela solución en la ecuación, y entonces la resuelve de nuevo. Iteración, tú sabes. Lo que resulta del procedimiento anterior es que para ciertos valores del parámetro de la ecuación, el futuro no puede predecirse a partir del estado presente. La distribución final de valores de x luce aleatorio, destruyendo cualquier predicción, aún cuando la ecuación de donde partimos es completamente determinista. Este resultado representa caos, indeterminismo al nivel clásico. En otras palabras, caos a partir del orden: Lo impredictivo y lo predeterminado se solapan de tal manera para hacer todo de la manera que es. Es como la naturaleza se crea a sı́ misma, en cada escala, el cristal de nieve y la tormenta.[31]. La moderna teorı́a del caos comenzó en el año 1966, cuando Edward Lorenz, estudiando un modelo matemático del comportamiento atmosférico, descubrió que sus ecuaciones mostraban caos. La resolución de esas ecuaciones con condiciones iniciales muy parecidas mostraba que al cabo de unos pocos segundos las soluciones se diferenciaban mucho unas de las otras. Con este resultado, Lorenz explicó porqué no se puede hacer predicciones del clima con más de unos pocos dı́as de anticipación. Cualquier error en la medición de las condi- 228 D. A. Morales ciones atmosféricas en un momento determinado se amplificará exponencialmente al cabo de poco tiempo invalidando cualquier predicción del clima. A este efecto Lorenz lo llamó “efecto mariposa”, recordando el cuento El Sonido de un Trueno del año 1952 del gran escritor de ciencia ficción Ray Bradbury [5]. En ese cuento la muerte de una mariposa prehistórica y su consecuente incapacidad para reproducirse, desencadena un final diferente en una elección presidencial. Hasta ahora hemos discutido sólo la teorı́a del caos en la ciencia clásica. Pero la teorı́a del caos también hace su aparición en la mecánica cuántica. La ecuación de Schrödinger es una ecuación lineal de manera que el caos, en el mismo sentido que aparece en las leyes clásicas, no puede hacer su aparición en la mecánica cuántica. Sin embargo, el caos cuántico está ligado no a la aleatoriedad de los niveles energéticos o de la función de onda, sino a la aleatoriedad en la distribución del espaciado entre los niveles de energı́a. En sı́ntesis, el caos cuántico se refiere a la aleatoriedad del espaciado de los niveles de energı́a a nivel cuántico de sistemas que presentan caos a nivel clásico [3, 7, 8, 17, 34]. El espaciado de los niveles energéticos de sistemas cuánticos no caóticos sigue una distribución de Poisson y la contraparte clásica de estos sistemas presenta una dinámica regular o completamente integrable, mientras que aquel de sistemas cuánticos caóticos sigue distribuciones correspondientes a ciertos tipos de matrices llamadas aleatorias y su contraparte clásica presenta una dinámica irregular, sin constantes de movimiento. Lo increı́ble es que este problema fı́sico presente conexiones con uno de los problemas no resuelto más importante de la matemática actual, como lo es la hipótesis de Riemann. La hipótesis de Riemann establece que los ceros complejos de la función zeta de Riemann, ζ(z), tienen todos parte real igual a 1/2, de manera que las cantidades {Γj } definidas 1 por ζ( − iΓj ) = 0 son todas reales. Esta conjetura está, además, relacionada 2 con la distribución de los números primos. La conexión se puede apreciar en la relación −1 ∞ X Y 1 1 ζ(z) = = 1− z nz p n=1 p=primo con Re(z) > 1. La conexión entre el caos cuántico y la hipótesis de Riemann tiene una historia muy interesante. En los años 50s, Eugene Wigner hizo la importante observación que la estadı́stica de las matrices que describı́an el comportamiento de núcleos pesados no era muy diferente de la estadı́stica correspondiente a matrices hermı́ticas aleatorias. Esta observación fue clave en la interpretación de los espectros de energı́a de núcleos pesados, ya que los elementos matriciales correspondientes a estos sistemas no eran conocidos. La observación de Wigner predice entonces que la distribución (la distribución, no los valores individuales) de los niveles de energı́a de un núcleo pesado sigue la misma ley que Determinismo, indeterminismo y la flecha del tiempo 229 la de matrices hermı́ticas aleatorias. Estas ideas fueron elaboradas posteriormente por Freeman Dyson, entre otros, y la proposición teórica fue confirmada hace 30 años en la distribución de los niveles nucleares del elemento erbio-166. La función de correlación de dos puntos de la distribución de los ceros de la 2 función zeta de Riemann 1 − sinπxπx es la misma que la función de correlación de dos puntos de matrices hermı́ticas aleatorias. Esto sugiere que los ceros de la función zeta realmente poseen caracterı́sticas espectrales. Si esto es ası́, los ceros de la función zeta deberı́an estar asociados a los autovalores de algún operador hermı́tico desconocido. Esta idea fue originalmente propuesta, de manera independiente, por David Hilbert y George Pólya. Si este operador existe, él determinará tanto la posición exacta de cada cero de la función zeta como la distribución exacta de los números primos. Por otra parte, debido a la conexión con el problema fı́sico del caos cuántico, los fı́sicos están también buscando un operador hamiltoniano correspondiente a un sistema fı́sico y cuyos autovalores sean las cantidades reales {Γj } correspondientes a la parte imaginaria de los ceros de la función zeta de Riemann. De acuerdo a Michael Berry, en el futuro estaremos leyendo los ceros de la función zeta de Riemann directamente de un espectro de un sistema fı́sico, tomado en el laboratorio. 7 Conclusión Hemos discutido el determinismo e indeterminismo en la ciencia natural, donde la matemática es un ingrediente fundamental en estos estudios. Sin embargo, existe también el problema de determinismo e indeterminismo en la matemática misma, problema éste relacionado con la lógica. Estas ideas son discutidas bajo el nombre de teorı́a de la información algorı́tmica [9,10]. Lo increı́ble es que estas ideas puramente matemáticas, sin relación aparente con el mundo natural, también están al final relacionadas con el mismo problema en las ciencias naturales. Para los platónicos, esto era de esperar: al final todo el universo y sus leyes no son más que representaciones de arquetipos que existen en el mundo perfecto de las ideas, el mundo de las matemáticas. Concluiremos este artı́culo transcribiendo la parte final del ensayo de Jorge Luis Borges (Nueva Refutación del Tiempo). Después de describir sus ideas que presentan el tiempo como una ilusión, Borges comenta [4]: And yet, and yet. . . Negar la sucesión temporal, negar el yo, negar el universo astronómico, son desesperaciones aparentes y consuelos secretos. Nuestro destino (a diferencia del infierno de Swedenborg y del infierno de la mitologı́a tibetana) no es espantoso por irreal; es espantosoporque es irreversible y de hierro. El tiempo es la sustancia de que estoy hecho. El tiempo es un rı́o que me arrebata, pero yo soy el rı́o; es un tigre que me destroza, pero yo soy el tigre; es un fuego 230 D. A. Morales que me consume, pero yo soy el fuego. El mundo, desgraciadamente, es real; yo, desgraciadamente, soy Borges. Referencias [1] Aristotle, Physics, Oxford University Press, Oxford, 1999. [2] G. Berkeley, Principles of Human Knowledge and Three Dialogues,Oxford University Press, Oxford, 1996. [3] M. V. Berry y J. P. Keating, “The Riemann zeros and eigenvalue asymptotics”, SIAM Review, 41 (1999), 236-266. [4] J. L. Borges, Otras Inquisiciones, Alianza Editorial, Madrid, 1997. [5] R. Bradbury, El Sonido de un Trueno en Las Doradas Manzanas del Sol, Minotauro, Barcelona, 2002. [6] D. C. Cassidy, “Heisenberg, uncertainty and the quantum revolution”, Sci. Amer. May, (1992) 110-111. [7] B. Cipra, What’s Happening in the Mathematical Sciences 1998-1999, vol 4, AMS,Providence,RI, 1999. [8] J. B. Conrey, “The Riemann hypothesis”, Notices of the American Mathematical Society, 50 (2003), 341-353. [9] G. Chaitin, “Computers, Paradoxes and the Foundations of Mathematics”, American Scientist, March-April (2002), 164-171. [10] G. Chaitin, “Información y Azar”, Boletı́n de la Asociación Matemática Venezolana, IX (1) (2002), 55-81. [11] L. Chang,The New York Times Grandes Logros de los Genios de Hoy, McGraw-Hill, México, 2000. [12] A. Einstein, Correspondencia con Michele Besso (1903-1955), Edición, prólogo y notas de P. Speziali, Traducción de M. Puigcerver, Tusquets Editores, Barcelona, 1994. [13] A. Einstein, Mi visión del mundo, Fábula Tusquets Editores, Barcelona, 1997. [14] G. Farmelo (editor), It Must be Beautiful: Great Equations of Modern Science, Granta Books,London, 2002. Determinismo, indeterminismo y la flecha del tiempo 231 [15] M. Gell-Mann, El Quark y el Jaguar, Tusquets Editores, S.A., Barcelona, 1995. [16] J. Gleick, Chaos, Heinemann, 1988. [17] B. Hayes, “The spectrum of Riemannium”, American Scientist 91 (2003), 296-300. [18] Heráclito, Parménides y Empédocles,Textos Presocráticos, traducción de M. Del Pino, Edicomunicación, Barcelona, 1995. [19] G. Holton, Einstein, historia y otras pasiones, Taurus, Madrid, 1998. [20] P. S. Laplace, Philosophical Essays on Probabilities, traducido por F. W. Truscott y F. L. Emory, Dover, New York, 1951. [21] E. Mayr, This is Biology, The Belknap Press, Cambridge, Mass., 1997. [22] Ovidio, La Metamorfosis, Edicomunicación, S.A., España, 1995. [23] Platón, Diálogos, Editorial Porrúa, México, 1996. [24] H. Poincaré, The Value of Science, The Modern Library,New York, 2001. [25] K. Popper, El universo abierto, Tecnos, Madrid, 1984. [26] H. Price, Time’s Arrow and Archimedes Point, Oxford University Press, New York, 1996. [27] I. Prigogine, The End of Certainty, The Free Press,New York, 1997. [28] Scientific American, September, 2002. Número especial sobre el tiempo. [29] C.P. Snow, TheTwo Cultures, Cambridge University Press, Cambridge, 1998. [30] I. Stewart, Does God Play Dice? The Mathematics of Chaos, Basil Blackwell,New York, 1989. [31] T. Stoppard,Arcadia, Faber and Faber Limited,London, 1993. [32] M. Tegmark, “Parallel Universes”, Scientific American, May 2003, 30-41. [33] M. Tegmark y J.A. Wheeler, “100 Years of Quantum Mysteries”, Scientific American, February (2001), 54-61. [34] A. Terras, “Finite quantum chaos”, Amer. Math. Month. 109 (2002), 121-139. 232 D. A. Morales [35] Tito Lucrecio Caro, De la Naturaleza de las Cosas, traducción de L. Alvarado, Equinoccio Editorial de la Universidad Simón Bolı́var, Baruta, 1982. [36] E. Wigner, “The unreasonable effectiveness of mathematics in the natural sciences”, Commun. Pure Appl. Math, 13 (1960), 1-14. [37] S. Wolfram,A New Kind of Science, Wolfram Media, 2002. [38] D. Z. Zhang, “C. N. Yang and Contemporary Mathematics”, Math. Intelligencer 15 (1993), 13-21. Daniel A. Morales Facultad de Ciencias Universidad de Los Andes Venezuela Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 233 MATEMÁTICAS RECREATIVAS La importancia de cada nodo en una estructura de enlaces: Google-PageRankTM Roberto Markarian & Nelson Möller Resumen Al buscar información en Internet, es importante cómo vemos ordenado el resultado de nuestra búsqueda. Este resultado es una numerosa cantidad de páginas con algo común a los temas o nombres consultados. En este trabajo, explicamos un procedimiento que asocia a cada página de la Red un número que cuantifica su “relevancia” y permite ordenar los resultados de la búsqueda. Este método fue popularizado por, y constituyó la base del buscador Google. Como se enlazan la páginas de la Red, determina una matriz cuyos vectores propios tienen propiedades que permiten utilizar sus componentes como una medida de “relevancia”. Nuestro objetivo es mostrar la utilización de nociones básicas del Algebra Lineal en estos cálculos. Introducción La siguiente cita, extraı́da del periódico Le Monde [La], ilustra en términos generales las ideas que profundizaremos: “A mediados de los ’90, frente al creciente flujo de información, dos estudiantes de computación de la Universidad estadounidense de Stanford, Sergey Brin y Larry Page, intuyeron algo: un motor de búsqueda que se basara en el estudio matemático de las relaciones entre los diferentes sitios darı́a mucho mejor resultado que las técnicas rudimentarias que se empleaban entonces. Convencidos de que las páginas más ‘pertinentes’ son las más frecuentemente citadas (las que los otros sitios ponen como referencia en su lista de enlaces en hipertexto) deciden hacer del tema su proyecto de estudios, estableciendo ası́ las bases de un motor más ‘matemático’, al que bautizaron Google en el momento de crear su empresa, en setiembre de 1998.” El mismo artı́culo continúa: 234 Markarian & Möller Para evaluar la ‘pertinencia’ de las páginas existentes en internet, Brin y Page inventaron el ‘Page Rank’, una escala de valores propia de Google. En la misma, la importancia de las páginas web es reevaluada permanentemente en función de la cantidad de menciones de que son objeto en los diferentes sitios. Por lo tanto, los sitios aislados, que no figuran en las listas de enlaces hipertextuales, resultan poco visibles, sin ‘legitimidad’. En cambio los sitios muy citados se convierten para Google en sitios de referencia. Ese original algoritmo ofrece resultados impresionantes. Buscar material en Internet plantea simultáneamente dos problemas: ¿Qué páginas tienen elementos relacionados con lo que buscamos? ¿Cómo se presenta (ordena) todo lo hallado? En este trabajo, miramos un aspecto matemático relacionado al segundo punto: analizaremos uno de los elementos, utilizado por el buscador Google para ordenar los resultados de una búsqueda. El primer problema, que tiene también gran relación con elementos del Algebra Lineal, no será tratado aquı́; una referencia es [BDJ]. Los resultados iniciales de nuestra búsqueda suelen ser muchas páginas de direcciones relacionadas con el tema, pero pocas veces miramos más allá de las primeras. Por ello es muy útil un procedimiento que ordene los resultados de acuerdo a la “relevancia”que tienen las páginas. Es allı́ donde interviene uno de los principales elementos introducidos por el Google en 1998, el PageRank [BP]: “Para medir la importancia relativa de las páginas web nosotros proponemos PageRank, un método para calcular un ordenamiento (ranking en inglés) para toda página basado en el gráfico de la Red.” Expresándolo de manera un tanto simplificado, lo que buscamos es que la importancia de cada página sea proporcional a la suma de las importancias de todos los sitios que enlazan con ella. Matemáticamente, si llamamos K a la constante de proporcionalidad y xi a la importancia, tenemos un sistema de ecuaciones del tipo x1 = K(x14 +x97 +x1002 ) x2 = K(x11104 +x20006 ) .. . .. . donde en cada igualdad el lado derecho es la suma de la importancia de todos los sitios que enlazan a la página correspondiente. Sea A la matriz cuya entrada aij es 1 si el sitio j tiene un enlace con la página i y 0 caso contrario. Esta matriz permite reescribir las ecuaciones anteriores en Google-PageRankTM : El Algebra Lineal la forma xi = K n X 235 aij xj . j=1 Entonces, el problema de hallar vectores x = (x1 , x2 , · · · , xn ) que satisfacen esa 1 x, que es un problema igualdad se transforma en encontrar x tal que Ax = K de valores y vectores propios de una matriz que toma en cuenta la estructura de vı́nculos (links en inglés) de la Red. El teorema de Perron - Frobenius sobre los valores propios de matrices con entradas reales no negativas es una pieza clave para mostrar que el método usado por PageRank funciona. En la versión original de Perron (1907) el teorema expresa que el valor propio de mayor valor absoluto de una matriz (con entradas) positiva(s) es positivo y su espacio propio es generado por un vector propio con coordenadas del mismo signo. Frobenius (1908, 1912) extendió estos resultados a matrices no negativas. Este resultado es central a la hora de implementar computacionalmente el cálculo. En los años 50, ya se habı́a observado el papel de este vector propio asociado al mayor valor propio de una matriz positiva, para obtener un ordenamiento [Ke]. Su vigencia actual se debe a su aplicación a Internet y a la posibilidad de implementar el cálculo para matrices muy grandes Este trabajo, por su destino original,de divulgación, contiene detalles conocidos por toda aquella persona con una formación profesional en el cual el teorema de Perron-Frobenius sea utilizado frecuentemente. Por lo tanto puede ser leı́do de varias maneras; quienes estén interesados en la descripción general del PageRank y sus implicaciones pueden leer las Secciones 1, 2, 4 y 5. Quienes estén interesados en esos asuntos y en el planteamiento y solución de los principales problemas matemáticos deben leer además la Sección 3 y principalmente el Apéndice. 1. Algo de Historia La Red ha crecido en una forma vertiginosa. Hagamos un poco de historia para situar el contexto de invención del procedimiento (algoritmo) utilizado por Google. En 1996-98 ya comenzaba a notarse la dificultad de hallar material en internet debido a su rápido crecimiento. En ese momento “buscadores”también llamados “motores de búsqueda”, como Altavista, Lycos, Yahoo, ya tenı́an gran relevancia. En principio [Pe], todo motor de búsqueda está compuesto de por lo menos tres elementos principales: un robot de indexación (también conocido como 236 Markarian & Möller araña, spider o web crawler), una base de datos y una interface de consulta de la base de datos. Normalmente los usuarios interactúan con la interface de consulta, y a través de ella consultan la base de datos. El robot de indexación es el encargado de “navegar”la Web colectando toda la información que este pueda procesar, almacenándola en la base de datos para su posterior consulta. Muchos motores desarrollaban tecnologı́as que permitı́an restringir la búsqueda. Estas restricciones empleaban argumentos lógicos que no eran de manejo sencillo. Yahoo hacı́a “manualmente” el trabajo de ordenar de acuerdo a ciertos criterios “objetivos” las bases de datos disponibles. Dichas bases de datos tenı́an un tamaño considerable, por lo que ya estaba muy popularizado el uso de buscadores, y los que funcionaban bien eran un gran negocio: Yahoo se vendió en una abultada cifra. Los algoritmos de búsqueda recibı́an un gran impulso y a pesar de ello no se simplificaba el hallar lo deseado. En ese contexto, y en pleno boom de las compañı́as puntocom, fue que comenzó en la Universidad de Stanford la historia de Google. Sergey Brin y Lawrence Page presentaron un trabajo de posgrado donde se definı́a la “importancia” de una página web tomando en cuenta los enlaces que recibe. Su buscador hace una lista de respuestas a nuestra búsqueda en un “orden de relevancia”decreciente, esta fue la mejora en su interface de consulta que popularizó su uso. Hemos puesto el comillado porque se señalan deficiencias y crı́ticas al modo cómo se hace la cuantificación ( de “relevancia”). Algunas de éstas serán comentadas más adelante. 2. Como ordenar las páginas de la Red. Estando en una página web A determinada tenemos dos números importantes: ◦ cantidad de vı́nculos entrantes = cantidad de páginas que tienen un vı́nculo hacia la página A; ◦ cantidad de vı́nculos salientes. Las páginas web varı́an mucho en el número de vı́nculos entrantes que poseen. Generalmente las páginas que tienen muchos vı́nculos entrantes son más importantes que las que sólo tienen unos pocos. Sin embargo, hay muchos casos en los cuales sólo el contar el número de vı́nculos entrantes no se corresponde con el sentido usual de la importancia de una página web. Como escribı́an Brin y Page [BP]: “Por ejemplo, si una página tiene un vı́nculo de la página principal de Yahoo, éste puede ser un solo vı́nculo pero uno muy importante. Dicha página deberı́a estar mejor clasificada que otras páginas con muchos vı́nculos pero de lugares desconocidos”. Google-PageRankTM : El Algebra Lineal 237 Por tanto, una página tiene una clasificación alta si la suma de las clasificaciones de sus vı́nculos entrantes es alto. Esto cubre ambos casos: muchos vı́nculos entrantes o pocos con alta clasificación. El algoritmo original del PageRank fue descrito en varios trabajos por Brin y Page [BP]. Posteriormente presentaron una versión mejorada, que es la que expondremos. El propósito es cuantificar la probabilidad de que un usuario (aleatorio) llegue a la página A utilizando la Red. Se define el PageRank por: P R(T1 ) P R(Tn ) (1 − d) +d + ... + P R(A) = N C(T1 ) C(Tn ) donde: N es el número total de páginas web desde las que salen vı́nculos. n es el número total de páginas web desde las que salen vı́nculos a la página A. P R(A) es el PageRank de la página A. P R(Ti ) es el PageRank de las páginas Ti que tienen un vı́nculo hacia la página A. C(Ti ) es el número de vı́nculos salientes de la página Ti . d es un factor de amortiguación que puede ser tomado entre 0 y 1. Como la suma de esos números sobre todas las páginas web, da uno es una distribución de probabilidad (indexada por el parámetro d) . Esta “normalización”(suma=1) facilita la utilización de resultados generales que no dependen del tamaño del sistema (el número total de páginas). Analizando con cuidado dicha fórmula se observarán las siguientes caracterı́sticas del PageRank: está definido para cada página y es determinado por los PageRanks de las páginas que tienen un vı́nculo dirigido hacia ella; los sitios que enlazan a la página A no influyen uniformemente; depende del número de vı́nculos salientes que ellas posean: a más vı́nculos salientes de una página menos beneficiará el PageRank de las páginas a las que se una; un nuevo vı́nculo a una página siempre aumenta su valor; la definición es recursiva: la clasificación de una página depende de todas las otras que tienen vı́nculos hacia ella, por ello la clasificación de cada página depende de todos los sitios de la Red. 238 Markarian & Möller En sus explicaciones Brin y Page dan una justificación sencilla para el algoritmo. El PageRank modela el comportamiento de un usuario que estando en una página puede: • elegir al azar entre los vı́nculos contenidos en la página actual, o • saltar al azar a cualquier página de la Red ingresando la dirección; todo ello sin tener en cuenta el contenido de los mismos (esto ha suscitado comentarios y modelos alternativos ver [DR]). Cuantificando esos comportamientos posibles, se supone que seguirá un enlace de la página en que está con probabilidad d, o que salta a cualquier página con probabilidad 1 − d. La definición del PageRank establece un procedimiento para determinar una probabilidad de que un usuario aleatorio llegue a la página web A. El navegaante aleatorio visita una página web con una probabilidad proporcional al PageRank de la página. La probabilidad de elegir un vı́nculo depende de los vı́nculos que puede elegir en la página en que está. El seguimiento de los vı́nculos está indexado probabilı́sticamente por el factor de amortiguamiento d. Parece razonable suponer que d > 1/2, o sea, estando en una página, se tiende a usar más los vı́nculos que allı́ están, que hacer una nueva elección al azar. En la Sección 3 profundizaremos en el significado y el uso de d. La única excepción son las páginas hacia las que no va ningún vı́nculo, a las cuales en este modelo, por estar aisladas, sólo se llega al azar. No caben dudas que a ellas se puede llegar buscándolas explı́citamente, pero para usar este procedimiento -que es el mejor procedimiento de búsqueda!- no se necesitan ‘buscadores’. El PageRank de estas páginas es 1−d N . Vamos a ver que, por la naturaleza de la definición, es posible utilizar un algoritmo iterativo que aproxima los valores de PageRank. O sea, a cada página se le asigna un valor inicial y se realizan iteraciones que modifican sucesivamente estos valores iniciales. Esto es, a partir de distribuciones iniciales prefijadas, se repite un mismo procedimiento para obtener nuevos valores para cada página, y ası́ sucesivamente. Este es un punto importante a la hora de implementar el mecanismo, pues en términos computacionales es más sencillo calcular iterativamente el valor y el vector propio que mediante otros procedimientos. Algunas preguntas surgen naturalmente. ¿Por qué este procedimiento funciona? ¿Será que este procedimiento asigna a cada página un valor único, su PageRank? Explicaremos en detalle como se realiza este cálculo en el ejemplo de la siguiente Sección. Las respuestas afirmativas, en general, incluyen el uso de una versión del teorema de Perron-Frobenius que se dará en el Apéndice. Google-PageRankTM : El Algebra Lineal 3. 239 Un ejemplo Veamos ahora como es el procedimiento recursivo en un ejemplo dado por el siguiente diagrama. 1 2 5 3 4 Tenemos 5 páginas web e indicamos con una flecha los vı́nculos. Por ejemplo, de la página 1 salen dos vı́nculos a las 3 y 5, y entra un vı́nculo de la página 2. Veamos las fórmulas de PageRank de una manera más compacta, intentando utilizar la nomenclatura probabilı́stica relacionada con la distribución estacionaria de una cadena de Markov 1 . Llamamos πi = P R(i) al PageRank de la página i: ` ´ π1 = 1−d 5 π2 = 1−d 5 +d π2 2 , +d ` π5 ´ , ` π1 2 π3 = 1−d 5 +d π4 = 1−d 5 + d (π3 ) , π5 = 1−d 5 +d 2 ` π1 2 + + π5 2 π2 2 ´ , ´ + π4 . Si definimos la matriz: 1 B 1 B 1−d 1 5 B @ 1 1 0 1/2 0 0 1/2 0 0 0 1/2 1 0 P = 0 B B +d B @ yπ = π1 π2 π3 π4 π5 1 1 1 1 1 1 1 1 1 1 0 0 0 1 0 1 1 1 1 1 0 0 0 0 1 1 1 1 1 1 0 1/2 1/2 0 0 1 C C C A 1 C C C A ! , utilizando que P5 i=1 πi = 1 podemos resumir las 5 ecuaciones en2 π = P π. 1 Ver el capı́tulo 5 de [Ha]. lenguaje probabilı́stico suele ser más común llamar P a la transpuesta de nuestra matriz y llegar a π = πP . 2 En 240 Markarian & Möller Modelo de navegación3 Obtendremos la matriz P recurriendo a las explicaciones dadas en la sección anterior para justificar la definición. Resumamos la estructura de vı́nculos en la matriz de conectividad A, definida por 1 si hay un vı́nculo de la página j a la i, aij = 0 si no hay un vı́nculo de la página j a la i. En el caso del ejemplo    A=   0 0 1 0 1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 1 1 0 0    .   Supongamos que el usuario tiene los siguientes dos modos de navegación: 1. Elige una página al azar. 2. Sigue los vı́nculo de la página en la que está. Elegimos un número d, 0 < d < 1; la probabilidad del modo 2. Queremos saber lo siguiente: estando en una página determinada ¿cuál es la probabilidad de que en el próximo paso esté en otra determinada página? Para esto introducimos otra matriz P, llamada matriz de transición cuya entrada pij es la probabilidad de que estando en la página j pase al sitio i. Tenemos que: ( d 1−d + si hay un vı́nculo de j a i vı́nculos salen de j total páginas pij = 1−d si no hay vı́nculo de j a i total páginas Observe que la matriz P se puede obtener a partir de la matriz de conectividad A de la siguiente manera: P5 C(Tj )= vı́nculos que salen de la página j = i=1 aij . Dividimos la columna j de A por C(Tj ). Formamos una nueva matriz C con la columnas del paso anterior. ! 1 ... 1 (1−d) . . Entonces: P = 5 .. .. + dC. 1 ... 1 3 Si ha estudiado cadenas de Markov es posible que las siguientes explicaciones le resulten elementales y rudimentarias. Google-PageRankTM : El Algebra Lineal 241 Proceso de Iteración Un vector de probabilidades es p1 ! .. . p= p5 donde 0 ≤ pj ≤ 1 y la página j. P5 j=1 pj = 1. El número pj es la probabilidad de estar en Si p(k) es el vector de probabilidades en el k-ésimo paso de la navegación, tenemos que p(k+1) = P p(k) . Por ejemplo, si comenzamos en la página 1: p(0) = (1, 0, 0, 0, 0) después del primer paso p(1) = P p(0) es el vector  (1−d)  5  (1−d)  5    d/2+ (1−d) .  (1−d)5  5 (1−d) 5 d/2+ De la misma manera, al segundo paso p(2) = P p(1) = P 2 p(0) y podemos continuar para obtener que p(k) = P p(k−1) = P k p(0) . Observe que todos los vectores p(k) son de probabilidad. Lo que nos interesa son las probabilidades a largo plazo; o sea, nos preguntamos si los vectores de probabilidad p(k) = P k p(0) , k = 1, 2, . . . convergen a algún vector de equilibrio π independientemente del vector de probabilidades inicial p(0) . Si eso sucede, entonces en particular π = lı́m P k+1 π = lı́m P P k π = P ( lı́m P k π) = P π. k→∞ k→∞ k→∞ Por lo tanto π es un vector propio asociado al valor propio 1. Además por la independencia del vector inicial, si consideramos los vectores ej de la base canónica tenemos que las columnas de P k son P k ej → π, lo que implica que P k → P∞ donde cada columna de P∞ es el vector π. Convergencia en norma uno4 . Es importante tener en cuenta que los lı́mites que aparecen en este trabajo se refieren a que la norma uno del vector diferencia 4 En lenguaje probabilı́stico convergencia en variación total. 242 Markarian & Möller (t) tiende a cero. Esto significa que si vj , vj son las coordenadas j-ésimas de v (t) y v (vectores de Rn ), respectivamente, entonces lı́mt v (t) = v significa que ||v (t) − v||1 = n X (t) |vj − vj | → 0 cuando t → ∞. j=1 Veamos cómo hacemos el cálculo recursivamente en nuestro ejemplo5 utilizando d = 0,85 1. Comenzamos con un vector de probabilidad inicial  0,2  0,2 p(0) =  0,2  , 0,2 0,2 2. Calculamos ,03 ,455 ,03 ,03  ,455 ,03 ,03 ,03 ,455  ,455  ,115 ,115  ,2  . ,2 ,37  p(1) = P p(0) = = ,030 ,03 ,03 ,88 ,03 ,030 ,03 ,03 ,03 ,88 ,030 0,2 ,455 0,2 ,455   0,2  ,03 0,2 ,03 0,2   Miramos cuán próximos están: δ1 = = = ||p(1) − p(0) ||1 |,115 − 0,2| + |,115 − 0,2| +|,2 − 0,2| + |,2 − 0,2| + |,37 − 0,2| ,34. 3. Calculamos p(k) = P p(k−1) , hasta que estén suficientemente próximos, o sea δk < ε.6 4. Si ε es muy pequeño, la componente i del vector p(k) será una buena aproximación al PageRank de la página i. En el ejemplo si tomamos k=11, llegamos a: 0 0,09934354879645 1 (10) p = ⇒ 5 Sólo 0,16700649449556 @ 0,20994655573428 A 0,20521883387311 0,31848456710061 0 0,10097776016061 1 (11) p 0,16535594101776 = @ 0,20757694925625 A 0,20845457237414 0,31763477719124 δ11 = ||p(11) − p(10) ||1 = 0,00973989973037. aparecen los resultados de los cálculos. Realizados en MATLAB, formato largo. problema de estimar k en función de ε tiene importancia a la hora de implementar el cálculo; esta estimación involucra a otro valor propio de P [HK]. 6 El Google-PageRankTM : El Algebra Lineal 243 Si calculamos directamente7 el vector propio, se obtiene un resultado muy cercano al anterior  0,10035700400292  0,16554589177158  0,20819761847282  . 0,20696797570190 0,31893151005078 Observe que la página 5 es la que tiene mejor clasificación. Si se realiza el cálculo con un esquema del tipo que sigue, se verá que nuevamente la página 5 será la más relevante. 2 1 3 4 5 ¿Qué sucede si la página 5 no enlaza consigo misma? (En ese caso la página 5 representa lo que se conoce como enlace colgado.) Si vuelve al ejemplo anterior verá que aparece una división por 0 al definir la matriz P . En ese caso se calcula el de las páginas 1, 2, 3, 4 y después con esos números el de la 5. Esto es un fenómeno presente muchas veces en el cálculo del PageRank real, por ejemplo debido a enlaces a páginas que no han sido todavı́a descargadas por las “arañas” del Google (éstas aparentan no poseer enlaces salientes). 4. Google en serio Se considera el conjunto W de páginas que se pueden alcanzar a partir de una página en Google. Sea N el número de páginas en W , este número varı́a con el tiempo, (en mayo 2002 era alrededor de 2700 millones [Mo]). Consideramos la matriz N × N de conectividad de W . La matriz es enorme pero tiene una gran cantidad de ceros (en ingles, sparse matrix). Consideramos la matriz P construida de manera análoga a lo hecho en nuestro ejemplo. Esta matriz tiene todas sus entradas no negativas y la suma de los elementos de cada columna da uno; se dice que es una matriz de Markov. De acuerdo con lo expresado en la Sección anterior se trata de encontrar un vector π tal que π = P π. Se prueba P que si la matriz es de Markov y i πi = 1, entonces π es único. El elemento πj de π es el PageRank de la página j (a menos de posibles cambios de escala). Observemos que la forma recursiva de implementar el algoritmo al realizar el cálculo no es algo menor, estamos hablando de manejar una matriz que tiene 7 Utilizando las funciones eig y norm del MATLAB. 244 Markarian & Möller un tamaño de varios millones. En el Apéndice se mostrará por qué funciona esta implementación que asigna una calificación no nula única a cada página. En teorı́a sucede que toda página posee un PageRank positivo pero en el ordenamiento real se introducen como penalización una calificación nula llamada PR 0. Desde que se popularizó la utilización del Google los responsables (webmaster) de algunas sitios han intentado aumentar la calificación de sus páginas intentando manipular sus enlaces. A su vez, los administradores de Google quieren evitar trampas de este tipo, por lo que se intenta detectar y penalizar tales intentos. Públicamente se desconoce la forma en que se realiza, puesto que, diversos elementos que hacen funcionar su buscador son secretos comerciales. En la Red, existe material que especula acerca de la implementación de esta penalización [EF]. 5. Consideraciones generales En este momento, Google no sólo es el buscador más utilizado, sino que, le vende servicios a portales importantes: Yahoo, AOL, etc. Se estima que, por venta de servicios y licencias de su tecnologı́a de búsqueda tiene ganancias por 150 millones de dólares [Ec]. Un elemento no menor luego de la caı́da de las puntocom de marzo 2000. El 27 de junio de 2002, la Comisión Federal de Comercio de los Estados Unidos estableció ciertas reglas; recomendando que cualquier ordenamiento influido por criterios monetarios más que por criterios “imparciales” y “objetivos” debı́a ser claramente indicado para proteger los intereses de los consumidores. Por ello, cualquier algoritmo como éste, que aparenta ser objetivo, continuará siendo un aspecto importante para las búsquedas en la Red. Google es también el único motor de búsqueda que recorre la Red frecuentemente para mantener actualizada su base de datos (por lo menos ası́ lo ha hecho en los últimos dos años). Lleva, aproximadamente, una semana cubrir la Red y otra para calcular el PageRank. El ciclo de puesta al dı́a de Google es de aproximadamente 30 dias. Se ha advertido, que el PageRank vigente influye el recorrido mensual realizado por Google, hace que páginas con PageRank más alto sean recorridas más rápidamente y en mayor profundidad que otras con menor clasificación. Este último punto, hace que se vea como discriminatoria la naturaleza del PageRank [La], [Bra]. Se llega a afirmar que, los nuevos sitios lanzados en el 2002 tienen mayor dificultad en conseguir tráfico que antes del dominio de Google y que la estructura de enlaces de la Red ha cambiado significativamente a partir del predominio del Google. Debido a la naturaleza del orden que establece el PageRank, una búsqueda no lleva hacia la referencia “principal”sobre el tema sino hacia la acepción más Google-PageRankTM : El Algebra Lineal 245 ampliamente citada. Ya hemos observado que existen quienes intentan mejorar su calificación, y que, Google trata de controlar tales comportamientos. Se han realizado experiencias exitosas que muestran las posibilidades de utilizar “artificialmente” esta caracterı́stica para subir el PageRank de una página. En los términos utilizados en [La]: “En realidad, el poder de influencia de los diferentes actores depende sobre todo de su grado de apropiación de la Red: no alcanza con desarrollar un sitio, también hay que ser capaz de establecer vı́nculos con los otros sitios y obtener el reconocimiento de ‘los que cuentan’ en internet.” El artı́culo enfatiza aun: “Es sin duda en los temas polı́ticos -sobre los cuales cohabitan en internet puntos de vista radicalmente diferentes- donde Google pone de manifiesto sus lı́mites: sus criterios matemáticos pueden privilegiar de facto ciertas opiniones y brindar una pertinencia indebida a textos que sólo representan la opinión de unos pocos. La base y la sobrerepresentación de que se benefician los ‘adelantados’ de internet, la densidad de lazos que mantienen (sobre todo a través del fenómeno esencialmente estadounidense de los weblogs), designan matemáticamente- a los actuales ‘gurús’ de Google. Por cierto que el sistema pasó brillantemente las pruebas en cuestiones técnicas y prácticas. Pero existen terrenos en los que la pertinencia escapa a los algoritmos.” Google empresa, finalmente lanzó su cotización en el mercado electrónico NASDAQ, el 18 de agosto de 2004. Su lanzamiento, por un monto superior a 20 mil millones de dólares, utilizó un mecanismo no habitual, conocido como Remate Holandés Modificado(Modified Dutch Auction). El Google IPO (siglas en Ingles de Oferta Pública Inicial) fue la manera como se recabaron las ofertas a tráves de ciertas agencias. Este proceso sufrió varios retrasos, desde observaciones por parte de la comisión reguladora (SEC) originados por la existencia de acciones en poder de ex-funcionarios, colaboradores, etc; hasta observaciones por las declaraciones de Brin y Page a Playboy en el perı́odo en el que se debı́a mantener reservas. Han habido varias quejas y rumores sobre el acceso a este proceso, además de los retrasos mencionados debidos a las observaciones de la SEC. Para el que esté interesado, la sigla en NASDAQ de Google es GOOG. Estas son noticias ajenas al fin principal del artı́culo, sobre las cuales se producen novedades continuamente. 246 Markarian & Möller Se dice que Microsoft también estarı́a por lanzar su propia tecnologı́a de búsqueda[Ec]. Apéndice: Por qué funciona el algoritmo. Importancia de las matrices no negativas. En este Apéndice daremos una demostración algebraica de una versión probabilı́stica del Teorema de Perron-Frobenius. Distintas versiones de este teorema fueron probadas en contextos totalmente abstractos, pero la importancia de la teorı́a de matrices no negativas se ha extendido a campos muy amplios: las teorı́as de probabilidad y de sistemas dinámicos, el análisis numérico, la demografı́a, la economı́a matemática y la programación dinámica. Ver, por ejemplo [MC]. Esto se debe a que diversas variables que se miden en el mundo real, interactúan a través de relaciones positivas o nulas. A su vez, una cantidad de modelos que formalizan esas interacciones son procesos iterativos lineales en que se comienza con un estado v y se evoluciona por la aplicación reiterada de una matriz A, de modo que luego de n pasos se tiene el estado v (n) = An v. Muchas veces es fundamental saber cuándo este proceso converge a un estado único, cualquiera sea el estado de comienzo v. La teorı́a de matrices positivas responde a ésta (y muchas otras) cuestión(es). El enfoque que haremos aquı́ tiene por prerequisitos algún manejo algebraico y cursos elementales de álgebra lineal. Este enfoque sencillo y directo puede hacer perder parte del “sabor probabilı́stico”que en profundidad tienen muchos de los contenidos. Pedimos disculpas por esta opción que no es involuntaria. Se pueden encontrar otras pruebas y desarrollo de estos temas en [MC]; [Ha] Ch. 5; [Re] Ch. 2. Un tratado muy completo sobre matrices no negativas, que comienza con los resultados que nos interesan, es [Se]. Convergencia Sea B ∈ Mn×n (C) una matriz con valor propio λ1 = 1 de multiplicidad algebraica 1, y los demás valores propios satisfaciendo 1 > |λ2 | ≥ . . . ≥ |λn |. Los λi , i ≥ 2 se pueden repetir. El uno es lo que se llama un valor propio dominante. Pn Si existe una base de vectores propios vi , i = 1, . . . , n, entonces v = i=1 αi vi y n X B k (v) = α1 v1 + αi λki vi , i=2 donde sabemos que lı́mk λki = 0 para i = 2, . . . , n. Google-PageRankTM : El Algebra Lineal 247 Si no hay una base de vectores propios, o sea si la multiplicidad algebraica de alguno de los λi , i ≥ 2; es diferente de la multiplicidad geométrica, entonces habrán elementos w1 , w2 de una base (de Jordan) que satisfacen Bw1 = λi w1 + w2 , Bw2 = λi w2 . Un breve cálculo permite deducir que w2 . Este sencillo cálculo es generalizable a todas las siB k w1 = λki w1 + kλk−1 i tuaciones que se pueden presentar al tomar una base de Jordan. En la matriz de Jordan se tienen los llamados bloques de Jordan que son de la forma λI + N donde λ es un valor propio (real o complejo) I es una matriz identidad, digamos que s por s, y N una matriz “nilpotente”todas cuyas entradas son cero, excepto la linea subdiagonal P (ai,i−1 ) que está formada por s unos que verifica N s = 0. Entonces (λI + N )k = i=0 λk−i Cik N i , donde Cik son las combinaciones de k elementos tomados de a i. Por tanto B k v será combinación lineal de vectores de la base, cuyos coeficientes –con excepción del correspondiente al vector propio asociado al valor propio 1– tienden a cero cuando8 k → ∞ por tener cada valor propio –distinto del primero– módulo menor que uno. Ası́, sea la matriz B diagonalizable o no, si el uno tiene multiplicidad algebraica uno y las demás raı́ces del polinomio caracterı́stico tienen módulo menor que uno podemos garantizar que lı́m B k v = α1 v1 . k La igualdad anterior es la que nos permite realizar el cálculo iterativo cuando α1 6= 0 porque la aplicación sucesiva de la matriz B a cualquier vector con α1 6= 0 converge a múltiplos de un mismo vector (un vector propio de valor propio 1). El teorema de Perron-Frobenius nos permitirá también elegir vectores con los que comenzar el proceso, con α1 6= 0, para los que la convergencia no será al vector nulo. Matrices de Markov. Resultados principales. Decimos que una matriz B es positiva si todos sus elementos son números positivos. Lo notamos B > 0. Si X ∈ Mn×1 (R)(o M1×n (R)) es positivo decimos que X es un vector positivo. Dadas dos matrices A, B del mismo tamaño decimos que A > B si A − B es una matriz positiva. Tenemos definiciones análogas para A ≥ 0 (no negativo) si sustituimos positivos por elementos mayores o iguales a cero. Diremos que p ∈ Rn es un vector de probabilidad si es no negativo y la suma de sus componentes es uno. Definición 1 (Matrices de Markov) Dada una matriz positiva M del espacio Mn×n (R), decimos Pn que es de Markov si la suma de los elementos de cada columna es uno ( i=1 mij = 1, ∀j = 1, . . . n.) 8 Recuerde que lı́mk λki ks = 0. 248 Markarian & Möller Se probará que las matrices de Markov satisfacen las propiedades de la matriz B anterior: tienen un valor propio uno con multiplicidad algebraica uno y todos los demás valores propios con módulo menor que uno. También se probará que si el vector v es de probabilidad el valor α1 antes referido es distinto de cero. Gran parte de estas demostraciones se harán usando la matriz traspuesta M T de la matriz de Markov, que satisface que los elementos de sus filas suman uno, y tiene los mismos valores propios que M (por tener el mismo polinomio caracterı́stico). En el transcurso de la demostración de los puntos principales se demostrarán otros resultados interesantes. Resumimos todos los resultados en el siguiente Teorema. Si M es una matriz de Markov, entonces todos sus valores propios tienen módulo menor o igual que uno y sólo uno de ellos, el uno, tiene módulo uno. La multiplicidad algebraica del uno es uno y es el único que un vector propio no nulo es positivo. Para cualquier vector de probabilidad p, M k p converge en la norma 1 9 al único vector de probabilidad que es vector propio del valor propio uno. Como ya se vió estas condiciones aseguran la convergencia de M k v (para cualquier v) a un múltiplo del vector propio v1 del valor propio uno. Comencemos probando que si M es de Markov y p es de probabilidad también lo es M k p. Alcanza con probar que M p es de probabilidad. En efecto , la suma de las componentes de M p es n n X X mij pj = i=1 j=1 n X j=1 pj n X i=1 mij = n X pj 1 = 1. j=1 La segunda de las igualdades es consecuencia de que M es de Markov (ver definición). Entonces las iteraciones de un vector de probabilidad convergerán a un vector de probabilidad, que será el único vector probabilidad que es vector propio del valor propio uno. Por tanto el vector lı́mite no es nulo y se muestra, de pasada, que al escribir un vector de probabilidad v como combinación lineal de los vectores de la base de Jordan, resultará α1 6= 0. Convergencia de M T . Probaremos ahora que para cualquier w ∈ Rn , (M T )k w converge cuando k → ∞. Esta prueba será independiente de la estructura de valores y vectores propios de M T ; sólo utilizará el hecho de que M es de Markov. Necesitaremos el siguiente resultado que presentamos en forma de ejercicio con sugerencia. Ejercicio: Sean c = (c1 , . . . , cn ) ∈ Rn , 0 < γ < 1/2 tales que: 0 < γ ≤ cj , c1 + . . . + cn = 1, entonces el promedio ponderado de los números w1 , . . . wn se 9 Ver definición en Sección 3. Google-PageRankTM : El Algebra Lineal 249 define como w = c1 w1 + . . . + cn wn . Sean wmin y wmax los valores mı́nimo y máximo de los w0 s. Entonces el promedio w satisface: γwmax + (1 − γ)wmin ≤ w ≤ (1 − γ)wmax + γwmin , y wmin ≤ w ≤ wmax . Se sugiere, para probar las primeras desigualdades, hacerlo por inducción completa en n, suponiendo, por ejemplo, que al pasar de n a n + 1, se agrega el wmax . Para aplicar este resultado a nuestro problema, consideramos γ = mı́n{mij } (si n > 2, resulta γ < 1/2). Como las filas de M T suman 1, los elementos de z = M T w son promedios ponderados de los elementos de w. El resultado del ejercicio nos da estimativas para las componentes máxima y mı́nima de z, zmax ≤ (1 − γ)wmax + γwmin , γwmax + (1 − γ)wmin ≤ zmin . Esas desigualdades implican que wmin ≤ zmin ≤ zmax ≤ wmax ; zmax − zmin ≤ (1 − 2γ)(wmax − wmin ); como 0 < (1 − 2γ) < 1 la diferencia entre el valor máximo y mı́nimo de la iteración resulta una contracción. Por tanto los vectores resultantes de la aplicación sucesiva de M T convergen en la norma 1 a un vector no nulo con todas sus componentes iguales y distintas de cero si wmax > 0. Si se comienza el proceso tomando como vector w, cualquier vector con todas sus componentes iguales se observa que este vector z1 es un vector propio asociado al valor propio uno. Este es el único vector propio asociado al valor propio uno porque si hubiera otro z2 6= z1 , resultarı́a (M T )m z2 = z2 , y convergerı́a a z1 . Absurdo. Valores propios Veremos ahora que el uno tiene multiplicidad algebraica uno. Si asumimos que su multiplicidad es k > 1, como fue observado al principio de este Apéndice, resultará que la de Jordan tendrá un bloque I +N con N k = 0. Por tanto Pmatriz k m m i (I + N ) v = i=0 Ci N v que no puede converger a un vector de coordenadas acotadas puesto que las combinaciones Cim , 0 ≤ i ≤ k van para infinito con m. Las mismas expresiones usadas al principio de este Apéndice, al introducir la matriz de Jordan, muestran que no pueden haber valores propios con módulo mayor que uno, pues λm−i → ∞ cuando m → ∞. Por último, debemos probar que no hay valores propios complejos de módulo 1. Si existiera un λ = a + bi con b 6= 0 y argumento ϕ 6= 0, |λ|= 1, la matriz de a b Jordan real tendrá una submatriz de la forma J = . Entonces J m = −b a 250 Markarian & Möller cos mϕ sin mϕ . Por tanto M m v tendrá dos componentes que no − sin mϕ cos mϕ convergerán, porque las que correspondan a esa submatriz estarán dependiendo del valor de mϕ (si ϕ 6= 0, los senos y cosenos correspondientes convergen a por lo menos dos valores distintos al crecer m. Obsérvese que si ϕ es irracional, los senos y cosenos convergen a todos los valores entre -1 y 1). |λ|m Los resultados necesarios para asegurar la convergencia de M m v cuando v es un vector de probabilidad ya han sido probados. Ahora daremos otras pruebas de los mismos resultados, y completaremos el resultado faltante. Otra demostración El teorema de Gershgorin nos permite, sin calcular explı́citamente los valores propios, tener una idea de su valor: Los valores propios de una matriz P {aij } se encuentran en los cı́rculos del plano complejo de centro aii y radio i6=j aij . Como nuestra matriz es de Markov los centros son mii < 1 y los radios 1 − mii , por lo que los cı́rculos que contienen los valores propios están todos dentro del cı́rculo de centro en el origen y radio 1. Todos esos cı́rculos contienen el punto (1,0), siendo el único común con el cı́rculo unitario centrado en el origen; de lo que se deduce que el único valor propio de módulo 1 es el 1. Observación: Podemos tener matrices con valor propio 1 pero que M k no converja o que, el lı́mite M k p dependa de p. Ejemplos de esto son (en dimensión 2) ( 01 10 ) o la matriz identidad. Sea M una matriz de Markov. Consideramos r = sup{λ ≥ 0 : M x ≥ λx para algún 0 6= x ≥ 0}. Como el uno es valor propio de M existe un vector propio z = (z1 , . . . , zn ). Si llamamos M (j) a la columna j de M la igualdad M z = z la podemos escribir n X zj M (j) = z. j=1 Si tomamos valor absoluto a ambos lados de la igualdad, utilizamos la desigualdad triangular y llamamos |z| al vector (|z1 |, . . . , |zn |) obtenemos: M |z| ≥ |z|. De donde concluimos que r ≥ 1. Mostraremos que r = 1. Para ello alcanza con probar que r es valor propio de M pues los valores propios de M tienen módulos menores o iguales a uno. Google-PageRankTM : El Algebra Lineal 251 Afirmación: r es valor propio de M . Sea 0 6= ξ ≥ 0 tal que M ξ ≥ rξ. Si M ξ 6= rξ tenemos que el vector 0 6= y = M ξ − rξ > 0 como M es positiva se cumple que M y > 0 y por lo tanto existe ε > 0 tal que M y ≥ εM ξ o sea M (M ξ − rξ) ≥ εM ξ ⇒ M (M ξ) ≥ (r + ε)M ξ. Considerando el vector M ξ la desigualdad anterior contradice la definición del r. Entonces M ξ = rξ como querı́amos mostrar. Obsérvese que como M > 0 llegamos a que el vector ξ = (ξ1 , . . . , ξn ) es positivo. Afirmación: El uno es el único valor propio asociado con un vector propio z con todas sus componentes ≥ 0. Este enunciado sólo tiene sentido para valores propios reales porque los valores propios no reales (complejos) deben tener vectores propios con algunas o todas sus coordenadas complejas. Sea z = (z1 , . . . , zn ) un tal vector propio de M , con valor propio λ. Algún zi deber ser mayor que cero (¿Por qué?). Sea zi , con zi 6= 0 . α = mı́n ξi De la definición de α vemos que existe algún p, 1 ≤ p ≤ n con zp = αξp > 0. Como λz = M z ≥ αM ξ = αξ si miramos la componente p-ésima λzp ≥ αξp = zp ⇒ λ ≥ 1. Referencias [BDJ] M. Berry, Z. Drmac & E. Jessup, Matrices, Vector Spaces and Information Retrieval, SIAM Review 41 (1999), 335-362. [BP] Sergey Brin & Lawrence Page, The anatomy of a large scale hypertextual web search engine. Computer Networks and ISDN Systems, 33 (1998), 107117. [Bra] Daniel Brandt, PageRank: Google’s original sin. http://www.google-watch.org/pagerank.html [DR] Pedro Domingos & Matthew Richardson, The intelligent surfer: probabilistic combination of link and content information in PageRank. Advances in Neural Information Processing Systems 14 (2002). [Ec] How good is google? The economist, print edition, October 30th, 2003. 252 Markarian & Möller [EF] A Survey of Google’s PageRank. http://pr.efactory.de [Gr] Juan-Miguel Gracia, Algebra Lineal tras los buscadores de Internet. http://www.vc.ehu.es/campus/centros/farmacia/deptosf/depme/gracia1.htm [Ha] O. Haggstrom, Finite Markov Chains and Algotihmic Applications, Cambridge University Press, 2002. [HK] T. Haveliwala and S. Kamvar, The Second Eigenvalue of the Google Matrix. A Stanford University Technical Report http://dbpubs.stanford.edu:8090/pub/2003-20 [Ka] Jerry Kazdan, Solving Equations, An elegant Legacy. American Math. Monthly, 105 (1998), 1-21. Versión expandida en http://www.math.upenn.edu/˜kazdan [Ke] M. Kendall, Further contributions to the theory of paiRed comparisons. Biometrics 11 (1955), 43-62. [La] Pierre Lazuly, El mundo según Google. Le Monde diplomatique/el Dipló/, edición cono sur, Octubre 2003, 36-37. [MC] C.R. MacCluer, The many proofs and applications of Perron’s Theorem, SIAM Review 42 (2000), 487-498. [Mo] Cleve Moler, The World’s Largest Matrix Computation. Matlab News and notes, Cleve’s corner. http://www.mathworks.com/company/newsletter/clevescorner/ [Pe] Motores de consulta. http://librosdigitales.net/eureka/eureka0903/motores.htm [Re] S. Resnick, Adventures in Stochastic Processes, Birkhauser, 1992. [Se] E. Seneta, Non-negative Matrices and Markov Chains. 2md. Edition. Springer, 1981. [We] T. Wei, The algebraic foundations of ranking theory. Cambridge University, England (1952). Tésis no publicada. [Wi] Herbert Wilf, Searching the http://www.math.upenn.edu/˜wilf/ Roberto Markarian & Nelson Möller IMERL - Facultad de Ingenieria Universidad de la República - URUGUAY web with eigenvectors. Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 253 INFORMACIÓN INTERNACIONAL La Esquina Olı́mpica Rafael Sánchez Lamoneda En esta oportunidad reseñaremos la actividad olı́mpica del segundo semestre de 2004. Como ya es tradición participamos en la 45 Olimpiada Internacional de Matemáticas, IMO, celebrada en Atenas, Grecia, del 6 al 18 de Julio y la XIX Olimpiada Iberoamericana de Matemáticas, OIM, celebrada en Castellón, España, del 18 al 26 de Septiembre. Además recibimos los resultados de la Olimpiada Bolivariana de Matemáticas. En todas estas competencias ganamos premios, mostrando que vamos por buen camino y que nuestros estudiantes alcanzan niveles de competencia adecuados, cuando se trabaja fuerte con ellos. Antes de enumerar los premios y los ganadores, quiero aprovechar la oportunidad para reconocer el trabajo desinteresado que llevan adelante Adolfo Rodrı́guez, Héctor Chang, David Segui y Tomás Kabbabe, jóvenes exolı́mpicos, que ahora estudian matemáticas o carreras afines y que comparten sus actividades con la labor de entrenamiento de los estudiantes que conforman nuestras delegaciones. A continuación se listan las delegaciones y premios obtenidos en la segunda mitad del año. 45a IMO Leonardo Urbina. Mención Honorı́fica. Rodrigo Ipince Tomás Kabbabe. Tutor de delegación.USB. Rafael Sánchez. Jefe de delegación. UCV. XIX OIM Maximiliano Liprandi. Medalla de Bronce. Rodrigo Ipince. Mención Honorı́fica. Roland Hablutzel. Mención Honorı́fica. Andrés Guzmán. Mención Honorı́fica. David Segui. Tutor de la delegación. USB. Henry Martı́nez. Jefe de la delegación. UPEL-IPC. 254 R. Sánchez Mención aparte haremos de la Olimpiada Bolivariana de Matemáticas. Este evento lo organiza la Universidad Antonio Nariño de Colombia y participan por correspondencia los paı́ses andinos y Panamá. Hay dos niveles de competencia, los cuales tienen que ver con la escolaridad de los concursantes, nivel intermedio y nivel superior . Los resultados obtenidos este año son bastante buenos. En el nivel intermedio el joven Andrés Guzmán ganó medalla de oro y en el nivel superior Leonardo Urbina obtuvo medalla de oro y Tamara Mendt y Carlos Molina ganaron medallas de bronce. Una información completa sobre este evento y los otros que hemos reseñado, la pueden encontrar visitando nuestra página web, http://ares.unimet.edu.ve/matematica/acm . Sin más preámbulos los dejo con los problemas de la 45a IMO. 45a Olimpiada Internacional de Matemáticas Primer dı́a Lunes 12 de julio de 2004 Problema 1. Sea ABC un triángulo acutángulo con AB 6= AC. La circunferencia de diámetro BC corta a los lados AB y AC en M y N , respectivamente. Sea O el punto medio del lado BC. Las bisectrices de los ángulos ∠BAC y ∠M ON se cortan en R. Demostrar que las circunferencias circunscritas de los triángulos BM R y CN R tienen un punto en común que pertenece al lado BC. Problema 2. Encontrar todos los polinomios P (x) con coeficientes reales que satisfacen la igualdad P (a − b) + P (b − c) + P (c − a) = 2 P (a + b + c) para todos los números reales a, b, c tales que ab + bc + ca = 0. Problema 3. Un gancho es una figura formada por seis cuadrados unitarios como se muestra en el diagrama o cualquiera de las figuras que se obtienen de ésta rotándola y/o reflejándola. Determinar todos los rectángulos m × n que pueden cubrirse con ganchos de modo que • el rectángulo se cubre sin huecos y sin superposiciones; La Esquina Olı́mpica 255 • ninguna parte de ningún gancho sobresale del rectángulo. Duración del examen: 4 horas 30 minutos. Cada problema vale 7 puntos. 45a Olimpiada Internacional de Matemáticas Segundo dı́a Martes 13 de julio de 2004 Problema 4. Sea n ≥ 3 un entero. Sean t1 , t2 , . . . , tn números reales positivos tales que 1 1 1 2 n + 1 > (t1 + t2 + · · · + tn ) + + ··· + . t1 t2 tn Demostrar que ti , tj , tk son las medidas de los lados de un triángulo para todos los i, j, k con 1 ≤ i < j < k ≤ n. Problema 5. En un cuadrilátero convexo ABCD la diagonal BD no es la bisectriz ni del ángulo ∠ABC ni del ángulo ∠CDA. Un punto P en el interior de ABCD verifica ∠P BC = ∠DBA y ∠P DC = ∠BDA. Demostrar que los vértices del cuadrilátero ABCD pertenecen a una misma circunferencia si y sólo si AP = CP . Problema 6. Un entero positivo es alternante si, en su representación decimal, en toda pareja de dı́gitos consecutivos uno es par y el otro es impar. Encontrar todos los enteros positivos n tales que n tiene un múltiplo que es alternante. Duración del examen: 4 horas 30 minutos. Cada problema vale 7 puntos. Escuela de Matemáticas Universidad Central de Venezuela, Venezuela rsanchez@euler.ciens.ucv.ve Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 257 LIBROS Guillermo Martı́nez, Los Crı́menes de Oxford Editorial Destino, Barcelona, Collección Ancora y Delfı́n Volumen 992, 2004 Reseñado por Carlos Augusto Di Prisco El último teorema de Fermat y el anuncio de su demostración por Andrew Wiles, el teorema de incompletitud de Gödel y sus implicaciones filosóficas, la doctrina pitagórica y su representación mı́stica de los números, todos estos hitos de la historia de las matemáticas, antigua y reciente, aparecen en esta obra de Guillermo Martı́nez ligados a una serie de misteriosos crı́menes y a una relación amorosa para ofrecer al lector una novela enmarcada en la tradición de la novela negra inglesa. En este ámbito nuestro autor elabora un juego en el que se combinan las actividades casi rituales de la vida académica y la rica complejidad de las relaciones humanas. En Guillermo Martı́nez se conjugan dos vidas, la del matemático y la del escritor. Nació en Bahı́a Blanca, Argentina en 1962. Doctor en matemáticas, docente e investigador en la Facultad de Ciencias exactas de la Universidad de Buenos Aires, se ha destacado como nueva figura literaria en Argentina y ahora a nivel mundial. Los Crı́menes de Oxford, su tercera novela publicada, recibió el premio Planeta Argentina 2003. En 1989 publicó la colección de cuentos, Infierno grande, que contiene piezas de gran valor, algunas de las cuales dejan en el lector una satisfacción no desprovista de angustia por los desenlaces de las situaciones narradas; otras, deleitarán a todo aquel que se haya enfrentado alguna vez a ochenta estudiantes principiantes sin más instrumentos de defensa que una barra de tiza y una pizarra. Guillermo Martı́nez ha publicado también una serie de trabajos matemáticos en revistas de gran prestigio cientı́fico tales como Algebra Universalis, Studia logica, Order, y Annals of Pure and Applied Logic. No es la primera vez que se da una afortunada combinación de matemáticas y literatura en un autor. Bertrand Russell, cuyo trabajo matemático de principios del siglo veinte tuvo una gran importancia para el desarrollo de los fundamentos de las matemáticas, recibió el Premio Nobel de literatura; y el autor de Alicia en el paı́s de las maravillas , Lewis Carroll, era también especialista en lógica matemática. Un joven matemático argentino llega a Oxford con una beca para estudiar durante un año bajo la guı́a de una destacada profesora. A los pocos dı́as de su llegada, la propietaria de la casa donde ha alquilado una habitación aparece asesinada, y ası́, sin quererlo, se encuentra en el centro de una investigación policial que debe ir descifrando las señales cargadas de contenido matemático 258 libros : G. Martı́nez, Los Crı́menes de Oxford que a manera de reto intelectual deja el supuesto criminal, aparentemente para medir fuerzas con uno de los matemáticos más famosos de la época, Arthur Seldom, quien años antes habı́a publicado un libro sobre series en el que incluye, justamente, una sección sobre crı́menes en serie. Ya no de forma tan azarosa se envuelve también este joven en una relación amorosa que lo sumerge aún más en la intriga. El estudiante, quien es el narrador de la historia, observa cuidadosamente su alrededor y describe modales y carcterı́sticas inglesas con fino humor. De los ingleses y su cuidadoso ahorro de gestos dice: “aún en esa risa espontánea habı́a algo contenido, como si se tomaran una libertad infrecuente de la que no debı́an abusar...”. Martı́nez reconoce, en una entrevista reciente, una cierta coincidencia “entre su mirada y la del protagonista de su novela”; de hecho, algunos pasajes parecieran tener un revelador carácter autobiográfico: “¿Porqué se hizo Ud. matemático?- me preguntó sorpresivamente. -No sédije- quizás fue una equivocación, siempre creı́ que iba a seguir una carrera humanı́stica. Supongo que lo que me atrajo de las matemáticas es la clase de verdad que encierran los teoremas: atemporal, inmortal, suficiente en si misma, y a la vez absolutamente democrática.” Esta novela fue publicada en Argentina en 2003 con el tı́tulo Crı́menes imperceptibles , a mi manera de ver, más apropiado que el tı́tulo adoptado para la edición española de 2004. Durante la búsqueda de pistas que orienten la invesigación hacia el culpable, el joven argentino y el profesor Arthur Seldom, conocido por sus estudios sobre las implicaciones del teorema de Gödel, llegan a la conclusión de que el autor de los asesinatos desea precisamente que sus actos sean imperceptibles, crı́menes perfectos que no dejen huellas, que no causen daño ni sufrimiento innecesario, buscando sus vı́ctimas entre personas cuyas expectativa de vida ya ha sido sobrepasada. El crimen perfecto no es aquel que permanece sin solución, sino el que “se resuelve con un culpable equivocado”. En palabras del autor, se trata en este caso de crı́menes casi abstractos. Quizás el verdadero protagonista de la novela es el profesor Seldom quien se convierte en la figura clave para descifrar los mensajes que anuncian las muertes. Este personaje hace reflexiones profundas, y nos hace intuir una compleja personalidad de la que quedamos con ganas de saber mucho más. “Hay una diferencia entre la verdad y la parte de la verdad que puede demostrarse, ése es en realidad un corolario de Tarski sobre el teorema de Gödeldijo Seldom-. Por supuesto, los jueces, los forenses, los arqueólogos, sabı́an esto mucho antes que los matemáticos. Pensemos en cualquier crimen con sólo dos posibles sospechosos. Cualquiera de ellos abe toda la verdad que interesa: yo fui o yo no fui. Pero la justicia no puede acceder directamente a esa verdad, y tiene que recorrer un penoso camino indirecto para reunir pruebas: interrogatorios, coartadas, huellas digitales... Demasiadas veces las evidencias que se encuentran no alcanzan para probar la culpabilidad de uno ni la inocencia del otro. En el fondo, lo que demostró Gödel en 1930 con su teorema de incompletitud libros : G. Martı́nez, Los Crı́menes de Oxford 259 es que exactamente lo mismo ocurre en la matemática... ” “...el método axiomático puede ser a veces tan insuficiente como los criterios precarios de aproximación de la justicia...” Esta bien lograda novela corta, de poco más de doscientas páginas, capta desde la primera lı́nea la atención del lector, y lo mantiene en suspenso hasta el inesperado desenlace final. Guillermo Martı́nez demuestra una vez más su calidad de escritor. Su primera novela, Acerca de Roderer, fue publicada en 1996, y recibió comentarios elogiosos de la crı́tica. Posteriormente publicó La mujer del maestro (1998), y un libro de ensayos titulado Borges y la matemática (2003). Carlos Augusto Di Prisco Instituto Venezolano de Investigaciones Cientı́ficas Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 261 EDITORIAL Quince años de la Asociación Matemática Venezolana En mayo de 1989 se realizó en la Universidad de Oriente, Cumaná, una reunión para promover la creación de la Asociación Matemática Venezolana. Unos sesenta matemáticos estuvieron presentes, y acordaron establecer una asociación sin fines de lucro y de carácter cientı́fico con el objetivo de contribuir al desarrollo de la matemática en Venezuela. El 10 de enero de 1990 se registró el acta constitutiva de la Asociación Matemática Venezolana para formalizar su existencia y para darle personalidad jurı́dica. La Asociación se inició con base en algunas actividades que la comunidad matemática venı́a desarrollando en Venezuela desde un poco antes: la Escuela Venezolana de Matemáticas y las Jornadas Venezolanas de Matemáticas. Desde entonces las actividades de la AMV se han consolidado y diversificado. Hoy en dı́a, además de las Jornadas y la Escuela, la Asociación promueve la realización de los talleres de formación matemática TForMa, y publica un boletı́n con dos números por año. Las Jornadas Venezolanas de Matemáticas se realizan anualmente como encuentro de los matemáticos venezolanos y son el foro natural para la presentación de resultados de investigación de los distintos grupos que mantienen su actividad en las universidades e institutos nacionales. Las jornadas se organizan en torno a sesiones temáticas de presentación de trabajos, e incluyen algunas conferencias plenarias. En marzo de 2005 se realizarán las décimo octavas jornadas en la Universidad Central de Venezuela. La Escuela Venezolana de Matemáticas se realiza anualmente también desde hace dieciocho años. Su sede permanente es la Facultad de Ciencias de la Univesidad de Los Andes. En cada oportunidad, la Escuela ofrece varios cursos intensivos, generalmente cuatro, de nivel de postgrado, con el objetivo principal de ofrecer a los estudiantes que se inician en el cuarto nivel de estudios de matemáticas una perspectiva amplia de los temas que se desarrollan en el paı́s. Se pretende que en cada curso se llegue a plantear problemas o direcciones de investigación que puedan servir como punto de partida para la realización de tesis y trabajos de grado. Se pide al profesor de cada curso que escriba unas notas de una cien páginas que sirvan de bibliografı́a básica para el curso y de material de estudio que el interesado pueda utilizar posteriormente. Se cuenta ya con una colección de más de ochenta tı́tulos en diversas áreas de las matemáticas escritos para estas escuelas, lo que constituye una fuente bibliográfica valiosa que está al alcance de cualquier estudioso que desee profundizar conocimientos. Los Talleres de Formación Matemática TForMa tienen la finalidad de darle a los estudiantes de las licenciaturas de matemáticas una oportunidad de recibir información cientı́fica complementaria a los cursos que usualmente se dictan 262 Editorial : Quince años de la AMV en los programas de licenciatura y a la vez sirven de lugar de encuentro de estudiantes de distintas universidades. Estos talleres se iniciaron en 2000 y se han realizado en distintas instituciones de educación superior. Para los cursos de los talleres también se elaboran textos de apoyo. El Boletı́n de la Asociación se publica de manera continua desde su primer número aparecido en 1994. Inicialmente su contenido fue más de carácter informativo y de divulgación cientı́fica especializada, pero recientemente se han comenzado a publicar en el Boletı́n artı́culos de investigación con resultados originales. Además, el Boletı́n incluye secciones de información matemática nacional e internacional, temas de matemáticas recreativas, y una sección llamada La Esquina Olı́mpica que contiene información sobre competencias matemáticas y los problemas que allı́ se plantean. La Asociación ha dado su apoyo también al proyecto de olimpı́adas matemáticas, tanto a nivel nacional como internacional, y en la actualidad se están estableciendo los mecanismos para que todos los capı́tulos de la Asociación participen activamente en este programa. Alguna información adicional sobre la AMV y sus actividades se puede obtener en http://amv.ivic.ve Carlos A. Di Prisco Presidente de la AMV Boletı́n de la Asociación Matemática Venezolana, Vol. XI, No. 2 (2004) 263 AGRADECIMIENTO Agradecemos la colaboración prestada por las siguientes personas en el trabajo editorial del volúmen XI del Boletı́n de la AMV: Isaı́as Alonso Mallo, Julio César Alvarez, Diómedes Bárcenas, Pedro Berrizbeitia, Antonio Campillo, Carlos Di Prisco, Vicenç Font, José Giménez, Luis Gómez Sánchez, Henryk Gzyl, John Neuberger, Neptalı́ Romero, Jesús Tapia y Juan Tena

Vol. XI • No. 2 • A˜ no 2004 1

Products

Support

Vol. XI • No. 2 • A˜ no 2004 1

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib