Prefacio VII
3. Topología de Rn . 53
3.1. Subconjuntos de Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2. Propiedades de la topología de Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3. El teorema de Borel-Lebesgue. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4. Compacidad en Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.5. El teorema de Bolzano-Weierstrass. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.6. Generalización a un espacio vectorial real. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.6.1. Prueba de los teoremas especiales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
I
Índice general
3.7. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4. Curvas en Rn . 81
4.1. Definiciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.1.1. Curvas equivalentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.2. Límites. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3. Continuidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.4. Diferenciación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.4.1. Teoremas sobre derivadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.4.2. Tangentes, Velocidad y Rapidez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.5. Longitud de Arco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.6. Cálculo de longitud de arco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.6.1. Integral de Riemann. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.6.2. El teorema del valor medio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.6.3. Fórmula para la longitud de arco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.7. Parametrización por longitud de arco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.7.1. Propiedades de la función de longitud de arco. . . . . . . . . . . . . . . . . . . . . . . . 104
4.8. Conexidad en Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.9. Generalización a un espacio vectorial real. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.10. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
II
Índice general
III
Índice general
IV
Índice general
V
Índice general
VI
• Prefacio
El cálculo de varias variables, también llamado cálculo vectorial, es una herramienta fundamental en
las ciencias. Es destacable que el cálculo aparece en diversas ramas del conocimiento, no es simplemente
una curiosidad técnica. Por ejemplo, en la física se le puede encontrar al estudiar el comportamiento de
partículas; en la economía, al estudiar los óptimos del bienestar; en la estadística, al estudiar la máxima
verosimilitud, etcétera. Ocasionalmente se podrá mencionar algunas de estas aplicaciones, aunque cabe
la advertencia de que no se hará énfasis especial en estos temas.
A lo largo del texto se buscó generalizar lo que se entiende como «Cálculo diferencial e integral
en R»; esto es, se trató de dar una generalización natural de las nociones clásicas del cálculo a varias
variables. Se pensó en dar todas las definiciones de tal forma que vinieran motivadas directamente
de propiedades geométricas, el lector decidirá si se consiguió el objetivo. Particularmente, se puso
énfasis especial en la noción de diferenciación para funciones de V a W ; funciones entre dos espacios
vectoriales de dimensión finita. Otros temas clásicos que se definen rigurosamente son las formas
cuadráticas y las funciones de incrementos. También se desarrolla con cuidado y detalle lo que se
entiende como teoría de optimización.
Se espera que las definiciones, teoremas y ejemplos presentadas a lo largo del texto tengan un
caracter geométrico, más que analítco. Sin embargo, no es esta razón para creer que en tales casos
las demostraciones pertinentes se harán sin la rigurosidad de un análisis matemático adecuado. Lo
que se trató de hacer fue resaltar el aspecto geométrico de los resultados y dar una demostración
analítica completa y formal, basándose únicamente en lo que ya se demostró en el texto (salvo contadas
excepciones).
Antes de comenzar a exponer de qué trata cada capítulo quisiera hacer algunos comentario perso-
nales al lector, quien podría mostrarse escéptico en la presentación de este texto pues, ciertamente, el
nivel del mismo podría no ser el más adecuado para un primer curso de cálculo vectorial. El texto fue
diseñado para dar una construcción teórica de todo el material que fue impartido en diversos cursos
de cálculo vectorial, tanto diferencial como integral, en el cual participé como ayudante1 ; esto fue unas
7 veces.
1. Se supone que este será el primer libro de cálculo vectorial que leería el lector. Por esto, las
pruebas a veces son demasiado detalladas para quien esté muy familiarizado con el material. Sin
embargo, los contenidos del texto son tan amplios que perfectamente pueden ser utilizado para
un curso de cálculo avanzado en posgrado.
2. Cada capítulo trata de cubrir todo el material que se podría dar del tema a este nivel. Los ejercicios
a veces especializan los resultados o dan pruebas adicionales más elementales para casos más
particulares. Son pocos los ejercicios que se plantean de tipo mecánico; esto es, ejercicios en los
que solo hace falta memorizar un algoritmo para resolverlo. Se hace énfasis en ejercicios más
teóricos.
1 Un término empleado muy común en inglés es Teaching Assistant
VII
Prefacio
3. Las pruebas están detallas pues están escritas pensando en que el lector no ha llevado ningún
curso de análisis; sin embargo, la experiencia ha mostrado que haber llevado uno o dos cursos
de análisis facilita, mas no trivializa, las pruebas. Obviamente esto conlleva consigo un problema
en la extensión de los capítulos. A modo de tratar de equilibrar tanta tecnicidad en las pruebas,
he intentado exponer algunas motivaciones geométricas de las mismas.
4. Aquí presento una construcción teórica de la mayoría de las dudas que surgieron durante los
años que participé como ayudante. Cabe destacar que originalmente el material iba a ser comple-
tamente desarrollado en Rn sin entrar a espacios métricos ni normados. Pero cuando se quería
desarrollar la derivación superior, no se podían dar las definiciones y demostraciones teóricas
pues las derivadas superiores dejan de poseer contradominio del tipo Rn y sus contradominios
empiezan a devenir más grandes; esto siempre causaba dudas difíciles de contestar.
El último punto es particularmente importante pues yo mismo me mostraba reacio a dar una cons-
trucción más general del cálculo diferencial. Finalmente, conforme la experiencia que iba tomando
creció, decidí dejar mi paradigma de que el cálculo se realiza entre dos espacios Rn y mostrar que
se puede dar más general sin perder la intuición geométrica original; decidí dar una solución a todas
las dudas que recibí. No pude encontrar otra solución a este problema salvo extendender aún más los
capítulos iniciales e introductorios, aumentar los resultados técnicos y emplear más métodos y técnicas
de análisis de las que la mayoría de los profesores consideraron necesarias. Sin embargo, el beneficio
es inmediato. Al dar toda la teoría para funciones entre dos espacios normados de dimensión finita
esencialmente no se aleja de la idea original de Rn y ya es posible construir con toda formalidad las
derivadas de orden superior. La mayoría de los estudiantes que leyeron este material mostraban incon-
formidad en la cantidad de resultados mas nunca en la presentación de los mismos. Finalmente, doy
algunas recomendaciones y consideraciones personales para la lectura de texto.
1. El lector debe tener conocimientos de álgebra lineal, en especial en el uso intensivo de vectores,
matrices, normas y productos escalares. También es deseable que el lector ya haya llevado un
curso de álgebra lineal de espacios vectoriales en general; esto es, que haya estudiado propiedades
de espacios vectoriales arbitrarios. De hecho, aquí se busca introducir al lector a la noción del
álgebra lineal «libre de coordenadas».
2. Considero que este material no puede ser llevado en un curso de un semestre pero se puede tomar
como referencia de cualquier curso. Sería extraño que se presente algún material del cálculo que
no esté desarrollado aquí.
3. Si se desea basar un curso en él, siempre puede tomarse el material que se considere indispensable
y dejar para los estudiantes las lecturas de las pruebas. El profesor del curso puede comprobar
él mismo que estas pruebas están suficientemente detalladas como para que cualquiera pueda
leerlas sin necesidad de tener que hacer muchas anotaciones.
A continuación se exponen los principales temas que se trataron en cada capítulo del texto.
En el capítulo 1 se introducen o mencionan los mínimos requerimientos que el lector debe tener para
poder iniciar a leer este texto. Para empezar, se menciona al álgebra lineal y a la geometría analítica de
Rn ; toda la materia se desarrolla como una generalización de estas dos ramas. Dado que el cálculo de
varias variables estudia el comportamiento de funciones no lineales, es importantísimo tener un buen
entendimiento de las funciones cuyo comportamiento es lineal. Aquí se presentan las definiciones que
dan la estructura de espacio vectorial a Rn y se demuestran algunos teoremas básicos, clásicos y útiles
del álgebra lineal. Destaca, por su embergadura y su sencillez, el teorema de la dimensión (1.2.25).
En el capítulo 2 se presenta una de las definiciones más importantes en matemáticas: el concepto
de función. Se parte desde la visión de teoría de conjuntos de lo que es una función y se demuestran
algunas propiedades. También aquí es donde se define el concepto angular en el análisis de «familia de
VIII
Prefacio
elementos» (ve (2.2.1)) el cual se utiliza cuando se habla de orden en los conjuntos (por ejemplo, de una
«base ordenada» en un espacio vectorial). Al término de este capítulo, aparece la noción de sucesión
y con esta, la de serie. Se dan las propiedades principales, haciéndo énfasis en el caso Rn y dejando
como ejercicio las propiedades básicas del caso real, las cuales se suponen conocidas por el lector.
En el capítulo 3 se estudia el comportamiento de los subconjuntos de Rn . Aquí es donde se define
lo que es un conjunto abierto y se demuestran sus propiedades principales; esto es, que conforman
una topología. Cabe destacar que muchas de las demostraciones aquí presentadas se pueden genera-
lizar a espacios métricos arbitrarios e incluso a espacios topológicos. La topología ayuda a demostrar
varias propiedades generales e importantes sobre funciones. Por ejemplo, el estudio de máximos y
mínimos de funciones utiliza propiedades que no dependen de la estructura métrica del dominio sino
de su estructura topológica. También se definen lo que se conocen como conjuntos compactos, usando
la definición de cubierta abierta (ve (3.3.2))2 . Se demuestran algunos teoremas importantes, como el
teorema de Bolzano-Weierstrass (3.5.3) y el teorema de Borel-Lebesgue (3.3.5). Finalmente, el capítulo
concluye con una generalización a espacios vectoriales normados de dimensión finita.
En el capítulo 4 se estudia uno de los temas más clásicos de la geometría diferencial, las curvas. Aquí
se estudian las propiedades básicas: límites, continuidad, diferenciabilidad, velocidad, rapidez y longitud
de arco. Temas más selectos del área de geometría diferencial, tal como curvatura, torsión, tríada de
Frènet, etcétera, se mencionan únicamente en los ejercicios y a veces solo se hace referencia a estos
temas sin mencionar que se trata de ellos. En este capítulo el lector observará que la mayoría de las
propiedades de curvas se reduce a estudiar las propiedades de funciones de R a R. Al igual que en el
capítulo 3, al final se presentan las generalizaciones pertinentes para un espacio vectorial de dimensión
finita.
En el capítulo 5 se empieza el estudio directamente de funciones entre dos espacios vectoriales de
dimensión finita. Se estudia a la derivada de funciones f : A ⊂ V → W ; este capítulo es el núcleo central
de este texto. También, se estudian el graficado de funciones mencionando dos de las técnicas más
útiles, las curvas de nivel y las secciones. Asimismo, se estudian los campos vectoriales y se demuestra
que las únicas isometrías (funciones que preservan las distancias) son aquellas que, salvo una traslación
por el origen, se comportan como rotaciones y reflexiones, las transformaciones ortogonales. Luego, se
estudian límites y se hace mención de la diferencia fundamental con el caso básico de R, las direcciones
múltiples. Se presentan varios ejemplos para familiarizar al lector con el estudio de límites, para que
estos no presenten un problema en su futuro académico. Luego, se definen las funciones polinomiales,
haciéndo énfasis en que no es lo mismo un polinomio que una función polinomial, pero que existe un
isomorfismo entre los espacios vectoriales asociados. Más adelante, se habla sobre continuidad, lo cual
se facilita debido al estudio de los límites y entonces se presentan algunos teoremas bastante fuertes
respecto a continuidad y propiedades topológicas del dominio. El capítulo continúa con el estudio de
la derivada para funciones de varias variables. Aquí es donde se dedica una sección completa a su
motivación, buscando siempre dejar claro que la ídea de la derivada es la de aproximación lineal.
En esta sección es donde se introduce la idea de que el cálculo en varias variables no debe hacerse
restringido a Rn sino que debe desarrollarse en V , un espacio vectorial real de dimensión finita. Se da
una motivación teórica del porqué esto no afecta la noción de derivación y entonces se concluye que no
importa si un espacio vectorial V se piensa como el espacio vectorial o como el espacio de coordanas.
Después de dar la definición de derivada, se estudian su teoría básica; esto es, las relgas de derivación,
demostrando con ello la regla más importante del cálculo diferencial, la regla de la cadena (5.7.3). Se
continúa con una sección de ejemplos, esto con el fin de que el lector se vuelva diestro al trabajar con la
derivada. Aquí se incluyeron ejemplos de calcular derivadas para funciones entre espacios vectoriales,
2 Es destacable que algunos autores definen, para el caso Rn , que un conjunto compacto es un conjunto cerrado y acotado. Si
bien, el teorema de Borel-Lebesgue afirma que tal hecho es cierto, no se procedió de este modo pues la experiencia muestra
que cuando se empieza con el estudio de espacios más abstractos, resulta confuso y difícil olvidar que no todos los cerrados y
acotados son conjuntos compactos.
IX
Prefacio
no necesariamente del tipo Rn . Más adelante se trabaja con la noción geométrica asociada con la
derivada, la cual es, como ya se mencionó, la de aproximación lineal. Entonces, se encuentra la ecuación
del plano tangente a funciones. La penúltima sección de este capítulo es dedicada a un tema importante,
sobre todo para la teoría de superficies. Esta es, la noción de derivada de la función inversa. Se da una
condición suficiente para que la derivada de la función inversa pueda y tenga que existir. Finalmente, el
capítulo concluye con lo que podría ser considerado el teorema más importante del análisis, el teorema
del valor medio (5.11.2).
En el capítulo 6 se presenta la noción de derivadas parciales en Rn y en el caso general de un
espacio producto V1 × V2 ; en esta sección se presentan varios ejemplos, destacando (6.3.9), que es donde
se menciona por primera vez la técnica de transportación. Esta técnica es muy útil y bella, pues permite
reducir el problem de derivar entre dos espacios vectoriales arbitrarios al de derivar entre dos espacios
de tipo Rn y da una fórmula que conecta las derivadas de una manera sencilla e intuitiva. También se
hace mención de que esta presentación más general de derivación parcial permite que la teoría de
funciones implícitas sea más sencillamente resuelta. También se desarrolla el concepto de derivada
como función, motivando otra vez el uso de espacios vectoriales en la definición de derivada (5.6.5). En
este capítulo se le advierte al lector que empezar definiendo derivación a partir de la noción de derivadas
parciales tiene la consecuencia de que se piensa que una función es diferenciable si existen las parciales,
hecho que, por experiencia reiterada, es difícil de eliminar una vez que se cree cierto. Después de definir
las derivadas parciales de primer orden se definen las de orden superior. Continúa una sección con
varios ejemplos, los cuales poseen la única intención de demoler las esperanzas del lector en creer
que las derivadas parciales pueden usarse para definir derivada. Después de estos ejemplos se muestra
el teorema de Schwarz (6.6.1). El capítulo concluye con muchos ejemplos completamente resueltos y
ejercicios propuestos.
En el capítulo 7 se presentan varias nociones. Primeramente se busca definir a las derivadas de orden
superior. Entonces, se empieza definiendo la segunda derivada y para esto se parte desde un punto de
vista geométrico. Se definen entonces las formas cuadráticas y se da un estudio elaborado de estas;
este incluye su clasificación, el número de clases, la forma geométrica que poseen, su factorización a
forma diagonal, etcétera. Destaca el teorema de la Ley de incercia Sylvester (7.2.1) y particularmente su
prueba, la cual construye un algoritmo el cual permite factorizar cualquier forma cuadrática y llevarla
a disposición diagonal. Después de estudiar a las formas cuadráticas se define a la segunda derivada.
Aquí se presenta un teorema central en la teoría de derivación superior, el teorema de identificación
(7.3.1), el cual da un isomorfismo canónico entre el espacio de transformaciones lineales anidadas con
el espacio de formas multilineales. Una vez demostrado este teorema se define a la segunda derivada,
tanto puntualmente como función. Luego, se prueban propiedades de esta, dentro de las cuales está
que para funciones de clase C2 la derivada y la forma cuadrática asociada son equivalentes. El capítulo
continúa con derivadas superiores y sus propiedades más útiles. Luego, se define el teorema de Taylor
en R y se generaliza a Rn . Aquí se puede usar la técnica de trasportación para definir el teorema de
Taylor en espacios más generales. Sin embargo, no se procede así pues la técnica de transportación
depende íntimamente de elección de bases, lo cual va contrario a la idea de libre de coordenadas que
se utiliza a lo largo del texto. Por lo tanto, se generaliza la noción de forma cuadrática a la de forma
p-ésima entre espacios vectoriales y más generalmente a la de función polinomial homogénea y no
homogénea entre espacios vectoriales, también resulta necesario definir las funciones de incrementos,
mostrando (7.7.12), que se utiliza en teoría de la integración. Con estas definiciones se prueba el teorema
fundamental de polinomios (7.7.15). El capítulo continúa con el estudio de las tangencias de p-ésimo
orden. Se demuestra que el polinomio de Taylor ya definido a este punto satisface una tangencia de
orden p-ésimo siempre que la función sea de clase Cp+1 . Luego, se generaliza y fortalece el teorema
de Taylor a espacios vectoriales. Finalmente, el capítulo concluye con la teoría de desarrollos limitados
y una lista de ejercicios para el lector.
En el último capítulo (el 8) de la primera parte del texto se estudia lo que se entiende como opti-
X
Prefacio
mización. La optimización se divide entonces en dos etapas: libre y restringida. Se empieza estudiando
la optimización libre, dando condiciones necesarias de primer y segundo orden para un óptimo en el
interior. También se da una condición suficiente de segundo orden. Para esto se definen a las formas
cuadráticas no generadas y se demuestra el Lema de Schwarz (8.1.18). Después del desarrollo de las
condiciones necesarias y suficientes para óptimos se desarrolla teoría sobre funciones convexas. Las
funciones convexas son ampliamente utilizadas en economía, aunque no se hace mención de esto en
el texto. También, las fucniones convexas transforman las condiciones necesarias de primer orden en
condiciones suficientes. Se muestra que las funciones convexas son muy regulares y se hacen varias
caracterizaciones de estas. Luego, se dan ejemplos de funciones convexas tanto para R como Rn . El
capítulo continúa con una sección dedicada a varios ejemplos de optimización. Estos ejemplos están
completamente resueltos y están escritos justificando todos los detalles teóricos de la existencia y opti-
malidad de los puntos encontrados; esto es particularmente importante pues no aparece en otros textos.
Después de concluir los ejemplos de optimización libre se aborda el problema de optimización restrin-
gida, motivando con esto el deseo de querer “despejar la variable Y en función de la variable X de la
ecuación F(X, Y ) = 0”. Así, se contruye una demostración del teorema de la función implícita, pasando
por homeomorfismos, difeomorfismos, diferenciablidad fuerte, el método de aproximaciones sucesivas
y el teorema de la función inversa. Se prueba entonces una versión del teorema de la función implícita
(8.4.20). Esta versión es diferente a aquellas presentadas usualmente, pero la experiencia mostró que
la versión aquí presentada es más fácilmente memorizable y es más intuitiva que aquellas presentadas
en [22] o en [7]. El capítulo concluye con ejemplos de optimización restringida, todos ellos clásicos: la
desigualdad de la media geométrica y aritmética, la de Hölder y la de Minkowski; y condiciones sufi-
cientes de segundo orden para la existencia de un óptimo en la restricción. También se destaca que en
los ejercicios hay una demostración sencilla del método de multiplicadores de Lagrange para el caso
de espacios del tipo Rn .
XI
Prefacio
XII
Parte I
1
Capítulo 1
El contenido de este capítulo puede ser omitido si el lector considera que ya entiende y domina lo
referente al álgebra linea y la geometría analítica.
§ 1.1. El espacio Rn .
Al igual que cuando se empieza a trabajar en R, es necesario definir las operaciones para trabajar
en Rn ; esto es, las operaciones que dan a Rn la estructura de espacio vectorial.
( 1.1.1 ) Sea R el conjunto de los números reales. Entonces
En particular,
Rn+m = R
| × ·{z
· · × R} × R
| × ·{z
· · × R} .
n veces m veces
n
De este modo R se vuelve el conjunto de todas las n-adas de números reales. A estas n-adas de
números se les llamará vectores. Se puede definir una suma y un producto por escalar en Rn , esto
con el fin de poder dotar a Rn de la estructura de espacio vectorial sobre R.
( 1.1.2 ) Dados λ ∈ R, X = (x1 , . . . , xn ) y Y = (y1 , . . . , yn ) en Rn se define su suma como
X + Y = (x1 + y1 , . . . , xn + yn )
+ : Rn × Rn → Rn y · : R × Rn → Rn .
Por notación habitual, tal como se hizo arriba, en lugar de escribir +(X, Y ) se escribe X +Y y cuando
se aplica el producto λ · X solo se escribe λX. Es fácil verificar que, con esta suma y este producto por
escalar, el conjunto Rn se convierte en un espacio vectorial real1 .
1 Ve la definición (1.2.1) para más detalles.
3
Capítulo 1. Álgebra lineal y geometría analítica.
En muchas ocasiones se tendrá que expresar a los vectores en términos de sus coordenadas. Por
ejemplo si X ∈ R3 entonces se escribirá X = (x, y, z) y diremos que esta es la expresión de X en términos
de sus «coordenadas cartesianas». En general, para X ∈ Rn se escribirá X = (x1 , . . . , xn ). Por facilidad
de notación se hace la siguiente convención, si X ∈ Rn y Y ∈ Rm están dados por X = (x1 , . . . , xn ) y
Y = (y1 , . . . , ym ) entonces (X, Y ) ∈ Rn+m está dado por (X, Y ) = (x1 , . . . , xn , y1 , . . . , ym ).
Si queda definida la distancia en Rn de este modo entonces habrá surgido inmediatamente una ventaja:
la preservación del teorema de Pitágoras en todas las dimensiones.
( 1.1.3 ) Sean X = (x1 , . . . , xn ) y Y = (y1 , . . . , yn ) cualesquier vectores en Rn . Se define la «distancia euclidiana»
entre ellos como el número positivo Ã
Xn
d(X, Y ) = (xk − yk )2 .
k=1
d(X, Y ) = 0 Ñ d(X, Y )2 = 0,
n
X
y como d(X, Y )2 = |xk − yk |2 es una suma de números no negativos, cada sumando debe ser cero.
k=1
Con esto, x1 = y1 , . . . , xn = yn , mostrando que X = Y . La segunda propiedad, la no negatividad se
obtiene por definición, se toma como distancia la raíz positiva del número correspondiente. La segunda
resulta del hecho que (x − y)2 = x 2 − 2xy + y 2 = y 2 − 2xy + x 2 = (y − x)2 . Para la tercera ve el teorema
(1.4.3).
Las propiedades anteriores de la distancia euclidiana en Rn permiten generalizar el concepto de
distancia.
4
1.2. Un repaso de álgebra lineal.
( 1.1.5 ) Caulquier función d : Rn × Rn → R tal que d sea identificadora, no negativa, simétrica y satisfaga la
desigualdad triangular se denomina una distancia para Rn .
En los ejercicios se definiran otras distancias en Rn , algunas de las cuales tienen interpretaciones
geométricas interesantes.
( 1.2.1 ) Un espacio vectorial real V es una terna (V , +, ·), que consta de un conjunto V y dos operaciones
+ : V × V → V , llamada «suma», y · : R × V → V , llamada «producto por escalar», que cumple lo siguiente:
1. para cualesquier u, v ∈ V , u + v = v + u;
4. para todo u, v, w ∈ V , u + (v + w) = (u + v) + w;
( 1.2.2 ) Todo espacio vectorial V no es vacío; en particular, el conjunto vacío no es espacio vectorial real.
( 1.2.3 ) Sea V un espacio vectorial real. Entonces existen un único elemento en V , llamado «cero», que satisface
el axioma 2. Asimismo, para cada u ∈ V existe un único v ∈ V , llamado «negativo» de u tal que v satisface el
axioma 3 para u.
Para demostrar la unicidad se parte de que existen dos elementos 0 y 00 tales que ambos satisfacen
el axioma 2; se llegará a que coinciden o a una contradicción. La siguiente manipulación muestra lo
afirmado:
0 = 0 + 00 Axioma 2
= 00 Axioma 2.
Del mismo modo, se supone que dado un y ∈ V existen u y v tales que ambos satisfacen el axioma 3
para este y dado. Una manipulación análoga a la previa permite concluir:
5
Capítulo 1. Álgebra lineal y geometría analítica.
u = u+0 Axioma 2
= u + (y + v) Hipótesis
= (u + y) + v Axioma 4
= 0+v Hipótesis
= v Axioma 2.
Por lo tanto si hay dos tienen que coincidir.
De este ejemplo se deduce que no hay ningún peligro en denotar por 0 al vector cero2 en V
y denotar por −v al inverso aditivo de v. Es destacable que, en principio, −v y (−1)v pueden ser
elementos distintos, el siguiente ejemplo que se vera muestra que esto no es así. Para esto, se recuerda
una definición sencilla, la de subespacio vectorial. Sea V un espacio vectorial y W un subconjunto de
V . Si W resulta ser espacio vectorial con las mismas operaciones que las de V entonces se dice que W
es subespacio vectorial de V . Formalmente, son necesarias algunas definiciones.
( 1.2.4 ) Sea (V , +, ·) un espacio vectorial real y W ⊂ V cualquier subconjunto. Se definen las operaciones
+W : W × W → V definida como +W (u, v) = u + v y ·W : R × W → V definida por ·W (λ, u) = λu. Se
dirá que W es subespacio vectorial de V si (W , +W , ·W ) es espacio vectorial real; en particular, es necesario que
+W (W × W ) ⊂ W y que ·W (R × W ) ⊂ W .
Ahora bien, para saber si un subconjunto dado de V es subespacio se utiliza el criterio siguiente.
( 1.2.5 ) Para que W ⊂ V sea subespacio de V es necesario y suficiente que W 6= ∅ y que a, b ∈ W , k ∈ R Ñ
ka + b ∈ W .
Se empieza por la implicación más sencilla; si W es subespacio de V entonces no es vacío y se
satisfacen todos los axiomas de espacio vectorial en W ; en particular, satisface que dados a, b ∈ W y
k ∈ R entonces ka + b ∈ W .
Ahora se demuestra la otra implicación; se supone que W no es vacío y satisface que a, b ∈ W , k ∈
R Ñ ka + b ∈ W . Poniendo k = 1 se ve que a, b ∈ W Ñ a + b ∈ W ; esto es, la suma es «cerrada» en
W. Como W es subconjunto de V se satisfacen automáticamente todos los axiomas de la suma salvo
la existencia de cero en W y la existencia de los inversos en W . Observa que en V se cumple que
0v = (0 + 0)v = 0v + 0v, por lo que, sumando el inverso aditivo de 0v en ambos lados de la igualdad, se
concluye que 0v = 0. Las mismas manipulaciones muestran que el inverso aditivo de v es (−1)v; esto
es, −v = (−1)v. Pero entonces, como W es no vacío, existe a ∈ W , por lo que (−1)a + a = 0 ∈ W ,
por hipótesis. De donde, el cero está en W . Asimismo, poniendo b = 0 en la hipótesis se encuentra
que k ∈ R, a ∈ W Ñ ka ∈ W ; esto es, el producto es cerrado en W . Finalmente, si u ∈ W entonces
−u = (−1)u = (−1)u + 0 ∈ W , lo que muestra que los inversos aditivos están en W y W es subespacio
vectorial de V con las mismas operaciones.
Se realza el hecho de que en este ejemplo se utilizó fuertemente la propiedad (1.2.2); es recomendable
tener esto presente.
confusión por denotar con el símbolo 0 tanto al vector cero como al número real cero.
6
1.2. Un repaso de álgebra lineal.
Observaciones: Las siguientes son consecuencias sencillas de la definición previa, serán utilizadas
más adelantes sin hacer referencia a ellas. Supón por lo pronto que S = {v1 , . . . , vr }.
1. Para que el conjunto S sea linealmente dependiente es necesario y suficiente que existan constantes
Xr
ai no todas cero tales que ai vi = 0. Lo cual se obtiene negando la definición.
i=1
5. Si S es linealmente independiente, para que v ∈ V haga que S ∪ {v} sea un conjunto linealmente
dependiente es necesario y suficiente que v sea combinación lineal por elementos de S. Se supone
que S es linealmente independente y que S ∪ {v} no lo es; se pone v = vn+1 , entonces supón que
existe una combinación no trivial del cero por elementos de S; es decir
n+1
X n
X
0= a i vi = ai vi + an+1 vn+1 ,
i=1 i=1
y si an+1 = 0 entonces se tendría una combinación lineal de los elementos de S la cual no es trivial
pero S es linealmente independente, esto es una contradicción. Por lo tanto, an+1 6= 0, y así
n
X ai
vn+1 = − vi ,
an+1
i=1
7
Capítulo 1. Álgebra lineal y geometría analítica.
es decir, Ü ê Ü ê
a + 3b 0
2a − b − c 0
= .
a + 5b − c 0
3a + 2b + c 0
Todo se reduce a resolver el sistema lineal
a + 3b = 0
2a − b − c = 0
.
a + 5b − c = 0
3a + 2b + c = 0
El método más eficiente para resolver un sistema general de ecuaciones lineales es el “Gauss-Jordán”.
En este caso se puede hacer algo mejor. De la primera ecuación se obtiene que a = −3b. Sustituyendo
en las otras tres ecuaciones se obtiene el sistema equivalente
−7b − c = 0
2b − c = 0 .
−7b + c = 0
El cual es redundante, por lo tanto, queda elimidada la tercera ecuación sin perder información.
ß
−7b − c = 0
.
2b − c = 0
8
1.2. Un repaso de álgebra lineal.
Además, a B se le llama una base de V si es linealmente independiente máximo; es decir, para que B sea base
es necesario y suficiente que B sea linealmente independiente y que cualquier elemento de v ∈ V tal que v ∈/ B
hará que B ∪ {v} deje de ser linealmente independiente.
( 1.2.9 ) Para que B sea base es necesario y suficiente que genere a todo el espacio y sea linealmente independiente.
En efecto, si B genera y es linealmente independiente entonces todo elemento de V es generado
por elementos de B, por lo que si se agrega a B un elemento que no esté en él hará que B deje de
ser linealmente independiente. Recíprocamente, si B es base entonces es linealmente independiente y
cualquier elemento que sea agregado a B hará que B deje se der linealmente independente, por lo cual,
tal elemento es combinación lineal por elementos de B. Como el elemento fue arbitrario, B genera.
( 1.2.10 ) Sea V un espacio vectorial el cual es generado por los vectores w1 , . . . , wn y se supone que los vectores
v1 , . . . , vm con m ≤ n son linealmente independientes. Los vectores {v1 , . . . , vm , w 0 m+1 , . . . , w 0 n } generan a V ,
en donde los wi0 son una reordenación conveniente de los wi ; el «lema de Steinitz».
En virtud de que los vectores wi generan a V se sigue que existen escalares λ1 , . . . , λn ∈ R tales
Xn
que v1 = λi wi . Como los vectores vj son linealmente independientes ninguno de ellos puede ser el
i=1
vector cero, luego, al menos uno de los escalares no es cero y tras un reordenamiento de los wi se
puede suponer que λ1 6= 0. Entonces,
n
1 X λi
w1 = v1 − wi ;
λ1 λ1
i=2
esto es, w1 es generado por {v1 , w2 , . . . , wm } y entonces todo V es generado por este conjunto. Se repite
esta operación para cada vj . Entonces, se supone que en la etapa j-ésima se cumple que V es generado
por {v1 , . . . , vj , wj+1 , . . . , wm }. Luego, los mismos argumentos que se utilizaron para v1 pueden repetirse
aquí, se deduce que existen escalares µ1 , . . . , µm ∈ R tales que
j m
X X
vj+1 = µ k vj + µk wk .
k=1 k=j+1
Si µj+1 = . . . = µm = 0 entonces vj+1 será combinación lineal por elementos de {v1 , . . . , vj }, lo cual es
falso por la independencia de todos los vi . Se concluye la existencia de un µk 6= 0 con j + 1 ≤ k ≤ m.
Por lo tanto, tras un reordenamiento de los wj+1 , . . . , wm es posible suponer que k = j + 1. Luego,
j m
1 X µk X µk
wj+1 = vj+1 − vk − wk ,
µj+1 µj+1 µj+1
k=1 k=j+2
9
Capítulo 1. Álgebra lineal y geometría analítica.
con lo cual se concluye que los vectores v1 , . . . , vj+1 , wj+2 , . . . , wm generan a V . Como a los más puede
haber un número finito m de pasos, el lema queda concluído.
( 1.2.11 ) Sean B1 y B2 dos bases del espacio vectorial real V . Si card (B1 ) < ∞ entonces card (B1 ) = card (B2 ) .
En particular, cuando un espacio vectorial posee una base la cual es finita entonces todas sus bases son finitas y
poseen la misma cardinalidad.
Esto es una consecuencia directa del lema de Steinitz. En efecto, se pone B1 = {v1 , . . . , vm } y
B2 = {u1 , . . . , un }. Luego, el conjunto {un , v1 , . . . , vm } es linealmente dependiente, existe entonces un
primer elemento que es combinación lineal de los precedentes, evidentemente no puede ser un , pues
por ser B2 una base un 6= 0. Ahora, sea vi un vector que es combinación lineal de los precedentes, por
lo que
{un , v1 , . . . , vi−1 , vi+1 , . . . , vm }
sigue generando a V y tiene cardinalidad m. Se agrega un−1 a este conjunto, de nuevo, hay un primer
elemento que es combinación lineal de los precedentes, tal elemento no puede ser ni un−1 ni un , luego
tiene que ser algún vj . Luego,
{un−1 , un , b1 , . . . , bm } \ {bi , bj }
sigue generando a V . Se continúa de este modo, no puede ocurrir que antes de n iteraciones hayan
sido agotados todas las br pues entonces el conjunto {u2 , . . . , un } generaría a V , lo cual es falso pues
u1 es linealmente independiente de ellos. Por lo tanto, hay al menos tantos br como us , es decir n ≤ m.
Procediedo de manera análoga también se puede concluir que m ≤ n.
( 1.2.12 ) Sea V un espacio vectorial real. Si V posee una base con un número finito de elementos entonces se
dirá que V es de dimensión finita. Al número común de elementos que poseen todas las bases de V se le llamará
dimensión de V . En el caso en el que en V no exista ninguna base finita se dirá que V posee dimensión infinita3 .
( 1.2.13 ) Sea V un espacio vectorial real tal que B2 es un conjunto generador finito de él. Si B1 ⊂ B2 es
linealmente independente y no es generador entonces existen vectores en B2 , que no están en B1 , tales que al
agregarlos a B1 hacen de este una base.
Existe un elemento en B2 que no es generado por B1 , se agrega a B1 . Al agregar a B1 este elemento
se preserva la independencia lineal. Se repite el algoritmo. Este algoritmo termina pues B2 es finito. El
conjunto resultante es base pues genera a B2 y este último genera a V .
A continuación el teorema más importante, quizá, del álgebra lineal.
( 1.2.14 ) Todo espacio vectorial real posee una base. Más específicamente, dado cualquier conjunto linealmente
independente B del espacio vectorial V , puede agragarse a B tantos elementos como sea necesario para que B se
convierta en base de V .
Consideramos A el conjunto de todos los subconjuntos de V que son linealmente independientes y
que contienen a B. El Lema de Zorn (ve [9] y [24]) muestra que existe un conjunto maximal M en A .
Por ser M un elemento de A entonces B ⊂ M. Además, como M ∈ A , es linealmente independente.
Para concluir basta demostrar que M es generador. Se supone que hay un elemento en V que no es
generado por M, sea v un tal elemento. Entonces, M ∪ {v} contiene propiamente a M y es linealmente
independente, lo cual es una contradicción. Por lo tanto, todo elemento en V es generado por M.
( 1.2.15 ) Sea W ⊂ V un subespacio vectorial del espacio V . Entonces, dim W ≤ dim V .
Como W posee una base según (1.2.14), si tal base posee más elementos que dim V entonces puede
agrandarse aún más para obtener una base de V , lo cual es una contradicción. Observa que no se utilizó
ninguna hipótesis de dimensiones finitas.
3 El espacio vectorial V = {0} se conoce como espacio vectorial trivial. Su base es, por definición ∅ y por tanto tiene dimensión
cero.
10
1.2. Un repaso de álgebra lineal.
Ahora, a la tercera ecuación se multiplica por siete y se le suma el doble de la segunda. A la cuarta se
le resta la segunda:
a + 3b + d = 0
− 7b − c − 2d = 0
.
− 9c − 11d = 0
2c − d = 0
Observación: Es fácil verificar que S es subespacio vectorial, lo cual queda a título de ejercicio para
el lector. Nota que la definición anterior incluye los casos en donde S es infinito.
( 1.2.18 ) Sea V un espacio vectorial real y S ⊂ V . Entonces lin hSi es el menor5 espacio vectorial que contiene
a S.
4 Que por definición son sumas finitas.
5 Aquí se entenderá menor respecto al «orden parcial» de contención. Dicho de otro modo, si A, B son subconjuntos de V
entonces A es menor, respecto de este orden, que B si A ⊂ B.
11
Capítulo 1. Álgebra lineal y geometría analítica.
Como lin hSi es espacio vectorial, resta verificar que es el menor que contiene a S. Supón entonces
que A es otro espacio vectorial que contiene a S. Sea v ∈ lin hSi , existen n ∈ N y a1 , . . . , an ∈ R y
n
X
v1 , . . . , vn ∈ S tales que v = ai vi . Pero como cada vi ∈ A y A es espacio vectorial, v ∈ A. En virtud
i=1
de esto, lin hSi ⊂ A.
( 1.2.19 ) Sea V un espacio vectorial real. Entonces lin hV i = V .
Evidentemente V ⊂ lin hV i , pues, por definición, S ⊂ lin hSi para cualquier S ⊂ V . Por otro lado,
lin hV i es el menor subespacio vectorial que contiene a V , pero V es un subespacio vectorial que contiene
a V , por lo tanto lin hV i ⊂ V .
( 1.2.20 ) Sean U y V espacios vectoriales reales arbitrarios. Se cumple que dim(U × V ) = dim U + dim V .
Para empezar se recuerda que el espacio U ×V = {(u, v) : u ∈ U, v ∈ V } es espacio vectorial real con
la suma y producto por escalar definido como sigue. Dado a ∈ R se define a(u, v) = (au, av) y dados
(u, v), (s, t) ∈ U × V se define (u, v) + (s, t) = (u + s, v + t). Sean {ui : i = 1, . . . , m} y {vi : i = 1, . . . , n}
bases de U y V , respectivamente. ¿Quién podría ser una base de U × V ? Lo más natural es pensar
que B = {(ui , vj ) : i = 1, . . . , m, j = 1, . . . , n} es base, un segundo de reflexión hará notar que han sido
seleccionados demasiados elementos. Se define B como {(ui , 0), (0, vj ) : i = 1, . . . , m, j = 1, . . . , n}, se
demostrará que B es base.
Primero se demostrará que B genera U × V . Sea (u, v) ∈ U × V entonces
Ñ é ! Ñ n é
m
X Xn Xm X
(u, v) = ai ui , bj vj = ai ui , 0 + 0, bj vj
i=1 j=1 i=1 j=1
m
X n
X
= ai (ui , 0) + bj (0, vj ).
i=1 j=1
De este modo,
n+m
X m
X m+n
X m
X n
X
λi bi = λi bi + λj bj = λi (ui , 0) + λj+m (0, vj )
i=1 i=1 j=m+1 i=1 j=1
Ñ é
Xm n
X
= λi u i , λj+m vj = (0, 0).
i=1 j=1
La ultima igualdad ocurre si y solo si ocurre a coordenadas. Dado que los conjuntos {ui }, {vj } son bases
de U y V , respectivamente, se tiene que λi = 0 para cada i. Con esto, dim(U × V ) = dim U + dim V .
( 1.2.21 ) La dimensión de R es 1: dim R = 1. Por lo tanto, dim Rn = n.
Cualquier
y elemento no nulo genera a R; en efecto, si x, y son elementos de R con x no nulo entonces
y
y= × x, aquí juega el papel de un escalar.
x x
12
1.2. Un repaso de álgebra lineal.
y
L(av) = aL(v) (homogénea).
En tal caso se usa la notación abreviada Lv para L(v). Al conjunto de las transformaciones lineales de V a W se
le denotará por Lin (V , W ) .
Es inmediato que Lin (V , W ) también es un espacio vectorial con la suma y producto por escalar
definidos como antes.
Al hablar de transformación lineal es forzoso hablar de su núcleo y de su recorrido.
( 1.2.23 ) Dada una transformación lineal L : V → W se define su núcleo6 como el conjunto de vectores en su
dominio que se mapean al cero:
Nuc (L) = {v ∈ V |Lv = 0}.
Del mismo modo, se define su recorrido7 como el conjunto de vectores para los cuales existe un vector en el
dominio que se mapea a este:
Ran (L) = {w ∈ W |∃v ∈ V , Lv = w}.
Una consecuencia sencilla de la definición continúa.
( 1.2.24 ) Una condición necesaria y suficiente para que una transformación lineal sea inyectiva es que su núcleo
sea el conjunto {0}.
Una transformación lineal L es inyectiva si Lu = Lv Ñ u = v. Se observa que cualquier transfor-
mación lineal mapea el cero al cero. En efecto, 0 + 0 = 0 entonces L0 = L(0 + 0) = L0 + L0, por lo que
L0 = 0. Se supone que L es inyectiva. Entonces, Lv = Lu Ñ v = u, de donde, Lv = 0 = L0 Ñ v = 0.
Por lo tanto, Nuc (L) = {0}. Recíprocamente, si Nuc (L) = {0}, sean u, v ∈ V entonces
pero Nuc (L) = {0}, así u − v = 0 y, por lo tanto, u = v. Esto implica que L es inyectiva.
Ahora se muestra una relación íntima entre transformaciones lineales y dimensión. Se observa que
el kernel y la imagen siempre son subespacios vectoriales. Se deja de ejercicio verificar esto (ejercicio
(1.8)).
( 1.2.25 ) Sea L : U → V una transformación lineal entre espacios vectoriales reales de dimensión finita. Entonces,
dim U = dim Nuc (L) + dim Ran (L) ; el «teorema de la dimensión».
La idea detrás de esta demostración consiste en dar una base de U como elementos de una base de
Nuc (L) y una base de Ran (L) . Como Nuc (L) es subespacio de U, tiene dimensión finita. Análogamente,
Ran (L) tiene dimensión finita. Sean {u1 , . . . , ur } ⊂ U, {v1 , . . . , vs } ⊂ V bases de Nuc (L) e Ran (L) ,
respectivamente. Existen w1 , . . . , ws ∈ U tales que Lwi = vi para i = 1, . . . , s. Se demostrará que
B = {ui : i = 1, . . . , r} ∪ {wj : j = 1, . . . , s} es base de U. Entonces, hay que demostrar que B es conjunto
generador de U y que es linealmente independiente.
6 También llamado «kernel» de la transformación.
7 También llamado la «imagen» de la transformación.
13
Capítulo 1. Álgebra lineal y geometría analítica.
r
X s
X
y como L es lineal, ai Lui + bi Lwi = 0, y al ser {ui : i = 1, . . . , r} base del núcleo de L, se ve
i=1 i=1
s
X
que bi vi = 0. Como {vi : i = 1, . . . , s} es base de Ran (L) , cada bi = 0. Por lo tanto, la combinación
i=1
r
X
original se reduce a ai ui = 0. Al ser {ui } base de Nuc (L) , se concluye que cada ai = 0. Por lo tanto,
i=1
la combinación lineal es la trivial y el conjunto B es linealmente independiente. Esto prueba que B es
base de U y, por lo tanto, dim U = dim Nuc (L) + dim Ran (L) .
14
1.3. El determinante de una transformación lineal.
( 1.3.3 ) Dado un grupo (G, ·), si e es un neutro para ·, es el único neutro; esto mismo ocurre para los inversos,
esto es, todo elemento tiene un único inverso.
Estas y otras propiedades que se verifican directamente de la definición serán encontradas en los
ejercicios (antes de continuar resuelve el ejercicio (1.40)).
Un grupo (también llamado estructura de grupo) consta de dos partes, un conjunto y una operación.
Cambiando la operación, podría suceder que el conjunto siga teniendo estructura de grupo con la nueva
operación, por ende, a veces se utilizarán las frases menos ambiguas “sea G el grupo con la operación
·” y “sea u el neutro para · en G”, etcétera.
Como nuestra intención es hablar de permutaciones, a contiuación son definidas.
( 1.3.4 ) Sea σ : {1, . . . , n} → {1, . . . , n} una función biyectiva. Entonces se dirá que σ es una permutación en
n elementos. Al conjunto de las permutaciones en n elementos se le denota por Sn .
( 1.3.5 ) La cardinalidad de Sn es n!
En efecto, se aplicará una técnica de conteo básica. Se observa que si se manda 1 a cualquiera de
los n elementos entonces a 2 se le puede mandar a cualquiera de los n − 1 (pues toda permutación
debe ser biyección) restantes, a 3 a n − 2 elementos, y así sucesivamente, hasta que a n solo se le puede
mandar al último elemento no usado. Por ende, card (Sn ) = n!, como se afirmó.
( 1.3.6 ) El conjunto Sn con la composición forma un grupo. A tal grupo se le llama el grupo simétrico (en n
elementos).
( 1.3.7 ) En Sn existen funciones especiales llamadas transposiciones. Sean 1 ≤ i < j ≤ n. La función τ ∈ Sn tal
que
k si k ∈/ {i, j}
τ(k) = i si k = j
j si k = 1
será llamada transposición de i con j. Es destacable que ISn no es una trasposición y que si τ ∈ Sn es una
trasposición entonces τ 2 = ISn , entonces las transposiciones en Sn con la operación composición no forman un
grupo.
con esto, el producto en Sn (que es la composición de funciones), puede ser realizado de manera sencilla.
Por ejemplo, Å ãÅ ã Å ã
1 2 3 1 2 3 1 2 3
= .
2 1 3 3 1 2 3 2 1
Para obtener el producto se observa que en la permutación derecha 1 7Ï 3 y en la izquierda 3 7Ï 3, por
ende, en el producto 1 7Ï 3.
15
Capítulo 1. Álgebra lineal y geometría analítica.
8 En matemáticas la inducción es un propiedad de los números naturales. Esta suele probarse en textos dedicados a la lógica
y conjuntos, ve los textos [9] y [24]. Aquí se enuncia para evitar posibles confusiones.
( 1.3.12 ) Sea P(n) una propiedad arbitraria que depende de n ∈ N y se supone que H ⊂ N es el conjunto de los n tales que P(n)
es cierto. Si
1. 1 ∈ H ,
2. n ∈ H Ñ n + 1 ∈ H
se puede concluir que H = N.
Es decir, para poder probar que la propiedad cierta para todo natural, se tiene que demostrar que la propiedad es cierta para
1 y que cada vez que sea cierta para un n arbitrario entonces será cierta para n + 1.
9 Recuerda que S consta de 1! = 1 elementos, la identidad, por ende, no puede factorizarse por transposiciones de S .
1 1
16
1.3. El determinante de una transformación lineal.
entonces τ es una trasposición. Se observa que στ1 (n + 1) = σ(k) = n + 1. Pero por el caso recién
demostrado,
στ1 = τk · · · τ2 ,
para algunos τi ∈ Sn+1 . Entonces, σ = στ12 = τk · · · τ1 , mostrando que n + 1 ∈ H y, por inducción,
H = N.
( 1.3.13 ) Si σ = τk · · · τ1 entonces σ −1 = τ1 · · · τk .
Esto puede verificarse al hacer el producto y recordar que τ 2 es la identidad para cualquier trans-
posición τ.
( 1.3.14 ) Sean σ ∈ Sn arbitrario y τ ∈ Sn una trasposición. Entonces sgn (τσ) = −sgn (σ) .
Se supone que que τ permuta r < s y que σ(i) = r, σ(j) = s. Entonces
Å ã
1 ··· r ··· s ··· n
τσ = .
σ(1) · · · σ(j) · · · σ(i) · · · σ(n)
Antes de σ(j) la trasposición τ no genera nuevas inversiones y lo mismo para después de σ(i), además,
entre σ(j) y σ(i) no hay nuevas inversiones. Solo resta contar el número de inversiones que se generaron
con el cambio de σ(i) con σ(j). Se supone que entre σ(j) y σ(i) hay p1 números más grandes que s y p2
más pequeños. Al permutar σ(i) con σ(j) se ve que σ(j) genera p2 inversiones pero quita p1 . Del mismo
modo, hay p2 + p3 elementos más grandes que r entre σ(j) y σ(i) y p1 − p3 más pequeños. Al aplicar τ
se ve que σ(i) genera p2 + p3 inversiones pero elimina p1 − p3 inversiones. Luego, contando la inversión
de σ(i) con σ(j), se ve que el número de inversiones nuevas es
por lo tanto, el número de inversiones que genera τ es impar y con esto, sgn (τσ) = −sgn (σ) .
( 1.3.15 ) Sean σ, ρ ∈ Sn . Entonces sgn (σρ) = sgn (σ) sgn (ρ) .
Se puede factorizar σ en producto de transposiciones. Entonces se cumple que σρ = τk · · · τ1 ρ.
Aplicando reiteradamente el teorema anterior (o, más formalmente, utilizando inducción), se ve que
Basta ver que si τ es una transposición entonces sgn (τ) = sgn τ −1 , pero como τ −1 también es
transpocisión se concluye que, ve (1.3.10), es cierto.
17
Capítulo 1. Álgebra lineal y geometría analítica.
18
1.3. El determinante de una transformación lineal.
( 1.3.19 ) Sea A = (ai,j ) una matriz cuadrada de orden n. Entonces det A = det At , donde At denota la matriz
transpuesta10 de A.
Se observa que
n
Y n
Y n
Y
ak,σ(k) = aσ −1 (σ(k)),σ(k) = aσ −1 (k),k ,
k=1 k=1 k=1
X n
Y X n
Y
det A = sgn (σ) ak,σ(k) = sgn σ −1 aσ −1 (k),k .
σ∈Sn k=1 σ∈Sn k=1
X n n
Y X Y
sgn σ −1 aσ −1 (k),k = sgn (ξ) aξ(k),k .
σ∈Sn k=1 ξ∈Sn k=1
X n
Y X n
Y
t
det A = sgn (ξ) bk,ξ(k) = sgn (ξ) aξ(k),k ,
ξ∈Sn k=1 ξ∈Sn k=1
( 1.3.20 ) Sean A un matriz cuadrada y B obtenida de A al intercambiar dos columnas distintas de A. Entonces
det A = − det B.
Sea τ la trasposición que intercambia los dos número correspondientes a las columnas que se
intercambian en A para obtener B. Si A = (ai,j ) y B = (bi,j ), se ve que bi,j = ai,τ(j) . Con esto, se concluye
que biσ(i) = ai,σ(τ(i)) . Como sgn (στ) = −sgn (σ) , se ve que
X n
Y X n
Y
det B = sgn (σ) bk,σ(k) = −sgn (στ) ak,σ(τ(k)) = − det A,
σ∈Sn k=1 σ∈Sn k=1
( 1.3.21 ) Si una matriz cuadrada A tiene dos columnas idénticas entonces su determinante es cero.
Pues al permutarlas se obtiene la misma matriz A, pero de acuerdo al teorema anterior, el signo
del determinante debe cambiar.
( 1.3.22 ) Los dos teoremas previos son ciertos si en lugar de ser columnas son filas.
( 1.3.23 ) Si A es una matriz triangular11 entonces det A es el producto de los elementos en la diagonal de A.
10 Serecuerda que si A = (ai,j ) es una matriz de m por n entonces At es la matriz de n por m tal que su entrada (j, i) es ai,j .
11 Sedirá que la matriz A = (ai,j ) está dispuesta en forma «triangular inferior» si ai,j = 0 para i < j, y en forma «triangular
superior» si ai,j = 0 siempre que i > j. En caso que A sea triangular inferior o triangular superior se dirá que A es triangular.
19
Capítulo 1. Álgebra lineal y geometría analítica.
Como det A = det At basta demostrar el caso cuando A es triangular inferior. Sea σ ∈ Sn una
permutación tal que σ(1) 6= 1 entonces σ(1) > 1, pero a1,σ(1) = 0, por ende, todos los sumandos de det A
para los cuales σ(1) 6= 1 son cero. Luego, σ(1) = 1. Del mismo modo, σ(2) 6= 2 implica σ(2) > 2 pues
σ(1) = 1, y el mismo argumento muestra que todos los sumandos en det A para los cuales (σ(1), σ(2)) 6=
(1, 2) son cero. Siguiendo este proceso se halla que todos los sumandos para σ 6= ISn son cero, por ende,
( 1.3.24 ) Sea det : Matn×n (R) → R dada por det(A) = det A. Entonces det es una función lineal en cada
columna de A. Mismo resultado para filas.
Se supone que la j-ésima columna de A toma la forma ai,j = bi,j + λci,j entonces
X n
Y
det A = sgn (σ) ak,σ(k)
σ∈Sn k=1
Ñ é
X n
Y n
Y
= sgn (σ) akσ(k) bk,σ(j) + λ ak,σ(k) ck,σ(j) ,
σ∈Sn k=1,k6=j k=1,k6=j
mostrando la linealidad de det en cada columna de A. Por der det A = det At el mismo resultado vale
para filas.
( 1.3.25 ) Si A posee una fila o una columna de ceros entonces det A es cero.
Pues el determinante es una función lineal de dicha fila o columna y como toda transformación
lineal en el cero vale cero se obtiene el resultado.
( 1.3.26 ) Si A es una matriz cuadrada entonces det A no cambia su valor si en lugar de A se considera A0
donde A0 es obtenida de A al sumar un múltiplo de una fila (o columna) a otra fila distinta (columna distinta,
respectivamente).
Basta ver que el resultado es cierto para columna, se supone que A = [A1 , . . . , An ] en donde Ai es
la fila i-ésima de A. Entonces existe j 6= i y, sin peder generalidad, se supone que j < i; entonces A0 se
obtiene de A al sumar a la columna j-ésima de A el vector λAi . Luego,
20
1.4. Geometría analítica en Rn .
Lo más fácil es tratar de realizar operaciones válidas para no alterar el valor del determinante y
que la matriz resultante sea triangular superior. Aplicando el método de Gauss-Jordán, queda que
1 −2 2 0 −1
0 5 −7 5 2
11 4
det A = − det
0 0 5 2 5
0 0 0 −6 2
56
0 0 0 0 11
Å ã
56
Y el determinante buscado es det A = (−11)(−6) = 336.
11
21
Capítulo 1. Álgebra lineal y geometría analítica.
Se demostrará la última desigualdad. Para hacer esto define la función f(λ) = ku + λvk2 , la cual es un
polinomio en λ; en efecto, de la definición de kk
Por lo tanto, f es un polinomio real de segundo grado el cual siempre es positivo. La geometría analítica
elemental muestra que su discriminante debe ser no positivo; esto es,
kA − Bk = kA + Bk .
hA, Bi = 0.
22
1.4. Geometría analítica en Rn .
k
X
Observa que si ai vi = 0 entonces tomando el producto escalar en ambos lados por vj se ve que
i=1
aj vj · vj = 0. Como vj 6= 0 entonces vj · vj = kvj k2 > 0, con lo cual aj = 0. Por ende, a1 = . . . = ak = 0
como se quería.
Puesto que cuando se estudien planos en un espacio vectorial real será necesario hablar de espacios
ortogonales, esto se definen a continuación.
( 1.4.8 ) Sea V un espacio vectorial real con producto escalar y W ⊂ V un subespacio vectorial. Se define W ⊥
como el conjunto de los vectores en V que son ortogonales a todos los vectores de W .
( 1.4.9 ) Sea V un espacio vectorial con producto escalar definido positivamente y sea W un subespacio de V .
Entonces W ⊥ es un subespacio vectorial de V . A W ⊥ se le llamará el espacio ortogonal de W .
Se usará (1.2.5). Para empezar, 0 ∈ W ⊥ pues si w ∈ W entonces h0, wi = 0, porque la función
v 7Ï hv, wi es lineal. Sean a, b ∈ W ⊥ y λ ∈ R, para cualquier w ∈ W ,
L = {(x, y) ∈ R2 |ax + by = c}
donde a, b, c ∈ R y a, b no pueden ser cero simultáneamente. Se puede expresar este hecho de manera
resumida: el vector (a, b) 6= (0, 0).
Lo importante es que se puede transformar la ecuación en L de la siguiente forma:
L = {X ∈ R2 |X = A + tB, t ∈ R},
donde A y B son dos vectores dados y B 6= 0. ¿Por qué esta forma? Recorda que tB es, precisamente,
todos los vectores sobre la recta que pasa por el cero y en dirección del vector B. Al sumarle A se
está trasladando la recta al punto específico A. La ventaja de esta notación es que no depende de la
dimensión.
( 1.4.10 ) Sean A y B dos vectores de un espacio vectorial V tales que B 6= 0. La recta que pasa por A en
dirección de B es
L = {v ∈ V : v = A + tB, t ∈ R}.
Si V = Rn y A = (a1 , · · · , an ), B = (b1 , · · · , bn ) y X = (x1 , · · · , xn ) entonces las ecuaciones xi = ai + tbi se
llaman ecuaciones paramétricas de la recta.
( 1.4.11 ) Encuentra las ecuaciones paramétricas de la recta L ⊂ R4 que tiene como elemento, o que pasa por,
al vector (1, −1, −1, 0) y tal que es paralela al vector (2, 0, 1, −1).
Por definición, la recta buscada es L = {X ∈ R4 : X = (1, −1, −1, 0) + t(2, 0, 1, −1), t ∈ R}. Por lo
tanto, las ecuaciones paramétricas de L son
Es decir, si Xt denota la posición de la recta para t ∈ R dado entonces Xt = (1 + 2t, −1, −1 + t, −t).
23
Capítulo 1. Álgebra lineal y geometría analítica.
En la ecuación de una recta se deja variar libremente un parámetro, a saber, t. Esto es lo que da la
noción de un grado de libertad que posee la recta. Si una recta en Rn pasa por el origen entonces la
recta es un subespacio vectorial de dimensión uno. Con esto en mente es natural definir a un plano en
Rn como una figura geométrica plana que posea dos grados de dimensión. En otras palabras, un plano
es un espacio vectorial dos dimensional trasladado.
( 1.4.12 ) Sean A, B y C tres vectores en un espacio vectorial V tales que A y B son linealmente independientes.
El plano que pasa por el vector C y es paralelo al generado por A y B es
P = {v ∈ V : v = tA + sB + C, t, s ∈ R}.
Observa que los parámetros t y s están permitiendo que los puntos en P tengan dos grados de
dimensión. Resulta natural definir el plano de dimensión m que pasa por Q ∈ Rn (donde m ≤ n) como
el conjunto de puntos
Xm
v= ti A i + Q
i=1
24
1.4. Geometría analítica en Rn .
Sean A y B dos vectores no nulos. Si A = λB entonces el ángulo medido desde A hasta B deberá ser
entonces cero si λ > 0 y π si λ < 0. Supón ahora que A y B son linealmente independientes. El ángulo
A B
generado por A y B es independiente de la longitud de A y de B. Sean  = y B̂ = lo «vectores
kAk kBk
normalizados» correspondientes
n a A y B y ose considera el
segmento
que
va
del punto Â
al punto
B̂,
tal segmento es l = Â + t(B̂ − Â)t ∈ [0, 1] . Sean a =
Â
= 1, b =
B̂
= 1 y c =
B̂ − Â
, las
longitudes de los lados del triángulo determinado por el origen y los vectores  y B̂. Por la ley de los
cosenos, el coseno ángulo determinado por los vectores  y B̂ es
2
2 −
B̂ − Â
cos γ = .
2
Esto motiva la siguiente definición.
( 1.4.15 ) Sean A y B dos vectores no nulos. Si A = λB para algún λ se define el ángulo γ entre A y B como
γ = 0 si λ > 0 y como γ = π si λ < 0. En caso en que A y B sean linealmente independientes se define el
2
2 −
 − B̂
ángulo entre ellos como el único número γ ∈ (0, π) tal que cos γ = , donde  y B̂ son sus vectores
2
normalizados.
25
Capítulo 1. Álgebra lineal y geometría analítica.
( 1.4.19 ) Sean A y B dos vectores en R3 linealmente independientes, el plano que ellos generan es (A × B)⊥ .
El plano que ellos generan es lin (A × B)⊥ , para concluir se debe mostrar que (A × B)⊥ es un
espacio vectorial. De hecho, se demostrará algo más general, sea v ∈ Rn cualquiera, v ⊥ el conjunto de
vectores ortogonales a v es un espacio vectorial. Basta ver que v ⊥ es un subespacio de Rn , pero 0 ∈ v ⊥
y si a, b ∈ v ⊥ y λ ∈ R entonces v · (a + λb) = v · a + λv · b = 0, mostrando que v ⊥ es espacio vectorial y
concluyendo el teorema.
A continuación una aplicación de esto en el siguiente ejemplo.
( 1.4.20 ) Sean A = (1, 0, −1) y B = (−1, 3, 0), encuentra el plano que estos vectores generan.
El plano que ellos generan es el conjunto de vectores X tales que A × B · X = 0. Pero,
e1 e2 e3
A × B = det 1 0 −1 = (−3, 1, −3),
−1 3 0
concluyendo que el plano generado por A y B es {(x, y, z) ∈ R3 : 3x − y + 3z = 0}.
Se considera ahora un plano en R3 definido por la ecuación N · X = c, donde c es constante y N 6= 0.
Si se divide por kNk se encuentra una ecuación de la forma U · X = p, donde U es unitario. El siguiente
teorema da una interpretación geométrica de esta ecuación.
( 1.4.21 ) Sean U ∈ Rn unitario, c ∈ R constante y P = {X ∈ Rn : U · X = c} una variedad lineal n − 1
dimensional en Rn . Entonces |c| es la distancia13 de P al origen.
Sea X = |c|U entonces U · X = U · |c|U = |c|, por lo que la distancia de P al origen es a lo mas
|c|. Recíprocamente, sea X ∈ P cualquiera, la distancia del origen a X es, por definición, kXk . Como
U es unitario, esto es igual a kXk kUk y por la desigualdad de Cauchy-Schwarz (1.4.4), |c| = kX · Uk ≤
kXk kUk , mostrando que la distancia de P al origen es al menos |c|. Por lo tanto, la distancia de P al
origen es |c|.
13 Esto se interpreta como el ínfimo de los número {kXk : X ∈ P}.
26
1.5. Ejercicios.
§ 1.5. Ejercicios.
Se recomienda que el lector resuelva todos los ejercicios presentados a continuación.
( 1.1 ) Se define la «distancia de Manhatan» entre dos vectores de Rn , X = (x1 , . . . , xn ) y Y = (y1 , . . . , yn )
mediante la fórmula
n
X
d(X, Y ) = |xi − yi |.
i=1
U + W = {u + w : u ∈ U, w ∈ W },
el cual es subespacio de V .
( 1.11 ) Dados S1 y S2 dos subconjuntos de un espacio vectorial real V entonces lin hS1 ∪ S2 i = lin hS1 i+lin hS2 i
y lin hS1 ∩ S2 i ⊂ lin hS1 i ∩ lin hS2 i .
27
Capítulo 1. Álgebra lineal y geometría analítica.
( 1.14 ) Sean V un espacio con producto interior y X, Y ∈ V . Una condición necesaria y suficiente para que X y
Y sean ortogonales es que kX + Y k2 = kXk2 + kY k2 .
( 1.16 ) Sea B una base de V , para todo a 6= 0, aB = {av : v ∈ B} es base de V . Más generalmente, si
{(v, av ) ∈ B × R|v ∈ B} es una colección con av 6= 0 entonces {av v : v ∈ B} es base de V . Observa que no
se supone que la dimensión de V sea finita. En particular, dada una base, se pueden reescalar sus elementos sin
matarlos y se conservará la propiedad de base.
X, Y ∈ Rn Ñ kX − Y k ≤ kXk + kY k .
y que
X, Y ∈ Rn Ñ | kXk − kY k | ≤ kX − Y k .
Sugerencia: para la segunda desigualdad recuerda que si a < b y −a < b entonces |a| < b.
Recíprocamente, si X = (x1 , . . . , xn ) ∈ Rn entonces, para todo i = 1, . . . , n, se tiene que |xi | ≤ kXk . Estas
desigualdades serán utilizadas muchas veces en el texto.
( 1.21 ) Para todo X, Y en un espacio con producto interior se tiene la siguiente igualdad
kX + Y k2 − kX − Y k2
X·Y = .
4
A esta identidad se le conoce con el nombre de «identidad de polarización.»
( 1.22 ) Recuerda que dos espacios vectoriales U y V son isomorfos en el sentido de espacio vectorial, si existe una
transformación lineal L invertible entre ellos. Dos espacios vectoriales reales de la misma dimensión son isomorfos.
( 1.23 ) Supón que L : U → V es isomorfismo (esto es, biyectiva y lineal). Entonces L−1 : V → U es lineal y, por
ende, isomorfismo.
28
1.5. Ejercicios.
( 1.24 ) Resuelve este ejercicio hasta que hayas leído la sección de familia de elementos en el capítulo 2.
Sean B = (v1 , . . . , vn ) una base ordenada del espacio vectorial V y v ∈ V . La función Φ : V → Rn dada por
Xn
Φ(v) = (λ1 , . . . , λn ), en donde v = λi vi , es un isomorfismo de espacios vectoriales entre V y Rn . A la función
i=1
Φ se le denomina «coordenadas» de V respecto a la base B y se denota por Φ(v) = [v]B .
( 1.25 ) Resuelve este ejercicio hasta que hayas leído la sección de familia de elementos en el capítulo 2.
Sea B = (v1 , . . . , vn ) una base ordenada de V y B0 = (w1 , . . . , wm ) una base ordenada de W . Para cualquier
transformación lineal T : V → W existe una y solo una matriz A ∈ Matm×n (R) tal que para todo vector v ∈ V
se cumple que [Tv]B0 = A[v]B , en donde []B y []B0 son las coordenadas respecto a B y B0 , ve el ejercicio (1.24). A
0
tal matriz se le denotará por A = [T]BB y se le llamará «matriz asociada a T respecto a las bases B de V y B0 de
0
W ». La función Φ tal que Φ(T) = [T]BB es un isomorfismo entre el espacio Lin (V , W ) , de las transformaciones
0
lineales de V a W , y el espacio Matm×n (R) . Cuando V = W y B = B0 se denotará [T]BB = [T]B .
( 1.26 ) Resuelve este ejercicio hasta que hayas leído la sección de familia de elementos en el capítulo 2.
Sean B y B0 dos bases de V y T : V → V una transformación lineal. La matriz P = [I]BB0 , donde I : V → V
es la tranformación lineal identidad Iv = v, se le denomina matriz de cambio de base de B a B0 . Entonces,
0
P −1 = [I]BB y [T]B0 = P −1 [T]B P.
( 1.27 ) Resuelve este ejercicio hasta que hayas leído la sección de familia de elementos en el capítulo 2.
Sea T : Rn → Rm una transformación lineal, tal que, en las bases canónicas de Rn y Rm se cumple que
Ñ é 21
Xn X m
2
[T] = (ti,j ) (ve el ejercicio (1.25)). Sea M = ti,j . Entonces, para todo X ∈ Rn se tiene que
i=1 j=1
kTXk ≤ M kXk .
( 1.28 ) Sea L : U → V una transformación lineal entre espacios vectoriales reales de la misma dimensión finita.
Si BU y BV son sendas bases de U y V entonces L queda unívocamente determinada por las imágenes de los
elementos de BU como combinación lineal de los elementos de BV .
( 1.29 ) Sean {u1 , . . . , un } base de U y {w1 , . . . , wn } vectores arbitrarios en W , respectivamente. Existe una
única transformación lineal L : U → W tal que L(ui ) = wi .
( 1.30 ) Sean U, V espacios vectoriales reales de dimensión finita igual. Supón que L : U → V es lineal. Las
siguientes condiciones son equivalentes:
1. L es inyectiva.
2. L es suprayectiva.
3. L es biyectiva.
4. L es isomorfismo.
( 1.32 ) Sean V y W dos espacios vectoriales con producto escalar. Una transformación lineal L : V → W
preserva la norma si para todo X y Y en el dominio de L se tiene que kXk = kLXk , del mismo modo, preserva
el producto escalar si hX, Y i = hLX, LY i . Para que una transformación lineal L preserve la norma es necesario y
suficiente que preserve el producto escalar.
29
Capítulo 1. Álgebra lineal y geometría analítica.
( 1.34 ) Si una transformación lineal L preserva la norma y es invertible, L−1 preserva la norma.
( 1.35 ) Un concepto importante en el álgebra lineal es el de espacio dual. El espacio dual se define de la siguiente
forma. Sea V un espacio vectorial real de dimensión finita, al conjunto de las transformaciones lineales de V en
R se le conoce como espacio dual. Es decir, si V ∗ es el dual de V entonces
V ∗ = T : V → RT es lineal
El dual de un espacio vectorial real es, por sí mismo, espacio vectorial con suma de vectores definida como suma
de transformaciones lineales y producto por escalar definido como λT : V → R dado por (λT)(v) = λ(Tv).
( 1.36 ) Sea (Rn )∗ el espacio dual a Rn . Dado x ∈ Rn se define φx ∈ (Rn )∗ por φx (y) = hx, yi . Construye una
aplicación lineal de Rn en (Rn )∗ con la φ anterior. Esta aplicación lineal es un isomorfismo entre Rn y (Rn )∗ .
Concluye que a todo elemento x ∗ en (Rn )∗ le corresponde un único x en Rn tal que φx = x ∗ .
( 1.37 ) Encontrar la base dual de la base canónica de R3 . Sea V un espacio vectorial real y B = {v1 , . . . , vn } una
base de V entonces la base dual B∗ de B en V ∗ es, por definición, B∗ = {v1∗ , . . . , vn∗ } dada por vi∗ (vj ) = 1 si i = j
y vi∗ (vj ) = 0 si i 6= j.
( 1.38 ) Sea G = {−1, 1} ⊂ R y · la multiplicación usual en R. Verifique que (G, ·) es un grupo.
( 1.39 ) Si · es la multiplicación usual entonces (N, ·) no es un grupo.
( 1.40 ) Si (G, ·) es un grupo entonces las siguientes afirmaciones son ciertas.
1. Existe un único neutro. Por esto, a partir de ahora será denotado por 1.
2. Todo elemento tiene un único inverso. Por ende, si x ∈ G se denotará a su inverso por x −1 .
3. Si x, y ∈ G entonces (xy)−1 = y −1 x −1 .
4. Define x = x 1 e, inductivamente, x n = x n−1 x 1 . Verifique que si x ∈ G y n, m ∈ N, x m x n = x m+n ; fija
n y utiliza inducción en m.
n
5. Define x −n = x −1 , para n ∈ N. Entonces n, m ∈ Z Ñ x n+m = x n x m .
( 1.41 ) Sea E1,1 , . . . , En,n la base canónica para matrices cuadradas de orden n y sea A una matriz cuadrada de
orden n. Muestre que
1. det EA = det E det A, donde E = E1,1 + . . . + λEi,i + . . . + En,n .
n
X
2. det EA = det E det A, donde E = Ek,k + λEi,j .
k=1
Admite el siguiente hecho: toda matriz A puede factorizarse como productos de matrices como las E de los
incisos anteriores.
1
4. Sea A invertible, muestre que det A 6= 0 y que det A−1 = .
det A
5. Sea A tal que det A 6= 0, muestre que A−1 existe. Admite el siguiente hecho: si A no es invertible, existe
una sucesión de matrices Ei como las de los dos primeros incisos tales que Ek · · · E1 A tiene una fila de
ceros.
30
1.5. Ejercicios.
6. Una condición necesaria y suficiente para que una matriz sea invertible es que su determinante no sea cero.
7. Supón que A y B son dos matrices tales que existe una cambio de base P para el cual A = PBP −1 .
Demuestra que det A = det B.
8. Use el inciso anterior para demostrar que si se define el determinante de una transformación lineal como el
determinante de alguna de sus representaciones matriciales entonces está bien definido.
ï ò
a b
( 1.42 ) Sea A = , una condición necesaria para que A sea invertible es que ad − bc 6= 0. Más aún, la
c d
inversa de A es ï ò
−1 1 d −b
A =
ad − bc −c a
( 1.43 ) Sea V un espacio vectorial con producto escalar definido positivamente, sean v, w ∈ V no nulos, existe
un escalar y solo uno λ ∈ R tal que v − λw es ortogonal a w. A λw se le llama la proyección ortogonal de v en
w.
Sugerencia: escribe hv − λw, wi = 0 y despeja λ; esto demuestra la unicidad14 . Para demostrar existencia
proponga λ el encontrado para la unicidad y demuestra que v − λw es ortogonal a w.
( 1.44 ) Sea V un espacio vectorial de dimensión finita con producto interior definido positivamente y sea W ⊂ V
un subespacio de V . Supón que B = {w1 , . . . , wr } es una base15 ortogonal de W , es decir, es base y cada dos
elementos distintos en ella son ortogonales. Entonces, existen n − r vectores en V , por ejemplo wr+1 , . . . , wn ,
tales que {w1 , . . . , wn } es base ortogonal de V .
Sugerencia: en virtud de (1.2.14) existen u1 , . . . , un−r ∈ V tales que
{w1 , . . . , wr , u1 , . . . , un−r }
es base de V . Aunque esto es base, no se puede asegurar la ortogonalidad de sus elementos, por ende se procede
a ortogonalizarlos utilizando el «método de Gram-Schimidt». Lo que se hace es definir
(1)
wr+1 = u1 − λ1 w1 − . . . − λr(1) wr ,
(1)
en donde λj wj es la proyección ortogonal de u1 en wj , ve el ejercicio (1.43). Demuestra que
Define inductivamente
r+k−1
(k)
X
wr+k = uk − λj wk ,
j=1
(k)
en donde λj wj es la proyección ortogonal de uk en wj . Demuestra que para k = 1, . . . , n − r,
y concluye.
( 1.45 ) Sea W ⊂ V un subespacio vectorial del espacio V , el cual contiene un producto escalar que está definido
positivamente y tiene dimensión finita n. Entonces W ⊥ cumple las siguientes propiedades
1. W ∩ W ⊥ = {0};
14 En efecto, pues lo que demuestra aquí es que si tal escalar λ ya existe entonces tiene que ser el que haya encontrado.
15 Recuerda que en el caso en que W = {0} se cumple que r = 0, es decir, B = ∅.
31
Capítulo 1. Álgebra lineal y geometría analítica.
2. V = W + W ⊥ ;
3. dim W + dim W ⊥ = dim V .
Sugerencia: el primero insico es muy fácil. Para el segundo, empieza demostrando los casos W = {0} o
W = V . Ahora supón que 1 ≤ dim W ≤ n − 1. Sea {w1 , . . . , wr } una base de W , con r = dim W .
Completa este conjunto a una base ortonormal {w1 , . . . , wr , u1 , . . . , un−r } de V , utilizarás (1.44). Demostrarás
que {u1 , . . . , un−r } es base de W ⊥ . Sea u ∈ W ⊥ , existen constantes λ1 , . . . , λr y µ1 , . . . , µn−r tales que
r
X n−r
X
u= λi wi + µj uj ,
i=1 j=1
entonces considera el producto hu, wk i para k = 1, . . . , r. Usando el hecho que u ∈ W ⊥ concluirás que λk = 0,
por lo que u1 , . . . , un−r generan a W ⊥ . Resta ver que son linealmente independientes, imita la demostración de
(1.4.7). Incidentalmente, demostraste los incisos dos y tres simultáneamente.
( 1.46 ) Encuentra el plano que pasa por los tres puntos dados:
1. A = (0, 0, 0), B = (1, 1, 0) y C = (0, 0, −1);
2. A = (1, 2, 3), B = (4, 5, 6) y C = (0, 0, 0);
3. A = (2, 0, 1), B = (1, 1, 9) y C = (9, 8, 0).
Sugerencia: observa que el plano buscado pasa por los vectores C + (A − C) y C + (B − C) y es paralelo a
aquel trasladado por −C.
( 1.47 ) Encuentra el plano que es generado por los dos vectores dados:
1. A = (1, 1, 1) y B = (1, −1, 1) que pasa por (2, −5, 1);
2. A = (0, −1, 1) y B = (1, −1, 0) que pasa por (0, 0, 0);
3. A = (1, 2, 2) y B = (−3, 4, −5) que pasa por (1, 1, −1).
( 1.48 ) En este capítulo se definió de dos maneras que A y B sean perpendiculares (mediante el producto punto
y el ángulo entre ellos). Demuestra que son equivalentes.
( 1.49 ) El ángulo entre dos vectores A y B puede escribirse como
kAk + kBk − kA − Bk2
cos γ = .
2 kAk kBk
Con esto, derive que si A = (a1 , . . . , an ) y B = (b1 , . . . , bn ) entonces
a1 b1 + . . . + an bn A·B
cos γ = » » =
a12 2 2 2
+ . . . + an b1 + . . . + bn kAk kBk
Que es la interpretación geométrica del producto interior: A · B = kAk kBk cos γ. Luego, para encontrar el ángulo
entre dos vectores, basta conocer las expresiones
ai bi
ξi = » y µi = » .
a12 + . . . + an2 2
b1 + . . . + bn2
A estas expresiones se les conoce como cosenos directores de los vectores A y B, respectivamente. De hecho ξi y µi
son los cosenos de los ángulos que forman los vectores A y B con lo ejes canónicos de Rn , respectivamente. Luego,
ξi = cos αi para algún α ∈ [0, 2π]. En particular, se cumple el teorema de Pitágoras para cosenos directores:
cos2 α1 + . . . + cos2 αn = 1.
32
1.5. Ejercicios.
( 1.50 ) Utilizando la definición de ángulo entre dos vectores derive la desigualdad de Cauchy-Schwarz: |A · B|2 ≤
kAk kBk .
( 1.51 ) Demuestra (1.4.18).
( 1.52 ) Sean c ∈ R una constante, U ∈ Rn un vector unitario y P = {X ∈ Rn |U · X = c}. La distancia de P
a Y es d = |U · Y − |c||.
33
Capítulo 1. Álgebra lineal y geometría analítica.
34
Capítulo 2
§ 2.1. Funciones.
Si el lector desea omitir este capítulo es libre de hacerlo, no afecta el contenido del resto de los
capítulos. Sin embargo, se le solicita que lea esto en algún momento para obtener una visión más
general de las funciones. Se siguen las ideas de teoría de conjuntos sobre lo que es una función.
La definición anterior es una paráfrasis de la que el lector ya conocía. Es común que, como definición
de función se dé la siguiente: una función es una regla de correspondencia entre dos conjuntos tal
que para todo elemento del primer conjunto existe un único elemento del segundo conjunto. Sin
embargo, esta definición tiene ciertas dificultades técnicas. Por ejemplo, habría empezar definiendo
lo que es una regla de correspondencia y no hay un modo claro de cómo hacerlo1 . En cambio, con
la definición dada se evita este detalle y da la oportunidad de definir funciones entre cualesquier dos
conjuntos.
En la definición (2.1.1) al conjunto A se le conoce como dominio de f y al conjunto B se le conoce
como contradominio; más adelante se verá que el contradominio suele ser banal y sin importancia.
Por notación, se escribirá A = Dom (f) . Observa que, por definición, para todo x ∈ A existe un y ∈ B
tal que (x, y) ∈ f y tal y es único. Esto es, todo elemento x en A tiene una y solo una «imagen» en B.
El recíproco no tiene por qué ser verdadero. Esto es, que todo elemento de B sea imagen de algún
elemento en A. Que suceda esto es tan especial que se ha decidido dar una definición.
( 2.1.2 ) Se dirá que f : A → B es una función suprayectiva si para todo y ∈ B existe x ∈ A tal que (x, y) ∈ f.
La definición anterior está dada en términos de conjuntos. En principio esto no debería causar
ningún problema para entenderla en términos clásicos. Dado y ∈ B existe un x ∈ A tal que f(x) = y.
Intuitivamente hablando se dice que f es suprayectiva si exhausta al conjunto B, por esta razón también
se utiliza el término de función «exhaustiva».
Ahora se definirá lo que es una función inyectiva.
1 En algún momento Euler intentó definir el concepto de regla de correspondencia sin tener el éxito que tuvo la definición
presentada arriba
35
Capítulo 2. Funciones, sucesiones y series.
subyacente.
36
2.1. Funciones.
37
Capítulo 2. Funciones, sucesiones y series.
î √ ó
( 2.1.15 ) Sea A = [−1, 1], B = [0, 1] y C = 0, 2 , considera f : A → B y g : A → C dadas por f(x) = x 2 , y
√
g(x) = x + 1. Encuentra f(A), g(A), f −1 ([0, 1]), g −1 ([0, 1]), f ◦ g y g ◦ f.
Primero que nada, observa que f y g son funciones pues su regla de correspondencia está bien
definida y no hay dos elementos en su dominio que se manden a elementos distintos de su contradominio
y todo elemento de su dominio tiene una imagen. Se ve ahora quien es f(A). Se considera x ∈ [−1, 1]
se
√ tiene que 0 √ ≤ x2 ≤ 1. De esto se deduce que f(A) ⊂ [0, 1]. Sea ahora x ∈ [0, 1]. Entonces existe
x ∈ [0, 1] y f x = x. Por lo tanto, f(A) = [0, 1], por lo que f es suprayectiva. Como dato adicional f
no es inyectiva pues f(−1) = f(1) = 1. √ î √ ó î √ ó
Se obtiene ahora g(A). Dado x ∈ [0, 1] se tiene que g(x) = x + 1 ∈ 0, 2 . Así que, g(A) ⊂ 0, 2 .
î √ ó
Se ve ahora que se satisface la otra contenencia. Dado x ∈ 0, 2 se tiene que x 2 − 1 ∈ [−1, 1] y
î √ ó
g(x 2 − 1) = x. De aquí que g(A) = 0, 2 .
Por otro lado, si f(x) ∈ [0, 1] entonces x 2 ∈ [0, 1] y, por ende, x ∈ A. Luego, f −1 ([0, 1]) ⊂ A y, como
se vio antes,
f(A) ⊂ [0, 1], equivalentemente A ⊂ √ f −1 ([0, 1]), por lo que f −1 ([0, 1]) = A. Para encontrar
−1
g [0, 1] se observa que g(x) ∈ [0, 1] si y solo si x + 1 ∈ [0, 1]. De esto, se ve que x + 1 ∈ [0, 1], por lo
que x ∈ [−1, 0]. Es fácil ver que si x ∈ [−1, 0] entonces g(x) ∈ [0, 1] y por lo tanto g −1 [0, 1] = [−1, 0].
Finalmente las funciones f ◦ g y g ◦ f están dadas por
Ä√ ä
(f ◦ g)(x) = f g(x) = f x + 1 = |x + 1|
y
p
(g ◦ f)(x) = g f(x) = g x 2 = x 2 + 1.
y √
g : [0, 1] → [0, 1] dada por g(x) = x.
Entonces, (f ◦ g)(x) = −x, sin embargo g ◦ f no está definida.
î √ ó î √ ó
( 2.1.16 ) Sean A = [0, 1], B = 0, 2 , C = 1, 2 y D = [0, 2]. Considera f : A → B y g : C → D tales que
√ √
f está dada por f(x) = x 2 + 1 y g está dada por g(x) = x 2 − 1. Encuentra f ◦ g y g ◦ f.
Hay que encontrar Dom (f ◦ g) y Dom (g ◦ f) . Se tiene que Dom (f ◦ g) = {x ∈ C : g(x) ∈ A} = g −1 (A)
y, análogamente, Dom (g ◦ f) = f −1 î (B)
√ = A.ó Observa
î √ ó que g(x) ∈ A ⇔ g(x) ∈ [0, î1], √
pero
ó g(x) ∈ [0, 1] Ñ
x 2 ∈ [1, 2], pero x 2 ∈ [1, 2] Ñ x ∈ − 2, −1 ∪ 1, 2 . De aquí que g −1 ([0, 1]) = 1, 2 . De este modo,
î √ ó
Dom (f ◦ g) = C. Ahora bien, para x ∈ 1, 2 se tiene que
Ä√ ä p
(f ◦ g)(x) = f x 2 − 1 = x 2 − 1 + 1 = |x| = x.
38
2.2. Familias de elementos.
y, análogamente,
Dom (g ◦ f) = f −1 ([0, ∞)) = [0, ∞).
Por tanto, falta encontrar la regla de correspondencia de ambas funciones. Es fácil verificar que (f ◦
g)(x) = x = (g ◦ f)(x).
Observa que f ◦ g y g ◦ f satisficieron lo siguiente: para todo x ∈ Dom (f ◦ g) , (f ◦ g)(x) = x y, para
todo x ∈ Dom (g ◦ f) , (g ◦ f)(x) = x. Estas funciones se les conoce como función identidad. En abstracto,
se tiene la siguiente definición.
( 2.1.18 ) Sea f : A → A. Se dirá que f es la función identidad de A o función idéntica de A si f = {(x, x) : x ∈ A}.
( 2.1.19 ) Sea f : A → B. Se dirá que f tiene una función inversa si existe g : B → A tal que g ◦ f = IA y
f ◦ g = IB .
Por ejemplo, la función f : [0, 2π) → [−1, 1] dada por f(x) = sin x es invertible y su inversa es
g : [−1, 1] → [0, 2π) dada por g(x) = arcsin x. Nota que el hecho de que f sea invertible depende
directamente de Dom (f) y de su contradominio. Por ejemplo, para que f sea invertible es necesario
que a cada x ∈ Dom (f) se le asocie un único elemento y en su contradominio, pues de otro modo
la inversa g no estaría definida. Entonces, es necesario que f sea inyectiva. El siguiente teorema es
plausible. Su demostración queda de ejercicio al lector.
( 2.1.20 ) Para que una función f : A → B sea invertible es necesario y suficiente que sea inyectiva y suprayectiva;
en particular, si f : A → B es inyectiva entonces f : A → f(A) es invertible.
( 2.2.1 ) Sea Λ 6= ∅ y X 6= ∅. Se dirá que una función f : Λ → X es una familia de elementos de X cuyo
conjunto de índices es Λ. Luego, se escribirá f(α) = xα y f = (xα )α∈Λ . Si ∆ ⊂ Λ entonces a la restricción de la
función α → xα de Λ a ∆ se le llama subfamilia de (xα )α∈Λ .
( 2.2.2 ) Sea (xα )α∈Λ una familia de elementos de un conjunto X. Entonces la cardinalidad de esta familia coincide
con card (Λ) .
Para demostrar esto se recuerda que si A y B son dos conjuntos cualesquiera tales que existe una
biyección entre ellos entonces card (A) = card (B) . La biyección que se define es
39
Capítulo 2. Funciones, sucesiones y series.
Es claro que φ es inyectiva pues si φ(α, xα ) = φ(β, xβ ) entonces α = β y por ser (xα )α∈Λ una familia,
se sigue que xα = xβ . Asimismo, φ es suprayectiva pues si α ∈ Λ entonces (α, xα ) es un elemento de
la famila que es mandado mediante φ a α y φ es suprayectiva. En virtud de (2.1.20) y la observación
inicial se concluye.
A continuación se da el «Axioma de elección» el cual es equivalente al Lema de Zorn utilizado antes
al demostrar que todo espacio vectorial posee una base (1.2.14). Antes, es necesario definir lo que es la
potencia de una conjunto.
( 2.2.3 ) Sea X un conjunto cualquiera. Se define P (X) como el conjunto de todos los subconjuntos de X.
( 2.2.4 ) Sean X y Y dos conjuntos y (Ax )x∈X una familia de elementos de P (Y ) tal que cada Ax 6= ∅. Entonces
existe una «función de elección» f : X → Y tal que f(x) ∈ Ax para cada x ∈ X.
Para la demostración de que este enunciado equivale al Lema de Zorn y otras formas del axioma
de elección se recomienda al lector que lea el libro de Enderton [9] o de Suppes [24].
( 2.2.5 ) Sea (Aα )α∈Λ una familia de elementos de P (X) . El conjunto de todos los elementos x ∈ X que están
en por lo menos un Aα se llama la unión de la familia y se denota por
[ [
Aα o bien (Aα )α∈Λ .
α∈Λ
El conjunto de los elementos x ∈ X que están en todos los Aα se llama la intersección de la familia y se denota
por
\ \
Aα o bien (Aα )α∈Λ .
α∈Λ
Observación: cuando el cunjunto de índices tiene un número finito de elemento, por ejemplo n
elementos, entonces se puede pensar que tal conjunto es {1, . . . , n}. Luego, en este caso, a la unión de
una familia finita se le denota por
n
[
Ak o bien A1 ∪ . . . ∪ An ,
k=1
en donde k es una «variable muda»; es decir, k puede ser sustituído por cualquier otro símbolo conve-
niente. Análogamente, la intersección de una familia finita (A1 , . . . , An ) se denota por
n
\
Ak o bien A1 ∩ . . . ∩ An .
k=1
Sea X un conjunto cualquiera. Se dirá que una familia (Aα )α∈Λ de elementos de P (X) es una cubierta
( 2.2.6 )[
de X si Aα = X. Se dirá que tal familia es una partición si aparte de ser cubierta para cualesquier α, β ∈ Λ
α∈Λ
con α 6= β se tiene que Aα ∩ Aβ = ∅.
40
2.2. Familias de elementos.
Observaciones: Las siguientes son inmediatas de esta definción. Cada una de ellas puede ser derivada
a partir de las relaciones lógicas correspondientes, es decir, son definiciones reescritas en términos de
conjuntos.
1. Para cualquier A ⊂ X, {X {X A = A.
2. Para cualesquier A, B ⊂ X {X (A ∪ B) = {X A ∩ {X B.
3. Para cualesquier A, B ⊂ X {X (A ∩ B) = {X A ∪ {X B.
La siguiente proposición resume todas las operaciones más utilizadas entre familas y funciones.
( 2.2.8 ) Sean Λ, ∆, Σ tres conjuntos “de índices”; X, Y dos conjuntos “de elementos”; F : X → Y una función;
(Aα )α∈Λ , (Bβ )β∈∆ dos familias de elementos de P (X) y (Cγ )γ∈Σ una familia de elementos de P (Y ) . Entonces
!
[ \
1. {X Aα = {X Aα ;
α∈Λ α∈Λ
! Ñ é
[ [ [
2. Aα ∩ Bβ = Aα ∩ Bβ ;
α∈Λ β∈∆ (α,β)∈Λ×∆
! Ñ é
\ \ \
3. Aα ∪ Bβ = Aα ∪ Bβ ;
α∈Λ β∈∆ (α,β)∈Λ×∆
!
[ [
4. F Aα = F(Aα );
α∈Λ α∈Λ
Ñ é
[ [
5. F −1 Cγ = F −1 (Cγ );
γ∈Σ γ∈Σ
Ñ é
\ \
6. F −1 Cγ = F −1 (Cγ ).
γ∈Σ γ∈Σ
41
Capítulo 2. Funciones, sucesiones y series.
! Ñ é
[ [ [ [
2. Si x ∈ Aα ∩ Bβ entonces x ∈ Aα y x ∈ Bβ , existen entonces α0 ∈ Λ y
α∈Λ β∈∆ α∈Λ β∈∆
[
β0 ∈ ∆ tales que x ∈ Aα0 y x ∈ Bβ0 ; esto es x ∈ Aα0 ∩ Bβ0 ⊂ Aα ∩ Bβ . Recíprocamente, si
(α,β)∈Λ×∆
[
x∈ Aα ∩ Bβ entonces hay un índice (α0 , β0 ) ∈ Λ × ∆ tal que x ∈ Aα0 ∩ Bβ0 , en particular
(α,β)∈Λ×∆
[ [
x ∈ A α0 ⊂ Aα y x ∈ Bβ0 ⊂ Bβ , que demuestra el inciso.
α∈Λ β∈∆
§ 2.3. Sucesiones.
Recuerda que una sucesión en R se suele pensar como una lista de números a1 , a2 , . Å. . , es inme-
ã
1
diato que conviene considerar familias enumerables. Por ejemplo, considera la sucesión 1 +
n n∈N
1
entonces, el «término general» de la sucesión es an = 1+ . Resulta conveniente la siguiente definición.
n
( 2.3.1 ) Una sucesión definida en un conjunto A (donde A es arbitrario y no vacío) es una familia cuyo conjunto
de índices son los naturales.
( 2.3.2 ) Por definición, se tiene que (an )n∈N = {(n, an ) : n ∈ N}.
Como A 6= ∅, se tiene que F 6= ∅. Asimismo, por notación, F(n) = Fn o F(n) = an . Ahora bien, en
R se tiene el concepto de límite de una sucesión, pues existe la noción de distancia. Dado que en Rn
también se tiene la noción de distancia con la cual se puede introducir todo lo conocido de límite de
sucesiones de R a Rn . Antes de hacer esto será necesario recordar el caso en R. Se considera (an )n∈N
una sucesión en R tal que lı́m an = p. Esto significaba precisamente lo siguiente:
n→∞
Intuitivamente hablando, se dice que p es límite de la sucesión (an )n∈N si an está cerca de p cuando n
crece. Esta noción puede generalizarse a Rn sin ningún problema.
42
2.3. Sucesiones.
( 2.3.3 ) Sea F : N → Rm una sucesión de puntos en Rm . Será dicho que la sucesión converge a P ∈ Rm ,
denotado como lı́m F(n) = P, si
n→∞
(∀ε > 0)(∃N > 0) tal que (n > N Ñ kF(n) − Pk < ε).
Esta definición es una generalización directa del caso real. Seguramente el lector dice que solo ha
sido cambiado el valor absoluto por norma. Esto es cierto pues las propiedades geométricas del valor
absoluto se conservan de manera análoga para la norma.
Al igual que en el caso real, para encontrar un límite de una sucesión dada se debe proceder a dar
un número ε > 0 y encontrar un natural N > 0, el cual es función de ε, que satisfaga la definición.
( 2.3.4 ) Determine si la siguiente sucesiónÅconverge o no ã(cuando una sucesión no converge se dice que diverge).
1 1
La función F : N → R2 dada por F(n) = 1 − , 1 + .
n n
Observa que cada coordenada tiende a 1 cuando n → ∞. De aquí que es natural pensar que
lı́m F(n) = (1, 1). Sea ε > 0. Entonces
n→∞
Å ã
…
1 1
2
k(1, 1) − F(n)k < ε ⇔
,−
<ε ⇔
2
<ε
√ n n n √
2 2
⇔ <ε ⇔ n> .
n ε
√
3 2
Sea N ∈ N el mínimo natural tal que N > entonces para cada n ≥ N se tiene que la distancia entre
ε
(1, 1) y F(n) es menor que ε. Esto demuestra que lı́m F(n) = (1, 1).
n→∞
¿Siempre existe el límite? Y cuando existe, ¿puede una sucesión convergir a dos vectores distintos?
La primera respuesta es que no, la sucesión (n)n∈N no converge en R hacía ningún número real l ∈ N.
La segunda es que sí, como se demuestra a continuación.
( 2.3.5 ) Sea (Xn )n∈N una sucesión en Rm . Si X y Y son dos puntos en Rm para los cuales la sucesión (Xn )n∈N
converge a ellos entonces son el mismo punto, X = Y .
La demostración de este resultado se basa en la idea de que (Xn ) finalmente estará arbitrariamente
cercana a X y también estará arbitrariamente cercana a Y , por lo que X y Y deberán estar arbitraria-
mente cercanos el uno del otro. Para formalizar esta noción, sea ε > 0. Como (Xn )n∈N converge a X,
existe un N1 tal que
ε
n ≥ N1 Ñ kXn − Xk < .
2
Como (Xn )n∈N converge a Y , existe un N2 tal que
ε
n ≥ N2 Ñ kXn − Y k < .
2
Sea N = máx{N1 , N2 }. Se siguen cumpliendo las dos implicaciones previas. Por lo tanto, n ≥ N Ñ
kX − Y k ≤ kX − Xn k + kXn − Y k ≤ ε, donde la primera desigualdad es consecuencia de la desigualdad
triangular. Se demostró que (Xn )n∈N y (Yn )n∈N están arbitrariamente cercanos, por lo que deben ser
el mismo punto. Para ver esto, supón que X 6= Y , esto es equivalente a que kX − Y k > 0. Define
kX − Y k kX − Y k
ε= . Se demostró que kX − Y k < ε = . Despejando, se obtiene que kX − Y k < 0, lo
2 2
cual es falso.
Antes de continuar es conveniente que el lector recuerde las principales propiedades elementales y
útiles de las sucesiones en R. El siguiente teorema queda a título de ejercicio para el lector.
3 Observa que este natural es función de ε.
43
Capítulo 2. Funciones, sucesiones y series.
( 2.3.6 ) Sea (an )n∈N , (bn )n∈N y (cn )n∈N tres sucesiones en R. Entonces
1. si (an ) es convergente entonces es acotada;
2. si an ≤ bn ≤ cn y (an ) y (cn ) convergen a l entonces (bn ) converge a l;
3. si (an ) es monótona4 y acotada5 entonces an converge; de hecho, (an ) convergerá a su supremo o su ínfimo
según sea monótona creciente o decreciente;
4. si (an ) converge a a y (bn ) converge a b entonces para cualquier λ ∈ R la sucesión
Å (aãn + λbn ) convergerá
an a
a a + λb y la sucesión (an bn ) convergerá a ab; más aún, si b 6= 0, la sucesión convergerá a ;
bn b
5. si 0 ≤ |r| < 1 entonces la sucesión (r n )n∈N converge a cero;
√
6. si p > 0 entonces la sucesión n p n∈N converge a 1;
7. si f : [0, ∞) → R es continua (en el sentido que se supone que el lector ya conoce) y (an ) es una sucesión
tal que f(n) = an para todo n ∈ N entonces para que (an ) converga a a es condición necesaria y suficiente
que lı́m f(x) exista, en este caso, tal límite vale a;
x→∞
44
2.3. Sucesiones.
z 2.3.1 Subsucesiones.
Continuando con este rápido estudio de sucesiones se llega al concepto de subsucesión. Sea (an )n∈N
una sucesión. Se dice que (ani )i∈N es subsucesión de (an )n∈N si (ani )i∈N es una sucesión y ni > nj ⇔ i > j.
Esto conduce a una definición natural para el caso general.
El caso real se satisface inmediatamente con esta definición. Como ejemplo de la definición, consi-
dera la sucesión F dada por
exp(n)
Å ã si n es par;
F(n) = 1
exp si n es impar.
n
Define σ : N → N dada por σ(n) = 2n − 1. Claramente, σ es una función creciente (en sentido Å estricto),
ã
1
por lo tanto f = F ◦ σ es una subsucesión de F. Se tiene que f está definida por f(n) = exp .
2n − 1
Nota que f es una sucesión convergente cuando F no lo es. La teoría sobre series será desarrollada
por el lector en los ejercicios. Antes de pasar a los ejercicios, se verá un último ejemplo.
h x α i
( 2.3.10 ) Sea F : N → R dada por F(n) = n log 1 + , donde x ≥ 0 y α ≥ 0. Determine la convergencia
n
de F.
Encontrar el límite de F puede ser tratado de distintas formas, aquí se presentará una. Si (an )n∈N es
una sucesión de número reales y f : (0, ∞) → R satisface que f(n) = an para todo n y que lı́m f(x) = p
x→∞
ï Å ãα ò
x
entonces lı́m an = p. Se definen las funciones φ, ψ : (0, ∞) → R dadas por φ(y) = log 1 +
n→∞ y
y ψ(y) = y. Entonces, (ψφ)(n) = F(n) para todo n ∈ N. Por la aclaración previa, basta encontrar
lı́m (ψφ)(y). Claramente, lı́m ψ(y) = ∞; para φ se observa que log es continua, así
y→∞ y→∞
ï Å ãα ò
x
lı́m φ(y) = log lı́m 1 + = log(1) = 0.
y→∞ y→∞ y
φ(y) 0
Entonces, lı́m (ψφ)(y) = lı́m toma la forma , por lo que aplica la regla de L’Hôpital. Se tiene
y→∞ y→∞ (ψ(y))−1 0
que,
45
Capítulo 2. Funciones, sucesiones y series.
(∀ε > 0)(∃N > 0) tal que (n, m ≥ N Ñ |an − am | < ε).
(∀ε > 0)(∃N > 0) tal que (n, m ≥ N Ñ kF(n) − F(m)k < ε).
Esta condición es llamada condición de Cauchy, y por definición una sucesión es de Cauchy si y
solo si satisface la condición de Cauchy. Hay que precisar que no todas las sucesiones son de Cauchy, de
hecho pronto serán caracterizadas aquellas que lo son. El criterio sería el mismo que el caso real, una
sucesión es de Cauchy si y solo si es convergente. Primero se demuestra la implicación más sencilla.
( 2.3.12 ) Toda sucesión convergente es de Cauchy.
Sea (an )n∈N una sucesión en Rm la cual se supone convergente a a. Sea ε > 0 y N ∈ N tal que
ε
n ≥ N Ñ kan − ak ≤ . Entonces, de la desigualdad triangular, se deriva que para cualesquier n, m ≥ N
2
se debe cumplir que
ε ε
kan − am k ≤ kan − ak + kam − ak ≤ + = ε.
2 2
Lo cual concluye la demostración.
Å n ã
p 1
( 2.3.13 ) Considera la sucesión F definida por F(n) = , , F es una sucesión de Cauchy.
n! n
∞
X pn
Solo hay que ver que F es convergente. Observa que es convergente; en efecto, con aplicar
n!
n=1
el criterio del cociente (ve (2.26)) se ve que
pn+1
(n + 1)! p
lı́m = lı́m = 0,
n→∞ pn n→∞ n + 1
n!
∞
X pn pn
lo cual dice que la serie converge y con esto se tiene que lı́m = 0. Por lo tanto, ambas
n! n→∞ n!
n=1
sucesiones son convergente y (2.3.12) concluye el ejercicio.
( 2.3.14 ) Sea F : N → Rk una sucesión de Cauchy. Entonces F es convergente.
Se demostrará primero que toda sucesión de Cauchy en R es convergente. Entonces, sea (an )n∈N
una sucesión de Cauchy en R. Existe un N > 0 tal que n, m ≥ N Ñ |an − am | ≤ 1. En particular,
m ≥ N Ñ |am − aN | ≤ 1, de aquí que
lo cual dice que los términos (ak )k≥N están acotados por 1+|aN |. Sea M = máx{|a1 |, . . . , |aN−1 |, 1+|aN |}.
Entonces, todos los elementos de la sucesión (an )n∈N están acotados por M. Se extraerá ahora una
46
2.4. Ejercicios.
subsucesión de (an ) la cual resultará monótona. Se supone que hay una infinidad de términos en la
sucesión que son distintos, en caso contrario, hay una infinidad de términos que coinciden y se define
la subsucesión de tal forma que sea constante, por ende, convergente. Entonces, se puede suponer que
hay una infinidad de términos de la sucesión que son más grandes que a1 (de lo contrario, hay una
infinidad de términos que son más pequeños y el argumento es el mismo). Sean n1 = 1 y define n2 como
el mínimo natural k > 1 tal que ak ≥ an1 . Se prodece inductivamente, definiendo nj+1 como el mínimo
natural k > nj tal que anj+1 ≥ anj . Entonces, se definió una subsucesión (anj )j∈N la cual es monótona
creciente y acotada por M. Por lo tanto, ve (2.3.6), existe el límite de la subsucesión. Sea a = lı́m anj .
j→∞
Se demostrará que (an )n∈N converge a a. Para este efecto, dado ε > 0 existe un N ∈ N tal que si j ≥ N
ε ε
entonces |anj − a| < . Por la propiedad de Cauchy, existe un P ∈ N tal que n, m ≥ P Ñ |an − am | ≤ .
2 2
Sea entonces Q = máx{N, P}. Entonces, j ≥ Q Ñ |aj − a| ≤ |aj − anQ | + |anQ − a| ≤ ε puesto que
nQ ≥ M. Ä (1) (k)
ä Ä (i) ä
Se supone que F(n) = an , . . . , an entonces por (2.3.8) basta demostrar que cada sucesión an
Ä (i) ä n∈N
es convergente. Si se demuestra que cada sucesión an es de Cauchy, se podrá concluir. Como
n∈N
F es de Cauchy
dado ε > 0 existe M > 0 tal que n, m ≥ M Ñ kF(n)Ä− F(m)k < ε. Pero al ser,
(i) (i) (i)
ä
an − am ≤ kF(n) − F(m)k para i = 1, . . . , k (ejercicio (1.20)) se tiene que an es de Cauchy.
n∈N
§ 2.4. Ejercicios.
Resolver cada uno de los siguientes.
( 2.1 ) Sean f, g y h funciones tales que las composiciones h ◦ (f ◦ g) y (h ◦ f) ◦ g están definidas. Entonces
h ◦ (f ◦ g) = (h ◦ f) ◦ g.
( 2.2 ) Para que la función f sea inyectiva es necesario y suficiente que f −1 (f(A)) = A para todo A ⊂ Dom (f) .
( 2.3 ) Supón que f es una función que admite una inversa g entonces g es única. A tal función g se le denotará
por f −1 .
( 2.4 ) Supón que f tiene inversa. Entonces f −1 (A), es independiente de f y f −1 . Esto es, {x : f(x) ∈ A} =
{f −1 (x) : x ∈ A}.
( 2.5 ) Supón que f : X → Y es una función invertible y E una “ecuación”. Sea S = {x ∈ Dom (f) : E(x) = 0}
entonces f(S) = {y ∈ Y : E(f −1 (y)) = 0}.
( 2.6 ) Sea S = {(x, y) ∈ R2 : k(x, y)k = 1}, el círculo unitario en R2 . Considera la transformación lineal
T : R2 → R2 dada por T(x, y) = (3x + 2y, 5x − y), encuentra T(S) y T −1 (S).
( 2.7 ) Sea P un plano en R2 y T : R2 → R2 una transformación lineal invertible. Demuestre que T(P) y que
T −1 (P) son planos.
( 2.8 ) Sea P un plano m dimensional en Rn (m ≤ n) y T : Rn → Rn una transformación lineal invertible.
Demuestre que T(P) y T −1 (P) son planos m dimensionales en Rn .
( 2.9 ) Sea P un plano m dimensional en Rn (m ≤ n). Encuentra T : Rn → Rn tal que T(P) no sea un plano m
dimensional en Rn .
( 2.10 ) Demuestra el teorema (2.3.6). Puedes seguir las siguientes sugerencias.
1. Supón que (an ) converge a a. Por definición, existe un N tal que n ≥ N Ñ |an − a| < 1. Entonces, salvo
un número finito de elementos, todos los elementos de la sucesión están acotados por |a| + 1.
47
Capítulo 2. Funciones, sucesiones y series.
4. Nota que |a + λb − an − λbn | ≤ |a − an | + |λ||b − bn |, que |an bn − ab| ≤ |an − a||bn | + |a||b − bn | ≤
M|an − a| + |a||b − bn |, donde M es una cota de la sucesión (bn ). El cociente es más dificil,
an a an b − abn |an − a||b| + |a||b − bn |
b − = ≤ ,
n b bn b m|b|
48
2.4. Ejercicios.
( 2.18 ) Encuentra una subsucesión convergente de la sucesión dada. Las sucesiones están dadas por la imagen
de un punto n ∈ N arbitrario.
1. (n + (−1)n n, pn ) , donde −1 < p < 1.
n
!
n2 X (−1)i
2. , .
3n i
i=1
n
!
1 X i
3. 2 , arctan(n) .
en
i=1
n n
!
X (−1)i π 2i+1 X (−1)i π 2i
4. , .
(2i + 1)! (2i)!
i=1 i=1
n
5. (−1)(−1) , sin(nπ) .
{kF(n) − G(n)k}n∈N
( 2.22 ) Una condición necesaria y suficiente para que la serie asociada a la sucesión
F sea convergente
es que
X n
para todo ε > 0 existe un N ∈ N tal que si n y m son más grandes que N entonces
Fi
< ε; el «criterio
i=m
de Cauchy» para convergencia de series.
∞
X
( 2.23 ) Supón que F es una sucesión con valores en Rm . Si la serie numérica (kF(n)k)n∈N converge, kF(n)k <
n=1
∞, entonces la serie asociada a F converge.
∞
X
( 2.4.2 ) Sea F una serie en Rm , se dice que F converge absolutamente si kF(n)k converge. Más aún, se dice
n=1
∞
X ∞
X
que F converge incondicionalmente si para cada biyección σ : N → N se tiene que F(n) = F(σ(n)).
n=1 n=1
49
Capítulo 2. Funciones, sucesiones y series.
( 2.24 ) Una condición necesaria y suficiente para que una serie converja absolutamente es que cada una de las
series coordenadas converja absolutamente.
( 2.25 ) Una condición necesaria y suficiente para que una serie converja absolutamente es que converja incondi-
cionalmente.
Sugerencia: utiliza que este resultado es cierto para el caso real.
( 2.26 ) Sean (an )n∈N y (bn )n∈N dos sucesión de número positivos.
an+1
1. Se supone que lı́m = a existe. Entonces, si a < 1, la serie converge; si a > 1, la serie diverge; si
an
n→∞
a = 1, el criterio falla, esto es, hay series convergentes y divergentes para las que a = 1 (hay que dar un
ejemplo de cada una).
√
2. Si ahora se supone que lı́m n
an = a existe, las conclusiones anteriores son las mismas.
n→∞
an
3. Si lı́m = l existe y l 6= 0 entonces la serie (an ) converge si y solo si la serie (bn ) también lo hace.
n→∞ bn
4. Si para cualquier n ∈ N se cumple que an ≤ bn entonces que la serie (an ) diverja implica que la serie (bn )
diverge y recíprocamente, que la serie (bn ) converja implica que la serie (an ) converge.
Å ã
1
5. La series de la forma divergen para p ≤ 1 y convergen para p > 1.
np
Sugerencia: para la convergencia de las series n−p utiliza la definición de integral de Riemann para funciones
de R a R. Deberás notar que
Zm m Zm
1 X 1 1
p
dx ≤ p
≤1+ dx.
x n xp
1 n=1 1
n Ç √ å
X 1 i−1
2. , .
ip i2
i=1
n Ç √ å
X i−1 i2 − i + 1
3. , .
i i2
i=1
n Ç å
X
αi (−1)i ln(i)
4. p , , donde p > 0 y α ∈ R.
i
i=1
n Ç å
X 5i i2 + 3i
5. , .
7i + i 2 3i − i
i=1
50
2.4. Ejercicios.
( 2.28 ) En R se tiene el orden dado por los números reales. En este caso se puede hablar de la divergencia a
+∞ y a −∞ de las sucesiones. En efecto, se dice que lı́m F(n) = +∞ si dado N > 0 existe M > 0 tal que
n→∞
n ≤ M Ñ F(n) > N, el caso lı́m F(n) = −∞ es análogo. Ahora bien, en Rm no existe un orden como el de R
n→∞
por lo que no hace sentido hablar de +∞ o de −∞, así que para generalizar esta idea, se dirá que F converge a
∞ si kF(n)k converge a +∞. Demuestre que F : N → Rm converge a ∞ si y solo si alguna de sus sucesiones
coordenadas lo hace.
( 2.29 ) El concepto de sucesión puede ser dado sobre cualquier conjunto A (ve (2.3.1)) mas no el de límite pues
este último requiere cierta noción sobre qué tan cerca o qué tan lejos se encuentran los elementos del conjunto.
En general, se dirá que una sucesión (vn )n∈N en un espacio vectorial real y normado (V , kk) converge en V si
existe un elemento v ∈ V tal que para todo ε > 0 existe un N(ε) > 0 tal que n ≥ N(ε) Ñ kvn − vk < ε. El
concepto de subsucesión sí puede darse en general y el de sucesión de Cauchy necesita fuertemente la noción de
distancia.
Demuestra las siguientes propiedades, las cuales los análogos para las propiedades para R. En todos los casos,
supón que (vn )n∈N y (wn )n∈N son dos sucesiones en el espacio vectorial normado y de dimensión finita (V , kk), que
v, w ∈ V son elementos cualesquiera, que (λn )n∈N es una sucesión en R y que λ ∈ R es un número cualquiera.
1. Si (vn )n∈N converge en V hacia los vectores v, w ∈ V entonces v = w.
2. Si (vn )n∈N converge en V (no importando a quien converja) entonces es una sucesión de Cauchy.
3. Si (vn )n∈N converge en V (no importando a quién converja) entonces es una sucesión acotada.
4. Si (vn )n∈N converge a v, (wn )n∈N a w y (λn )n∈N converge en R hacia λ entonces la sucesión (vn +λn wn )n∈N
converge a v + λw.
5. Si (wn )n∈N es una subsucesión de (vn ) entonces, que (vn )n∈N converja a v implica que (wn )n∈N también
converge a v.
6. Si (vn )n∈N es convergente a 0 ∈ V y (λn )n∈N es acotada en R entonces (λn vn )n∈N también converge a
0 ∈ V.
Sugerencia: para cada inciso se da una sugerencia.
4. Nota que
51
Capítulo 2. Funciones, sucesiones y series.
52
Capítulo 3
• Topología de Rn .
Aquí se verán las propiedades más importantes sobre los subconjuntos de Rn para poder desarrollar
adecuadamente el cálculo. En el siguiente capítulo se desarrollarán más propiedades sobre topología
de puntos en Rn . Esto será posible una vez que se hayan estudiado a las curvas en Rn .
§ 3.1. Subconjuntos de Rn .
A diferencia del cálculo de una variable en el que solo podían considerarse los intervalos, en Rn se
tiene una infinidad de posibilidades. Se empieza con la generalización de los intervalos. En R el intervalo
[a, b] se definía como el conjunto de todos los números entre a y b incluyendo a los extremos. El análogo
en Rn es, naturalmente, [a1 , b1 ] × · · · × [an , bn ] y a este conjunto se le llamará caja cerrada, rectángulo
cerrado, intervalo n-dimensional cerrado o inclusive policilindro cerrado1 . En R2 se tiene una imagen
geométrica del rectángulo cerrado, la cual es un rectángulo, el cual contiene a todos sus lados. Del
mismo modo, en R3 la imagen geométrica de una caja cerrada es un paralelepípedo el cual contiene
todas sus caras.
Del mismo modo que antes, se tiene una generalización natural del intervalo abierto, ¿puede adivinar
cuál es? Al conjunto (a1 , b1 ) × · · · × (an , bn ) se le denomina caja abierta, rectángulo abierto, etcétera.
Como en el caso del rectángulo cerrado se tiene una imagen geométrica del rectángulo abierto. En R2
se puede ver, igualmente, un rectángulo, mas esta vez no contiene sus lado y en R3 una caja que no
tiene a sus caras.
Los nombres de intervalo abierto y cerrado están muy relacionados con las imágenes geométricas
de tales intervalos. Por ejemplo, ¿se ha preguntado alguna vez por qué al intervalo (a, b) se le llama
abierto? El adjetivo abierto surge del hecho que (a, b) no tiene bordes, es decir, estando dentro del
intervalo se puede acercarse tanto a los extremos como se quiera sin llegar a estar en ellos. Intervalos
como (−∞, a) y (a, ∞) son abiertos. Como generalización natural, se dice que el conjunto A ⊂ R es
abierto si nunca se tocan sus bordes; esto es, si dado un x ∈ A se puede hallar un δ > 0 tal que
(x − δ, x + δ) ⊂ A. Observa que (x − δ, x + δ) = {y ∈ R : d(x, y) < δ}, en donde d es la distancia
euclidiana. Este último conjunto ya no depende de la dimensión y está dispuesta a generalización.
{Y ∈ Rn : kX − Y k < δ}
1 El término que se emplee para designarlo dependerá siempre del contexto.
53
Capítulo 3. Topología de Rn .
una bola abierta de radio δ centrada en X. Será denotada por B (X; δ)2 .
Observación: La imagen geométrica en R2 de una bola abierta es un disco centrado en el punto dado
que no contiene a su círculo perimetral. En R3 se tiene un balón esférico sin cáscara.
La generalización natural es considerar ahora un conjunto arbitrario A ⊂ Rn y definir cuando A es
abierto.
( 3.1.2 ) Sea A ⊂ Rn cualquiera. Se dirá que A es un conjunto abierto si para todo X en A existe un δ > 0 tal
que B (X; δ) ⊂ A.
Cabe la aclaración que la definión anterior es para conjunto abierto y que antes se definió bola
abierta. Obviamente los nombres parecen indicar que las bolas abiertas son conjuntos abiertos. Esto
será visto más adelante.
Para verificar esto, sea X ∈ Rn y δ = 1, claramente B (X; δ) ⊂ Rn . Que ∅ sea abierto se sigue por
vacuidad.
De este modo se extendió la definición de que un conjunto sea abierto partiendo de los intervalos
en R a alguna colección de subconjuntos de Rn . Los ejemplos mostrados a continuación traen como
resultado que esta colección no es vacía.
Sea X ∈ Rn y M > 0, sea A = B (X; M) . Imagina lo que sucede en R2 , tal vez esto sugiera qué hacer
en el caso general. En R2 se tiene que A es un disco de radio M y con centro en X. Se quiere ver que
para cualquier punto Y en el disco existe otro disco cuyo centro es el punto Y y que está completamente
contenido en el disco dado. Si se toma la recta que une X con Y y se ve que si se toma la diferencia
entre M y la distancia entre X y Y entonces la distancia menor de Y al borde del disco. Con esto
bastaría tomar el radio del disco centrado en Y como cualquier número positivo que sea menor que la
diferencia entre ambos. Se verá que esto funciona.
M − kX − Y k
Sean Y ∈ A y r = . Se define B = B (Y ; r) . Se quiere ver que B ⊂ A. Sea Z ∈ B. Por
2
construcción, kZ − Y k < r y se debe demostrar que kZ − Xk < M; esto sugiere usar la desigualdad del
triángulo.
kZ − Xk ≤ kZ − Y k + kY − Xk < r + kY − Xk
M − kX − Y k M − kX − Y k + 2 kY − Xk
= + kY − Xk =
2 2
M + kY − Xk 2M
= < =M
2 2
Con la última desigualdad se ve que Z ∈ A, con lo cual B ⊂ A. Se concluye que toda bola abierta es un
subconjunto abierto.
El lector deberá buscar la forma de entender los argumentos geométricos empleados en esto ejem-
plos. Una recomendación razonable es que en estos primeros ejemplos resueltos traiga una hoja de
papel y realize el dibujo asociado a la demostración. Rápidamente notará que los argumentos siguen
ideas geométricas muy claras.
54
3.1. Subconjuntos de Rn .
55
Capítulo 3. Topología de Rn .
56
3.1. Subconjuntos de Rn .
˚
( 3.1.14 ) Dado un subconjunto A ⊂ Rn el interior de A, denotado como A, Û es el conjunto de X en Rn tales que
existe algún ε > 0 para el cual B (X; ε) ⊂ A. El exterior de A, denotado como ext A, es el conjunto de puntos
X en Rn para los cuales existe ε > 0 tal que B (X; ε) ⊂ {Rn A.
( 3.1.15 ) Para cualquier subconjunto de Rn , su interior y su exterior son conjuntos disjuntos. Más aún, el interior,
˚
exterior y frontera son conjuntos disjuntos dos a dos y forman una partición de Rn . Esto es, Rn = A Û ∪ ∂A ∪ ext A
n
para cualquier A ⊂ R .
Esta afirmación es inmediata de la definición, queda a cargo al lector la demostración en los ejerci-
cios.
( 3.1.16 ) Determine el interior, exterior y la frontera del conjunto Sn−1 , el cual está definido como {X ∈ Rn :
kXk = 1}.
Este conjunto es muy “delgado” en el sentido que en R2 corresponde a los puntos sobre un círculo
y en R3 a la cáscara de una balón esférico. Es natural pensar que no tiene puntos interiores. De este
modo tiene sentido pensar que el interior es vacío, el exterior es Rn menos el conjunto dado, esto es
que el conjunto dado es su frontera.
Sean X tal que kXk = 1 y r > 0. Existe Y ∈ B (X; r) con kY k 6= kXk ; de hecho, sea L la recta que pasa
r
por el origen en dirección de X, es decir, L = {tX : t ∈ R}, para Y = X + X se tiene que kX − Y k < r
2
pero kXk 6= kY k . De este modo la bola contiene puntos del conjunto, a saber X, y puntos fuera del
conjunto, Y . Luego, el conjunto dado está contenido en su frontera, Sn−1 ⊂ ∂Sn−1 .
Se supone ahora que X está en la frontera del conjunto. Si kXk 6= 1 entonces es mayor o menor. Se
demostrará el caso cuando kXk > 1 y se dejarán los detalles al lector para el caso kXk < 1. Se supone
δ−1
que kXk = δ > 1, y se considera Y en la bola centrada en X de radio . Se cumple que
2
δ−1
kXk ≤ kY k + kY − Xk ≤ kY k + ,
2
usando la desigualdad del triángulo (ve (1.4.2)). Despejando kY k , se ve que
δ−1 δ−1 δ+1
kY k ≥ kXk − =δ− = > 1.
2 2 2
Por tanto, existe una bola centrada en X que no contiene puntos del conjunto. Esto implica que X no
está en la frontera y, por tanto, kXk no es mayor a uno. El razonamiento para el caso menor es análogo.
De este modo, la norma de X es uno. Así, el conjunto y su frontera coinciden.
Del ejemplo anterior es razonable pensar que si B0 (X; r) = {Y ∈ Rn : kX − Y k ≤ r} entonces
∂B (X; r) = {Y ∈ Rn : kX − Y k = r}. Al conjunto B0 (X; r) se le conoce como bola cerrada de centro X
0
0 ˚
( 3.1.17 ) Sea B0 (X; r) ⊂ Rn la bola cerrada de centro X y radio r. Determine quienes son los conjuntos B
˚ (X; r) ,
0 0
ext B (X; r) y ∂B (X; r) .
Observa que B (X; r) ⊂ B0 (X; r) , como B (X; r) es un conjunto abierto se tiene que
0 ˚
B (X; r) ⊂ B
˚ (X; r) .
0 ˚
Lo cual es consecuencia directa de las definiciones. Se supone ahora que Y ∈ B
˚ (X; r) . Claramente,
Y ∈ B0 (X; r) , por lo tanto, kX − Y k ≤ r. Se verá a continuación que
kX − Y k = r ⇔ Y ∈ ∂B0 (X; r) ,
57
Capítulo 3. Topología de Rn .
0 ˚
y, por lo tanto, B
˚ (X; r) = B (X; r) .
Se afirma que ∂B0 (X; r) = {Y ∈ Rn : kX − Y k = r}. Sea Y ∈ ∂B0 (X; r) , supón que kX − Y k < r
0 ˚
entonces Y ∈ B ˚ (X; r) y, por tanto, Y ∈/ ∂B0 (X; r) . De este modo, kX − Y k ≥ r. Para verificar la igualdad
se procederá por contradicción. Se supone que kX − Y k > r entonces como Y ∈ ∂B0 (X; r) cualquier bola
centrada en Y contendrá un punto de B0 (X; r) , tal punto no es Y pues al ser kX − Y k > r, Y ∈/ B0 (X; r) .
Sea Å ã
kX − Y k − r
Z ∈ B Y; ∩ B0 (X; r) ,
2
entonces
kX − Y k − r
kY − Xk ≤ kZ − Xk + kZ − Y k < kZ − Xk + ,
2
utilizando la desigualdad del triángulo. Luego,
kX − Y k − r kX − Y k + r
kZ − Xk > kY − Xk − = > r.
2 2
Entonces, Z ∈/ B0 (X; r) , contradicción a que Y ∈ ∂B0 (X; r) . Por lo tanto, kX − Y k = r, esto demuestra
que ∂B0 (X; r) ⊂ {Y ∈ Rn : kX − Y k = r}.
Se demuestra ahora la otra contenencia. Sea Y ∈ Rn con kX − Y k = r, se verá que Y ∈ ∂B0 (X; r) .
Para esto, dada cualquier bola B (Y ; δ) se debe exhibir un elemento Z ∈ B0 (X; r) ∩ B (Y ; δ) y un elemento
Z ∈ {B0 (X; r) ∩ B (Y ; δ) . Claramente, Y ∈ B0 (X; r) ∩ B (Y ; δ) , de esto, basta exhibir un elemento Z ∈
{B0 (X; r) ∩ B (Y ; δ) . Se considera la recta L que pasa por X y Y , esto es, la recta que pasa por X en
δ
dirección de Y − X. Se puede ver que L = {X + t(Y − X) : t ∈ R}. Entonces, para t = 1 + el punto
2r
0
Z = X + t(Y − X) está en {B (X; r) . En efecto, basta calcular la distancia entre X y Z, esta es,
δr
kZ − Y k = ktY − (t − 1)X − Y k = (t − 1) kX − Y k = <δ
2r
Luego, Z ∈ B (Y ; δ) Esto demuestra que Y ∈ ∂B0 (X; r) . Por lo tanto,
Finalmente, ext B0 (X; r) = {Y ∈ Rn : kX − Y k > r}, esto es cierto pues Rn está partido de la siguiente
forma
Rn = {Y ∈ Rn : kX − Y k < r} ∪ {Y ∈ Rn : kX − Y k = r} ∪ {Y ∈ Rn : kX − Y k > r}
y
0 ˚
Rn = B
˚ (X; r) ∪ ∂B0 (X; r) ∪ ext B0 (X; r) ,
con ambas particiones disjuntas. Al ser
0 ˚
B
˚ (X; r) = {Y ∈ Rn : kX − Y k < r}
58
3.2. Propiedades de la topología de Rn .
y
∂B0 (X; r) = {Y ∈ Rn : kX − Y k = r},
no queda de otra más que ext B0 (X; r) = {Y ∈ Rn : kX − Y k > r}.
No siempre es fácil visualizar quién es la frontera de un conjunto dado. Por ejemplo, considera
A = [0, 1] ∩ Q ⊂ R. Entonces para x ∈ A se tiene que toda bola de centro x tiene puntos racionales e
irracionales pues Q ⊂ R y R \ Q ⊂ R son conjuntos densos de R. Entonces A ⊂ ∂A, esto demuestra
˚
que AÛ = ∅. Ahora bien, como A ⊂ [0, 1] es fácil pensar que ∂A = [0, 1]. Es cierto, se dejan los detalles
al lector.
( 3.1.18 ) Sea Qn = {(x1 , . . . , xn ) ∈ Rn : xi ∈ Q, i = 1, . . . , n}. Determine el interior, exterior y la frontera de
este conjunto.
Visualizar este conjunto es difícil. Dado que Q ⊂ R es denso en R, se deja de ejercicio verificar que
Qn es denso en Rn . Se afirma que {Qn es denso en Rn . En efecto, sea X ∈ Rn . Si X ∈ {Qn entonces no
hay nada que demostrar, se supone que X ∈ Qn y sea r > 0. Se considera x1 la primera coordenada de
X entonces como {Q es denso en R existe y ∈ {Q tal que |x1 − y| < r. Sea Y = (y, x2 , . . . , xn ) entonces
Y ∈ {Qn y kX − Y k = |x1 − y| < r. Esto demuestra que {Qn es denso en Rn .
Ahora es fácil demostrar que el conjunto dado esta contenido en su frontera. En efecto, dado X ∈ Qn
˚n
y r > 0 existe Y ∈ {Qn tal que kX − Y k < r, con lo cual Qn ⊂ ∂Qn . Esto muestra que Q
Ù = ∅, de manera
˚n
análoga, usando la densidad de Q en R se demuestra que R ⊂ ∂Q . Luego, R = ∂Qn , Q
n n n n n Ù =∅y
n
ext Q = ∅.
En el último ejemplo la frontera era todo Rn . Este resultado puede resultar sorprendente. Cuando
se habla por primera vez de la frontera de un conjunto lo primero que uno imagina es un conjunto
muy “delgado”, esto sucedía en las bolas abiertas. Pero ver que la frontera de un conjunto puede ser
todo el espacio puede traer sorpresas inesperadas.
Hay que demostrar dos cosas, que 1 ∈ H y que n ∈ H Ñ n + 1 ∈ H . Con esto, H = N, de aquí que
la intersección finita de cualquier número de abiertos es abierto.
59
Capítulo 3. Topología de Rn .
Primero se verá que 1 ∈ H . Sea A un conjunto abierto. Entonces A es abierto y, por tanto, 1 ∈ H .
Se necesitará el caso n = 2. Sean A1 y A2 dos conjuntos abiertos. Sea x un elemento en A1 ∩ A2 . Por
ser A1 y A2 conjuntos abiertos de Rn existen δ1 > 0 y δ2 > 0 tales que B (x; δi ) ⊂ Ai para i = 1, 2. Sea
δ = mı́n{δ1 , δ2 }, basta un segundo para darse cuenta que B (x; δ) ⊂ B (x; δ1 ) y que B (x; δ) ⊂ B (x; δ2 ) .
Por tanto, B (x; δ) ⊂ A1 ∩ A2 . De este modo, 2 ∈ H .
Se verá ahora que m ∈ H Ñ m + 1 ∈ H . Se supone que existe un m ∈ N para el cual, m ∈ H .
Sean A1 , . . . , Am conjuntos abiertos de Rn entonces
A1 ∩ A2 ∩ . . . ∩ Am+1 = (A1 ∩ A2 ∩ · · · ∩ Am ) ∩ Am+1
Se está suponiendo que m ∈ H luego, el conjunto A1 ∩ A2 ∩ · · · ∩ Am es abierto. Al haber demostrado
m+1
\
que 2 ∈ H , se sigue que Ai es un conjunto abierto. Por lo tanto, m ∈ H Ñ m + 1 ∈ H . Por el
i=1
teorema de inducción matemática H = N.
El lector estará preguntándose, ¿por qué una intersección finita? La respuesta la encontrará en el
siguiente ejemplo.
( 3.2.3 ) Existe una familia infinita, de hecho enumerable, de conjuntos abiertos en Rn tales que su intersección
no es abierto.
Lo más sencillo y fácil de visualizar es trabajar en R, cuando n = 1. Sea ε > 0 y se define la familia
(Bk (ε))k∈N por Å ã
1
Bk (ε) = 0, ε +
k
De este modo, la intersección de la familia es
∞ ∞ Å ã
\ \ 1
Bk (ε) = 0, ε + = (0, ε]
k
k=1 k=1
el cual no es un conjunto abierto, pues para el punto ε no existe una bola centrada en él completamente
contenida en el intervalo.
En virtud de (2.2.8) se obtienen reglas análogas para complementos.
( 3.2.4 ) La unión finita de conjuntos cerrados es cerrado.
Se usará (3.2.2), sean C1 , . . . , Cm conjuntos cerrados de Rn entonces cada {Ci es abierto. Se tiene
\m
que {Ci es abierto, luego
i=1 "m #
[ m
\
{ Ci = {Ci ,
i=1 i=1
m
[
que es abierto. Por definición de cerrado, Ci es cerrado.
i=1
60
3.2. Propiedades de la topología de Rn .
˚
El resto de la demostración es análoga a la de A.
Û
˚
Finalmente, se ve que ∂A es cerrado. Basta ver que {∂A es abierto. Como ∂A ∩ AÛ = ∂A ∩ ext A = ∅ y
n ˚ ˚
R = ∂A ∪ A ∪ ext A se sigue que {∂A = A ∪ ext A, el cual es un conjunto abierto. Con esto se concluye
Û Û
la demostración del teorema.
En ocasiones se trabaja con subconjuntos de Rn para los cuales no se sabe si son abiertos, cerrados
o ninguno. En caso que se quiera trabajar con el conjunto abierto más grande que está contenido en
el conjunto dado se usa su interior. Si se quiere trabajar con el conjunto cerrado más pequeño que
contenga al conjunto dado, se debe trabajar con la unión del conjunto y su frontera. Éste conjunto
recibe un nombre especial, la cerradura.
A continuación se demostrará una propiedad que caracteriza a los conjuntos cerrados. Lo que dirá
el siguiente teorema es, los conjuntos cerrados son aquellos que contienen a su frontera. El teorema es
de demostración sencilla, pero tiene un detalle técnico importante, se usa la definición de punto límite.
( 3.2.8 ) Sea A ⊂ Rn y P ∈ Rn . Se dirá que P es punto de acumulación de A si toda bola centrada en P tiene
algún punto de A distinto de P.
˚
( 3.2.9 ) Sean A ⊂ Rn y P ∈ A.
Û Entonces P es un punto de acumulación de A.
Existe una bola B (P; r) ⊂ A y sea B es una bola centrada en P entonces se puede encontrar otra
bola B (P; δ) tal que B (P; δ) ⊂ B ∩ B (P; r) (pues la intersección de abiertos es abierto). Para cons-
truir Å
un Q distinto de ã P tal que Q ∈ B (P; δ) se observa lo siguiente, pon P = (p1 , . . . , pn ) y sea
δ δ
Q = p1 + , p2 , . . . , pn , es claro que kP − Qk = , por lo que Q 6= P y Q ∈ B (P; δ) , mostrando
2 2
que P es punto de acumulación de A.
61
Capítulo 3. Topología de Rn .
( 3.2.10 ) Sea B una bola en Rn , ya sea abierta o cerrada. Entonces todos los puntos de ∂B son puntos de
acumulación de B.
( 3.2.11 ) En general no es cierto que los puntos frontera de un subconjunto dado en Rn sean puntos de
acumulación de este conjunto.
( 3.2.12 ) Sea A ⊂ Rn no vacío. Se dirá que P ∈ A es punto aislado de A si existe r > 0 y B (P; r) ∩ A = {P}.
( 3.2.13 ) Sea A un subconjunto de Rn . Se dirá que P ∈ Rn es un punto límite de A si existe una sucesión
(Pn )n≥1 definida en A tal que lı́m Pn = P.
n→∞
En efecto, se tiene forzosamente que P ∈ A, por lo que se puede definir Pn = P para cada n ∈ N y,
claramente, lı́m Pn = P.
n→∞
Para verificar esto se observa que si P ∈ A entonces se pone Pn = P y esto concluye el caso.
Å Si Pã ∈/ A
1
entonces para cada n ∈ N existe, por la definición de punto de acumulación, un punto Pn ∈ B P; ∩A.
n
1
La sucesión (Pn )n≥1 es convergente a P pues kPn − Pk = converge a cero.
n
( 3.2.16 ) Si P es un punto límite de A entonces P o es un punto aislado de A o es un punto de acumulación de
A.
En efecto, se divide la prueba en dos casos: cuando P es punto aislado y cuando no lo es. Si P
es aislado no hay que demostrar nada, por lo que se supone que no lo es. Hay una sucesión (Pn )n∈N
definida en A tal que converge a P. Tal sucesión no deviene constante en ningún momento puesto que
P ∈/ A. Sea ε > 0. Hay un N ∈ N tal que n ≥ N Ñ kPn − Pk < ε; esto es, PN ∈ B (P; ε) y, ciertamente,
PN es distinto de P.
( 3.2.17 ) Sea A ⊂ Rn . Para que A sea cerrado es necesario y suficiente que A contenga a todos sus puntos
límite (de acumulación).
62
3.2. Propiedades de la topología de Rn .
Como todo punto límite o es de acumulación o aislado y, al ser los puntos aislados de A necesaria-
mente elementos de A, basta dar la demostración para el caso de punto de acumulación. Ahora bien,
la demostración consta de dos pasos; primero se supondrá que A es cerrado y se verificará que A
contiene a todos sus puntos de acumulación y, segundo, se demostrará que si A contiene a todos sus
puntos de acumulación entonces A es cerrado.
Supón que A es cerrado y sea x un punto de acumulación de A. Se sabe que, por definición, {A es
abierto, como x es punto de acumulación de A, cada bola centrada en x intersecta a A y, por ende, no
existe una bola centrada en x que esté contenida en {A, mostrando que x ∈/ {A. Como x ∈/ {A, x ∈ A.
Se supone ahora que A contiene a todos sus puntos de acumulación. Para ver que A es cerrado se
tiene que probar que {A es abierto. Sea x ∈ {A, como x no es punto de acumulación de A se sigue
directamente de la definición que existe algún r > 0 tal que B (x; r) está contenido en {A, por tanto {A
es abierto.
Ahora se caracterizarán a los conjuntos cerrados. Para esto, se demostrarán otras propiedades de
puntos límite. Observa que un punto límite de A es un punto “cercano” a A, de este modo, si P es punto
límite de A ∪ B es razonable pensar que P es “cercano” a A o a B. Esto queda formalmente demostrado
en la siguiente proposición.
( 3.2.18 ) Sean A y B dos subconjuntos de Rn . Si para X ⊂ Rn se denota por X 0 a los puntos límite (de
acumulación) de X entonces, el siguiente resultado se verifica: (A ∪ B)0 = A0 ∪ B0 .
Como todo punto límite es o de acumulación o aislado y los puntos aislados de A∪B necesariamente
pertenecen a A ∪ B basta dar la demostración para el caso de punto de acumulación. Sea P ∈ (A ∪ B)0 .
Dado r > 0 el conjunto B (P; r) contiene un punto de A ∪ B que no es P. Por ende, P es punto de
acumulación de A o de B.
Recíprocamente, se considera P ∈ A0 ∪ B0 , se puede suponer sin perder generalidad, que P ∈ A0 . De
la definición de punto de acumulación, se obtiene que para cualquier r > 0 existe un Q que no es P
con Q en A y kP − Qk < r. Luego, Q ∈ A ∪ B, con lo que P ∈ (A ∪ B)0 .
Armados con la intuición de que los puntos límite son aquellos que están cerca del conjunto, se
conjetura que si A es un subconjunto de Rn y B denota el conjunto de puntos límite de A entonces el
conjunto de puntos límite de B está contenido en B. Para demostrar esto se utilizará el teorema (3.2.17),
obteniendo que basta demostrar que B es cerrado.
Al igual que los teoremas previos, basta ver que los puntos de acumulación de B también son puntos
de acumulación de A. Sea P un punto de acumulación de B entonces para demostrar que P ∈ B se
debe ver que P es un punto de acumulación de A. Para r > 0 dado existe un Qr tal que Qr no es P y
1
Qr ∈ B (P; r) ∩ B. Se define δ = mı́n{r − kP − Qr k , kP − Qr k} entonces B (Qr ; δ) ⊂ B (P; r) . Observa
2
que P ∈/ B (Qr ; δ) , pues kP − Qr k > δ. Ahora bien, puesto que Qr ∈ B se sigue que existe R ∈ A con
R 6= Qr y kQr − Rk < δ. Entonces, R ∈ B (P; r) , y R 6= P, por lo tanto, P ∈ B. Esto demuestra que B es
cerrado.
Es importante recordar cómo se tomó δ en el teorema anterior. Era fundamental asegurar que
P 6= Qr y que P 6= R.
Para demostrar esto se debe verificar que A contiene a todos sus puntos límite, recuerda (3.2.17).
Pero al ser A = A ∪ ∂A, se obtiene que el conjunto de los puntos límite de A es la unión de los puntos
límite de A y los de ∂A (ve (3.2.18)). Pero como ∂A es cerrado, se sigue que contiene a sus puntos límite.
Luego, basta demostrar que los puntos límite de A están contenidos en A ∪ ∂A.
63
Capítulo 3. Topología de Rn .
Sea P un punto límite de A. Si P es aislado no hay nada que demostrar, por lo que se supone que
es de acumulación. Si P no está en A entonces necesariamente P ∈ ext A3 , mostrando que existe una
bola centrada en P que no toca a A, contradicción con que P sea punto de acumulación de A.
64
3.4. Compacidad en Rn .
§ 3.4. Compacidad en Rn .
Esta sección puede contener elementos algo más técnicos que el resto del capítulo. La mayoría de
ellos son resultados que involucran conjuntos compactos en Rn . El lector deberá ser cauteloso cuando
lea las demostraciones.
El primer teorema habla sobre productos cruz de conjuntos compactos. El siguiente hecho se deja
como ejercicio al lector: en la definición de subconjunto abierto de Rn se pudo haber usado equivalen-
temente rectángulos abiertos que bolas abiertas (ve el ejercicio (3.10)).
( 3.4.1 ) Sea f : Rn → Rm . Se dice que f es una aplicación abierta si f(U) es abierto para todo subconjunto
abierto U de Rn .
( 3.4.2 ) Sean m ≤ n con m, n ∈ N y se define pr1,...,m : Rn → Rm la función de proyección dada por
65
Capítulo 3. Topología de Rn .
Como siempre, se debe dar una cubierta abierta de {X} × B y demostrar que se puede tomar un
subconjunto finito de O de manera que este subconjunto siga siendo cubierta abierta de {X} × B.
Sea O una cubierta
[ de {X} × B. Todo elemento en {X} × B es de la forma (X, Y ) con Y ∈ B, por
ende {X} × B = {(X, Y )}. Para cada (X, Y ) ∈ {X} × B existe un WY de O tal que (X, Y ) ∈ WY . Como
Y ∈B
WY es un abierto, existen UY ⊂ Rn y VY ⊂ Rm , rectángulos abiertos, tales que
(X, Y ) ∈ UY × VY ⊂ WY .
[ k
[
{(X, Y )} ⊂ UYi × VYi .
Y ∈B i=1
Se consideran ahora los correspondientes WYi , nota que algunos de los WYi se pueden traslapar entre
sí, esto no importa pues lo que se busca es un subconjunto finito de O. Ahora solo resta demostrar
que (WYi )i=1,...,k cubre {X} × B. Dado (X, Y ) ∈ {X} × B existe i para el cual Y ∈ VYi entonces X ∈ UYi
y (X, Y ) ∈ WYi , por lo tanto, (WYi )i=1,...,k cubre {X} × B. Luego, ha sido demostrado que {X} × B es un
conjunto compacto de Rn+m .
Como {X} × B es compacto, se tiene que existe una subfamilia (Wi )i=1,...,k de O tal que (Wi )i=1,...,k
cubre {X} × B. Se supone que todo Wi intersecta a {X} × B, de lo contrario puede ser eliminado de
la cubierta. Se define pr1,...,n : Rn+m → Rn la función proyección y sea Vi = pr1,...,n (Wi ) entonces Vi es
k
\
abierto (ve (3.4.2)) y X ∈ Vi para i = 1, . . . , k. Se define U = Vi entonces U es abierto y X ∈ U.
i=1
Se ve que U satisface lo pedido; dado (Y , Z) ∈ U × B, existe j tal que (X, Z) ∈ Wj . Pero Y ∈ Vi para
todo i = 1, . . . , k, así que Y ∈ Vj . De esto se sigue que (Y , Z) ∈ Wj , por lo tanto U × B es cubierto por
(Wi )i=1,...,k .
Es clave en el teorema anterior que U debe ser la intersección de los Vi y no su unión. Con la unión
se hubiéra podido concluir que Y estaba en algún Vi , no necesariamente con i = j, de esto no se sigue
necesariamente que (Y , Z) ∈ Wj . El teorema anterior no demuestra que U × B es compacto. De hecho,
más adelante se verá que U × B no puede ser compacto.
A continuación viene la demostración de que el producto cartesiano de cualquier cantidad finita de
conjuntos compactos es un conjunto compacto.
Sea O una cubierta abierta de A × B, para cada X ∈ A se tiene que {X} × B es compacto. De este
modo, por lema del tubo (3.4.4), existe un UX tal que UX × B es cubierto por un número finito de
elementos de O. Evidentemente, la familia (UX )X∈A es cubierta de A. Como A es un conjunto compacto
66
3.4. Compacidad en Rn .
siempre se puede escoger un número finito de los UX , por ejemplo UX1 , . . . , UXs , tales que la familia
(UXi )i=1,...,k cubre a A. Pero cada UXi , i = 1, . . . , k, es cubierto por una cantidad finita de elementos en
O, de este modo una cantidad finita de elementos en O cubren todo A × B.
Como corolario del teorema anterior se tiene el siguiente teorema. Su demostración puede reali-
zarse por inducción y queda a cargo del lector.
A1 × · · · × As ⊂ Rn1 +...+ns
es un conjunto compacto.
Este teorema tiene el importante corolario que un rectángulo cerrado es Rn es un conjunto com-
n
Y
pacto. En efecto, un rectángulo cerrado en Rn es de la forma R = [ai , bi ], por el teorema de
i=1
Borel-Lebesgue (3.3.5) cada [ai , bi ] es compacto, de aquí que R es compacto.
Como el lector estará sospechando, demostrar si un conjunto dado es compacto o no puede resultar
tedioso. A continuación se dan algunos criterios para demostrar si un conjunto dado es compacto o no.
Luego, la familia (Ui )i=1,...,s cubre a B. Como B ∩ {B = ∅ el elemento {B puede ser eliminado de
(Ui )i=1,...,s y la familia que quede seguirá cubriendo a B. Esta es una subfamilia de O pues el único
elemento que pudiera no haber sido elemento de O era {B, el cual fue eliminado. Por lo tanto, B es un
conjunto compacto.
Toda bola está contenida en un rectángulo cerrado y que todo rectángulo cerrado es un conjunto
compacto. De esto, basta ver que la cerradura de cualquier bola es un conjunto cerrado. Pero esto es
inmediato de (3.2.20).
De acuerdo con la definición de cerradura (3.2.7) y con el ejemplo (3.2.6) se tiene que la cerradura
de una bola es una bola cerrada. Esto aumentó los conjuntos que ya pueden ser determinados como
compactos a un número bastante mayor. Queda a cargo del lector demostrar que la intersección ar-
bitraria de conjuntos compactos es compacto y la unión finita de conjuntos compactos es un conjunto
compacto.
Una condición suficiente para que un conjunto dado sea compacto es que sea cerrado dentro de un
compacto. Según en el hecho de que toda bola cerrada es un conjunto compacto, todo cerrado dentro
de una bola cerrada es un conjunto compacto. Un conjunto que puede cubrirse por una única bola se
denomina conjunto acotado.
67
Capítulo 3. Topología de Rn .
Sería agradable poder caracterizar a los conjunto compacto de tal forma que sea fácil su identifica-
ción. El siguiente teorema da un prueba sencilla de no compacidad. A su vez es un reciproco parcial
del teorema anterior.
Sea O = (B (0; k))k∈N entonces O es una familia de bolas abiertas centradas en cero. Nota que O es
una cubierta abierta de Rn , por tanto es una cubierta abierta de A. Por ser A un conjunto compacto
existe un número finito de bolas de O que cubren a A. Sea (B (0; ki ))i=1,...,l una subfamilia de O que
cubre a A y se toma M = máx{ki : i = 1, . . . , l}. Entonces, B (0; ki ) ⊂ B (0; M) para i = 1, . . . , l. Luego,
A ⊂ B (0; M) y A es acotado.
Cualquier conjunto que no sea acotado en Rn no puede ser compacto. En particular los intervalos
de la forma (a, ∞), (−∞, b) no son compactos para cualquier par de reales a, b. Más aún, si A ⊂ Rn
posee una sucesión (an ) tal que la sucesión real bn = kan k diverge a ∞ entonces A no es compacto. La
prueba de esto queda de ejercicio al lector.
Si el lector ha tenido el gusto de leer libros de cálculo o análisis, donde se hable acerca de conjuntos
compactos encontrará que muchas de las definiciones no son textualmente iguales, pero todas son
lógicamente equivalentes. Hay libros que definen un conjunto compacto como aquel conjunto que es
cerrado y acotado, otros definen a los conjuntos compactos como aquellos conjuntos que cumplen que
todo subconjunto infinito tiene un punto límite en el conjunto, entre otras muchas caracterizaciones.
Para poder caracterizar a los conjuntos compactos se necesitará del teorema de Bolzano-Weierstrass
que se presenta en la siguiente sección.
Se verá que todo punto límite de K es un elemento de ÅK. Sea Å P unããpunto límite de K y se procede
0 1
por contradicción, esto es P ∈/ K. Considera la familia O = {B P; . Queda a título de ejercicio
n n∈N
para el lector verificar que O es cubierta abierta de K. Como K es un conjunto compacto existe un
número finito de elementos de O que cubrenÅK. Sea ã (U1 , . . . , UN ) una subfamilia de O tal que Åcubre ã a
1 1
K y se toma M el máximo índice tal que {B0 P; ∈ {U1 , . . . , UN }. Se observa que Ui ⊂ {B0 P;
Å ã M M
1
para i = 1, . . . , N. Entonces, B0 P; ∩ Ui = ∅ para i = 1, . . . , N y como K ⊂ U1 ∪ · · · ∪ UN , esto
2M
contradice que P sea un punto límite de K. Esta contradicción muestra que P ∈ K.
El resultado clave detrás de esta demostración es ver que todo conjunto compacto posee a todos
sus puntos límite.
68
3.5. El teorema de Bolzano-Weierstrass.
( 3.5.2 ) Una condición necesaria y suficiente para que un conjunto K ⊂ Rn sea compacto es que sea cerrado y
acotado.
( 3.5.3 ) Sea F : N → K ⊂ RN una sucesión definida en un conjunto compacto K de RN . Existe una subsucesión
f de F tal que f converge en K; el teorema de «Bolzano- Weierstrass».
La idea detrás de esta demostración técnica es bastante simple. La sucesión F de RN , al ser acotada
puede ser “metida” dentro de un rectángulo. Después partiremos cada arista del rectángulo por la mitad
y formaremos los 2N posibles subrectángulos. Como formamos un número finito de subrectángulos
alguno de ellos contendrá un número infinito de términos de la sucesión. Una vez escogido el subrec-
tángulo con puntos infinitos se aplicará un argumento recursivo. Se verá que los vértices menores, de
cada rectángulo así formado, forman una sucesión estrictamente creciente y acotada. Se usará esto
para demostrar que cada coordenada menor converge.
Como la sucesión (Fn )n∈N está definida en un conjunto compacto, la sucesión está acotada. Por lo
tanto, existe un punto Fn1 de (Fn )n∈N y un número M > 0 tal que la sucesión
Ä (n ) está contenida en una
(n1 )
ä
1
“caja cúbica” de centro Fn1 de lado de longitud M. Se supone que Fn1 = F1 , . . . , FN , es decir, el
subíndice denota a la coordenada y el superíndice al elemento de la subsucesión que se forma. Se ha
mostrado que
N ï ò
Y (n ) M (n1 ) M
Fn ∈ Fi 1 − , Fi + ;
2 2
i=1
se define ï ò
(1) (n ) M (n1 ) M
I i = Fi 1 − , Fi + ,
2 2
y sea
(1) (1) (1)
R(1) = I1 × I2 × · · · × IN .
Es decir, R(1) es el primer rectángulo que se está formando tal que contiene a toda la sucesión. Sea
Ä (1) (1)
ä Å (n ) M (n ) M
ã
A(1) = a1 , . . . , aN = F1 1 − , . . . , FN 1 − ,
2 2
(1)
se denominará a A(1) como el “vértice inferior izquierdo” del rectángulo R(1) . Para cada Ii se define
ï ò ï ò
(1) (n ) M (n1 ) (1) (n ) (n ) M
Ji,1 = Fi 1 − , Fi y Ji,2 = Fi 1 , Fi 1 + ,
2 2
esto es, se está partiendo en dos cada arista del rectángulo R(1) en dos mitades de igual longitud. Sea
Ä (1) (1)
ä
J(1) = J1,i1 × · · · × JN,iN N
,
(i1 ,...,iN )∈{1,2}
(1)
es decir, J(1) es la familia con los 2N posibles productos cruces de los distintos Ji,k .
(1)
Se afirma que J(1) es cubierta de R(1) . Sea (x1 , . . . , xN ) ∈ R(1) entonces, por la construcción, xi ∈ Ii ,
(1) (1) (1)
de aquí que xi esté en Ji,1 o en Ji,2 . Entonces, cada coordenada xi está en algún Ji,k . Por lo tanto, existe
un elemento J de J(1) para el cual (x1 , . . . , xN ) ∈ J. Luego, J(1) cubre a R(1) .
Como los elementos en J(1) son finitos y cubren R(1) existe un elemento en J(1) para el cual existe
un número infinito de puntos de la sucesión. En caso de que tal elemento de J(1) no existiera, todos los
elementos de J(1) tendrían como elementos, a lo más, a un número finito de puntos de la sucesión. Esto
69
Capítulo 3. Topología de Rn .
implicaría que existe un elemento Fk de la sucesión (Fn )n∈N tal que un número infinito de índices coin-
ciden en Fk . Entonces, se toma la subsucesión constante f(i) = Fk , la cual, claramente , es convergente.
De este modo, se puede suponer la existencia de tal elemento de J(1) .
Sea R(2) un rectángulo en J(1) que contiene infinitos puntos de la sucesión. Sea Fn2 ∈ R(2) donde
n2 es el mínimo índice tal que n2 > n1 y Fn2 ∈ R(2) , este elemento existe por dos razones. Primero,
por el axioma de buen orden, todo conjunto de naturales no vacío tiene mínimo. Además, el conjunto
en cuestión es no vacío por lo justificado en el párrafo previo. Se define A(2) como el vértice inferior
(1) (2)
izquierdo de R(2) . Observa que, por construcción, ai ≤ ai para todo i = 1, . . . , N.
Se verá que existe un número infinito de tales rectángulos R(k) , se procede por inducción. Supón que
P(n) indica que se han podido formar n puntos de la subsucesión en sus n rectángulos correspondientes
con sus n vértices inferiores correspondientes tales que cada coordenada define una sucesión creciente
en R. Sea H = {n ∈ N : P(n) es verdadera}.
Hay que probar que 1 ∈ H y k ∈ H Ñ k + 1 ∈ H . De la construcción anterior se sabe que 1 ∈ H
y que 2 ∈ H . Se supone que k ∈ H , se demostrará que, sobre estas condiciones, k + 1 ∈ H . Sea R(k)
(k)
el k-ésimo rectángulo que ha sido formado e Ii la proyección del rectángulo R(k) en el eje i-ésimo.
Entonces,
(k) (k)
R(k) = I1 × · · · × IN .
(k) (k)
Sean Ji,j , con 1 ≤ i ≤ N y 1 ≤ j ≤ 2, las particiones de Ii en dos mitades de misma longitud como
(k) N (k)
se hizo antes. Sea J igual que antes, la familia de los 2 productos cruces de los elementos Ji,j . Por
los mismo argumentos anteriores se puede demostrar la existencia de R(k+1) y A(k+1) tales que R(k+1)
contiene un número infinito de puntos de la sucesión. Se toma Fnk+1 ∈ R(k+1) tal que nk+1 es el mínimo
natural tal que nk+1 > nk y Fnk+1 ∈ R(k+1) . La demostración de la existencia de nk+1 se realiza como
antes. Asimismo,la i-ésima coordenada del vértice inferior izquierdo satisface que
(1) (k) (k+1)
ai ≤ . . . ≤ ai ≤ ai .
Con esto, se puede concluir que P(n + 1) es cierta, pues ha sido posible formar los k + 1 puntos de la
subsucesión en sus k + 1 rectángulos correspondientes con sus k + 1 vértices inferiores que satisfacen
la desigualdad requerida. Con esto, k + 1 ∈ H y de acuerdo alÄ principio de inducción H = N.
(n)
ä
Se ha demostrado que existen las sucesiones crecientes ai , para cada índice i = 1, . . . , N,
(1) (1)
Ä (n) än∈N (1)
y están definidas en Ii . Como Ii es un intervalo acotado y ai es creciente y definida en Ii ,
n∈N
(n)
existe ai tal que que lı́m ai = ai .
n→∞
Se afirma que la subsucesión, Fnj j∈N converge a A = (a1 , · · · , an ). Considera las sucesiones
(n )
coordenadas de Fnj j∈N , estas son, para cada i = 1, . . . , N, Fi j . Por construcción, para cada
j∈N
(n ) (j) (j) (j)
(n )
(j) M
j ∈ N, se tiene que Fi j ∈ Ii y ai ∈ Ii , por tanto, Fi j − ai ≤ j−1 . Haciendo j → ∞, se ve que
2
(n ) (j) (n ) (j)
lı́m Fi j − ai = 0, para i = 1, . . . , N. Esto implica que lı́m Fi j = lı́m ai = ai . Por lo tanto, se tiene
j→∞ j→∞ j→∞
que lı́m Fnj = A.
j→∞
Finalmente, se define σ : N → N dada por σ(j) = nj entonces f = F ◦ σ es una subsucesión de
F tal que lı́m f(n) = A. Por último, se debe demostrar que A ∈ K. Pero al ser K compacto, K es
n→∞
cerrado y por tanto, contiene a todos sus puntos límite. Como f converge a A y f está definida en K, A
es un punto límite de K. Por lo tanto, f converge en K.
( 3.5.4 ) Dado un conjunto abierto U y un compacto K ⊂ U siempre existe un compacto D ⊂ U tal que K es
subconjunto propio de D.
70
3.6. Generalización a un espacio vectorial real.
( 3.6.1 ) Sea (V , +, ·) un espacio vectorial real. Se supone que en V hay una norma kk y sean v ∈ V y r > 0.
Se dirá que el conjunto B (v; ε) = {u ∈ V | ku − vk < r} es la bola abierta de en V de centro v y radio r.
Un subconjunto A ⊂ V se dirá abierto si para cualquier punto v ∈ A existe un número positivo r > 0 tal que
B (v; r) ⊂ V .
( 3.6.2 ) Sea V un espacio vectorial real y normado. Toda bola abierta en él es un conjunto abierto.
( 3.6.3 ) Sea V un espacio vectorial real y normado. Sea τ = {A ⊂ V |A es abierto}. Entonces τ es una topología;
esto es, τ satisface las siguientes propiedades:
1. ∅, V ∈ τ,
71
Capítulo 3. Topología de Rn .
( 3.6.4 ) Sean V y W dos espacios vectoriales reales. Supón que kkV y kkW son sendas normas en V y W . Se
dirá que las normas son isomorfas o que V y W son dos espacios vectoriales normados isormofos si existe una
transformación lineal Φ : V → W que sea invertible tal que para cualquier v ∈ V se cumpla que kΦ(v)kW = kvkV .
A Φ se le llamará «isomorfismo» entre espacios vectoriales normados.
Cabe destacar que existe la noción de isomorfismo entre espacio vectoriales (ve el ejercicio (1.22)).
La noción recién definida puede parafrasearse como sigue. Dos espacios vectoriales normados son
isomorfos si existe una isomorfismo de espacio vectorial entre ellos tal que este preserve la norma.
Por lo tanto, esta definición es más fuerte comparada con la definición de isomorfismo de espacio
vectorial. A continuación una definición todavía más fuerte.
( 3.6.5 ) Sean V y W dos espacios vectoriales reales. Supón que h, iV y h, iW son sendos producto interiores en
V y W . Se dirá que los producto son isomorfos o que V y W son dos espacios vectoriales con producto interior
isormofos si existe una transformación lineal Φ : V → W que sea invertible tal que para cualesquier u, v ∈ V se
cumpla que hΦ(u), Φ(v)iW = hu, viV . A Φ se le llamará «isomorfismo» entre espacios vectoriales con producto
interior.
Esta definición
p es más fuerte
p que la previa, pues si Φ es tal isomorfimo entre V y W entonces
kΦ(v)kW = hΦ(v), Φ(v)iW = hv, viV = kvkV . Por lo tanto, Φ también es un isomorfismo entre
espacios normados.
( 3.6.6 ) Sean V un espacio vectorial real de dimensión finita sobre R, B = (v1 , . . . , vn ) una base ordenada en V
y [ ]B las coordenadas de V (ve el ejercicio (1.24)). Sea h, iV : V × V → R dada por hu, viV = [u]B · [v]B , aquí se
denota con · al producto escalar estándar de Rn . Entonces, h, iV define un producto interior en V . Más aún, [ ]B
es un isomorfismo de espacios vectoriales con producto interior.
Ya se sabe que [ ]B es un isomorfismo entre espacios vectoriales (ve el ejercicio (1.24)). Solo hay que
probar que h, iV es un producto interior en V pues de la definición de h, iV se obtendrá que [ ]B es un
isomorfismo entre espacios vectoriales con producto interior.
Se verficará que h, iV satisface la definición de producto interior (1.4.1). Entonces, sean u, v, w ∈ V y
λ ∈ R cualesquiera, se cumple que
1. hu, viV = [u]B · [v]B = [v]B · [u]B = hv, uiB ;
2. hu + λw, viV = [u + λw]B · [v]B = [u]B + λ[w]B · [v]B = [u]B · [v]b + λ[w]B · [v]B = hu, vi + λ hw, vi ;
3. hu, uiV = [u]B · [u]B ≥ 0;
4. hu, ui = 0 ⇔ [u]B · [u]B = 0 ⇔ [u]B = 0 ⇔ u = 0, donde la última igualdad es consecuencia de que
[ ]B es un isomorfismo.
Esto concluye la prueba.
72
3.6. Generalización a un espacio vectorial real.
y solo si es abierto respecto de la otra). Para ver esto, supón que A es un abierto en V respecto
de la norma kk1 . Entonces, como hay una constante b > 0 tal que kk2 ≤ b kk1 se sigue que
1
kk ≤ kk1 . Como A es abierto respecto de la norma kk1 , para cada v ∈ A existe una bola del
b 2
tipo B1 (v; r) = {u ∈ V | ku − vk1 < r} ⊂ A. Nota que B2 (v; br) = {u ∈ V | ku − vk2 < br} es una
bola respecto de la norma kk2 . Como
B2 (v; br) ⊂ B1 (v; r) ⊂ A,
se ve que A es abierto respecto de la norma kk2 . Por lo tanto, todo abierto respecto de la norma kk1
es abierto respecto de la norma kk2 . Cambiando los papeles de kk1 y kk2 se concluye que cualquier
subconjunto A de V es abierto respecto de alguna de las normas si y solo si lo es respecto de las
dos. En consecuencia, todas las propiedades topológicas ya demostradas prevalecen válidas sin
importar qué normas equivalentes se usen.
4. Obviamente, si se define ∼ en el conjunto de las normas en V como kk1 ∼ kk2 si y solo si kk1 y kk2
son equivalentes, entonces ∼ es una relación de equivalencia. Es inmediato de la observación previa
que hay tantas topologías generadas por una norma en V como distintas clases de equivalencia
hay mediante ∼ . ¿Cuántas clases de equivalencia hay? Parece sorprendente que solo hay una
clase de equivalencia (3.6.7). Por lo tanto, en un espacio vectorial V de dimensión finita, solo se
puede generar una topología mediante una norma.
5. Si Φ es un isomorfimo entre V y W que preserva la norma entonces un conjunto A es abierto
en V si y solo si Φ(A) es abierto en W . Para ver esto, basta probar que Φ(BV (v; r)) = B (Φ(v); r) ,
donde BV (v; r) es la bola de centro v y radio r en v y B (Φ(v); r) es la bola de centro de Φ(v) ∈ W
y radio r 4 . Para probar esta igualdad se utiliza que kvkV = kΦ(v)k . Entonces,
Φ(BV (v; r)) = {Φ(u) ∈ W | ku − vkV < r} = {Φ(u) ∈ W | kΦ(u) − Φ(v)k < r}
= {w ∈ W | kw − Φ(v)k < r} = B (Φ(v); r) ,
donde la tercera igualdad vale por la invertibilidad de Φ. Por lo tanto, para que un conjunto A ⊂ V
sea abierto es condición necesaria y suficiente que Φ(A) ⊂ W sea abierto. Por lo tanto, para dos
espacios vectoriales normados isomorfos (con isomorfismo entre espacios vectorial normado) las
topologías son esencialmente la misma.
El teorema que continua deberá ser leído hasta después de haber leído sobre conexidad
(capítulo 4) y continuidad de funciones en varias variables (capítulo 5).
( 3.6.7 ) Sea V un espacio vectorial normado de dimensión finita y kk1 , kk2 dos normas en V . Existen constantes
a > 0 y b > 0 tales que para cualquier v ∈ V
a kvk1 ≤ kvk2 ≤ b kvk1 .
( 3.6.7.1 ) Basta demostrar (3.6.7) cuando V = Rn .
En efecto, existe un isomorfismo entre espacios vectoriales Φ : Rn → V , en donde n = dim V .
Luego, se definen en R las normas kXkR R
1 = kΦ(X)k1 y análoga para kk2 . Si (3.6.7) vale cuando V = R
n
Luego, dado v ∈ V cualquiera existe un X ∈ Rn y solo uno tal que v = Φ(X), de la definición de kkR
1 y
R
kk2 se concluye el resultado deseado.
4 Si esta implicación vale entonces para A ⊂ V un abierto y w ∈ Φ(A) existe un v ∈ A tal que Φ(v) = w. Para este v
existe un r > 0 tal que BV (v; r) ⊂ A, obviamente Φ(BV (v; r)) = B (Φ(v); r) = B (w; r) ⊂ Φ(A), mostrando que Φ(A) es abierto.
Recíprocamente, si Φ(A) es abierto, se aplica el mismo argumento que antes pero sustituyendo A por B = Φ(A) y Φ por Ψ = Φ−1
73
Capítulo 3. Topología de Rn .
Pues si fuese cierto el teorema en ese caso existen constantes a > 0, b > 0, c > 0 y d > 0 tales que
para todo X ∈ Rn
a kXk1 ≤ kXk ≤ b kXk1 ; c kXk2 ≤ kXk ≤ d kXk2 .
a b
De donde, kXk1 ≤ kXk2 < kXk1 .
d c
( 3.6.7.3 ) Para la norma euclidiana vale (3.6.7).
n
X
Pues si X = ai ei , donde {e1 , . . . , en } es la base canónica de Rn , en virtud de la desigualdad
i=1
triangular (ve (1.4.2))
n
X n
X
kXk1 ≤ |ai | kei k1 ≤ máx kej k1 |ai | ≤ n máx kej k1 kXk .
1≤j≤n 1≤j≤n
i=1 i=1
Se ve ahora la otra desigualdad. Se probará que que la función kk1 : Rn → [0, ∞) es continua. Entonces,
para cualesquier u, v ∈ V ,
kuk1 = ku − v + vk1 ≤ ku − vk1 + kvk1 ,
por lo que kuk1 −kvk1 ≤ ku − vk1 Cambiando los papeles de u y v se obtiene que kvk1 −kuk1 ≤ ku − vk1 .
Por lo tanto,
| kuk1 − kvk1 | ≤ ku − vk1 = b ku − vk ,
donde b = n máx kej k1 . Por lo tanto, si u → v entonces kuk1 → kvk1 . Ahora, considera S (0; 1) = {X ∈
1≤j≤n
Rn | kXk = 1}. Entonces, {kXk1 |X ∈ S (0; 1)} es un conjunto conexo y compacto (ve (5.5.7) y (5.5.8)) en
R. Por lo tanto, es un intervalo de la forma [a, b] (ve (4.8.7)). Obviamente, [a, b] ⊂ [0, ∞) pues kk1 ≥ 0.
Se afirma que a > 0. Se procede por contradicción. Si a = 0 entonces existiría un X ∈ S (0; 1) tal que
| kXk1 | = 0, lo cual es falso pues X 6= 0. Por lo tanto kXk1 ≥ a para todo X ∈ S (0; 1) . Sea ahora X ∈ Rn
X
cualquiera. Entonces, X = 0 Ñ kXk1 = kXk y la desigualdad vale, por otro lado, X 6= 0 Ñ ∈ S (0; 1)
kXk
X
y, por lo tanto
kXk
≥ a. Usando que kXk > 0 se concluye que kXk1 ≥ a kXk .
1
Ahora veamos las pruebas de las propiedades faltantes para el caso más general. Estas utilizan el
teorema previo.
(3.2.9) Sean (V , kkV ) un espacio normado no trivial5 de dimensión finita y A ⊂ V cualquier subconjunto.
˚
Entonces, todo P ∈ A Û es punto de acumulación de A. La idea es la misma que en el teorema
δ
para Rn . Si P = 0, existe un v 6= 0 y entonces v dista de P exactamente δ, con hacer δ
kvkV
˚
suficientemente pequeño y usando que P ∈ A Û se concluye lo afirmado para
Å este caso.
ã En el caso
δ
P 6= 0, existe una bola B (P; r) ⊂ A. Para r > δ > 0 se cumple que Q = 1 + P ∈ B (P; δ)
2 kPkV
δ δ
y que kQ − PkV = kPkV = > 0.
kPkV 2
5 Esto es, existe un elemento de V que no es el cero.
74
3.7. Ejercicios.
(3.3.5) Sea (V , kkV ) un espacio vectorial normado de dimensión finita. Todo conjunto cerrado y acotado
es compacto. En este caso sea B = (v1 , . . . , vn ) una base ordenada de V (tal base existe en virtud
de (1.2.14)). Sea [ ]B las coordenadas de V respecto a dicha base y se genera en Rn la norma
asociada al isomorfismo [ ]B , la cual se denotará por kk1 . (ya se mencionó antes que esto no
afecta las propiedades topológicas del espacio, (3.6.7)). Entonces, Sea A ⊂ V un conjunto cerrado
y acotado y O = (Uα )α∈Γ una cubierta abierta de A. Entonces [A]B ⊂ Rn es cerrado y acotado
y [O]B = ([Uα ]B )α∈Γ es una cubierta abierta de [A]B . En virtud de (3.4.10) [A]B es compacto en
Rn , por lo que existe una subfamilia finita ([Uα1 ]B , . . . , [Uαk ]B ) que cubre a [A]B . Por definición de
coordenadas, (Uα1 , . . . , Uαk ) es cubierta abierta de A, lo cual muestra que A es compacto en V .
(3.4.8) Sean (V , kkV ) un espacio vectorial normado de dimensión finita. Toda bola cerrada de V es un
conjunto compacto. Lo cual es consecuencia del teorema de Borel-Lebesgue (inciso previo) pues
una bola cerrada de un conjunto cerrado y acotado en V .
(3.4.10) Sea (V , kkV ) un espacio vectorial normado de dimensión finita. Todo conjunto cerrado y acotado
es compacto. Que es exactamente lo que dice el teorema de Borel-Lebesgue.
(3.5.2) Sea (V , kkV ) un espacio vectorial normado de dimensión finita. Una condición necesaria y
suficiente para que un conjunto sea cerrado y acotado es que sea compacto. Una implicación
es el teorema de Borel-Lebesgue, la otra es consecuencia de (3.4.11) y (3.5.1).
(3.5.3)) Sea (V , kkV ) un espacio vectorial normado de dimensión finita. Toda sucesión definida en un
compacto tiene una subsucesión convergente ahí. Sea B = (v1 , . . . , vn ) una base ordenada de V
y [ ]B las coordenadas de V relativas a B. Sea (an )n∈N una sucesión definida en el compacto K de
V . Entonces ([an ]B )n∈N es una sucesión acotada en el compacto6 [K]B de Rn . Por el teorema de
Bolzano-Weierstrass existe una subsucesión ([ank ]B )k∈N la cual es convergente a cierto X ∈ [K]B .
La subsucesión correspondiente (ank )k∈N converge en K a a. En efecto, se cumple que existe un
a ∈ V tal que [a]B = X. Se verá que ank → a; de hecho,
§ 3.7. Ejercicios.
Resuelve cada ejercicio.
( 3.1 ) {Q es denso en R.
75
Capítulo 3. Topología de Rn .
( 3.7 ) La cerradura de un conjunto es el conjunto cerrado más pequeño que contiene al conjunto dado. Esto es,
la cerradura de A es la intersección de todos los cerrados que contienen a A.
( 3.10 ) Dada una bola abierta B (x; δ) siempre se puede encontrar un rectángulo abierto R tal que R está
contenido en B (x; δ) y x ∈ R. Concluya que en la definición de abierto se puede sustituir bolas por rectángulos
abiertos sin alterar ninguno de los resultados precedentes.
( 3.12 ) Dé un ejemplo de intervalos cerrados tales que su unión infinita sea abierto.
(A ∪ B) × C = (A × C) ∪ (B × C).
Si A ⊂ Rn y B ⊂ Rm entonces
( 3.15 ) Para que P sea un punto límite de A ⊂ Rn es necesario y suficiente que para todo r > 0, se tenga que
card (A ∩ B (P; r)) = ∞.
( 3.16 ) Sea P un punto límite de A ∩ B. Entonces P es punto límite de A y de B; esto es, los puntos límite de
A ∩ B están contenidos en la interseccion de los puntos límite de A y de B.
( 3.20 ) Dé un ejemplo de una sucesión con una cantidad infinita y numerable de puntos límite.
∞
[
Sugerencia: La siguiente partición de N puede ser útil, N = An , donde, para i ∈ N, Ai = {pin : n ∈ N}
[ n=0
tomando pi el i-ésimo primo y A0 = N \ Ai .
i∈N
76
3.7. Ejercicios.
( 3.22 ) Determine si la proposición es cierta o falsa. En caso de ser cierta proporcione una prueba sencilla y
breve. Si es falso, debe dar un ejemplo explícito.
˚
1. A = A
Û ∪ ∂A.
˚
2. A \ A
Û = ∂A.
˚
3. A ∪ A
Û = A.
4. Rn \ A = ext A.
5. ∂A = A ∩ {A.
6. Todo conjunto abierto de Rn se puede expresar como unión de conjuntos cerrados.
7. Todo conjunto cerrado de Rn se puede expresar como intersección de conjuntos abiertos.
8. Todo conjunto abierto de Rn se puede expresar como unión de conjuntos cerrados con interiores no vacíos.
9. Todo conjunto abierto no vacío de Rn se puede expresar como unión de conjuntos cerrados con interiores
no vacíos.
10. A ⊂ Rn y {A tienen la misma cerradura.
11. Todos subconjunto numerable de R es compacto.
12. Sea X un subconjunto de Rn . Si O y O0 son cubiertas abiertas de X entonces O ∩ O0 es cubierta abierta de
X.
13. La unión numerable de conjuntos compactos es compacto.
14. La intersección finita de conjuntos compactos es compacto.
15. Todo conjunto cerrado es unión numerable de conjuntos compactos.
Sugerencia: Para A ⊂ Rn y X ∈ Rn define ρ(X, A) = ı́nf kX − Y k , la «distancia» de X a A. Considera
Y ∈A
los conjuntos Ar = {X ∈ Rn : ρ(X, A) < r} y Ar0 = {X ∈ Rn : ρ(X, A) ≤ r} y muestra que el primero es
abierto y el segundo es cerrado. Además, muestra que A = {X ∈ Rn : ρ(X, A) = 0}. También puedes considerar
Br = {X ∈ Rn : ρ(X, {A) ≥ r} y demostrar que este conjunto es cerrado.
( 3.23 ) Para que una función f : R → R sea continua es necesario y suficiente que la preimagen de cualquier
abierto sea abierto.
Sugerencia: reescriba la definición de continuidad en términos de bolas.
( 3.24 ) Sea P un conjunto de n ∈ N puntos látices, es decir, puntos de coordenadas en Z, de R2 y L un conjunto
de m rectas en el plano que es cubierta de P. Si m < n entonces existe al menos una recta en L cuya pendiente
no es irracional.
77
Capítulo 3. Topología de Rn .
Describa exactamente la forma geométrica de las bolas abiertas con esta distancia en Rn .
3. Se da la misma definición de conjunto abierto de Rn solo que usando esta distancia. Esto no genera
ambigüedad con lo definido en el texto; esto es, que la colección de abiertos generada por la distancia
definida aquí coincide con aquella generada con la distancia euclidiana. Cuando dos distancias generan el
mismo conjunto de abiertos se dice que son equivalentes.
4. Concluya que todas las propiedades demostradas en este capítulo valen de igual manera para la distancia
euclidiana como para la distancia definida aquí.
( 3.26 ) Repita el ejercicio anterior para la «distancia de Manhatan»:
n
X
d(x1 , . . . , xn , y1 , . . . , yn ) = |xi − yi |.
i=1
1. si (Ui )i∈I es una familia de elementos de τ(Rn ) entonces su unión es un elemento de τ(Rn );
2. la intersección de cualquier familia finita de elementos de τ(Rn ) es un elemento de τ(Rn );
3. Rn , ∅ ∈ τ(Rn ).
Cuando un subconjunto τ ∈ P (Rn ) satisface las condiciones anteriores se dice que τ es una topología de Rn
entonces la colección de abiertos de la distancia euclidiana es una topología de Rn .
( 3.28 ) Sea A como en el ejemplo (3.3.4). No existe una subfamilia finita de O tal que cubra A. Esto demuestra
que A no es compacto.
( 3.29 ) Recuerda que un intervalo en Rn es cerrado si su complemento es abierto, de este modo, el intervalo
[a, ∞) es cerrado, el cual no es compacto.
( 3.30 ) Cualquier intervalo abierto no es compacto.
( 3.31 ) Un intervalo de la forma [a, b) × [c, d] ⊂ R2 no es compacto.
( 3.32 ) [0, 1] ∩ Q no es compacto.
( 3.33 ) Sean a ≤ c ≤ b y a 6= b entonces [a, b] \ {c} no es compacto.
Sugerencia: construye una cubierta de [a, b] \ {c} construyendo anillos a través de bolas centradas en c.
( 3.34 ) Sea A un conjunto acotado con un número finito de puntos límite tal que los contiene a todos. Entonces
A es compacto.
7 Esta distancia apareció en los ejercicios del primer capítulo.
78
3.7. Ejercicios.
( 3.35 ) Sea A un conjunto acotado de Rn . Para todo X ∈ Rn existe MX > 0 tal que A ⊂ B (X; MX ) .
( 3.36 ) El producto cartesiano de cualquier cantidad finita de compactos es compacto.
( 3.37 ) La unión finita de conjuntos compactos es un conjunto compacto.
( 3.38 ) La intersección arbitraria de conjuntos compactos es un conjunto compacto.
( 3.39 ) Si A es compacto en Rn y pr1,...,m : Rn → Rm es proyección, con m ≤ n entonces pr1,...,m (A) ⊂ Rm
es compacto.
( 3.40 ) Sea A un conjunto compacto en Rn . Se puede decir que A es compacto independientemente del espacio.
Esto es, la inclusión de A en Rm es compacto para m ∈ N, en donde la inclusión de A en Rm es proyección si
m ≤ n o bien, es A × {0} si m > n.
( 3.41 ) Las siguientes afirmaciones son equivalentes sobre un conjunto compacto K.
1. Toda sucesión definida en K tiene una subsucesión convergente en K.
2. Todo subconjunto infinito de K tiene un punto límite en K.
( 3.42 ) Las siguientes condiciones son equivalentes sobre un conjunto K ⊂ Rn .
1. K es compacto.
2. K es cerrado y acotado.
3. Toda sucesión definida en K tiene una subsucesión convergente en K.
4. Todo subconjunto infinito de K tiene un punto límite en K.
( 3.43 ) Sea (Ki )i∈I una familia de subconjuntos compacto de Rn . Supón que la intersección de cualquier subfamilia
finita es no vacía. Entonces, la intersección de toda la familia es\
no vacía; «propiedad de la intersección finita».
Sugerencia: Considera un índice α fijo. Supón que Kα ∩ Ki = ∅. Toma O la familia formada por
i∈I,i6=α
los complementos de los elementos Ki , en donde i 6= α entonces O es una cubierta abierta de Kα y utiliza
la compacidad de Kα para encontrar una subfamilia finita de O que sea cubierta de Kα . Esto demuestra que
k
\
Kα ∩ Kij = ∅, deduzca una contradicción de esto.
j=1
( 3.44 ) Sea K1 = [0, 1], y se divide K1 en tres subintervalos de igual longitud, a saber, K1 = [0, 31 ]∪( 31 , 23 )∪[ 32 , 1],
se define K2 = K1 − ( 31 , 23 ) = [0, 31 ] ∪ [ 23 , 1] = I21 ∪ I22 .
Se procede inductivamente, supón que en el paso n-ésimo se ha construido un conjunto de la forma Kn =
n−1
2[
Iin , donde Iin es un intervalo cerrado. Para construir Kn+1 se divide cada Iin en tres subintervalos de igual
i=1
longitud iguales y son quitados el interior del intervalo de en medio, de este modo, Kn+1 el conjunto formado de
\∞
Kn al quitarle todos estos subintervalos. Sea K = Kn entonces K es el «conjunto de Cantor». Demuestre
n=1
que:
1. K es un compacto no vacío;
2. tiene longitud8 cero;
8 Considera la longitud de K como el límite de las longitudes de K . Observa que cada K tiene longitud bien definida pues
n n
es una unión disjunta y finita de intervalos cerrados.
79
Capítulo 3. Topología de Rn .
3. K coincide con el conjunto de sus puntos límite. Un conjunto que satisface esta última propiedad se denomina
perfecto.
( 3.45 ) Si K ⊂ R es compacto entonces α = ı́nf K y β = sup K son elementos de K.
Sugerencia: α o es punto aislado o es punto límite de K. Procede de manera análoga para β.
Para el mismo V , sea U ⊂ V el conjunto de funciones polinomiales de grado a lo más dos. ¿Es U un conjunto
abierto?, ¿es cerrado?
( 3.47 ) Sea V un espacio vectorial real y normado, de dimensión finita. Supón que U ⊂ V es un subespacio
vectorial que tiene interior no vacío. Demuestra que U = V .
˚
Sugerencia: sea x ∈ U. Ù Existe r > 0 tal que B (x; r) ⊂ U. Trasladala por −x para concluir que B (0; r) ⊂ U.
rx
Sea x ∈ V cualquier vector no nulo. Entonces, ∈ B (0; r) ⊂ U. Concluye que x ∈ U.
2 kxk
( 3.48 ) Se concibe una función polinomial en R2 de grado menor o igual que tres como un par ordenado de
polinomios (p, q) tales que p, q ∈ V , en donde se toma V tal como en el Ejercicio (3.46). Entonces, el espacio
de polinomios en R2 de grado a lo más tres es un espacio vectorial con la suma y producto por escalar definido
en cada entrada y cuya dimensión deberás determinar; de hecho, este espacio coincide con V × V (ve (1.2.20)).
Sea kkV una norma en V , cualquiera. Entonces, k(p, q)kV ×V = kpkV + kqkV define una norma en V × V . ¿Es el
conjunto de los polinomios (a0 + a1 x + a2 x 2 + a3 x 3 , b0 + b1 x + b2 x 2 + b3 x 3 ) tales que a0 < a1 y a3 > b3 un
abierto en V × V ?
80
Capítulo 4
• Curvas en Rn .
Las curvas, caminos, trayectorias y trazas son objetos matemáticos íntimamente ligados con ciertos
conjuntos especiales, llamados conexos por trayectorias. A manera intuitiva se entenderá que un con-
junto es conexo por trayectorias si para cualesquier dos puntos del conjunto existe una linea curva que
los une. Esto permitirá demostrar que en Rn los únicos conjuntos que son abiertos y cerrados a la vez
son únicamente Rn y ∅. La linea curva antes mencionada será, precisamente, un camino (concepto que
se define más adelante).
A manera resumida, este capítulo tratará los conceptos de límite, derivada, teoremas sobre derivadas
e integración para funciones cuyo dominio es subconjunto de R. No debe causar dificultades este
capítulo pues casi todos los métodos, técnicas, teoremas e ideas se basan en los conocimientos que el
lector posee sobre funciones de R en R.
§ 4.1. Definiciones.
Se supone que dados A, B ∈ Rn se quiere describir, a través de una función, el segmento de recta
que une a A con B. Ya se mencionó como hacer esto con conjuntos, a saber,
Observa que lo que se está haciendo es, para cada t ∈ [0, 1], asignar un único vector en L. De este
modo se puede definir una función f : [0, 1] → L, dada por f(t) = (1 − t)A + tB, y decir que f es una
curva y al segmento descrito por f es la traza. El dominio de f es subconjunto de R y el contradominio
es subconjunto de Rn .
( 4.1.1 ) Sea f : I ⊂ R → Rn entonces f es una curva. Asimismo, los términos curva, camino y trayectoria son
indistintos entre sí. Además, α = f(I) será llamada la traza definida por f.
81
Capítulo 4. Curvas en Rn .
Sea α la traza descrita por f. Es importante la siguiente observación: todos los puntos de α están
en el círculo unitario S1 = {(x, y) ∈ R2 : x 2 + y 2 = 1}, analíticamente esto es cierto pues kf(t)k = 1.
Esto sugiere pensar que α = S1 . Ahora bien, para cualquier t ∈ [0, 2π] se tiene que (cos t, sin t) ∈ S1 .
De esto se concluye que α ⊂ S1 , falta ver que la otra contenencia también es válida. Sea (x, y) ∈ S1
entonces x 2 + y 2 = 1. Sea θ ∈ [0, 2π) el ángulo formado desde el vector (1, 0) al vector (x, y) entonces
por definición del seno y del coseno1 (x, y) = (cos θ, sin θ) ∈ α. De donde, α = S1 . Este primer ejemplo,
aunque sencillo, es de los más importantes pues da una parametrización de S1
Ya se sabe que f : [0, 2π] → R2 dada por f(t) = (cos t, sin t) parametriza al círculo unitario entonces
rf(t) = r(sin t, cos t), debería parametrizar al círculo de radio r y centro 0. Entonces, g(t) = rf(t) + P
debería parametrizar a C. Se verá que esto es cierto, se pone α = f([0, 2π]). Observa que kg(t) − Pk =
r kf(t)k = r. Por lo tanto, α ⊂ C. Sea X ∈ C entonces se considera t el ángulo que forman los vectores
X−P 1
X − P y e1 = (1, 0). Entonces, f(t) = = (X − P), de este modo, g(t) = X y C ⊂ α.
kX − Pk r
Con este ejemplo se ha podido parametrizar a todo círculo en R2 . En los ejercicios se dan más
parametrizaciones de curvas famosas.
Dadas dos curvas en el mismo espacio, por ejemplo f y g, hay interés en definir el tipo de opera-
ciones que pueden realizarse con ellas. Por ejemplo, no existe la división o multiplicación de vectores,
f
por ende, no seran definidas o fg; sin embargo, se puede pensar en división por coordenadas o mul-
g
tiplicación por coordenadas, aún así, esto no se hará pues más adelante se identificarán a las funciones
vectoriales como matrices de 1 × n cuyas entradas son funciones en vez de números.
( 4.1.5 ) Sean f y g dos curvas definidas en Rn y φ una curva en R. Se definen las siguientes funciones a partir
de ellas:
1. la suma (de curvas en el mismo espacio) como la función f + g que posee regla de correspondencia
t 7Ï f(t) + g(t) y dominio Dom (f + g) = Dom (f) ∩ Dom (g) ;
2. el producto escalar (de curvas en el mismo espacio) f · g como la función con regla de correspondencia
t 7Ï f(t) · g(t) y dominio Dom (f · g) = Dom (f) ∩ Dom (g) ;
3. si n = 3, el producto vectorial f × g como la función con regla de correspondencia t 7Ï f(t) × g(t) y dominio
Dom (f × g) = Dom (f) ∩ Dom (g) ;
1 Ve, por ejemplo, [21].
82
4.2. Límites.
4. el producto por una función escalar φf como la función con regla de correspondencia t 7Ï φ(t)f(t) y dominio
Dom (φf) = Dom (φ) ∩ Dom (f) .
Es inmediato de estas definiciones que la función f · g es una función de R en R y la función f × g
es una función de R en R3 y φf es de R en Rn .
R : f y g son equivalentes,
es de equivalencia.
Esto es así pues al ser u continua y estrictamente creciente existe una inversa, también estrictamente
creciente, u−1 : [a, b] → [a, b] tal que g = f ◦ u−1 . Además, es claro que f = f ◦ I[a,b] y si f = g ◦ u y
g = h ◦ v entonces f = h ◦ (v ◦ u) y v ◦ u es continua y estrictamente creciente pues u y v lo son.
( 4.1.8 ) Cuando u es estrictamente decreciente se obtiene la definición de curvas opuestas. En particular,
f, g : [a, b] → Rn y u : [a, b] → [a, b] es tal que u(t) = a + b − t, se dirá que g parametriza la misma traza
que f pero en dirección opuesta. Esto también se expresa diciendo que g es la curva f recorrida al revés.
( 4.1.9 ) Si f : [a, b] → Rn entonces existe una curva equivalente a f, por ejemplo g, tal que g : [0, 1] → Rn .
Hay que encontrar un cambio de Å parámetro
ã adecuado. Define g(t) = f ((b − a)t + a) . Entonces,
t − a t−a
g : [0, 1] → Rn . Observa que f(t) = g , donde u(t) = . Claramente u representa una recta
b−a b−a
con pendiente positiva, por lo que es una función continua y estrictamente creciente. Además, dado que
u(a) = 0 y u(b) = 1 se ve que f es equivalente a g.
§ 4.2. Límites.
Uno de los conceptos más importantes (y abstractos) en cálculo es el de límite. Cuando se habla de
límite siempr se piensa en cercanía. Entonces, el símbolo lı́m f(t) = L habrá de significar que la curva
t→a
f estará tan cerca como se desee de L bastando para esto acercar a t la suficiente a a. Esta expresión
intuitiva requiere ser expresada en términos precisos.
( 4.2.1 ) Sea f una curva definida sobre un conjunto I ⊂ R, sea a ∈ R un punto de acumulación de I. Se dice
que un límite de f en a es L, denotado por lı́m f(t) = L, si
t→a
(∀ε > 0)(∃δ > 0) tal que (0 < |t − a| < δ, t ∈ I Ñ kf(t) − Lk < ε).
83
Capítulo 4. Curvas en Rn .
Observaciones:
1. El δ que aparece en la definición es, típicamente, función de ε y de a. Esto difiere con las sucesiones
donde el N encontrado era función únicamente de ε.
2. Muchos autores utilizan la notación lı́m f = L para referirse al límite de f en a.
a
3. No se pide que a ∈ Dom (f) pues puede suceder que I = [b, a) ∪ (a, c]. En este caso, nada impide
que para valores cerca de a las imágenes de tales valores tengan como límite a cierto vector L.
4. Si a no es un punto límite de I pero está en I entonces cualquier vector L es límite de f en a.
Para ver esto se observa lo siguiente, dado que a no es punto límite de I existe una bola centrada
en a tal que su intersección con I es {a}. De este modo, cualquier punto distinto de a, que esté
en esta bola e I satisface que su imagen dista de L menos que ε para cualquier ε > 0. Por eso es
importante que a sea punto límite de I.
5. Observa que la definición anterior coincide con aquella dada para funciones de R en R cuando la
curva está definida en R.
6. En principio no existe ninguna garantía que existe el límite. El siguiente teorema aclara este punto.
( 4.2.2 ) Sea f una curva definida en I tal que lı́m f existe. Entonces este límite es único.
a
Se supone que lı́m f = L1 y lı́m f = L2 . Sea ε > 0, para que ocurra las dos igualdades anteriores es
a a
necesario y suficiente que2
y
∃δ2 > 0 tal que t ∈ B∗ (a; δ2 ) ∩ I Ñ kf(t) − L2 k < ε.
Sea δ = mı́n{δ1 , δ2 } entonces las dos implicaciones previas se mantienen simultáneamente. Observa
que L1 = L2 ⇔ L1 − L2 = 0 ⇔ kL1 − L2 k = 0, en donde la última equivalencia se deriva de la definición
de norma (1.4.2). Usando la desigualdad triangular (otra vez, ve la definición de norma), se ve que
Como L1 y L2 son vectores fijos y la última desigualdad se preserva para cualquier ε, se sigue que
kL1 − L2 k es cero3 . Esto prueba el teorema.
Antes de los siguientes ejemplos habrá que convenir algo. A partir de ahora se daren solamente la
regla de correspondencia de una curva f y siempre se deberá considerar al dominio como el conjunto
más grande de R para el cual esta regla está definida.
( 4.2.3 ) Demuestra los siguientes límites.
1. lı́m(t, 2t, t − 1) = (2, 4, 1);
t→2
2 Aquí se está usando la notación B∗ (a; δ) = B (a; δ) \ {a}, la bola agujerada de centro a y radio δ.
3 Si kL1 − L2 k
es clara la conclusión puedes proceder como sigue. Supón por el contrario que kL1 − L2 k > 0, sea ε = entonces
4
kL1 − L2 k
kL1 − L2 k < 2ε = , lo que es falso por la suposición de que kL1 − L2 k > 0
2
84
4.2. Límites.
1. Sea ε > 0, se quiere encontrar un δ > 0, como función de ε y 2, tal que se satisfaga la definición
de límite. Observa que 2 es un punto límite del dominio de la función (en este caso el dominio
es R, el conjunto más grande donde la función está definida). También, si se pidiera encontrar
el límite de la primera coordenada (o de la tercera), solamente bastaría dar δ ≤ ε para que se
satisficiera la definición de límite. Análogamente, si se tomára a la segunda coordenada se tendría
1 1
que cualquier δ ≤ ε es buen candidato. Resulta natural pensar que δ = ε, es buen candidato;
2 2
sea t ∈ B∗ (2; δ) . Entonces
2. Este ejemplo es un poco más complicado que el anterior, sin embargo, es más ilustrativo. Dado
ε > 0 existen δ1 y δ2 tales que
ε ε
|t| < δ1 Ñ | sin t| < √ y |t| < δ2 Ñ |t| < √
2 2
La existencia de δ1 y δ2 está garantizada pues en R las funciones seno e identidad son continuas.
Sea δ = mı́n{δ1 , δ2 } entonces para todo t ∈ B∗ (0; δ) se tiene que
» ε2 ε2
kf(t) − Lk = k(sin t, t)k = sin2 (t) + t 2 < + = ε,
2 2
que es lo que se quería demostrar.
Seguramente el lector estará sospechando los límites de curvas se comportan como límites de
sucesiones. Esto es, si f = (f1 , . . . , fn ) entonces
lı́m f(t) = lı́m f1 (t), . . . , lı́m fn (t) ;
t→a t→a t→a
esto es cierto.
( 4.2.4 ) Sea f = (f1 , . . . , fn ) una curva en Rn , y sea a un punto de acumulación de Dom (f) . Para que
lı́m f(t) = L es ncesario y suficiente que lı́m fi (t) = Li , para cada i = 1, . . . , n.
t→a t→a
4 Siendo menos estrictos, éste δ es suficiente para demostrar el límite pues el multiplicar por cualquier constante positiva no
modifica el significado geométrico de límite. Simplemente, se considera una bola reducida más pequeña (o más grande, según
sea el caso).
85
Capítulo 4. Curvas en Rn .
lı́m(f + g)(t) = L1 + L2 .
t→a
Hay que hacer una aclaración, se deben demostrar dos cosas, la primera es que el límite de f + g
en a existe, la segunda, que este límite es L1 + L2 .
Sea ε > 0. D acuerdo al ejercicio (3.16) a es punto límite de Dom (f) y de Dom (g) . Entonces, existen
δ1 y δ2 tales que
ε
t ∈ B∗ (a; δ1 ) ∩ Dom (f) Ñ kf(t) − L1 k <
2
y
ε
t ∈ B∗ (a; δ2 ) ∩ Dom (g) Ñ kg(t) − L2 k <
2
De este modo, se toma δ = mı́n{δ1 , δ2 } entonces las dos ecuaciones anteriores se satisfacen simultá-
neamente. Por lo tanto, para t ∈ B∗ (a; δ) ∩ Dom (f + g) , se tiene que
k(f + g)(t) − (L1 + L2 )k = kf(t) − L1 + g(t) − L2 k
ε ε
≤ kf(t) − L1 k + kg(t) − L2 k < + =ε
2 2
Lo cual prueba que el límite de f + g en a existe y es igual a L1 + L2 .
La demostración de este teorema fue prácticamente la misma que en el caso de una variable.
( 4.2.6 ) Sean f y g dos curvas definidas en el mismo espacio y sea a un punto de acumulación de Dom (f · g) .
Se supone que lı́m f(t) = L1 y lı́m g(t) = L2 . Entonces
t→a t→a
lı́m(f · g)(t) = L1 · L2 .
t→a
Se sabe que los límites de f y g existe si y solo si existen coordenada a coordenada. Luego,
n
X n
X
lı́m(f · g)(t) = lı́m (fi gi )(t) = lı́m fi (t)gi (t)
t→a t→a t→a
i=1 i=1
n
X
= lı́m fi (t) lı́m gi (t)
t→a t→a
i=1
= lı́m f1 (t), . . . , lı́m fn (t) · lı́m g1 (t), . . . , lı́m gn (t)
t→a t→a t→a t→a
= lı́m f(t) · lı́m g(t) = L1 · L2 .
t→a t→a
86
4.2. Límites.
( 4.2.8 ) Sean f y g curvas que están definidas en R3 y sea a un punto de acumulación de Dom (f × g) .
Asimismo, se supone que lı́m f(t) = L1 y lı́m g(t) = L2 . Entonces, existe lı́m(f × g)(t) y se tiene la siguiente
t→a t→a t→a
igualdad
lı́m(f × g)(t) = L1 × L2 .
t→a
A × B = (a2 b3 − a3 b2 , a3 b1 − a1 b3 , a1 b2 − a2 b1 )
De este modo,
lı́m(f × g) = lı́m(f2 g3 − f3 g2 , f3 g1 − f1 g3 , f1 g2 − f2 g1 )
a a
= (lı́m(f2 g3 − f3 g2 ), lı́m(f3 g1 − f1 g3 ), lı́m(f1 g2 − f2 g1 ))
a a a
= (lı́m f1 , lı́m f2 , lı́m f3 ) × (lı́m g1 , lı́m g2 , lı́m g3 )
a a a a a a
= lı́m f × lı́m g = L1 × L2 .
a a
87
Capítulo 4. Curvas en Rn .
y Ä√ ä √ Ä√ ä
lı́m t, sint (t) = lı́m t, lı́m(sin t)t = 2, (sin 2)2 .
t→2 t→2 t→2
Obsérve que se han usados hechos de cálculo de una variable, a saber, las funciones seno, coseno,
identidad y exponencial son continuas.
§ 4.3. Continuidad.
Como su nombre indica, en esta sección se hablará de continuidad y se demostrarán algunos teore-
mas concernientes a ella. Supón entonces que una mosca se encuentra volando en la habitación. Para
que ella pueda trasladarse de un punto determinado A a otro punto determinado B la mosca no puede
desaparecer en A y aparecer en algún punto arbitrario C, tiene que recorrer todo un camino que no
se rompe.
( 4.3.1 ) Sea f una curva y a ∈ Dom (f) ; si a no es punto de acumulación de Dom (f) , se dirá que f es continua
en a; si a es un punto de acumulación de Dom (f) , se dirá que f es continua en a si
(∀ε > 0)(∃δ > 0) tal que t ∈ B (a; δ) ∩ Dom (f) Ñ f(t) ∈ B (f(a); ε) .
Observaciones:
1. Si f es una curva y a es un punto de acumulación del dominio de f entonces para que f sea
continua en a es necesario y suficiente que
2. La definición de continuidad ha sido dada para cada punto del dominio de la curva. Luego, esto
es lo que se conoce como una propiedad local de la curva. Puede suceder que haya curvas que
sean continuas en un único de su dominio. Como muestra, considera la curva f : R → R dada
por f(x) = x para x racional y f(x) = 0 para x irracional. Tal curva satisface ser continua en cero
pero no en ningún otro punto de su dominio.
3. Si f está definida sobre un conjunto I ⊂ R se dirá que f es continua en I si para todo x ∈ I, f es
continua en x. Con esto, si se dice que f es una curva continua se deberá entender que f es una
curva continua en cada punto de su dominio.
La demostración de los teoremas sobre contiuidad se basa en usar repetidamente (4.2.4) para los
puntos de acumulación del dominio.
( 4.3.2 ) Sean f = (f1 , . . . , fn ) una curva definida en Rn y a ∈ Dom (f) . Una condición necesaria y suficiente
para que f sea continua en a es que cada fi sea continua en a.
( 4.3.3 ) Sean f y g curvas definidas en Rn las cuales son continuas en a. Se cumple lo siguiente:
1. f + g es continua en a;
2. f · g es continua en a;
3. f × g es continua en a.
En Rn la continuidad puede ser definida sin usar límites, sin usar el clásico estilo ε-δ. Si dos puntos
están arbitrariamente cercanos en la imagen entonces sus preimágenes están arbitrariamente cerca.
88
4.4. Diferenciación.
( 4.3.4 ) Sea f una curva con valores en Rn . Para que f sea continua en t ∈ Dom (f) es necesario y suficiente
que para toda bola B (f(t); ε) en Rn exista una bola B (t; δ) en R tal que
Para f continua en t considera ε > 0 entonces existe δ > 0 tal que para s ∈ Dom (f) con |t − s| < δ
se tiene que |f(t) − f(s)| < ε. Esto es precisamente que f (B (t; δ) ∩ Dom (f)) ⊂ B (f(t); ε) .
Se supone ahora que para toda bola B (f(t); ε) en Rn exista una bola B (t; δ) en R tal que
Toma ε > 0 entonces existe δ > 0 con f (B (t; δ) ∩ Dom (f)) ⊂ B (f(t); ε) . Esto es, existe un δ > 0 para el
cual, si s ∈ Dom (f) es tal que |t − s| < δ entonces kf(t) − f(s)k < ε. Es decir, f es continua en t.
( 4.3.5 ) Sea f una curva con valores en Rn . Para que f sea continua en t ∈ Dom (f) es necesario y suficiente
que para todo abierto U ⊂ Rn que tenga a f(t) como elemento exista un abierto I ⊂ R que contenga a t tal que
f(I ∩ Dom (f)) ⊂ U.
§ 4.4. Diferenciación.
En los cursos de cálculo de una variable el lector debió haber aprendido lo que es una derivada.
Quienes estudiaron carreras con fuerte base matemática deberán saber que la derivada es un número
que se obtiene como el resultado de un límite. Más aún, la derivada tiene interpretaciones geométricas y
físicas interesantes. En R la derivada de una función f en un punto t es el valor numérico de la pendiente
de la recta tangente a f en t. Para la física la derivada representa la razón de cambio instantánea en t.
Esto es, el promedio puntual del crecimiento de una función respecto al crecimiento de su argumento.
Como es de esperarse, la derivada de una curva también tiene representaciones geométricas y físicas.
A diferencia de las funciones de Rn en Rm , donde definir derivada es bastante más complicado que
este caso, la generalización a una curva es simple y natural. Cómo en el caso de los límites, la derivada
de una curva es la derivada por coordenadas.
( 4.4.1 ) Sea f una curva definida en Rn . La derivada de f, denotada como f 0 es una función de un subconjunto
de R a Rn con regla de correspondencia
f(t + h) − f(t)
f 0 (t) = lı́m
h→0 h
y dominio el conjunto de puntos donde el anterior límite existe.
Observaciones:
89
Capítulo 4. Curvas en Rn .
2. La derivada ha sido definida como una función de R a Rn . Esto difiere con lo aprendido en
cursos de cálculo de una variable, donde la derivada era un número. Asimismo, esto diferirá con
la derivada más general presentada en el siguiente capítulo. Sin embargo, se demostrará en el
próximo capítulo que pese a las diferentes definiciones todas se adaptan al caso general haciendo
algunas identificaciones naturales.
3. En el caso real también se pudo haber dicho que la derivada era una función de R en R que
satisface el anterior límite. Con esto en mente, las definiciones de derivada para funciones de R
en R y las de curvas coinciden cuando n = 1.
4. Dada una curva f = (f1 , . . . , fn ), para que esta sea diferenciable en f es necesario y suficiente que
cada fi sea diferenciable en a. En este caso f 0 (a) = (f10 (a), . . . , fn0 (a)). Lo que es inmediato de (4.2.4).
5. Existen variadas notaciones para la derivada. La siguiente es una lista de símbolos que denotan a
df dX d
la derivada de f: f 0 , D(f)(t), Df(t), , si f(t) = X(t) entonces denota la derivada, f(t), y ḟ,
dt dt dt
o bien, si f(t) = X(t) entonces Ẋ. Esta última es frecuentemente utilizada en la física.
6. El problema de encontrar una derivada de R en Rn se transformó al de encontrar n derivadas
de funciones de R en R. Observa que todos los teoremas sobre funciones con dominio R y
contradominio Rn se han desmenuzado a resolver n veces el mismo teorema de R a R. Lo
mismo sucedió con sucesiones y series.
90
4.4. Diferenciación.
( 4.4.4 ) Sean f y g dos curvas en R3 para las cuales f 0 y g 0 existen en a. Entonces (f × g)0 existe en a y
(f × g)0 = (f2 g3 − f3 g2 , f3 g1 − f1 g3 , f1 g2 − f2 g1 )0
= ((f2 g3 − f3 g2 )0 , (f3 g1 − f1 g3 )0 , (f1 g2 − f2 g1 )0 )
= (f2 g30 + f20 g3 − f3 g20 − f30 g2 , f3 g10 + f30 g1 − f1 g30 − f10 g3 ,
f1 g20 + f10 g2 − f2 g10 − f20 g1 )
= (f2 g30 − f3 g20 , f3 g10 − f1 g30 , f1 g20 − f2 g10 )
+(f20 g3 − f30 g2 , f30 g1 − f10 g3 , f10 g2 − f20 g1 )
= f × g 0 + f 0 × g.
( 4.4.5 ) Sea f una curva y φ una función real de variable real para las cuales f 0 y φ0 existen en a. Entonces
Observación: Es interesante que estos teoremas hayan dado como derivada la misma regla de co-
rrespondencia. En los tres casos se tiene un producto P(f, g)(t) y se satisface que P es lineal en f y en
d
g, luego P(f, g)(t) = P(f, g 0 )(t) + P(f 0 , g)(t). En el siguiente capítulo se verá la razón de esto.
dt
Un hecho importante es que si una función real de variable real es derivable entonces la función
es suave en los puntos donde es derivable. También se sabe que si una función es derivable en algún
punto t, tiene que ser continua en t.
( 4.4.6 ) Sea f una función definida en un conjunto I ⊂ R y sea a ∈ I tal que f 0 existe en a. Entonces f es
continua en a.
La idea de la demostración es, esencialmente, la misma que para el caso R. Como f es derivable
f(a + h) − f(h)
en a, lı́m existe. También, f es continua en a si lı́m f(t) = f(a) o, equivalentemente,
h→0 h t→a
91
Capítulo 4. Curvas en Rn .
( 4.4.7 ) Sea f una curva en Rn definida sobre [a, b], con a < b, tal que f es diferenciable en (a, b) y continua
en [a, b]. Entonces, para cada i = 1, . . . , n, existe ci ∈ (a, b) tal que
Observaciones:
1. no se demuestra la existencia de un c en (a, b) tal que f(b) − f(a) = (b − a)f 0 (c). De hecho, en
general, esto no se cumple. Por ejemplo, para f : [0, 1] → R2 dada por f(t) = (t 2 , t 3 ) no se cumple;
en efecto, f 0 (t) = (2t, 3t 2 ), por lo cual f(1) − f(0) = f 0 (c) si y solo si (1, 1) = (2c, 3c2 ). Pero ningún
c ∈ [0, 1] cumple esto.
2. Aquí se utilizó el teorema del valor medio clásico para funciones de R a R. En (4.6.8) se da una
demostración alternativa al «teorema del valor medio» moderno.
Los teoremas anteriores fueron sencillos de demostrar, básicamente todo el trabajo desarrollado
hasta ahora se ha resumido a cálculo de una variable.
92
4.5. Longitud de Arco.
( 4.4.8 ) Sea f una curva en Rn . Se dirá que f 0 (p) es el vector tangente a f en p, siempre que tal vector exista.
Con la definición de vector tangente se procede a definir lo que es la recta tangente.
( 4.4.9 ) Sea f una curva en Rn con vector tangente en p. Se define la recta tangente a la traza descrita por f
en p como
T = {v ∈ Rn : v = f(p) + tf 0 (p), t ∈ R}.
( 4.4.10 ) Sea f : R → R. Entonces, para que f sea diferenciable en a es necesario y suficiente que
93
Capítulo 4. Curvas en Rn .
la parametrización. Más aun, se quiere encontrar una fórmula explícita y relativamente sencilla para
calcular dicha longitud.
Se empieza tratatando de buscar algún significado a la longitud. Es natural pensar que ésta debe
ser la distancia recorrida por la curva en la traza. Ahora bien, si la curva recorre varias veces la
traza entonces la distancia debe ser proporcional al número de veces que se ha recorrido la traza.
Por ejemplo, es bien sabido que la longitud de la circunferencia unitaria es 2π, de este modo, la curva
f : [0, 2π] → R2 dada por f(t) = (cos t, sin t) debe tener longitud de arco de 2π y la curva g : [0, 4π] → R2
dada por g(t) = (cos t, sin t) debe tener una longitud de 4π.
Es razonable preguntarse, ¿qué debe pedirse a la traza para que su longitud exista? Lo primero que
viene a la mente es pedirle que no se rompa, esto es, que sea continua. Es claro que no hay necesidad
de perdir diferenciabilidad pues, la traza de t 7Ï (t, |t|) debería tener longitud sobre cualquier intervalo
de la forma [−a, a]. Lo que puede causar un poco de extrañeza es que tampoco hay necesidad de pedir
continuidad, una traza como (t, −1) para t < 0 y (t, 1) para t ≥ 0 también debería tener longitud en
cualquier intervalo de la forma [−a, a] y esta traza no es continua en el origen.
Lo más natural es empezar definiendo la longitud de segmentos de recta. Esta puede ser definida
de la siguiente forma natural, se toma la distancia entre ambos puntos.
( 4.5.1 ) Sean A y B dos puntos en Rn . Se define la longitud del segmento de recta que une A con B como
L ([A, B]) = kA − Bk .
¿Cómo se miden las distancias curvadas? Por lo regular se toma una medida recta unitaria y se
aproxima la distancia traza con la medida recta. Se procede análogamente aquí; sea f : [a, b] → Rn una
curva continua. Sea P = {ti : t0 = a, tm = b, ti−1 < ti , i = 1, . . . , m}, una aproximación a la longitud de
fes
Xm
∆(f, P) = kf(xi ) − f(xi−1 )k .
i=1
como la longitud buscada. Antes de hcer esto hay que verificar que la aproximación va mejorando
conforme la «norma» de P se va haciendo más fina, pero esto es cierto, ejercicio (4.64). Así, en efecto,
la aproximación va mejorando y acercándose a la longitud de la traza cuando ésta es finita. En otro
caso no existe.
( 4.5.2 ) Sea [a, b] un intervalo en R. Se define una partición de [a, b] como cualquier familia P = (ti )i=0,1,...,n
de puntos en [a, b] tales que a = t0 < t1 < . . . < tn = b. Si Q = (si )i=0,...,m es otra partición de [a, b] con
n ≤ m y tal que existen 0 = i0 < . . . < in−1 < in = m para los cuales sj = tij , o equivalentemente, la subfamilia
(sij )j=0,...,n es P entonces a Q se le llama un refinamiento de P. Asimismo, el conjunto de todas las particiones
de [a, b] es P([a, b]).
( 4.5.3 ) Sea f una curva continua en Rn definida en un intervalo [a, b]. Sea P una partición de [a, b], se define
la aproximación de la longitud de arco de f por la partición P como
m
X
∆(f, P) = kf(ti ) − f(ti−1 )k ,
i=1
94
4.6. Cálculo de longitud de arco.
( 4.5.4 ) Sea f una curva continua en Rn definida en un intervalo compacto I. Sea P(I) el conjunto de todas las
particiones de I. Si a y b están en I (a ≤ b) entonces se define la longitud de arco de f entre a y b como
Esto muestra que {∆(f, Q)|Q ∈ P([0, 2π])} está acotado superiormente. De este modo f es rectificable.
Más adelante se tendrá la oportunidad de calcular el valor de Lf ([a, b]).
es pequeño. La longitud de la traza sobre el intervalo [ti−1 , ti ] es tan pequeña que se puede aproximar
con la partición. Ahora bien, si se supone que en Rn la longitud es igual a la rapidez por el tiempo es
razonable la siguiente igualdad
m
X m
Ä ä
X
Lf ([a, b]) ≈ ∆(f, P) =
0 ˆ
kf(xi ) − f(xi−1 )k ≈
f ti
(ti − ti−1 ) = S(kf 0 k , P)
i=1 i=1
95
Capítulo 4. Curvas en Rn .
Es destacable que el símbolo lı́m no ha sido definido aún. Estas consideraciones conducen a la defini-
kPk→0
ción de integral, dada originalmente por Riemann5 .
Darboux (14 de febrero de 1842 - 23 de febrero de 1917), un matemático francés. Para evitar caer en confusiones se dirá que una
función es integrable en el sentido de Darboux si satisface la definición dada por Darboux. Asimismo, se supondrá que el lector
aprendió integración de Darboux en sus cursos de cálculo de una variable. El desarrollo de tal integral puede ser encontrado en
el libro de Michael Spivak [21].
96
4.6. Cálculo de longitud de arco.
( 4.6.4 ) Sea f = (f1 , . . . , fn ) : [a, b] → Rn una curva acotada. Para que la integral de Riemann de f sobre
[a, b] exista es necesario y suficiente que la integral de Riemann de cada fi sobre [a, b] exista. En este caso, si
I = (I1 , . . . , In ) es la integral de f entonces Ii es la integral de fi .
Todo lo que hay que notar es que
S(f, P) = (S(f1 , P), . . . , S(fn , P)).
Luego, como de costumbre, en virtud del ejercicio (1.20)
n
X
|Ii − S(fi , P)| ≤ kI − S(f, P)k ≤ |Ik − S(fk , P)|,
k=1
97
Capítulo 4. Curvas en Rn .
( 4.6.6 ) Para una curva f con primera derivada continua se tiene que
Zb
0
lı́m S(kf k , P) = kf 0 (t)k dt.
kPk→0
a
En efecto, esto es consecuencia de que todas las funciones continuas son integrables6 , por lo que lo
único que se debe verificar es que kf 0 k es continua cuando f 0 lo es. Pero dado ε > 0 y t1 ∈ [a, b] existe
δ > 0 tal que |t1 − t2 | < δ Ñ kf 0 (t1 ) − f 0 (t2 )k < ε. De acuerdo al ejercicio (1.19), se tiene que
f(x + h) − f(x)
lı́m
h→0,h>0 h
existe; este límite será denotado por fd0 (x)7 . Análogamente se define que f posee una derivada por la izquierda en
x ∈ (a, b], denotado por fg0 (x)8 si
f(x + h) − f(x)
lı́m
h→0,h<0 h
existe.
( 4.6.8 ) Sean f : [a, b] → Rn una curva y g : [a, b] → R una función cualquiera. Se supone que f y g son
continuas y sus derivadas por la derecha existen para todo x ∈ (a, b) y que estas satisfacen
Entonces,
kf(b) − f(a)k ≤ g(b) − g(a).
Este es el «teorema del valor medio».
Aunque la idea puede parecer un poco oscura, se demostrará que para ε > 0 dado se satisface que
para todo x ∈ [a, b]
98
4.6. Cálculo de longitud de arco.
Luego, bastará tomar el ínfimo sobre ε > 0, el lado izquierdo permanece igual por ser independiente
de ε y luego se obtiene el teorema.
Para demostrar esta igualdad define U como el conjunto de los x ∈ [a, b] para los cuales la desigual-
dad es falsa; para concluir basta ver que U es vacío. Observa que U es abierto; esto se sigue del hecho
que U = φ−1 ((0, ∞)) para φ una curva continua (ve (4.3.5)). Supón entonces que exite x ∈ U. Claramen-
te, U es acotado y no vacío, por lo tanto existe c = ı́nf U. Se tiene que c > a pues kf(a) − f(a)k = 0.
Asimismo, c < b, pues si c = b entonces para todo x ∈ [a, b) se cumple la desigualdad, como f es
continua también se cumple para b. Finalmente, c ∈/ U, porque todo x ∈ [a, c) satisface la desigualdad,
de nuevo la continuidad de las funciones muestra que se satisface para c. De la definición de fd0 (c) y
gd0 (c) existe δ > 0 para el cual x ∈ [c, c + δ] implica
f(x) − f(c)
ε g(x) − g(c) ε
kfd0 (c)k ≥
− y gd0 (c) ≤ + .
x−c
2 x−c 2
Usando la desigualdad triangular se deduce que para cada x ∈ [c, c + δ] se cumple que
Observación: el caso más importante del teorema del valor medio es cuando
Ç f posee derivada
å acotada
en (a, b). En este caso se toma g 0 (t) = sup kf 0 (s)k ; esto es, cuando g(t) = sup kf 0 (s)k t, y se obtiene
s∈(a,b) s∈(a,b)
que
kf(b) − f(a)k ≤ (b − a) sup kf 0 (t)k .
t∈(a,b)
( 4.6.9 ) Sea f : [a, b] → Rn una curva continua sobre [a, b] y diferenciable sobre (a, b) (se supone a < b) y
Zb
con primera derivada continua sobre [a, b] . Entonces f es una curva rectificable y Lf ([a, b]) = kf 0 (t)k dt.
9
En efecto, sea P = (ti )i=0,...,m una partición de [a, b]. Entonces, en virtud del teorema del valor medio
(4.6.8) aplicado a cada intervalo [ti−1 , ti ] se cumple que
m
X m
X
∆(f, P) = kf(ti ) − f(ti−1 )k ≤ (ti − ti−1 ) sup kf 0 (t)k ≤ sup kf 0 (t)k (b − a),
i=1 i=1 t∈[ti−1 ,ti ] t∈(a,b)
9 Esto significa que f 0 existe sobre (a, b) y los límites lı́m f 0 (t) y lı́m f 0 (t) existen ambos.
t→a t→b
99
Capítulo 4. Curvas en Rn .
en donde la última desigualdad es consecuencia de que sup kf 0 (t)k ≤ sup kf 0 (t)k y de que la suma
t∈[ti−1 ,ti ] t∈(a,b)
resultante resulta telescópica10 . Ahora, como t 7Ï kf 0 (t)k es continua de [a, b] a R se sigue que está
acotada; sea M una cota. Entonces,
∆(f, P) ≤ M(b − a),
y M solo depende de f 0 , a y b. Por lo tanto, f es rectificable.
Ahora se demostrará que para todo ε > 0 se cumple que
Zb
Lf ([a, b]) − kf 0 (t)k dt < ε.
a
Se aplicará una técnica clásica de análisis. Observa que para cualquier P ∈ P([a, b]),
Zb Zb
Lf ([a, b]) − kf 0 (t)k dt = Lf ([a, b]) − ∆(f, P) + ∆(f, P) − S(kf 0 k , P) + S(kf 0 k , P) − kf 0 (t)k dt
a a
Zb
0 0 0
≤ |Lf ([a, b]) − ∆(f, P)| + |∆(f, P) − S(kf k , P)| + S(kf k , P) − kf (t)k dt .
a
Entonces, dado ε > 0, por definición de la longitud de arco, existe una partición Pε tal que
ε
|Lf ([a, b]) − ∆(f, P)| ≤ ,
3
en donde P es cualquier refinamiento de Pε . Ahora, en virtud de (4.6.6) se cumple que existe un
Qε ∈ P([a, b]) tal que si Q es un refinamiento de Qε entonces para cualquier suma de Riemann
Zb
0
0 0
ε
S(kf k , P) se cumple que S(kf k , P) − kf (t)k dt ≤ . Se consideran las sumas específicas
3
a
m
X
S(kf 0 k , Q) = kf 0 (qj−1 )k (qj − qj−1 ),
j=1
en donde Q = (qj )j=0,...,m . Por lo tanto, faltan acotar los términos de la forma |∆(f, R) − S(kf 0 k , R)| , en
donde R ∈ P([a, b]). Para esto supón que R = (rj )j=0,...,m entonces
X m Xm
|∆(f, R) − S(kf 0 k , R)| = kf 0 (rj−1 )k (rj − rj−1 )
kf(rj ) − f(rj−1 )k −
j=1 j=1
m
X
0
= kf(rj ) − f(rj−1 )k − kf (rj−1 )k (rj − rj−1 )
j=1
m
X
kf(rj ) − f(rj−1 )k − kf 0 (rj−1 )k (rj − rj−1 )
≤
j=1
m
X
≤ kf(rj ) − f(rj−1 ) − f 0 (rj−1 )(rj − rj−1 )k ,
j=1
m
10 Una
P
suma (xi − yi ) se llama telescópica si xi+1 = yi ; es fácil ver que en tal caso la suma vale xm − y1 (aplique inducción
i=1
en m).
100
4.6. Cálculo de longitud de arco.
¡En esta última desigualdad h tiende cero pero x no es fijo! Por lo que debe hacerse un refinamiento11 .
Esta es la parte más difícil pues involucra el concepto de continuidad uniforme12 . Entonces, define la
función g : [a, b] × [a, b] → Rn como
f(x) − f(y)
si x 6= y
g(x, y) = x−y
0
f (x) si x = y.
Se afirma que g es continua en todo su dominio. Es claro que g es continua en los puntos x 6= y. Solo
se verificará que g es continua cuando x = y. Sean r > 0 y |h|, |k| < r. Se observa lo siguiente, supón
primero que h 6= k,
f(x + h) − f(x + k)
kg(x + h, x + k) − f 0 (x)k ≤ ε ⇔
0
− f (x)
≤ε
h−k
0
⇔ kf(x + h) − f(x + k) − f (x)(h − k)k ≤ (h − k)ε
⇔
f(x + h) − f 0 (x)h − f(x + k) − f 0 (x)k
≤ (h − k)ε
donde φ(t) = f(x + t) − f 0 (x)t. Esto sugiere utilizar el teorema del valor medio (4.6.8). Aplicándolo, se
concluye que
kφ(h) − φ(k)k ≤ (h − k) sup kφ0 (t)k ,
t∈[−r,r]
puesto que [h, k] ∪ [k, h] ⊂ [−r, r] (uno de los dos intervalos entre [h, k] y [k, h] es vacío puesto que se
ha supuesto que h 6= k.). Observa que φ0 (t) = f 0 (x + t) − f 0 (x). Por lo tanto, se ha demostrado que
11 Se espera que el lector entienda esta sutileza, pues la prueba puede quebrarse en este punto si tal cuestión es ignorada.
12 A partir de este punto es donde se supone conocido el teorema de Heine-Cantor (5.5.14)
101
Capítulo 4. Curvas en Rn .
Como f 0 es continua sobre [a, b], el teorema de Heine-Cantor (5.5.14) muestra que f es uniformemente
continua sobre [a, b]. Así que para cualquier δ > 0 existe r > 0 tal que si x1 , x2 ∈ [a, b] y |x1 − x2 | < r
entonces kf 0 (x1 ) − f 0 (x2 )k < δ. Por lo tanto, se puede concluir que
lı́m kg(x + h, x + k) − f 0 (x)k ≤ lı́m sup kf 0 (x + t) − f 0 (x)k = 0;
(h,k)→(0,0) r→0 t∈[−r,r]
y por lo tanto, g es continua sobre [a, b] × [a, b] y entonces, g es uniformemente continua ahí (otra vez,
Heine-Cantor). Observa ahora que
ε(h; x) = g(x + h, x) − f 0 (x).
Como ε(0; x) = 0, se puede concluir que existe un r > 0 tal que si |h| < r y x ∈ [a, b] entonces
ε
kε(h; x)k ≤ .
3(b − a)
Finalmente, para concluir, se mostró la existencia de particiones Pε y Qε tales que si P es un
refinamiento de Pε y Q es un refinamiento de Qε entonces
ε
|Lf ([a, b]) − ∆(f, P)| <
3
y b
Z
kf 0 (t)k dt − S(kf 0 k , Q) < ε .
3
a
También se demostró la existencia de un r > 0 tal que si |h| < r y x ∈ [a, b] entonces
ε
kε(h; x)k ≤ .
3(b − a)
Considera ahora Rε una partición de [a, b] que refine simultáneamente (ve el ejercicio (4.63)) a Pε y
Qε de tal forma que si Rε = (rj )j=1,...,m entonces máx |rj − rj−1 | < r. Para cualquier partición R más
1≤j≤m
fina que Rε se cumple que
∆(f, R) − S(kf 0 k , R) ≤ ε .
3
Por lo tanto,
Zb
Lf ([a, b]) − kf 0 (t)k dt ≤ |Lf ([a, b]) − ∆(f, P)| + ∆(f, R) − S(kf 0 k , R)
a
b
Z
+ kf 0 (t)k dt − S(kf 0 k , Q) ≤ ε.
a
102
4.7. Parametrización por longitud de arco.
( 4.6.10 ) Encuentra la longitud de una circunferencia C de radio r y centro P ∈ R2 y que es recorrida una vez.
En virtud del ejemplo (4.5.5), la circunferencia C es rectificable. Además, la curva
f(t) = r(cos t, sin t) + P
parametriza a la circunferencia y la función kf 0 (t)k = kr(− sin t, cos t)k = r es integrable sobre [0, 2π].
Por el teorema anterior,
Z2π
Lf ([0, 2π]) = kf 0 (t)k dt = 2rπ.
0
Esto muestra que la longitud de una circunferencia unitaria es 2π.
Los teoremas anteriores dan un método general de cómo calcular longitudes de arco. Cuando uno
estudia cálculo integral se aprenden los métodos de integración. Sin embargo, se advierte al lector que
la mayoría pde las funciones no tienen una antiderivada explícita. Para ejemplo, trate el lector de integrar
la función sin(x 2 ). Sin embargo, para facilidad y comodidad del uso de este material se han expuesto
ejercicios que cuyos resultados pueden obtenerse explícitamente.
que si kf 0 (t)k = 1 para todo t ∈ [a, b] entonces la curva recorre su traza con la misma rapidez que su
Zb
parámetro recorre su domino. Esto conduce a una interpretación de la fórmula kf 0 (t)k dt = b − a.
a
Conforme el parámetro t se mueve por el intervalo [a, b] la curva f recorre a la traza en la misma
proporción. Como la rapidez es unitaria, esta proporción es 1 y entonces, se puede pensar que la curva
mapea el segmento [a, b] en un pedazo de recta curvado en Rn sin provocarle ningún estiramiento.
Toda esta discusión motiva la siguiente definición.
( 4.7.1 ) Sea f una curva de [a, b] a Rn . Se dirá que f está parametrizada por longitud de arco si f posee una
primera derivada continua y kf 0 (t)k = 1 para todo t ∈ [a, b].
A la par de esta definición, se puede
construir la función de longitud de arco
de una curva f. Esto
es, una función sf tal que Dom sf = Dom (f) = [a, b] y para todo t ∈ Dom sf , sf (t) es la longitud o
distancia que ha recorrido f durante el intervalo de tiempo [a, t].
( 4.7.2 ) Sea f : [a, b] → Rn una curva rectificable. Se define la función sf : [a, b] → [0, ∞) según
sf (t) = Lf ([a, t]).
En este caso, decimo que sf es la función de longitud de arco de f.
103
Capítulo 4. Curvas en Rn .
Es conveniente destacar que en la mayoría de los casos no hay peligro de confusión de la curva.
Por esta razón, se escribirá s en lugar de sf cuando el contexto sea claro.
( 4.7.3 ) Sea f una curva definida en [a, b] con valores en Rn y sea s su función de longitud de arco. Se supone que
Zt
f posee primera derivada continua en [a, b]. Se tiene que s(t) = kf 0 (u)k du y que s es una función creciente
a
(en el sentido amplio). Más aún, si la derivada de f nunca se anula entonces s es estrictamente creciente.
Como f es continuamente diferenciable en [a, b] se sigue que f es rectificable. Sea t ∈ [a, b], por
definición, se tiene que s(t) = Lf ([a, t]) pero por la diferenciabilidad de f se sigue que Lf ([a, t]) =
Zt
kf 0 (u)k du, que concluye el primer punto. Ahora bien, sean x < y con x, y ∈ [a, b] entonces
a
Zy Zx Zy
0 0
s(y) = kf (u)k du = kf (u)k du + kf 0 (u)k du.
a a x
Zy
0
Al ser la integral monótona y kf (u)k ≥ 0 se concluye que kf 0 (u)k du ≥ 0. Por lo tanto, s(y) ≥
x
Zx
kf 0 (u)k du = s(x). Si la derivada de f nunca se anula entonces se tiene que kf 0 (u)k > 0 para todo
a
Zy
u ∈ [x, y] por lo que se puede asegurar kf 0 (u)k du > 0, de donde, s(y) > s(x).
x
El siguiente teorema afirma que si una curva es lo bastante suave entonces su longitud de arco se
comporta de manera agradable. Esto es, es diferenciable.
( 4.7.4 ) Sea f : [a, b] → Rn una curva con primera derivada continua y sea s su función de longitud de arco.
Entonces, s es diferenciable y s0 (t) = kf 0 (t)k .
Zx
Como s(x) = kf 0 (u)k du y kf 0 k es continua, se sigue, de los teoremas fundamentales del cálculo,
a
que s es diferenciable y que s0 (t) = kf 0 (t)k .
( 4.7.5 ) Si una función f : I ⊂ R → R es estrictamente creciente y diferenciable entonces se puede definir una
función diferenciable g : f(I) → I tal que g(f(t)) = t para todo t ∈ f(I).
Para una demostración de este hecho lee [21].
De la observación previa se puede concluir la siguiente propiedad fundamental de las curvas con
primera derivada continua que no se anula.
104
4.8. Conexidad en Rn .
( 4.7.6 ) Sea f : [a, b] → Rn una curva diferenciable con primera derivada continua que no se anula en [a, b].
Entonces, existe un cambio de parámetro diferenciable u : [c, d] → [a, b] tal que f ◦ u está parametrizada por
longitud de arco.
Sea s la función de longitud de arco de f. De los teoremas anteriores, s es estrictamente creciente y
diferenciable. Por lo tanto, s([a, b]) = [c, d] para algunos c, d ∈ [0, ∞) y existe una función diferenciable
Se afirma que f ◦ u está parametrizada por longitud de arco; en efecto, u ◦ s = I[a,b] , por lo tanto,
u0 (s(t))s0 (t) = 1 para todo t ∈ [a, b]. De esto se sigue que
1
u0 (s(t)) = , ∀t ∈ [a, b].
s0 (t)
Ahora se calcula la norma de la derivada de f ◦ u. Sea p ∈ [c, d], como [c, d] = s([a, b]) existe un
t ∈ [a, b] con s(t) = p. Luego,
0
0
f (t)
k(f ◦ u)0 (p)k = kf 0 (u(p))u0 (p)k =
= 1 kf 0 (t)k = s (t) = 1.
s0 (t)
|s0 (t)| s0 (t)
Obsérve que ha sido usado el hecho que s es una función estrictamente creciente y diferenciable, luego
su derivada es positiva.
Este teorema permite demostrar, por ejemplo, que una parábola puede obtenerse de una recta solo
doblandola y no estirándola. Esto es, se puede parametrizar una parábola con longitud de arco.
( 4.7.7 ) Demuestra que la parábola f(t) = (t, t 2 ) para t ∈ R puede parametrizarse por longitud de arco.
Para esto se apela al teorema anterior. Entonces, solo se debe demostrar que f 0 (t) 6= 0. Pero,
0
f (t) = (1, 2t) 6= 0 para todo t ∈ R. Por ende, se puede parametrizar a la parábola por longitud de arco.
Es importante destacar que es mucho más complicado encontrar el cambio de parámetro u, pues esto
implica invertir una función definida a través de integrales.
y
( 4.7.8 ) Sea f : [a, b] → Rn una curva con primera derivada continua. Entonces, si Sx denota la longitud de
y
arco de f entre los puntos x y y, se tiene que Sx = −Syx y para todo c ∈ (a, b), Sac + Scb = s(b).
Zy
Se ha demostrado que, sobre estas hipótesis, Sxy = kf 0 k , por las propiedades de la integral, se
x
sigue el teorema.
§ 4.8. Conexidad en Rn .
En esta sección se trata el tema de conexidad. Como su nombre lo indica se buscará construir una
definición que expresa la idea de que un conjunto conste de un solo pedazo. Por ejemplo, un círculo, un
cuadrado, una recta y un intervalo deberán ser conjuntos conexos. Con todo esto en mente es razonable
decir que un conjunto C es conexo si no existen dos conjuntos I y J, que satisfagan lo siguiente:
1. C ∩ J ∩ I = ∅;
2. C ⊂ I ∪ J;
3. C ∩ I 6= ∅ y C ∩ J 6= ∅.
105
Capítulo 4. Curvas en Rn .
Esto no es satisfactorio del todo, el intervalo [0, 1] puede ser separado en Q ∩ [0, 1] y Qc ∩ [0, 1]. Entonces,
se tiene que modificar la definición y se pedirá que I y J sean conjuntos abiertos. Con esto, se tienen
las definiciones de separación de un conjunto y de conjunto conexo13 .
( 4.8.1 ) Se dice que el par U y V es separación14 del conjunto A ⊂ Rn si se satisface lo siguiente:
1. U ∩ V ∩ A = ∅;
2. A ⊂ U ∪ V ;
3. A ∩ U 6= ∅ y A ∩ V 6= ∅.
Si U y V son conjuntos abierto entonces se dirá que es una separación abierta de A.
( 4.8.2 ) Un conjunto A ⊂ Rn es conexo si no existe una separación abierta de él.
Es importante destacar que las definiciones de ser conexo y no poseer separaciones abiertas son
equivalentes.
Otra manera de definir lo que es un conjunto conexo es empezar con la idea de que dos puntos
cualesquiera en él pueden ser unidos de manera continua por una curva. Esto se aleja un poco de la
idea de que el conjunto consta de una pieza, por eso se decidió no motivar esta definición de ese modo.
Sin embargo, este concepto es potente como se verá más adelante, por esta razón se define.
( 4.8.3 ) Un conjunto A ⊂ Rn se dice que es conexo por trayectorias si para cualesquier dos puntos X y Y en él
existe una trayectoria continua f : [a, b] → A tal que f(a) = X y f(b) = Y .
Por ejemplo, un conjunto convexo15 es conexo por trayectorias. Como resultado más fuerte se deja
de ejercicio demostrar que un conjunto con forma de estrella es conexo por trayectorias.
( 4.8.5 ) Para cualesquier números reales a ≤ b, un intervalo ha, bi es conexo y conexo por trayectorias, donde
h puede ser [ o ( y i puede ser ] o ).
Primero se verá que ha, bi es conexo por trayectorias. Sean x, y ∈ ha, bi, se supone que x ≤ y. Se
considera la curva f : [x, y] → ha, bi dada por f(z) = z. Entonces, de acuerdo al ejercicio (4.25), f es
continua y f(x) = x, f(y) = y. Esto demuestra que ha, bi es conexo por trayectorias.
Ahora se demuestra que ha, bi es conexo. Para demostrar que un conjunto es conexo típicamente
se da una separación abierta de él y se llega a una contradicción. Sean U, V separación abierta de ha, bi.
Sea x ∈ ha, bi y se supone que x ∈ U. Sea
α = ı́nf {y ∈ [a, b] : [y, x] ⊂ U ∩ ha, bi}
y
β = sup{y ∈ [a, b] : [x, y] ⊂ U ∩ ha, bi}.
Observa que α ≥ a y que β ≤ b, se afirma que ambas igualdades se cumplen. Para esto se supone
primero que a < α, de este modo, α ∈ U ∪ V . Si α ∈ V entonces existe un r > 0 tal que (α − r, α + r) ⊂ V ,
contradicción a la definición de α entonces α ∈ U. Como α ∈ U existe un r tal que (α − r, α + r) ⊂ U,
lo que también es una contradicción a la definición de α. Luego, α = a, análogamente se demuestra
que β = b. Por ser U abierto, [a, b] ⊂ U y entonces ha, bi ∩ V = ∅, lo cual es una contradicción.
13 Intuitivamentehablando un conjunto sin separaciones consta de solamente un pedazo, luego es conexo.
14 Es
importante destacar que existe la noción de que un subconjunto de Rn sea separable. Esta noción cae fuera del contexto
actual y del contexto del libro, por lo que no será mencionada explícitamente. Para un estudio básico sobre conjuntos separables
lee [16]. Un tratado más avanzado puede encontrarse en [8].
15 Por si el lector no recuerda la definición.
( 4.8.4 ) Un conjunto C ⊂ Rn se dice convexo si para cualesquier par de puntos X y Y en C, el segmento de recta que une a X con
Y es subconjunto de C.
106
4.8. Conexidad en Rn .
Primero se verá que si A no es un intervalo entonces A es no conexo (esto es, existe una separación
abierta de A). Como A no es un intervalo existe x ∈ {A tal que existen y, z ∈ A y y < x < z. Entonces,
U = (−∞, x) y V = (x, ∞) es separación abierta de A. En efecto, A ⊂ U ∪ V , U ∩ V ∩ A = ∅ y y ∈ U ∩ A,
z ∈ V ∩ A. Esto demuestra que A posee una separación abierta, equivalentemente A es no conexo.
Ahora si A no es un intervalo entonces A no es conexo por trayectorias; de hecho, se supone que
x ∈ {A es tal que existen y, z ∈ A con y < x < z. Sea f : [a, b] → A continua tal que f(a) = y y f(b) = z.
Como x ∈ (y, z) y f es continua, por el teorema del valor intermedio existe un c ∈ [a, b] tal que f(c) = x.
Esto es una contradicción pues x ∈/ A.
Como corolario de estos ejemplos, se tiene que las nociones de conexo y conexo por trayectorias
coinciden en R.
1. A es un intervalo.
2. A es conexo.
De manera natural surge la siguiente pregunta. ¿Las nociones de ser conexo y ser conexo por
trayectorias coinciden en Rn ? La respuesta es que no. Todavía no se tienen herramientas para ver
un ejemplo. Se necesita desarrollar un poco más de teoría sobre conexión. El siguiente teorema es
intuitivamente claro, dice que la traza de una curva continua definida sobre un intervalo es un conjunto
conexo por trayectorias y conexo.
( 4.8.8 ) Sea f : I → Rn una curva continua, donde I ⊂ R es un intervalo. Entonces f(I) es conexo y es conexo
por trayectorias.
Se ve primero que f(I) es conexo por trayectorias. Sea X, Y ∈ f(I) entonces existen a, b ∈ I con
f(a) = X y f(b) = Y . Sin pérdida de generalidad, se supondrá que a < b. Se toma f restringida al
intervalo [a, b] ⊂ I. Entonces, de acuerdo al ejercicio (4.25) la restricción de f en [a, b] es continua.
Se nota que la restricción satisface que f(a) = X y f(b) = Y . Esto demuestra que f(I) es conexo por
trayectorias.
Ahora se supone que f(I) no es conexo; sean U, V ⊂ Rn una separación abierta de f(I). Como f
es continua, de acuerdo con (4.3.5) se tiene que f −1 (U) = A ∩ I y f −1 (V ) = B ∩ I, donde A, B ⊂ R son
abiertos. Como U ∩ V ∩ f(I) = ∅ se tiene que
f −1 (U) ∩ f −1 (V ) ∩ I = f −1 (U ∩ V ∩ f(I)) = ∅.
107
Capítulo 4. Curvas en Rn .
Lθ = {t(cos θ, sin θ) ∈ R2 : t ∈ R}
es la recta de pendiente θ que pasa por el origen; cada recta Lθ , es conexo porque es la imagen continua
de R por la aplicación lineal t 7Ï t(cos θ, sin θ) y como cada Lθ pasa por el origen, su intersección es
no nula. Este ejemplo puede generalizarse, sobre ciertas consideraciones, a Rn . Sin embargo, se deja
la demostración a cargo del lector.
( 4.8.10 ) El conjunto Rn es conexo para todo n ∈ N.
Se sabe que un conjunto conexo no puede separarse en abiertos. Si a un conjunto conexo se le
agregan algunos de sus puntos límite, como los puntos límite están “cerca” del conjunto, es natural que
el conjunto así formado sea conexo.
( 4.8.11 ) Sea A ⊂ Rn conexo entonces para todo B ⊂ Rn tal que A ⊂ B ⊂ A se tiene que B es conexo. En
particular, la cerradura de un conjunto conexo es un conjunto conexo.
Se procede por contradicción, así, sean U, V una separación abierta de B entonces A está com-
pletamente contenido en alguno de los dos, de lo contrario A no es conexo. Se supone, pasando por
un renombramiento de los conjuntos en caso de ser necesario, que A ⊂ U. Sea X ∈ B \ A entonces
X ∈ ∂A \ A. Para llegar a una contradicción se debe demostrar que X ∈ U, así se supone que X ∈ V . Al
ser V abierto, existe una bola de B (X; r) ⊂ V . Pero entonces, X es un punto exterior de A, con lo cual,
X ∈/ A. Esto muestra que X ∈/ B y se llega a una contradicción. De este modo, X ∈ U y B ⊂ U, por lo
que U, V no es separación abierta de B. Con esto, ha sido demostrado que B es un conjunto conexo.
A continuación se va a relacionar la conexidad con la conexidad por trayectorias. Como se adelantó,
estos conceptos no son equivalente pero uno es más fuerte que el otro.
( 4.8.12 ) Todo conjunto A ⊂ Rn conexo por trayectorias es conexo.
Sea x ∈ A. Por hipótesis, para cada y ∈ A, el conjunto Cy de las curvas continuas de [0, 1] a A que
tienen a x como punto inicial y a y como punto final es no vacío. Se considera la familia (Cy )y∈A . En
virtud del axioma de elección (2.2.4) existe una función f con dominio A tal que f(y) = fy ∈ Cy es una
16 Ya se sabe que una circunferencia es un conjunto conexo pues es la imagen continua de un intervalo. En efecto, f : [0, 2π] → R2
dada por f(t) = r(cos t, sin t) + P describe una circunferencia de radio r > 0 y centro P. Como f es continua, tal circunferencia
es un conjunto conexo.
17 Un anillo es el conjunto de puntos que están entre dos círculos concéntricos dados; como ejemplo típico, {(x, y) ∈ R2 : 1 <
x 2 + y 2 < 2} es un anillo.
108
4.9. Generalización a un espacio vectorial real.
[
curva continua que une x con y. Sea Cy la traza de fy . Se cumple la siguiente igualdad A = Cy .
y∈A
Observa que cada traza Cy es un conjunto conexo pues es la imagen continua de algún intervalo. Como
x ∈ Cy para todo y ∈ A, se tiene por el teorema (4.8.9) que A es conexo.
El siguiente ejemplo muestra que el recíproco del teorema anterior es falso.
( 4.8.13 ) Considera el conjunto
ßÅ Å ãã ™
1
E= x, sin : x ∈ (0, 1] ∪ {(0, y) : y ∈ [−1, 1]} ⊂ R2 .
x
Entonces, E es conexo y no es conexo por trayectorias.
ßÅ Å ãã ™
1
Observa que A = x, sin : x ∈ (0, 1] es un conjunto conexo pues es la imagen de la curva
Å Å ãã x
1
continua t 7Ï x, sin para t ∈ (0, 1]. Para ver que E es conexo se demostrará que A ⊂ E ⊂ A.
x
Claramente, A ⊂ E, por lo que basta ver que X ∈ E \ A implica que X ∈ ∂A. Sea X = (x, y) ∈ E \ A
entonces x = 0. En este caso, basta exhibir una sucesión (Yn )n∈N definida en A con lı́m Yn = X.
n→∞
Como y ∈ [−1, 1] existe θ ∈ [0, 2π] tal que sin θ = y. Se considera
Å ã Å ã
1 1
Yn = , sin (θ + 2nπ) = ,y ,
θ + 2nπ θ + 2nπ
entonces (Yn )n∈N está definida A y lı́m Yn = X. Por lo tanto, X ∈ ∂A. Esto demuestra que A ⊂ E ⊂ A,
n→∞
por (4.8.11) se tiene que E es conexo. Å ã
1
Ahora se demuestra que E no es conexo por trayectorias. Se considera X = (0, 0) y Y = ,0 ,
π
supón que existe una curva continua f : [a, b] → E tal que f(a) = X y f(b) = Y . Sin pérdida de generalidad
se puede suponer que a = 0 y b = 1, (ve (4.1.9)). Se construirá una sucesión decreciente (tn )n∈N en [0, 1]
tal que (f(tn ))n∈N no converge. Para esto se utilizará repetidamente el teorema del valor intermedio
para funciones reales. Sea f(t) = (f1 (t), Å f2 (t)) entonces
ã f1 (t) y f2 (t) son continuas. Como f(t) ∈ E para
1 1
cada t ∈ [0, 1] debe ser que f2 (t) = sin . Al ser f1 (0) = 0 y f1 (1) = existe t1 ∈ (0, 1) tal que
f1 (t) π
2
f1 (t1 ) = . De este modo,
3π Å ã
1
f2 (t1 ) = sin = −1.
f1 (t)
2 2
Como f1 (0) = 0 y f1 (t1 ) = existe t2 ∈ (0, t1 ) tal que f1 (t2 ) = , de este modo, f2 (t2 ) = 1. Prosiguiendo
3π 4π
de este modo, puede probarse inductivamente que la sucesión (tn )n∈N existe en [0, 1], es decreciente y
2
f1 (tn ) = . De aquí, se puede ver que f2 (tn ) = (−1)n . Como (tn )n∈N es decreciente y acotada,
(2n − 1)π
converge, de acuerdo al ejercicio (4.24), (f1 (tn ))n∈N y (f2 (tn ))n∈N convergen. Pero (f2 (tn ))n∈N es una
sucesión que va alternando entre dos valores, por lo que no converge y esto es una contradicción. De
aquí se sigue que la función f no es continua y entonces E no es conexo por trayectorias.
Se pide al lector que demuestre otras varias propiedades de los conjuntos conexos.
109
Capítulo 4. Curvas en Rn .
geométricas también . Lo que cambia redicalmente es que en un espacio vectorial V las funciones
f : [a, b] → V no poseen funciones coordenadas.
Los conceptos que se definen idénticamente, solo cambiando Rn por V , donde V es un espacio vec-
torial real, son curva, traza, parametrización, curva equivalente, límite, continuidad, derivada, tangente,
velocidad, rapidez, longitud de arco, integral de Riemann, derivadas laterales, parametrización por lon-
gitud de arco, conexidad y conexidad por trayectorias. Los teoremas se demuestran igual, palabra por
palabra excepto aquellos que hablen de coordenadas, los cuales sí poseen generalización, por ejemplo,
aquello del tipo f : V → W1 × . . . × Wk , donde los Wi son espacios vectoriales normados y de dimensión
finita, las cuales se ven más abajo o en los ejercicios.
Entonces, por ejemplo, una curva en un espacio vectorial V real y de dimensión finita es cualquier
función f : [a, b] → V . Si V posee una norma, entonces f es continua en t0 ∈ [a, b] si para cualquier
ε > 0 existe un δ > 0 tal que
El resto de las definiciones son análogas. Los argumentos en los teoremas principales permanecen
sin cambios pues solo se utilizaron propiedades generales. Mas aquellos que deben demostrarse para
este caso (pues son muy útiles), son (4.2.6), (4.4.2) y (4.4.3). También se destaca el hecho que para el
teorema del valor medio y la fórmula de longitud de arco se dieron pruebas que valen en espacios
más generales aún que los espacios vectoriales de dimensión finita. Se ven a continuación la prueba
para el caso más general de los teoremas anteriores. Al igual que en el capítulo 3, se supondrá
que el lector ya leyó la parte continuidad del capítulo 5. El siguiente teorema será útil para la
demostración de estos teoremas.
( 4.9.1 ) Sea V un espacio vectorial real, con producto interior y de dimensión finita. La función (x, y) 7Ï hx, yi
de V × V a R2 es continua.
(4.2.6) Sea V un espacio vectorial real, normado y de dimensión finita. Supón que f : [a, b] → R toma
la forma f(t) = hα(t), β(t)i , en donde α y β son dos funciones de [a, b] a V las cuales poseen
sendos límites u y v en el punto t0 ∈ (a, b). Entonces f posee el límite hu, vi en t0 . La función f
es composición de las funcions h, i y (α, β), las cuales son continuas, de ahí el resultado.
(4.4.2) Sea V un espacio vectorial real, normado y de dimensión finita. Supón que f, g : [a, b] → V son
dos curvas diferenciables en t0 ∈ [a, b]. Entonces f + λg es diferenciable en t0 y (f + λg)0 (t0 ) =
f 0 (t0 ) + λg 0 (t0 ). En efecto, esto se deduce inmediatamente de (4.2.5) al escribir la definición de
derivada.
(4.4.3) Sea V un espacio vectorial real, con producto interior h, iV y de dimensión finita. Supón que
f : [a, b] → R toma la forma f(t) = hα(t), β(t)i , en donde α y β son dos funciones de [a, b] a V
las cuales son diferenciables en cierto t0 ∈ (a, b). Entonces, f es diferenciable en t0 y
110
4.9. Generalización a un espacio vectorial real.
Ahora, se divide todo por h y se utiliza la linealidad del producto interior en cada entrada. Se
encuentra que
≠ ∑ ≠ ∑
f(t + h) − f(t) β(t0 + h) − β(t0 ) α(t0 + h) − α(t0 )
= α(t0 + h), + , β(t0 ) .
h h h
Resulta irresistible pensar que ahora se puede meter el límite en el lado derecho y entonces usar
la diferenciabilidad de α y β. Para hacer esto, se debe probar primero que (x, y) 7Ï hx, yi es
continua de V × V a R, lo cual se probó en (4.9.1). De esto se deriva que
≠ ∑ ≠ ∑
f(t + h) − f(t) β(t0 + h) − β(t0 ) α(t0 + h) − α(t0 )
lı́m = lı́m α(t0 + h), lı́m + lı́m , β(t0 )
h→0 h h→0 h→0 h h→0 h
= hα0 (t0 ), β(t0 )i + hα(t0 ), β0 (t0 )i .
Ejemplo. Ahora se desarrollará con cierto detalle un ejemplo de interés. Se considerará entonces
la familia (x n )n∈N∪{0} de funciones de R a R tales que x n (t) = t n . Por notación, a x 0 se le escribirá 1
(entonces, 1(t) = 1 para cualquier t ∈ R). Define Vn = lin h{1, . . . , x n }i ; se afirma que dim Vn = n + 1. En
efecto, hay que probar que los n + 1 vectores 1, . . . , x n son linealmente independientes. Supón entonces
n
X
que existen constantes 10 , . . . , 1n ∈ R tales que ai x i = 0. Como cada x i es una función, esto significa
i=1
n
X
que para cualquier t ∈ R se debe cumplir que ai t i = 0. Supón que t = N, y divide la expresión
i=0
anterior por t n , se obtiene que
a0 a1 an−1
n
+ n−1 + . . . + + an = 0,
N N N
sin importar lo grande que sea N. Entonces, haz N → ∞ para obtener an = 0. El resto es aplicar
inducción. Por lo tanto, dim Vn = n + 1 y B = (1, x, . . . , x n ) es una base ordenada de Vn , la cual
se llamará «base canónica». Las coordenadas [ ]B son entonces muy fáciles de encontrar. Pues si
n
X
v = ai x i entonces [v]B = (a0 , . . . , an ). La idea ahora es definir algunas curvas y encontrar sus
i=0
derivadas, longitudes, etcétera.
¿Quién es la norma de V inducida por su base canónica? ¿Proviene de algún producto escalar?
X n n
X
Supón que v = ai x i y u = bi x i . En acuerdo con (3.6.6), el producto escalar en V inducido por
i=0 i=0
n
X n
X
la base ordenada B es hu, viV = ai bi y la norma es kvk2 = ai2 . Con esto, Vn es escencialmente
i=1 i=0
111
Capítulo 4. Curvas en Rn .
Rn+1 , lo cual facilita las cosas pues se deja un espacio abstracto y se trabaja en un espacio con el que
se está más familiarizado.
2
Considera entonces dos curvas en V3 . Por ejemplo, sean α(t) = sin t + 2e−t x 2 y β(t) = et x + cos tx 3 .
Primeramente observa que para cada t ∈ R tanto α(t) como β(t) son funciones de R a R; son funciones
2
polinomiales. Por ejemplo, α(t)(π) = sin t + 2e−t π 2 . Entonces, el producto escalar de α con β es
2
hα(t), β(t)iV = [α(t)]B · [β(t)]B = (sin t, 0, 2e−t , 0) · (0, et , 0, cos t) = 0;
entonces, los vectores posición de las curvas son ortogonales en cada instante. Por otro lado, ahora se
calculan las derivadas de α y β :
2 2
α(t + h) − α(t) sin(t + h) + 2e−(t+h) x 2 − sin t − 2e−t x 2
α0 (t) = lı́m = lı́m ,
h→0 h h→0 h
observa que aún siendo funciones, los vectores 1, x, x 2 y x 3 son constantes fijas en el espacio vectorial
V3 . Por lo tanto,
2 2
Ç å
2e−(t+h) − 2e−t
Å ã
0 sin(t + h) − sin t 2
α (t) = lı́m 1 + lı́m x 2 = cos t − 4te−t x 2 .
h→0 h h→0 h
2
Análogamente, β0 (t) = et x − sin tx 3 . Es interesante notar que [α(t)]B = (sin t, 0, 2e−t , 0) por lo que
d
[α0 (t)]B = [α(t)]0B y mismo para β. Esto es acorde con (4.4.3) pues se debe tener que hα, βiV (t) = 0.
dt
Finalmente, en virtud de (4.6.9)
Zπ Zπ Zπ »
Lα ([0, π]) = 0
kα (t)k dt = 0
k[α (t)]B k dt = [cos t]2 + 16t 2 e−2t 2 dt.
0 0 0
Observación: en el ejemplo previo todo se pudo haber reducido a encontrar [α(t)]B y entonces trabajar
con la curva en R4 dada por t 7Ï [α(t)]B . En general esto se cumple.
El siguiente teorema utiliza la regla de la cadena (5.7.3)
( 4.9.2 ) Sea V un espacio vectorial real, normado y de dimensión finita. Sea B una base ordenada de B =
(v1 , . . . , vn ) de V y [ ]B sus coordenadas asociadas. Entonces, una condición necesaria y suficiente para que una
curva α : [a, b] → V sea diferenciable en t0 ∈ (a, b) es que [α]B : [a, b] → Rdim V sea diferenciable en t0 . En
este caso, [α0 (t)]B = [α(t)]0B .
En efecto, la función [ ]B es lineal, por lo que su derivada es ella misma (5.8.1). Con observar que
[ ]B es invertible se obtiene que [α]B es diferenciable si y solo si α lo es. Luego, de la regla de la cadena
(5.7.3)
d
[α(t)]B = [α0 (t)]B ,
dt
que es lo que se quería demostrar.
§ 4.10. Ejercicios.
Se concluye este capítulo con una serie de ejercicios para el lector. Es recomendable que intente
resolverlos todos.
( 4.1 ) Encuentra un conjunto C ⊂ Rn y dos parametrizaciones de él.
112
4.10. Ejercicios.
3. Define la curva f : [0, 2π] → R2 dada por f(t) = (a cos t, b sin t), en donde a y b son positivas.
5. Define la curva f : R → R2 dada por f(t) = (a cosh t, b sinh t), en donde a y b son positivas.
( 4.3 ) Encuentra dos parametrizaciones explícitas para las siguientes trazas. Encuentra el cambio de parámetro
u.
1. S1 .
f ∼ g ↔ f es equivalente a g.
( 4.5 ) Se supone que un disco de radio uno rueda continuamente sin resbalar a lo largo del eje X. Se fija un
punto la frontera del disco y se supone que el punto empieza en (0, 0), se pinta la traza que deja el punto al rodar
el disco. Encuentra una curva que parametrice esta traza.
( 4.6 ) Considera la traza L definida como sigue: un punto (x, y) está en L si sus coordenadas polares18 satisfacen
que r = exp(−θ). Encuentra una curva que parametriza a L. A L se le llama la «espiral logarítmica».
18 Supón que las coordenadas polares son aquellas definidas por r ≥ 0, r 2 = x 2 + y 2 , y θ ∈ [0, 2π) es el ángulo que se forma
113
Capítulo 4. Curvas en Rn .
3. lı́m(ln(sin t, 1 − exp(tan(t)));
t→π
Ç å
t 2 − 16 1 − cos t
4. lı́m 2
, ;
t→0 t + t − 20 t
Å ã
ln(t)
5. lı́m , sin t .
t→1 t − 1
( 4.9 ) Sea f = (f1 , . . . , fn ) una curva. Supón que en a se tiene lı́m fi (t) = bi entonces lı́m f(t) = b, donde
t→a t→a
b = (b1 , . . . , bn ).
( 4.10 ) Sea φ : R → R y f : R → Rn tales que lı́m φ(t) = r y lı́m f(t) = L entonces lı́m(φf)(t) = rL.
t→a t→a t→a
2 19
( 4.11 ) Sea f : R → R la función con regla de correspondencia f(t) = (btc, t) . Si r es entero entonces lı́m f(t)
t→r
no existe.
( 4.12 ) Sea f : R → R2 dada por ß
(t, t) si t ≥ 0;
f(t) =
(t, −t) si t < 0.
Entonces lı́m f(t) = (0, 0).
t→0
( 4.13 ) Sea f(t) = (t, t 2 ) y p ∈ R cualquier número real, para la función gp (t) = (p, p2 ) + t(1, 2p) se cumple
que
f(t) − gp (t − p)
lı́m = 0.
t→p t−p
( 4.14 ) Sea f(t) = (sin t, cos t) y p ∈ R cualquier número real. Se define la función gp (t) como antes, es decir,
gp (t) = (sin p, cos p) + t(cos p, − sin p). Entonces
f(t) − gp (t − p)
lı́m = 0.
t→p t−p
114
4.10. Ejercicios.
( 4.21 ) Se define la noción de convexidad como sigue: un conjunto A ⊂ Rn se dice convexo si para cualesquier
dos de sus puntos el segmento de recta que los une está contenido en el conjunto. Cualquier caja (cerrada o
abierta, acotada o no) es un conjunto convexo. Cualquier bola cerrada o abierta es un conjunto convexo.
( 4.23 ) Para todo subconjunto no cerrado U ⊂ R existe una curva continua, f : U → R tal que f no es acotada
en U.
Sugerencia: considera un punto en la frontera de U que no esté en U y define f como la función que toma el
recíproco de la distancia a ese tal punto.
( 4.24 ) Una condición necesaria y suficiente para que la curva f : [a, b] → Rn sea continua en t es que para
toda sucesión (an )n∈N , definida en [a, b], convergente a t se tenga que la sucesión (f(an ))n∈N converja a f(t).
( 4.26 ) Al igual que en una variable, se define que una curva f sea uniformemente continua si para todo ε > 0
existe δ > 0 tal que x, y ∈ Dom (f) con |x − y| < δ implican que kf(x) − f(y)k < ε. Luego, toda curva
uniformemente continua es continua.
( 4.27 ) Una curva continua definida sobre un intervalo compacto es uniformemente continua. Este resultado se
conoce como el teorema de Heine-Cantor. Será demostrado para el caso general en el siguiente capítulo.
Sugerencia: sea f : [a, b] → R continua. Entonces, f([a, b]) = [c, d] (¿por qué?). Ahora, dado ε > 0 existe
m
[
una finitud de puntos y1 , . . . , ym tales que [c, d] ⊂ (yi − ε, yi + ε). Sea xi ∈ [a, b] tal que f(xi ) = yi . Para
i=1
cada xi existe un δi > 0 tal que si |x − xi | y xi ∈ [a, b] entonces f(xi ) ∈ (yi − ε, yi + ε). Intenta ahora jugar
con las desigualdades del triángulo.
( 4.28 ) Si f : [a, b] → Rn es una curva continua entonces para todo ε > 0 existe δ > 0 tal que |t − si | < δ, i =
1, . . . , n, implica
kf(t) − (f1 (s1 ), . . . , fn (sn ))k < ε.
Sugerencia: considera funciones coordenadas y use el ejercicio previo (recuerda que el ejercicio previo en un
caso particular de (5.5.14)).
Ä ä
2. f(t) = [cos t]2 , [sin t]2 , t ∈ R;
Å ã
t−1 » h π πi
3. f(t) = , [sin t]2 − [cos t]2 , t ∈ − , ;
t+1 4 4
Ç Ç å ãå
t 2 + 2t
Å
1
4. f(t) = exp , − exp − , t ∈ R;
t−1 t
Ä 2 ä
5. f(t) = exp tan t 2 , sin et
, t ∈ R.
( 4.30 ) Encuentra la recta tangente de la curva f en el instante dado p. Ilustre geométricamente este hecho.
115
Capítulo 4. Curvas en Rn .
π
3. f(t) = (cos t, sin t) , t ∈ R, p = ;
3
4. f(t) = (cos t, sin t, t) , t ∈ R, p = π;
π
5. f(t) = (3 cos t, 2 sin t), t ∈ [0, 2π), p = .
4
( 4.31 ) Supón que un ferrocarril de pasajeros sigue la curva descrita por
f(t) = t, t 3 − 2t 2 − 2t + 1 , t ∈ R+ .
Supón que el ferrocarril sale de las vía al tiempo t0 = 2, siguiendo la dirección de su tangente. Si dos segundos
después el ferrocarril se estrella, ¿cuáles son las coordenadas donde se estrellaría el ferrocarril?
( 4.32 ) Del ejercicio anterior, si el tiempo de salida es en t0 = 7 y se estrella un segundo después, ¿en qué punto
se estrella?
Ä p ä
( 4.33 ) Las curvas f, g : [−1, 1] → R2 dadas por f(t) = t, |t| y
(−t 4 , t 2 )
ß
si t<0
g(t) =
(t 4 , t 2 ) si t≥0
parametrizan la misma traza. Observa que f no es diferenciable en 0 pero g sí lo es. Luego, la relación f ∼ g si
f y g son equivalentes no preserva diferenciabilidad.
( 4.34 ) Sea f una curva definida en I ⊂ R, tal que f · f = c sobre I entonces f · f 0 = 0 sobre I. Interprete,
geométricamente, este resultado en R2 y R3 .
( 4.35 ) Considara la hélice cilíndrica, descrita por
116
4.10. Ejercicios.
y
g(t) = (1 − t, cos t, sin t)
se intersectan en el punto (1, 1, 0). Encuentra el ángulo formado por ellas, este es, el ángulo formado por sus
tangentes.
( 4.41 ) Se define la aceleración de una traza como la derivada de su velocidad, en caso que exista. Intente justificar
esta definición a partir de nociones físicas. Si la rapidez es constante entonces la aceleración y la velocidad son
ortogonales20 .
( 4.42 ) Si la aceleración de una traza siempre es ortogonal a su velocidad entonces su rapidez es constante.
( 4.43 ) Sea C la traza descrita por f, la curva con regla de correspondencia
t 7Ï (t + 1, 2t, t 2 − 1).
f(t) = (et − t, et + t, 2t + 1)
( 4.45 ) Encuentra la recta perpendicular a la elipse (a cos t, b sin t) en el instante p. ¿Para qué instantes p
sucede que la elipse es ortogonal a su tangente21 ?
( 4.46 ) Una condición necesaria y suficiente para que la traza C, descrita por f, se encuentre en el conjunto C,
donde
C = {X ∈ Rn : g1 (X) = 0, . . . , gs (X) = 0}
es que gi (f(t)) = 0 para todo t en el dominio de f y para todo i.
( 4.47 ) Sea L1 el segmento de recta entre los puntos (1, −3, 2) y (−1, 1, −2) y L2 el segmento de recta entre los
puntos (0, 0, 0) y (1, 1, −2). Encuentra los puntos, en caso de existir, que minimizan la distancia entre L1 y L2 .
Encuentra los puntos que maximizan la distancia.
( 4.48 ) Del ejercicio (4.6). La derivada de la curva es cero cuando θ → ∞.
( 4.49 ) Del ejercicio (4.5). Encuentra aquellos puntos donde la curva no sea diferenciable.
( 4.50 ) Verifique el valor de verdad de las siguientes oraciones. Si son ciertas basta dar un argumento breve,
enunciar alguna proposición vista, por ejemplo. Si son falsas hay que dar un contraejemplo explícito.
117
Capítulo 4. Curvas en Rn .
f 0 (a)
Cuando este vector existe se dice que la curva posee una tangente unitaria en a.
kf 0 (a)k
( 4.51 ) Sea f : [a, b] → Rn y supón que T(t), su tangente unitaria en t, existe en todo t ∈ [a, b]. Demuestra
que T(t) · T 0 (t) = 0 para todo t ∈ [a, b].
La siguiente es una definición.
( 4.10.1 ) Sea f : I ⊂ R → Rn una curva, si f es continua, se dirá que f es de clase C0 y si f 0 : I → Rn existe
y es continua, se dirá que f es de clase C1 . Más generalmente, se dice que f es de clase Ck si f es k veces
diferenciable y su k-ésima derivada es continua. Si f es clase Ck para cada k ∈ N entonces f es de clase C∞ y
se dice que f es indefinidamente diferenciable. Se utilizará la notación f ∈ Ck (I, Rn ) para k ∈ N ∪ {0} ∪ {∞}.
˚
( 4.52 ) Supón que f es una curva de clase C1 , a ∈ Dom
¸ (f) y que f 0 (a) 6= 0. Entonces,
Una curva que cumple este límite se dice que tiene una tangente fuerte en a.
Sugerencia: utiliza el teorema del valor medio clásico tanto en numerador como denominador.
T 0 (t)
( 4.53 ) Sea f : [a, b] → Rn , supón que f ∈ C2 ([a, b], Rn ) y que f 0 (t) 6= 0 en [a, b]. Entonces, N(t) =
kT 0 (t)k
es ortogonal a la tangente unitaria, aquí T es la tangente unitaria de f. Si Rn = R3 entonces a N(t) se le conoce
como vector normal principal, asimismo, al vector B = T × N se le llama vector binormal.
( 4.54 ) Del problema (4.53). Sea f ∈ C2 [a, b], R2 y tal que f 0 6= 0 en [a, b], los tres vectores T, N, y B son
ortonormales.
( 4.55 ) Sea f como en el problema (4.53). Las siguientes igualdades se dan:
1. B0 · B = 0 en [a, b];
2. B0 · T = 0 en [a, b].
( 4.56 ) Encuentra una curva f y un punto a tal que exista f 0 (a) y no exista la tangente fuerte de f en a.
( 4.57 ) Dada una curva f se define su primitiva como una curva g tal que g 0 = f. Para cualquier curva f si su
primitiva existe entonces es única salvo la suma de una constante.
Sugerencia: utiliza el teorema del valor medio (4.4.7)
( 4.58 ) Del ejercicio (4.57). Muestre que si f = (f1 , . . . , fn ) es integrable sobre [a, b] entonces
Zt
Ñ t
Zt
é
Z
h(t) = f(u)du = f1 (u)du, . . . , f(u)du
a a a
es una primitiva de f.
118
4.10. Ejercicios.
( 4.59 ) Encuentra todos los instantes p tales que el vector posición es ortogonal a la tangente para la elipse
con centro en el origen y ejes mayor y menor de longitud 2a y 2b, respectivamente. Asimismo, supón que el eje
menor de la elipse está en el primer eje coordenado y el eje mayor está en el segundo eje coordenado.
( 4.60 ) Encuentra la integral de f : [1, 2] → R3 dada por
b
Z
Zb
n
( 4.61 ) Sea f : [a, b] → R una curva integrable. Entonces
f
≤ kfk .
a a
( 4.62 ) Adapte los teoremas fundamentales del cálculo de una variable para curvas y demuéstralos.
( 4.63 ) Sea P, Q ∈ P([a, b]), existe un refinamiento R de P y Q simultáneamente.
Sugerencia: supón que P = (pi )i=0,...,n1 y Q = (qi )i=0,...,n2 . Define r0 = p0 = q0 , sea r1 el más pequeño entre
p1 y q1 y considera aparte el caso p1 = q1 . Supón que has podido definir rk y define rk+1 como el más pequeño
de los puntos pi , qi que aún no ha aparecido en la partición.
( 4.64 ) Sea f : [a, b] → Rn una curva y P, Q dos particiones de [a, b] tales que Q es refinamiento de P.
Entonces
∆(f, P) ≤ ∆(f, Q)
( 4.65 ) Sea f la curva con regla de correspondencia
ß
0 si t ∈ [−1, 0];
f(t) =
t 2 si t ∈ (0, 1].
119
Capítulo 4. Curvas en Rn .
( 4.69 ) Del ejercicio (4.5). Encuentra la distancia que recorre el punto fijo desde el inicio en (0, 0) hasta que
vuelve a tocar al eje X.
( 4.70 ) La curva de longitud más corta entre dos puntos A y B en Rn es la recta que los une.
( 4.71 ) Sea f : I → R una curva continua, donde I es un intervalo. Su gráfica es un conjunto conexo.
Sugerencia: en este ejercicio no resta mucho por hacer, considera t 7Ï (t, f(t)).
( 4.72 ) Considera Sn−1 = {X ∈ Rn : kXk = 1}, sea LX la recta que pasa por el origen y X, para X ∈ Sn−1 .
Concluya que Rn es un conjunto conexo.
( 4.73 ) Si A ⊂ Rn es conexo y B ⊂ Rm es conexo entonces A × B ⊂ Rn+m es conexo.
Sugerencia: considera dos punto arbitrarios x ∈ A y y ∈ B. Los conjuntos {x} × B y A × {y} son conexos.
Concluya que para
[ todo x ∈ A y todo y ∈ B se tiene que A × {y} ∪ {x} × B es conexo. Considera a ∈ A fijo, y
que A × B = (A × {y} ∪ {a} × B) concluya el ejercicio al aplicar (4.8.9).
y∈B
( 4.74 ) Un conjunto A se dice que tiene forma de estrella respecto del punto P si para cualquier punto Q ∈ A el
segmento de recta que une P con Q está completamente contenido en A. Si A tiene forma de estrella respecto
a alguno de sus puntos entonces A es conexo por trayectorias (recuerda que esto implica que A es conexo).
( 4.75 ) En Rn si A es un subconjunto abierto y cerrado al mismo tiempo entonces A = ∅ o bien, A = Rn .
Sugerencia: recuerda que Rn es conexo.
( 4.76 ) Supón que A ⊂ Rn es tal que A ∩ Q tiene más de un punto entonces A ∩ Q no es conexo.
120
Capítulo 5
En este capítulo se desarrollará la herramienta fundamental del cálculo en varias variables, la deri-
vada. Se introducirá este concepto de una manera diferente a la habitual, esperando que esta sea más
simple y natural; se motivará de tal forma que sea consecuencia directa de lo ya aprendido. El desarro-
llo formal de la derivada puede resultar técnico. Para lidiar con esto han sido desarollados de manera
sencilla y clara los procesos de derivación. También se introduciren la nociones de varias direcciones;
esto es, se tratarán principalmente funciones con dominio en Rn y contradominio en R.
En este capítulo es donde ya se cohesionan las propiedades de espacio vectorial normado. El lector
habrá notado ya que todas las nociones se pueden dar en espacios vectoriales normados de dimensión
finita arbitrarios. De hecho, muchas de las propiedades demostradas se basan en la idea de tomar un
isomorfismo entre el espacio vectorial y un Rn conveniente y ahí trabajar el teorema (dar la demostra-
ción, desarrollar la idea, etcétera). Entonces, ¿para qué molestarse en dar los enunciados para espacio
vectorial si todo se reduce a trabajar en Rn ? Resulta que más adelante, cuando la derivada se piense
como una función, resultará más natural trabajar a las funciones como objetos entre dos espacios vec-
toriales normados que entre un Rn y un Rm . Si no se trabaja así, el querer definir las derivadas de
orden superior deviene en un problema complicado y usualmente solo se trabajan tangencialmente,
mecánicamente o de manera ineficiente; sin dar la teoría de fondo. Se recomienda que el lector consulte
[1], [3], [7], [11], [15], [19] y [22] en donde apenas se menciona la segunda derivada y no se desarrolla
formalmente.
1 El índice de masa corporal es una medida que sirve para obtener una estadística bien aceptada como índice para medir el
grado de obesidad de una persona. La definición del índice es simple, si la persona pesa m kilogramos y mide n metros entonces
m
su índice de masa corporal, IMC, es IMC = 2 .
n
121
Capítulo 5. La derivada en varias variables.
hablando, esto es lo que se entiende por tener varias direcciones. Cada variable tiene su dominio; el
contradominio de la función es el conjunto donde interactúan todas estas variables.
Durante el resto del texto se trabajará con funciones cuyo dominio es subconjunto de Rn y cuyo
contradominio lo es de Rm . Esta funciones se conocen como funciones vectoriales de varias variables.
Nota que las curvas son un caso particular de funciones vectoriales de varias variables. Sin embargo,
en este caso solo se tiene una variable independiente. Por este motivo las funciones de varias variables
poseen más cualidades que las curvas.
Otro resultado importante dice que para una función lo suficientemente suave, su imagen cerca
de un punto se comporta como un subespacio vectorial del dominio trasladado al punto imagen. Es
importante recordar que las curvas tenían por imagen una “linea curvada” en Rn2 . En cambio, dada
una función f : Rn Ï Rm la imagen de f define, sobre ciertas condiciones, una “superficie” en Rm con
n “grados de libertad”. Más adelante se discutirá esto. Por lo pronto se está interesados en empezar las
definiciones de las posibles operaciones que pueden tener este tipo de funciones especiales.
( 5.1.1 ) Sean V y W dos espacios vectoriales reales, con producto interior y de dimensión finita, y f y g dos
funciones de V a W .
1. Se define f + g como la función cuyo dominio es Dom (f + g) = Dom (f) ∩ Dom (g) y cuya regla de
correspondencia es (f + g)(X) = f(X) + g(X), a f + g se le llama la suma de f con g.
2. Se define f · g como la función cuyo dominio es Dom (f + g) = Dom (f) ∩ Dom (g) y con regla de
correspondencia hf, gi (X) = hf(X), g(X)i , a hf, gi se le llama el producto escalar de f con g.
Å ã
f f
3. En el caso en que W = R se define como la función cuyo dominio es Dom = {X ∈ Dom (f) ∩
g Å ã g
f f(X) f
Dom (g) : g(X) 6= 0} y regla de correspondencia (X) = ,a se le llama el cociente de f entre
g g(X) g
g.
4. En el caso en que W = R3 se define f × g como la función cuyo dominio es Dom (f × g) = Dom (f) ∩
Dom (g) y regla de correspondencia (f × g)(X) = f(X) × g(X), a f × g se le llama el producto vectorial de
f con g.
Note que se definió el dominio de g ◦ f no como todo Dom (f) , sino aquellos puntos en Dom (f) cuya
imagen por f están en Dom (g) .
x+y
( 5.1.3 ) Sea f(x, y, z) = , encuentra el dominio de f y determine si f es inyectiva, suprayectiva y encuentra
z
la imagen de f.
2 Es importante destacar la existencia de una curva α : [0, 1] → [0, 1]2 tal que α es continua y suprayectiva. Tal curva se
122
5.1. Funciones de varias variables.
El dominio de f es el conjunto de puntos más grande en R3 donde f esté definida. La suma está
siempre definida, el único posible problema es el cociente de z, así, el dominio de f es
Al ver la regla de correspondencia de la función f uno piensa que es poco probable que sea inyectiva.
Lo más fácil es ver que si x + y = 0 entonces f(x, y, z) = 0. Sean X1 = (1, −1, 1) y X2 = (−1, 1, 1) dos
puntos en R3 , f(X1 ) = f(X2 ) = 0 y X1 6= X2 , esto es, f no es inyectiva. Al ser f una función de R3
en R es natural pensar que f es suprayectiva pues R3 es “más grande” que R. Sea r en R entonces
f(r, 0, 1) = r, esto implica que f es suprayectiva. Falta encontrar la imagen de f, pero esto es inmediato
de la suprayectividad, pues al ser f suprayectiva su imagen es todo R.
√ y
( 5.1.4 ) Sea α la curva dada por t 7Ï (t 2 , 2t, 1 − t) y sea f la función dada por f(x, y, z) = x − .
z+1
Determine el dominio de α, f, f ◦ α, la imagen de las tres funciones, y la regla de correspondencia de f ◦ α.
Asimismo, determine si f ◦ α es suprayectiva e inyectiva.
Primero se encuentran los dominios de α y f. Como cada función coordenada de α tiene dominio
R se tiene que α tiene dominio R. Del mismo modo que el ejemplo anterior f no estará definida si
z = −1 o bien, si x < 0. De este modo el dominio de f es
Para poder determinar el dominio de f ◦ α es necesario que α(t) ∈ Dom (f) . Para que esto pase
es necesario y suficiente que α1 (t) ≥ 0 y α3 (t) 6= −1, donde α = (α1 , α2 , α3 ); es decir, si t 2 ≥ 0 y
1 − t 6= −1 ocurren simultaneamente. Esta condición es equvialente a que t 6= 2. Se puede concluir que
Dom (f ◦ α) = R\{2}. No se puede hacer algo mejor sobre la imagen de α que
Es fácil ver que la imagen de f es R pues para cada r ∈ R el punto (0, −r, 0) es enviado a r mediante
f. Para poder determinar la imagen de f ◦ α se debe encontrar la regla de correspondencia para f ◦ α.
Pero,
t(2 − t) − 2t = r(2 − t) ⇔ 2t − t 2 − 2t = 2r − rt
⇔ t 2 − rt + 2r = 0.
√
r ± r 2 − 8r
Resolviendo la última ecuación para t se obtiene que t = . Esto tiene solución si y solo si
2
2
r − 8r ≥ 0. Por tanto, r ≥ 0 y r ≥ 8 o bien, r ≤ 0 y r ≤ −8, así que la ecuación tiene solución para
r ∈ (−∞, −8] ∪ [8, ∞). Se supone ahora que t < 0,
123
Capítulo 5. La derivada en varias variables.
p
(4 − r)2 + 8r
4−r±
Resolviendo la ecuación para t se obtiene que t = . Entonces, existe solución
2
2 2
para t si (4 − r) + 8r ≥ 0, equivalentemente, si r + 16 ≥ 0. Pero la última desigualdad es cierta para
todo r, de este modo, la ecuación siempre tiene solución. Esto implica que f ◦ α es suprayectiva. Por
lo tanto, su imagen es todo R. De las desigualdades anteriores es claro que f ◦ α no es inyectiva. Por
12 6
ejemplo, (f ◦ α)(6) = 6 − = 9 y (f ◦ α)(3) = 3 − = 9, así, f no es inyectiva.
−4 −1
( 5.2.1 ) La función F(x, y) = (y, x) es un campo vectorial en R2 . Geométricamente hablando, se entiende que
F refleja R2 a través de la recta con vector de dirección (1, 1).
X
( 5.2.2 ) El campo vectorial F : Rn \ {0} → Rn \ {0} dado por F(X) = se conoce como inversión.
kXk2
Se deja de ejercicio verificar que la inversión es invertible, fija el círculo unitario3 y es una biyección
entre la bola unitaria y su exterior.
124
5.2. Campos vectoriales, una introducción intuitiva.
flecha de dirección (x, −y), por comodidad se dibujan todas las flechas del mismo tamaño. Se le pide
al lector que realice él mismo el dibujo. Si lo ha hecho bien debería conseguir que sus flechas, si se
encuentran sobre los ejes, se alejen del origen por el primer eje y se aceren al origen por el segundo
eje. En los puntos que no están sobre los ejes, las flechas deberían describir dos sistema de hipérbolas
simétricos tales que el origen del plano es centro común de todas las hipérbolas.
125
Capítulo 5. La derivada en varias variables.
( 5.2.6 ) El conjunto de transformaciones ortogonales en Rn con la composición forman un grupo. En este grupo
la identidad es el neutro multiplicativo.
En efecto, en virtud de (5.2.5) y de (5.2.4) solo resta probar que si T es ortogonal T −1 también lo es.
Pero la inversa de una transformación lineal es una transformación lineal, ve el ejercicio (1.23), y si
una transformación lineal invertible preserva la distancia también su inversa, ve el ejercicio (1.34).
( 5.2.7 ) Toda trasformación rígida se descompone de manera única como la composición una trasformación
ortogonal seguida de una traslación.
Se supone que T : Rn → Rn es una trasformación rígida. Sea P = T(0) entonces T − P : Rn → Rn es
una trasformación ortogonal; evidentemente, T − P es la composición de T con la traslación X 7Ï X + P,
luego como consecuencia de (5.2.5) se sigue que T − P es rígida4 . Por ende, basta demostrar que toda
trasformación rígida que fija el origen es una transfomación lineal.
( 5.2.7.1 ) Sea T una trasformación rígida que fija el origen. Entonces T es lineal.
Si {e1 , . . . , en } es la base canónica de Rn , se ve que {Te1 , . . . , Ten } es base ortonormal de Rn
X n
(ve (5.2.4)). De este modo, X ∈ Rn se descompone como X = hX, ei i ei . Análogamente, TX se
i=1
n
X
descompone como TX = hTX, Tei i Tei ; al ser T rígida, preserva el producto escalar (de nuevo,
i=1
(5.2.4)) y, por ende, hTX, Tei i = hX, ei i y, por lo tanto,
n
X
TX = hX, ei i Tei ;
i=1
126
5.3. Gráficas.
§ 5.3. Gráficas.
Ya se ha hablado de la gráfica de una función pero todavía no ha sido definido lo que se interpreta
por gráfica. Se había definido a la gráfica de una función es la función misma. Por esta razón, si
f : Rn → Rm entonces f ⊂ Rn+m y solamente se pueden dibujar las gráficas para n = 1 y m = 1, para
n = 2 y m = 1 y, para n = 1 y m = 2. Se considera f : Rn → Rm , el caso en que n = 1 y m = 1 se tiene
una función de R a R para la cual el lector ya es experto realizando las gráficas correspondientes. Si
en cambio, se considera n = 1 y m = 2 se está considerando una curva, las cuales fueron tratadas en
el capítulo 4. Es por este motivo que se concentrará el interés en funciones de R2 a R.
Nc (f) = {(x, y) ∈ f : y = c}
esto es, un círculo de radio c sobre el plano P = {(x, y, c) : (x, y) ∈ R2 } y concentro en el tercer eje.
Finalmente, la gráfica de f es la unión de todos estos círculos de centro el origen y radio r con la idea
que el círculo de radio r tiene su centro en el tercer eje y se encuentra embebido en un plano paralelo
a aquel generado por los dos primeros ejes y que se encuentra a una altura de r sobre el origen.
x
( 5.3.4 ) Sea f la función de R2 a R dada por f(x, y) = . Encuentra los conjuntos de nivel de f para un valor
y
c arbitrario de R.
Sea c = 0 entonces
x
f(x, y) = 0 ⇔ = 0 ⇔ x = 0.
y
6 También conocidos como “isoconjuntos” de valor c. Por ejemplo, cuando una función mide la temperatura éstos conjuntos
reciben el nombre de “isotérmicos”; cuando se hable en términos de utilidad económica se les denomida de “isoutilidad”, etcétera.
127
Capítulo 5. La derivada en varias variables.
De este modo, N0 (f) = {(0, y, 0) ∈ R3 : y 6= 0}. A este conjunto se le puede pensar como {(0, y) ∈ R2 :
y 6= 0}. Ahora, si c = 1 entonces es fácil ver que
En general, para cualquier c ∈ R, se tiene que Nc (f) = {(cy, y, c) : y 6= 0}, esto es, lineas que cortan al
1
tercer eje en la altura c cuya pendiente es . ¿Puede el lector imaginar la gráfica de f?
c
( 5.3.5 ) Se supone que f es una función de R2 a R tal que Nc (f) = {(x, y, c) : 2x − y + 1 = c}, determine f.
Observa que para cada valor de c el conjunto de nivel de f es una recta. Es importante notar que para
todos los valores de c las rectas tienen la misma pendiente. En la gráfica de f se tendrá que en la altura
c la gráfica es una recta y que para cualquier altura se tienen rectas paralelas entre sí. Esto sugiere
pensar que la gráfica de f es un plano. Bastará un segundo para que el lector se convenza que una
función en cuestión es f(x, y) = 2x − y + 1 y la gráfica de f es el plano P = {(x, y, z) : 2x − y − z = −1}.
128
5.4. Límites.
§ 5.4. Límites.
La generalización de límite en funciones de varias variables es inmediata de la definición dada antes
para curva (4.2.1)
( 5.4.1 ) Sean V y W dos espacios vectoriales. Supón que A es un subconjunto de V y que f : A → W es una
función cualquiera. Sea v ∈ A un punto de acumulación de A. Se dirá que w ∈ W es un «límite de f en v a
través de A» siempre que se cumpla la siguiente propiedad
(∀ε > 0)(∃δ > 0) tal que (u ∈ B∗ (v; δ) ∩ A Ñ f(u) ∈ B (w; ε)),
Observaciones:
1. Siempre se deberá suponer que las bolas son respecto a la única topología que se puede definir
en V y W con respecto a una norma, ve las observaciones después de (3.6.6). En particular, si una
función posee un límite respecto a algunas normas de V y W entonces posee el mismo límite
para todas las normas que se puedan definir en V y W .
2. Esta definición coincide con la clásica definición de cálculo en una variable cuando n = 1 y
V = W = R. También incluye las definiciones de límite hacia arriba (o izquierdo) y hacia abajo (o
derecho).
5. Esta noción de punto límite explica por qué en las sucesiones solo se consideran límites en el
“infinito”. Supón que a R se le agrega el “punto” especial ∞ y se define una bola abierta de centro
∞ como (a, ∞), para cualquier a ∈ R. Entonces, si se pone U = N en la definición anterior el
único punto de acumulación
Å de U ães ∞. Esto puede “verificarse” de la siguiente manera, supón
1 1
que n ∈ N entonces n − , n + ∩ N = {n}, por lo que n no es punto de acumulación de N,
2 2
en cambio, se toma a ∈ R, se ve que (a, ∞) ∩ N 6= ∅ sin importar a. Luego, lo estudiado sobre
límites de sucesiones es un caso especial de este.
7. Asimismo, resulta ser más complicado el cálculo de los límites ahora que antes. A continuación
se presentan algunos ejemplos para ilustrar este hecho. En estos ejemplos se varán algunas ideas
que se utilizan con frecuencia a la hora de lidiar con límites.
129
Capítulo 5. La derivada en varias variables.
La función con la que se va a trabajar es aquella cuya regla de correspondencia es (x, y) 7Ï cos x +
cos y. Se sabe que la función coseno está bien definida en todo R. De este modo el dominio de la
función es R2 . Dado ε > 0 se debe encontrar un δ > 0, posiblemente en función de ε y (π, 0), tal que
cumpla la definición de límite. Sea ε > 0. Como el coseno es una función continua en R existe un
ε ε
δ1 > 0 tal que |x − π| < δ1 Ñ | cos x + 1| < . Asimismo, existe δ2 > 0 tal que |y| < δ2 Ñ | cos y − 1| < .
2 2
Sea δ = mı́n{δ1 , δ2 }. Entonces k(x, y) − (π, 0)k < δ Ñ |x − π| < δ y |y| < δ. Luego, las desigualdades
anteriores prevalecen, por lo que
Lo más natural es pensar que lı́m f(x, y, z) = −1. Sea ε > 0 y sea δ > 0 tal que
(x,y,z)→(1,0,−1)
ε
|x − 1| < δ Ñ |x − 1| < ,
3
ε
|y| < δ Ñ |y| <
3
y
ε
|z + 1| < δ Ñ |2z + 2| <
3
El lector deberá explicar por qué existe este δ. Al igual que antes, si k(x, y, z) − (1, 0, −1)k < δ entonces
las tres desigualdades anteriores valen y por tanto
Es fácil pensar que el límite es (0, 1 − π, −1). Se calcularán primero los límites de las funciones
f1 (x, y, z) = x + y, f2 (x, y, z) = x 2 − z
y
f3 (x, y, z) = cos z
en el punto (1, −1, π). Sean ε > 0 y δ1 > 0 tal que
ε
|x − 1| < δ1 Ñ |x − 1| < ,
6
y
ε
|y + 1| < δ1 Ñ |y + 1| < ,
6
130
5.4. Límites.
De este modo, si k(x, y, z) − (1, −1, π)k < δ1 entonces las dos desigualdades anteriores prevalecen y, por
tanto,
ε
|f1 (x, y, z)| = |x + y| < |x − 1| + |y + 1| <
3
Sea δ2 > 0 tal que
ε
|x − 1| < δ2 Ñ |x 2 − 1| < ,
6
y
ε
|z − π| < δ2 Ñ |z − π| < .
6
Y del mismo modo que antes, si k(x, y, z) − (1, −1, π)k < δ2 entonces las dos desigualdades anteriores
prevalecen y, por tanto,
ε
|f2 (x, y, z)| = |x 2 − z − 1 + π| < |x 2 − 1| + |z − π| <
3
Por último, como cos es una función continua se tiene que existe δ3 tal que
ε
|z − π| < δ3 Ñ |f3 (x, y, z) + 1| = | cos z + 1| < .
3
131
Capítulo 5. La derivada en varias variables.
Recuerde que no importa que norma se utilice en la definición de límite. Supón entonces que
kk1 , . . . , kkm son sendas normas en W1 , . . . , Wm y define la norma en W mediante
m
X
k(z1 , . . . , zm )k = kzi ki
i=1
(queda a título de ejercicio para el lector demostrar que kk es una norma en W ). Se verifica trivialmente
que para cualquier zi ∈ Wi
m
X
kzi ki ≤ k(z1 , . . . , zm )k = kzi ki .
i=1
m
X
Por lo tanto, kwi − fi (u)ki ≤ kw − F(u)k = kwi − fi (u)ki . Por lo tanto, si F(u) → w cuando u → v a
i=1
través de A entonces fi (u) → wi cuando u → v a través de A. Del mismo modo, si para cada i = 1, . . . , m
se cumple que fi (u) → wi cuando u → v a través de A entonces, por ser un número finito de sumandos,
F(u) → w cuando u → v a través de A.
1
( 5.4.8 ) Sea f(x, y, z) = . Encuentra y calcula
x2 + 2y − z
|x 2 + 2y − z − 2| = |x 2 − 1 + 2y − z − 1| ≤ |x 2 − 1| + |2y| + |z + 1|.
Un segundo de reflexión hará notar que el único posible problema para encontrar una cota es con
|x 2 − 1|. Se hacen unas pequeñas manipulaciones algebraicas.
132
5.4. Límites.
La demostración se delega al lector como ejercicio. Como siempre, se darán algunas sugerencias.
Las funciones proyección antes definidas satisfacen ciertas propiedades especiales. De acuerdo al
ejemplo (3.4.2) se tiene que las funciones proyección son funciones abiertas.
( 5.4.11 ) Sean V1 , . . . , Vn espacios vectoriales y define V = V1 × . . . × Vn . Las proyecciones canónica satisfacen
que v = (v1 , . . . , vn ) Ñ lı́m pri (u) = vi .
u→v
Es destacable que Dom (pri ) = V por lo que cualquier v ∈ V es punto de acumulación de Dom (pri ) .
Aquí otra vez se utilizará que no importa la norma que se utilice en la definición de límite. Su-
pón entonces que kk1 , . . . , kkn son sendas normas en V1 , . . . , Vn y define la norma en V mediante
n
X
k(v1 , . . . , vn )k = kvi ki . Sean ε > 0 y δ = ε. Por definición,
i=1
n
X
u ∈ B∗ (v; δ) ⇔ 0 < kui − vi ki < δ,
i=1
por lo que
kui − vi ki ≤ ku − vk < δ = ε
que es la definición de que lı́m pri (u) = pri (v).
u→v
133
Capítulo 5. La derivada en varias variables.
Observación: de aquí es inmediato que toda proyección parcial pri1 ,...,ik satisface que
lı́m pri1 ,...,ik (u) = (vi1 , . . . , vik ),
u→v
en donde RN es el conjunto de vectores con un número infinito de entradas; esto es, RN es el conjunto de
las sucesiones que toman valores reales. La notación con vectores no es habitual pues resulta complicado
definir el producto de polinomios, por eso se prefiere la notación de sumas. Otra forma de definir R[x]
es pensarlo como el espacio vectorial generado por los símbolos formales {x i : i = 0, 1, 2, . . .}. A este
conjunto se le conoce como conjuntos de monomios de una variable.
Existen muchas analogías entre RN y Rn para n ∈ N. No se necesitará de ninguna durante este
texto. Por otra parte, se deja de ejercicio al lector verificar que R[x] es un espacio vectorial sobre R
con las operaciones de suma y producto por escalar definidas como antes, coordenada a coordenada.
Asimismo, se deja verificar que este espacio vectorial es de dimensión infinita, de hecho el conjunto de
monomios de una variable es un conjunto linealmente independiente e infinito que es base (ve (1.2.8))
de R[x].
Dado un polinomio siempre es posible definir una función mediante él. Por ejemplo, para P ∈ R[x]
n
X
dado por P = (a0 , . . . , an , 0, . . .) = ai x i entonces se puede definir la función f : R → R dada por
i=0
n
X
f(x) = ai x i .
i=0
A una función de este tipo se le conoce como función polinomial en R y cabe destacar que f no es un
polinomio7 . Observa que existe una aplicación natural entre el espacio de polinomios y el de funciones,
n n
!
X X
i i
ai x 7Ï t 7Ï ai t
i=0 i=0
7 Técnicamente, f ∈/ R[x].
134
5.4. Límites.
Entonces, queda a cargo del lector demostrar que B es conjunto linealmente independiente.
( 5.4.12 ) Se define el conjunto de los polinomios en n variables como
¨¶ ©∂
R[x1 , . . . , xn ] = lin x1i1 · · · xnin : i1 + · · · + in = k, (i1 , . . . , in , k) ∈ (N ∪ {0})n+1 .
8 Por notación, si X y Y son conjunto, el conjunto X Y denota al conjunto de todas las funciones con dominio Y y contradominio
X. Se puede verificar que si Y es espacio vectorial X Y también es un espacio vectorial (note que no hay ninguna suposición sobre
X, ¡puede ser cualquier conjunto no vacío!). Por estas razones se puede verificar que RR posee una base como espacio vectorial,
n
ve (1.2.14). Por otra parte, se denotará al conjunto de las funciones polinomiales de Rn en R por P R(R ) .
135
Capítulo 5. La derivada en varias variables.
2. lı́m x 2 y − 3z3 y.
(x,y,z)→(1,1,−1)
ex+y x
Å ã
x
3. lı́m , , e + e−y+z .
(x,y,z)→(0,−1,2) z+y z
2 sin y
4. lı́m .
(x,y,z)→(2,π,−π) x 2 + cos z
sin x cos y
5. lı́m z .
(x,y,z)→( π2 ,π,2π ) sin
4
1. Nota que la función en cuestión es pr1 + pr2 + pr3 . Por (5.4.10) se tiene que
lı́m x+y+z = 1 + 0 + 0 = 1.
(x,y,z)→(1,0,0)
2. Se procede análogamente al ejemplo anterior. En este caso la función es pr21 pr2 − 3pr3 pr2 y, por
tanto, el límite buscado es
3. Para resolver este ejemplo se usará (5.4.6). Por razonamientos análogos a los de los incisos uno
y dos se puede ver que el límite en la primera coordenada es cero. Para calcular el límite de la
segunda coordenada se utiliza el hecho que la función exponencial es continua en R. Así, el límite
de ex+y en (0, −1, 2) es e−1 . Se utilizará de nuevo (5.4.9), se tiene que el límite de pr3 en (0, −1, 2)
e−1
es 2, por tanto, el límite de la segunda coordenada es . Usando que el límite de la suma es la
2
suma de los límites se ve que el límite de la tercera coordenada es e0 + e3 = 1 + e3 . Por tanto, el
límite buscado es 0, e−1 , 1 + e3 .
4. La función seno es continua de R en R, así el límite de sin ◦pr2 en (2, π, −π) es sin π = 0. De aquí
que el límite en el numerador sea cero. Por un razonamiento análogo al previo se ve que el límite
del denominador es 3. Como el límite del denominador no es cero, se sigue que el límite buscado
es cero.
5. Se deja al lector los detalles de este ejercicio para que verifique que, en este caso, el límite buscado
es -1.
lı́m f(x, y, z) = 0.
(x,y)→(1,1,2)
136
5.4. Límites.
La pregunta natural y obvia que surge es la siguiente. ¿Cuándo se pueden calcular los límites de manera
reiterada?
Se observa lo siguiente, se supone que f : U ⊂ Rn → R tal que f(X) → l cuando X → A, donde A es
un punto de acumulación de U. El límite de f es l tomando cualquier dirección hacia A. Entonces, si el
límite por definición existe y el límite reiterado existe deben coincidir.
y
gk xσ(k+1) , . . . , xσ(n) = lı́m gk−1 xσ(k) , . . . , xσ(n) ,
xσ(k) →pσ(k)
para k = 1, . . . , n. Entonces, gn es una función constante cuyo valor es L. Por notación se escribirá
( 5.4.17 ) Supón que lı́m F(X) existe en cada caso, encuentra su valor:
X→A
x 2 + yz − z
2. f(x, y, z) = , P = (−1, 1, 2).
3xyz
Como los límites existen se puede utilizar límites reiterados para encontrar su valor. Entonces, se
tiene que, para el primer caso
Y para el segundo,
x 2 + yz − z
= lı́m lı́m lı́m
x→−1 z→2 y→1 3xyz
2
x +z−z
= lı́m lı́m
x→−1 z→2 3xz
x2 1
= lı́m = .
x→1 6x 6
137
Capítulo 5. La derivada en varias variables.
Como los dos límites reiterados existen y no coinciden en valor, se tiene que el límite global no existe.
Para el otro caso, se procede de manera análoga.
x
lı́m lı́m =1
x→0 y→2 x + y 2 − 4
y
x
lı́m lı́m = 0.
y→2 x→x x + y2 − 4
x
Por lo que lı́m tampoco existe.
x + y2 − 4
(x,y)→(0,2)
A continuación un ejemplo de una función que su restricción a toda recta que pasa por el origen
en Rn la convierte en una función continua (de R a R) pero que la función no tiene límite en (0, 0).
La técnica para demostrar esto ya ha sido empleada antes. Sea ε > 0, existe δ > 0 tal que
138
5.4. Límites.
Asimismo, sea u ∈ Rn un vector unitario. La restricción de f a Lu , la recta que pasa por cero y en dirección del
vector u, es continua (como funciones de R a R). Sin embargo, lı́m f(x, y) no existe.
(x,y)→(0,0)
Asimismo, F tiende a −∞ en A si
sin x π π
( 5.4.22 ) Sea f la función dada por f(x, y) = . El límite de f en , es infinito.
cos y 2 2
π π
Sean M ∈ N y A = , , se quiere encontrar δ > 0 tal que X ∈ B∗ (A; δ) Ñ f(x) > M. Se hace un
2 2
pequeño análisis del problema.
sin x
f(X) > M ⇔ > M ⇔ sin x > M cos y.
cos y
139
Capítulo 5. La derivada en varias variables.
π π
Se observa lo siguiente, sin x → 1 cuando x → y cos y → 0 cuando y → . Se tiene que para algún
2 2
1 π 1
δ1 > 0, cos y < siempre que y − < δ1 . Asimismo, existe δ2 > 0 tal que sin x > siempre que
2M 2 2
π
x − < δ2 . Por tanto, si δ = mı́n{δ1 , δ2 } entonces
2
π π
(x, y) ∈ B∗ (A; δ) Ñ x − < δ1 , x − < δ2 ,
2 2
sin x 1 2M
implicando esto que f(x, y) = > > = M. Con lo cual, el límite es infinito, como se
cos y 2 cos y 2
había afirmado.
Es cuestión de lenguaje notar que el límite en A de una función f : Rn → R es infinito si y solo si el
1
límite de en A se va aproximando a cero por la derecha.
f
1
( 5.4.23 ) Sea f : U ⊂ Rn → R. Entonces, lı́m f(X) = +∞ si y solo si lı́m = 0+ .
X→A X→A f(X)
1
Se supone primero que el límite de f en A es +∞. Se verá que el límite de en A es cero, y que la
f
1
aproximación es por la derecha. En efecto, dado ε > 0, sea M ≥ . Existe δ > 0 tal que
ε
X ∈ B∗ (A; δ) Ñ f(X) > M.
Es decir,
1 1
X ∈ B∗ (A; δ) Ñ 0 < < < ε.
f(X) M
1
Con esto se ve que el límite deen A es cero y la aproximación es por la derecha.
f
1 1
Recíprocamente, se supone que el límite de en A es cero, y > 0. Sea M ∈ N entonces existe
f f
1 1
ε > 0 tal que > M. Como el límite de es cero, se sigue que para este ε existe δ > 0 tal que
ε f
1
X ∈ B∗ (A; δ) Ñ < ε.
f(X)
Esto es,
1
X ∈ B∗ (A; δ) Ñ f(X) > > M.
ε
Lo cual implica que el límite de f en A es +∞.
§ 5.5. Continuidad.
Al igual que el capítulo pasado se está interesado en definir continuidad; en aquel caso fue fácil dar
una idea geométrica de lo que es la continuidad. Bastaba decir que se quería que la traza de la curva
no “saltara” ni se “rompiera”. Ahora no es tan fácil esta noción de “rompimiento” pues las gráficas de
las funciones de varias variables son superficies en Rn+m y no es clara su visualización. Lo que si es
claro, y además fácil, es transcribir la definición de continuidad con la noción de siempre, procurar que
lı́m f(X) = f(A).
X→A
140
5.5. Continuidad.
Observaciones:
1. Es consecuencia directa de la definición que una condición necesaria y suficiente para que f sea
continua en un punto de acumulación v es que lı́m f(u) = f(v).
u→v
2. Si F = (f1 , . . . , fm ) entonces una condición necesaria y suficiente para que F sea continua en v es
que cada fi sea continua en v. Lo cual es consecuencia directa de (5.4.6).
Una de los resultados más potentes sobre continuidad es que esta puede caracterizarse de varias
maneras distintas. Por ejemplo, las funciones continuas satisfacen que lı́m f(u) = f(v), esto se puede
u→v
pensar como lı́m f(u) = f lı́m u . Esto se expresa coloquialmente diciendo que las funciones continuas
u→v u→v
permiten “entrar los límites a su argumento”. Sin embargo, el resultado que se va a demostrar garantiza
que esta operación puede realizarse cuando se toma cualquier sucesión, (un )n∈N , tal que lı́m un = v.
n→∞
( 5.5.2 ) Sea f : A ⊂ V → W una función. Una condición necesaria y suficiente para que f sea continua en
v ∈ A es que para cualquier sucesión convergente (un )n∈N definida en A tal que lı́m un ∈ A se tenga que
n→∞
lı́m f(un ) = f(v). Esto se expresa equivalentemente como lı́m f(un ) = f lı́m un .
n→∞ n→∞ n→∞
Se utilizará una técnica ya empleada antes varias veces; primero se demuestra la necesidad. Como
lı́m f(u) = f(v) se tiene que dado ε > 0 existe δ > 0 tal que u ∈ B (v; δ) ∩ A Ñ f(u) ∈ B (f(v); ε) . Como
u→v
un → v se tiene que para este δ > 0 existe M > 0 tal que n ≥ M Ñ un ∈ B (v; δ) . De este modo,
n ≥ M Ñ f(un ) ∈ B (f(v); ε) . Esto es que lı́m f(un ) = f(v).
n→∞
Para demostrar el recíproco se procede por contrapuesta. Esto es, se supone que existe una sucesión
(un )n∈N definida en A tal que un → v y f(un ) 6→ f(v). Entonces, existe ε > 0 tal que para todo M > 0
existe n ≥ M tal que kf(un ) − f(v)k > ε. Como un → v se puede tomar M > 0 tal que kun − vk < δ
para δ > 0 dado de antemano. Pero esto es precisamente que lı́m f(u) 6= f(v).
u→v
Otra manera de caracterizar a las funciones continuas es aquella que se presenta a continuación.
En la sección pasada se introdujo a las funciones de proyección a los ejes. Se deja de ejercicio al lector
verificar que las proyecciones son continuas (ve (5.4.11)). Asimismo, en el capítulo pasado se dijo una
caracterización para curvas continuas la cual no depende del estilo ε-δ. La misma caracterización para
las funciones de varias variables es válida.
141
Capítulo 5. La derivada en varias variables.
Se supone primero que f es una función continua en v. Sea ε > 0 entonces existe δ > 0 tal que
u ∈ B (v; δ) ∩ A Ñ f(u) ∈ B (f(v); ε) . Esto muestra la necesidad de la afirmación.
Para ver la suficiencia se empieza suponiendo que f es tal que para toda bola abierta B (f(v); ε) ⊂ W
existe una bola abierta B (v; δ) ⊂ V tal que f(B (v; δ) ∩ A) ⊂ B (f(v); ε) . Entonces, si u ∈ A y u ∈ B (v; δ)
entonces f(u) ∈ B (f(v); ε) , que es la definición de límite.
( 5.5.4 ) Una condición necesaria y suficiente para que una función f : A ⊂ V → W sea continua en el punto v
es que para todo conjunto abierto P ⊂ W para el cual f(v) ∈ P exista un abierto Q tal que f(A ∩ Q) ⊂ P.
Sea P un subconjunto abierto de W tal que f(v) ∈ P. Entonces, existe ε > 0 tal que B (f(v); ε) ⊂ P.
Por el teorema anterior, existe un δ > 0 tal que f(B (v; δ) ∩ A) ⊂ B (f(v); ε) . Tomando B (v; δ) como Q
se obtiene una implicación.
Recíprocamente, se toma P = B (f(v); ε) ; existe un abierto Q tal que v ∈ Q y f(Q ∩ A) ⊂ P; como
v ∈ Q existe δ > 0 con B (v; δ) ⊂ Q. Utilizando el teorema anterior se concluye el resultado.
( 5.5.5 ) Una condición necesaria y suficiente para que una función f : A ⊂ V → W sea continua en v es que
para todo abierto P ⊂ W exista un abierto Q ⊂ V tal que F(V ∩ U) = W .
Es inmediato de (5.5.4) al recordar que la unión de cualquier familia de conjuntos abiertos constituye
un conjunto abierto.
( 5.5.6 ) Sea f : A ⊂ V → W , una condición necesaria y suficiente para que f sea continua es que para todo
C ⊂ W cerrado exista un cerrado K ⊂ V tal que f −1 (C) = A ∩ C.
El punto clave para demostrar esto es ver que f −1 {A = {f −1 (A). Se dejan los detalles al lector, ve
ejercicio (5.34).
La idea es aplicar la [
definición de que f(K) sea compacto. Sea O = (Pα )α∈Γ una cubierta abierta de
f(K). Entonces f(K) ⊂ Pα . Como f es continua, se tiene que para cada α ∈ Γ existe Qα ⊂ V un
α∈Γ
abierto tal que f −1 (Pα ) = Qα ∩ A. Se considera la familia (Qα )α∈Γ , se afirma que esta familia es cubierta
abierta de K. Sea u ∈ K entonces f(u) ∈ Pα para algún α ∈ Γ, pues O cubre f(K). Observa que f(u) ∈ Pα
es equivalente a u ∈ f −1 (Pα ) = Qα ∩ A, por lo que u ∈ Qα . Como K es un conjunto compacto de V
existe una subfamilia finita (Qαi )i=1,...,k tal que cubre a K. Se deducirá que la subfamilia (Pαi )i=1,...,k cubre
a f(K). Sea w ∈ f(K). Entonces existe un u ∈ K tal que f(u) = w. Como u ∈ K, existe i para el que
u ∈ Qαi , pero esto implica que w = f(u) ∈ Pαi . Esto demuestra que f(K) es un conjunto compacto.
Esto provee de un modo relativamente sencillo para determinar cuando un conjunto K ⊂ W es
compacto. Basta ver que K es imagen continua de algún conjunto compacto C ⊂ V , para algún n ∈ N.
142
5.5. Continuidad.
resultado es que no existe una trasformación continua del conjunto B (0; 1) al conjunto (−1, 0) ∪ (0, 1).
Otra consecuencia importante es el teorema del valor intermedio. Este dice que si f : V → R es continua,
S ⊂ V es conexo y f(u) < f(v), para algunos u, v ∈ S, entonces para todo f(u) < a < f(v) existe w ∈ S
con f(w) = a.
( 5.5.8 ) Sea f : C ⊂ V → W una función continua. Se supone que C es conexo de V entonces f(C) ⊂ W es
conexo.
( 5.5.9 ) Sean f : C ⊂ V → R una función continua y C un conjunto conexo de V . Si f(u) < f(v) para algunos
u, v ∈ C entonces, para todo a tal que f(u) < a < f(v), existe w ∈ C con f(w) = a; el «teorema de Bolzano».
Como f(C) es conexo, se tiene que f(C) = I ⊂ R con I un intervalo (ve (4.8.6)). De este modo,
f(u), f(v) ∈ I y como f(u) < f(v), [f(u), f(v)] ⊂ I. Pero I = f(C), por lo que para todo a ∈ (f(u), f(v))
existe w ∈ C tal que f(w) = a.
( 5.5.10 ) Toda función polinomial de grado impar de n variables tiene al menos una raíz. Esto es, dado p : Rn →
R una función polinomial tal que su grado es impar existe X ∈ Rn tal que p(X) = 0.
k
X
Se supone que p(x1 , . . . , xn ) = ai1 ...in x1i1 · · · xnin . Toma
i1 +···+in =0
este índice existe, pues de lo contrario todos los terminos i1 , . . . , in serían pares,
Pde lo que ksería par y
el polinomio sería de grado par. Toma f : R → R la función dada por f(x) = p i6=j ei + xej . Entonces
f es de grado impar. De este modo, existe r ∈ R tal que f(r) = 0. En efecto, al ser f de grado impar,
se tiene que lı́m f(x) = −∞, por lo que existe x ∈ R tal que f(x) < 0. Análogamente, lı́m f(x) = ∞ y
x→−∞ x→∞
existe y ∈ R tal que f(y) > 0. De estas dos desigualdades se concluye la existencia de este número r.
Pero (r, 1, . . . , 1) es raíz de p.
(∀ε > 0)(∃δ > 0) tal que u, v ∈ A, ku − vk < δ Ñ kf(u) − f(v)k < ε.
143
Capítulo 5. La derivada en varias variables.
El siguiente teorema debería ser nuevo para el lector; dice que la continuidad y continuidad uniforme
son equivalentes en funciones cuyo dominio un conjunto compacto.
144
5.6. La derivada.
1
mı́n δu . Se afirma que este δ satisface la definición de continuidad uniforme. Sean u, v ∈ K tales
2 i=1...,N i
que kuÅ − vk < ã δ. Entonces, existe algún i para el cual u, v ∈ B (ui ; δui ) . En efecto, existe i tal que
δu i
u ∈ B ui ; entonces
2
δui
kv − ui k ≤ ku − vk + ku − ui k ≤ δ + < δui .
2
Por lo que u, v ∈ B (ui ; δui ) . Como u, v ∈ B (ui ; δui ) se tiene que
§ 5.6. La derivada.
Nuestro siguiente paso para definir la derivada de una función de varias variables será dar una
motivación del cómo habría que definirse la derivada.
f(a + h) − f(a)
lı́m = f 0 (a),
h→0 h
145
Capítulo 5. La derivada en varias variables.
f(a + h) − f(a)
= f 0 (a) + ε(a; h),
h
en donde lı́m ε(a; h) = 0. Por lo que, al multiplicar la igualdad anterior por h, se tiene
h→0
y, por tanto,
f(a + h) = f(a) + f 0 (a)h + ε(a; h)h.
La igualdad anterior realmente no depende en que h sea un número y puede generalizarse de distintas
maneras. Se considera la siguiente, ten en cuenta que aquí h se piensa como un vector en todo momento
(por lo que no se puede dividir por él). Se define Ta tal que Ta (h) = f 0 (a)h entonces T es lineal. La
igualdad anterior toma la forma
Por lo tanto, una generalización posible (y directa de la definición del caso R a R) es decir que f es
diferenciable en a si existe una transformación lineal Ta y una función de error ε(a) tal que para todo
h pequeño se satisfaga la igualdad previa. Esta definición posee una dificultad natural, ¿qué significa la
multiplicación ε(a; h)h? Aquí es donde entra fuertemente el uso de espacios vectoriales. Observa que
para h fijo, la función k 7Ï ε(a; h)k es una función lineal. Por lo tanto, se puede pensar que ε(a; h)
es una función lineal y que la asignación h 7Ï ε(a; h) posee por dominio un subconjunto de R y por
contradominio a Lin (R, R) , donde Lin (R, R) es el espacio vectorial de las transformaciones lineales de
R a R. De este modo, la multiplicación ε(a; h)h cobra sentido.
Existen otras generalizaciones, las cuales se dan únicamente con el propósito de evitar que ε(a) sea
una función de R a Lin (R, R) . Por ejemplo, algunos autores proponen hacer
h
ε(a; h)h = ε(a; h) |h| = ε̃(a; h)|h|.
|h|
Aquí se sigue cumpliendo que lı́m ε̃(a; h) = 0 mas ahora ε̃(a) es una función de R a R (recuerda que |h|
h→0
es un número y no un vector). La última forma que se considera es generalizar la igualdad al considerar
Ta como antes y despejar ε(a; h). Se llega a
f(a + h) − f(a) − Ta h
= ε(a; h),
h
tomar normas ahora no afecta a la derivada Ta . Por lo que después de tomar normas y el límite cuando
h → 0 se ve que
|f(a + h) − f(a) − Ta h|
lı́m = 0.
h→0 |h|
Cualquiera de estas tres generalizaciones ya no dependen de que h ∈ R, por lo que se puede tomar
cualquiera de ellas como definición de derivada. La pregunta que surge ahora es, ¿cuál es la mejor
opción?
146
5.6. La derivada.
y
kF(A + H) − F(A) − RAk
= ε3 (A; H),
kHk
en donde cada εi (A; H) converja a cero cuando H → 0.
en donde T(h1 , h2 ) = (h2 , h1 ), es lineal. Se puede tomar T = R = S y manipular el término (h1 h2 , h22 ).
Sean Ñ é
h1 h2 h22
ε1 (A; h1 , h2 ) = (h2 , h2 ), ε2 (A; h1 , h2 ) = » ,»
h12 + h22 h12 + h22
y
(h1 h2 , h2 )
2
ε3 (A; h1 , h2 ) = = |h2 |.
k(h1 , h2 )k
Resulta inmediato que ε1 (A; H) y ε3 (A; H) convergen a cero cuando H converge a cero. Se ve que lo
mismo sucede con ε2 (A; H). Pero,
(h h , h2 ) (h , h ) H
lı́m »1 2 2 = lı́m » 1 2 h2 = lı́m h2 .
(h1 ,h2 )→(0,0) 2 2 (h ,h )→(0,0) 2 2 H→0 kHk
h1 + h2 1 2 h1 + h2
Ahora bien, para poder calcular este límite habrá que notar algo. Se sabe que la función kk es continua,
por lo que
lı́m H h2
= lı́m
H h2
= lı́m kHk |h2 | = 0.
H→0 kHk
H→0
kHk
H→0 kHk
Con lo cual, ε1 (A; H) converge a cero cuando H converge a cero. Luego, T = R = S dadas por
T(h1 , h2 ) = (h2 , h1 ) satisfacen las posibles definiciones respectivas de derivada.
Este ejemplo sugiere pensar que si se define que una función sea diferenciable de alguna de estas
maneras también lo será con las otras dos y con la misma derivada. Dado que en la motivación para
derivada se imponía la existencia de cierta función ε(v) : V → Lin (V , W ) parece obligado definir una
norma natural9 en Lin (V , W ) . Entonces, se supone que (V , kkV ) y (W , kkW ) son dos espacios vectoriales
normados. ¿Qué norma suge naturalmente con estas dos normas? Una primera idea sería:
147
Capítulo 5. La derivada en varias variables.
por lo tanto, L es continua en el origen. En virtud del ejercicio (5.26), L es continua en V (recuerda que
esto es independiente de la norma). Por lo tanto, kLkW : V → [0, ∞) es una función continua. Así, como
S (0; 1) = {v ∈ V | kvkV = 1} es compacto en V (ve la generalización del teorema de Borel-Lebesgue),
kLkW está acotada superiormente ahí (ve (3.4.11) y (5.5.7)). Sea c una cota superior. Entonces, para v ∈ V
v
cualquiera, se cumple que si v = 0 entonces kLvkW = 0 ≤ c kvkV y si v 6= 0 entonces ∈ S (0; 1) y
kvk V
v
L kvk
≤ c, despejando, se obtiene que kLvkW ≤ c kvkV . Esto completa la primera parte de la
así
V W
prueba.
Ahora se debe demostrar que kkLin(V ,W ) define una norma en Lin (V , W ) . Ciertamente, es claro que
kλLkLin(V ,W ) = |λ| kLkLin(V ,W ) y que kLkLin(V ,W ) ≥ 0. Ahora, si kLkLin(V ,W ) = 0 entonces kLvkW = 0 para
todo v ∈ V ; esto es, L = 0. Resta ver la desigualdad triangular, la cual es bastante más trabajosa. Para
empezar, supón que L1 , L2 ∈ Lin (V , W ) y que c1 , c2 > 0 son tales que kLi vkW ≤ ci kvkV para i = 1, 2.
En virtud de la desigualdad triangular para kkW se cumple que
k(L1 + L2 )vkW ≤ kL1 vkW + kL2 vkW ≤ c1 kvkV + c2 kvkV = (c1 + c2 ) kvkV .
Esto es válido para cualquier c1 > 0 tal que kL1 vkW ≤ c1 kvkV . Se toma el ínfimo sobre tales c1 , se
puede concluir que
Ä ä
k(L1 + L2 )vkW ≤ ı́nf (c1 + c2 ) kvkV = kL1 kLin(V ,W ) + c2 kvkV ,
c1
donde la última igualdad es consecuencia de que c2 es constante. Nota ahora que kL1 kLin(V ,W ) es una
constante, por lo que se puede considerar el ínfimo sobre c2 para concluir que
Ä ä
k(L1 + L2 )vkW ≤ kL1 kLin(V ,W ) + kL2 kLin(V ,W ) kvkV .
Luego, kL1 kLin(V ,W ) + kL2 kLin(V ,W ) es un elemento del conjunto {c > 0|∀v ∈ V , k(L1 + L2 )vkW ≤ c kV kV }.
Finalmente, de la definición de kL1 + L2 kLin(V ,W ) se puede concluir que
kL1 + L2 kLin(V ,V ) ≤ kL1 kLin(V ,W ) + kL2 kLin(V ,W ) ,
que es la desigualdad triangular. Esto concluye el teorema.
( 5.6.3 ) Sean (V , kkV ) y (W , kkW ) dos espacios vectoriales normados de dimensión finita. Se define la norma
generada por kkV y kkW en el espacio vectorial Lin (V , W ) como la norma definida en (5.6.2).
148
5.6. La derivada.
Observación: cuando sea claro por el contexto, se omitirán los subíndices en kkV , kkW y kkLin(V ,W ) y
siempre se denotarán por kk . Asimismo, el teorema anterior posee como consecuencia inmediata que
kLvkW ≤ kLkLin(V ,W ) kvkV . Esto se utilizará más adelante.
( 5.6.4 ) Sean (V , kkV ) y (W , kkW ) dos espacios vectoriales normados. Los siguientes enunciados son equivalentes
˚
para una función f : A ⊂ V → W , en donde A es un conjunto arbitrario. Sea v ∈ A. Û
2. Existe r > 0, una trasformación lineal T : V → W y una función ε(v) : B (0; r) → Lin (V , W ) , donde
Lin (V , W ) es el espacio vectorial de las funciones lineales de V a W , tal que para todo h ∈ B (0; r) se
tiene que
f(v + h) = f(v) + Th + ε(v; h)h,
y lı́m ε(v; h) = 0.
h→0
3. Existe un r > 0, una trasformación lineal T : V → W y una función ε̃(v) : V → W tal que para h ∈ B (0; r)
se cumple
f(v + h) = f(v) + Th + khkV ε̃(v; h),
donde lı́m ε̃(v; h) = 0.
h→0
Más aún, en cada caso se puede tomar T como la misma trasformación lineal.
Se demostrará que 1) Ñ 2) Ñ 3) Ñ 1) para el caso V = Rn y W = Rm . Los casos no demostrados
quedarán de ejercicio para el lector, ve (5.54) y (5.55).
Para demostrar que 1) Ñ 2), se hace la suposición de que el teorema es válido para m = 1 (ejercicio
(5.54)) y se verá que también se satisface para m > 1. Se supone que existe una trasformación lineal
T : Rn → Rm tal que
kf(v + h) − f(v) − Thk
lı́m = 0.
h→0 khk
Se quita el límite de la expresión anterior; existe r > 0 tal que B (v; r) ⊂ A. Se define g : B (0; r) → R
dada por
kf(v + h) − f(v) − Thk
g(h) = .
khk
Se observa que lı́m g(h) = 0. Si pri denota la función de proyección canónica al i-ésimo eje coordenado
h→0
149
Capítulo 5. La derivada en varias variables.
Ö è
ε1 (v; h)
Se define la función h 7Ï ε(v; h) = .. . Entonces, ε(v) : B (0; r) → Lin (Rn , Rm ) . Se cumple
.
εm (v; h)
que
f(v + h) = f(v) + Th + ε(v; h)h.
Como cada εi (v) satisface que lı́m εi (v; h) = 0 se tiene que lı́m ε(v; h) = 0. Esto demuestra que 1) Ñ 2)
h→0 h→0
(cuando m > 1 y el teorema es válido para m = 1).
A continuación se demostrará que 2) Ñ 3). Se supone que f satisface 2); esto es existe r > 0 y una
trasformación lineal T : Rn → Rm tal que para todo v + h ∈ B (v; r) se tiene que
donde, ε(v) : B (0; r) → Lin (Rn , Rm ) es una función tal que lı́m ε(v; h) = 0. Solo se debe construir la
h→0
función ε̃(v) de 3). Observa lo siguiente,
h
ε̃(v)(h)h = ε(v; h) khk .
khk
h
Por lo que se define ε̃(v; h) = ε(v; h) para h ∈ B (0; r) . Solo resta ver que lı́m ε̃(v; h) = 0. De acuerdo
khk h→0
con (5.6.2) se tiene que kε(v; h)hk ≤ kε(v; h)kLin(Rn ,Rm ) khk . Asimismo, se recuerda que kk es una función
continua de Rn a R, por lo que
lı́m ε̃(v; h)
= lı́m kε̃(v; h)k = lı́m
ε(v; h) h
≤ lı́m kε(v; h)k = 0.
h→0
h→0 h→0
khk
h→0
donde lı́m ε̃(v; h) = 0. Así que, despejando ε̃(v; h), se obtiene que
h→0
f(v + h) − f(v) − Th
= ε̃(v; h).
khk
Tomando normas y el límite cuando H → 0 se obtiene 1) (observa que se ha usado que la función
norma es continua). Por lo tanto, 3) Ñ 1).
˚
( 5.6.5 ) Sean f : A ⊂ V → W con A un conjunto arbitrario y v ∈ A. Û Si existen r > 0, T : V → W una
trasformación lineal y ε(v) : B (0; r) → Lin (V , W ) tales que para todo h ∈ B (0; r)
entonces se dirá que T es una derivada de f en v. Se dirá que f es diferenciable en A si A es abierto y para todo
v ∈ A, se tiene que F posee una derivada en v.
150
5.6. La derivada.
Observaciones:
1. Definiciones como esta son típicas en matemáticas, las cuales definen cierto objeto sobre la supo-
sición de existencia pura sin mención explícita de cómo conseguirlos. Sobre esta definición, uno
debe tener cuidado pues en principio podría suceder que ninguna función fuese deferenciable
(sin embargo, nota que (5.6.1) muestra que existe una función diferenciable).
2. El siguiente capítulo lidia con el problema de cómo encontrar la derivada. En lo que resta de
este se lidia con el problema de qué funciones son derivables y qué operaciones preservan la
diferenciabilidad.
3. Aunque esta definición no parece nada parecida a la dada para funciones de R en Rn sí es una
generalización. Pues se vió que la derivada de una curva f satisface que
lo cual indica que la transforación lineal h 7Ï f 0 (t)h es la derivada que se acaba de definir.
4. Aunque los límites son independientes de la norma podría haber cabida a duda de que si se
cambian las normas en V y W entonces la derivada cambiaría. Esto no ocurre; la definición (5.6.5)
es independiente de la norma que se utiliza. Pues si kk1 es cualquier otra norma en V , y kk2 es
cualquier otra norma en W , en virtud de (3.6.7) existen constantes a, b, c y d positivas tales que
Entonces
kf(v + h) − f(v) − Thk2 d kf(v + h) − f(v) − ThkW
≤ ,
khk1 a khkV
con tomar límite se ve que f tiene la misma derivada T en v respecto de las normas kk1 y kk2 .
En (5.6.1) se presenta cómo calcular la derivadade una función del tipo polinomial. A continuación
se presentan otros ejemplos donde se utiliza una idea general.
( 5.6.6 ) ¿Es la función (x, y) 7Ï sin x + cos y diferenciable en (π, 0)? Si sí, encuentra una derivada.
Al igual que en (5.6.1) se debe proceder a calcular el incremento sin(π + h) + cos(0 + k). Aunque
parece tentador intentar utilizar las fórmulas de seno y cosena de la suma de ángulos, es más rápido
razonar y utilizar lo ya aprendido. Observa que sin y cos son funciones diferenciables de R a R. Por
ende, se puede escribir sin(π + h) = sin π + h sin0 π + e1 (h)h = h cos π + e1 (h)h = −h + e1 (h)h y
cos k = cos 0 + k cos0 0 + e2 (k)k = 1 − k sin 0 + e2 (k)k = 1 + e2 (k)k, donde e1 (h) → 0 cuando h → 0 y
e2 (k) → 0 cuando k → 0. Entonces,
Si f(x, y) = sin x + cos y entonces la igualdad previa toma la forma f(π + h, k) = f(π, 0) + T(h, k) +
hε(h, k), (h, k)i , donde T(h, k) = −h es lineal y ε(h, k) = (e1 (h), e2 (k)) tiende a cero cuando (h, k) → 0.
En virtud de (5.6.5) se obtiene que T es una derivada de f en el punto (π, 0).
( 5.6.7 ) Considera la función F definida por F(x, y) = (cos x + y, xy 2 ) y el punto P = (0, 1). ¿Puedes encontrar
una función lineal T : R2 → R2 tal que satisfaga alguna de las generalizaciones previas de derivada? Si sí, ¿cuál?
151
Capítulo 5. La derivada en varias variables.
Para poder responder la primera pregunta se realizarán algunos cálculo. Para empezar se considera
un “incremento” H = (h, k) ∈ R2 . Entonces
F(P + H) − F(P) = (cos h + 1 + k, h(1 + k)2 ) − (2, 0) = (cos h − 1 + k, h + 2hk + hk2 ).
Para manipular el término cos h − 1 se observa que la función cos es diferenciable en el cero y que su
derivada en el cero es − sin 0 = 0, por lo que existe una función de error e tal que
cos h = cos 0 + 0 × h + e(h)h = 1 + e(h)h,
donde lı́m e(h) = 0. Entonces,
h→0
152
5.7. Teoría de derivación.
z 5.7.1 Unicidad.
Primero se demostrará que la derivada, así como ha sido definida, es única. Esto en el sentido que
si T y S son dos transformaciones lineales tales que para H ∈ B (0; r) ,
Sea Lu = {tu ∈ V : t ∈ R} la recta que pasa por el origen en dirección del vector unitario u ∈ V . Se
considera 0 < t < r entonces tu ∈ B (0; r) y tu 6= 0. Por lo que,
El lado izquierdo es independiente de t mientras que el derecho no lo es. Tomando el límite cuando t
tiende a cero, el lado derecho va a cero, por lo que el izquierdo siempre es cero. Por lo tanto Tu = Su
para todo vector unitario u ∈ V . Si h ∈ V no es unitario surgen dos casos, primero que h = 0 pero
h
entonces T0 = S0 (por ser lineales); en el caso en que h 6= 0, se tiene que u = es unitario, de este
khk
modo, Tu = Su, así que multiplicando por khk y usando que tanto T como S son lineales, se obtiene
que Th = Sh.
Observación: dada esta unicidad, uno escribe T = Df (v) para designar a la derivada de v en el punto
v.
153
Capítulo 5. La derivada en varias variables.
Observa lo siguiente,
kDf (u) h + εf (u; h)hk = k[Df (u) + εf (u; h)]hk ≤ kDf (v) + εf (u; h)k khk
≤ (kDf (u)k + kεf (u; h)k) khk
≤ (kDf (v)k + 1) khk ,
en donde la última desigualdad es válida por lo siguiente: como lı́m kεf (u; h)k = 0 se tiene que existe
h→0
δ > 0 tal que si h ∈ B (0; δ) entonces kεf (u; h)k ≤ 1. Define
ß ™
rg
r = mı́n , δ, rf ,
kDg (v)k + 1
entonces Df (v) h + εf (u; h)h ∈ B 0; rg siempre que khk < r. Por lo que, para h ∈ B (0; r) se tiene que
Λ(h) = Dg (v) εf (u; h) + εg (v; Df (u) h + εf (u; h)h)(Df (u) + εf (u; h)).
Basta ver que lı́m Λ(h) = 0 para demostrar que Dg (v) Df (u) es la derivada de g ◦ f en v. Observa
h→0
que lı́m εf (u; h) = 0 y que lı́m (Df (u) h + εf (u; h)h) = 0, por lo que lı́m εg (Df (u) h + εf (v; h)h) = 0. Esto
h→0 h→0 h→0
concluye la demostración de la regla de la cadena.
154
5.7. Teoría de derivación.
Como pri es lineal, se tiene que pri (DF (P)) es lineal para todo i, además pri (ε(h)) es una función lineal
de V a Wi tal que lı́m pri (ε(h)) = 0. De este modo, cada fi es diferenciable en v. Ahora bien, si cada fi
h→0
es diferenciable en v la igualdad anterior demuestra que F es diferenciable en v.
Observación: el teorema previo demuestra que al fijar bases en V y W entonces la matriz de Dfi (v)
corresponde a la i-ésima fila de la matriz de DF (v) , esto puede escribirse como
Df1 (v) Df1 (v) h
DF (v) h = .. ..
h = .
. .
Dfm (v) Dfm (v) h
z 5.7.5 Linealidad.
˚
( 5.7.5 ) Sean f, g : A ⊂ V → W diferenciables en v ∈ A.
Û Entonces, para cualquier λ ∈ R la función f + λg es
diferenciable en v y, además, D(f + λg) (v) = Df (v) + λDg (v) .
Se aplica la regla de la cadena, define Ψ(w1 , w2 ) = w1 + λw2 para w1 , w2 ∈ W . Entonces Ψ es lineal
y diferenciable pues
Ψ(w1 + h, w2 + k) = Ψ(w1 , w2 ) + Ψ(h, k);
según (5.6.5) DΨ (w1 , w2 ) = Ψ. Como f + λg = Ψ(f, g), de la regla de la cadena
D(f + λg) (v) = D Ψ ◦ (f, g) (v) = DΨ (f(v), g(v)) D(f, g) (v)
= Ψ(Df (v) , Dg (v)) = Df (v) + λDg (v) ,
155
Capítulo 5. La derivada en varias variables.
156
5.8. Algunas derivadas especiales.
z 5.8.2 Proyecciones.
Sea pri : W1 × . . . × Wm la i-ésima proyección canónica. Se cumple que
pri (u + h) = ui + hi = pri (u) + pri (h).
De este modo, la derivada de pri en u es la trasformación lineal pri ; esto es, Dpri (u) = pri . A con-
tinuación se encuentra una representación matricial para pri : Rn → R. Si se denota por (e1 , . . . , en )
a la base canónica de Rn entonces pri (ej ) = δi,j . Luego, la representación matricial de pri es pri =
[0, . . . , 0, 1, 0, . . . , 0].
157
Capítulo 5. La derivada en varias variables.
z 5.8.3 Inclusiones.
Se dirá que Πi : R → Rn es inclusión si Πi tiene por regla de correspondencia
Πi = [0, . . . , 0, 1, 0, . . . , 0]t ,
T(P + H) = TP + TH.
Luego, DT (P) = T. En cada caso habría que encontrar una representación matricial explícita de T.
Este resultado es muy importante, por lo que se asociará un número a ello.
˚
( 5.8.1 ) Sea T : A ⊂ V → W una transformación lineal y sea v ∈ A.
Û Entonces T es diferenciable en v y
DT (v) = T.
z 5.8.5 Exponentes.
Considera una función f : A ⊂ V → [0, ∞) entonces tiene sentido construir la función g : A → R
dada por g(v) = (f(v))a = exp(a ln f(v)). Se puede aplicar entonces la regla de la cadena para obtener
la derivada de g. En este caso, se tiene que
Dg (v) = D(exp ◦(a ln ◦f) (v) = D(exp) (a ln f(v)) D(a ln ◦f) (v)
Df (v)
= exp(a ln f(v))aD ln (f(v)) Df (v) = a(f(v))a
f(v)
= a(f(v))a−1 Df (v) .
158
5.8. Algunas derivadas especiales.
donde ai1 ...in son constantes. Para poder encontrar la derivada de f aprovechando los teoremas ya
demostrados, se debe escribir a f como función de funciones ya conocidas. Escrita como función, se
tiene que
Xk
f= ai1 ...in pri11 · · · prinn .
i1 +···+in =0
( 5.8.2 ) Considera la función polinomial f(x, y) = x 2 + 2xy. Calcula la derivada de f en (a, b).
De acuerdo con lo anterior, basta expresar a f como combinación de las funciones de proyección.
Observa que f = pr21 + 2pr1 pr2 . Entonces,
Df (a, b) = D[pr21 + 2pr1 pr2 ] (a, b) = Dpr21 (a, b) + 2Dpr1 pr2 (a, b)
= 2pr1 (a, b)Dpr1 (a, b)
+2[pr1 (a, b)Dpr2 (a, b) + pr2 (a, b)Dpr1 (a, b)]
= 2apr1 + 2apr2 + 2bpr1 = [2a + 2b, 2a].
( 5.8.3 ) Sea F(x, y) = (sin y, cos x). Encuentra DF (a, b) , para (a, b) ∈ R2 arbitrario.
Se consideran las inclusiones Π1 : R → R2 y Π2 : R → R2 . Observa que F = Π1 ◦sin ◦pr2 +Π2 ◦cos ◦pr1
entonces F es diferenciable en todo R2 . Por la linealidad de la derivada, se tiene que DF (a, b) =
D(Π1 ◦ sin ◦pr2 ) (a, b) + D(Π2 ◦ cos ◦pr1 ) (a, b) . Nota que
D(Π1 ◦ sin ◦pr2 ) (a, b) = DΠ1 (sin(b)) D sin (b) Dpr2 (a, b)
ï ò
0 cos(b)
= Π1 cos(b)pr2 = cos(b)[1, 0]t [0, 1] =
0 0
ï ò
0 0
análogamente, D(Π2 ◦ cos ◦pr1 ) (a, b) = Π2 (− sin a)pr1 = . Esto implica que DF (a, b) =
− sin a 0
ï ò
0 cos(b)
.
− sin(a) 0
Zy
2
( 5.8.4 ) Sea f : R → R una función continua. Encuentra la derivada en (a, b) ∈ R de F(x, y) = f(t)dt.
x
159
Capítulo 5. La derivada en varias variables.
Observa que
Zy Zx
F(x, y) = f(t)dt − f(t)dt
0 0
prZ
2 (x,y) prZ
1 (x,y)
= f− f
0 0
= g(pr2 (x, y)) − g(pr1 (x, y))
Zx
en donde g(x) = f. Se sabe del cálculo de una variable que g 0 (x) = f(x), para cualquier x ∈ R. Por lo
0
que F es diferenciable en todo R2 y, además,
Determine el dominio de F y el subconjunto abierto más grande de este donde F sea diferenciable.
Zxy Zxy
Dado que f es continua, se tiene que f existe para todo (x, y) ∈ R2 , por lo que exp f está definida
0 0
en todo R2 y es diferenciable en todo R . Luego, F es diferenciable donde ln | cos k(x, y)k | lo es. Ahora
2
bien, ln es una función que es diferenciable en donde está definida y esta solo toma argumentos positivos,
por lo que ln | cos k(x, y)k | es diferenciable y está definida solamente para aquellos puntos (x, y) ∈ R2
160
5.9. La derivada, interpretación geométrica.
π
tales que cos k(x, y)k 6= 0. Pero cos θ 6= 0 si y solo si θ 6=
+ kπ, k ∈ Z. Entonces, ln | cos k(x, y)k | está
2
2 π
definida en todo R menos aquellos puntos donde k(x, y)k = + kπ, k ∈ Z. Esto muestra que,
2
[n π o
Dom (F) = R2 \ k(x, y)k = + kπ .
2
k∈Z
Se afirma que Dom (F) es un conjunto abierto de R2 . Sea (x, y) en el dominio de F, existe k ∈ Z tal
π π
que + kπ < k(x, y)k < + (k + 1)π. Se considera r como la mitad de la mínima distancia entre (x, y) y
2 2
π π
los círculos centrados en 0 de radio +kπ y +(k+1)π. Entonces, es claro que B ((x, y); r) ⊂ Dom (F) .
2 2
Con esto F está definida en un abierto de R2 . Así que Dom (F) es el conjunto abierto más grande donde
F es diferenciable. Observa que es de otra índole encontrar la matriz de DF (P) .
donde lı́m ε(H) = 0. Intuitivamente, la gráfica de f determina una superficie en Rn+m . Sin embargo, no
H→0
es conveniente trabajar directamente con f, así que se extenderá f de algún modo para que sea más
fácil trabajar con ella.
Sea F : Rn+m → Rm dada por F(X, Y ) = f(X) − Y . Toma 0 ∈ Rm y sea S = F −1 ({0}), la preimagen
por F del 0. Observa que S es la gráfica de f (o, en términos de este texto, S = f). Se afirma que F es
diferenciable en (P, f(P)). En efecto, sea (H1 , H2 ) ∈ B (0; r) ⊂ Rn+m . Entonces
161
Capítulo 5. La derivada en varias variables.
162
5.9. La derivada, interpretación geométrica.
posee m ecuaciones y tiene n + m incógnitas. Este sistema siempre tiene por solución la trivial. Es
importante notar, la dimensión del espacio solución a este sistema es a lo más n. Esto dice que la
superficie S (que es la gráfica de f o bien, f misma) tiene a lo más n grados de libertad para moverse
en Rn+m .
( 5.9.2 ) Sea f : R2 → R dada por f(x, y) = x 2 + xy. Encuentra el plano tangente a f en el punto p = (1, 0).
De acuerdo a la construcción anterior, sea F : R3 → R dada por F(x, y, z) = x 2 + xy − z. Entonces,
se calcula la derivada de F en P = (p, f(p)) = (1, 0, 1). Se tiene que
Esta ecuación es 2x + y − z = 1, que es una ecuación que representa al plano buscado. Por lo tanto, el
plano es {(x, y, z) ∈ R3 : 2x + y − z = 1}.
2 2
π) Sea
( 5.9.3 F : R → R dada por F(x, y) = (sin x, 2xy). Encuentra la ecuación del plano tangente a F en
p= ,1 .
2
Se procede como en el ejemplo anterior, sea F : R4 → R2 dada por F(x, y, u, v) = (sin x −u, 2xy −v).
Entonces, F es diferenciable en R4 . Sea P = (x, y, u, v). Entonces
163
Capítulo 5. La derivada en varias variables.
Observa que no se tiene una función F que represente a S2 , sin embargo, si se define F : R3 → R
dada por F(X) = kXk − 1 entonces S2 = F −1 ({0}). Entonces, aplica la misma construcción que antes.
Por lo que el plano tangente es solución al sistema de ecuaciones DF (1, 0, 0) · X = DF (1, 0, 0) · (1, 0, 0).
En este caso, se tiene que
» D(pr2 + pr22 + pr23 ) (1, 0, 0)
DF (1, 0, 0) = D pr21 + pr22 + pr23 (1, 0, 0) = » 1
2 pr21 + pr22 + pr23 (1, 0, 0)
1
= (2pr1 (1, 0, 0)Dpr1 (1, 0, 0) + 2pr2 (1, 0, 0)Dpr2 (1, 0, 0) + 2pr3 (1, 0, 0)Dpr3 (1, 0, 0))
2
= pr1 = [1, 0, 0].
Entonces, el plano tangente a la esfera S2 es TP S2 = {(x, y, z) ∈ R3 : x = 1}. Observa que este resultado
es geométricamente claro.
( 5.10.1 ) Sean V y W dos espacios vectoriales para los cuales existe una función f : A ⊂ V → W invertible,
diferenciable y cuya inversa es diferenciable. Entonces dim V = dim W .
( 5.10.2 ) Sea f : A → B con A y B sendos subconjuntos abiertos de V y W . Supón las siguientes hipótesis,
1. f es invertible,
2. la inversa de f es continua,
3. f es diferenciable en un punto v ∈ A.
Sea g la inversa de f. Una condición necesaria y suficiente para que g sea diferenciable en w = f(v) es que Df (v)
−1
sea invertible; si así sucede, Dg (w) = Df (v) .
164
5.10. Funciones inversas.
Observa que tanto φ como ψ son inversas una de la otra y están definidas en conjuntos que tiene al
origen como elemento. Además, φ es una función continua, pues f lo es. Falta ver que los dominions
de φ y ψ son abiertos.
Que Dom (φ) = B (0; r) sea un abierto es claro, por lo que se probará que Dom (φ) = φ(B (0; r)) es
un abierto. De hecho, como g es invertible, se ve que para cualquier subconjunto abierto T de V existe
un abierto S de W tal que g −1 (T) = A ∩ S, esto es consecuencia de (5.5.4), y como B es abierto, T ∩ B
también y g −1 (T) = g −1 (T ∩ B). Por lo tanto, la preimagen por g de cualquier abierto de V es un abierto
de W . Como g es la inversa de f, resulta de que la preimagen por g de un conjunto es la imagen por
f del mismo conjunto, con lo cual, f es una función abierta. Al ser que φ toma la forma φ = L2 ◦ F ◦ L1 ,
con L2 y L1 traslaciones, se obtiene que φ también es una función abierta y de aquí lo afirmado.
( 5.10.2.3 ) Hay un η > 0 tal que
kψ(k)k
−1
kkk < η Ñ
Df (v) k
≥ .
2
−1
−1
−1
−1
En virtud de (5.6.2),
DF (P) k
≤
DF (P)
kHk y c =
DF (P)
> 0 pues DF (P)
1
no es la transformación lineal cero. Sea 0 < ε < . Existe un δ ∈ (0, r) tal que si h ∈ B (0; δ) entonces
2c
kf(v + h) − f(v) − Df (v) hk < ε khk ,
165
Capítulo 5. La derivada en varias variables.
donde o(h) = f(v + h) − f(v) − Df (v) h. Como kkk < η se sigue que kψ(k)k < δ y, por ende, ko(ψ(k))k <
ε kψ(k)k . Por lo tanto,
−1 −1 −1
Df (v) k = Df (v) Df (v) ψ(k) + Df (v) o(ψ(k))
−1
= ψ(k) + Df (v) o(ψ(k))
y, finalmente,
−1
Df (v) o(ψ(k))
≤ c ko(ψ(k))k ≤ cε kψ(k)k ≤ 2c2 ε kkk .
166
5.11. El teorema del valor medio.
la cual está definida en [0, 1] y es derivable (de acuerdo con la regla de la cadena). Luego, existe un
t ∈ [0, 1] tal que α(1) − α(0) = α0 (t), que es precisamente la conclusión del teorema.
Se generalizará ahora el teorema del valor medio moderno para funciones de variable vector.
Si sup kDf ((1 − t)w1 + tw2 )k = ∞, el resultado es trivial, por lo que se supondrá que este supremo
0≤t≤1
es finito. Se define la curva auxiliar
( 5.11.3 ) Se dirá que una función f : A ⊂ V → W es lipchitziana con constante de lipchitzianidad k > 0
(«k-lipschitziana») si para todos v1 , v2 ∈ A se cumple que
( 5.11.5 ) Sea f : [a, b] → V una curva continua la cual admite una derivada por la derecha en cada punto
x ∈ (a, b). Si kfd0 (x)k < k para alguna k constante f es k-lipschitziana.
( 5.11.6 ) Sea f : A ⊂ V → W diferenciable, donde A es un conjunto convexo. Si kDf (v)k ≤ k para alguna
k > 0 y todo v ∈ A entonces f es k-lipschitziana.
167
Capítulo 5. La derivada en varias variables.
§ 5.12. Ejercicios.
( 5.1 ) Una función f : A ⊂ V → W se denomina cerrada si para todo subconjunto cerrado C ⊂ A el conjunto
2
f(A ∩ C) es cerrado en W . Demuestra
ß que pr1 : R ™→ R no es cerrada.
1
Sugerencia: considera el conjunto y = , x > 0 .
x
( 5.2 ) Considera las funciones φ : R → R2 dada por
xy
donde f(x, y) = p y c ∈ R es fijo.
x2 + y2
( 5.13 ) Dibuja la gráfica de la función f(x, y) = x + y 2 .
√
( 5.14 ) Dibuja la gráfica de la función f(x, y) = x + y.
x2 + y
( 5.15 ) Dibuja la gráfica de la función .
|x| + |y| + 1
2
−y 2
( 5.16 ) Dibuja la gráfica de e−x .
( 5.17 ) Encuentra el valor de los siguientes límites, use la definición para demostrarlos.
168
5.12. Ejercicios.
cos x
1. lı́m ;
(x,y)→(π,1) y
1
4. lı́m ;
(x,y,z)→(1,1,−1) x + yz
sin x sin y
5. lı́m .
(x,y,z)→(0,0,0) sin z
( 5.19 ) Dé un ejemplo de una función f : A ⊂ V → W tal que existe v ∈ V para el cual existen dos sucesiones
(un )n∈N , (wn )n∈N definidas en A y un , wn → A pero kf(un ) − f(vn )k 6→ 0.
( 5.20 ) Si f : A ⊂ V → W satisface, para cierto v ∈ A, que
entonces
lı́m kf(v + h) − f(v − h)k = 0.
h→0
( 5.21 ) Determine si es cierto o falso el recíproco del ejercicio anterior. Esto es, determine si
169
Capítulo 5. La derivada en varias variables.
x+y
( 5.27 ) Sea f(x, y) = . Intenta aplicar (5.4.16). ¿Por qué esto no contradice el teorema?
x−y
( 5.36 ) Una condición necesaria y suficiente para que F : A ⊂ V → W sea continua es que para cada λ ∈ R la
función λF sea continua.
( 5.37 ) Sea f : R → R continua en todo R y es tal que f(Q) = {c} para algún c ∈ R entonces f = c; más
generalmente, si T ⊂ V es denso y f : V → W es continua en V , constante e igual a c sobre T entonces es
constante e igual a c sobre V .
( 5.39 ) El conjunto de los ceros de una función continua es un conjunto cerrado. Esto es, C = {v ∈ V : f(v) = 0}
es cerrado siempre que f : V → W sea continua.
170
5.12. Ejercicios.
( 5.40 ) Una condición necesaria y suficiente para que f : A ⊂ V → W sea continua es que para todo subconjunto
˚
˚
B de W se tenga que f −1 B Û ⊂ f˙ −1
(B).
( 5.41 ) Una condición necesaria y suficiente para que f : A ⊂ V → W sea continua es que para todo subconjunto
B de A se tenga que f B ⊂ f ( B).
( 5.42 ) Determine si puede existir o no una función continua f : A → B tal que f(A) = B donde:
1. A = (−1, 0) ∪ (0, 1), B = (−1, 1);
2. A = (−1, 1), B = (−1, 0) ∪ (0, 1);
3. A = (−1, 0) ∪ (0, 1), B = {0, 1}.
( 5.43 ) Sea f : A ⊂ V → W k-lipschitziana, ve (5.11.3). Entonces, f es uniformemente continua.
( 5.44 ) Sean V y W dos espacios vectoriales de dimensión finita. Toda función L : V → W lineal es uniformemente
continua.
( 5.45 ) Sean f y g dos funciones continuas de A ⊂ V a W . Supón que T ⊂ A es denso en A. Entonces f(T) es
denso en f(A). Más aún, si f(v) = g(v) para cualquier v ∈ T entonces f = g en A.
( 5.46 ) Supón que f : A ⊂ V → W es uniformemente continua. Entonces, para cada (un )n∈N sucesión de
Cauchy definida en A, se tiene que (f(un ))n∈N es una sucesión de Cauchy. Cabe destacar que este es uno de los
resultados más importantes en todo el análisis matemático.
( 5.47 ) Sea I = [0, 1] ⊂ R, y f : I → I una función continua. Entonces f posee un punto fijo; esto es, demuestre
que existe al menos un x ∈ I tal que f(x) = x.
( 5.48 ) Sea f : A ⊂ V → W y se considera B ⊂ A. Se define la oscilación f en B como
El número Ω (f; B) está bien definido; esto es, siempre existe (puede valer +∞) y es único.
( 5.49 ) Sea f : A ⊂ V → W y considera B ⊂ A y v un punto de acumulación de A. Se define la oscilación f en
v a través del conjunto B como
Entonces, ωB (f; v) = lı́m+ Ω (f; B (v; r) ∩ B) . Asimismo, una condición necesaria y suficiente para que lı́m f(u)
r→0 u→v
exista es que ωA (f; v) = 0.
( 5.50 ) Sea f : A ⊂ V → W tal que f es continua en v ∈ A y es tal que f(V ) 6= 0. Existe r > 0 tal que
0 ∈/ F(B (v; r) ∩ A). Si W = R, tal r puede ser escogido de forma que todos los puntos en B (v; r) ∩ A se mapeen
por f con el mismo signo que se mapea v por f.
( 5.51 ) Si f y g son uniformemente continuas f + g es uniformemente continuas.
( 5.52 ) El producto de funciones uniformemente continuas no es en general uniformemente continua.
( 5.53 ) Si f es uniformemente continua existe una única extensión continua de f a Dom (f). En tal caso, la
extensión es uniformemente continua; el «teorema de extensión de Cauchy».
Sugerencia: al ser
˚ ˚
Dom
¸ (f) ⊂ Dom (f) ⊂ Dom (f) = Dom
¸ (f) ∪ ∂Dom (f)
171
Capítulo 5. La derivada en varias variables.
basta extender f a aquellos v ∈ ∂Dom (f) ∩ {Dom (f) ; es decir, a aquellos v en la frontera del dominio de f que
no están en el dominio de f.
Para v ∈ ∂Dom (f) \ Dom (f) existe una sucesión (vn ) definida en Dom (f) tal que vn → v; en virtud de
(5.46) la sucesión (f(vn ))n∈N es de Cauchy. Luego, existe su límite w. La intención es definir la extensión de f a
v como f(v) = w; para esto se debe ver que w queda determinado únicamente por v y f; esto es, no importa
cuál sucesión (vn ), en el dominio de f, se use para aproximar v, siempre se cumplirá que f(vn ) → w. Sea pues
(un )n∈N cualquier sucesión en Dom (f) tal que un 7Ï x; ya se sabe que (f(un ))n∈N es de Cauchy. Sea w 0 el límite
de esta sucesión, usando la continuidad de la norma observa que
Usa la continuidad uniforme de f para que, dado ε > 0 arbitrario, encontrar un δ > 0 tal que
˚
( 5.54 ) Sea f : A ⊂ Rn → R, donde A es un conjunto arbitrario. Supón que v ∈ U
Ù y que existe T : Rn → R
trasformación lineal tal que
|f(v + h) − f(v) − Th|
lı́m = 0.
h→0 khk
Entonces, existe r > 0 y ε(v) : B (0; r) → Lin (Rn , R) tales que si h ∈ B (0; r) entonces
172
5.12. Ejercicios.
Sea Y = [v]P . Entonces, demuestra que, usando (3.6.7) y la observación 5. de (3.6.6), que existe una
constante c > 0 tal que
φ(Y + k) − φ(Y ) − T̃(k)
kf(v + h) − f(v) − ThkW
≥c
khkV kkk
Considera la matriz asociada a e(Y ; k) respecto de las bases canónicas de Rdim V y Rdim W . Existe una única
Q
transformación lineal ε(v; h) ∈ Lin (V , W ) tal [ε(v; h)]P es la matriz de e(Y ; k). Se cumple entonces que
Q Q
[ε(v; h)h]Q = [ε(v; h)]P [h]P y como k = [h]P y [ε(v; h)]P = e(Y ; k) se obtiene que [ε(v; h)h]Q = e(Y ; k)k.
Deduce que
f(v + h) = f(v) + Th + ε(v; h)h.
( 5.56 ) Utiliza la definición (5.6.5) o bien (5.6.4) para encontrar una trasformación lineal que satisfaga la definición
de derivada para los siguientes casos. Toma un punto P arbitrario, por ejemplo P = (a, b) ∈ R2 .
1. f(x, y) = x + xy;
2. f(x, y) = 2xy + y 2 ;
4. f(x, y) = 3x + 2y;
( 5.57 ) Sea A ⊂ V un conjunto abierto y convexo. Supón que f : A → W es tal que Df (v) = 0 para todo
v ∈ A. Entonces f es constante.
Sugerencia: utiliza el teorema del valor medio.
173
Capítulo 5. La derivada en varias variables.
( 5.58 ) Sea A ⊂ V un conjunto abierto y conexo. Supón que f : A → W y es tal que Df (v) = 0 para todo
v ∈ U. Entonces f es constante.
Sugerencia: basta demostrar que para cierto v fijo en A se tiene que f(v) = f(u) para todo u ∈ A. Para
esto utiliza que un conjunto abierto y conexo es conexo por trayectorias (ve el ejercicio (4.78)). Por lo que si
u ∈ A, existe una trayectoria continua α : [0, 1] → A tal que α(0) = v y α(1) = u. Como α es continua y
[0, 1] es compacto, su traza es compacto. Como A es abierto y u ∈ U existe r > 0 tal que B (u; r) ⊂ U. Como
Df (w) = 0 para todo w ∈ B (u; r) se tiene que f es constante en B (u; r) ; esto puede repetirse para cada u ∈ U
con su ru > 0 correspondiente. Considera ahora rt > 0 tal que B (α(t); rt ) ⊂ U y define la cubierta abierta de
la traza de α dada por O = (B (α(t); rt ))t∈[0,1] . Utiliza que la traza de α es compacto para encontrar t1 , . . . , tN
tales que (B (α(ti ); rti ))i=1,...,N cubre α([0, 1]).
( 5.59 ) Proporcione un ejemplo de una función f : A ⊂ V → R, con U abierto y dim V ≥ 2, tal que Df (v) = 0
para todo v ∈ U y f no sea constante en U.
( 5.60 ) Sea f : V → W tal que kf(u) − f(v)k ≤ ku − vk2 para todo u y todo v en V . Entonces f es constante.
Sugerencia: demuestra que Df (v) = 0 para todo v ∈ V .
( 5.61 ) Sea fi : (ai , bi ) → W diferenciable para i = 1, . . . , N. Sea
N
X
f(x1 , . . . , xN ) = fi (xi ).
i=1
174
5.12. Ejercicios.
( 5.71 ) Considera V y W dos espacios normados con sendas normas kkV y kkW . Demuestra que la norma en
Lin (V , W ) dada por (5.6.2) puede definirse por
kLkLin(V ,W ) = sup kLvkW = sup kLvkW .
kvkV ≤1 kvkV =1
( 5.72 ) Con las notaciones de (5.7.6.2), demuestra que B 7Ï φ es un isomorfimos entre los espacios vectoriales
Bil(W1 , W2 ; U) y Lin (W1 , Lin (W2 , U)) . Considera la norma en Bil(W1 , W2 ; U) generada por este isomorfismo
y (5.6.2). Sea kk tal norma. Demuestra que
kBk = ı́nf{c > 0|∀(w1 , w2 ) ∈ W1 × W2 , kB(w1 , w2 )kU ≤ c kw1 kW1 kw2 kW2 }.
Salvo que se diga lo contrario, esta será siempre la norma en el espacio de transformaciones bilineales.
( 5.73 ) Con las notaciones de (5.72), demuestra que
kBk = sup kB(w1 , w2 )kU = sup kB(w1 , w2 )kU .
kw1 kW ≤1,kw2 kW ≤1 kw1 k=1,kw2 k=1
1 2
( 5.74 ) Considera tres espacios vectoriales normados de dimensión finita U, V y W , en todos se denotará por kk
a su norma respectiva. Considera la función Φ : Lin (V , W ) × Lin (U, V ) → Lin (U, W ) dada por Φ(T, S) = TS.
Demuestra que kΦk ≤ 1.
Sugerencia: demuestra primero que kSTk ≤ kSk kTk , esto es consecuencia directa de algún teorema del texto,
¿cuál?
( 5.75 ) Más generalemente que en (5.72), considera n + 1 espacios vectoriales normados V1 , . . . , Vn y W . En
todos lados se denotará por kk a la norma correspondiente. Define V = V1 × . . . × Vn y E = Mul(V; W ) como el
conjunto de las transformaciones multilineales de V a W . Entonces
n
X
1. la función k(v1 , . . . , vn )k = kvki define una norma en V; este inciso no influirá en los demás.
i=1
2. Para cada M ∈ E existe un número c > 0 tal que para cualquier vector (v1 , . . . , vn ) ∈ V se cumple que
kM(v1 , . . . , vn )k ≤ c kv1 k . . . kvn k .
3. La función
kMk = ı́nf{c > 0|∀(v1 , . . . , vn ) ∈ V, kM(v1 , . . . , vn )k ≤ c kv1 k . . . kvn k}
define una norma en E. Esta será la norma con la que siempre se trabajará en el espacio de transformaciones
multilineales.
175
Capítulo 5. La derivada en varias variables.
176
Capítulo 6
En este capítulo se desarrollará parte de la teoría clásica de derivación. Las demostraciones aquí
expuestas se deducirán de consideraciones sencillas. Se demostrará una condición suficiente de di-
ferenciabilidad y se ilustrará con algunos ejemplos los porqués de la inconveniencia de utilizar a las
derivadas parciales como definición de derivada. También se desarrollarán métodos de derivación par-
cial utilizando ampliamente la regla de la cadena, (5.7.3).
177
Capítulo 6. Las derivadas de una función.
Como α(0) 6= 0, se debe reparametrizar α con algún cambio de parámetro u tal que (α ◦ u)(0) = P.
1 3π 3π 3π
Observa que √ = sin = − cos . Se toma u(t) = t − entonces (α ◦ u)(0) = P. Sea β = α ◦ u
2 4
Çp 4 å 4
(sin u(t))2 + (cos u(t))2 1
entonces (f ◦ β)(t) = exp = e 2 . Por lo tanto, (f ◦ β)0 (0) = 0. Note que α está
2
embebida en S2 por lo que f ◦ α es constante.
1
( 6.1.4 ) Sean f(x, y) = x 2 +2xy y α(t) = (sin 2πt, cos 2πt). Encuentra la razón de cambio de f en P = (0, −2)
t
en la dirección de α.
Å ã
1 1
Observa que α = P. Es fácil ver que si se reparametriza α por u(t) = t − entonces la repa-
2 2
rametrización satisface la definición Å de
ã derivada en direcciones. Sin embargo, de acuerdo al ejercicio
1
(6.4) se tiene que Dα f (P) = (f ◦ α)0 . Observa que
2
1 1
(sin 2πt)2 + 2 sin 2πt cos 2πt = 2 (sin 2πt)2 + sin 4πt .
(f ◦ α)(t) = 2
t t
De esta forma,
1 2
(f ◦ α)0 (t) = (4π sin 2πt cos 2πt + 4π cos 4πt) − 3 (sin 2πt)2 + sin 4πt .
t 2 t
Å ã Å ã
1 1
Por lo que, (f ◦ α)0 = 16π. Finalmente, Dα f = 16π.
2 2
178
6.2. Derivadas parciales en Rn .
Por lo que el modo más fácil de calcular la derivada parcial k-ésima de F en P es tomar la derivada
ordinaria de R pensando que F sólo es función de su k-ésimo argumento. Esto es, pensar que todos los
argumentos, salvo el k-ésimo, son constantes. Por ejemplo, se considera la función f : R2 → R definida
según f(x, y) = x 2 + 2xy entonces D1 f (a, b) se calcula al derivar f como función de x y considerando
todo lo demás constante y después evaluar esta derivada en (a, b). De este modo, D1 f (a, b) = 2a + 2b.
Análogamente, si f(x, y, z) = sin(xy) + z2 entonces D1 f (a, b, c) = b cos(ab) y D3 f (a, b, c) = 2c.
Resulta evidente que las propiedades que satisfacen las derivadas en direcciones las satisfacen por
igual las derivadas parciales. Adicionalmente, se tiene la siguiente propiedad.
˚
( 6.2.4 ) Sea F = (f1 , . . . , fm ) : A ⊂ Rn → Rm diferenciable en P ∈ A
Û y se supone que M es la matriz de
DF (P) respecto a las bases canónicas de Rn y Rm . Entonces, si ai,j es la entrada (i, j) de M se cumple que
ai,j = Dj fi (P) .
179
Capítulo 6. Las derivadas de una función.
La matriz que representa a DF (P) es un elemento de Matm×n (R) . Esta matriz puede existir aún
cuando F no sea diferenciable en P. Esto es, el recíproco de (6.2.5) es falso. Por ejemplo, considera la
función ß
1 si xy 6= 0
f(x, y) =
0 si xy = 0.
Entonces, como f restringida a los ejes coordenados es la función cero, sus derivadas parciales existen
en el origen y valen cero. Obviamente f no es continua en el origen, por lo que tampoco es diferenciable
ahí (5.7.2).
Conviene entonces definir la matriz M cuya entrada (i, j) es Dj fi (P) (observa el intercambio de
índices). Cabe destacar que esta definición solo aplica para el caso de funciones de A ⊂ Rn a Rm .
z 6.2.1 Ejemplos.
( 6.2.8 ) Calcula todas las derivadas parciales de F : R2 → R2 en P = (π, 0), donde
Å ã
1−x
F(x, y) = sin x cos(x + y), 2 .
y +1
180
6.2. Derivadas parciales en Rn .
Para calcular D1 F (P) se debe pensar a esta como una curva que es función únicamente de su primer
argumento. Se tiene que
Å ã
1
D1 F (x, y) = cos x cos(x + y) − sin x sin(x + y), − 2 .
y +1
Por lo tanto, D1 F (P) = (1, −1). Ahora bien, si se piensa a F como una curva solo definida para su
segundo argumento se ve que
Å ã
2y(x − 1)
D2 F (x, y) = − sin x sin(x + y), 2 .
(y + 1)2
D2 F (x, y, z) = (zex+yz , 0)
y que
D3 F (x, y, z) = (yex+yz , − cos(x − z))
Luego, D2 F (P) = (−e, 0) y D3 F (P) = (0, − cos(2)). Por lo tanto,
ï ò
e −e 0
JF (P) =
cos(2) 0 − cos(2)
181
Capítulo 6. Las derivadas de una función.
Segundo: si T existe de acuerdo a (5.6.5) entonces JF (P) existe, por lo que es redundante pedir la
existencia de JF (P) .
Tercero: ha sido visto que la derivada, tal como fue definida en este texto, permite demostrar que es
única, por lo que también resulta no razonable solicitar a la definición la unicidad.
Cuarto: todas las propiedades demostradas de la derivada no se pueden alcanzar a apreciar con esta
definición. Esto resulta del hecho que las derivadas parciales y la derivada ordinaria de R son el
mismo concepto, luego no se entiende que existe un profundo cambio conceptual.
Quinto: el pedir que U sea abierto no es necesario, siempre basta trabajar con punto interiores en el
dominio.
Sexto: por último, todas estas propiedades fueron demostradas a partir de (5.6.5). Luego, estas son
razones suficientes como para no definir la derivada de una función F en un punto P, como viene
dada en el arriba. De cualquier forma, se pide al lector que demuestre que la definición del arriba
y la dada en (5.6.5) son equivalentes.
Sea (e1 , . . . , ep ) la base canónica de Rp . Se recuerda que se recuerda que la matriz [TS]R
P es la única
tal que para todo u ∈ U
[TS]RP [u]P = [TSu]R .
Entonces,
Q
[T]R R
Q [S]P [u]P = [T]Q [Su]Q = [TSu]R ,
Q
por unicidad, [TS]R R
P = [T]Q [S]P .
De esto, se puede derivar la regla de la cadena para derivadas parciales. Asimismo, se puede derivar
la matriz asociada a la derivada de una composición. La demostración del siguiente hecho es inmediata
del teorema anterior.
( 6.2.12 ) Sean f : A ⊂ Rn → Rm y g : B ⊂ Rm → Rp tales que f es diferenciable en P y que g es diferenciable
en Q = f(P). Entonces, la matriz de la transformación lineal D[g ◦ f] (P) con respecto a las bases canónicas de
Rn y de Rp es J[g ◦ f] (P) = Jg (f(P)) Jf (P) .
182
6.3. Las derivadas parciales en general.
( 6.3.1 ) Sean (V1 , kk1 ) y (V2 , kk2 ) dos espacios vectoriales normados reales. Entonces, la función k(v1 , v2 )k =
máx{kv1 k1 , kv2 k2 } es una norma en V = V1 × V2 . Con esta norma se satisface que B ((v1 , v2 ); r) = B1 (v1 ; r) ×
B2 (v2 ; r) , en donde el subíndice denota a qué espacio pertenece la bola. Mientras no se especifique lo contrario,
siempre se supondrá que la norma en el espacio producto es la expuesta aquí.
En efecto, se verificará que kk satisface la definición de norma (1.4.2). Entonces, sea (v1 , v2 ) ∈ V
cualquier elemento. Se cumple que
1. k(v1 , v2 )k ≥ kv1 k1 ≥ 0;
3. Si λ ∈ R,
183
Capítulo 6. Las derivadas de una función.
Observación: esta definición coindice con (6.2.2) cuan V1 = V2 = R y W = Rm . Pues en este caso,
A1 (v) contiene a un intervalo de la forma (v1 − r, v1 + r) y entonces la derivada de la función f1 en el
punto v1 es
f(v1 + h, v2 ) − f(v1 , v2 )
lı́m = D1 f (v1 , v2 ) .
h→0 h
( 6.3.4 ) Sea f : A ⊂ V1 × V2 → W una función diferenciable en v = (v1 , v2 ). Entoces, D1 f (v) y D2 f (v) existen
y satisfacen que
Df (v) (h1 , h2 ) = D1 f (v) h1 + D2 f (v) h2 .
Existe un r > 0 tal
que B (v; r) ⊂ A. En virtud de (6.3.1), B (v; r) = B1 (v1 ; r) × B2 (v2 ; r) . Además, la
derivada de f y de f en v coinciden, por lo que se puede suponer que A = B (v; r) . De este modo,
B(v;r)
f1 = f ◦ Π1 + (0, v2 ) y f2 = f ◦ (v1 , 0) + Π2 ,
en donde Π1 y Π2 son sendas funciones de V1 y V2 a V1 × V2 dadas por Π1 (u1 ) = (u1 , 0) y Π2 (u2 ) = (0, u2 ).
Como Π1 y Π2 son transformaciones lineales, se sigue que DΠ1 (u1 ) = Π1 y DΠ2 (u2 ) = Π2 . En virtud
de la regla de la cadena (5.7.3), las funciones f1 y f2 son diferenciables; equivalentemente, las derivadas
parciales de f existen. Además, se demostró que
D1 f (v) h1 = Df1 (v1 ) h1 = D f ◦ Π1 + (0, v2 ) (v1 ) h1
= Df (v1 , v2 ) DΠ1 (v1 ) h1 = Df (v) Π1 (h1 )
= Df (v) (h1 , 0)
y, análogamente,
D2 f (v) h2 = Df (v) (0, h2 ).
Sumando estas derivadas parciales, se encuentra que
184
6.3. Las derivadas parciales en general.
[Df (v) (h1 , h2 )]C = [D1 f (v) h1 + D2 f (v) h2 ]C = [D1 f (v) h1 ]C + [D2 f (v) h2 ]C
= [D1 f (v)]C C
B1 [h1 ]B1 + [D2 f (v)]B2 [h2 ]B2 .
en donde los cero que aparecen dentro dela matriz más grande son matrices. Finalmente, usando que
[(h1 , h2 )]B = ([h1 ]B1 , [h2 ]B2 ) y que la matriz [D1 f (v)]C
B1 [D2 f (v)]C
B2 posee las dimensiones correctas, se
encuentra, por la unicidad de las matrices dadas bases fijas, que la matriz asociada a las bases B y C
de Df (v) es la matriz
[Df (v)]C C
[D2 f (v)]C
B = [D1 f (v)]B1 B2 .
Esto se resume en la siguiente propiedad. Para el siguiente teorema se utilizará (5.7.4) y el siguiente
convenio; si N1 y N2 son dos matrices en Matm×n1 (R) y Matm×n2 (R) entonces la «matriz de concatenación
por filas» es la matriz N = [N1 , N2 ] en Matm×n1 +n2 (R) . Por ejemplo, si se desea evaluar a N en el vector
(x, y) ∈ Rn1 +n2 entonces se escribirá
Å ã
x
N = N1 x + N2 y ∈ Rm .
y
recuerda que todo se piensa siempre como vectores columna. Con este convenio y la construcción
previa, el siguiente resultado es inmediato1 .
( 6.3.5 ) Sean V1 , V2 , W1 y W2 cuatro espacios vectoriales reales de dimensión finita. Supón que f = (f1 , f2 ) :
A ⊂ V1 × V2 → W1 × W2 es diferenciable en v = (v1 , v2 ). Sean B1 , B2 , C1 y C2 sendas bases ordenadas de
V1 , V2 , W1 y W2 . Supón que B es la concatenación de B1 y B2 y que C aquella de C1 y C2 . Entonces, la matriz
asociada a Df (v) respecto de las bases B y C toma la forma general
ñ
[D1 f1 (v)]C [D2 f1 (v)]C
ô
1 1
C B1 B2
[Df (v)]B = .
[D1 f2 (v)]CB1
2
[D2 f2 (v)]C
B2
2
z 6.3.1 Ejemplos.
A continuación se exponen algunos ejemplos, estos con el fin de aliviar al lector de tanta tecnicidad.
1 Queda a cargo del lector notar el porqué de la inmediatez de dicho resultado.
185
Capítulo 6. Las derivadas de una función.
x+y
( 6.3.6 ) Considera la función . Encuentra la matriz asociada a la derivada de esta función en un punto
x2 + 1
(x, y) cualquiera.
Primeramente se recuerda que siempre se considerará, salvo especificación explícita, las bases
canónicas de cada Rn . Entonces, se puede utilizar (6.2.3) o (6.3.5). Por la simplicidad de la función
original, conviene utilizar (6.2.3).
Entonces, se calculan las derivadas parciales. Entonces, sea f la función en cuestión. Se sigue que,
tras un cálculo elemental,
1 − 2xy − x 2 1
D1 f (x, y) = y D2 f (x, y) = .
(1 + x 2 )2 1 + x2
Por lo tanto, ñ ô
1 − 2xy − x 2 1
[Df (x, y)] = ,
(1 + x 2 )2 1 + x2
Lo que concluye este ejemplo.
y
Df2 (u, v) = (sin xy + vex+uv , uex+uv ) .
En virtud de (6.3.5), se cumple que
Observación: para evitar sobre notación, se escribirá Df (P) tanto para la matriz como para la trans-
formación lineal.
( 6.3.8 ) Sea F = (f1 , . . . , fm1 , g1 , . . . , gm2 ) : A ⊂ Rn1 × Rn2 → Rm1 × Rm2 una función diferenciable en
P = (p, q). Demuestra que la matriz asociada a la derivada de F en P no cambia, sin importar si se encuentra
con (6.2.3) o con (6.3.5).
En este caso se pondrá V1 = Rn1 , V2 = Rn2 , W1 = Rm1 y W2 = Rm2 . Asimismo, F1 = (f1 , . . . , fm1 ) y
F2 = (g1 , . . . , gm2 ).
Según (6.2.3) se debe cumplir que
D1 f1 (P) ... Dn1 f1 (P) Dn1 +1 f1 (P) ... Dn1 +n2 f1 (P)
.. .. .. .. .. ..
. .
. . . .
D1 fm1 (P) ... Dn1 fm1 (P) Dn1 +1 fm1 (P) ... Dn1 +n2 fm1 (P)
DF (P) =
D1 g1 (P)
.
... Dn1 g1 (P) Dn1 +1 g1 (P) ... Dn1 +n2 g1 (P)
.. .. .. .. .. ..
. . . . . .
D1 gm2 (P) ... Dn1 gm2 (P) Dn1 +1 gm2 (P) ... Dn1 +n2 gm2 (P)
186
6.3. Las derivadas parciales en general.
Intencionalmente se separó la matriz previa en cuatro bloques, se demostrará que las derivadas
parciales
poseen por matriz asociada el bloque correspondiente. Solo se ilustrará el caso de φ = F2 . Para
A1 (P)
empezar, nota que
φ(x1 , . . . , xn1 ) = F2 (x1 , . . . , xn1 , q) = (g1 (x1 , . . . , xn1 , q), . . . , gm1 (x1 , . . . , xn1 , q)).
Entonces, según (6.2.3) se cumple que
D1 g1 (p, q) ... Dn1 g1 (p, q)
D1 F2 (P) = Dφ (p) = .. .. ..
,
. . .
D1 gm1 (p, q) ... Dn1 gm1 (p, q)
que es lo que se quería mostrar.
( 6.3.9 ) Sean V y W dos espacios vectoriales y f : A ⊂ V → W una función diferenciable en v. Supón que P y Q
son bases ordenadas de V y W , respectivamente. Considera los isomorfismos de coordenadas y la transportación
de φ = [ ]Q ◦ f ◦ [ ]−1
P de f. Sea v ∈ V y X = [v]P . Entonces, una condición necesaria y suficiente para que φ sea
diferenciable en X es que f sea diferenciable en v. En este caso, la derivada de φ en X es la transportación de la
derivada de f en v; esto es, Dφ (X) = [ ]Q Df (v) [ ]−1
P .
Los cambios de coordenadas son transformaciones lineales invertibles, todo es consecuencia inme-
diata de la regla de la cadena (5.7.3).
( 6.3.10 ) Sea Vn el espacio de las funciones polinomiales de grado menor o igual que tres. Se denotará por x k
a la función t 7Ï t k para k ∈ N y por 1 a la función t 7Ï 1. Asimismo, define como W = lin h{sin, cos, exp}i .
2
Considera la función f dada por f(a0 + a1 x 1 + a2 x 2 + a3 x 3 ) = (a1 + a2 ) sin − sin a1 cos + » exp .
a02 + 1
Responde y demuestra lo siguiente correctamente.
1. La dimensión de W es tres y la base ordenada (sin, cos, exp) se denominará base natural.
2. ¿Es f diferenciable en todo punto de V3 ? Si f es diferenciable, encuentra su función de derivadas.
3. ¿Cuál es la tranportación de f respecto a las bases naturales de V3 y W ? Encuentra la matriz asociada a la
derivada de la transportación. ¿Qué relación guardan las entradas de la derivada de la transportación con
la derivada de f?
Se reponderá y demostrará cada punto por separado.
1. Se verá que {sin, cos, exp} es base de W . Por definición de W este conjunto ya genera, por
lo que solo se debe demostrar su independencia lineal. Supón entonces que existen constantes
k1 , k2 , k3 ∈ R tales que k1 sin +k2 cos +k3 exp = 0; esto es, para todo t ∈ R se cumple que k1 sin t +
k2 cos t + k3 exp(t) = 0. Se pone t = 0 para encontrar k2 + k3 = 0 y t = π para encontrar que
π
−k2 + eπ k3 = 0, por lo que k2 = k3 = 0. Tomando t = se obtiene que k1 = 0. Esto demuestra
2
la independencia lineal.
2. Se utilizará el teorema (6.3.9). Se transporta f. La transportación de f es
Ñ é
2
φ(a0 , a1 , a2 , a3 ) = a1 + a2 , − sin a1 , » ,
a02 + 1
lo cual puede verificarlo el lector él mismo. Ahora, es claro que φ es diferenciable, lo cual se sigue
de las reglas de diferenciación del capítulo previo. Por lo tanto, f también es diferenciable.
187
Capítulo 6. Las derivadas de una función.
Por lo tanto,
Ç å
2a0
Dφ (a0 , a1 , a2 , a3 ) (h0 , h1 , h2 , h3 ) = h1 + h2 , − cos a1 h1 , − 3 h0 .
(a2 + 1) 2
Df a0 + a1 x 1 + a2 x 2 + a3 x 3 (h0 + h1 x 1 + h2 x 2 + h3 x 3 )
2a0
= (h1 + h2 ) sin +(− cos a1 h1 ) cos − 3 h0 exp .
2
(a + 1) 2
v 7Ï Df (v)
como una función de A a Lin (V , W ) . Como la derivada es única (5.7.1), resulta que la asignación
anterior define una función. Se denotará provisionalmente por D a esta nueva función. Entonces, se
está definiendo
D : A → Lin (V , W ) dada por D(v) = Df (v) .
( 6.4.1 ) Sea f : A ⊂ V → W una función diferenciable. Se define la función Df : A → Lin (V , W ) como aquella
que a cada punto v ∈ A asocia la derivada de f en v. A esta función se le llamará función de primera derivada
de f. Asimismo, si V = V1 × V2 , a la asignación v 7Ï Di f (v) , para i = 1, 2, (las cuales existen según (6.3.4)) se
les llamará funciones de primeras derivadas parciales respecto al primer o segundo factor, según sea el caso. Esta
función será denotada por Di f : A → Lin (Vi , W ) .
188
6.4. La función de derivadas.
Observación: cuando V (o Vi ) es R entonces Lin (R, W ) posee dimensión dim W . Así que dada una
base ordenada B en W se obtiene que las coordendas [ ]B inducen un isomorfismo entre Lin (R, W ) y
Matm×1 (R) . Este último espacio se identifica canónicamente con Rm , por lo que se puede pensar que
Lin (R, W ) es esencialemente Rm ; regresando las coordenadas, se puede pensar que Lin (R, W ) = W ;
esto se hará en lo que resta del texto. En el caso de curvas esto es lo que se hacía, dada una curva
f : I ⊂ R → Rm su derivada siempre se escribía como una curva f 0 : I → Rm y no como una función
f 0 : I → Lin (R, Rm ) .
y que
D2 F (x, y) = (−x sin y, x cos xy).
Observa que las derivadas parciales también son diferenciables. Ahora se derivaran estas funciones,
esto es, para i = 1, 2 se encontrará la matriz Jacobiana de Di F (x, y) . Se encuentran las parciales de
estas funciones, esto es, las parciales segundas de F,
y
D2,1 F (x, y) = D2 [D1 F] (x, y) = (− sin y, cos xy − xy sin xy).
Por otra parte,
D1,2 F (x, y) = D1 [D2 F] (x, y) = (− sin y, cos xy − xy sin xy)
y
D2,1 F (x, y) = D2 [D2 F] (x, y) = (−x cos y, −x 2 sin xy).
Lo que concluye el ejemplo. Observa que D1,2 F = D2,1 F.
Inductivamente, se puede definir la derivada de orden k-ésimo.
( 6.4.4 ) Sean F : A ⊂ Rn → W y i1 , . . . , ik+1 ∈ {1, . . . , n}, se dirá que F posee la derivada parcial de orden
(k + 1)-ésimo respecto al orden (ik+1 , . . . , i1 ) si la función Dik ,...,i1 F : A → W existe y la derivada parcial de esta
función, respecto del eje ik+1 , existe según (6.4.2), se define entonces
Dik+1 Dik ,...,i1 F = Dik+1 ,...,i1 F.
189
Capítulo 6. Las derivadas de una función.
Se observa que D2 F (x, y, z) = (1, −xz), por lo que D3,2 F (x, y, z) = (0, −y).
190
6.5. Existencia de la derivada.
Entonce f es diferenciable en cualquier punto de R2 y que sus derivadas parciales no son continuas en el origen.
Observa que {{(x, y) ∈ R2 : x = 0} es un conjunto abierto3 de R2 . En este conjunto f está defi-
nida como composición de funciones diferenciables por lo que es diferenciable. Falta demostrar que
f es diferenciable en aquellos puntos donde x = 0. Sea P = (0, y) ∈ R2 entonces para H = (h1 , h2 )
suficientemente pequeño,
Å ã
2 1
h1 y + h2 + sin si h1 6= 0
f(P + H) = f(h1 , y + h2 ) = h1 .
0 si h = 0 1
Para utilizar la definición (5.6.5) se debe escribir la expresión anterior como f(P) + TH + ε(H)H, donde
T es lineal y ε toma valores en Lin R2 , R es tal que lı́m ε(H) = 0. Esto se puede hacer de varias
H→0
formas, por ejemplo
ï Å ã òÅ ã
1 h1
h1 y + sin , h12 si h1 6= 0
f(P + H) = h1 h2 .
0 si h1 = 0.
191
Capítulo 6. Las derivadas de una función.
Y, análogamente, D2 f (x,Åy) = x 2 . Enã este caso se tiene que D1 f (x, y) no es continua en x = 0. Esto se
1 1
sigue del hecho que 2x y + sin es continua en el cero y cos no lo es. Por lo tanto, una de las
x x
parciales de f no es continua en el origen.
Este ejemplo demuestra que aún cuando un función sea diferenciable en un punto puede suceder
que sus derivadas parciales no sean funciones continuas en ese punto. La pregunta que resulta ahora
es, ¿el recíproco es cierto?
® 2
x3 si (x, y) ∈ A;
f(x, y) =
0 si (x, y) ∈ {A.
el cual no existe para x 6= 0. Luego, D1 f (0, y) = 0 para cualquier y ∈ R. Por otro lado,
2
f(x, x + h) − f(x, x) −x 3
lı́m = lı́m ,
h→0 h h→0 h
al igual que antes, este límite no existe a menos que x = 0. De este modo, se puede concluir que
Dom (D1 f) = Dom (D2 f) = {A ∪ {0} y D1 f = D2 f = 0 sobre su dominio. Como las parciales son
constantes en su dominio, se ha demostrado que estas funciones son continuas.
Se demuestra ahora que f no es diferenciable en cero. Se utilizará (5.6.4), la primera equivalencia.
Como las parciales de f en cero son cero, el único candidato para ser derivada de f en cero es la
transformación lineal cero (6.2.3). Para demostrar que esta transformación lineal no es la derivada de
f en cero se debe demostrar que
kf(H) − f(0)k
lı́m 6= 0.
H→0 kHk
192
6.5. Existencia de la derivada.
kf(α(t)) − f(0)k 1
lı́m = √ 1.
t→0 kα(t)k 2t 3
Este límite es infinito (púes t > 0), por lo que f no es derivable en el cero.
Observa que este ejemplo muestra que f puede tener parciales continuas en un punto y aún así no
ser diferenciable en tal punto. En este ejemplo sucedió que no había una vecindad del origen donde las
parciales existieran en todas partes de dicha vecindad. Es conveniente preguntarse entonces, ¿será que
la existencia de las parciales en toda una vecindad alrededor del punto implique la diferenciabilidad?
Para bien o para mal, esta tampoco es una condición suficiente para la diferenciabilidad.
y(x 2 + y 2 ) − 2x 2 y y3 − x2y
D1 f (x, y) = 2 2 2
= 2
(x + y ) (x + y 2 )2
y
x(x 2 + y 2 ) − 2xy 2 ) x 3 − xy 2
D2 f (x, y) = = .
(x 2 + y 2 )2 (x 2 + y 2 )2
En cambio, cuando (x, y) = (0, 0), se tiene que
f(h, 0) − f(0, 0)
D1 f (0, 0) = lı́m =0
h→0 h
y
f(0, h) − f(0, 0)
D2 f (0, 0) = lı́m = 0.
h→0 h
Luego, las funciones de derivadas parciales de f están definidas en todo R2 según:
3
y − x2y
si (x, y) =
6 (0, 0);
D1 f (x, y) = 2 2 2
(x + y )
0 si (x, y) = (0, 0).
y 3
x − xy 2
si (x, y) 6= (0, 0);
D2 f (x, y) = 2 2 2
(x + y )
0 si (x, y) = (0, 0).
Por lo tanto, dado que la derivada de f es única y esta viene dada por las derivadas parciales, se ve
que el único candidato a ser derivada de f en el origen es la transformación lineal idénticamente cero.
193
Capítulo 6. Las derivadas de una función.
Utilizando (5.6.4) se sigue que una condición necesaria y suficiente para que f sea diferenciable en 0 es
que
f(H)
lı́m = 0.
H→0 kHk
Pero,
f(x, y) xy xy
= 3
= Äp ä3 ;
k(x, y)k k(x, y)k x2 + y2
haciendo x = y, se obtiene que
f(x, x) x2 1
= Ä√ ä3 = √ ,
k(x, x)k 2x 2 2x
x2 + y2 (x, y) ∈ Q2
ß
si
f(x, y) = .
0 si (x, y) ∈/ Q2
Entonces f es diferenciable en el cero y no existe una vecindad de este punto en donde las parciales de f existan
en todas partes de dicha vecindad.
lo cual muestra que la derivada de f en el origen existe y vale cero. Sea r > 0, y y ∈ Q ∩ [0, r), se afirma
que D1 f (0, y) no existe. Nota que si existiera entonces
f(h, y) − f(0, y)
D1 f (0, y) = lı́m .
h→0 h
Å ã
1
En particular, el límite anterior no cambia si se consideran las suciones (an )n∈N = y (bn )n∈N =
Ç√ å n n∈N
2
. Pero
2n n∈N
f(an , y) − f(0, y) a2 + y 2 − y 2
= n = an −Ï 0
an an n→∞
194
6.5. Existencia de la derivada.
y
f(bn , y) − f(0, y) −y 2 √
= = − 2y 2 n −Ï −∞,
bn bn n→∞
˚
( 6.5.5 ) Sea f : A ⊂ Rn → W una función tal que para cierto P ∈ A Û sus derivadas parciales existen en cierta
bola B (P; r) . Si todas las parciales de f son continuas en P entonces existe Df (P) .
Usando la técnica de transportación, se puede transportar f de tal forma que bastará demostrar el
teorema para una función f : B (P; r) → Rm tal que todas sus derivadas parciales son continuas en P. Se
utilizará el teorema del valor medio (5.11.2). Como las derivadas parciales existen, el único (en virtud
de (5.7.1)) candidato para ser derivada de f en P es la transformación lineal
n
X
(h1 , . . . , hn ) 7Ï Dk f (P) hk ,
k=1
Se observa que las diferencias f(P + Hk ) − f(P + Hk−1 ) dependen solamente de una coordenada. Define,
para k ∈ {1, . . . , n} las funciones φk : [0, 1] → Rm dadas por
Entonces,
n
X n
X
f(P + H) − f(P) − Dk f (P) hk = gk (1) − gk (0) .
k=1 k=1
195
Capítulo 6. Las derivadas de una función.
gk (s + h) − gk (s)
gk0 (s) = lı́m
h→0 h
f(P + φk (s + h)) − Dk f (P) (s + h)hk − f(P + φk (s)) + Dk f (P) shk
= lı́m
h→0 h
f(P + Hk−1 + (s + h)hk ek ) − f(P + Hk−1 shk ek )
= lı́m − Dk f (P) hk
h→0 h
f(P + Hk−1 + (s + h)hk ek ) − f(P + Hk−1 shk ek )
= lı́m hk − Dk f (P) hk
h→0 hhk
= Dk f (P + Hk−1 + shk ek ) hk − Dk f (P) = Dk f (P + φk (s)) hk − Dk f (P) hk .
Hasta ahora no se ha usado la continuidad de las funciones Di f. Usándola y usando que |hk | ≤ kHk , se
obtiene que para todo ε > 0 existe δ > 0 tal que para k = 1, . . . , n,
ε
kHk < δ Ñ kDk f (P + φk (t)) − Dk f (P)k < .
n
Por lo tanto, dado ε > 0 existe un δ > 0 tal que
n
X
f(P + H) − F(P) − Dk f (P) hk
k=1
kHk < δ Ñ < ε,
kHk
z 6.5.6 Diferenciales.
Ahora se introduce uno de los conceptos clásicos del cálculo, este es el de diferenciales. Se quiere
destacar que este concepto surge de consideraciones físicas y, sobre todo, geométricas, pero estas no
serán estudiadas aquí a fondo. Las diferenciales se ligan con la derivada de tal forma que son conceptos
equivalentes (en un sentido que se definirá a continuación).
Considera f : R → R diferenciable en un punto, por ejemplo p. Entonces, por definición, existe una
transformación lineal h 7Ï f 0 (p)h tal que para cierto r > 0 se tiene que si |h| < r entonces
donde, φ : (−r, r) → R satisface que su límite en cero es cero. Es importante destacar que f 0 (p)h
representa la parte lineal del incremento4 f(p + h) − f(p). A este incremento lineal se le conoce como
diferencial de primer orden de f en p respecto del incremento h. Como bien se sabe, si se denota
4 Por costumbre se suele pensar que un incremento es una cantidad positiva, este no es el caso. Se habla del incremento como
196
6.5. Existencia de la derivada.
e(h)
por e(h) = φ(h)h entonces lı́m = 0. Por lo que «el desarrollo limitado» f(p) + f 0 (p)h aproxima a
h
h→0
f(p + h) de manera eficiente (esto será precisado con el teorema de Taylor). Estas nociones se pueden
trabajar en varias variables sin mayor problema.
Observaciones:
1. Se ha usado un punto y coma en lugar de simplemente una coma para destacar los diferentes pa-
peles que juegan h y v antes. Mientras v es el punto donde se calculará el diferencial, h representa
el incremento en los argumentos de f.
2. h puede ser un vector arbitrario en V . Esto es contrario a lo que muchos lectores estarían acos-
tumbrados. Típicamente se “define” el diferencial como la parte lineal de un incremento “infinite-
simal” en los argumentos. Entonces siempre surge la duda sobre qué tan pequeño tiene que ser
el incremento como para que sea infinitesimal5 . Esta definición formal evita tales ambigüedades.
( 6.5.7 ) Encuentra el diferencial de F(x, y) = (xy + y 2 , cos x) en (1, 1), con un incremento dX = (dx, dy).
De aquí que, sustituyendo datos, se obtiene dF ((1, 1); dX) = (dX + 3dy, cos 1dX).
El siguiente teorema es inmediato de la definición de diferencial. La demostración se basa en el
hecho que dF (P; dX) = DF (P) dX, por lo que será omitida.
( 6.5.8 ) Las siguientes reglas para diferenciales se verifican. Se considerarán f y g dos funciones diferenciables
en v y dh y dk dos incrementos en V . Entonces,
197
Capítulo 6. Las derivadas de una función.
donde (e1 , . . . , en ) es la base canónica de Rn . Nota que Φ(s, t) = Φ(t, s). Toma s ∈ (−r, r) fijo y define
φ : (−r, r) → W dada por
misma ecuación.
198
6.6. Técnicas de derivación parcial.
Entonces
φ(t) − φ(0) = Φ(s, t) − Di,j F (P) st.
En virtud del teorema del valor medio (5.11.2),
Con lo cual,
kΦ(s, t) − Dij F (P) stk ≤ |t| sup
Dj F P + sei + ξtej − Dj F P + ξtej − Dij F (P) s
.
0≤ξ≤1
Define ahora ψ : (−r, r) → W por ψ(s) = Dj F P + sei + tej − Di,j F (P) s para t ∈ (−r, r) fijo. Observa
que ψ es diferenciable pues Di,j F existe en todo A. Por lo que aplica el teorema del valor medio a ψ.
Se obtiene que
kψ(s) − ψ(0)k ≤ |s| sup kψ0 (νs)k
0≤ν≤1
2
Finalmente, se ha demostrado que para (s, t) ∈ (−r, r)
kΦ(s, t) − Di,j F (P) stk ≤ |ts| sup
Di,j F P + νsei + ξtej − Di,j F (P)
.
0≤ξ,ν≤1
En efecto,
la propiedad que se utiliza aquí es la siguiente. Si A y B son conjuntos cualesquiera y
t(a,b) (a,b)∈A×B es una familia de elementos en [0, ∞) entonces
Para demostrar esto, nota que si µ = sup t(a,b) entonces µ acota superiormente a todos los elementos
(a,b)∈A×B
n o
t(a,b) , en particular, para a fijo, µ acota superiormente al conjunto t(a,b) b ∈ B . Por ende, µ ≥ sup t(a,b)
b∈B
y como esto ocurre para cualquier a ∈ A se puede concluir que µ ≥ sup sup t(a,b) . Para demostra la otra
a∈A b∈B
desigualdad considera ν = sup sup t(a,b) . Por definición de supremo, dado ε > 0 existe un (a, b) ∈ A × B
a∈A b∈B
tal que
µ − ε ≤ t(a,b) ≤ sup t(a,b) ≤ ν
b∈B
y como esta desigualdad vale para cada ε > 0 también vale para ε = 0.
Se puede concluir que para (s, t) ∈ (−r, r)2 se cumple que
Φ(s, t)
st − Di,j F (P)
≤ sup
Di,j F P + νsei + ξtej − Di,j F (P)
,
0≤ξ,ν≤1
donde la expresión de la izquierda queda reemplazada por cero en el caso en que st = 0. Usando que
Di,j F es uniformemente continua en R (teorema de Heine-Cantor (5.5.14)) se sigue que
Φ(s, t)
lı́m
− D F
i,j (P)
≤ sup
Di,j F P + ξtej − Di,j F (P)
.
s→0
st 0≤ξ≤1
199
Capítulo 6. Las derivadas de una función.
Para poder demostrar la igualdad de las derivadas parciales mixtas se usa ahora la existencia de
Di F. Observa que
Haciendo t → 0 se ve que
Di F P + tej − Di F (P)
Dj,i F (P) = lı́m = Di,j F (P) ,
t→0 t
con lo que se concluye el teorema.
( 6.6.2 ) Sea U ⊂ Rn un conjunto abierto y f : U → Rm tal que Di,j f existe, es continua y Dom Di,j f = U.
Entonces, Dj,i f existe, es continua, tiene dominio U y Di,j f = Dj,i f.
Lo cual es consecuencia del teorema anterior.
Observaciones:
1. Para cada k ∈ N, se tiene que Ck+1 (A, W ) ⊂ Ck (A, W ) y C∞ (A, W ) ⊂ Ck (A, W ) .
2. Se puede concluir el siguiente corolario de (6.5.5): una función definida en una abierto de clase C1
es diferenciable. Asimismo, también se puede concluir lo siguiente de (6.6.1): para una función
definida en un abierto que sea de clase C2 sus derivadas parciales mixtas conmutan. Es
importante destacar que esto es falso si la función no está definida en un abierto.
3. Todo polinomio es de clase C∞ . La demostración de este hecho queda de ejercicio al lector.
4. Si se considera a Di como una función entonces Di recibe el nombre de operador de diferencia-
ción parcial respecto del i-ésimo eje. Es importante observar que en virtud del teorema anterior
si se fija un abierto A ⊂ Rn y se restringe el dominio de Di a C2 (A, Rm ) entonces Di conmuta con
200
6.6. Técnicas de derivación parcial.
201
Capítulo 6. Las derivadas de una función.
se considera que la función f ha sido definida a través de ciertos símbolos fijos8 . La idea de estas
expresiones es que al ser f definida por argumentos específicos ya no existe la necesidad de evaluar la
∂f
expresión de diferenciación parcial en tales argumentos, luego, se escribirá en lugar de D1 f (x, y) ,
∂x
por ejemplo. Las ventajas de esta notación surgirán en los ejemplos.
Uno de los inconvenientes principales de la notación clásica es que evaluar las derivadas parciales
es tedioso. Por ejemplo, si se quiere evaluar la derivada parcial de f(x, y) = 2x 2 − xy en (1, 0) respecto
del primer eje habría que escribir
Å ã
∂f
= (4x − y) =4
∂x
(x,y)=(1,0) (x,y)=(1,0)
∂f(1, 0)
y no simplemente . Esto se debe a que la expresión f(1, 0) = 2 que es una constante, por lo que
∂x
su derivada respecto de x es cero.
Antes de continuar cabe destacar que muchos autores prefieren aún otras notaciones. Por ejemplo,
∂F
para denotar a la matriz Jacobiana de F se escribe . De nueva cuenta, esto es en el contexto en
∂X
el que F está definida para argumentos específicos. Coloquialmente hablando, F es función del vector
X. De este modo, la regla de la cadena dada antes toma una forma más “natural”. Para ver esto, se
considera una función F diferenciable tal que ha sido definida en términos del vector Y y a Y como
función diferenciable del vector X 9 . Luego, de acuerdo a la regla de la cadena, la función F definida en
términos del vector X es diferenciable y su derivada viene dada por
∂F ∂F ∂Y
= .
∂X ∂Y ∂X
Con esta expresión es muy fácil recordar la regla de la cadena para derivadas parciales. Por ejemplo,
en este contexto se supone F = (f1 , . . . , fp ) y X = (x1 , . . . , xn ), luego, evaluando la expresión anterior en
ej se obtiene que, para cada i = 1, . . . , p,
∂fi ∂fi ∂Y
= .
∂xj ∂Y ∂xj
Observa que f no es función de X = (x, y), sino es función de alguna Y que se debe determinar
y Y es función de X tal que Y (X) = (x + y, x 2 , sin x). Se define entonces, Y : R2 → R3 dada por
8 Dicho de otro modo, se “casa” a la función f con argumentos específicos. A veces, se expresaba (y habrá quien todavía lo
haga) esto como “... sea f función de x y y...”. Ve por ejemplo [7].
9 En un contexto formal, se definen G : U ⊂ Rn → Rm y F : G(U) → Rp tales que F y G son diferenciables.
202
6.7. Ejemplos resueltos.
203
Capítulo 6. Las derivadas de una función.
Sin embargo, se quiere que la notación clásica sea lo más fácil de escribir posible. Entonces, se reescribe
la expresión anterior y se define10
∂ i1 ∂ in ∂i1 +...+in
Å ã Å ã
··· = .
∂x1 ∂xn ∂x1i1 · · · ∂xnin
Entonces, expresiones como
∂i1 +...+in f
∂x1i1 · · · ∂xnin
deben entenderse como Ä i ä
D11 · · · Dinn (f) .
∂f
Por otro lado, cuando f es una función definida en términos de X se ha mencionado que es la
∂X
∂f
matriz Jacobiana de f. Entonces, si se denota por la función de primeras derivadas parciales de f
∂xi
respecto del primer eje, se ve que la derivada de esta función viene dada por
ñ ô
∂ ∂f ∂2 f ∂2 f
= ··· .
∂X ∂xi ∂x1 ∂xi ∂xn ∂xi
∂f
Más aún, si f : U ⊂ Rn → R y se considera a como función con contradominio Rn entonces su
∂X
función de derivadas es
∂2 f
Å ã ï ò
∂ ∂f ∂ ∂f ∂f
= = ···
∂X 2 ∂X ∂X ∂X ∂x1 ∂xn
∂ ∂f ∂2 f ∂2 f
· · ·
∂X ∂x1 ∂x12 ∂xn ∂x1
.
= .. = .. .. .. .
. . .
∂ ∂f 2 2
∂ f ∂ f
···
∂X ∂xn ∂x1 ∂xn ∂xn2
∂2 f
( 6.7.4 ) Sea f ∈ C2 (A, R) . Entonces es una matriz simétrica.
∂X 2
Lo cual es consecuencia directa de (6.6.2).
( 6.7.5 ) Encuentra las parciales de segundo orden respecto de x y y de
Zy
Ñ é
f 2x 2 + x, sin y, g ,
0
Zy
Ñ é
∂f ∂f ∂T
= ,
∂x ∂T ∂x
10 Por ij ij
cuestiones tradicionales, se escribe ∂xj en lugar de ∂xj .
204
6.7. Ejemplos resueltos.
y
∂f ∂f ∂T
= .
∂y ∂T ∂y
Utilizando la regla del producto, se ve que
∂2 f ∂f ∂2 T
Å ã Å ã
∂ ∂f ∂T ∂ ∂f ∂T
= = + .
∂x 2 ∂x ∂T ∂x ∂T ∂x 2 ∂x ∂T ∂x
Å ã
∂ ∂f
Todas las expresiones anteriores, salvo , ya se sabe como calcularlas. Hay que notar que
∂x ∂T
∂f
es función definida en términos de T. Para encontrar la derivada parcial respecto de x se debe
∂T
∂f ∂h ∂h ∂T
utilizar la regla de la cadena otra vez. Si se denota por h a , se obtiene que = . Por las
∂T ∂x ∂T ∂x
2
∂h ∂ f
observaciones hechas antes, = es la matriz de segundas derivadas parciales de f.
∂T ∂T 2
Se empiezan a sustituir los valores correspondientes. Es fácil ver que
∂T ∂2 T
= (4x + 1, 0, 0), por lo que = (4, 0, 0).
∂x ∂x 2
Å ã
∂f ∂f ∂f ∂f ∂h
Si se denota T(x, y) = (a, b, c) entonces = , , . Como es la matriz de segundas
∂T ∂a ∂b ∂c ∂x
∂T
derivadas parciales de f evaluada en , se obtiene que
∂x
Ç å
∂h ∂2 f ∂2 f ∂2 f
= (4x + 1) , , .
∂x ∂a2 ∂a∂b ∂a∂c
Sustituyendo términos, se encuentra que
∂2 f ∂f 2
2∂ f
= 4 + (4x + 1) .
∂x 2 ∂a ∂a2
Ha sido tardado el calcular apenas una de las derivas parciales de segundo orden. Algunos de los pasos
∂2 f
antes expuestos suelen omitirse en la práctica. Por ejemplo, para calcular se procede como sigue.
∂y 2
Se advierte al lector que se harán abusos de la notación.
Ç å
∂2 f ∂f ∂2 T ∂f ∂2 T ∂2 f ∂T ∂T
Å ã Å ã
∂ ∂f ∂T ∂ ∂f ∂T
= = + = + .
∂y 2 ∂y ∂T ∂y ∂T ∂y 2 ∂y ∂T ∂y ∂T ∂y 2 ∂T 2 ∂y ∂y
∂T ∂2 T
Pero, = (0, cos y, g(y)), por lo que = (0, − sin y, g 0 (y)) y
∂y ∂y 2
∂2 f ∂T ∂2 f ∂2 f ∂2 f
= (cos ye 2 + g(y)e 3 ) = cos y e 2 + g(y) e3
∂T 2 ∂y ∂T 2 ∂T 2 ∂T 2
Ç å Ç å
∂2 f ∂2 f ∂2 f ∂2 f ∂2 f ∂2 f
= cos y , , + g(y) , , ,
∂a∂b ∂b2 ∂c∂b ∂c∂a ∂c∂b ∂c2
donde (e1 , e2 , e3 ) es la base canónica de R3 . Por lo tanto, recordando que f ∈ C2 R3 , R , se tiene que
∂2 f ∂f 0 ∂f 2
2∂ f ∂2 f 2
2∂ f
= − sin y + g (y) + (cos y) + 2 cos yg(y) + [g(y)] .
∂y 2 ∂b ∂c ∂b2 ∂b∂c ∂c2
205
Capítulo 6. Las derivadas de una función.
De acuerdo al ejercicio (6.19), se tiene que al ser f función de x y y es de clase C2 . Por lo que
∂2 f ∂2 f ∂2 f
= . Para calcular se omitirán más pasos que antes. De este modo,
∂x∂y ∂y∂x ∂x∂y
Zy
Ñ é
∂2 f
Å ã
∂ ∂ ∂ ∂f ∂f
= f 2x 2 + x, sin y, g = cos y + g(y)
∂x∂y ∂x ∂y ∂x ∂b ∂c
0
∂2 f ∂2 f
= cos y(4x + 1) + g(y)(4x + 1) .
∂a∂b ∂a∂c
Cabe destacar que con mucha práctica las derivadas parciales pueden obtenerse de manera simple
como lo anterior.
∂F
( 6.7.6 ) Sea F ∈ C2 R3 , W una función en coordenadas cartesianas11 tal que
= 0. Supón que (x, y, z) =
∂y
∂2 F ∂2 F
(ρ cos φ sin θ, ρ sin φ sin θ, ρ cos θ), son las «coordenadas esféricas». Encuentra y .
∂φ∂ρ ∂ρ∂φ
∂2 F
Como F ∈ C2 R3 , W se tiene que las parciales mixtas conmutas, luego basta calcular
. Tam-
∂φ∂ρ
bién es destacable que el orden en que se deriven las expresiones es inmaterial. Sea T dada por
por lo que
∂2 F
Å ã
∂ ∂F ∂F
= cos φ sin θ + cos θ
∂φ∂ρ ∂φ ∂x ∂z
Ahora se calcula cada sumando. Se tiene que
Å ã Å ã
∂ ∂F ∂ ∂F ∂F
cos φ sin θ = cos φ sin θ − sin φ sin θ
∂φ ∂x ∂φ ∂x ∂x
ñ ô
2 2
∂ F ∂x ∂ F ∂y ∂2 F ∂z ∂F
= cos φ sin θ + + − sin φ sin θ
∂x 2 ∂φ ∂y∂x ∂φ ∂z∂x ∂φ ∂x
2 ∂2 F ∂F
= −ρ sin φ cos φ sin θ − sin φ sin θ .
∂x 2 ∂x
ñ ô
∂2 F ∂x ∂2 F ∂y ∂2 F ∂z ∂2 F
Å ã
∂ ∂F
Análogamente, cos θ = cos θ + + 2 = −ρ sin φ sin θ cos θ . Su-
∂φ ∂z ∂x∂z ∂φ ∂y∂z ∂φ ∂z ∂φ ∂x∂z
∂2 F
mando todas estas expresiones se obtiene , la cual es
∂φ∂ρ
∂F 2 ∂2 F ∂F ∂2 F
= −ρ sin φ cos φ sin θ − sin φ sin θ − ρ sin φ sin θ cos θ .
∂φ∂ρ ∂x 2 ∂x ∂x∂z
( 6.7.7 ) Considera f : R2 → W de clase C3 tal que D1,2 f = 0. Encuentra la tercera parcial respecto de x de la
función dada por f(x 3 − y, sin yey ).
11 Esto es, F está definida en términos de (x, y, z).
206
6.8. Ejercicios.
∂f ∂f ∂u ∂f ∂v ∂u
Supón que f es función de (u, v) = (x 3 − y, sin yey ) entonces = + . Pero = 3x 2
∂x ∂u ∂x ∂v ∂x ∂x
∂v ∂f ∂f
y = 0, por lo que = 3x 2 . Derivando de nuevo respecto de x, se ve que
∂x ∂x ∂u
Ç å
∂2 f 2 ∂ ∂f ∂f 2 ∂2 f ∂u ∂2 f ∂v ∂f
= 3x + 6x = 3x + + 6x
∂x 2 ∂x ∂u ∂u ∂u2 ∂x ∂v∂u ∂x ∂u
∂2 f ∂f
= 9x 4 2
+ 6x .
∂u ∂u
Donde la última simplificación es debida a que D1,2 f = D2,1 f = 0. Con esto en mente ya no se escribirá
estas parciales. Por lo que,
∂3 f ∂3 f ∂2 f ∂2 f ∂f
= 27x 6 + 36x 3 2 + 18x 3 2 + 6
∂x 3 ∂u 3 ∂u ∂u ∂u
∂3 f ∂2 f ∂f
= 27x 6 3 + 54x 3 2 + 6 .
∂u ∂u ∂u
Que es la derivada parcial buscada.
§ 6.8. Ejercicios.
Se insiste en que el lector resuelva todos los ejercicios de este capítulo. Esto debido a que solo
la práctica forma la experiencia necesaria para que a la hora de derivar los procesos devengan más
simples.
207
Capítulo 6. Las derivadas de una función.
( 6.2 ) La razón de cambio a una función constante c en cualquier punto P y para cualquier curva existe y vale
cero.
( 6.3 ) Supón que α : [a, b] → A y β : [c, d] → A son curvas equivalentes u opuestas, por ejemplo α = β◦u. Supón
que α(0) = v y que u0 (0) existe. Sea f : A ⊂ V → W tal que Dα f (v) existe. Entonces Dα f (v) = Dβ f (u(0)) u0 (0).
En particular, si β recorre α al revés, esto es β(t) = α(a + b − t) entonces Dα f (v) = −Dβ v (P) .
( 6.4 ) Sea f : A ⊂ V → W y α : I ⊂ R → A, tal que α(t) = v, para cierto t fijo. La razón de cambio de f en v
a través de la curva α, si existe, es Dα f (v) = (f ◦ α)0 (t).
( 6.5 ) Supón que α : I ⊂ R → A es una curva que pasa por v ∈ A, por ejemplo α(0) = v. Sean f, g : A → W
tales que Dα f (v) y Dα f (v) existen. Entonces para cualquier λ ∈ R la razón de cambio de f + λg existe en v a
través de la curva α y se tiene que
( 6.6 ) Sean f, g : A ⊂ V → W funciones tal que una de ellas es continua y sea α : I ⊂ R → A tal que α(0) = v.
Si Dα f (v) y Dα g (v) existen, demostrar que la derivada direccional de hF, Gi en v a través de α existe y que
( 6.7 ) Sean f : A ⊂ V → R y α continuas tales que α(0) = v y Dα f (v) existe. Supón que f(v) 6= 0 entonces la
1
derivada direccional de en v a través de α existe y
f
ï ò
1 Dα f (v)
Dα (v) = − .
f f(v)2
( 6.9 ) Se dirá que una función f : A ⊂ V → R tiene un máximo relativo local en v ∈ A si existe r > 0 tal
que para todo u ∈ B (v; r) ∩ A se tiene que f(u) ≤ f(v). Si f es diferenciable y tiene un máximo relativo en v
entonces Dα f (v) = 0 para cualquier curva suave (C1 ) α para la cual Dα f (v) exista.
208
6.8. Ejercicios.
( 6.11 ) Sea α : I ⊂ R → R2 una curva tal que α(0) = P. Supón que F : R2 → R es una superficie (en R3 )
entonces Dα F (P) es la «pendiente» de la superficie en P cuando se camina sobre ella a través de la curva α.
Esta es una de las interpretaciones geométricas más importantes para Dα F (P) .
( 6.12 ) Calcula todas las derivadas parciales de F, en un punto arbitrario P = (a, b) ∈ R2 , donde:
1. F(x, y) = (sin x + cos y, x 2 + xy);
Ä ä
2. F(x, y, z) = exp k(x, y, z)k2 .
6. F(x, y, z) = (x · z, y · (x + z));
Zxy
7. f(x, y) = g;
0
Zx
8. f(x, y) = y g;
−x
Zz x+y+z
Ñ é
Z
9. F(x, y, z) = y g, sin(g) cos(g)g 0 , suponiendo la existencia de g 0 ;
x 0
209
Capítulo 6. Las derivadas de una función.
( 6.20 ) Encuentra todas las derivadas parciales de primer orden de f respecto de x y y donde:
1. f(u, v) = exp u + sin v;
2. f(u, v) = sin u sin v;
u+v
3. f(u, v) = ;
1 + v2
4. f(u, v) = 2u3 − 3uv 2 − v 2 + uv + 2u;
5. f(u, v) = u log v.
1
En todo caso toma u = y v = k(x, y)k .
1+y
( 6.21 ) Calcula las derivadas parciales de segundo orden mixtas de f, respecto de x y de y, donde:
v
1. f(u, v) = uu ;
2. f(u, v) = arctan(u + v);
3. f(u, v) = v exp(sin u);
u
4. f(u, v) = ;
u2 + v 2
5. f(u, v) = u + v.
En cada caso a de considerar que (u, v) = (ax, x 2 y + x − y).
∂2 f ∂2 f
( 6.22 ) Sea ∆12 tal que ∆(f) = + . Entonces ∆(f) = 0 si f viene dada por
∂x 2 ∂y 2
Å ã
x y
f(x, y) = g ,
x2 + y2 x2 + y2
( 6.24 ) Define a g por g(x, y, z) = k(x, y, z)k−1 y ∆ como el operador Laplaciano de R3 . Entonces ∆(g) = 0.
1
Más generalmente, si g : Rn \ {0} → R viene dada por g(X) = , su laplaciano vale cero.
kXk
( 6.25 ) Supón que f satisface que ∆(f(x, y)) = 0, para ∆ el operador Laplaciano de R2 . Supón que u(x, y)
∂u ∂v ∂u ∂v
y v(x, y) satisfacen que = y que = − . Entonces, es cierto que g(x, y) = f(u, v) satisface que
∂x ∂y ∂y ∂x
∆(g(x, y)) = 0.
∂z ∂z
( 6.26 ) Encuentra una fórmula para y , donde x = u(r, s, t), y = v(r, s, t) y z = f(x, y).
∂r ∂t
12 A este ∆ se le conoce como el operador laplaciano de R2 . A la expresión ∆(f) se le llama laplaciano de f. En general, puede
210
6.8. Ejercicios.
x+y
( 6.27 ) Calcula las parciales de f respecto de s y t, donde x = sin(2t), y = cos(3t − s) y f(x, y) = .
1 − xy
( 6.28 ) Supón que D1 f (0, 0, 0) = 2, D2 f (0, 0, 0) = D3 f (0, 0, 0) = 3. Sea g(u, v) = f(u − v, u2 − 1, 3v − 3).
Encuentra D1 g (1, 1) .
( 6.29 ) Sea f una función que satisface que f(tx, ty) = t m f(x, y) para todos los números reales x, y y t. Si
f ∈ C2 R2 , R entonces
( 6.30 ) Encuentra la regla de correspondencia de Di,j f, para cada i, j ∈ {1, 2}, donde f : R2 → R está dada por
f(x, y) = cos x sin y.
∂g
( 6.31 ) Sea g(t, x, y) = f(t 2 x, 2y + t). Encuentra en términos de las parciales de f.
∂t
( 6.32 ) Sea r : Rn → R, dada por r(X) = kXk . Encuentra la regla de correspondencia de Di r para cada i.
( 6.33 ) Sea g(x, y) = f(x + y, x − y). Entonces
( 6.34 ) Sean x = r cos θ y y = r sin θ, las fórmulas para coordenadas polares. Supón que f(x, y) = g(r, θ)
entonces
1 1
D1,1 g (r, θ) + D1 g (r, θ) + 2 D2,2 g (r, θ) = D1,1 f (x, y) + D2,2 f (x, y) .
r r
Å ã
y x y
( 6.35 ) Encuentra todas las parciales de hasta tercer orden de la función definida por (x, y) 7Ï x , + .
y x
( 6.36 ) Sean f, g : R → R funciones dos veces diferenciables. Entonces u(x, y) = f(x)g(y) satisface la ecuación
∂2 u ∂u ∂u
u + = 0. El recíproco también es cierto.
∂y∂x ∂x ∂y
Sugerencia: utiliza el teorema fundamental del cálculo
Å para ã una variable considerando las restricciones de u a
∂ ∂u
los ejes coordenados. Primero deberás encontrar u .
∂y ∂x
∂2 f ∂2 f ∂2 f
( 6.37 ) Sea f función de x y y, si x = u + v y y = u − v entonces = − . Supón que f es de
∂u∂v ∂x 2 ∂y 2
clase C2 .
( 6.38 ) Supón que f, g ∈ C2 (R, R) y defíne F : R2 → W dada por F(x, y) = f(x − y) + g(x + y). Entonces
∂2 F ∂2 F
= .
∂x 2 ∂y 2
( 6.39 ) Sea f : Rn → Rm definida como f(X) = AX donde A ∈ Matm×n (R) . Supón que g se define de la misma
∂(f + λg) ∂(A + λB)X
manera pero usando B ∈ Matm×n (R) . Entonces = = A + λB. Esta es otra ventaja de
∂X ∂X
la notación clásica.
( 6.40 ) Sea F(X) = X t AX, donde X ∈ Rn , A ∈ Matm×n (R) y X t denota el vector transpuesto de X. Entonces
F es diferenciable y que DF (X) = 2AX. Recuerde que la fórmula Y t Y es equivalente a Y · Y .
211
Capítulo 6. Las derivadas de una función.
212
Capítulo 7
• El teorema de Taylor.
El teorema de Taylor es uno de los teoremas más importantes dentro del cálculo diferencial en
varias variables. Este teorema permite aproximar una función a valores reales mediante polinomios,
conocidos como «desarrollos limitados». Como un polinomio es suave (en el sentido que es clase C∞ ,
ve el ejercicio (6.15)) deberán pedirse hipótesis de suavidad a la función. Por otro lado, para desarrollar
la teoría del polinomio de Taylor será imprescindible definir a las derivadas de orden superior. Para
esto, primero se desarrollará la segunda derivada de tal forma que la teoría expuesta sea partiendo
desde un punto de vista geométrico. Por esta razón se ha empezado definiendo a las formas cuadráticas
en Rn . Una vez que sea estudiada la segunda derivada se introducirán las derivadas de orden superior.
( 7.1.1 ) Se dirá que una función es una forma cuadrática si es una función polinomial homogénea de segundo
grado. Esto es, f es una forma cuadrática en n variables si es una función polinomial tal que para cualesquier
X ∈ Rn y λ ∈ R se tiene que f(λX) = λ 2 f(X).
Observaciones:
213
Capítulo 7. El teorema de Taylor.
3. Más generalmente, si f es una forma cuadrática en n variables entonces existen constantes ai,j ∈ R
para i = 1, . . . , n y j = 1, . . . , n tales que
n X
X n
f(x1 , . . . , xn ) = ai,j xi xj .
i=1 j=1
4. De la observación previa, en R2 se puede demostrar que las curvas de nivel de una forma cua-
drática tiene por forma secciones cónicas (posiblemente degeneradas). Esto es, toda ecuación de
la forma ax 2 + bxy + cy 2 = k para alguna k ∈ R representa una sección cónica. Por ejemplo,
la forma cuadrática f(x, y) = x 2 + y 2 tiene por curvas de nivel círculos, mientras que la forma
cuadrática f(x, y) = x 2 − 3y 2 tiene por curvas de nivel hipérbolas. En general, la forma cuadrática
f(x, y) = ax 2 + by 2 tiene curvas de nivel círculo si a = b, elipses si ab > 0 e hipérbolas si ab < 0.
Si ab = 0 entonces f(x, y) = ax 2 + by 2 tiene por curvas de nivel rectas paralelas a los ejes, el
conjunto vacío o todo R2 .
Ç å
n n
( 7.1.2 ) El conjunto de las formas cuadrática definidas en R es un espacio vectorial real de dimensión =
2
n(n + 1)
.
2
Sea V el conjunto de las formas cuadráticas definidas en Rn . Claramente V es subconjunto no vacío
n
(pues 0 ∈ V ) del espacio vectorial R(R ) , el espacio vectorial de todas las funciones de Rn en R. Luego,
basta ver que V es cerrado ante combinaciones lineales de sus elementos. Sean f, g ∈ V , λ, µ ∈ R y
X ∈ Rn . Entonces
Por otro lado, como f y g son funciones polinomioales, f + λg también lo es. Al ser f + λg una función
polinomial homogénea de segundo grado se concluye que es una forma cuadrática. Esto demuestra
que f + λg ∈ V . Con lo que se concluye que V es un espacio vectorial real.
n(n + 1)
Se verá ahora que dim V = . Para esto, se exhibirá explícitamente una base de V . Considera
2
las funciones fi,j = pri prj , para i = 1, . . . , n y j = i, . . . , n. Se afirma que B = {fi,j |i = 1, . . . , , j = i, . . . , n}
es una base de V . Como todo f ∈ V puede escribirse de la forma
n X
X n n
X X
f(t1 , . . . , tn ) = ai,j ti tj = ai,j ti2 + (ai,j + aj,i )ti tj ,
i=1 j=1 i=1 i6=j
n X
X n
el conjunto B genera a V . Resta demostrar que es linealmente independiente. Supón que ai,j fi,j =
i=1 j=i
0 entonces para todo (t1 , . . . , tn ) ∈ Rn se tiene que
n X
X n n X
X n n
X n X
X n
ai,j fi,j (t1 , . . . , tn ) = ai,j ti tj = ai,i ti2 + ai,j ti tj = 0.
i=1 j=i i=1 j=i i=1 i=1 j=i+1
214
7.1. Formas cuadráticas.
Por lo que, a1,1 = a1,2 = . . . = an,n−1 = an,n = 0, mostrando que {fi,j } es linealmente independiente, con
(n + 1)n
lo cual, dim V = .
2
215
Capítulo 7. El teorema de Taylor.
que es positivo si (x, y) 6= (0, 0). Por lo tanto, esta forma cuadrática está definida positivamente.
Finalmente, en el tercer caso, se completa el cuadrado. Esto es,
( 7.1.6 ) Sea f una forma cuadrática en n variables. Supón que, de acuerdo con (7.1.2),
n X
X n
f= ai,j pri prj .
i=1 j=i
Observaciones:
1. Cuando f es una forma cuadrática en R2 la definición anterior implica que f está en forma diagonal
si i1 = i2 = 1 Ñ ai1 i2 = 0. Si se piensa que f(x, y) = ax 2 + bxy + cy 2 entonces f está en forma
diagonal si b = 0. Análogamente, en R3 una forma cuadrática f(x, y, z) = ax 2 + by 2 + cz2 + dxy +
exz + fyz está en forma diagonal si d = e = f = 0.
donde ai = f(ei ).
3. Luego, una forma cuadrática dispuesta en forma diagonal está definida positivamente si ai > 0
para todo i; está definida semipositivamente si ai ≥ 0 para todo i; está definida negativamente si
ai < 0 para todo i; está definida seminegativamente si ai ≤ 0 para todo i y está no definida si
existen ai y aj con ai aj < 0.
( 7.1.7 ) Encuentra un criterio en términos de los coeficientes para determinar si la forma cuadrática ax 2 + bxy +
cy 2 está definida positivamente, semipositivamente, negativamente, seminegativamente o si está no definida.
Para una forma cuadrática en general es difícil decidir si esta esta definida de algún modo. Luego,
se tratará de llevarla a forma diagonal. Para esto, se intentará completar el cuadrado como antes. Para
empezar, si a 6= 0 se puede proceder como sigue,
Å ã
b
ax 2 + bxy + cy 2 = a x 2 + 2x y + cy 2
2a
Ç å
2 b b2 2 2 b2 2
= a x + 2x y + y + cy − y
2a 4a2 4a
ã2 Ç å
b2
Å
b
= a x+ y + c− y2.
2a 4a
216
7.1. Formas cuadráticas.
b
Haciendo u = x + y y v = y, se encuentra que la forma cuadrática original está dada por
2a
Ç å
2 b2
au + c − v2.
4a
b2
En esta forma, es fácil notar que la forma cuadrática está definida positivamente si a > 0 y c − > 0,
4a
equivalentemente, a > 0 y 4ac − b2 > 0. Está definida semipositivamente si a > 0 y 4ac − b2 ≥ 0.
Está definida negativamente si a < 0 y 4ac − b2 > 0, seminegativamente si a < 0 y 4ac − b2 ≥ 0 y no
está definida si a > 0 y 4ac − b2 < 0 o bien, si a < 0 y 4ac − b2 > 0. Para el caso en que a = 0, la
forma cuadrática se reduce a bxy + cy 2 = y(bx + cy). Claramente al hacer x = αy, se ve que la forma
cuadrática toma la forma (αb + c)y 2 , lo que muestra que está no definida si b 6= 0. Si b = 0 entonces
toma la fomra cy 2 , la cual poseerá el signo de c. Como resumen para una forma cuadrática en R2 , se
tiene la siguiente tabla
Tipo Coeficientes
Definida positivamente a > 0, 4ac − b2 > 0 o a = b = 0, c > 0
Definida semipositivamente a > 0, 4ac − b2 ≥ 0 o a = b = 0, c ≥ 0
Definida negativamente a < 0, 4ac − b2 > 0 o a = b = 0, c < 0
Definida seminegativamente a < 0, 4ac − b2 ≥ 0 o a = b = 0, c ≤ 0
No definida En cualquier otro caso
Esto concluye la caracterización.
En el ejemplo anterior, para caracterizar a las formas cuadráticas en R2 se utilizó el método de
completar el cuadrado. En general este método no es el más recomendable (considera por ejemplo, la
forma cuadrática (x, y, z) 7Ï 3x 2 + 6y 2 − 2z2 + 3xy − 18yz + 5xz), pero siempre funciona (ve la prueba de
(7.2.1)). Sin embargo, existe un modo de proceder y es equivalente en R2 al de completar el cuadrado.
Observa que en el ejemplo anterior se introdujeron las variables u y v. Esto se conoce como un cambio
de variables.
( 7.1.8 ) Un campo vectorial T : Rn → Rn es un cambio de variable si es una biyección. Si, además, T es lineal,
se dirá que es un cambio de variable lineal.
En particular, cuando se cambia el parámetro a una curva se está realizando un cambio de variable.
En general, se dirá que se ha hecho un cambio de variable si dada una función esta ha sido precompuesta
con un cambio de variable. Esto es, si en lugar de trabajar con F se trabaja con F ◦ T. En el ejemplo
anterior, se tenía que f(x,Ç y) = ax 2å+ bxy + cy 2 . Luego, para encontrar T se procede como sigue, dado
b2 b
que (f ◦ T)(u, v) = au2 + c − v 2 . En el ejemplo se hizo u = x + y y v = y, luego definiendo
4a 2a
Å ã
b
S(x, y) = x + y, y = (u, v), se encontra que
2a
Å ã
b
(f ◦ T ◦ S)(x, y) = (f ◦ T)(u, v) = (f ◦ T) x + y, y
2a
Å ã2 Ç 2
å
b b
= a x+ y + c− y2
2a 4a
Ç å Ç å
2 b b2 2 b2
= a x + xy + y + c− y2
a 4a2 4a
= ax 2 + bxy + cy 2 .
217
Capítulo 7. El teorema de Taylor.
Å ã
b
De este modo, S es la inversa T. Para encontrar T se invierte S, luego T(x, y) = x − y, y .
2a
Como en el ejemplo pasado, para una forma cuadrática en dos variables a veces es más natural
proceder a completar el cuadrado y dar la inversa de T explícitamente. Si T no es necesaria no se
procede a encontrarla.
( 7.1.9 ) Sea f : Rn → R un polinomio y T : Rn → Rn un cambio de variable lineal. Entonces f ◦ T es un
polinomio.
Como f es una suma finita de monomios se puede suponer que f es un monomio. Se sabe que T
toma la forma !
n
X n
X
T(x1 , . . . , xn ) = t1,i xi , . . . , tn,i xi ,
i=1 i=1
n
!i1 n
!in
X X
(f ◦ T)(x1 , . . . , xn ) = c t1,i xi ··· tn,i xi ,
i=1 i=1
218
7.1. Formas cuadráticas.
( 7.1.12 ) Sean f y g formas cuadráticas en n variables tales que f ∼ = g. Para que f satisfaga alguna de las
siguientes propiedades es necesario y suficiente que g la satisfaga también:
1. f está definida positivamente;
2. f está definida semipositivamente;
3. f está definida negativamente;
4. f está definida seminegativamente;
5. f está no definida.
Por ser ∼
= una relación de equivalencia basta demostrar que si f satisface alguna de las propiedades
anteriores entonces g también.
Se supone que f está definida positivamente y que f = g ◦T. Se verá que g está definida positivamente.
Sea Y ∈ Rn con Y 6= 0, como T es invertible, T −1 Y 6= 0 y entonces
Esto muestra que g está definida positivamente. Los casos donde f está definida semipositivamente,
negativamente y seminegativamente son análogos.
Supón ahora que f no está definida. Existe un X 6= 0 tal que f(X) > 0 y existe un Y 6= 0 tal que
f(Y ) < 0. Pero, f(X) = g(TX) > 0 y TX 6= 0 por ser X 6= 0 y T invertible. Análogamente, g(TY ) < 0 y
TY 6= 0. Luego, g está no definida.
De este teorema se sigue inmediatamente que para determinar si una forma cuadrática está definida
de algún modo basta considerar una forma cuadrática más simple. Luego, es deseable que toda forma
cuadrática sea equivalente a una forma diagonal. Esto será discutido en la siguiente sección, al estudiar
la ley de inercia de Sylvester2 .
De esta expresión es tentador proceder a factorizar el vector X = (x1 , . . . , xn ). Para esto, se observa lo
siguiente
∞Ñ é ∫
Xn X n n
X n
X n
X n
X
ai,j xi xj = xi ai,j xj = a1,j xj , a2,j xj , . . . , an,n xn , X .
i=1 j=i i=1 j=i j=1 j=2
Toma ahora A = (bi,j ), donde bi,j = 0 si i > j y bi,j = ai,j en otro caso. De la definición de producto
matricial
X n X n
ai,j xi xj = hAX, Xi .
i=1 j=1
2 En honor de James Joseph Sylvester (3 de septiembre 1814 - 15 de marzo 1897) un matemático inglés, quien se especializó
219
Capítulo 7. El teorema de Taylor.
El problema resulta ahora que f 7Ï A no es una función (muchas A representan la misma f), pues
ai,j ai,j
si B se obtiene de A al cambiar las entradas (supón que i < j) bi,j y bj,i por y bj,i = se
2 2
obtiene que f también está representada por B. Esta falta de unicidad surgen del hecho el espacio de
n(n + 1)
formas cuadráticas en n variables posee dimensión y no n2 . Luego, se tienen una infinidad de
2
diferentes matrices A que representan a f. Sin embargo, dentro de todas estas matrices existe una única
ai,j
matriz símetrica B que la representa. Tal matriz se obtiene al hacer (se supone i < j) bi,j = bj,i = .
2
Equivalentemente, si se encuentra una matriz A tal que f(X) = hAX, Xi entonces la única matriz simétrica
A + AT
asociada a f viene dada por B = . Esto se resume en el siguiente teorema.
2
( 7.1.13 ) Sea V ⊂ P (Rn ) el espacio de formas cuadráticas en n variables y W ⊂ Matn×n (R) el espacio de
matrices simétricas. Se tiene que V y W son isomorfos. De hecho, si f(X) = hAX, Xi para alguna A ∈ Matn×n (R)
A + AT
entonces el único elementos B ∈ W asociado a f viene dado por B = .
2
n(n + 1)
Ya se demostró que V tiene dimensión . Queda de ejercicio para el lector demostrar que
2
W tiene la misma dimensión. Por lo tanto, basta dar una inyección lineal de W en V . Sea Φ : W → V
tal que manda B a la forma cuadrática X 7Ï hBX, Xi , se deja de ejercicio verificar que Φ es lineal. Se
supone entonces que Φ(S) = Φ(T). Evaluando en ei , queda que
si,i + sj,i + si,j + sj,j = S(ei + ej ) · (ei + ej ) = Tei · ej = ti,i + tj,i + ti,j + tj,j .
De donde, si,j + sj,i = ti,j + tj,i . Al ser S y T simétricas, se concluye que S = T. Se ha mostrado entonces
que V y W son isomorfos.
A + AT
Supón ahora que f(X) = hAX, Xi para alguna A ∈ Matn×n (R) . Claramente B = es simétrica.
2
Se ve ahora que f(X) = hBX, Xi . Se tiene que
Æ ∏
hAX, Xi + AT X, X
AX + AT X
hBX, Xi = ,X = ,
2 2
n X
n n X
n
T X X
A X, X = aj,i xi xj = ai,j xi xj = hAX, Xi ,
i=1 j=1 j=1 i=1
220
7.2. Ley de inercia de Sylvester.
Sea f la forma dada, se encuentra una matriz cuadrada A tal que f(X) = hAX, Xi . Una matriz
A ∈ Mat3×3 (R) que representa a f está dado por
3 1 4
A = 0 2 −2 .
0 0 −7
A + AT
Luego, la única matriz simétrica asociada a f viene dada por B = , de este modo, la matriz B
2
buscada es
1
3 2 2
B = 21 2 −1 .
2 −1 −7
En general, es más fácil dar A directamente y después encontrar B.
donde p y n solo dependen de la clase de equivalencia de g. A estos números se les llama los índices
de inercia positivo y negativo. A la diferencia p − n se le conoce como la signatura de A. A continuación
se enuncia, demuestra y se exhiben algunos ejemplos del teorema.
( 7.2.1 ) Sea f una forma cuadrática definida en Rn . Existe un cambio de variable lineal T que diagonaliza a
f; esto es, f ◦ T es diagonal. Más aún, si S es un cambio de variable lineal donde f ◦ S es diagonal entonces el
número de coeficientes positivos de f ◦ S y los de f ◦ T son iguales; la «ley de inercia de Sylvester». Mismo para
coeficientes negativos.
Se va a realizar la demostración utilizando inducción matemática. Define H el conjunto de los
números naturales n para los cuales toda forma cuadrática definida en Rn es equivalente a una forma
cuadrática en forma diagonal. Se verá que H = N.
Para empezar, 1 ∈ H pues toda forma cuadrática en una variable es de la forma ax 2 , para algún
a ∈ R, luego, ya está dispuesta en forma diagonal. Supón ahora que n ∈ H y toma f : Rn+1 → R una
forma cuadrática cualquiera. Para utilizar inducción lo más natural es tratar de eliminar una de las
variables de f, dicho de otro modo, disponer f como sigue
donde yn+1 es función lineal de x1 , . . . , xn+1 . Si es posible escribir a f de esta forma, el principio de
inducción asegura que g es equivalente a una forma diagonal, luego existe un Tg : Rn → Rn tal que
g ◦ Tg está en forma diagonal. Así,se podría definir T : Rn+1 → Rn+1 por
Por ende, todo se reduce a encontrar yn+1 , la cual, como se mencionó, deberá ser una expresión lineal
en (posiblemente todas) las variables x1 , . . . , xn+1 .
221
Capítulo 7. El teorema de Taylor.
Supón que
n+1 X
X n+1
f(x1 , . . . , xn+1 ) = ai,j xi xj .
i=1 j=i
Se hace una reducción del problema, se supone que an+1n+1 6= 0. Ahora se agrupa todos los términos
que involucran a la variable xn+1 . Queda que,
n X
X n n+1
X
f(x1 , . . . , xn+1 ) = ai,j xi xj + ai,n+1 xi xn+1 .
i=1 j=i i=1
n X
X n
Luego, se define h : Rn → R dada por h(x1 , . . . , xn ) = ai,j xi xj . Por lo tanto, para concluir, se debe
i=1 j=i
n+1
X
escribir la expresión ai,n+1 xi xn+1 como una constante por una combinación lineal de todas las xi
i=1
elevada al cuadrado. Como se ha supuesto que an+1,n+1 6= 0, se puede dividir por esta variable, queda
que !
n+1 n
X X ai,n+1 2
ai,n+1 xi xn+1 = an+1,n+1 xi xn+1 + xn+1 .
an+1,n+1
i=1 i=1
ai,n+1
Se define bi = para i = 1, . . . , n entonces la expresión entre paréntesis anterior es
2an+1,n+1
2
2b1 x1 xn+1 + . . . + 2bn xn xn+1 + xn+1 .
en donde H(x1 , . . . , xn ) consiste en aquellos términos que no involucran a xn+1 . Haciendo ci = bi para
i = 1, . . . , n se encuentra que
n
X
2 2
bi xi xn+1 + xn+1 = 2b1 x1 xn+1 + . . . + 2bn xn xn+1 + xn+1
i=1
+H(x1 , . . . , xn ) − H(x1 , . . . , xn )
n
!2
X
= ci xi + xn+1 − H(x1 , . . . , xn )
i=1
De donde, !2
n
X
f(x1 , . . . , xn+1 ) = h(x1 , . . . , xn ) − H(x1 , . . . , xn ) + ci xi + xn+1 ,
i=1
de donde, se toma g = h − H y se ve que es una forma cuadrática que solo depende de las primeras n
variables. Luego, ha sido demostrado el teorema para el caso donde an+1,n+1 6= 0.
Se ve ahora el caso donde an+1,n+1 = 0. Supón primero que ai,i 6= 0 para algún i ∈ {1, . . . , n}. Define
T : Rn+1 → Rn+1 dada por
222
7.2. Ley de inercia de Sylvester.
es claro que T es un cambio de variable lineal. De este modo, es inmediato que el coeficiente de xn+1 de
f ◦ T es no nulo, por lo que aplica el caso anterior a f ◦ T. Luego, se puede encontrar S : Rn+1 → Rn+1
tal que f ◦ T ◦ S es diagonal. Por lo tanto, la transformación buscada para este caso es T ◦ S. Finalmente,
supón que ai,i = 0 para i = 1, . . . , n + 1. Entonces, para f la transformación cero no hay nada que
demostrar, por lo que se supondrá que existe aij 6= 0. Pasando por un cambio de variable se puede
suponer que i < j, define T : Rn+1 → Rn+1 dada por T = (T1 , . . . , Tn+1 ), donde Tk (x1 , . . . , xn+1 ) = xk si
k = 1, . . . , i − 1, i + 1, . . . , j − 1, j + 1, . . . , n y
xi + xj xi − xj
Ti (x1 , . . . , xn+1 ) = , Tj (x1 , . . . , xn+1 ) = .
2 2
Observa lo siguiente, e + e
i j
f(T(ei )) = f = ai,i + ai,j + aj,j = ai,j .
2
Luego, por los casos anteriores, f ◦ T es equivalente a una forma diagonal. Al agotar todos los casos, se
concluye que n + 1 ∈ H y, por lo tanto, H = N. Por ende, toda forma cuadrática real es equivalente a
una forma cuadrática diagonal.
Se ve ahora que si f ◦ T y f ◦ S son formas cuadráticas equivalentes y diagonales entonces el
número de coeficientes positivos, negativos y nulos coinciden. Utilizando cambios de coordenadas, se
puede trabajar en Ran (S) = Rn . Luego, se puede pensar que f está en forma diagonal y que T es una
transformación que manda f a otra forma diagonal. Cambiando el orden de las coordenadas se puede
suponer que, respecto de f ◦ T, los términos positivos empiezan y luego los negativos. Supón entonces
que
p1 p1 +n1
X X
2
f(x1 , . . . , xn ) = αi xi − αi xi2
i=1 i=p1 +1
y
p2 p2 +n2
X X
(f ◦ T)(x1 , . . . , xn ) = βi xi2 − βi xi2 ,
i=1 i=p2 +1
donde todos los αi y los βj son números positivos. Se quiere demostrar que p1 = p2 y que n1 = n2 .
Para esto, observa que f ◦ T ◦ T −1 = f. Escribe T −1 = (t1 , . . . , tn ) entonces, se ha de cumplir que para
cualquier X ∈ Rn
p1 p1 +n1 p2 p2 +n2
X X X X
αi xi2 − αi xi2 = βi (ti X)2 − βi (ti X)2 ,
i=1 i=p1 +1 i=1 i=p2 +1
de donde,
p1 p2 +n2 p2 p1 +n1
X X X X
αi xi2 + βi (ti X)2 = βi (ti X)2 + αi xi2 .
i=1 i=p2 +1 i=1 i=p1 +1
y que
dim T (Rp2 × {0}n−p2 ) = p2
223
Capítulo 7. El teorema de Taylor.
se ve que la dimensión de {0}p1 ×Rn−p1 ∩T (Rp2 × {0}n−p2 ) es al menos p2 −p1 , demostrando lo afirmado.
Par tal X se tiene que T −1 X ∈ Rp2 × {0}n−p2 . De donde,
p1 p2 +n2
X X
αi xi2 + βi (ti X)2 = 0,
i=1 i=p2 +1
con lo que,
p2 p1 +n1
X X
2
βi (ti X) + αi xi2 = 0.
i=1 i=p1 +1
−1
Al ser X 6= 0 y T invertible, se concluye que existe un k para el cual tk X 6= 0, luego
p2 p1 +n1
X X
βi (ti X)2 + αi xi2 ≥ βk (tk X)2 > 0,
i=1 i=p1 +1
que es una contradicción. Por lo tanto, p1 6< p2 . Considerando X ∈ Rp1 × {0}n−p1 ∩ T({0}p2 × Rn−p2 )
se puede concluir que p2 6< p1 , con lo que p1 = p2 . Considerando −f y −f ◦ T se ve que n1 = n2 . Se
concluye lo pedido.
La demostración anterior es constructiva, de ella se puede deducir como definir los cambios de
variable en casos particulares.
De esta forma,
y z 2
f(x, y, z) = 2 x + + − 2∆ + y 2 − 2yz.
4 4
Ahora se debe completar el cuadrado
y 2 + yz + z2 7 17 1
−2∆ + y 2 − 2yz = − + y 2 − 2yz = y 2 − yz − z2 .
8 8 8 8
224
7.2. Ley de inercia de Sylvester.
p 1 pr (X)
k si ak 6= 0
prk (TX) = |ak |
prk (X) si ak = 0.
Es claro que T es lineal, luego basta demostrar que es inyectiva para ver que es cambio de variable.
Supón que TX = 0, tomando la proyección k-ésima, queda que
ck xk = prk (TX) = prk (0) = 0.
donde ck 6= 0, luego xk = 0. Así, Nuc (T) = {0}, mostrando que T es inyectiva y, por ende, invertible.
Se ve ahora que f ◦ T tiene coeficientes no nulos unitarios. Sea 1 ≤ k ≤ n tal que ak 6= 0. Luego, el
coeficiente k-ésimo de f ◦ T tiene norma
n
X a
2 k
|f(Tek )| = ai pri (Tek ) = = 1.
|ak |
i=1
225
Capítulo 7. El teorema de Taylor.
( 7.2.5 ) Sea f una forma cuadrática y [f] su clase de equivalencia entonces g ∈ [f] es está dispuesta en forma
canónica si todos los coeficientes no nulos de g son unitarios.
Como corolario de estos teoremas se tiene lo siguiente. Tomando V las formas cuadráticas en n
variables, 0 ≤ h, k ≤ n y ∼ la relación de equivalencia definida por cambios de variable lineales, existe
V
una única clase de equivalencia en tal que sus elementos tienen signatura h y rango k. Para ver
∼
V
esto se supone que existen dos clases [f] y [g] en tales que ambas tienen signatura h y rango k. Sea
∼
pf el numero de coeficientes positivos de un elemento canónico en [f] y nf el número de coeficientes
negativos de un elemento canónico en [f]. Define pg y ng de manera análoga en [g]. Se tiene que
pf − nf = pg − ng = k y pf + nf = pg + ng = h. Sumando y restando, se obtiene que 2pf = h + k = 2pg
y 2nf = h − k = 2ng , con lo que pf = pg y nf = ng . Por lo que, f y g son equivalentes a los forma
cuadrática
pf pf +ng
X X
2
xk − xk2 .
k=1 k=pf +1
(n + 1)(n + 2)
( 7.2.6 ) Sea V el espacio de las formas cuadráticas en Rn ; existen clases de congruencia definidas
2
por elementos de V .
Esto es una consecuencia casi inmediata de la observación anterior. Para empezar, se observa la
siguiente tabla:
226
7.3. Segunda derivada.
227
Capítulo 7. El teorema de Taylor.
Linealidad. Sean B1 , B2 ∈ Bil(U, V ; W ) y λ ∈ R. Se debe demostrar que φB1 +λB2 = φB1 + λφB2 . Esto es,
debe demostrarse que para cada u ∈ U las transformaciones lineales φB1 +λB2 (u) y φB1 (u) + λφB2 (u)
coinciden; esto es, que para todo v ∈ V los elementos en W
y
φB1 (u)v + λφB2 (u)v = B1 (u, v) + λB2 (u, v)
son el mismo, lo cual es claro.
Bφ (u, v) = φ(u)v.
Sea Ψ : Lin (U, Lin (V , W )) → Bil(U, V ; W ) dada por Ψ(φ) = Bφ . Para φ ∈ Lin (U, Lin (V , W )) se
tiene que
Por definición, (Φ ◦ Ψ)(φ) = Φ(Bφ ) y dado (u, v) ∈ U × V , Φ(Bφ )(u)v = Bφ (u, v) = φ(u)v; lo cual
muestra que
(Φ ◦ Ψ) = ILin(U,Lin(V ,W )) .
Análogamente,
(Ψ ◦ Φ) = IBil(U,V ;W ) ,
−1
lo cual deviene en que Ψ = Φ .
Isometría. Ahora se demostrará que Φ preserva la norma. Sea φ ∈ Lin (U, Lin (V , W )) . Entonces, de
los ejercicios (5.71) y (5.73) se sigue que
Observación: a partir de este teorema los dos espacios vectoriales Lin (U, Lin (V , W )) y Bil(U, V ; W ) se
considerarán indistinguibles; esto es, se supondrá que son el mismo conjunto. Entonces, si se habla de
una forma bilineal B, esta se identificará con una función φB : U → Lin (V , W ) y se escribirá, por abuso
de notación, φB (u) = B(u, ·). Además, para facilitar la notación, cuando U = V se pondrá Lin(2) (V , W )
para denotar a cualquiera de estos espacios. Con esto, ya es posible dar una definición estilizada de
derivada.
( 7.3.2 ) Sean f : A ⊂ V → W y v un punto interior de A. Supón que Df existe en una bola B (v; r) . Se dirá
que f es dos veces diferenciable en v si Df : B (v; r) → Lin (V , W ) es diferenciable en v. Se dirá que f es dos
veces diferenciable si A es abierto y su segunda derivada existe en cada punto de A.
228
7.3. Segunda derivada.
Observación: se hace hincapié en que la segunda derivada de una función en un punto es una formal
bilineal que depende del punto. Esto se ha preferido a cualquier otra opción pues así la primera derivada
de una función en un punto es una forma lineal que depende del punto. En general, se definirá la k-ésima
derivada de una función en un punto como una forma k-lineal que depende del punto.
π π
( 7.3.3 ) Calcula la segunda derivada de f(x, y) = sin x cos y en el punto P = , .
4 4
Se utilizará (6.3.9). Entonces, se encuentra la primera derivada de f. Según (6.2.4), la primera derivada
de f es (después de ser transportada de Lin R2 , R a R2 )
229
Capítulo 7. El teorema de Taylor.
Luego,
D2 f (x0 , y0 ) ((h1 , k1 ), (h2 , k2 )) = 2ah1 h2 + bk1 h2 + bh1 k2 + 2ck1 k2 .
230
7.4. Propiedades de la segunda derivada.
donde M j es la j-ésima columna de M. Ha sido demostrado entonces que si la matriz M existe entonces
viene dada por M = (mi,j ) = (B(ej , ei )). Para demostrar que tal M existe, define M tal que su entrada
(i, j) es B(ej , ei ). Se comprueba fácilmente que B(u, v) = hMu, vi para cualesquier u, v ∈ Rn .
Supón ahora que B = D2 f (P) . Entonces,
B(ej , ei ) = (D2 f (P) ej )ei .
Lo que resta es encontrar la expresión en el lado derecho de la ecuación anterior. Para esto, se observa
que la función Df viene dada por
Df (P) = (D1 f (P) , . . . , Dn f (P)) .
Luego, su derivada viene dada por
D1,1 f (P) ... Dn,1 f (P)
2
D f (P) = .. .. ..
.
. . .
D1,n f (P) ... Dn,n f (P)
Por ende, B(ej , ei ) = Dj,i f (P) . Finalmente, se ha mostrado que la matriz M asociada a la segunda
derivada de la función f en el punto P viene dada por
D1,1 f (P) . . . Dn,1 f (P)
M= .. .. ..
,
. . .
D1,n f (P) ... Dn,n f (P)
que era de esperarse. Esta matriz se denomina la matriz Hessiana6 de f.
( 7.4.3 ) Sea f : A ⊂ Rn → R cuyas funciones de segundas derivadas parciales existen en P. Se define la matriz
hessiana de f en P por
D1,1 f (P) ... Dn,1 f (P)
Hessf (P) = .. .. ..
.
. . .
D1,n f (P) ... Dn,n f (P)
5 Esto es, se va a demostrar que existe una matriz M ∈ Matn×n (R) tal que B(u, v) = hMu, vi .
6 En honor de Ludwig Otto Hesse (22 abril 1811 - 4 agosto 1874), un matemático alemán.
231
Capítulo 7. El teorema de Taylor.
Observaciones:
1. Nota que si Hessf (P) = (mi,j ) entonces el elemento mi,j es Dj,i f (P) y no Di,j f (P) , como es definido
por algunos autores. Sin embargo, cuando f es de clase C2 en un abierto, tales parciales coinciden
y no existe peligro a confusión.
2. Es destacable que se ha definido Hessf (P) siempre que existan todas las segundas parciales de
f en P. Esto es, la matriz anterior puede existir aún sin f ser dos veces diferenciable en P. Para
éste caso especial, ha sido demostrado el siguiente teorema.
( 7.4.4 ) Sea f : A ⊂ Rn → R dos veces diferenciable en P. Entonces, existe un única matriz M ∈ Matn×n (R)
tal que D2 f (P) (u, v) = hMu, vi . Más aún, la matriz M anterior es la matriz Hessf (P) .
( 7.4.5 ) Encuentra la segunda derivada de f(x, y) = sin x cos y.
Para empezar, f ∈ C∞ R2 , R , por lo que es dos veces diferenciable. Luego, se tiene que la segunda
derivada está dada por Hessf (P) . Pero,
ï ò
D1,1 f (P) D2,1 f (P)
Hessf (P) =
D1,2 f (P) D2,2 f (P)
ï ò
− sin x cos y − cos x sin y
= .
− cos x sin y − sin x cos y
Que concluye el ejercicio.
en el sentido que
D2 F (P) (u, v) = D2 f1 (P) (u, v), . . . , D2 fm (P) (u, v) .
en donde (Ei,j ) es la base canónica de las matrices cuadradadas de orden n. En vitud del ejemplo (6.3.9),
D2 f (P) existe si y solo si la derivada de cada función Dj fi existe; esto es equivalente a que cada Dfi
sea diferenciable en P; esto es equivalente a que cada fi sea dos veces diferenciable en P. Ahora se
demostrará
D2 F (P) (u, v) = D2 f1 (P) (u, v), . . . , D2 fm (P) (u, v) .
Según (6.2.6),
n
X n
X
DF (P) u = ui Di F (P) = ui (Di f1 (P) , . . . , Di fm (P)) = (Df1 (P) u, . . . , Dfm (P) u).
i=1 i=1
232
7.4. Propiedades de la segunda derivada.
( 7.4.6.1 ) Sea f : A ⊂ V → W una función dos veces diferenciable en v. Sea h ∈ V cualquier vector y considera
la función g(u) = Df (u) h. Entonces g es diferenciable en v y Dg (v) k = D2 f (v) (h, k).
Considera la función φ : Lin (V , W ) → W dada por φ(T) = Th; obviamente φ es lineal y g = φ ◦ Df.
De la regla de la cadena
Dg (v) = D(φ ◦ Df) (v) = Dφ (Df (v)) D2 f (v) = φ D2 f (v) = D2 f (v) (u, ·) ∈ Lin (V , W ) .
donde al evaluar en (u, v) se estará pensando que esta operación se realiza coordenada a coordenada.
Antes de dar el teorema se necesita de una definición.
( 7.4.7 ) Sea F : A ⊂ Rn → Rm . Supón que para algún P ∈ A existen todas las derivadas de segundo orden de
F. Se define la matriz hessiana de F en P como
HessF (P) = Hessf1 (P) , . . . , Hessfm (P) ,
donde la expresión de la derecha se entiende como la concatenación por columnas7 de todas las matrices hessianas.
El teorema que se ha demostrado es el siguiente.
( 7.4.8 ) Sea F : A ⊂ Rn → Rm dos veces diferenciable en P. Entonces su segunda derivada en P tiene matriz
asociada a
HessF (P) = [HessF1 (P) , . . . , HessFm (P)] ,
donde evaluar en (u, v) significa hacerlo en cada coordenada.
( 7.4.9 ) Encuentra la segunda derivada de
De acuerdo al teorema anterior, la segunda derivada de F en (x, y) es HessF (x, y) . Pero, HessF (x, y)
es la matriz dada según
1 − x2
2 0
2 + y 2 exy 2 + exy + xyexy
ï ò
, (1 + x 2 )2
2 ,
2 + exy + xyexy 2 xy
x e 1−y
0 2
(1 + y 2 )2
que es la expresión buscada.
h i h i
7 Por a11 a12 b11 b12
ejemplo, la concatenación por columnas de las matrices A = yB= está dada por la matriz
a21 a22 b21 b22
hh i h ii
a11 a12 b11 b12
[A, B] = , .
a21 a22 b21 b22
233
Capítulo 7. El teorema de Taylor.
234
7.5. Derivadas superiores.
π
Z2
( 7.4.11 ) Sea V = lin h{sin, cos}i . Considera la función f : V → R dada por f(v) = v(t)dt + sin(v(π)). ¿Es
0
f dos veces diferenciable? Encuentra la matriz asociada a su segunda derivada respecto a la base generadora de
V.
D2 f (v) (h1 sin +k1 cos, h2 sin +k2 cos) = D2 g (a, b) ((h1 , k1 ), (h2 , k2 )) = sin(−b)h2 k2 .
Al igual que antes, cuando U1 = . . . = Un = V se denotará por Lin(n) (V , W ) al conjunto de las trans-
formaciones n-lineales de V a W . Observa que para k < n y v1 , . . . , vk ∈ V cualesquiera, se obtiene
que
M(v1 , . . . , vk , ·, . . . , ·) ∈ Lin(n−k) (V , W ) .
˚
( 7.5.1 ) Sean f : A ⊂ V → W una función y v ∈ A. Û Supón que se ha podido definir la derivada k-ésima de f,
k
denotada por D f, y que esta existe en una bola B (v; r) ⊂ A. Se dirá que f es (k + 1) veces diferenciable en v
si la función Dk f : B (v; r) → Lin(k) (V , W ) es una función diferenciable en v. La derivada (k + 1)-ésima de f se
denotará por Dk+1 f (v) .
Si una función tiene derivada k-ésima para cada k ∈ N, se dirá entonces que es indefinidamente diferenciable.
235
Capítulo 7. El teorema de Taylor.
z 7.5.1 Ejemplos.
( 7.5.2 ) Toda función constante es indefinidamente diferenciable y, además, todas sus derivadas son cero.
( 7.5.3 ) Una transformación lineal es indefinidamente diferenciable, encuentra cada una de sus derivadas.
Sea L lineal de V a W . Se ha visto antes que DL (v) = L, para cada v ∈ V ; su derivada es una función
constante. De esto se sigue que D2 L = 0 y, como es de esperarse, Dk L = 0 para todo k ≥ 2.
La derivada k-ésima de una función lineal, k ≥ 2, es la forma k-lineal cero; debes tener presente
esto.
( 7.5.4 ) Sea B : V1 × V2 → W , una forma bilineal. Entoncese B es indefinidamente diferenciable y todas sus
derivadas a partir de la tercera son cero.
Esto es consecuencia directa de (5.7.6) y de (7.4.10). La segunda derivada es constante, por lo que las
derivadas sucesivas son cero.
( 7.5.5 ) Calcula todas las derivadas de una función polinomial de tercer grado en dos variables.
Supón que f es la función polinomial dada entonces existen constantes a1 , . . . , a10 ∈ R tales que
f(x, y) = a1 x 3 + a2 x 2 y + a3 xy 2 + a4 y 3 + a5 x 2 + a6 xy + a7 y 2
+a8 x + a9 y + a10 .
Utilizando derivadas parciales, se ve que Df (x, y) = (D1 f (x, y) , D2 f (x, y)) y como
y
D2 f (x, y) = a2 x 2 + 2a3 xy + 3a4 y 2 + a6 x + 2a7 y + a9 ,
se ve que Df es diferenciable en cada punto de R2 . Por ende, la segunda derivada de f es la forma
bilineal dada por la matriz
ï ò
2 6a1 x + 2a2 y + 2a5 2a2 x + 2a3 y + a6
D f (x, y) = .
2a2 x + 2a3 y + a6 2a3 x + 6a4 y + 2a7
Escribiendo esto en un solo renglón, se puede pensar que F = D2 f : R2 → R4 está dada por F =
(F1 , F2 , F3 , F4 ), donde
236
7.5. Derivadas superiores.
Evidentemente, pensada como función de de R2 en R8 , se ve que todas las entradas de D3 f son constan-
tes, por lo que la derivada cuarta de f es la forma 4-lineal cero; más aún, todas las derivadas posteriores
de f existen y valen cero. Para encontrar la regla de correspondencia de la tercera derivada, se evalúa
la expresión en un vector (h1 , k1 ) arbitrario. Se encuentra que
D2 f (0, 0) ((x, y), (x, y)) D3 f (0, 0) ((x, y), (x, y), (x, y))
f(x, y) = f(0, 0) + Df (0, 0) (x, y) + + ;
2! 3!
que es una expansión de Taylor de f de tercer orden. Si se escribe X = (x, y), X (k) = (X, . . . , X) y
| {z }
k veces
Dk f = f (k) entonces se obtiene la misma expresión que para el caso real
( 7.5.6 ) Demuestra que f(x, y) = (sin x, cos y) es una función indefinidamente diferenciable y encuentra todas
sus derivadas.
237
Capítulo 7. El teorema de Taylor.
Se define entonces g(x, y) = y cos xyu1 + x cos xyv1 . Con esto, la segunda derivada de f está dada por
∂g ∂g
D2 f (x, y) ((u1 , v1 ), (u2 , v2 )) = u2 + v2 .
∂x ∂y
Pero,
∂g ∂ y cos xyu1 + x cos xyv1
=
∂x ∂x
∂ cos xy ∂ x cos xy
= yu1 + v1
∂x ∂x
= yu1 (−y sin xy) + xv1 (cos xy − xy sin xy)
y
∂g ∂ y cos xyu1 + x cos xyv1
=
∂y ∂y
∂ y cos xy ∂ cos xy
= u1 + xv1
∂y ∂y
= yu1 (cos xy − xy sin xy) + xv1 (−y sin xy),
de donde,
D2 f (x, y) ((u1 , v1 ), (u2 , v2 )) = yu1 u2 (−y sin xy) + xu2 v1 (cos xy − xy sin xy)
+ yu1 v2 (cos xy − xy sin xy) + xv1 v2 (−y sin xy).
Vista como una función de R2 en R4 (toma cada par u1 u2 , u1 v2 , v1 u2 y v1 v2 como una coordenada),
D2 f es una función diferenciable, por ende, f es tres veces diferenciable.
( 7.5.8 ) Si f es k veces diferenciable en P entonces
238
7.5. Derivadas superiores.
La demostración puede proceder por inducción, así se hará. Sea H el conjunto de los número
naturales k tales que si f es k veces diferenciable en P entonces Dk f (P) (ei1 , . . . , eik ) = Dik ,...,i1 f (P) . Ya
ha sido demostrado antes que Di f (P) = Df (P) ei ; que muestra 1 ∈ H . Supón que existe k ∈ H , se ve
que k + 1 ∈ H . Se supone entonces que f es k + 1 veces diferenciable en P entonces, por inducción,
lo que muestra k + 1 ∈ H .
Este ejemplo dice que la notación utilizada en el capítulo pasado para diferenciación parcial es
consistente con las definiciones de derivación superior.
como la primera derivada de una función es única y, por hipótesis, Dk f es único entonces Dk+1 f (v) es
única. Esto muestra que k + 1 ∈ H ; mostrando que H = N y concluyendo el teorema.
Como en el caso de la segunda derivada, al ser la derivada k-ésima de una función en un punto
única se puede utilizar cualquier método para encontrar la derivada k-ésima de una función en un
punto particular dado.
˚
( 7.5.10 ) Sean A ⊂ V , v ∈ AÛ y h1 , . . . , hk ∈ V . Se supone que f : A → W es k veces diferenciable en v. Sea
B (v; r) ⊂ A y define g(u) = Dk−1 f (u) (h1 , . . . , hk−1 ) para u ∈ B (v; r) . Entonces, g es diferenciable en v y
La idea es exactamente la misma que para (7.4.6.1). Define φ : Lin(k−1) (V , W ) → W dada por φ(M) =
M(h1 , . . . , hk−1 ). Observa que g(u) = φ(Dk−1 f (u)). Según la regla la regla de la cadena, g es diferenciable
en v y su derivada es
Dg (v) hk = Dφ Dk−1 f (v) Dk f (v) hk = Dk f (v) (h1 , . . . , hk−1 , ·)hk = Dk f (v) (h1 , . . . , hk ).
Observación: este teorema permite (puesto que facilita) encontrar las derivadas superiores de una
función. Solamente se encuentra la primera derivada evaluada en un h1 para definir la función g(u) =
Df (u) h1 la cual habita en los espacios originales; esto es, no se cambian ni el dominio ni el contrado-
minio.
239
Capítulo 7. El teorema de Taylor.
˚
( 7.5.11 ) Sea A ⊂ V y v ∈ A.
Û Para cualesquier dos funciones f y g de A en W que sean k veces diferenciables
en v y para cualquier λ ∈ R, se cumple que f + λg es k veces diferenciable en v y, además, Dk [f + λg] (v) =
Dk f (v) + λDk g (v) .
Al igual que antes, sea H el conjunto de los número naturales k tales que si f y g son dos funciones
de A a W diferenciables en v entonces f + λg es k veces diferenciable en v y Dk [f + λg] (v) = Dk f (v) +
λDk g (v) . El caso k = 1 fue demostrado antes, por ende, supón que k ∈ H . Sean f y g dos funciones
de A a W que sean k + 1 veces diferenciables en v. Entonces, por ser k ∈ H ,
= D Dk f + λDk g (v)
= D Dk f (v) + λD Dk g (v)
Observaciones:
1. De hecho, como una función diferenciable es continua, para ver que una función es k veces
diferenciable con continuidad en un punto v basta demostrar que su derivada k-ésima existe en
una bola B (v; r) y es continua en v.
2. Con esta definición y el se tiene que una condición necesaria y suficiente para que una función
sea continuamente k veces diferenciable en P es que pertenezca al conjunto Ck (B (P; r) , Rm ) .
240
7.5. Derivadas superiores.
esto es, Di,j f (P) = Dj,i f (P) ; mostrando que 2 ∈ H . Supón ahora que k ∈ H y sean ei1 , . . . , eik+1 ∈ Rn
vectores de la base canónica. Sea f ∈ Ck+1 (A, W ) . Define g : A → Lin(2) (Rn , W ) dada por
En acuerdo con (7.5.10)la primera derivada de g es Dg (X) v = Dk f (X) (v, ei3 , . . . , eik+1 ) y, su segunda
derivada es,
D2 g (X) (u, v) = Dk+1 f (X) (u, v, ei3 , . . . , eik+1 ) .
Es evidente que se puede identificar a Sk como las permutaciones del conjunto K = {2, . . . , k + 1}, con
esto, tomando una permutación σ : K → K, se tiene, por inducción, que para cada X ∈ U,
Esto es,
Dk+1 F (X) (ei2 , ei1 , ei3 , . . . , eik+1 ) = Dk F (X) ei1 , eiσ(2) , . . . , eiσ(k+1) .
Por ende, se puede trasponer el índice i1 con el índice i2 y, por inducción, se pueden permutar cuales-
quier otros índices. Para concluir basta demostrar que todo elemento Sk+1 puede ser factorizado como
producto de elementos que sean permutaciones del conjunto K o la trasposición de 1 con 2. Para este
efecto, basta ver que toda trasposición de Sk+1 se puede factorizar de este modo (pues las trasposiciones
de Sk+1 generan Sk+1 ). Sea τ es una trasposición de S k+1 , por ejemplo τ = (ij); es decir, τ intercambia i
con j. Si tanto i como j son distintos de 1, entonces τ es una biyección de K en K y ya está factorizado
K
del modo requerido. Sin pérdida de generalidad, se supone que i = 1, entonces
τ = (2j)(12)(2j);
de hecho,
(2j)(12)(2j)i = i si i 6= 1, 2, j
(2j)(12)(2j)i = j si i=1
τ(i) =
(2j)(12)(2j)i =2 si i=2
(2j)(12)(2j)i = 1 si i = j,
mostrando que τ = (2j)(12)(2j), que es una factorización requerida. De este modo, Sk+1 se puede facto-
rizar como se afirmó y esto demuestra que k + 1 ∈ H , con lo cual se concluye que H = N.
241
Capítulo 7. El teorema de Taylor.
Se procede por inducción, el caso k = 1 ha sido demostrado ya. Supón que el teorema es cierto
para cierto k y sea f : A → W una función k + 1 veces diferenciable en P. Entonces, por el caso k = 1
(ve (6.2.6)),
Dk+1 f (P) (t1 , . . . , tk+1 ) = D Dk f (P) (h1 , . . . , hk+1 )
Xn
Djk+1 Dk f (P) (t1 , . . . , tk )hk+1,jk+1 .
=
jk+1 =1
sustituyendo en la expresión anterior, se llega a que Dk+1 f (P) (h1 , . . . , hk+1 ) coincide con
n
X X
Djk+1 Dj1 ···jk f (P)h1,j1 · · · hk+1,jk+1 ,
jk+1 =1 j1 ,...,jk ∈{1,...,n}
Cabe destacar que como todas las sumas son finitas, se pueden reordenar, mostrando que el teorema
es cierto para k + 1 y, por lo tanto, el teorema es cierto para todo k ∈ N.
Este teorema cuando k = 1 se reduce a la muy conocida fórmula
n
X
Df (P) (x1 , . . . , xn ) = Dk f (P) xk = Jf (P) X;
k=1
242
7.6. El teorema de Taylor.
con las primeras n derivadas de f en a. Esto es, existe un único polinomio p tal que
Ahora se va a demostrar la existencia y unicidad. Supón primero que existe un polinomio p que sea
centrado en a y satisfaga las ecuaciones anteriores. Considera una función polinomial centrada en a,
n
X
p(x) = ci (x − a)i ,
i=0
f 0 (a)
p0 (a) = f 0 (a) Ñ c1 = .
1!
f (i) (a)
Procediendo inductivamente, puede demostrarse que ci = . Se ha mostrado que si existe un tal
i!
polinomio p entonces
n
X f (i) (a)
p(x) = (x − a)i .
i!
i=0
Claramente, definiendo Tn f (a) : R → R de esta forma, se concluye que Tn f (a) posee las propiedades
requeridas.
Observa que si f(x) = ex entonces f 0 (x) = f(x), por lo que f (n) (0) = 1 para cada n ∈ N. Luego, el
1
coeficiente n-ésimo del polinomio de Taylor es cn = , de donde,
n!
n
X xi
Tn f (0) (x) = .
i!
i=0
En general, puede mostrarse que el polinomio de Taylor generado por f de grado n centrado en a es
n
X ea (x − a)i
Tn f (a) = .
i!
i=0
Observa que si f(x) = cos x entonces para cada i ∈ N, f (i) (0) = f (i4 ) (0), en donde i4 es el único
i − i4
numero natural en {0, 1, 2, 3} tal que ∈ N ∪ {0}. Basta calcular las primeras cuatro derivadas
4
243
Capítulo 7. El teorema de Taylor.
(incluyendo la derivada cero) de f en cero, pero f(0) = 1, f 0 (0) = − sin 0 = 0, f 00 (0) = − cos 0 = −1 y
f (3) (0) = sin 0 = 0. De donde, el polinomio de Taylor de f centrado en cero de grado n es
n i
[ 2i ] x ,
X
Tn f (0) (x) = 1{k=0 mód 2} (i)(−1)
i!
i=0
en donde {k = 0 mód 2} es el conjunto de los enteros no negativos que son divisibles por 2, [x] denota
el mayer entero menor o igual que x y para cada A ⊂ R, se define 1A (x) = 1 si x ∈ A y cero si x ∈/ A.
Como los términos impares mueren, conviene escribir el polinomio de Taylor del coseno centrado en
cero de un grado par arbitrario, se tiene que
n
X x 2i
T2n cos (0) (x) = (−1)i .
(2i)!
i=0
( 7.6.4 ) El operador Tn es lineal; esto es dadas f y g funciones n veces diferenciables en a, donde a es punto
interior de sus dominios entonces Tn [f + λg] (a) = Tn f (a) + λTn g (a) .
Se procede por inducción en el grado del polinomio de Taylor, para n = 1, se tiene que T1 f (a) (x) =
f(a) + f 0 (a)(x − a) y T0 f 0 (a) (x) = f 0 (a). Si el teorema se satisface para cierto n entonces
f (n+1) (a)
Tn+1 f (a) (x) = Tn f (a) (x) + (x − a)n+1 ,
(n + 1)!
de donde,
0 0 f (n+1) (a)
Tn+1 f (a) (x) = Tn f (a) (x) + (x − a)n ,
n!
0
por inducción, Tn f (a) = Tn−1 f 0 (a) , de donde, el teorema es cierto para n + 1.
Zx Zx
Tn+1 f (a) = Tn f (a) .
a a
244
7.6. El teorema de Taylor.
Luego, el teorema es cierto para “la base inductiva”. Supón que hay un n para el cual el teorema es
cierto entonces
g (n+1) (a)
Tn+1 g (a) (x) = Tn g (a) (x) + (x − a)n+1 .
(n + 1)!
Zx
Por inducción, Tn g (a) (x) = Tn−1 f (a) y, como g (n+1) = f (n) , se ve que
a
Zx
g (n+1) (a)
Tn+1 g (a) (x) = Tn−1 f (a) + (x − a)n+1
(n + 1)!
a
Zx Zx
f (n) (a)
= Tn−1 f (a) + (t − a)n dt
n!
a a
Zx
= Tn f (a) ,
a
como se quería.
Otras propiedades de los polinomios de Taylor de funciones en R serán vistas en los ejercicios.
(p)
Supón ahora que f es p + 1 veces diferenciable y que la fórmula anterior vale para p. Sea h = f ◦ α ;
por inducción, h(t) = Dp f (P + tH) H (p) . Con lo cual,
245
Capítulo 7. El teorema de Taylor.
kφ(H)k
en donde lı́m = 0. Dividiendo ambos lados por r, se ve que
H→0 kHk
ï ò
h(t + r) − h(t) φ(rH)
= Dp+1 f (P + tH) H + H (p) .
r r
( 7.6.7 ) Sea f ∈ Ck (U, Rm ) , donde U es un abierto. Se define el polinomio de Taylor de f de grado k centrado
en P ∈ U como
1 1
Tk f (P) H = f(P) + Df (P) H + . . . + Dk f (P) (H)(p) .
1! k!
Observaciones:
2. Se pide que U sea abierto para evitar problemas de diferenciabilidad y que f sea de clase Ck para
facilitar las expresiones de las derivadas.
( 7.6.8 ) Sean f, g ∈ Ck (U, R), donde U ⊂ Rn es un conjunto abierto. Entonces, para cada λ ∈ R y para cada
P ∈ U, se tiene que Tk f + λg (P) = Tk f (P) + λTk g (P) .
1 1
Tk f + λg (P) H = [f + λg](P) + D[f + λg] (P) H + . . . + Dk [f + λg] (P) (H)(p) .
1! k!
El resto es consecuencia de la linealidad de la derivada.
( 7.6.9 ) El polinomio de Taylor es único; esto es, dada f ∈ Ck (U, R) , con U ⊂ Rn un abierto, dado P ∈ U,
existe un único polinomio p en n variables de grado k tal que p = Tk f (P) .
( 7.6.10 ) Sea f ∈ Ck+1 (U, Rm ) , donde U ⊂ Rn es abierto. Se supone que P ∈ U y sea r > 0 tal que la bola
cerrada de centro P y radio r está contenida en U, esto es B0 (P; r) ⊂ U. Para cada H ∈ Rn con kHk < r, se
tiene que
f(P + H) = Tk f (P) H + Rk+1 (f; P, H),
donde Rk+1 (f; P, H) es un término residual, al cual se le conoce como residuo del polinomio de Taylor de f de
grado k + 1 centrado en P con incremento H. De hecho, se puede encontrar un ξ ∈ (0, 1) tal que
1
Rk+1 (f; P, H) = Dk+1 f (P + ξH) H (k+1) .
(k + 1)!
246
7.6. El teorema de Taylor.
f (k) (t)
f(p + r) = f(t) + f 0 (t)(p + r − t) + . . . + (p + r − t)k + S(t),
k!
Derivando respecto de t, pues f es Ck+1 , se obtiene que
ñ ô
d 0 f (k) (t)
0= f(t) + f (t)(p + r − t) + . . . + (p + r − t) + S 0 (t).
k
dt k!
de donde,
0 = f 0 (t)
+ [f 00 (t)(p + r − t) − f 0 (t)]
ñ ô
f (3) (t) 2 00
+ (p + r − t) − f (t)(p + r − t)
2!
..
. ñ ô
f (k+1) (t) k f (k) (t) k−1
+ (p + r − t) − (p + r − t) + S 0 (t),
k! (k − 1)!
arrojando “suma telescópica”, en la que se cancelan casi todos los términos, quedando que
f (k+1) (t)
S 0 (t) = − (p + r − t)k .
k!
Sea ahora g(t) = (p + r − t)k+1 ; definiendo φ : I → R por φ(t) = S(p)g(t) − g(p)S(t) se ve que φ(p + r) =
0 = φ(p). Debido al teorema de Rolle9 , existe un t en el interior de I para el cual φ0 (t) = 0; esto es,
f (k+1) (t)
g(p)S (t)0 r k+1 (p + r − t)k f (k+1) (t) k+1
S(p) = = k! = r .
g 0 (t) (k + 1)(p + r − t) k (k + 1)!
Como t está en el interior de I, existe un ξ ∈ (0, 1) tal que p + ξr = t, con lo que se ha demostrado que
un t ∈ (a, b) para el cual φ0 (t) = 0. La demostración de esto es sencilla, se verifica por casos. Si φ = 0 es todo (a, b), el resultado
es trivial, por lo que se supone que φ no se anula en todo (a, b); pero entonces, como [a, b] es compacto existe un punto donde
φ se maximiza. Al ser φ diferenciable, en tal punto su derivada se anula.
247
Capítulo 7. El teorema de Taylor.
248
7.6. El teorema de Taylor.
k Ç å
k+1 (k+1)
X k
D f (P) (u, v) = ui+1 v k−i Di+1 k−i
1 D2 f(P)
i
i=0
k Ç å
X k
+ ui v k+1−i Di1 Dk+1−i
2 f(P),
i
i=0
Esta igualdad se satisface para todo a, b reales y todo índice natural o cero k, su demostración queda
de ejercicio.
( 7.6.13 ) Calcula el polinomio de Taylor centrado en cero de cuarto orden de (x, y) 7Ï sin xy.
Por la observación previa, el polinomio buscado es, denotando por f a la función dada,
1
T4 f (0, 0) (h, k) = f(0, 0) + (hD1 + kD2 )f(0, 0) + (hD1 + kD2 )2 f(0, 0)
2!
1 1
+ (hD1 + kD2 )3 f(0, 0) + (hD1 + kD2 )4 f(0, 0).
3! 4!
Se calculan las parciales correspondientes; las de primer orden son
y
D22 f (x, y) = −x 2 sin xy;
las de tercer orden son,
D111 f (x, y) = −y 3 cos xy, D112 f (x, y) = −2y sin xy − xy 2 cos xy,
249
Capítulo 7. El teorema de Taylor.
x1 , . . . , xn ) 7Ï a1 x1 + . . . + an xn = h(a1 , . . . , an ), (x1 , . . . , xn )i
en donde B es bilineal. Luego, resulta natural proponer que una forma p-ésima tome la forma
X 7Ï φ(X, . . . , X),
donde φ ∈ Lin(p) (Rn , R) . Observa que procediendo de esta forma ya es posible una generalización a
espacios vectoriales.
( 7.7.1 ) Sea f : V → W una función cualquiera. Se dirá que f es una función polinomial homogénea de
grado p si existe una función φ ∈ Lin(p) (V , W ) tal que f(v) = φ(v, . . . , v). Cuando W = R se llamará a esta
función una forma p-ésima, se usarán también los términos forma lineal, cuadrática y cúbica cuando p = 1, 2, 3,
respectivamente. Se dirá, por convención, que una función constantes c : V → W es una función polinomial
homogénea de grado cero.
( 7.7.2 ) Toda función polinomial homogénea f de grado p satisface que f(λv) = λ p f(v).
Pues existe una función p-lineal φ tal que f(v) = φ(v, . . . , v), por lo que
250
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.
( 7.7.3 ) Se dirá que una función p-lineal φ ∈ Lin(p) (V , W ) es simétrica si para cada σ ∈ Sp (ve (1.3.4)) y
v1 , . . . , vp ∈ V se cumple
φ(v1 , . . . , vp ) = φ vσ(1) , . . . , vσ(p) .
( 7.7.4 ) Sea f una función polinomial homogénea de grado p. Existe una función p-lineal simétrica φ tal que
f(v) = φ(v, . . . , v).
Se sabe que para f existe una función p-lineal ψ tal que f(v) = ψ(v, . . . , v) entonces, se define
1 X
φ(v1 , . . . , vp ) = ψ vσ(1) , . . . , vσ(p) ,
p!
σ∈Sp
(ve la definición del determinante (1.3.17)). Es evidente que f(v) = φ(v, . . . , v) pues la cardinalidad de Sp
es p! (ve (1.3.5)). Ahora bien, basta demostrar que φ es simétrica. Supón que ρ ∈ Sp es una permutación
de p elementos entonces
1 X 1 X
φ vρ(1) , . . . , vρ(p) = ψ vσ(ρ(1)) , . . . , vσ(ρ(p)) = ψ vζ(1) , . . . , vζ(p)
p! p!
σ∈Sp ζ∈Sp
mostrando la simetría de φ.
Se tiene ahora interés en estudiar el comportamiento de las funciones polinomiales homogéneas
de cierto grado fijo como subconjunto del espacio vectorial de todas las funciones de V a W .
( 7.7.5 ) El conjunto de funciones polinomiales homogéneas de grado p es un subespacio vectorial del espacio de
todas las funciones de V a W .
Evidentemente la función cero es una función polinomial homogénea de grado p (considera la
función p-lineal cero). Basta ver que combinación lineal de estas funciones es otra función polinomial.
Sean pues f y g dos de estas funciones y λ ∈ R. Se sabe que existen φ y ψ tales que f(v) = φ(v, . . . , v)
y g(v) = ψ(v, . . . , v). Entonces,
251
Capítulo 7. El teorema de Taylor.
( 7.7.7 ) Sea f : Rn → W una función polinomial homogenea de grado p. Existen constantes ci1 ,...,in ∈ Rm tales
que X
f(x1 , . . . , xn ) = ci1 ,...,in x1i1 · · · xnin .
i1 +...+in =p
donde Xi = (xi,1 , . . . , xi,n ) para i = 1, . . . , p. Procediendo de este modo se puede concluir que
n
X n
X
φ(X1 , . . . , Xp ) = ··· φ(ej1 , . . . , ejp )x1,j1 · · · xp,jp .
j1 =1 jp =1
Cuando X1 = . . . = Xp = X = (x1 , . . . , xn ) entonces x1,j1 · · · xp,jp toma la forma x1i1 · · · xnin , donde i1 + . . . +
in = p y entonces ci1 ,...,in es la suma de todas las φ(ej1 , . . . , ejp ) tales que x1,j1 · · · xp,jp = x1i1 · · · xnin , lo que
concluye la demostración.
( 7.7.8 ) Sea f : Rn → R una función polinomial según la definición (5.4.13). Existen funciones polinomiales
homogéneas f0 , . . . , fk tales que f = f0 + . . . + fk .
Sea k el grado de f entonces existen constantes ci1 ,...,in tales que
k
X
f(x1 , . . . , xn ) = ci1 ,...,in x1i1 · · · xnin ;
i1 +...+in =0
Observaciones:
1. Toda función polinomial de grado menor o igual que k también es una función polinomial de
grado menor o igual que l para todo l ≥ k.
2. Supón que f : V → W1 es una función polinomial homogénea de grado menor o igual a k y g : V →
W2 de grado menor o igual a l. Existen funciones polinomiales homogéneas f0 , . . . , fk : V → W1
y g0 , . . . , gl : V → W2 de grados 0, . . . , k y 0, . . . , l, respectivamente, tales que f = f0 + . . . + fk y
g = g0 + . . . + gl . Si B es una función bilineal de W1 × W2 → W , y si h = B(f, g) es el producto de
los polinomios f y g entonces, de acuerdo a (7.7.6),
Ñ é
Xk Xl X
h=B fj , gi = B(fi , gj )
j=0 i=0 i,j
252
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.
( 7.7.10 ) Sea f : V → W una función cualquiera y sea h ∈ V cualquiera, se define la función de incrementos de
f con incremento de tamaño h por ∆h f : V → W definida como (∆h f)(v) = f(v + h) − f(v). Por notación se
escribirá (∆h f)(v) = ∆h f(v).
y, análogamente
∆h1 (∆h2 f) (v) = f(v + h1 + h2 ) − f(v + h2 ) − f(v + h1 ) + f(v),
lo cual concluye lo afirmado.
Se definirán ahora las funciones de n-ésimos incrementos y se demostrarán algunas propiedades
sobre ellas.
Entonces, a cualquiera de estas funciones se les llamará función de k-ésimos incrementos de f y será denotada
por ∆h1 · · · ∆hk f.
Se procede por inducción en k, así el teorema es cierto para k = 2 según (7.7.11). Por otro lado, si el
teorema es cierto para k, se puede permutar los índices del 2 al k + 1 sin afectar la función y también
se puede transponer los índices 1 y 2. Luego, para concluir basta ver que todo elemento de Sk+1 se
puede factorizar mediante permutaciones de los conjuntos {2, . . . , k + 1} y {1, 2}. Esto fue demostrado
en (7.5.15).
es decir, es la suma de las 2k funciones v 7Ï (−1)k−j F v + hi1 + . . . + hij , en donde 1 ≤ i1 < . . . < ij ≤ k y
j = 0, . . . , k.
253
Capítulo 7. El teorema de Taylor.
Se procede por inducción. En la prueba de (7.7.11) muestra que el resultado es cierto para k = 2.
Supón que es cierto para k − 1 entonces, F = ∆h1 · · · ∆hk f es igual a la suma de las funciones ∆hk fi1 ,...,ij ,
donde fi1 ,...,ij (v) = (−1)k−1−j f v + hi1 + . . . + hij . Como cada ∆hk fi1 ,...,ij puede identificarse con la suma
254
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.
255
Capítulo 7. El teorema de Taylor.
Según (5.6.4) cuando f es diferenciable en a admite una expansión de orden uno en a, una expansión
lineal;
ε(h)
f(a + h) = f(a) + f 0 (a)h + ε(h), lı́m = 0.
h→0 h
Observaciones:
2. Una condición necesaria y suficiente para que una función f sea o(g) en v es que las funciones
f 0 (v) = f(v + h) y g 0 (v) = g(v + h) satisfagan que f 0 es o(g 0 ) en cero.
( 7.7.19 ) Sea f : B (0; r) ⊂ V → W con r > 0. Se dirá que f es tangente a cero en el origen con «orden» de
tangencia p (y para abreviar «p-tangente» a cero en el origen) si kf(h)k es o(khkp ) en cero.
( 7.7.20 ) Sea f : B (0; r) ⊂ V → W una función (p + 1)-tangente a cero en el origen. Entonces también es
p-tangente a cero en el origen.
( 7.7.21 ) . Sea f : B (0; r) ⊂ V → W una función n-tangente a cero en el origen. La función p-lineal simétrica
ψ(h1 , . . . , hp ) = ∆h1 · · · ∆hp F(0) satisface que
256
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.
( 7.7.22 ) Toda función polinomial de grado menor o igual que p que sea p-tangente a cero en el origen es
identicamente nula.
Se procede por inducción. Cuando la función tiene grado cero es una constante, por lo que el único
modo que sea o(1) es que sea identicamente nula. Se supone ahora que el resultado es válido para
p − 1 ≥ 0. Sea f = f0 + . . . + fp , donde fi es una función polinomial homogénea de grado i. Entonces,
1
ψ(h1 , . . . , hp ) = ∆h · · · ∆hp F(0)
p! 1
es p-lineal y simétrica. En virtud de (7.7.21), pues f es p-tangente a cero en el origen, se cumple que
Así que, dado ε > 0 existe un δ > 0 tal que si kh1 k + . . . + khp k ≤ δ entonces
Pero entonces, se puede sustuir los vectores h1 , . . . , hp ∈ B (0; δ) por cualesquier vectores v1 , . . . , vp ∈ V .
En efecto, al ser ψ una función p-lineal, para todo λ > 0,
Dados los vectores v1 , . . . , vp ∈ V se puede escoger λ > 0 suficientemente pequeño de tal forma que
|λ|(kv1 k + . . . + kvp k) = kλv1 k + . . . + kλvp k ≤ δ. De este modo, si v1 , . . . , vp ∈ V , se cumple que
Haciendo ε > 0 tender a cero, se concluye que ψ = 0 y, por lo tanto fp = 0. Hasta ahora ha sido
demostrado que f es una función polinomial de grado menor o igual que p − 1, por lo que la hipótesis
inductiva concluye la demostración.
257
Capítulo 7. El teorema de Taylor.
Pues si φ1 , φ2 : V → W son tales desarrollos entonces kφ1 − fk (v) = o(kvkp ) y kφ2 − fk (v) = o(kvkp ).
Se sigue que kφ1 − φ2 k (v) = o(kvkp ) y por (7.7.22) se obtiene el resultado.
¿Qué pasa cuando los dos desarrollos limitados no son en el origen, sino en un punto A? Se deja
a cargo del lector el pensar este caso. Por otro lado, si los desarrollos limitados en el origen de una
función son unicos, ¿qué pasa cuando a un desarrollo se quitan los términos de ordenes altos? ¿Será
que las funciones polinomiales así obtenidas sean desarrollos de ordenes más pequeños?
p1
X
( 7.7.25 ) Sea f una función polinomial de V a W de grado menor o igual que p. Supón que f = fk , donde
i=0
p2
X
fi es la componente homogénea de grado i de f. Se dirá que la función polinomial fk se obtiene de la primera
k=0
mediante un truncamiento al orden p2 (se supone p1 ≥ p2 ).
˚
( 7.7.26 ) Sean f : A ⊂ V → W y v ∈ A Û tal que f admite un desarrollo limitado de orden p en v. El truncamiento
de este desarrollo a cualquier orden q < p corresponde a un desarrollo limitado de f en v de orden q.
pues toda función polinomial homogénea de grado mayor que p es o(kXkp ), ve (7.26).
Se deja al lector verificar lo siguiente.
Entonces ψ es diferenciable en t0 y
Ä ä Ä ä
ψ0 (t0 ) = B u(t0 ), v (p+1) (t0 ) + (−1)p B u(p+1) (t0 ), v(t0 ) .
Z1
1 1 (1 − t)p α(p+1) (t)
α(1) − α(0) − α (0) − α00 (0) − . . . − α(p) (0) =
0
dt.
2 p! p!
0
A continuación se demuestra que las funciones que son de clase Cp+1 en un abierto A ⊂ V a valores
en W satisfacen que poseen desarrollos limitados de orden p en cada punto de su dominio.
258
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.
( 7.7.28 ) Sea f ∈ Cp+1 (A, W ) , donde A ⊂ V es un abierto. Para cualesquier v y h tales que el segmento
cerrado [v, v + h] = {v + th|t ∈ [0, 1]} ⊂ A se tiene que
Z1
(1 − t)p f (p+1) (v + th)h(p+1)
f(v + h) = Tp f (v) + dt.
p!
0
En particular, Tp f (v) es un desarrollo limitado de f de orden p en v; esto se conoce como «el teorema de Taylor
con resto integral».
Se define α : [0, 1] → W por α(t) = f(v + th) entonces α ∈ Cp+1 ([0, 1], W ) . En particular (7.7.27)
muestra que
Z1
0 1 00 1 (p) (1 − t)p α(p+1) (t)
α(1) − α(0) − α (0) − α (0) − . . . − α (0) = dt.
2 p! p!
0
1 (p)
Como α(1) = f(v + h) y α(0) + α0 (0) + . . . +
α (0) = Tp f (v) se obtiene la primera afirmación.
p!
Para obtener la segunda, solo se debe verificar que
1
(1 − t)p f (p+1) (v + th)h(p+1)
Z
p
dt
= o(khk ).
p!
0
259
Capítulo 7. El teorema de Taylor.
p p
X X
Se cumple que φ = φi y ψ = ψi , en donde φ0 , . . . , φp y ψ0 , . . . , ψp son las componentes
i=0 i=0
homogéneas de φ y ψ, así que
n
! n
X X
T(φ, ψ) = T (φi , ψi ) = T(φi , ψi ).
i=0 i=0
Pues existe ψ̃ ∈ Lin(p) (V , W ) tal que ψ(v) = ψ̃(v, . . . , v). Basta ver que T ◦ ψ̃ es p-lineal. Pero si
vk0 , v1 , . . . , vp ∈ V , y λ ∈ R entonces
Ä ä Ä ä
T ψ̃(v1 , . . . , vk + λvk0 , . . . , vp ) = T ψ̃(v1 , . . . , vp ) + λ ψ̃(v1 , . . . , vk−1 , vk0 , vk+1 , . . . , vp )
En virtud de (7.7.29.1) T(φ, ψ) es una función polinomial homogénea de grado menor o igual que p.
Por otro lado,
T(f(v + h), g(v + h)) − T(φ(h), ψ(h)) = T(f(v + h) − φ(h), g(v + h) − ψ(h))
˚
( 7.7.29.2 ) Sean f y g funciones de A ⊂ V a W1 y W2 , respectivamente. Supón que en algun punto v ∈ A
Û tanto
f como g admiten desarrollos limitados de orden p, φ y ψ, respectivamente. Entonces (f, g) : A → W1 × W2
admite un desarrollo limitado de orden p en v y esta dado por (φ, ψ).
Aunque parezca obvio que (φ, ψ) sea una función polinomial se deduce del hecho que (w1 , w2 ) 7Ï
(w1 , w2 ) es bilineal y de (7.7.6). Solo resta demostrar que
260
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.
p p
X X
Se supone que φ = φk y que ψ = ψk , donde φk y ψk son las componentes homogéneas de φ
k=0 k=0
y ψ, respectivamente. Observa que
p
X
B(φ, ψ) = B(φi , ψj )
i,j=0
es una función polinomial de grado mayor que p. Sea Φ el truncamiento de esta función al orden p.
Entonces, con definir ε1 (h) = f(v + h) − f(v) y ε2 (h) = g(v + h) − g(v), se ve que kε1 (h)k = o(khkp ) y que
kε2 (h)k = o(khkp ). Asimismo,
B(f(v + h), g(v + h)) − B(φ(h), ψ(h)) = B(ε1 (h), ε2 (h)) + B(φ(h), ε2 (h)) + B(ε1 (h), ψ(h)),
en donde φ1 , . . . , φp son las componentes homogéneas del desarrollo de f y ψ̃1 , . . . , ψ̃p son las funciones multili-
neales simétricas asociadas a las componentes homogéneas del desarrollo de g.
La demostración queda de ejercicio al lector.
Esta cantidad de propiedades demostradas hasta ahora permiten encontrar polinomios de Taylor
con gran generalidad.
( 7.7.32 ) Encuentra el polinomio de Taylor, centrado en cero, de orden décimo, de la función (x, y) 7Ï exy cos xy.
Se encuentran por separado los polinomios de Taylor, se sabe que los polinomios de Taylor de
décimo orden de coseno y exponencial, son
h2 h4 h6 h8 h10
T10 cos (0) h = 1 − + − + −
2 24 6! 8! 10!
y
h2 h3 h10
T10 exp (0) h = 1 + h + + + ... + .
2 6 10!
261
Capítulo 7. El teorema de Taylor.
Observa que las funciones multilineas asociadas a las componentes homogéneas de la función expo-
nencial son las funciones
t1 · · · tj
ψ̃j : Rj → R dada por ψ̃j (ti , . . . , tj ) = .
j!
Es fácil ver que el polinomio de Taylor de la función (x, y) 7Ï xy es ella misma, por lo que sus
componentes homogéneas son
ß
0 si i 6= 2
φi (x, y) =
xy si i = 2.
Según (7.7.31), el polinomio de Taylor de f(x, y) = exy es
Ä ä
T4 f (0, 0) (x, y) = exp(0) + ψ̃1 (φ2 (x, y)) + . . . + ψ̃5 (φ2 (x, y))(5)
x2y2 x3y3 x4y4 x5y5
= 1 + xy + + + + .
2 6 24 120
Procediendo de manera análoga para el coseno, ahora se encuentra que sus funciones multilineales
asociadas a sus componentes homogéneas son
0 si j es impar,
τ̃j (t1 , . . . , tj ) = t1 · · · tj
si j es par.
j!
§ 7.8. Ejercicios.
n(n + 1)
( 7.1 ) El espacio vectorial real de las matices simétricas de n ×n con coeficientes en R tiene dimensión .
2
( 7.2 ) El espacio vectorial real de las matrices antisimétricas de n × n con coeficientes reales tiene dimensión
n(n − 1)
.
2
( 7.3 ) Encontrar una base del espacio de las matrices simétricas de n × n con coeficientes en R y una base para
el espacio de las matrices antisimétricas. Con esto, demostrar que el espacio de matrices de n × n con entradas
reales es suma directa10 de los espacios de matrices simétricas y antisimétricas.
10 Se dice que el espacio vectorial V es suma directa de sus subespacios U y W si se satisface la siguiente condición:
(∀v ∈ V )(∃!u ∈ U, ∃!w ∈ W )(v = u + w).
262
7.8. Ejercicios.
( 7.4 ) Encontrar un cambio de variable lineal que transforme las siguientes formas cuadráticas a forma diagonal.
De esto, deducir si la forma cuadrática dada está definida positivamente, semipositivamente, negativamente,
seminegativamente o si está no definida.
1. x 2 − 5xy + y 2 ;
2. 3xy − 5y 2 ;
3. 5xy;
( 7.5 ) Encuentra todas las matrices simétricas B que satisfagan que f(X) = hBX, Xi .
1. f(x, y) = x 2 − 6xy + 9y 2 ;
n
!2
X
2. f(x1 , . . . , xn ) = ak xk ;
k=1
10
X
3. f(x, y) = (x + ky)2 ;
k=1
n
X n
X
4. f(x, y) = (x + ky)2 − (kx + y)2 .
k=1 k=1
( 7.7 ) Hacer un dibujo donde se represente a todas las clases de equivalencia de las formas cuadráticas en una y
dos variables.
( 7.8 ) Encuentra la segunda derivada de las siguientes funciones. Da explícitamente las reglas de correspondencias
(h, k) 7Ï D2 F (x, y) (h, k) para F dada por:
1. F(x, y) = x 2 + y 2 .
( 7.9 ) Sea f ∈ Ck (A, W ) donde A ⊂ Rn es un conjunto abierto. Entonces, f tiene a lo más k + 1 derivadas
parciales distintas.
( 7.11 ) Una condición necesaria y suficiente para que f ∈ C∞ (A, W ) , en donde A ⊂ Rn es una abierto, es que
exista un k ∈ N tal que Dk f ∈ C∞ (A, Lin (Rn , W )) .
263
Capítulo 7. El teorema de Taylor.
( 7.13 ) Para cada k ∈ N y para cada A ⊂ Rn abierto, Ck (A, W ) es un espacio vectorial real. ¿Qué dimensión
tiene este espacio?
( 7.14 ) Sea A ⊂ Rn un conjunto abierto. Para cada «multiíndice» ν ∈ (N∪{0})n , por ejemplo ν = (m1 , . . . , mn ),
se define
|ν| = m1 + · · · + mn y Dν = Dm 1 mn
1 · · · Dn .
Supón que C es una familia finita de multiíndices en (N∪{0})n , por ejemplo C = (ν1 , . . . , νp ). Sean a1 , . . . , ap
cualesquiera p números reales. Se define el «operador diferencial» inducido por C como la función
p
X
DC = ai Dνi .
i=1
Sea N = máx{|ν1 |, . . . , |νp |}. Se puede pensar que DC es una función de CN (A, W ) a C0 (A, W ) de la manera
obvia, DC f es la función continua de A a W que está dada por
p
X
DC f(X) = ai Dνi f(X).
i=1
( 7.15 ) Sea P : Rn → R una función polinomial de grado k según (5.4.13), por ejemplo
X
P(x1 , . . . , xn ) = bi1 ···in x1i1 · · · xnin ,
0≤i1 +···+in ≤k
y a DP se le denomina el operador diferencial lineal inducido por P. El grado de P coincide con el orden de DP .
Si P1 y P2 son dos funciones polinomiales entonces DP1 +P2 = DP1 + DP2 y si el grado de P1 P2 es a lo más N
entonces DP1 P2 = DP1 DP2 .
( 7.16 ) Sean f y g dos funciones en Ck (A, W ) , donde A ⊂ V es una abierto. Entonces hf, gi es un elemento
en Ck (A, R) y para cada v ∈ A, se tiene que, denotando a h(i) = (h, . . . , h),
| {z }
i veces
k Ç å¨
k (k)
X k ∂
D [hf, gi] (v) h = Di f (v) h(i) , Dk−i g (v) h(k−i) .
i
i=0
264
7.8. Ejercicios.
( 7.19 ) Si un polinomio es alterado por un error pequeño entonces su polinomio de Taylor es él mismo; esto es,
r(x)
supón que f = p + r, con p un polinomio de grado n y lı́m n = 0 entonces p es el polinomio de Taylor de
x→0 x
grado n centrado en cero de f.
Sugerencia: utiliza que el polinomio de Taylor está determinado de manera única y demuestra que las primeras
n derivadas de f y p coinciden; para esto, observa que r(x) = x n o(x), donde o(x) → 0 cuando x → 0.
( 7.20 ) Si g(x) = f(cx), donde c ∈ R es fijo entonces Tn g (a) (x) = Tn f (ca) (cx).
( 7.21 ) Encuentra el polinomio de Taylor de grado n de cada una de las siguientes funciones:
1. x 7Ï e−x ;
1 1 x n+1
2. x 7Ï , x ∈ (0, 1); utiliza el ejercicio (7.19) y la identidad = 1 + x + x2 + . . . + xn + .
1−x 1−x 1−x
ex + e−x
3. x 7Ï ; esta función se conoce como coseno hiperbólico.
2
ex − e−x
4. x 7Ï ; esta función se conoce como seno hiperbólico; derive el anterior.
2
5. x 7Ï log(1 + x); calcula primero el polinomio de Taylor de − log(1 − x), utiliza un inciso previo.
1
6. x 7Ï ; igual que el segundo inciso.
1 + x2
7. x 7Ï arctan x; integre el anterior.
( 7.22 ) Si a, b ∈ R y k ∈ N entonces
k Ç å k Ç å
k+1
X k i+1 k−i X k i k+1−i
(a + b) = a b + ab .
i i
i=0 i=0
( 7.26 ) Sea f : V → W una función polinomial homogénea de grado mayor p. Entonces kf(h)k = o(khkp ).
( 7.29 ) Considera las funciones F(x, y) = (sin x, x cos y) y G(x, y) = (x 2 + 3xy + y 3 , exy ), encuentra el
polinomio de Taylor de h = hF, Gi en el origen de quinto orden.
265
Capítulo 7. El teorema de Taylor.
1. cos xy;
2. xy exp(xy).
( 7.31 ) Demuestra que una función multinomial es indefinidamente diferenciable.
Sugerencia: no intentes calcular las derivadas. Nota que la primera derivada de una función (k + 1)-lineal
evaluada en un vector fijo es una suma finita de funciones k-lineales. Aplica inducción.
( 7.32 ) Si F : V → W es una función polinomial entonces F ∈ C∞ (V , W ) .
Sugerencia: reduce al caso cuando F es una función polinomial homogénea e intente dar una demostración
utilizando la regla de la cadena.
˚
( 7.33 ) Si f : A ⊂ Rn → W admite un desarrollo limitado φ de orden p en el punto P ∈ A Û entonces existen
constantes c0,...,0 , . . . , cn,...,n ∈ W tales que
X
φ(x1 , . . . , xn ) = ci1 ,...,in (x1 − p1 )i1 · · · (xn − pn )in .
0≤i1 +...+in ≤p
Sugerencia: procede por inducción en k, recuerda que el caso k = 1 es definición. Supón ahora que f es k + 1
veces diferenciable en v y define para h pequeño
1
φ(h) = f(v + h) − f(v) − Df (v) h − . . . − Dk+1 f (v) h(k+1) ,
(k + 1)!
para concluir esta última igualdad habrás de usar que Di f (v) es i-lineal y simétrica (ve (7.5.15)). En virtud de la
hipótesis inductiva puedes concluir que Ä ä
kDφ (h)k = o khkk .
Luego, dado ε > 0 existe un δ > 0 tal que
266
Capítulo 8
Como su nombre lo sugiere la optimización se centra en encontrar los puntos “mejores” de una
función. Cabe destacar que la noción de “mejor” queda definida por el contexto que se trabaja. Así, por
ejemplo, si U(x, y) expresa el bienestar que obtiene un individuo al consumir x unidades de un primer
bien y y unidades de un segundo bien entonces surge naturalmente la pregunta: ¿Cuál es la decisión
óptima de un individo para maximizar su bienestar? Preguntas análogas surgen cuando U representa
dinero gastado, tiempo empleado, etcétera.
Obviamente, para hablar de optimización es necesario comparar números, por lo que solamente es
posible optimizar cuyo contradominio es un subconjunto de R.
267
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
b 2 b2
Å ã Å ã
2 2 b c
at + bt + c = a t + t + =a t+ +c− .
a a 2a 4a
b 2
Å ã
Hay dos casos a tratar. Si a > 0 entonces a t + ≥ 0 y, por lo tanto, la función tiene una
2a
b
solución a su problema de minimización, tal solución es t = − . No existe solución a su problema
2a
de maximización pues
Å ã
2 2 b c
lı́m at + bt + c = lı́m t a + + 2 = ∞,
t→∞ t→∞ t t
es decir, la función puede superar cualquier cota superior impuesta de antemano. El caso a < 0
es análogo, aquí existe una solución al problema de maximización.
Observa que los resultados de este inciso son geométricametne claros pues la gráfica de la función
es una parábola la cual “abre” hacia arriba o hacia abajo según a > 0 o a < 0, respectivamente.
Esto concluye el ejemplo.
De este ejemplo se deriva que existen funciones que tienen una única solución a su problema de
maximización y funciones que tienen ínfinitas soluciones.
( 8.1.2 ) Considera la función f : R → R dada por f(x) = 2x − 3. Resuelve el problema de maximización
268
8.1. Optimización libre
Es fácil notar que f(x) < f(x + r), lo cual es una contradicción y no existe solución al problema de
maximización para el caso I = (a, b).
Este ejemplo muestra que puede suceder que una función A → R tenga solución su problema de
maximización sobre algún B más grande que A (o sea, A ⊂ B) pero no sobre A. Entonces, el problema
de maximización habrá que plantearlo de manera local y no global; es decir, para vecindades de puntos
y no para todo el dominio. Surgen naturalmente las siguientes definiciones.
( 8.1.3 ) Sea f : A ⊂ V → R. Se dirá que f tiene un máximo relativo en v ∈ A si existe un r > 0 tal que para
cada u ∈ B (v; r) ∩ A se cumple que f(u) ≤ f(v). Cuando la desigualdad anterior sea estricta siempre que u 6= v
se dirá entonces que f tiene un máximo relativo estricto1 en v. Cuando para cualquier u ∈ A se cumpla que
f(u) ≤ f(v) se dirá que f tiene un máximo relativo global en P y cuando la desigualdad sea estricta se dirá que
f tiene un máximo estricto global en P. Las definiciones para mínimo son análogas.
Esta definición es de existencia pura sin dar un modo de cómo encontrar los puntos óptimos de
una función.
( 8.1.4 ) Cuando f posee un máximo o mínimo de algún tipo en un punto v se dirá que f tiene un óptimo o un
valor extremo en v y a v se le llamará optimizador o punto extremo de f. A un punto v ∈ A que maximize a f
se le llamará maximizador y utilizarán los adjetivos relativo, estrico y global con la misma connotación que antes.
Las definiciones relativas a minimizadores son análogas.
El problema de optimización libre queda entonces resumido a encontrar todos los maximizadores
y minimizadores.
La noción de forma cuadrática definida se puede generalizar a espacios vectoriales. En particular,
la definición (7.1.4) se conserva al cambiar Rn por V y X por v.
( 8.1.5 ) Sea f : V → R una forma cuadrática definida positivamente. Entonces el origen es un punto mínimo
estricto absoluto de f. Si f está definida semipositivamente entonces el origen es un mínimo relativo global.
Resultados análogos para formas cuadráticas definidas negativa y seminegativamente con máximos estrictos y
relativos, ambos globales, respectivamente.
Lo cual es inmediato de las definiciones (7.1.4), (8.1.3) y (8.1.4).
( 8.1.6 ) Para que f : A ⊂ V → R tenga un máximo relativo (respectivamente, estricto, relativo global y estricto
global) en v ∈ A es necesario y suficiente que −f tenga un mínimo relativo (respectivamente, estricto, relativo
global y estricto global) en v ∈ A.
Lo cual es inmediato de que si a < b (o a ≤ b) entonces −a > −b (−a ≥ −b, respectivamente).
El resultado previo muestra que basta estudiar los mínimos de las funciones. Así, los propiedaes
siguientes serán derivadas y escritas en términos de mínimos2 .
( 8.1.7 ) Si f : A ⊂ V → R y v ∈ A es un punto aislado, entoces f posee un mínimo y un máximo relativo en v.
Pues existe un r > 0 tal que B (v; r) ∩ A = {v}, el resto es consecuencia de la definición (8.1.4).
( 8.1.8 ) Para que f : A ⊂ V → R tenga un mínimo relativo en v es necesario y suficiente que exista r > 0 tal
que f(B (v; r)) ⊂ R sea un conjunto acotado inferiormente y f(v) = ı́nf f(u).
u∈B(v;r)
269
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Nota que no se pide que f(A) sea acotado inferiormente. De hecho, esto sería una condición redun-
dante pues f(v) ∈ R así que f(A) está acotado inferiormente.
En lo que resta de la sección se derivarán dos condiciones necesarias y una condición suficiente
para la existencia de óptimos.
Observación: las condiciones de primer orden no son suficientes, solo necesarias. Para muestra
considera las función t 7Ï t 3 de R a R la cual tiene por derivada la transformación lineal cero en el
cero pero no tiene ningún punto óptimo en el origen.
Las condiciones de primer orden restringen en gran medida el trabajo que hay que realizar. El
conjunto de puntos donde la derivada sea nula son los únicos candidatos a óptimos. Esto conduce a su
estudio.
( 8.1.11 ) Sea f : A ⊂ V → R. Se dirá que un punto v ∈ Rn es punto crítico de f si Df (v) = 0.
Recuerda que la derivada de una función solo se definió en puntos interiores del dominio de esta.
Por ende, un punto crítico debe caer en el interior del dominio de la función.
( 8.1.12 ) Considera la función (x, y) 7Ï x 2 − y 2 . Entonces, el origen es su único punto crítico y no es óptimo.
Å ã
∂f ∂f
Pues si f es tal función entonces Df (x, y) = , = 2(x, −y), y esto es (0, 0) si y solo si (x, y)
∂x ∂y
es el origen. Salvo en el origen, f siempre es positiva sobre el primer eje y restringida al segundo eje
f siempre es negativa, luego f no posee ningún extremo en el origen. Por lo tanto, f no posee ningún
extremo en absoluto.
Si el lector realiza el gráfico de la función anterior notará que esta tiene la forma de una silla de
montar en una vecindad del origen.
3 Se utiliza el plural pues en los textos usuales las condiciones se dan para una "función de las variables x y y"siendo las
∂f ∂f
condiciones = = 0.
∂x ∂y
270
8.1. Optimización libre
˚
( 8.1.13 ) Si f : A ⊂ V → R posee un punto crítico en v ∈ A
Û y v no es óptimo de f entonces se dirá que v es
un punto de ensilladura de f.
¿Cómo garantizar que f : A ⊂ V → R posea un extremo? Para empezar es natural que f esté
1
acotada inferiormente, sin embargo, la función f(t) = siempre es positiva y conforme t → ∞ se ve
t
que f(t) → 0, pero no hay ningún punto t en donde f(t) = 0. El problema aquí es que los valores en
donde f podría alcanzar su óptimo escapan a ∞.
( 8.1.14 ) Una condición suficiente para que una función continua A ⊂ V → R alcance un mínimo es que A sea
un conjunto compacto. Sobre esta misma condición, la función alcanza un máximo.
Sea f la función en cuestión. Según (5.5.7), f(A) es compacto en R. Luego, según (3.5.2), f(A) es
cerrado y acotado. Por ende, existe α = ı́nf f(A). Hay dos casos, el primero es que α ∈ f(A), en cuyo
caso existe un v ∈ A con f(v) = α y esto concluye la prueba, v es minimizador. El segundo caso es que
1 1
α ∈/ f(A). Entonces, para cada existe un yn ∈ f(A) con 0 ≤ α − yn ≤ , por lo que α es un punto
n n
de acumulación de f(A), ve (3.2.8). Como f(A) es cerrado, contiene a todos sus puntos de acumulación
(3.2.17), α ∈ f(A).
Se utilizan los mismos argumentos para sup f(A).
donde r(h) → 0 cuando h → 0. Sea u ∈ V unitario y t ∈ R \ {0} suficientemente pequeño de tal forma
que v + tu ∈ A. Entonces
0 ≤ D2 f (v) (tu, tu) + r (tu) t 2 ,
dividiendo todo entre t 2 y usando que D2 f (v) es bilineal, se concluye que
D2 f (v) (u, u) ≥ 0,
para cualquier u ∈ V unitario. Para pasar de vectores unitarios a cualquier vector h ∈ V se observa
h
que si h = 0 entonces D2 f (v) (h, h) = 0 y si h 6= 0 entonces u = es unitario. Al usar que D2 f (v) es
khk
bilineal, se concluye que D2 f (v) (h, h) ≥ 0 para cualquier h ∈ V .
271
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
272
8.1. Optimización libre
1 2
f(v + h) − f(v) = D f (v) (h, h) + r(h) khk2 ,
2
donde r(h) → 0 cuando h → 0. Como existe λ > 0 constante tal que para cualquier h ∈ V
1 2
D f (v) (h, h) ≥ λ khk2 .
2
Entonces,
f(v + h) − f(v) ≥ (λ + r(h)) khk2
y como r(h) tiende a cero se ve que para todo h suficientemente pequeño λ + r(h) > 0, por lo que
f(v + h) > f(v) siempre que h 6= 0 y sea suficientemente pequeño; esto es, v es un minimizador relativo
estricto de f. Por lo tanto, basta demostrar la existencia de λ. El siguiente resultado resume esto.
( 8.1.20.1 ) Sea f : V → R una forma cuadrática que está definida positivamente y que es no degenerada. Existe
una constante λ > 0 tal que para cualquier v ∈ V , f(v) ≥ λ kvk2 .
273
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Sea φ la única forma bilineal simétrica asociada a f. Según el teorema de identificación (7.3.1),
φ : V → Lin (V , R) . Como φ es invertible y lineal,
∀k ∈ Lin (V , R) ,
φ−1 (k)
≤
φ−1
kkk .
1
kφ(v)k ≤ |φ(v, hv )|.
2
Por lo tanto,
kvk ≤ 2
φ−1
|φ(v, hv )|.
Al ser f continua y el conjunto S1 = {h ∈ V | khk = 1} compacto, existe un M > 0 tal que f(h) ≤ M
siempre que khk = 1. Por lo tanto,
1
kvk2 ≤ f(v),
λ
1
donde λ =
.
−1
2
4
φ
M
( 8.1.20.2 ) Si D2 f (v) es una forma cuadrática que está no definida entonces v es un punto ensilladura.
Entonces Å ã
vi vi 1
D2 f (v) , = 2
D2 f (v) (vi , vi ),
kvi k kvi k kvi k
que es positivo o negativo según i = 1 o i = 2. Entonces, se puede suponer que v1 y v2 son unitarios.
Luego, por la expansión de Taylor
t2 2
Å ã
1 2
f(P + tvi ) − f(v) = D f (v) (vi , vi ) + r1 (t)t 2 = t 2 D f (v) (vi , vi ) + r1 (t) ,
2 2
274
8.2. Funciones convexas.
275
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
que vale 1 si λ = 1 y 0 si no. Por otro lado λf(x) + (1 − λ)f(y) = λ, mostrando que f es convexa y,
evidentemente, f no es continua en 0.
El lema de las tres cuerdas tiene como implicación que todas las funciones convexas son continuas
en el interior de su dominio. Una manera geométrica de ver esto es considerando un punto t en el
interior de su dominio y dos puntos t + δ y t − δ, cerca de t. Ahora se construyen las rectas que pasan
por los pares de puntos (t − δ, f(t − δ)), (t, f(t)), y (t, f(t)), (t + δ, f(t + δ)). La gráfica de f debe quedar
en la región determinado entre ambas rectas y cuando δ → 0 la gráfica tiende a (t, f(t)), mostrando la
continuidad.
( 8.2.5 ) Si f : [a, b] → R es convexa y t ∈ (a, b) entonces f es continua en t.
Como t es interior existe un δ > 0 tal que [t − δ, t + δ] ⊂ I. Sean
f(t) − f(t − δ) f(t + δ) − f(t)
m1 = y m2 = ;
δ δ
define L1 (x) = m1 (x−t)+f(t) y L2 (x) = m2 (x−t)+f(t), las rectas que pasan por (t, f(t)) con pendientes m1
y m2 , respectivamente. Si x ∈ [t, t +δ] entonces hay un 1−µ ∈ [0, 1] tal que x = (1−µ)t +µ(t +δ) = t +µδ;
luego el lema de las tres cuerdas implica que
f(t + µδ) − f(t)
≤ m2 ,
µδ
de donde,
f(x) ≤ m2 (µδ) + f(t) = L2 (t + µδ) = L2 (x).
Análogamente, f(x) ≥ L1 (x). De este este modo, L1 ≤ f ≤ L2 sobre [t, t + δ]. Procediendo del mismo
modo, L2 ≤ f ≤ L1 sobre [t − δ, t]. Como L1 (t + h) → L1 (t) = f(t) y L2 (t + h) → L2 (t) = f(t) cuando
h → 0, se ve que f es continua en t.
276
8.2. Funciones convexas.
( 8.2.6 ) Sea f : [a, b] → R una función convexa. Entonces, para cada x ∈ (a, b) las derivadas laterales de f en
x existen, ve (4.6.7). Más aún, si x < y con x, y ∈ (a, b) entonces
Esto es consecuencia directa del lema de las tres cuerdas (8.2.2). Sean a < p < x < y < q < b.
Entonces
f(x) − f(p) f(y) − f(p) f(y) − f(x) f(q) − f(x) f(q) − f(y)
≤ ≤ ≤ ≤ .
x−p y−p y−x q−x q−y
Sea ahora uy dada por
f(y) − f(t)
uy (t) = .
y−t
f(q) − f(y)
Se sigue que uy (t) ≤ y uy es creciente (pues p y x son arbitrarios). Por lo tanto, el límite
q−y
cuando t ↑ y existe; es decir, fg (y) existe. Análogamente, fd0 (x) existe. En virtud de las desigualdades
0
anteriores, fg0 (x) ≤ fd0 (y). Las otras desigualdades son análogas.
Observaciones:
2. Dada una función f : I → R convexa, existen asociadas a ellas las funciones fd0 y fg0 , las cuales son
crecientes sobre I. Esto es consecuencia directa de (8.2.6). Esto motiva un breve estudio sobre
funciones monótonas.
( 8.2.8 ) Sea f : I → V una curva cualquiera y t ∈ I. Se dirá que f posee un límite derecho f(t+) en t si
lı́m f(t + h)
h→0,h>0
existe. Entonces se define f(t+) como este límite. Análogamente se definen los límites izquierdos f(t−) de f en
t. Esto se conocen como límites laterales. Si f posee límites laterales en cada punto de su dominio se dirá que f
es débilmente regular.
Observación: es casi inmediato de esta definición que una curva es continua si y solo si sus límites
laterales coinciden en cada punto. Se le pide al lector que él mismo intente dar una demostración de
esto. Es destacable que muchos autores prefieren denotar los límites derechos por f + (t) o por f(t + ).
También, en lugar de escribir h → 0, h > 0 escriben h → 0+, h → 0+ o h ↓ 0.
( 8.2.9 ) Sea f : I → R una función monótona con I un intervalo abierto. Entonces f es debilmente regular. Más
aún, para todo x < y con x, y ∈ I se cumple que f(x+) ≤ f(y−).
277
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Sobre (t, ∞) ∩ I, la función está acotada inferiormente por f(t). Como t ∈ I el cual es abierto, existe un
x ∈ (t, ∞) ∩ I. Por lo tanto, α = ı́nf f(x) existe. Luego, para todo ε > 0 existe un 0 < δ < ε tal que
x∈I,x>t
t + δ ∈ I y satisface que 0 < f(t + δ) − α < ε. Sea ahora x ∈ (t, t + δ). Entonces f(t + δ) > f(x) > α, por lo
que 0 < f(x) − α < ε. Es decir, para todo ε > 0 existe δ > 0 talque si h ∈ (0, δ) entonces |α − f(t + h)| < ε,
lo cual es precisamente lo que se quería demostrar. Para el caso en que f es decreciente se demuestra,
análogamente, que
f(t−) = sup f(x).
x∈I,x<t
La segunda parte es consecuencia de la primera, pues si x < y entonces hay un x < r < y y
f(x+) = ı́nf f(u) ≤ f(r) ≤ sup f(v) = f(v−),
r>u>x r<v<y
Se supondrá que f es creciente, sea P = (ti )i=0,...,n una partición de [a, b] y pon
mi = ı́nf f(t) y Mi = sup f(t).
t∈[ti−1 ,ti ] t∈[ti−1 ,ti ]
Esto sugiere qué partición escoger; dado ε > 0 sea Pε cualquier partición tal que
ε
máx (ti − ti−1 ) < .
i=1,...,n f(b) − f(a)
Entonces,
n
ε X ε
U(f, Pε ) − L(f, Pε ) ≤ (Mi − mi ) = (Mn − m1 ) = ε,
f(b) − f(a) f(b) − f(a)
i=1
lo cual concluye la demostración.
4 Recuerda que un conjunto C ⊂ R se llama contable si card
(C) ≤ card (N) ; es decir, o es finito o existe una biyección entre
C y N.
278
8.2. Funciones convexas.
( 8.2.12 ) Sea f : (a, b) → R diferenciable. Una condición necesaria y suficiente para que f sea no decreciente es
que f 0 sea no negativa sobre (a, b); una condición necesaria y suficiente para que f sea no creciente es que f 0 sea
no positiva sobre (a, b).
Sea f no decreciente y diferenciable. Entonces para cualquier x ∈ (a, b),
f(x + h) − f(x)
f 0 (x) = lı́m ≥ 0.
h→0,h>0 h
Recíprocamente, si f 0 ≥ 0 sobre (a, b) entonces el teorema del valor medio (5.11.2)5 , f(y) − f(x) ≥ 0 para
todo a < x < y < b. Los casos para no crecimiento y decrecimiento se prueban al considerar −f.
Zb
Según (8.2.6), si f : [a, b] → R es convexa entonces fd y fg existen y son crecientes. Luego, fg0 (x)dx
0 0
a
Zb
e fd0 (x)dx existen, ¿qué relación tienen estas integrales con f? Recuerda que el teorema fundamental
a
del cálculo establece que
Zx
f(x) − f(a) = f 0 (t)dt.
a
El siguiente resultado responde a esta pregunta.
279
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
y como
n
X Zx
lı́m fg0 (ti−1 )(ti − ti−1 ) = fg0 (t)dt,
kPk→0
i=1 a
Zx
se ve que f(x) − f(a) = fg0 (t)dt. El caso para fd0 es análogo. Por lo tanto, se estableció la necesidad de
a
la afirmación.
Se ve ahora la suficiencia. Sean a < x < y < b y µ ∈ [0, 1] entonces pon z = µx + (1 − µ)y,
Zx Zy Zz
µf(x) + (1 − µ)f(y) − f(z) = µ g(t)dt + (1 − µ) g(t)dt − g(t)dt.
a a a
Hasta ahora no ha sido usada la hipótesis de que g es creciente, usándola, y la monotonía de la integral,
se concluye que
Zy Zz
µf(x) + (1 − µ)f(y) − f(z) = (1 − µ) g(t)dt − µ g(t)dt
z x
Zy Zz
≥ (1 − µ) g(z)dt − µ g(z)dt
z x
= (1 − µ)(y − z)g(z) − µ(z − x)g(z) = 0.
Luego, f es convexa.
( 8.2.14 ) Sea f : (a, b) → R convexa. Existe un conjunto contable C ⊂ (a, b) tal que f 0 existe sobre {(a,b) C. En
particular, fd0 = fg0 sobre {(a,b) C.
Este es corolario inmediato de la proposición anterior,
Z x de (8.2.6), de (8.2.10) y del teorema funda-
mental del cálculo, el cual establece que si F(x) = f, para x ∈ (a, b) y si f es continua en c ∈ (a, b)
a
entonces F 0 (c) = f(c).
Para fg0 existe Cg ⊂ (a, b) contable tal que sobre {(a,b) Cg fg0 es continua. La proposición anterior
muestra entonces que sobre {(a,b) Cg f 0 (x) existe y vale fg0 (x). Análogamente, existe Cd ⊂ (a, b) contable
tal que sobre {(a,b) Cd f 0 (x) existe y vale fd0 (x). De la uncididad de la derivada fd0 (x) = fg0 (x) para todo
x ∈ {(a,b) Cg ∩ {(a,b) Cd = {(a,b) (Cd ∪ Cg ) y C = Cd ∪ Cg es contable.
Otro corolario directo de (8.2.13) es que si f es diferenciable entonces, que sea convexa equivale a
que su derivada sea creciente.
280
8.2. Funciones convexas.
( 8.2.15 ) Sea f : (a, b) → R diferenciable. Una condición necesaria y suficiente para que f sea convexa es que
f 0 sea creciente sobre (a, b).
Sea c ∈ (a, b) cualquiera. Del teorema fundamental del cálculo, la única g que satisface que para
cualquier x ∈ (a, b) Z x
f(x) − f(c) = g(t)dt,
c
es f 0 . Luego, (8.2.13) muestra el resultado.
( 8.2.16 ) Sea f : (a, b) → R dos veces diferenciable. Para que f sea convexa es encesario y suficiente que
f 00 (x) ≥ 0 para todo x ∈ (a, b).
Pues según (8.2.15) f es convexa si y solo si f 0 es creciente y esto último equivale a que f 00 ≥ 0 según
(8.2.12).
( 8.2.17 ) Sea I ⊂ R un intervalo. Se dirá que f : I → R tiene una recta de soporte en el punto t ∈ I si existe
una función afín, por ejemplo A : I → R dada según A(x) = f(t) + m(x − t), tal que A(x) ≤ f(x) para cada
x ∈ I. A la gráfica de A se le llama línea de soporte para f en t.
( 8.2.18 ) Para que f : I → R sea convexa es necesario y suficiente que para cada t ∈ I exista una línea de
soporte de f en t.
La necesidad es consecuencia directa del lema de las tres cuerdas (8.2.2). Se pone m ∈ [fg0 (t), fd0 (t)]
cualquiera entonces para h > 0
f(t + h) − f(t)
≥ fd0 (t) ≥ m
h
y para h < 0
f(t + h) − f(t)
≤ fg0 (t) ≤ m.
h
En cualquier caso f(t + h) ≥ f(t) + mh = A(t + h), lo cual muestra que A(x) = f(t) + m(x − t) es recta
de soporte y la necesidad de la afirmación queda concluída.
Recíprocamente, sea A una recta de soporte de f en t; sean x, y ∈ I con x < t < y y λ ∈ [0, 1] tal
que t = λx + (1 − λ). Entonces
f(t) = A(t) = λA(x) + (1 − λ)A(y) ≤ λf(x) + (1 − λ)f(y),
que concluye la demostración por la arbitrariedad de x, y y t.
De la demostración previa se concluye que todo m ∈ [fg0 (t), fd0 (t)] genera una recta de soporte
entonces si en t existe una única recta, se obtiene que fg0 (t) = fd0 (t); esto es, si hay una única recta de
soporte en t entonces f es diferenciable en t. El recíproco también es cierto.
( 8.2.19 ) Sea f : [a, b] → R una función convexa. Para que f sea diferenciable en t ∈ (a, b) es necesario y
suficiente que exista una y solo una recta de soporte de f en t.
La suficiencia ya fue demostrada. Para la necesidad se supone que f es diferenciable en t. En efecto,
si A(x) = f(t) + m(x − t) es recta de soporte entonces
f(x) ≥ f(t) + m(x − t),
de donde, para x > t
f(x) − f(t)
m≤
x−t
y para x < t
f(x) − f(t)
m≥ ,
x−t
con hacer t → 0 se ve que m = f 0 (t), por lo que A debe ser A(x) = f(t) + f 0 (x)(x − t). Resta ver que A
es, en efecto, una recta de soporte, pero esto es directo de (8.2.18).
281
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
g(f(λx + (1 − λ)y))
y
g(λf(x) + (1 − λ)f(y)) ≤ λg(f(x)) + (1 − λ)g(f(y))
donde la última desigualdad es derivada del hecho de ser g convexa. Es natural pedir que g sea creciente.
( 8.2.21 ) Supón que I y J son intervalos en R y que f : I → J y g : J → R son funciones convexas. Entonces es
suficiente que g sea creciente para que g ◦ f sea convexa.
que es la condición de convexidad. Luego, ¿qué condición implica que f(x)g(y) + f(y)g(x) ≤ f(x)g(x) +
f(y)g(y)? Es cuestión de reordenar las expresiones anteriores para notar que esta desigualdad equivale
a
(f(x) − f(y))(g(y) − g(x)) ≤ 0.
Luego, basta pedir, por ejemplo, que f y g sean ambas crecientes o ambas decrecientes.
( 8.2.22 ) Sean f, g : I → R funciones convexas positivas las cuales son crecientes ambas (respectivamente,
decrecientes ambas). Entonces h = fg es también creciente y convexa (respectivamente, decreciente y convexa).
Que h sea convexa se deriva de las cuentas previas, restaría ver que h es creciente, pero esto es
inmediato de que si a < b y c < d son todos número positivos entonces ac < bd.
282
8.2. Funciones convexas.
Entonces, sean x, y ∈ J con x < y y toma z entre x y y, existe un λ ∈ (0, 1) tal que z = λx + (1 − λ)y.
Observa que para cada α ∈ Λ, la convexidad de fα implica que fα (z) ≤ λfα (x) + (1 − λ)fα (y), por lo tanto,
f(z) ≤ sup λfα (x) + (1 − λ)fα (y) ≤ λ sup fα (x) + (1 − λ) sup fα (y);
α∈Λ α∈Λ α∈Λ
esto es,
f(λx + (1 − λ)y) ≤ λf(x) + (1 − λ)f(y) < ∞,
donde la última desigualdad es debido a que x, y ∈ J. Esto ha demostrado simultaneamente que J es un
intervalo y que f es convexa sobre J.
¿Qué otras operaciones son clásicas a la hora de trabajar funciones? Está el cociente, el cual, por
su comportamiento con las desigualdades, no es dificil imaginar que no preserve convexidad. Por otro
lado, también están los límites.
( 8.2.24 ) Sea (fn ) una sucesión de funciones de I ⊂ R un intervalo a R la cual satisface que para cada x ∈ I
existe un número f(x) ∈ R tal que f(x) = lı́m fn (x). Entonces, f es convexa sobre I.
n→∞
donde sgn (x) vale 1 si x > 0, vale −1 si x < 0 y vale 0 si x = 0. Evidentemente x 7Ï sgn (x) es creciente,
luego el resultado es consecuencia de (8.2.13).
( 8.2.28 ) La función x 7Ï ex de R a R es convexa.
Pues esta función es indefinidamente diferenciable, con segunda derivada x 7Ï ex la cual es no
negativa en todo punto x ∈ R. El resultado es consecuencia de (8.2.16).
283
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
1
( 8.2.29 ) La función x 7Ï es convexa sobre (−∞, 0) y sobre (0, ∞).
x2
1
De nuevo, su segunda derivada es 6 ≥ 0 sobre (−∞, 0) y sobre (0, ∞).
x4
1
En este ejemplo se destaca el hecho que resulta imposible extender a la función x 7Ï 2 de manera
x
convexa sobre toda la recta. Si esto fuera posible, tal extensión debería ser continua en el origen, lo
cual es imposible.
√
( 8.2.30 ) La función x 7Ï − x es convexa sobre (0, ∞).
1
Pues su segunda derivada es √ ≥ 0 para cualquier x ∈ R.
4 x3
( 8.2.31 ) Si p ≥ 1 entonces x 7Ï x p es convexa sobre [0, ∞).
( 8.2.32 ) Se dirá que una función f : A ⊂ V → R es convexa si A es un conjunto convexo y si para cada par
u, v ∈ A y cada λ ∈ [0, 1] se satisface que
˚
La demostración de que una función convexa I → R es continua sobre ÛI dependía fuertemente
de R y no puede ser generalizada a varias variables. Existen otras demostraciones que sí pueden ser
generalizadas pero al ser ideas menos obvias se decidió no exponerlas hasta este punto. Se necesitan
algunas definiciones previas.
k
X
( 8.2.33 ) Sean v1 , . . . , vk ∈ V y λ1 , . . . , λk ∈ [0, 1]. Se dirá que v = λi vi es combinación lineal convexa de
i=1
n
X
los v1 , . . . , vk si λi = 1.
i=1
( 8.2.34 ) Sea S ⊂ V y CS el conjunto de todas las combinaciones lineales convexas por elementos de S; esto es
k
X n
X
v ∈ CS si existen v1 , . . . , vk ∈ S y λ1 , . . . , λk ∈ [0, 1] tales que v = λ i vi y λi = 1. Entonces CS es un
i=1 i=1
conjunto convexo el cual será llamado la «envolvente convexa» de S.
284
8.2. Funciones convexas.
p q
X X
en donde cada ui , vj ∈ S y todos los λi , µj ∈ [0, 1] satisfacen que λi = 1 y µj = 1. Luego, para
i=1 j=1
α ∈ [0, 1]
p q
X X
αu + (1 − α)v = αλi ui + (1 − α)µj vj .
i=1 j=1
por lo que λu + (1 − λ)v es suma convexa por elementos de S, es decir está en CS . Esto prueba que CS
es convexo.
n
Y
( 8.2.35 ) Sean [a1 , b1 ], . . . , [an , bn ] ⊂ R intervalos cerrados. La caja generada por ellos R = [ai , bi ] ⊂ Rn
i=1
es la envolvente convexa del conjunto de vértices VR = {(x1 , . . . , xn )|xi ∈ {ai , bi }}.
Se procede por inducción sobre n; el resultado es evidente para n = 1 pues si t ∈ [a1 , b1 ] entonces
b1 − t
se define λ = ∈ [0, 1] y es claro que t = λa1 + (1 − λ)b1 ; recíprocamente, si t es un elemento
b1 − a1
de la envolvente convexa de {a1 , b1 } entonces existe un λ ∈ [0, 1] tal que t = λa1 + (1 − λ)b1 y entonces
t ∈ [a1 , b1 ]; esto es CVR1 = [a1 , b1 ].
Supón que el resultado vale para un n arbitrario y
n+1
Y
(x1 , . . . , xn+1 ) ∈ Rn+1 = [ai , bi ] = Rn × [an+1 , bn+1 ]
i=1
n n
2
X 2
X
entonces existen constantes λ1 , . . . , λ 2n ∈ [0, 1] con λi = 1 y (x1 , . . . , xn ) = λi vi , en donde VRn =
i=1 i=1
{vi : i = 1, . . . , 2n }. Es claro que
por lo que
n n ! n n !
2
X 2
X 2
X 2
X
λi (vi , an+1 ) = λi vi , an+1 y λi (vi , bn+1 ) = λi vi , bn+1
i=1 i=1 i=1 i=1
pertenecen a la envolvente convexa de VRn+1 . Como xn+1 ∈ [an+1 , bn+1 ] existe un λ ∈ [0, 1] con xn+1 =
λan+1 + (1 − λ)bn+1 . Luego,
2n 2n 2n
! ! !
X X X
λ λi vi , an+1 + (1 − λ) λi vi , bn+1 = λi vi , λan+1 + (1 − λ)bn+1
i=1 i=1 i=1
= (x1 , . . . , xn+1 );
285
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
˚
Sea X ∈ U.Ù Existe un cubo R centrado en X y de lado 2r tal que R ⊂ U, ve el ejercicio (3.10).
Es claro que B (X; r) ⊂ R, luego, según (8.2.35), si V es el conjunto de vértices de R, entoces para
cualquier Y ∈ B (X; r) se cumple que f(Y ) ≤ M, en donde M = máx f(v). En virtud de (3.1.17), para cada
v∈V
Y ∈ B (X; r) la recta que pasa por X y Y interseca a la frontera de B (X; r) en dos puntos de la forma
X + u y X − u con kuk = r.
kY − Xk
Considera λ = y
r
L1 = {X + tu|t ∈ [0, 1]}
y
L2 = {X − tu|t ∈ [0, 1]}.
Es claro que L1 ∪ L2 es el segmento de recta que une a X − u con X + u. Como Y ∈ L1 ∪ L2 se puede
suponer que Y ∈ L1 , luego existe un t ∈ [0, 1] tal que Y = X + tu. De aquí se deriva que t = λ.
λ
Análogamente, si X = t(X − u) + (1 − t)Y para algún t ∈ [0, 1]. Despejando t se encuentra que t = .
1+λ
Entonces
1 λ
Y = (1 − λ)X + λ(X + u) y X = Y+ (X − u).
1+λ 1+λ
Por la convexidad de f se concluye que
y que
1 λ
f(X) ≤ f(Y ) + f(X − u).
1+λ 1+λ
1 λ
Entonces, f(Y ) ≤ (1 − λ)f(X) + λM y f(X) ≤ f(Y ) + M, de la primera desigualdad se concluye
1+λ 1+λ
que
f(Y ) − f(X) ≤ λ(M − f(X))
y de la segunda, multiplicando todo por 1 + λ,
Por lo tanto,
M − f(X)
|f(X) − f(Y )| ≤ λ(M − f(X)) = kX − Y k ,
r
M − f(X)
es decir, f es -lipschitziana en B (X; r) , en particular es uniformemente continua ahí. Por la
r
˚
arbitrariedad de X, f es continua en U.Ù
( 8.2.37 ) Sean f : A ⊂ V → R cualquier función y B una base ordenada de V . Supón que [ ]B son las coordenadas
de V relativas a B. Una condición necesaria y suficiente para que f sea convexa es que f ◦ [ ]−1
B sea convexa. En
˚
particular, si f es convexa entonces es continua en A.
Û
( 8.2.38 ) Sea f : A ⊂ V → R, donde A es un conjunto abierto y convexo. Se supone que f es diferenciable. Una
condición necesaria y suficiente para que f sea convexa es que para cada par de vectores u, v ∈ A
286
8.2. Funciones convexas.
Define g(λ) = f(u + λ(v − u). Entonces g es convexa y diferenciable. El lema de las tres cuerdas
muestra que
g(λ) − g(0)
≤ g(1) − g(0) = f(v) − f(u),
λ
g(λ) − g(0)
y cuando λ ↓ 0 se ve que → g 0 (0). Según la regla de la cadena,
λ
así que
f(w) = f(w) + Df (w) (λ(u − w) + (1 − λ)(v − w)),
pero por hipótesis Df (w) (u − w) ≤ f(u) y Df (w) (v − w) ≤ f(v), usando esto en la igualdad anterior se
encuetra que
f(w) ≤ λf(u) + (1 − λ)f(v)
y f es convexa.
Observacion: corolario directo de esta propiedad es una condición suficiente de primer orden para
minimización global. Esta es la siguiente. Si f es convexa y diferenciable y si existe un v en su dominio
tal que Df (v) = 0 entonces f posee un mínimo global en v.
( 8.2.39 ) Sea f : A → R una función dos veces diferenciable con continuidad sobre el conjunto abierto y convexo
A. Una condición necesaria y suficiente para que f sea convexa es que D2 f (v) esté definida semipositivamente
para cada v ∈ A.
1
f(v) = f(u) + Df (u) (v − u) + D2 f (u + λ(v − u)) (v − u, v − u),
2
en donde λ ∈ [0, 1], por lo que al estar la segunda derivada definida semipositivamente se concluye que
287
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Observación: las condiciones de segundo orden, tanto necesarias y suficientes, dicen que para que
una función posea un mínimo en un punto es necesario y suficiente que la función se comporte como
una función convexa. Una motivación a posteriori6 para estudiar funciones convexas.
Pues si f es la función dada entonces f es dos veces diferenciable y su segunda derivada en (x, y) es
hs kt
D2 f (x, y) ((h, k), (s, t)) = + 2,
x2 y
y al hacer h = s, k = t se ve que D2 f (x, y) ((h, k), (h, k)) ≥ 0 y según (8.2.39) f es convexa.
la cual define una forma cuadrática definida positivamente. El resto es consecuencia de (8.2.39).
n
X
( 8.2.43 ) (x1 , . . . , xn ) 7Ï ai |xi + bi |p , en donde ai ≥ 0, bi ∈ R y p ≥ 1, es una función convexa sobre Rn .
i=1
En virtud del ejercicio (8.14) basta demostrar que cada función (x1 , . . . , xn ) 7Ï |xi + bi |p es convexa.
El ejemplo (8.2.31) muestra que basta ver que (x1 , . . . , xn ) 7Ï |xi + bi | es convexa. Pero
1. Si el problema está planteado implícitamente, asegurarse que la función que plantees para op-
timizarla describa correctamente el problema. Encontrar el dominio de la función. A veces es
necesario cerrar el dominio para que este devenga en un conjunto compacto.
6 Es decir, ya una vez estudiada la teoría, es una razón para estudiarla de nuevo.
288
8.3. Ejemplos de optimización libre.
2. Verificar que la función sea de clase Ck en el interior del dominio para algún k ∈ N conveniente.
3. Verificar si el dominio es compacto para asegurar la existencia de los óptimos. En caso contrario
habrán que utilizarse heurísticas para asegurar que fueron encontrados todos los puntos óptimos.
4. Si la función es diferenciable, encontrar los puntos críticos. Observa que este punto solo permitirá
encontrar puntos óptimos en el interior del dominio de f. La fronterá tendrá que ser analizada
más a detalle.
5. Si la función es dos veces diferenciable, usar las condiciones de segundo orden cuando apliquen y
sea conveniente; a veces es más fácil evitar calcular la segunda derivada y utilizar un argumento
de exitencia y unicidad. En este punto conviene verificar si la función es convexa.
( 8.3.1 ) Dado un pedazo de cartón cuya área es S > 0, si se puede utilizar todo sin que exista desperdicio, ¿cuál
es la caja con tapa de volumen máximo que se puede formar?
Siguiendo las sugerencias iniciales se empieza encontrando la función a maximizar. Sean x, y, z las
dimensiones de la caja entonces su volumen es V (x, y, z) = xyz. El dominio de V es, de acuerdo a
las condiciones iniciales, {(x, y, z) ∈ [0, ∞)3 |2(xy + yz + zx) = S}. Este problema no corresponde a la
optimización libre pues las variables están relacionadas entre sí; sin embargo, se puede despejar alguna
S
de ellas. Por ejemplo z, quedando que, z(x + y) = − xy. Con considerar el caso cuando x + y = 0 se
2
ve que la función a maximizar es
xy(S − 2xy) S
si 0 ≤ x, y, (x, y) 6= (0, 0) y xy ≤ ;
V (x, y) = 2(x + y) 2
0 si (x, y) = (0, 0).
289
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
S
2. El segundo caso es cuando xy = entonces tanto x como y son no nulas. Para este caso define
2
Ç å
x y
(xn , yn ) = , ,
1 + n1 1 + n1
entonces (xn , yn ) ∈ D1 y (xn , yn ) → (x, y).
Por lo tanto ∂D1 = D2 . Ver que Dom (V ) no es acotado es sencillo, como todos los puntos x ≥ 0, y ≥ 0
S S
con xy = están en Dom (V ) se ve que para cualquier n ∈ N si se pone xn = n y yn = entonces
2 2n
(xn , yn ) ∈ Dom (V ) y como n = |xn | ≤ k(xn , yn )k → ∞ mostrando que Dom (V ) no es acotado.
( 8.3.1.2 ) V es un función continua sobre su dominio y diferencible sobre D1 .
Que V sea diferenciable sobre D1 se deduce del hecho que es cociente de dos funciones diferen-
ciables en donde el denominador no se anula en ningún punto de D1 . Es claro que V es continua en
donde su denominador no se anula, pero como x ≥ 0 y y ≥ 0, el único punto donde el denominador
de V se anula es el origen, de aquí que basta ver que
lı́m V (x, y) = 0.
(x,y)→(0,0)
290
8.3. Ejemplos de optimización libre.
ny(S − 2ny) 1
≤ y(S − 2ny) = h(y).
2(n + y) 2
1 S
Se maximiza ahora h. Entonces, h0 (y) = S − 2ny, por lo que h0 (y) = 0 ⇔ y = . Este punto
2 4n
es máximo sobre el intervalo en cuestión; la función h se anula en los extremos y es positiva en el
interior, al ser que el maximo existe (pues el intervalo es compacto), el maximo es interior, por lo que
la derivada de h se anula en el punto máximo, pero solo hay un punto donde la derivada se anula.
S2
Luego, tras un cálculo elemental, h(y) ≤ . Tomando n suficientemente grande se puede ver que
16n
2
S
V (pn , qn ) ≤ < V (x ∗ , y ∗ ), lo cual deviene en una contradicción. Por lo tanto, (x ∗ , y ∗ ) es máximo de
16n
V . De hecho, se demostró que (x ∗ , y ∗ ) es máximo global de V .
Observaciones:
2. Es destacable que para haber resuelto “más correctamente” el ejercicio debió haberse planteado
la función como V (x, y, z) = xyz con dominio {(x, y, z) ∈ R3 |x, y, z ≥ 0 y 2(xy + yz + xz) ≤ S},
y este sería un problema de maximización libre. Sin embargo, si el óptimo no utilizara todo el
material, es decir, si hay un punto (x, y, z) óptimo tal que 2(xy + xz + yz) < S entonces se puede
encontrar un ε > 0 tal que 2([x +ε]y +[x +ε]z +yz) ≤ S y (x +ε)yz > xyz. Es decir, a veces es fácil
derivar que el óptimo de una función en n variables se encuentra en su frontera, en la cual hay
una relación de dependencia de las variables. Esto suele llevar a que una de las variables puede
ser despejada, dejando un problema de optimización de n variables a otro de n − 1 variables.
291
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
3. Aunque era claro que V no podía tener máximo cuando xy = 0 se decidió definir a V sobre un
conjunto cerrado. Esto se hizo pues había una motivación de fondo, que puede resultar un poco
opaca a primera vista: todo conjunto cerrado es la unión de una familia creciente y enumerable
de subconjuntos compactos de él; la demostración de esto es sencilla pues si C es cerrado y Bn
es la bola cerrada de centro el origen y radio n ∈ N entonces (C ∩ Bn )n∈N es la familia deseada
(queda a título de ejercicio verificar esto). Luego, con tener esto presente y (8.1.14) se observa
que se puede maximizar a la función en cada uno de los miembros de la familia y así obtener
una sucesión de máximos. Si estos máximos, como ocurrió, son uno solo entonces se obtiene un
máximo global.
4. Es destacable que se pudo haber calculado la segunda derivada de V en (x1 , y1 ) pero DV (x, y) ya
tenía una expresión realmente complicada como para calcular la segunda derivada.
( 8.3.2 ) Dado un número A > 0, ¿cuál es la manera óptima de dividirlo en 3 cantidades a, b, c ≥ 0 tales que
a + b + c = A y abc sea máximo?
La función a maximizar es f(a, b, c) = abc, pero las variables no son independientes. Sin embargo,
por las condiciones iniciales, se puede despejar c entonces, la función a maximizar es f(a, b) = ab(A −
a − b). El dominio de esta función es {(a, b) ∈ R2 |a, b ≥ 0 y 0 ≤ a + b ≤ A}, ahora, si a + b = 0 o
a + b = A entonces f(a, b) = 0, como hay puntos donde f > 0, si el máximo existe entonces el máximo
es un punto interior; que el máximo efectivamente existe se deriva de (8.1.14). Como f es de clase C2
aplican las condiciones de primer orden. El máximo de f debe satisfacer que Df (a, b) = (0, 0), pero
como (a, b) es un punto interior, tanto a como b no son cero, por lo que Df (a, b) = (0, 0) si y solo si
A − 2a − b = 0 y A − a − 2b = 0, restando una ecuación de la otra se obtiene queÅa = b ãy sustituyendo
A A A
esto en cualquiera se concluye que a = b = . Luego, el candidato a máximo es , . Que este es
3 3 3
un punto maximizador se deriva del hecho que el maximo existe y debe ser un punto interior. Luego,
A3
el punto encontrado es maximizador. El valor máximo que puede alcanzar f es .
27
C
( 8.3.3 ) Supón que la función T : R → R dada por T(x, y) = indica la temperatura del punto
x2 + y4 + 1
(x, y) en el plano, ¿en qué punto la temperatura es mínima? ¿Y máxima?
En este caso tanto la función como el dominio están dados, al ser la función de clase C∞ se pueden
utilizar las condiciones de primer y segundo orden. Se empieza encontrando los puntos críticos. Se
tiene que
Ç å
2Cx 4Cy 3
DT (x, y) = − 2 ,− 2 ,
(x + y 4 + 1)2 (x + y 4 + 1)2
por lo que el único punto donde la derivada se anula es el origen. En este punto la función vale C y
como x 2 + y 4 > 0 para (x, y) 6= 0 se ve que si (x, y) 6= (0, 0) entonces T(x, y) < C, por lo que C es un
punto máximo global estricto. No hay puntos mínimos pues por ser todos los puntos interiores el único
candidato a óptimo era el origen.
292
8.3. Ejemplos de optimización libre.
Observación: aunque se podían utilizar las condiciones de segundo orden, resultaba demasiado difícil
calcular la segunda derivada. En muchas ocasiones una inspección a la función deriva en que los puntos
encontrados son extremos.
Aquí la función a minimizar es f(X) = kXk y su dominio es P. Sin embargo, las variables en P están
relacionadas por la ecuación X · A = λ por lo que no son variables independientes entre sí (hay una
relación funcional entre ellas). Sin embargo, se puede mejorar esto, se supone que A = (a, b, c), como
P es un plano no degenerado A 6= 0, por lo que, por ejemplo c 6= 0 entonces, se puede suponer que
c = 1. Entonces, si X = (x, y, z) ∈ P, se ve que z = λ − ax − by. Luego, la función a minimizar es
Es claro que f no es de clase C2 , para arreglar esto se considera la función t 7Ï t 2 la cual es creciente
sobre [0, ∞), como f(x, y) ≥ 0 se ve que (x, y) es un mínimo de f si y solo si es mínimo de f(x, y)2 .
Luego, se puede considerar que la función a minimizar es
(x, y) 7Ï x 2 + y 2 + (λ − ax − by)2
Se resuelve ahora el sistema Df (x, y) = (0, 0). Escribiéndolo en forma matricial, se debe ver si la matriz
1 + a2
ï ò
ab
M=
ab 1 + b2
es invertible, pero det M = 1 + a2 + b2 > 0, por lo que el sistema Df (x, y) = (0, 0) tiene una única
solución. Sea (x ∗ , y ∗ ) dicha solución, se probará ahora que esta solución es minimizador estricto y
global de f. Se calcula la segunda derivada de f en el punto (x, y) arbitrario. Se obtiene que
1 + a2
ï ò
ab
D2 f (x, y) = 2 ,
ab 1 + b2
por lo tanto,
D2 f (x, y) ((h, k), (h, k)) = 2 (1 + a2 )h2 + 2abhk + (1 + b2 )k2 = 2(h2 + k2 ) + 2(ah + bk)2 > 0
siempre que (h, k) 6= 0. Luego, en virtud de las condiciones suficientes de segundo orden (8.1.20) se
deriva que (x ∗ , y ∗ ) es un mínimo relativo estricto de f.
Para ver que X ∗ = (x ∗ , y ∗ ) es mínimo global se observa que si Bn = {X ∈ R2 | kXk ≤ n} entonces
Bn es compacto y que Bn ⊂ Bn+1 . Además, para todo n ∈ N grande se cumple que X ∗ ∈ Bn . Se afirma
que X ∗ es el mínimo absoluto de f sobre Bn . En virtud de (8.1.14) existe un punto Xn ∈ Bn tal que
f(Xn ) ≤ f(X) para todo X ∈ Bn . Ahora bien, si X ∗ ∈ Bn entonces kX ∗ k ≤ n < n + 1, por lo que X ∗ es
interior a Bn+1 , luego f alcanza su mínimo en el interior de Bn+1 . Según (8.1.10) el único candidato a
ser mínimo de f es X ∗ y como tal mínimo existe X ∗ es el mínimo de f sobre Bn+1 . Luego, para todo n
grande, X ∗ es el mínimo de f sobre Bn .
Se verá ahora que X ∗ es el mínimo global de f. Sea entonces X ∈ Rn cualquiera entonces X, X ∗ ∈ Bn
para algún n suficientemente grande, de aquí que f(X ∗ ) ≤ f(X), que es lo que se quería demostrar.
293
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Observación: al igual que con un ejemplo previo aquí se utilizó el método de dividir el dominio, el
cual es cerrado, como una sucesión creciente de conjuntos compactos; por existencia y unicidad del
máximo se deriva que el único máximo es global.
( 8.3.5 ) Calcular el volumen del paralelepípedo recto, cuyas caras son paralelas a los planos coordenados, de
mayor volumen que se pueda inscribir en el elipsoide
® 2 ´
3 x y2 z2
E = (x, y, z) ∈ [0, ∞) 2 + 2 + 2 = 1 .
a b c
Es intuitivamente claro que paralelepípedo debe tener los ocho vértices sobre el elipsoide7 . Por
ser las caras paralelas, se tiene que los ocho vértices tienen coordenadas (±x, ±y, ±z). Luego, basta
considerar el caso x ≥ 0, y ≥ 0 y z ≥ 0. Entonces, se debe maximizar la función
V (x, y, z) = 8xyz
® 2 ´
3 x
y2 z2
sobre el conjunto (x, y, z) ∈ [0, ∞) 2 + 2 + 2 = 1 . Con notar que z ≥ 0 sobre este conjunto se
a b c
puede ver que es despejable de la ecuación definitoria, obteniendo que
x2 y2
z = c 1− 2 − 2.
a b
Luego, la función a maximizar es
x2 y2
V (x, y, z) = 8cxy 1− −
a2 b2
® ´
x2 y2
2
sobre el conjunto (x, y) ∈ R x ≥ 0, y ≥ 0 y 2 + 2 ≤ 1 . Como se observó en un ejemplo previo,
a b
V2
V no es diferenciable en todos los puntos, por lo que conviene mejor maximizar . Por lo tanto, la
64c2
función a maximizar es
Ç å
x2 y2 x4y2 x2y4
V (x, y) = x 2 y 2 1 − 2 − 2 = x 2 y 2 − 2
− 2
a b a b
® ´
x2 y2
sobre el conjunto (x, y) ∈ R2 x ≥ 0, y ≥ 0 y 2 + 2 ≤ 1 .
a b
( 8.3.5.1 ) El dominio de V es un conjunto compacto.
Es claro que Dom (V ) está contenido en el conjunto
® 2 ´
2 x
y2
E = (x, y) ∈ R 2 + 2 ≤ 1
a b
que es imagen de la bola unitaria cerrada por la función T(x, y) = (ax, by), ve el ejercicio (2.5). Como
T es invertible, T −1 existe y es lineal (ejercicio (1.23)), por lo que es continua. En consecuencia
E = T(B0 (0; 1)) = (T −1 )−1 (B0 (0; 1))
7 Si un paralelepípedo maximizador satisface que no todos sus ocho vértices están sobre el elipsoide, entoces existiría al menos
uno que no estaría sobre el elipsoide y así, todas las coordenadas de dicho vértice pueden incrementarse en una cantidad pequeña
y positiva, esto muestra que el volumen crecería estricamente y el paralelepípedo no sería maximizador
294
8.3. Ejemplos de optimización libre.
La derivada de V es
Å ã
4 2 4 2
DV (x, y) = 2xy 2 − 2 x 3 y 2 − 2 xy 3 , 2x 2 y − 2 x 2 y 3 − 2 x 3 y ,
a b b a
entonces Ç å
2x 2 y2 x2 2y 2
DV (x, y) = (0, 0) ⇔ + 2 − 1, 2 + 2 − 1 = (0, 0).
a2 b a b
x2 y2 ˚
De estas ecuaciones se deriva que 2 = 2 y, como x > 0 y y > 0 (recuerda que (x, y) ∈ Dom ¸ (V )) se
a b
a a
deriva finalmente que x = y. Sustituyendo esto en cualquiera de las ecuaciones se llega a que x = √
b 3
b c x2 y2 2
y que y = √ ; con estos valores se obtiene que z = √ . Como x > 0, y > 0 y 2 + 2 = < 1 se ve
3 3 a b 3
˚
que (x, y) ∈ Dom
¸ (V ) , luego (x, y) es el único punto crítico de V .
Como el máximo global de V existe y tiene que ser un punto interior en donde se satisfacen las
condiciones de primer orden, se tiene que el punto crítico es máximo global. Que el máximo es estricto
se deriva del hecho que si otro punto fuera máximo entonces tendría que ser interior y se tendrían que
satisfacer las condiciones de primer orden.
¿Existe algún punto P cuya distancia al origen sea mínima? Describir tal punto en términos de los vectores
A1 , . . . , Ak y A.
Observa que P es el espacio vectorial generado por {A1 , . . . , Ak } trasladado al punto A. Entonces, se
puede cambiar la base afín de P por otra más conveniente. Aquí, con conveniente se hace referencia
295
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
B1 = A1
hA2 , B1 i
B2 = A2 − B1
hB1 , B1 i
.. .. ..
. . .
hAk , B1 i hAk , Bk−1 i
Bk = Ak − B1 − . . . − Bk−1 ;
hB1 , B1 i hBk−1 , Bk−1 i
( 8.3.6.1 ) El conjunto {B1 , . . . , Bk } es base ortogonal del espacio generado por {A1 , . . . , Ak }.
En efecto, se probará que los vectores {B1 , . . . , Bk } son ortogonales y no nulos, luego, según (1.4.7) los
k vectores {B1 , . . . , Bk } serán linealmente independientes, con lo cual constituirán una base del espacio
generado por {A1 , . . . , Ak }. Se mostrará primeramente que Bi+1 es ortogonal a B1 , . . . , Bi . Entonces, se
procede por inducción, el caso i = 1 es muy sencillo pues
≠ ∑
hA2 , A1 i hA2 , A1 i
hB2 , B1 i = A2 − B1 , B1 = hA2 , B1 i − hB1 , B1 i = 0
hA1 , B1 i hA1 , B1 i
ya que B1 = A1 .
Se supone ahora que Bi+1 es ortogonal a B1 , . . . , Bi entonces, para j = 1, . . . , i + 1,
hAi+2 , Bj i
y cj = . Con lo cual Bi+2 es ortogonal a Bj para j = 1, . . . , i + 1. Luego, se ha demostrado que
hBj , Bj i
cada Bi es ortogonal a los anteriores, por lo tanto, B1 , . . . , Bk son ortogonales entre sí.
Observa que P = lin h{B1 , . . . , Bk }i + A, el espacio generado por los vectores B1 , . . . , Bk trasladado
al punto A. Define la función F : Rk → Rn dada por
k
X
F(x1 , . . . , xk ) = x i Bi + A
i=1
n
X ∂F ∂r
y la función r : Rn → R dada por r(y1 , . . . , yn ) = yj2 . Entonces = Bi y = 2yj . Nota que la
∂xi ∂yj
j=1
función a minimizar es r(F(x1 , . . . , xk )). En virtud de las condiciones necesarias de primer orden (8.1.10)
y de la regla de la cadena, debe cumplirse que para un óptimo (x1 , . . . , xk ),
n
∂r X ∂r ∂F
0= = = 2 hF(x1 , . . . , xk ), Bi i .
∂xi ∂yj ∂xi
j=1
296
8.4. Optimización restringida.
∂r
= 2xi hBi , Bi i + 2 hA, Bi i .
∂xi
∂2 r ∂2 r
Por lo tanto, = 0 para i 6= j y = 2 hBi , Bi i . Luego, la matriz hessiana de la función a
∂xi ∂xj ∂xi2
maximizar es una matriz diagonal cuyas entradas son 2 hBi , Bi i = 2 kBi k2 > 0 por ser ninguno de los
Bi nulos. Luego, esta forma cuadrática está definida positivamente y el punto en cuestión es mínimo
(8.1.20).
Observaciones:
297
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Ψ(f) = f −1 .
Tal Ψ posee propiedades muy agradables9 . Si está interesado el lector en ver y estudiar cuales son tales
propiedaes refiérase a [4], a [8] o a [13].
( 8.4.3 ) Para cualesquier A ⊂ V y B ⊂ W dos abiertos, se tiene que Hom (A, B) = D (0) (A, B) .
Lo cual es consecuencia directa de que una función es continua si y solo si es de clase C0 , ve la
definición (6.6.3).
8 De las raices griegas homeo y morfo, que significan ‘semejante’ o ‘parecido’ y ‘forma’, respectivamente.
9 Sise definen y demuestran los mismos conceptos para espacios vectoriales de dimensión arbitraria que se comporten como
lo espacios de dimensión finita, los «espacios banachianos», entonces Ψ es un C∞ -difeomorfismo.
298
8.4. Optimización restringida.
( 8.4.5 ) Sean V y W dos espacios vectoriales isomorfos y L ⊂ Lin (V , W ) el conjunto de las funciones lineales
e invertibles de V a W . Entonces L ⊂ D (∞) (V , W ) .
Para empezar tanto A como C son abiertos, además g ◦ f es invertible cuya inversa es g −1 ◦ f −1 , las
cuales son continuas por serlo f, g y sus inversas.
( 8.4.7 ) Sea f : A → B una función. Una condición necesaria y suficiente para que f sea un homeomorfismo es
que sea invertible, abierta (ve (3.4.1)) y que f −1 sea abierta.
Pues f es continua si y solo si f −1 es abierta (5.5.4), como lo mismo aplica para f −1 , se obtiene la
equivalencia.
Pues según (8.4.7) f(C) es un abierto. Según (2.1.20), f : C → f(C) es invertible, y según (5.22) f es
−1
continua. Como f = f −1 se obtiene que el mismo argumento muestra que f −1 es continua.
C f(C) f(C)
En particular, f es un homeomorfismo.
( 8.4.9 ) Sean V y W dos espacios vectoriales isomorfos y L ⊂ Lin (V , W ) el conjunto de las transformaciones
lineales invertibles. Sean A ⊂ V y B ⊂ W dos abiertos. Supón que f : A → B es un homeomorfismo de clase C1 .
Una condición necesaria y suficiente para que f ∈ D (1) (A, B) es que Df (v) ∈ L para cada v ∈ A.
donde
φ : L → L −1 = {T −1 |T ∈ L }
está dada por φ(T) = T −1 . Por lo tanto, al ser f −1 y Df funciones continuas, basta ver que φ es continua.
Se demostrará este resultado, el cual es relativamnete complicado pues se necesitarán varios lemas; de
hecho, cada uno es muy importante.
T 0 = IU y T k = T ◦ T k−1 .
Entonces
T k
≤ kTkk .
299
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Además, (5.6.2) muestra que kSuk ≤ kSk kuk para cualesquier S ∈ Lin (U, U) y u ∈ U. Entonces,
k
T u
=
T(T k−1 )u
≤ kTk
T k−1 u
,
Tomando u tal que kuk = 1 se encuentra que
T k
≤ kTkk , que era lo afirmado.
( 8.4.9.2 ) Sean U un espacio vectorial y T ∈ Lin (U, U) tal que kTk < 1. Entonces, la serie (ve (2.4.1)) definida
por la sucesión (T n )n∈N∪{0} es absolutamente convergente (ve (2.4.2)), en consecuencia, existe T ∗ ∈ Lin (U, U)
X∞
tal que T k = T ∗.
k=0
Lo cual es consecuencia directa de que kT n k ≤ kTkn y que si 0 ≤ r < 1 entonces la serie (r n )n∈N∪{0} es
X∞
convergente. Luego, según el ejercicio (2.23) se debe tener que existe un T ∗ ∈ Lin (U, U) con T k = T ∗.
k=0
∗
( 8.4.9.3 ) Sean U un espacio vectorial y T ∈ Lin (U, U) tal que kTk < 1. Sea T la suma de la serie asociada
a (T n )n≥0 . Entonces IU − T ∈ L y, de hecho, T ∗ = (IU − T)−1 .
Simplemente se realiza un cálculo,
∞
X ∞
X
T ∗ (IU − T) = T ∗ − T ∗ T = Tk − T k = T 0 = IU ,
k=0 k=1
300
8.4. Optimización restringida.
−1
para que (IV − T −1 H)−1 exista es suficiente que
T −1 H
< 1, luego, es suficiente que kHk <
T −1
.
¶
−1 ©
Por lo tanto, si kHk < mı́n r,
T −1
, se cumple que
kφ(T − H) − φ(T)k ≤
(IV − T −1 H)−1 − IV
T −1
∞
X
y como (IV − T −1 H)−1 = (T −1 H)k , se ve que
k=0
∞
∞
−1
X
X
k
T
kHk
(IV − T −1 H)−1 − IV
=
(T −1 H)k
≤
−1
T
kHk = .
−1
k=1
k=1 1 −
T
kHk
Finalmente, se ve que
−1
2
T
kφ(T − H) − φ(T)k ≤
kHk ,
1 −
T −1
kHk
¿Qué tan grande puede ser o(khk)? En general no existe ninguna condición salvo que
o(khk)
→0
khk
cuando khk → 0. Luego, cualquier función φ(h) = khkp es o(khk) para p > 1. Nota ahora que
φ(h)
= khkp−1
khk
la cual es una función continua y por lo tanto, para cualquier ε > 0 existe un δ > 0 tal que
lo cual indica que h 7Ï f(v + h) − f(v) − Df (v) h es ε-lipschitziana sobre la bola B (0; δ) . Esta condición
es más fuerte que f sea diferenciable.
˚
( 8.4.10 ) Se dirá que una función f : A ⊂ V → W es fuertemente diferenciable en v ∈ A Û si existe una
T ∈ Lin (V , W ) tal que para todo ε > 0 existe un δ > 0 tal que la función h 7Ï f(v + h) − f(v) − Th es
ε-lipschitziana sobre la bola B (0; δ) .
Algunas propiedades de las funciones fuertemente diferenciables están descritas en los ejercicios.
Ahora verá una condición suficiente de diferenciabilidad fuerte.
301
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
por la continuidad de Df en v dado ε > 0 existe δ > 0 tal que si ku − vk < δ entonces kDg (u)k < ε. En
virtud del teorema del valor medio, (5.11.2), si ku − vk < δ entonces kg(u) − g(v)k = kg(u)k < ε ku − vk .
Es decir, f es fuertemente diferenciable en v.
302
8.4. Optimización restringida.
3. Si a0 ∈ ext A, procede como en el caso previo, definie an como el punto medio entre u y an−1
hasta que an ∈/ ext A. Aquí también es lo mismo que en el caso previo, si an ∈ ∂A no hay más que
˚
hacer, por lo que se supone que siempre an ∈ A.Û
Los términos así formados satisfacen que los últimos dos an y an−1 cumplen con las condiciones
iniciales del problema; es decir, uno está en el interior y el otro en el exterior. Sin embargo, aquí
ku − vk
kan − an−1 k = , los puntos ahora están mucho más cerca.
2n
Se repite el algoritmo anterior para los puntos an y an−1 . De este modo, se obtiene una sucesión de
infinitos términos10 tales que ninguno de ellos está en la frontera. Sea (an )n∈N esta sucesión. Ahora se
verán algunas propiedades de ella.
˚
( 8.4.12.1 ) Hay una infinidad de términos de la sucesión en A
Û y una infinidad en ext A.
˚
Si no fuera así, supón que hay un número finito de términos en A Û entonces existe el N más grande
˚
tal que aN ∈ A. Por la definición de (an ) se debe cumplir que aN+p es el punto medio entre aN y
Û
aN+p−1 para cualquier p ∈ N. Entonces, la sucesión (aN+p )p∈N converge a aN pues por las construcción
kaN − aN+1 k
kaN+p − aN k = (ve el caso dos original). Por lo tanto, cuando p → ∞ se concluye que
2p
˚ ˚
aN+p → aN . Como aN ∈ A Û existe un p0 ∈ N tal que si p ≥ p0 entonces aN+p ∈ AÛ (ve el ejercicio (2.11)),
˚
lo cual es una contradicción al ser aN el último teŕmino en A. Û Por lo tanto, existen una infinidad de
˚
términos de la sucesión en A. Del mimso modo se prueba lo análogo para ext A.
Û
con hacer n suficientemente grande se ve que (an ) es una sucesión de Cauchy (ve (2.3.11)). En virtud
de (2.3.14) existe un a ∈ V tal que an → a.
( 8.4.12.3 ) El punto a está en el segmento.
Pues el segmento es imagen de la función φ : [0, 1] → V dada por φ(t) = tu + (1 − t)v, y en virtud de
(5.5.7) tal segmento es compacto. Como a es un punto límite de una sucesión definida en el segmento,
a debe estar en el segmento (ve (3.5.1) y (3.2.17)).
( 8.4.12.4 ) El punto límite a está en ∂A.
˚
Pues se vió que hay infinitos términos de la sucesión tanto en A Û como en ext A. Por lo que hay
˚
subsucesiones de (an )n∈N , por ejemplo aσ(n) n∈N definida en A y aψ(n) n∈N definida en ext A. Como
Û
toda la sucesión converge, las subsucesiones también (ejercicio (2.14)) y así, se concluye que aψ(n) → a
y aσ(n) → a. Por lo tanto, a ∈ ∂A (ve (3.1.13)), que es lo que se quería demostrar.
( 8.4.13 ) Sea f : C ⊂ V → C, en donde C es compacto, una función tal que kf(u) − f(v)k ≥ ku − uk para
cualesquier u, v ∈ C. Entonces, kf(u) − f(v)k = ku − vk .
10 Recuerda que por como ha sido definida la sucesión, si en algún momento algún términos a ∈ ∂A ya se habría acabado,
n
por lo que se omite este caso.
303
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
En principio, podria parecer que el método de aproximaciones sucesivas no tiene nada que ver aquí.
Sin embargo, se mostrará que no es así, que el método da una demostración elegante de este resultado.
Sean u, v ∈ C cualesquiera y define las aproximaciones sucesivas (un )n≥0 y (vn )n∈N por u0 = u y
un = F(un−1 ) para n ∈ N, análogamente (vn )n≥0 . Por definición de f, ambas sucesiones están en C. Se
afirma que para todo ε > 0 existe un k ∈ N tal que
kuk − uk ≤ ε y kvk − vk ≤ ε.
Se procederá por contradicción, la hipótesis de contradicción es que existe un número ε > 0 tal que
para todo k ∈ N o bien kuk − uk > ε o bien kvk − vk > ε. Considera los siguientes conjuntos A = {k ∈
N| kuk − uk > ε} y B = {k ∈ N| kvk − vk > ε}, como A ∪ B = N debe cumplirse que card (A) = card (N)
o card (B) = card (N) . Por simetría, se supondrá que card (A) = card (N) . Observa que
pero ψ(k + 1) = ψ(k) + (ψ(k + 1) − ψ(k)) = ψ(k) + p y p ∈ N, por lo que la desigualdad previa muestra
que
uψ(k) − uψ(k+1)
> ε.
Como k fue arbitrario, no puede suceder que
uψ(k) − uψ(k+1)
converja a cero, esto es una contradicción.
De este modo, la afirmación hecha es cierta.
Finalmente, sean ε > 0 cualquiera y k ∈ N tal que
ε ε
kuk − uk ≤ y kvk − vk ≤ ,
2 2
la desigualdad triangular muestra que
( 8.4.14 ) Una función f : A ⊂ V → W se llama una contracción si es k-lipschitziana para algún k ∈ (0, 1). A k
se le llama una constante de contracción.
304
8.4. Optimización restringida.
es una contracción con constante de contracción k. Entonces, para cada v ∈ A existe un r > 0 tal que B (v; r) ⊂ A
1
y f restringida ahí es un homeomorfismo. De hecho, f(B (v; r)) = B (f(v); (1 − k)r) y f −1 es -lipschitziana.
1−k
La existencia de tal r es consecuencia de la definición de abierto. Se verá ahora que f es biyectiva
sobre B (v; r) y que f(B (v; r)) = B (f(v); (1 − k)r) . Sean u y u0 dos vectores en B (v; r) . Entonces
Por lo que si f(u) = f(u0 ) entonces ku − u0 k = 0 y u = u0 . Así que f es inyectiva. Ahora se demostrará
que f(B (v; r)) = B (f(v); (1 − k)r) . Se afirma que para cada w ∈ B (f(v); (1 − k)r) existe un u y solo uno
en B (v; r) tal que f(u) = w. La unicidad de tal u es consecuencia directa de la inyectividad de f, por lo
que se demostrará la existencia. Para este efecto se utilizará el método de aproximaciones sucesivas.
Define a0 = v, ¿cómo se deberían definir los an ? Observa que, en el caso en que exista tal u,
f(u) = w ⇔ φ(u) = u − w,
an = w + φ(an−1 ).
1−k
ka1 − vk = kw + φ(a0 ) − vk = kw − f(v)k = kw − f(v)k .
1−k
Supón que an satisface esta desigualdad. Entonces
305
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Recuerda que por la definición de (an )n∈N y la continuidad de φ la existencia de u quedará demos-
trada si se muestra que (an )n∈N es convergente. Se parte de la desigualdad
kan+1 − an k ≤ kn kw − f(v)k ,
entonces si m = n + p, se ve que
p p
X X
kam − an k ≤ kan+i − an+i−1 k ≤ kn+i−1 kw − f(v)k
i=1 i=1
∞
X kw − f(v)k
≤ kn kw − f(v)k ki = kn ,
1−k
i=0
y en virtud de que k ∈ (0, 1), con escoger n suficientemente grande, se ve que kan − am k es pequeño
sin importar m ≥ n; esto es, la sucesión (an )n∈N es de Cauchy (2.3.11). Luego, existe un u ∈ V tal que
an → u. Todavía no ha sido concluida la afirmación pues falta verificar que u ∈ B (v; r) . Se demostró
que
1 − kn
kan − vk ≤ kw − f(v)k
1−k
y con hacer n → ∞, y utilizando la continuidad de la norma, se puede concluir que
1 1
ku − vk ≤ kw − f(v)k < (1 − k)r = r,
1−k 1−k
con lo cual u ∈ B (v; r) . Con esto ha sido concluída la afirmación.
Se verá ahora que f restringida a B (v; r) es un homeomorfismo. Sea
la inversa de f. Ya se sabe que f es continua por ser k-lipschitziana (ve (5.43)). Resta ver que g también
es continua. La desigualdad
kf(u) − f(u0 )k ≥ (1 − k) ku − u0 k
es equivalente a
−1
1
f (w) − f −1 (w 0 )
≤ kw − w 0 k ,
1−k
1
es decir, g −1 es -lipschitziana, en particular es continua, como se había dicho.
1−k
Luego, para δ muy pequeño se ve que h 7Ï f(v + h) − f(v) se comporta prácticamente igual que Df (v) .
¿Es esto suficiente para que f sea invertible cerca de v?
306
8.4. Optimización restringida.
( 8.4.16 ) Sean V y W dos espacios vectoriales isomorfos. Supón que A ⊂ V es un abierto y que f : A → W
es continua y fuertemente diferenciable en v ∈ A. Asimismo, se impone la hipótesis de que Df (v) sea invertible.
Entonces existen dos abierto S ⊂ A y T ⊂ W con v ∈ S y w = f(v) ∈ T tales que f : S → T es homeomorfismo;
el «teorema del homeomorfismo».
Sea f1 = [Df (v)]−1 ◦ f : A → V . Entonces f1 es estricamente diferenciable en v. En efecto, sea ε > 0.
Existe δ > 0 tal que h 7Ï f(v + h) − f(v) − Df (v) h es ε-lipschitziana sobre B (0; δ) , así que
es decir, h 7Ï f1 (v + h) − f1 (v) − h es ε
[Df (v)]−1
-lipschitziana sobre B (0; δ) . Por la arbitrariedad
de ε y el hecho que
[Df (v)]−1
es una constante independiente de h, se ve que f1 es fuertemente
diferenciable en f. Luego, se obtuvo que Df1 (v) = IV .
Se demostrará ahora que existe una bola B (v; r) tal que la función φ(u) = u−f1 (u) es una contracción
ahí. En efecto, sean u = v + h y u0 = v + h0 , luego
=
f1 (v + h) − f1 (v) − v − h − f1 (v + h0 ) − f1 (v) − v − h0
=
f1 (v + h) − f1 (v) − h − f1 (v + h0 ) − f1 (v) − h0
≤ ε
[Df (v)]−1
kh − h0 k .
Resta escoger ε > 0 de tal forma que ε
[Df (v)]−1
< 1. Se escoge cualquier ε > 0 que cumpla la
desigualdad anterior y sea k la constante de contracción.
En virtud de (8.4.15), f1 es un homeomorfismo de B (v; δ) a B (f1 (v); (1 − k)δ) . Según (8.4.5) Df (v)
es un homeomorfismo, por lo que f = Df (v) ◦ f1 es un homeomorfismo de S = B (v; δ) a T =
Df (v) B (f1 (v); (1 − k)δ) , lo cual es consecuencia de (8.4.6).
A continuación dos corolarios de este teorema.
( 8.4.17 ) Sean V y W dos espacios vectoriales isomorfos y A ⊂ V un abierto. Supón que f : A → W es de
clase C1 y que v ∈ A. Una condición suficiente para que exista un abierto S ⊂ A tal que v ∈ S y que exista un
abierto T de W que contenga a w = f(v) para los cuales F sea un C1 -difeomorfismo de S a T es que Df (v) sea
invertible; el «teorema de la función inversa».
Este resultado es consecuencia de los teoremas previos y unas sencillas observaciones.
1. Como Df (v) está en el conjunto de las transformaciones lineales invertibles, hay un abierto C ahí
tal que Df (v) ∈ C (8.4.9.4); por la continuidad de Df,
A2 = Df −1 (C)
es un abierto (5.5.4) de V .
2. Existe A1 sobre el cual f es un homeomorfismos según (8.4.16). Define A = A1 ∩ A2 y B = f(A).
307
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
En virtud de (8.4.11) las hipótesis del teorema del homeomorfismo (8.4.16) se satisfacen para cada
punto del dominio de la función. Por lo que si S ⊂ A es un abierto y v ∈ S, existe un abierto[
Tv ⊂ S en
donde f es homeomorfismo. En particular, f(Tv ) es un abierto (8.4.7) de W . Luego, f(S) = f(Tv ) es
v∈S
abierto.
Como corolario de los teoremas de la función inversa y de la función abierta se obtiene una carac-
terización de D (1) (U, V ) .
2. f sea inyectiva;
Las condiciones son evidentemente necesarias por definición de C1 -difeomorfismo. Se verá que las
condiciones son suficientes. Como f es inyectiva existe f −1 : f(A) → A. Observa que f ∈ Hom (A, f(A)) ;
en efecto, f es biyectiva ahí, y como f es continua f −1 es una aplicación abierta (5.5.4), luego, basta ver
que f es abierta (8.4.7), lo cual es consecuencia del teorema de la función abierta (8.4.18). El resto es
consecuencia de (8.4.9).
308
8.4. Optimización restringida.
función inversa y derivar el teorema de la función inversa como corolario del teorema de la función
implícita. Esto es, los teoremas son equivalentes.
Antes de dar la demostración se considerá un ejemplo. El círculo unitario en el plano euclidiano
puede describirse mediante la ecuación x 2 + y 2 = 1; es decir, si S1 es el círculo entonces
S1 = {(x, y) ∈ R2 |x 2 + y 2 = 1}.
Ya se ha mencionado antes, S1 puede ser descrita de la forma S1 = f −1 ({λ}). En efecto, basta poner
f(x, y) = x 2 + y 2 y λ = 1. Es fácil ver que para S1 puede despejarse explícitamente una de las variables
en términos de la otra siempre que se imponga alguna restricción del estilo y > 0, etcétera. Es fácil dar
ejemplos11 en donde una variable no puede despejarse en términos de la otra, por ejemplo, se había
mencionado antes, y = x x .
Conviene entender geométricamente el caso f(x, y) = 0; entonces, si en el espacio euclidiano se
pone z = f(x, y), se quiere estudiar la intersección12 de esta ecuación con la ecuación z = 0. Observa
que si Df (x, y) = (0, 0) entonces no se puede afirmar nada. Considera un paraboloide z = x 2 + y 2 ,
una silla de montar z = 2xy y la suma de ambas z = x 2 + 2xy + y 2 = (x + y)2 . Todas estas funciones
tienen por derivada en el origen un plano horizontal y la primera de ellas intersecta a la ecuación z = 0
únicamente en el origen, la segunda la intersecta en x = 0 o y = 0 y la tercera en x = −y. Por lo que
si se quiere estudiar el despeje de y en la ecuación f(x, y) = 0 se debe pedir Df (x, y) 6= 0.
( 8.4.20 ) Sean V1 , V2 y W tres espacios vectoriales tales que V2 y W son isomorfos. Sea A ⊂ V1 × V2 un
abierto y f : A → W . Supón que para (v1 , v2 ) ∈ A se cumple que f(v1 , v2 ) = 0. Define la función f1 mediante
u1 7Ï f(u1 , v2 ), la cual existe sobre la sección (ve (6.3.2)) A1 (v1 , v2 ). Analogamente define f2 para todo u2 cerca
de v2 ; esto es, f2 (u2 ) = f(v1 , u2 ), cuyo dominio es A2 (v1 , v2 ). Una condición suficiente para que existan sendos
abiertos S y T de A y A1 (v1 , v2 ), con (v1 , v2 ) ∈ S y v1 ∈ T, y que exista una función g : T → W de clase C1
para los cuales la relación
(u1 , u2 ) ∈ S y f(u1 , u2 ) = 0
equivalga a la relación
u1 ∈ T y g(u1 ) = u2
1
es que f sea de clase C y Df2 (v2 ) sea invertible; el «teorema de la función implícita».
Primeramente, en virtud de (6.3.3), se observa que para cada u1 ∈ A(v1 , v2 ) se cumple que Df1 (u1 ) =
D1 f (u1 , v2 ) y, análogamente, Df2 (u2 ) = D2 f2 (u1 , u2 ) .
Ahora, la idea de la prueba agrandar la función f a una función A → V1 × W de tal forma que sea
posible aplicar el teorema de la función inversa. Para este efecto es necesario que la extensión F : A →
V1 × W sea de clase C1 y que DF (v1 , v2 ) sea invertible. Lo más natural es poner F(v1 , v2 ) = (v1 , f(v1 , v2 ));
en otras palabras, se define F = (pr1 , f) : A → V1 × W . La motivación de definir F de este modo surge
de (5.7.4) pues entonces F es de clase C1 y, de hecho,
es decir, como suma, composición, producto de las funciones identidad, trigonométricas, exponenciales, etcétera.
12 Aquí se está haciendo intencionalemnte un abuso del lenguaje. Entienda que cuando se habla de una ecuación se está haciendo
309
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Sustituyendo D1 f (u1 , u2 ) por Df1 (u1 ) y lo mismo para D2 f (u1 , u2 ) con Df2 (u2 ) se encuentra que
Se quiere que esta transformación lineal sea invertible cuando (u1 , u2 ) = (v1 , v2 ); es decir, en la ecuación
se quiere desepejar (h1 , h2 ) en términos de (x, y). Es inmediato de la primera ecuación que h1 = x.
Sustituyendo en la segunda ecuación se llega a que Df2 (v2 ) h2 = y − Df1 (u1 ) x. De la suposición de
invertibilidad de Df2 (v2 ) se obtiene que
Por lo tanto, DF (v1 , v2 ) es invertible y se está en condiciones de aplicar el teorema de la función inversa
(8.4.17) a la función F en el punto (v1 , v2 ).
El teorema de la función inversa muestra que existen dos abiertos S y P tales que (v1 , v2 ) ∈ S ⊂ A y
P ⊂ V1 × W tales que F(v1 , v2 ) = (v1 , 0) ∈ P y F es un C1 -difeomorfismo de S en P.
Sea G : P → S la inversa de F. Entonces G = (pr1 , g) para alguna g. En efecto, pues debe cumplirse
que
(F ◦ G)(u1 , w) = (u1 , w)
y que
(G ◦ F)(u1 , u2 ) = (u1 , u2 ).
y
(u1 , w) ∈ P y g(u1 , w) = u2 .
Con hacer w = 0 se obtiene que si T = pr1 P ∩ V1 × {0} , el cual es un abierto, entonces las
condiciones anterior son
(u1 , u2 ) ∈ S y f(u1 , u2 ) = 0
y
u1 ∈ T y g(u1 ) = g(u1 , 0) = u2 ,
son equivalentes13 . Así se ve que g es de clase C1 por ser composición de funciones C1 . Esto concluye
el teorema.
Al igual que con el teorema de la función inversa este teorema no brinda información sobre la
inversa.
13 Se utilizó la misma letra g para denotar a dos funciones.
310
8.4. Optimización restringida.
( 8.4.21 ) Sea A ⊂ V un abierto y conexo. Supón que L es lineal de V a W y que g : A → W es una función
tal que Dg = 0. Si L es invertible entonces L + g es un C1 -difeomorfismo.
En virtud de (8.4.19) basta ver que L + g es de clase C1 , es inyectiva y D(L + g) (u) = L es invertible
para cada u ∈ A. Ahora bien, la función g es constante, ve el ejercicio (5.58). Luego, L + g es inyectiva,
de clase C1 y cuya derivada es invertible (por hipótesis).
( 8.4.22 ) Es posible «resolver la ecuación» f(x, y) = 0 para y como función de x en una vecindad del punto
(p, q) para los siguientes casos:
p
1. f(x, y) = log(x + y), (p, q) = (2, −1);
Se puede apelar al teorema de la función implícita. Sin embargo, conviene antes examinar más a
fondo cada caso.
p
1. Observa que la ecuación log(x + y) = 0 puede resolverse explícitamente; en efecto, elevando al
cuadrado se obtiene que log(x + y) = 0. Tomando funcion exponencial se concluye que x + y = 1,
de donde y = 1 − x. Ahora bien, ¿cuál es el dominio de x? Observa que x + y > 0 por lo que
y > −x, luego, si y = 1 − x, entonce y > −x y el dominio es todo R.
( 8.4.23 ) Es posible despejar a y como función de x en la siguiente ecuación: x 5 + y 5 + xy = 3 cerca del punto
(1, 1).
Un poco de álgebra convencerá al lector que no es posible despejar explícitamente a y como función
de x. Luego, se apela al teorema de la función implícita. Define la función F(x, y) = x 5 + y 5 + xy − 3
entonces F(1, 1) = 0, y la función f(y) = F(1, x) = y 5 + y − 2 posee derivada f 0 (1) = 3 6= 0, que es
invertible. Luego, según el teorema de la función implicita existe un abierto V que contiene a (1, 1), un
abierto (1 − δ, 1 + δ) y una función g : (1 − δ, 1 + δ) → R de clase C1 tal que la relación F(x, y) = 0
para (x, y) ∈ V equivale a la relación F(x, g(x)) = 0 para x ∈ (1 − δ, 1 + δ), es decir y = g(x) para
x ∈ (1 − δ, 1 + δ), que es lo que se quería demostrar.
( 8.4.24 ) Es posible despejar a y como función de x en la siguiente ecuación xy + log xy = 1 cerca del punto
(1, 1). En caso de ser posible, encuentra y 0 (x).
311
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
1
y(x) +
y 0 (x) = − x = −y ,
1 x
x+
y
( 8.4.25 ) Demostrar que x + y + z + xyz = 0 define a z de manera implícita como función de x y y en una
vecindad del punto (0, 1, −1). Encontrar un desarrollo limitado de z de cuarto orden centrado en (0, 1).
aquí, aunque se puede tomar la derivada usando la regla de la cadena, resulta más cómodo derivar
parcialmente de manera directa. Entonces se calculan las derivadas parciales
∂2 z ∂2 z ∂2 z ∂2 z
Å ã
∂ ∂z ∂z ∂z ∂z ∂z
0= 1+ + yz + xy = + y + y + xy = + 2y + xy ;
∂x ∂x ∂x ∂x 2 ∂x ∂x ∂x 2 ∂x 2 ∂x ∂x 2
∂3 z ∂z2 ∂2 z ∂3 z ∂3 z ∂z2 ∂3 z
0= + 2y + y + xy = + 3y + xy
∂x 3 ∂x 2 ∂x 2 ∂x 3 ∂x 3 ∂x 2 ∂x 3
y, análogamente,
∂4 z ∂z3 ∂4 z
0= + 4y + xy .
∂x 4 ∂x 3 ∂x 4
Las parciales respecto de y se obtienen al cambiar los símbolos x y y por la simetría que tiene F en
las variables x y y. Finalmente, se calculan las parciales mixtas. Recuerda que por ser F de clase C∞ y
simétrica, bastará calcular solo algunas de las parciales mixtas. Basta tener las siguientes
∂2 z ∂z ∂z ∂2 z
0= +z+y +x + xy ,
∂x∂y ∂y ∂x ∂x∂y
∂3 z ∂z ∂2 z ∂2 z
0= (1 + xy) + 2 + x + 2x
∂x 2 ∂y ∂x ∂x 2 ∂x∂y
∂4 z ∂3 z ∂3 z ∂2 z
0= (1 + xy) + 2y + 2x + 4 .
∂x 2 ∂y 2 ∂x∂y 2 ∂x 2 ∂y ∂x∂y
y
∂4 z ∂3 z ∂3 z ∂2 z ∂2 z
0= (1 + xy) + (2x + y) + x + 3 + 2 .
∂x 3 ∂y ∂x 2 ∂y ∂x 3 ∂x 2 ∂x∂y
312
8.4. Optimización restringida.
∂z
Lo que sigue es poner x = 0, y = 1 y z = −1, luego hacer los despejes. Se encuentra que = 0
∂x
∂z
y = −1. Se sustituyen estos valores en las ecuaciones subsecuentes. Con esto, se encuentra que
∂y
2
∂ z ∂2 z ∂2 z ∂3 z ∂3 z
= 0, = 0 y = 2. Repitiendo con las parciales de tercer orden, = 0, = 0,
∂x 2 ∂y 2 ∂x∂y ∂x 3 ∂x 2 ∂y
∂3 z ∂3 z ∂4 z ∂4 z ∂4 z ∂4 z
2
= −2 y 3
= 0. Finalmente las de cuarto orden, 4
= 0, 3
= −4, 2 2
= −4, =0
∂x∂y ∂y ∂x ∂x ∂y ∂x ∂y ∂x∂y 3
∂4 z
y = 0.
∂y 4
En virtud del ejercicio (7.34) y del ejemplo (7.6.12) se obtiene que el desarrollo limitado está dado
por
4
∂ i
Å ã
X 1 ∂
T4 z (0, 1) (h, k) = z(0, 1) + h +k z(0, 1).
i! ∂x ∂y
i=1
Conviene calcular cada sumando por separado. Entonces, en el caso i = 1 se obtiene el sumando −k;
en el caso i = 2,
∂ 2
Ç å
2
∂2 z 2
Å ã
1 ∂ 1 2∂ z 2∂ z
h +k z(0, 1) = h + 2hk +k = 2hk;
2! ∂x ∂y 2 ∂x 2 ∂x∂y ∂y 2 (x,y)=(0,1)
si k = 3 entonces
∂ 3
Å ã
1 ∂ 1
h +k z(0, 1) = (−2hk2 ) = −hk2 ;
3! ∂x ∂y 2
si k = 4 entonces
∂ 4 2h3 k
Å ã
1 ∂ 1
h +k z(0, 1) = (−16h3 k − 24h2 k2 ) = − − h2 k2 .
4! ∂x ∂y 24 3
Por lo tanto, el desarrollo limitado de z de orden cuarto centrado en el punto (0, 1) está dada por
2h3 k
T4 z (0, 1) (h, k) = −1 − k + 2hk − hk2 − − h2 k2 ,
3
lo cual concluye el ejercicio.
( 8.4.26 ) ¿Es posible despejar a u y v de las ecuaciones 3xu + 2yx − zxy − 4u + 6v 2 = 2 y x 2 + y 2 + uvz = 1
en una vecindad del punto x = y = 0, z = 1, v = 1 y u = 1?
Define la función
Se definirá la función f2 del teorema de la función implícita (8.4.20). En este caso se define la función
313
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Aunque se puede utilizar la regla de la cadena para encontrar las derivadas es más conveniente
derivar una fórmula general utilizando el método empleado en la demostración del teorema de la
función implícita.
( 8.4.27 ) Con las hipótesis y notaciones del teorema de la función implícita se cumple que
−1
Dg (v1 ) = − Df2 (v2 ) Df1 (v1 ) .
Recuerda que si se pone φ(u1 ) = f(u1 , g(u1 )) para u1 ∈ T entonces φ es la función constante
idénticamente cero. Luego, su derivada es nula. Por otro lado, de la regla de la cadena, para cualquier
h ∈ V1 ,
Al ser esto válido para cualquier h ∈ V1 , se obtiene la igualdad entre transformaciones lineales. Con
esto, se llega a
0 = Df1 (v1 ) + Df2 (v2 ) Dg (v1 ) ,
con despejar Dg (v1 ) y usando que Df2 (v2 ) es invertible se concluye el resultado deseado.
( 8.4.28 ) Con las hipótesis y notaciones del teorema de la función implícita, T puede ser tomado de tal forma
que Df2 (g(u1 )) sea invertible para todo u1 ∈ T.
Pues se demostró que f2 es continuamente diferenciable (ve la prueba de (6.3.4)), por lo que la
función u2 7Ï Df2 (u2 ) es continua del abierto A1 (v1 , v2 ) a Lin (V2 , W ) . Al ser que Df2 (v2 ) ∈ L , el espacio
de transformaciones lineales invertibles, se observa que existe un abierto B tal que Df2 (v2 ) ∈ B ⊂ L
pues L es abierto (8.4.9.4). La imagen inversa de B por la función Df2 es un conjunto abierto (5.5.4)
que tiene a v2 como elemento. Basta considerar la intersección T ∩ Df2−1 (B) como el nuevo T.
( 8.4.29 ) Con las hipótesis y notaciones del teorema de la función implícita, se puede suponer que para todo
u1 ∈ T se cumple que
−1
Dg (u1 ) = − Df2 (g(u1 )) Df1 (u1 ) .
Observa que en la demostración de (6.3.4) el punto v2 solo se utilizó para concluir que Df2 (v2 ) fuese
invertible. Por lo tanto, esta misma expresión vale al sustituir v1 por u1 y v2 por g(u1 ) si Df2 (g(u1 )) es
invertible. Para conluir bastará ver entonces que Df2 (g(u1 )) es invertible para todo u1 suficientemente
cerca de v1 . Observa que, según (6.3.4), para cualesquier u2 ∈ A2 (v1 , v2 ) y h2 ∈ V2 ,
314
8.4. Optimización restringida.
y esta última tiende a cero cuando u2 → v2 pues f es de clase C1 . Luego, como Df2 (v2 ) ∈ L , el conjunto
de las funciones lineales invertibles de V2 a W , y este es un conjunto abierto (8.4.9.4), existe un abierto
B ⊂ L tal que Df2 (v2 ) ∈ B. La continuidad de Df2 muestra que T̃ = [Df2 ]−1 B es un conjunto abierto
( 8.4.30 ) En el ejemplo (8.4.26) encuentra la primera derivada de (u, v) cerca de (0, 0, 1) y evalúe en el punto
(0, 0, 1).
Ya se sabe que (u, v) es una función de clase C1 cerca del punto (0, 0, 1). Se apela ahora a (8.4.29)
para encontrar la primera derivada. Se tiene que
entonces ï ò
3x − 4 12v
DF2 (u, v) =
vz uz
y ï ò
1 3x + 2y − yz 2x − xz −xy
DF (x, y, z) = .
2x 2y uv
En virtud del ejercicio (1.42) se tiene que
ï ò
−1 1 uv −12v
DF2 (u, v) = .
(3x − 4)uz − 12v 2 z −vz 3x − 4
De donde,
ï òï ò
1 uv −12v 3x + 2y − yz 2x − xz −xy
D(u, v) (x, y, z) = .
(3x − 4)uz − 12v 2 z −vz 3x − 4 2x 2y uv
0 0 43
ï òï ò ï ò
1 1 −12 0 0 0
D(u, v) (0, 0, 1) = − = ,
16 −1 −4 0 0 1 0 0 41
∂u ∂u ∂u ∂v ∂v ∂v
, , , , y .
∂x ∂y ∂z ∂x ∂y ∂z
El lector decidirá en cada caso si es más fácil resolver el sistema de ecuaciones o invertir las matrices
apelando a (8.4.29).
315
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
316
8.4. Optimización restringida.
317
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Observación: el método de los multiplicadores de Lagrange es una condición necesaria para que un
punto (v1 , v2 ) en la restricción implicita F(u1 , u2 ) = 0 sea óptimo. Esta no es una condición suficiente,
tal como lo se mostrará a continuación.
( 8.4.33 ) Considera la función f(x, y) = x 2 +y 2 y F(x, y) = 3x +2y +20, ¿existe algún punto (p, q) ∈ F −1 ({0})
tal que (p, q) resuelve el siguiente problema de maximización?
Observa que DF (p, q) = (3, 2), por lo que para cada Fp es invertible para cualesquier p y q. De
acuerdo al método de multiplicadores de Lagrange, si (p, q) es un óptimo, existe un λ ∈ R tal que
Es decir,
2(x, y) = (3, 2),
3 13
en consecuencia, el único candidato a resolver el problema es x = y y = 1. Pero f( 32 , 1) = . Sea
2 4
ε > 0 entonces
13 13ε2
Å ã Å ã
3 ε ε 3
f − ,1 + = + −ε >f ,1 .
2 3 2 4 36 2
Esto muestra que el problema no tiene solución, aún cuando hay un punto candidato.
Este ejemplo mostró que aún cuando haya puntos candidatos, los cuales serán llamados «puntos crí-
ticos», no es obligatorio que tales puntos críticos resuelvan el problema de maximización. Sin embargo,
en el ejemplo previo el punto es un mínimo, por lo que sí es un óptimo. A continuación un ejemplo en
donde existe un punto crítico que no es óptimo.
( 8.4.34 ) Sea S la superficie definida por los (x, y, x 3 ) ∈ R3 tales que (x, y) ∈ R2 . Considera la función
f(x, y, z) = z. Demuestra que ningún punto crítico de f es óptimo en la reestricción f .
S
3
Aquí S queda determinada por la función F(x, y, z) = z − x ; es decir
S = F −1 ({0}),
Inmediatamente se deriva que λ = 1 y que p = 0; es decir, cualquier punto de la forma (0, y, 0) es punto
crítico. Sea y ∈ R cualquiera, se verá que (0, y, 0) no es maximizador ni minimizador
√ de f. Sea ε > 0, los
punto (ε, y, ε3 ) y (−ε, y, −ε3 ) están en S y distan de (0, y, 0) la cantidad ε 1 + ε4 . La función f en estos
puntos alcanza los valores ε3 > 0 y −ε3 < 0. Por lo tanto, (0, y, 0) ni es maximizador ni es minimizador,
tal como se afirmó.
318
8.4. Optimización restringida.
Sn−1 = {X ∈ Rn | kXk2 = r 2 }.
Entonces, de acuerdo al método de los multiplicadores de Lagrange, si (x1 , . . . , xn ) ∈ Sn−1 es un óptimo
de f entonces existe un λ ∈ R tal que
2x1 · · · xn (x2 · · · xn , x1 x3 · · · xn , . . . , x1 · · · xn−1 ) = Df (x1 , . . . , xn ) = λ2(x1 , . . . , xn ).
Como f ≥ 0 y f(x1 , . . . , xn ) = 0 si alguno de los xi = 0, se puede ver que los mínimos de f son aquellos
puntos de Sn−1 en los que alguna coordenada se anula. Como se busca un máximo y Sn−1 es compacto,
tal máximo existe. Luego, se supondrá que x1 · · · xn > 0. Por lo tanto, se derivan las ecuaciones
(1) x22 x32 · · · xn2 = λ
(2) x12 x32 · · · xn2 = λ
.. .. ..
. . .
(n) x12 x22 · · · xn−1
2
= λ.
Como x1 · · · xn > 0, λ > 0, por lo tanto, diviendo la ecuación (i) por la ecuación (j) se encuentra que
xi2 = xj2 . De donde, como (x1 , . . . , xn ) ∈ Sn−1 se llega a que
319
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Observa primeramente que si uv = 0 entonces la desigualdad es trivial. Luego, basta dar el resultado
en el caso uv > 0. Por otro lado, si la desigualdad es válida para todos los uv = 1 entonces para t > 0
Ä 1 äα Ä 1 äβ
ut α vt β
Ç å
Ä 1äÄ 1ä uα vβ
ut α vt β = tuv ≤ t + = + .
α β α β
uα vβ
arg mı́n + s.a. uv = 1, u > 0.
α β
De acuerdo al método de los multiplicadores de Lagrange (8.4.31), si existe un punto (u, v) que resuelve
el problema entonces existe un λ ∈ R tal que
Como uv 6= 0 se ve que λ 6= 0, por lo tanto, diviendo una ecuación por la otra, se llega a que
uα−1 v
β−1
=
v u
β
y, por lo tanto, uα = v β , o bien, u = v α . De esto, se deriva que v = 1 y, por tanto, u = 1. Luego, el punto
(1, 1) es el único candidato a mínimo.
( 8.4.36.1 ) Existe una solución al problema de minimización.
uα v β
Se utilizará un método denominado «de sucesiones minimizadoras». Sea f(u, v) = + entonces
α β
f ≥ 0, por lo que si S = {(u, v)|uv = 1} entonces se ve que f(S) ⊂ [0, ∞). Por lo tanto, existe m = ı́nf f(S).
Luego, hay una sucesión (Yn )n∈N definida en f(S) tal que Yn → m. Cada conjunto {X ∈ S|f(X) = Yn } es no
vacío, según el axioma de elección (2.2.4) existe una sucesión r : N → S tal que r(n) ∈ {X ∈ S|f(X) = YN }.
La sucesión r está definida en S y es acotada. Pues si r(n) = (un , vn ) y un → ∞, por ser vn ≥ 0 se
observa que
β
uα vn uα
f(r(n)) = n + ≥ n → ∞.
α β α
Sucede lo mismo si vn → ∞. En cualquiera de estos dos casos Yn = f(r(n)) → ∞, que contradice
la definición de la sucesión (Yn )n∈N . Ahora bien, en virtud del teorema de Bolzano-Weierstrass (3.5.3)
existe una subsucesión r ◦ φ de r tal que r ◦ φ converge a cierto P. Es claro que P ∈ S pues S es cerrado
ya que coincide con g −1 ({1}) para g(u, v) = uv (ve (5.5.6)). Por la continuidad de f,
f(P) = f lı́m r(φ(n)) = lı́m f(Yφ(n) ) = m,
n→∞ n→∞
uα vβ
1≤ + , ∀u, v ≥ 0, uv = 1.
α β
Pues como existe el mínimo y hay un solo candidato a mínimo, tal candidato es minimizador.
( 8.4.36.3 ) Vale la desigualdad de Hölder.
320
8.4. Optimización restringida.
obteniendo que
β
u i vi uiα vi
Ñ é α1 Ñ é β1 ≤ n + n .
n n β
X X
X X β α ujα β vj
ujα vj j=1 j=1
j=1 j=1
p
en donde la última desigualdad es la de Hölder poniendo α = p y β = q. Observa que q = , por
p−1
lo que (p − 1)q = p. Luego, sustituyendo, se ve que
p p Ä ä p
321
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
( 8.4.37 ) Sean V1 , V2 y W tres espacios vectoriales normados tales que V2 y W son isomorfos. Se supondrá que
A ⊂ V1 × V2 es un abierto, que f : A → R y F : A → W son dos funciones dos veces diferencibales, con F de
clase C2 . Asimismo, se partirá de la hipótesis de que (v1 , v2 ) ∈ F −1 ({0}) es mínimo relativo local del problema
de maximización restringida. Define la función F2 : A2 (v1 , v2 ) → W dada por F2 (u2 ) = F(v1 , u2 ) y supón que
DF2 (v2 ) es invertible. Sea λ ∈ Lin (W , R) tal que
el cual existe según (8.4.31). Sea g como en el teorema de la función implícita; es decir, existe un S ⊂ A y un
T ⊂ A1 (v1 , v2 ) tales que las (u1 , u2 ) ∈ S, F(u1 , u2 ) = 0 ⇔ u1 ∈ T, g(u1 ) = u2 . Define L : T → R, la «función
de Lagrange» por
L(u1 ) = f(u1 , g(u1 )) − λF(u1 , g(u1 )).
Entonces,
1. si HessL (v1 ) es una forma cuadrática definida positivamente, el punto (v1 , v2 ) es mínimo local estricto del
problema restringido;
2. si HessL (v1 ) es una forma cuadrática definida negativamente, el punto (v1 , v2 ) es máximo local estricto
del problema restringido;
3. si HessL (v1 ) es una forma cuadrática que está no definida entonces (v1 , v2 ) es un punto de ensilladura;
DL (u1 ) = Df (u1 , g(u1 )) (IV1 , Dg (u1 )) − λDF (u1 , g(u1 )) (IV1 , Dg (u1 )) .
Por ende,
DL (v1 ) = Df (v1 , g(v1 )) − λDF (v1 , g(v1 )) (IV1 , Dg (v1 )) = 0
pues g(v1 ) = v2 y Df (v1 , v2 ) = λDF (v1 , v2 ) . Luego, v1 es punto crítico de L. En acuerdo con las hipótesis
hechas sobre HessL (v1 ) , se concluye que v1 es minimizador estricto local, maximizador estricto local
o punto de ensilladura según HessL (v1 ) esté definida positivamente, negativamente o esté no definida
(ve (8.1.20)). Si u1 ∈ T entonces g(u1 ) = u2 y F(u1 , u2 ) = 0, por lo que L(u1 ) = f(u1 , u2 ). Luego, la
optimalidad de L en v1 se preserva para la optimalidad de f en (v1 , v2 ). Esto concluye el teorema.
Observación: aún con todos los teoremas y ejemplos desarrollados aún no se pueden determinar
condiciones para que una función Rn → R con primera y segunda derivada nula en un punto tenga
óptimo. En los ejercicios se dan condiciones suficientes para una función de clase Cp cuya p-ésima
derivada es la primera en no ser nula.
§ 8.5. Ejercicios.
( 8.1 ) Se dice que una función f : A ⊂ V → W es localmente constante en v ∈ A si existe un r > 0 tal que para
todo u ∈ B (v; r) ∩ A se cumple que f(u) = f(v). Si f es localmente constante en v entonces v es un maximizador
y minimizador de f. El recíproco también es cierto.
322
8.5. Ejercicios.
˚
( 8.2 ) Sea f : I → R convexa. Para cada [a, b] ⊂ ÛI, f es k-lipschitziana para alguna k adecuada, ve (5.11.3).
M −m
Sugerencia: existe ε > 0 tal que [a − ε, b + ε] ⊂ I. Sea k = , en donde M es cota superior de f
ε
y−x
sobre [a − ε, b + ε] y m es cota inferior. Dados a ≤ x < y ≤ b pon z = y + ε y λ = , deduce que
ε+y−x
λz + (1 − λ)x = y. Concluye usando la propiedad de convexidad.
( 8.3 ) Sea f : I → R en donde I ⊂ R es un intervalo. Una condición necesaria y suficiente para que f sea convexa
es que su epigráfica Ep(f) = {(x, z) ∈ R2 |z ≥ f(x)} sea un conjunto convexo.
( 8.4 ) Considera f : A ⊂ V → R una función convexa. Para cualesquier v1 , . . . , vk ∈ A y λ1 , . . . , λk ∈ [0, 1] tales
Xk
que λi = 1 se satisface que
i=1
la «desigualdad de Jensen».
( 8.5 ) X 7Ï kXk de V a R es una función convexa; esto es, cualquier norma es una función convexa.
Sugerencia: recuerda las desigualdades del triángulo.
( 8.6 ) La envolvente convexa de Sn−1 = {X ∈ Rn | kXk ≤ 1} es B0 (0; 1) .
( 8.7 ) Si A ⊂ V es un conjunto convexo y T : V → W es afín entonces T(A) es convexo.
( 8.8 ) Si A ⊂ W es un conjunto convexo y T : V → W es afín entonces T −1 (A) es convexo.
( 8.9 ) Si C es convexo entonces su envolente convexa coincide consigo mismo.
( 8.10 ) Si S ⊂ C con C un conjunto convexo, la envolvente convexa de S está contenida en C.
( 8.11 ) La intersección de cualquier familia de subconjuntos convexos de V es un subconjunto convexo de V .
( 8.12 ) Sean A ⊂ V y B ⊂ W convexos. Entonces A × B ⊂ V × W es convexo.
( 8.13 ) Se dirá que una función f : A ⊂ V → Lin (V , R) , donde A es un abierto en V , es una función creciente
si para cualesquier u, v ∈ A se cumple que
(f(u) − f(v))(u − v) ≥ 0.
Entoces, esta noción es la misma que (8.2.7) cuando V = R y Lin (R, R) se identifica con R. Asimismo, con esta
definición más general, una condición necesaria y suficiente para que una función diferenciable f : A ⊂ V → R,
con A un abierto y convexo, sea convexa es que Df sea creciente.
Sugerencia: para la necesidad utiliza (8.2.38). Para la suficiencia considera la función φ(λ) = f(λu + (1 − λ)v),
para λ ∈ [0, 1]. Demuestra que φ0 es creciente y concluye.
( 8.14 ) Sean f, g : A ⊂ V → R funciones convexas y λ > 0. Las siguientes son funciones convexas f + λg, y
λ máx{f, g}. Si f(A) es un intervalo y φ : f(A) → R es convexa y creciente entonces φ(f) es convexa. Si A = V
entonces u 7Ï f(Lu + b), en donde L ∈ Lin (U, V ) y b ∈ U es convexa sobre U.
( 8.15 ) Encuentra las medidas de los ángulos de todos los triángulos tales que el producto de los senos de sus
ángulos sea máximo.
Sugerencia: recuerda que los ángulos se miden en radianes y que sin(π − t) = sin t para cualquier t ∈ R.
( 8.16 ) Calcula la distancia del plano P al origen en cada uno de los siguientes casos:
323
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
1. P = {y = mx + b};
2. P = {tA + B}, A, B ∈ Rn ;
3. P = {(x, y, z) · (a, b, c) = 5};
4. P = {λ(1, 1, 0, −1) + µ(0, 0, 1, 1) + (2, −1, −1, 0)|(λ, µ) ∈ R2 }.
n
X
( 8.17 ) Dados n puntos A1 , . . . , An ∈ Rk encontrar todos los puntos X ∈ Rk tales que kX − Ai k2 sea
i=1
mínimo; el «método de mínimos cuadrados».
Sugerencia: la función a miminizar es convexa. Escribe kX − Ai k2 = hX − Ai , X − Ai i y utiliza la forma que
tiene la derivada de un producto, la regla de Leibniz.
( 8.18 ) La función (x1 , . . . , xn ) → (x13 , . . . , xn3 ) es un homeomorfismo de Rn a Rn .
( 8.19 ) La función (x, y) 7Ï (x 2 +y 2 , x 2 −y 2 ) es un C1 -difeomorfismo sobre algunos conjuntos abiertos A, B ⊂ R2 .
Encuentra dos subcojuntos maximales A y B donde dicha función sea C1 -difeomorfismo; esto es, si F tal función,
encontrar dos subconjuntos A y B tales que F : A → B sea difeomorfismo y si A ⊂ C es un subconjunto para el
cual F restringida a C es difeomorfismo entonces C ⊂ A.
Sugerencia: observa que dado A, B queda determinado por B = F(A). Además, F es de clase C∞ , por lo que
esto no brinda mucha información acerca de cómo escgoer a A. Intenta calcular la inversa de F, encontrar B y
poner A = F −1 (B).
( 8.20 ) Repita el ejercicio anterior con (x, y) 7Ï (ex , ey ) y con (x, y) 7Ï (ex + ey , ex − ey ).
( 8.21 ) Toda función que sea fuertemente diferenciable en un punto, es también diferenciable en ese punto. En
este caso, las derivadas coinciden.
( 8.22 ) Una condición necesaria y suficiente para que F = (f1 , . . . , fm ) : A ⊂ V → W sea fuertemente
˚
diferenciable en v ∈ A
Û es que cada fi lo sea.
˚
( 8.23 ) Una condicion necesaria y suficiente para que f : A ⊂ V → W sea fuertemente diferenciable en v ∈ A
Û
es que exista un ψ tal que para todo h y k cercano a v,
y
lı́m ψ(h, k) = 0.
(h,k)→(v,v)
( 8.24 ) Sea f : [0, 1] → R continua tal que f(0)f(1) < 0. Entonces, la sucesión definida recursivamente mediante
1 1
a1 = y an = an−1 si f(an−1 ) = 0 o bien, |an − an−1 | = n con f(an )f(an−1 ) ≤ 0 si f(an−1 ) 6= 0 constituyen
2 2
unas aproximaciones sucesivas a una raiz de f. Esto es, (an )n∈N converge a cierto punto a ∈ [0, 1] y f(a) = 0; el
«método de bisección».
Sugerencia: para encontrar el punto a verifique la sucesión (an )n∈N es de Cauchy, concluya con (2.3.14). Una
vez que tenga el punto a utiliza que f es uniformemente continua para verificar que para cualquier ε > 0 dado,
|f(a)| < ε.
( 8.25 ) Sea f : C → C con C ⊂ V compacto y f una contracción. Existe un punto v ∈ C y solo uno que
satisface f(v) = v; el «teorema de contracción de Banach». A un v que satisfaga esto se le denomina punto fijo.
Sugerencia: escoge cualquier v0 ∈ C y define las aproximaciones sucesivas vn = f(vn−1 ). Verifica que vn es de
Cauchy, por lo que converge. El límite es un punto fijo, esto demuestra la existencia. La unicidad es muy fácil,
supón que hay dos puntos fijos y utiliza la condición lipschitziana.
324
8.5. Ejercicios.
1 x
( 8.26 ) Considera la función f(x) = x 2 sin + si x 6= 0 y f(0) = 0. Entonces, f es diferenciable en el origen
x 2
y su derivada es invertible ahí pero no existe ninguna vecindad del origen en donde f sea inyectiva.
Sugerencia: procede a demostrar que para todo ε > 0 la ecuación f 0 (x) = 0 posee solución sobre (0, ε].
Demuestra que si f 0 (ξ) = 0 entonces f 00 (ξ) 6= 0. Utiliza (8.1.20) para concluir que f no puede ser inyectiva en
cualquier bola centrada en ξ.
( 8.27 ) Sean V y W dos espacios vectoriales isomorfos. Sea L ⊂ Lin (V , W ) el conjunto de las transformaciones
lineales invertibles y L −1 = {T −1 |T ∈ L }. La función φ : L → L −1 dada por φ(T) = T −1 es diferenciable. De
hecho, su derivada está dada por
Dφ (T) H = −T −1 HT −1 .
d −1 1
Esta es la fórmula clásica t = − 2 cuando V = W = R y Lin (R, R) se identifíca con R. Observa que el
dt t
producto de transformaciones lineales no es conmutativo.
Sugerencia: ya sabes que
concluya que
−1
3
2
T
kHk
−1 −1
φ(T − H) − φ(T) + T HT
≤ = o(kHk).
1 −
T −1
kHk
Entonces, ψ es bilineal, por lo que es indefinidamente diferenciable y, además Dφ = ψ(φ, φ), luego, si φ es p
veces diferenciable, también Dφ.
( 8.29 ) Sea L y φ como en el ejercicio (8.27); la derivada p-ésima de φ está dada por
X
φ(T)(H1 , . . . , Hp ) = (−1)p T −1 ◦ Hσ(1) ◦ T −1 ◦ . . . ◦ T −1 ◦ Hσ(p) ◦ T −1 .
σ∈Sp
( 8.30 ) Sea φ : L → L como en el ejercicio (8.27), un desarrollo limitado de φ en T está dado por
n
X
H 7Ï (−1)k (T −1 H)k T −1 .
k=0
325
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
Ñ é
1
Tal desarrollo converge absolutamente cuando n → ∞ para H en la bola B 1;
−1
. De hecho, en ese
T
∞
X 1
caso, φ coincide con la serie (1−)k (T −1 H)T −1 ; esto es, si kHk <
−1
entonces
k=0
T
" n
#
X
lı́m φ(T + H) − (−1)k (T −1 H)k T −1 = 0.
n→∞
k=0
Este es un primer ejemplo no trivial de una función real y de varias variables la cual posee un «desarrollo ilimitado»
en cualquier punto de su dominio. Es importante destacar que tal desarrollo ilimitado depende del punto T de
expansión.
Df −1 = φ ◦ Df ◦ f,
( 8.33 ) Sean A ⊂ V1 × V2 un abierto y S ⊂ A una superficie (o sea, cualquier contjunto) para la cual existe
una función f : A ⊂ V1 × V2 → W tal que S = f −1 ({0}). Supón que para cierto (v1 , v2 ) ∈ S se cumple
que Df2 (v2 ) es invertible, donde f2 : A2 (v1 , v2 ) → W está dada por f2 (u2 ) = f(v1 , u2 ). Entonces de acuerdo al
teorema de la función implícita hay dos abiertos S ⊂ A con (v1 , v2 ) ∈ S y T ⊂ A1 (v1 , v2 ) con v1 ∈ T tales que
u1 ∈ T, g(u1 ) = u2 ⇔ (u1 , u2 ) ∈ S, (u1 , u2 ) ∈ S . Entonces, g = S ∩ S (ve la definición general de función
(2.1.1)). Más aún, TP g = T(v1 ,v2 ) S , ve (5.9.1). En particular, este resultado afirma que, suponiendo cierta
regularidad en S , localmente la superficie S es la gráfica de una función; en terminos más técnicos, cerca del
punto (v1 , v2 ) ∈ S existe una «carta» ((v1 , v2 ), T, g), donde g es el «sistema de coordenadas» locales de la
carta.
326
8.5. Ejercicios.
punto (v1 , v3 ) es, por definición, Nuc (DF (v1 , v2 )) trasladado a (v1 , v2 ), por lo que la dimensión de T(v1 ,v2 ) S es
n, ve (1.4.13). Considera entonces el espacio ortogonal del núcleo de la derivada de F en (v1 , v2 ),
En virtud del ejercicio (1.45), tal espacio tiene dimensión m. Todos los vectores DFi (v1 , v2 ) pertenecen a este
espacio ortogonal, en consecuencia, son una base de él. Finalmente, Df (v1 , v2 ) pertenece a Nuc (DF (v1 , v2 ))⊥ ,
por lo que Df (v1 , v2 ) se puede escribir como combinación lineal de cualquier base.
( 8.35 ) Considera una función V → R p veces diferencibale en v y tal que sus primeras p − 1 derivadas son cero
en v. Sea T la p-ésima derivada de esta función en v. Si T h(p) > 0 para cualquier h ∈ V \ {0} entonces la
función tieneÄun mínimo en Äv. Elämismo resultado para > y máximo. Si hay dos vectores h1 y h2 no nulos para
(p) (p)
ä
los cuales T h1 > 0 y T h2 < 0 entonces la función tiene un punto de ensilladura en v.
327
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.
328
Parte II
329
Capítulo 9
• Área de conjuntos.
En este corto capítulo se estudiará el cómo medir el volumen de ciertos conjuntos. Se buscará
motivar la definición a partir de la noción de áreas y extender esta idea a dimensiones superiores.
Estas definiciones conducirán naturalmente a la medida de Jordán (ve [7]). Se estudiarán propiedades
de los conjuntos que pueden medirse en el sentido de Jordán y esto será un primer paso hacia la teoría
de integración que se empezará a generalizar. Cabe destacar que la construcción siguiente solo se hará
en Rn por la naturaleza en la estructura que poseen los intervalos.
˚
Observación: para que RÛ 6= ∅ es necesario y suficiente que para cualquier k = 1, . . . , n se satisfaga
˚
que ak < bk . Otra caracterización es R
Û 6= ∅ ⇔ vol (R) > 0. Cuando vol (R) = 0 se dirá que R es un
intervalo degenerado.
331
Capítulo 9. Área de conjuntos.
( 9.1.2 ) Sea R un intervalo cerrado con k-ésimo intervalo generador [ak , bk ]. Sea Pk = (sk,i )i∈{1,...,nk } una
partición de [ak , bk ], ve (4.5.2). Se dirá que la familia1
P = P1 ⊗ . . . ⊗ Pn = ((s1,i1 , . . . , sn,in )) n
Q
(i1 ,...,in )∈ {0,1,...,pk }
k=1
Q = Q1 ⊗ . . . ⊗ Qn = ((t1,j1 , . . . , tn,jn )) n
Q
(j1 ,...,jn )∈ {0,1,...,qk }
k=1
n
Y
Pi1 ,...,in = [sk,ik −1 , sk,ik ] ⊂ Rn .
k=1
˚ ˚
más aún, si (i1 , . . . , in ) 6= (i10 , . . . , in0 ), P
˙ i1 ,...,in ∩ Pi10 ,...,in0 = ∅.
˙
Queda a cargo del lector a título de ejercicio. En particular, este teorema afirma que toda parti-
ción genera una familia de intervalos componentes y recíprocamente. En consecuencia, una partición
también puede ser pensada como una familia de subintervalos componentes.
Lo que continuaría ahora sería definir la aproximación de la medida del área de un conjunto C ⊂ Rn .
Se aplicará el «método de agotamiento»; es decir, se aproximará la medida del área por áreas internas
y externas. Esto conduce a la definición de la medida interior y exterior del volumen.
( 9.1.4 ) Sea C ⊂ Rn un subconjunto acotado de Rn y sea R un intervalo cerrado que lo contiene. Entonces para
P = ((s1,i1 , . . . , sn,in )) n
Q , una partición de R, se define la medida según Jordán de la aproximación
(i1 ,...,in )∈ {0,1,...,pk }
k=1
interior de C respecto de la partición P por
˚ X
vol P (C) = vol (Pi1 ,...,in ) .
ˆ
(i1 ,...,in )|Pi1 ,...,in ⊂C
Análogamente, se define la medida según Jordán de la aproximación exterior de C respecto de la partición P por
X
volP (C) = vol (Pi1 ,...,in ) .
(i1 ,...,in )|Pi1 ,...,in ∩C6=∅
( 9.1.5 ) Sea R un intervalo cerrado en Rn y P, Q dos particiones de él. Existe T ∈ P(R) que es refinamiento
común de P y Q.
1 Aquí se empleará el símbolo ⊗ con el único proposito de denotar que P depende de los P y que P no es el producto
k
cartesiano de los Pk .
332
9.1. ¿Qué es el área?
y que
Q = ((t1,j1 , . . . , tn,jn )) n
Q .
(j1 ,...,jn )∈ {0,1,...,qk }
k=1
De la definción de refinamiento, para cada k = 1, . . . , n, existen dos índices α(k) ≤ β(k) tales que
[sk,ik −1 , sk,ik ] = tk,jα(k) −1 , tk,jα(k) ∪ . . . ∪ tk,jβ(k) −1 , tk,jβ(k) .
Por lo tanto, cada Pi1 ,...,in se descompone como una unión de algunos Qj1 ,...,jn . De aquí se puede deducir
˚ ˚
que si Pi1 ,...,in ⊂ R entonces cada Qj1 ,...,jn ⊂ Pi1 ,...,in también está contenido en R. Luego, vol
ˆ P (R) ≤ volQ (R) ,
ˆ
que es la primera desigualdad. Para ver la tercera desigualdad se nota que aún cuando Qj1 ,...,jn ⊂
Pi1 ,...,in ∩ R 6= ∅ podría suceder que Qj1 ,...,jn ∩ R = ∅. De donde, volQ (R) ≤ volP (R) , que es la tercera
desigualdad.
Para ver la segunda desigualdad observa que Qj1 ,...,jn ⊂ C Ñ Qj1 ,...,jn ∩ C 6= ∅, por lo que
˚
vol Q (R) ≤ volQ (C)
ˆ
Cuando el área interior y el área exterior de C coincidan se dirá que C es medible en el sentido de Jordán («Jordán
medible») y se define la medida del volumen según Jordán de C como
˚
vol (C) = vol (C) = vol
ˆ (C) .
333
Capítulo 9. Área de conjuntos.
Observación: sea R un intervalo cerrado, entonces vol (R) ha sido definido de dos maneras diferentes;
sin embargo, las definiciones son consistentes. Para verificar esto primero nota que basta ver que si P
es una partición de R entonces
p1 pn
X X
vol (R) = ··· vol (Pi1 ,...,in ) .
i1 =1 in =1
( 9.1.8 ) Sea R un intervalo cerrado en Rn con intervalos generadores [ak , bk ] para k = 1, . . . , n. Se supondrá
Yn
que S = [ci , di ] ⊂ R es un subintervalo de R. Entonces existe una partición PS ∈ P(R) de tal forma que los
i=1
vértices de S y de R son elementos de la familia PS .
Define sk,0 = ak , entonces
1. si ak = ck , define sk,1 = dk y entonces; si dk = bk pon Pk = (sk,i )i∈{0,1} ; si dk < bk define sk,2 = bk
y pon Pk = (sk,i )i∈{0,1,2} ;
2. si ak < ck , define sk,1 = ck y sk,2 = dk , entonces si dk = bk pon Pk = (sk,i )i∈{0,1,2} y en caso
contrario define sk,3 = bk y pon Pk = (sk,i )i∈{0,1,2,3} .
Define PS = P1 ⊗ . . . ⊗ Pn , cualquier vector (x1 , . . . , xn ) con xk ∈ {ck , dk } y cualquier vector (x1 , . . . , xn )
con xk ∈ {ak , bk } es un elemento de PS .
( 9.1.9 ) Sea R un intervalo cerrado en Rn y S un subintervalo de R. Cada P ∈ P(S) se extiende a un Q ∈ P(R).
Supón que
P = ((s1,i1 , . . . , sn,in )) n
Q ,
(i1 ,...,in )∈ {0,1,...,pk }
k=1
y considera los subintervalos Pi1 ,...,ii . Existe una partición Qj1 ,...,jn de R tal que los vértices de Pi1 ,...,in son
elementos de Qj1 ,...,jn (ve (9.1.8)). Se considera finalmente Q como un refinamiento común de todos los
Qj1 ,...,jn , el cual existe según (9.1.5).
( 9.1.10 ) Sea C acotado y R1 , R2 ⊂ Rn intervalos cerrados que lo contienen. Entonces
˚ ˚
sup vol
ˆ P (C) = sup volQ (C)
ˆ
P∈P(R1 ) Q∈P(R2 )
e
ı́nf volP (C) = ı́nf volQ (C) .
P∈P(R1 ) Q∈P(R2 )
˚
En consecuencia, vol
ˆ (C) y vol (C) están bien definidos (es decir, no depende del R que se escoja en (9.1.4)).
334
9.2. ¿Qué conjuntos son Jordán medibles?
Sea R = R1 ∩ R2 . Entonces C ⊂ R y para cada partición P ∈ P(R) existe una partición asociadas
QP ∈ P(R1 ). Se observa que si Pi1 ,...,in es un subintervalo componente de la partición P, entonces P es
unión de algunos subintervalos componentes de la partición QP . En consecuencia, si P ⊂ C entonces
todos los Qi1 ,...,in contenidos en P también están contenidos en C, de donde
˚ ˚
vol P (C) ≤ volQP (C) ,
ˆ ˆ
por lo que
˚ ˚
sup vol
ˆ P (C) ≤ sup volQ (C) .
ˆ
P∈P(R) Q∈P(R1 )
La otra desigualdad es más trabajosa, se considera una partición Q ∈ P(R1 ), y se refina a una partición
QR tal que los vértices de R son elementos de QR . Supón que
(1) (n)
QR = QR ⊗ . . . ⊗ QR ,
(k)
en donde QR = (tk,j )j=0,...,qk y, por construcción, existen índices α(k) y β(k) tales que tk,jα(k) = ck , tk,jβ(k) = dk
(k) (1)
y [ck , dk ] es el k-ésimo intervalo generador de R. Define PQ = tk,jα(k)+l l=0,...,β(k)−α(k) y pon PQ = PQ ⊗
(n)
. . . ⊗ PQ . Luego,
˚ ˚ ˚
vol PQ (C) = volQR (C) ≥ volQ (C) ,
ˆ ˆ ˆ
así que
˚ ˚ ˚
sup vol
ˆ P (C) ≥ sup volPQ (C) ≥ sup volQ (C) ,
ˆ ˆ
P∈P(R) Q∈P(R1 ) Q∈P(R1 )
que, con la otra desigualdad, dan la igualdad buscada. El caso para las medidas de los volúmenes
exteriores queda de ejercicio al lector.
˚
( 9.1.11 ) Sea C ⊂ Rn acotado. Entonces 0 ≤ vol
ˆ (C) ≤ vol (C) < ∞.
˚
Sea R cualquier intervalo cerrado en Rn que contenga a C, entonces, por la definición de vol
ˆ P (C) y
volP (C) se concluye que
˚
0 ≤ vol
ˆ Q (C) ≤ volQ (C) ≤ vol (R) .
˚
con tomar el supremo el en lado izquierdo se concluye que 0 ≤ vol
ˆ (C) ≤ vol (C) < vol (R) < ∞.
335
Capítulo 9. Área de conjuntos.
˚
La necesidad es evidente de que vol ˆ (C) = vol (C) , pues si ε > 0 entonces existe un P tal que
ε ˚ ˚ ε
volP (C) − vol (C) < y existe una partición Q tal que vol ˆ (C) − vol
ˆ Q (C) < . Considera entonces una
2 2
partición T que sea refinamiento común de P y Q (ve (9.1.5)), en virtud de (9.1.6) se concluye que
ε ˚ ˚ ε
volT (C) − vol (C) < y que vol
ˆ (C) − vol
ˆ T (C) < . Por lo tanto, al sumar, se obtiene la necesidad.
2 2
˚
La suficiencia tambiés es sencilla, pues por definición de vol (C) y volˆ (C) se obtiene que
˚ ˚
vol (C) − vol
ˆ (C) ≤ volP (C) − vol
ˆ P (C) < ε.
( 9.2.2 ) Una condición necesaria y suficiente para que un conjunto C ⊂ R sea medible según Jordán es que ∂C
sea medible según Jordán y vol (∂C) = 0.
De donde,
˚
vol (∂C) ≤ volP (C) − vol
ˆ P (C) ;
˚
0 ≤ vol
ˆ (∂C) ≤ vol (∂C) < ε.
˚
volP (C) − vol
ˆ P (C) = volP (∂C) .
˚
Entonces, dado ε > 0 existe una partición P talque volP (C) < ε. Por lo tanto, vol (C) − vol
ˆ (C) = 0.
˚
( 9.2.3 ) Sea C ⊂ Rn un conjunto Jordán medible. Entonces C
Ù y C son Jordán medibles y
˚
vol C
Ù = vol (C) = vol C .
˚ ˚ ˚
vol P C = volP (C)
ˆ Ù ˆ
y
volP (C) = volP C .
Con tomar el supremo o el ínfimo, según corresponda, y utilizando que C es Jordán medible se concluye
el resultado deseado.
( 9.2.4 ) Sea C ⊂ Rn un conjunto Jordán medible y D ⊂ C, entonces vol (C) = 0 implica que D es Jordán
medible y que vol (D) = 0.
336
9.3. Propiedades básicas.
Se cumple que D ⊂ C y vol C = 0 (ve (9.2.3)). De aquí que,
˚
0 ≤ vol
ˆ (D) ≤ vol (D) ≤ vol C = vol C = 0.
( 9.2.5 ) Sean A y B dos subconjuntos de Rn que tienen medida de Jordán cero, etnonces A ∪ B tiene medida
de Jordán y vale cero.
Es inmediato de las definiciones que para cualquier partición P de un rectángulo R que contenga a
A ∪ B se cumple que
volP (A ∪ B) ≤ volP (A) + volP (B) .
Considera el ínfimo sobre todos los P, se puede concluir que
vol (A ∪ B) ≤ ı́nf volP (A) + volP (B) = vol (A) + vol (B) ,
P∈P(R)
( 9.2.6 ) Sea C ⊂ Rn un conjunto. Para que C sea medible según Jordán y vol (C) = 0 es necesario y suficiente que
p p
[ X
para todo ε > 0 exista una familia finita de intervalos R1 , . . . , Rp ⊂ Rn tales que C ⊂ Ri y vol (Ri ) < ε.
i=1 i=1
La necesidad es evidente pues según (9.2.1) para cada ε > 0 existe una partición P tal que
˚
volP (C) − vol
ˆ P (C) = volP (C) < ε.
Por lo tanto, se considera la familia de rectángulos definidos por P tales que intersectan a C.
La suficiencia es consecuencia que se considera un intervalo R que contenga a todos los Ri y una
partición Pi que extienda a Ri (ve (9.1.8)). Se considera ahora una partición P que refine a todas las Pi
(ve (9.1.5)). Luego, de las definición se obtiene que
p
X
vol (C) ≤ volP (C) ≤ vol (Ri ) < ε.
i=1
Como ε fue arbitrario, se concluye que vol (C) = 0 y entonces, C es Jorán medible con vol (C) = 0.
337
Capítulo 9. Área de conjuntos.
Sea R un intervalo que contiene a B. Entonces R también contiene a A. Luego, si P ∈ P(R) y Pi1 ,...,in
es un subintervalo componente de P se ve que
en consecuencia
˚ ˚
vol P (A) ≤ volP (B) .
ˆ ˆ
Asimismo,
Pi1 ,...,in ⊂ A Ñ Pi1 ,...,in ∩ B = ∅ y Pi1 ,...,in ⊂ B Ñ Pi1 ,...,in ∩ A = ∅ .
De estas dos observaciones se deriva que
X X X
vol (Pi1 ,...,in ) + vol (Pi1 ,...,in ) ≤ vol (Pi1 ,...,in ) ;
(i1 ,...,in )|P⊂A (i1 ,...,in )|P⊂B (i1 ,...,in )|P⊂A∪B
esto es,
˚ ˚ ˚
vol P (A) + volP (B) ≤ volP (A ∪ B) .
ˆ ˆ ˆ
˚ ˚ ˚
vol P (A) + volP (B) ≤ volP (A ∪ B) ≤ volQ (A ∪ B) ≤ volQ (A) + volQ (B) .
ˆ ˆ ˆ
338
9.3. Propiedades básicas.
y que
ı́nf volQ (A) + volQ (B) = vol (A) + vol (B) .
Q∈P(R)
( 9.3.3 ) Sean A y B subconjunto de Rn cuyo volumen tiene medida en el sentido de Jordán tales que A ⊂ B.
Entonces B \ A también tiene volumen en el sentido de Jordán y vol (B \ A) = vol (B) − vol (A) .
Se observa que B \ A = B ∩ {A, por lo que ∂(B \ A) ⊂ ∂B ∩ ∂ {A y según (9.2.4) ∂(B \ A) es Jordán
medible con medida de Jordán cero. En consecuencia (9.2.2) B \ A es Jordá medible. Con notar que
B = (B \ A) ∪ A y que (B \ A) ∩ A = ∅, y utilizando la propiedad aditiva de la medida de Jordán se concluye
que
vol (B) = vol (B \ A) + vol (A) ,
que es exactamente lo que se quería demostrar.
( 9.3.4 ) Sean A y B subconjunto de Rn cuyos volúmenes son medibles en el sentido de Jordán. Entonces los
volúmenes de A ∩ B, A \ B, B \ A y A ∪ B tienen medida en el sentido de Jordan. Estas medidas están relacionadas
por
vol (A ∪ B) = vol (A) + vol (B) − vol (A ∩ B) .
Se usará (9.2.2) para cada caso. Primero hay que recordar que ∂X = ∂ {X para cada X ⊂ Rn ,
entonces se verifica que la frontera de cada conjunto está contenida en ∂A∪∂B. Según (9.2.5) el conjunto
∂A ∪ ∂B tiene medida de Jordán cero y según (9.2.4) todas las fronteras de los conjuntos también tienen
medida de Jordán cero, en consecuencia, los conjuntos son medibles en el sentido de Jordán.
Para verificar la fórmula se observa que
A ∪ B = (A \ B) ∪ (B \ A) ∪ (A ∩ B),
y las uniones son de conjuntos ajenos a pares. La propiedad aditiva de la medida de Jordán (9.3.2)
muestra entonces que
vol (A ∪ B) = vol (A \ B) + vol (B \ A) + vol (A ∩ B) .
Con notar que
A = (A \ B) ∪ (A ∩ B)
y que la unión es ajena, se concluye que
339
Capítulo 9. Área de conjuntos.
P1 = P1,1 ⊗ . . . ⊗ P1,n
y
P2 = P2,1 ⊗ . . . ⊗ P2,m
particiones de R1 y R2 , respectivamente. Entonces, R = R1 × R2 es un intervalo que contiene a A × B y
(1) (2)
es una partición de R. Nota que si Pj1 ,...,jn y Pi1 ,...,im son sendos subintervalos componentes de R1 y R2
(1) (2)
formados por sendos puntos de las particiones P1 y P2 entonces Pj1 ,...,jn × Pi1 ,...,im es un subintervalo de
R formado por puntos de la partición P. Además
(1) (2) (1) (2)
Pj1 ,...,jn ⊂ A y Pi1 ,...,im ⊂ B Ñ Pj1 ,...,jn × Pi1 ,...,im ⊂ A × B,
por lo que
˚ ˚ ˚
vol P1 (A) volP2 (B) ≤ volP (A × B) .
ˆ ˆ ˆ
de donde
(1) (2) (1) (2)
Pj1 ,...,jn × Pi1 ,...,im ∩ A × B 6= ∅ Ñ Pj1 ,...,jn ∩ A 6= ∅ o bien Pi1 ,...,im ∩ B 6= ∅.
Por lo tanto
volP (A × B) ≤ volP1 (A) volP2 (B) ,
usando (9.1.11), se ve que
˚ ˚ ˚
vol P1 (A) volP2 (B) ≤ volP (A × B) ≤ volP (A × B) ≤ volP1 (A) volP2 (B) .
ˆ ˆ ˆ
˚ ˚ ˚
vol (A) vol (B) = vol
ˆ (A) vol
ˆ (B) ≤ vol
ˆ (A × B)
≤ vol (A × B) ≤ vol (A) vol (B) = vol (A) vol (B) .
Lo cual muestra que A × B tiene volumen de Jordán y que este coincide con vol (A) vol (B) .
340
9.4. Cambios lineales de variables.
( 9.4.1 ) Sean E1,1 , . . . , En,n la base canónica de Matn×n (R) , se dirá que las matrices
A las transformaciones lineales asociadas a estas matrices se les llamará cambios de variable elementales.
Los cambios de variable elementales tienen intepretaciones geométricas muy interesantes. Por ejem-
plo, el cambio ERi →λRi se entiende como un alargamiento o estiramiento por un factor constante λ del
i-ésimo eje. Es evidente que si λ = 0, entonces ERi →0 es la matriz correspondiente a la proyección a
todos los ejes excepto el i-ésimo.
El tipo de cambio de variable ERi ↔Rj es interpretado como intercambiar los ejes i-ésimo y j-ésimo.
π
Asimismo, el cambio ERi →Ri +Rj es una rotación por hecha por el eje i-ésimo sobre el plano generado
4
por les ejes i-ésimo y j-ésimo y en dirección del eje j-ésimo.
Lo más interesante de los cambios de variables elementales es que toda transformación lineal se
puede descomponer como un número finito de cambios elementales.
( 9.4.2 ) Sea E una matriz elemental en Matn×n (R) , entonces para cualquier A ∈ Matn×n (R) se cumple que
AE se obtiene de A al intercambiar dos columnas, multiplicar una de ellas por un escalar o a una de ellas sumar
otra de ellas, según EA haga lo mismo para las filas.
( 9.4.3 ) Sean ERi →λRi , ERi ↔Rj y ERi →Ri +Rj como en (9.4.1), entonces
( 9.4.4 ) Sea M ∈ Matn×n (R) , entonces existe una sucesión S1 , . . . , Sk de matrices elementales (ve (9.4.1))
tales que M = Sk · · · S1 . Más aún, una condición necesaria y suficiete para que M sea invertible es que cada Sj
sea invertible.
Ahora sí se empezarán a demostrar las propiedes referentes a la medida del volumen de la imagen
de una caja a través de una transformación lineal.
( 9.4.5 ) Sean S, T : Rn → Rn dos transformaciones lineales tales que para todo C ⊂ Rn que sea medible
según Jordán se cumple que T(C) y S(C) son medibles según Jordán, y que vol (T(C)) = | det(T)|vol (C) y
vol (S(C)) = | det(S)|vol (C) . Entonces
341
Capítulo 9. Área de conjuntos.
( 9.4.6 ) Sea C ⊂ Rn un subconjunto medible según Jordán y T : Rn → Rn una trasformación lineal elemental.
Entonces T(C) es medible según Jordán y vol (T(C)) = | det(T)|vol (C) .
( 9.4.6.1 ) Para cualquier S que sea una transformación elemental del tipo Ri → λRi y cualquier R ⊂ Rn un
intervalo se cumple que vol (S(R)) = | det(S)|vol (R) .
Se supone que R posee como k-ésimo intervalo generador a [ak , bk ]. Entonces, S(R) es un rectángulo
cuyo i-ésimo intervalo generador es [λak , λbk ] si λ ≥ 0 o [λbk , λak ] si λ < 0, y cuyos otros intervalos
componentes son [ak , bk ], k 6= i. Luego,
n
Y
vol (S(R)) = (b1 − a1 ) · · · |λbi − λai | · · · (bn − an ) = |λ| (bk − ak ) = |λ|vol (R) .
k=1
( 9.4.6.2 ) Para cualquier S que sea una transformación elemental del tipo Ri → 0 y cualquier C ⊂ Rn un
subconjunto medible según Jordán entonces S(C) es medible según Jordán y vol (S(C)) = 0.
Sea R un intervalo que contiene a C, entonces S(C) ⊂ S(R). Por la parte previa, se ve que
( 9.4.6.3 ) Sea S una transformación elemental del tipo Ri → λRi y λ 6= 0. Para cada C ⊂ Rn que sea Jordán
medible se sigue que S(C) es Jordán medible y que vol (S(C)) = | det(S)|vol (C) .
por lo que
X
volP (S(C)) ≤ vol (S(Pi1 ,...,in ))
(i1 ,...,in )|Pi1 ,...,in ∩C6=∅
X
= | det(S)|vol (Pi1 ,...,in ) = | det(S)|volP (C)
(i1 ,...,in )|Pi1 ,...,in ∩C6=∅
Análogamente
[
S(Pi1 ,...,in ) ⊂ S(C).
(i1 ,...,in )|Pi1 ,...,in ⊂C
342
9.4. Cambios lineales de variables.
Å Å ãã
˚
Se usa ahora (9.2.3) para ver2 que vol (S(Pi1 ,...,in )) = vol S P˙i1 ,...,in , y como (ve (9.1.3))
˚ ˚
(j1 , . . . , jn ) 6= (i1 , . . . , in ) Ñ P
˚ j1 ,...,jn ) ∩ Pi1 ,...,in = ∅,
˙
se concluye que
˚ X
| det(S)|vol
ˆ P (C) = | det(S)| vol (Pi1 ,...,in )
(i1 ,...,in )|Pi1 ,...,in ⊂C
X
= vol (S(Pi1 ,...,in ))
(i1 ,...,in )|Pi1 ,...,in ⊂C
Å Å ãã
X ˚ ˚
= vol S Pi1 ,...,in
˙ ≤ vol
ˆ P (S(C)) .
(i1 ,...,in )|Pi1 ,...,in ⊂C
343
Capítulo 9. Área de conjuntos.
Según (9.3.5) resta ver que C = {(x1 , x1 + x2 )|(x1 , x2 ) ∈ [0, 1]2 } es medible y que
vol (C) = 1.
i j
Sea Pn = (sn,i )i=0,...,n y Qn = (tn,j )j=0,...,2n particiones de [0, 1] y de [0, 2] dadas por sn,i = y tn,j = .
n n
Sea Rn = Pn ⊗ Qn partición del intervalo [0, 1] × [0, 2]. Supón que
˚ 1 3 2
vol Rn (C) = 1 − y volRn (C) = 1 + − 2.
ˆ
n n n
˚ 1 3 2
Entonces, se seguiría que vol
ˆ (C) ≥ 1 − y vol (C) ≤ 1 + − 2 para cualquier n ∈ N. Luego, se podría
n n n
˚
concluir que vol
ˆ (C) = vol (C) = 1, lo cual terminaría la prueba del lema. Por lo tanto, todavía se deben
n
demostrar las dos igualdades supuestas. Sea Pi,j = [sn,i−1 , sn,i ] × [tn,j−1 , tn,j ]. Entonces
( 9.4.6.7 ) Sea S una transformación elemental del tipo Ri → Ri +Rj . Para cada C ⊂ Rn que sea Jordán medible
se sigue que S(C) es Jordán medible y que vol (S(C)) = | det(S)|vol (C) .
Aplica exactamente la misma demostración que para los otros dos tipos de transformaciones ele-
mentales. Esto concluye la demostración del teorema.
( 9.4.7 ) Sea T : Rn → Rn una transformación lineal cualquiera y C ⊂ Rn un conjunto Jordán medible, entonces
T(C) es Jordán medible y vol (T(C)) = | det(T)|vol (C) .
344
9.5. Ejercicios.
Se sabe que para T existe una sucesión S1 , . . . , Sk de transformaciones lineales elementales, para las
cuales vale el teorema, y tales que T = S1 · · · Sk , entonces
§ 9.5. Ejercicios.
( 9.1 ) Verifica (9.1.3).
( 9.2 ) Complete la demostración de (9.1.10).
( 9.3 ) El disco unitario B (0; 1) ⊂ R2 tiene volumen de Jordán. Se define el número π como su volumen.
( 9.4 ) Cualquier disco tiene área. Encuentra el área de un disco de radio r como función de π y r.
( 9.5 ) Un cilindro tiene área, encuentra el área de un cilindro de radio r y altura h.
( 9.5.1 ) Un paralelogramo tiene área, calcula el área de un paralelogramo de lados a, b y alturas h1 y h2 .
( 9.6 ) Todo trapecio tiene área, encuentra el área de un trapecio de base mayor a, base menor b y altura h.
Sugerencia: recuerda (9.3.2) y (9.4.9)
345
Capítulo 9. Área de conjuntos.
( 9.7 ) Existen dos conjuntos C1 y C2 que no son medibles en el sentido de Jordán pero tales que C1 ∪ C2 sí lo
es.
( 9.8 ) Considera la región C = {(x, y) ∈ R2 |x ∈ [a, b], 0 ≤ y ≤ f(x)}, en donde f : [a, b] → R es integrable
en el sentido de Riemann (4.6.2). Entonces, C tiene volumen de Jordán y
Zb
f(t)dt = vol (C) .
a
Å ã
k
( 9.9 ) Considera f : [0, 1]n → [0, ∞) continua y sea C = {(X, z)|0 ≤ z ≤ f(X)}. Define Pm = y
m k=0,...,m
m
O
pon P (m) = Pm . Define
i=1
(m)
mi1 ,...,in = ı́nf f(X)
(m)
X∈Pi
1 ,...,in
(m)
e igualmente Mj1 ,...,jn pero tomando el supremo. Verifica que
(m)
X Ä (m) ä
L(m) = mi1 ,...,in vol Pi1 ,...,in ≤ vol (C)
(i1 ,...,in )
y que
(m)
X Ä (m) ä
vol (C) ≤ Mi1 ,...,in vol Pi1 ,...,in = U (m) .
(i1 ,...,in )
( 9.10 ) Sea C ⊂ [0, 1] el conjunto de Cantor, ejercicio (3.44). Entonces, C posee medida de Jordán y esta vale
cero.
( 9.11 ) Sean C ⊂ Rn un conjunto y R un intervalo cerrado n-dimensional tal que C ⊂ R. Se supondrá que
P ∈ P(R) es una partición de R. Entonces, una condición necesaria y suficiente para que C sea Jordán medible
es que C ∩ Pi1 ,...,in es Jordan medible para cada subintervalo componente Pi1 ,...,in de P. En este caso,
X
vol (C) = vol (C) ∩ Pi1 ,...,in .
(i1 ,...,in )
˚ ˚
( 9.12 ) Sea C ⊂ Rn . Una condición necesaria y suficiente para que C
Ù 6= ∅ es que vol
ˆ (C) > 0.
( 9.13 ) Sea P ∈ Rn cualquier punto. Entonces, {P} posee medida de Jordán igual a cero. Luego, usando
inducción, demuestra que cualquier cantidad finita de puntos posee medida de Jordán cero; esto es, si C ⊂ Rn
es finito, vol (C) = 0.
346
9.5. Ejercicios.
( 9.15 ) Sea C ⊂ Rn un conjunto Jordán medible. Para cualquier ε > 0 existe un conjunto compacto K ⊂ C tal
que vol (C \ K) < ε.
( 9.16 ) Si R1 y R2 son dos intervalos cerrados n-dimensionales entonces R1 ∩ R2 es un intervalo cerrado también.
( 9.17 ) Sea R ⊂ Rn un intervalo cerrado y define a A ⊂ P (Rn ) como el conjunto de las uniones finitas de
subintervalos cerrados de R; esto es, C ∈ A si existe una familia finita (R1 , . . . , Rk ) de subintervalos cerrados de
R tales que C = R1 ∪ . . . ∪ Rn . Entonces, A es un «álgebra de conjuntos»; esto es, A satisface las siguientes
tres propiedades
1. R ∈ A ;
2. A, B ∈ A Ñ A ∪ B ∈ A ;
3. A ∈ A Ñ {R A ∈ A .
Observa que la tercera propiedad previa no puede ser reemplazada por la siguiente propiedad más fuerte:
∞
[
4. si (An )n∈N es una familia de elementos de A entonces An ∈ A .
n=1
ï ò
1
Sugerencia: trata de construir el ejemplo en [0, 1]. Define An = 0, 1 − . Entonces, An pertenece a la
n
álgebra A correspondiente pero su unión no.
( 9.18 ) Demuestra que el conjunto A ⊂ P (Rn ) de los subconjuntos medibles según Jordán conforma una
álgebra, tal como se definió en (9.17).
347
Capítulo 9. Área de conjuntos.
348
• Bibliografía
349
Bibliografía
350