Anda di halaman 1dari 362

• Índice general

Prefacio VII

I Desarrollo del cálculo diferencial. 1


1. Álgebra lineal y geometría analítica. 3
1.1. El espacio Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1. La distancia euclidiana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Un repaso de álgebra lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1. Espacios y subespacios vectoriales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2. Bases e independencia lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3. Transformaciones lineales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3. El determinante de una transformación lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1. El grupo de permutaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2. El determinante de una matriz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4. Geometría analítica en Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.1. Normas y perpendicularidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.2. Rectas y planos en Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4.3. Ángulo entre vectores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.4. El producto vectorial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2. Funciones, sucesiones y series. 35


2.1. Funciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2. Familias de elementos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3. Sucesiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.1. Subsucesiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.3.2. Sucesiones de Cauchy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3. Topología de Rn . 53
3.1. Subconjuntos de Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2. Propiedades de la topología de Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3. El teorema de Borel-Lebesgue. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4. Compacidad en Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.5. El teorema de Bolzano-Weierstrass. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.6. Generalización a un espacio vectorial real. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.6.1. Prueba de los teoremas especiales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

I
Índice general

3.7. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4. Curvas en Rn . 81
4.1. Definiciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.1.1. Curvas equivalentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.2. Límites. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3. Continuidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.4. Diferenciación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.4.1. Teoremas sobre derivadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.4.2. Tangentes, Velocidad y Rapidez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.5. Longitud de Arco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.6. Cálculo de longitud de arco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.6.1. Integral de Riemann. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.6.2. El teorema del valor medio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.6.3. Fórmula para la longitud de arco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.7. Parametrización por longitud de arco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.7.1. Propiedades de la función de longitud de arco. . . . . . . . . . . . . . . . . . . . . . . . 104
4.8. Conexidad en Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.9. Generalización a un espacio vectorial real. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.10. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

5. La derivada en varias variables. 121


5.1. Funciones de varias variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.2. Campos vectoriales, una introducción intuitiva. . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.2.1. Representación geométrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.2.2. Las transformaciones rígidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.3. Gráficas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.3.1. Método de los conjuntos de nivel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.3.2. Método de las secciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.4. Límites. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.4.1. Proyecciones canónicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.4.2. Funciones polinomiales y racionales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.4.3. Límites reiterados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.4.4. Límites infinitos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
5.5. Continuidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.5.1. Continuidad y compacidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.5.2. Continuidad y conexidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.5.3. Continuidad y continuidad uniforme. El teorema de Heine-Cantor. . . . . . . . . . . 143
5.6. La derivada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.6.1. Motivación para la definición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.6.2. Definición de derivada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.6.3. Completez de los espacios vectoriales normados. . . . . . . . . . . . . . . . . . . . . . 152
5.7. Teoría de derivación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5.7.1. Unicidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.7.2. Diferenciabilidad implica continuidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.7.3. La regla de la cadena. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
5.7.4. Diferenciabilidad de las funciones componentes. . . . . . . . . . . . . . . . . . . . . . . 155
5.7.5. Linealidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
5.7.6. Derivada de un producto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
5.7.7. Derivada de un cociente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

II
Índice general

5.8. Algunas derivadas especiales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157


5.8.1. Funciones constantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.8.2. Proyecciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.8.3. Inclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
5.8.4. Transformaciones lineales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
5.8.5. Exponentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
5.8.6. Funciones polinomiales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
5.8.7. Otros ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5.9. La derivada, interpretación geométrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
5.10. Funciones inversas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
5.11. El teorema del valor medio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
5.12. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

6. Las derivadas de una función. 177


6.1. Derivadas en direcciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
6.2. Derivadas parciales en Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.2.1. Ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
6.2.2. Sobre la definición de derivada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.2.3. Regla de la cadena para las derivadas parciales en Rn . . . . . . . . . . . . . . . . . . . 182
6.3. Las derivadas parciales en general. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
6.3.1. Ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.4. La función de derivadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
6.4.1. Derivadas parciales de orden superior en Rn . . . . . . . . . . . . . . . . . . . . . . . . . 189
6.5. Existencia de la derivada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
6.5.1. Diferenciabilidad de una función no implica continuidad de sus derivadas parciales. 191
6.5.2. Continuidad de las parciales de una función no implica su diferenciabilidad. . . . . 192
6.5.3. Existencia de las parciales en todas partes no implica diferenciabilidad. . . . . . . . . 193
6.5.4. Existencia de la derivada en un punto no implica la existencia de las parciales salvo
ese punto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
6.5.5. Una condición suficiente de diferenciabilidad. . . . . . . . . . . . . . . . . . . . . . . . . 195
6.5.6. Diferenciales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
6.6. Técnicas de derivación parcial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
6.6.1. Permutabilidad de las derivadas parciales de segundo orden. . . . . . . . . . . . . . . 198
6.6.2. Funciones de clase Ck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
6.6.3. Notación clásica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
6.7. Ejemplos resueltos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
6.7.1. Derivadas parciales de primer orden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
6.7.2. Derivadas parciales de orden superior. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
6.7.3. Riesgos de la notación clásica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.8. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

7. El teorema de Taylor. 213


7.1. Formas cuadráticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
7.1.1. Formas cuadráticas definidas y cambios de variables. . . . . . . . . . . . . . . . . . . . 215
7.1.2. Matriz asociada a una forma cuadrática. . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
7.2. Ley de inercia de Sylvester. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
7.3. Segunda derivada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
7.3.1. El teorema de identificación Lin (V , Lin (V , W )) = Lin(2) (V , W ) . . . . . . . . . . . . . . 227
7.4. Propiedades de la segunda derivada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
7.4.1. Forma cuadrática. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

III
Índice general

7.4.2. Matriz asociada a la segunda derivada de una función real. . . . . . . . . . . . . . . . 231


7.4.3. Funciones coordenadas y segunda derivada. . . . . . . . . . . . . . . . . . . . . . . . . . 232
7.4.4. Segunda derivada de una forma bilineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
7.4.5. Segunda derivada de funciones f : A ⊂ V → W . . . . . . . . . . . . . . . . . . . . . . . . 234
7.5. Derivadas superiores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
7.5.1. Ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
7.5.2. Propiedades de las derivadas superiores. . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
7.6. El teorema de Taylor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
7.6.1. El polinomio de Taylor en R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
7.6.2. El polinomio de Taylor en Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados. . . . . . . . 250
7.7.1. Funciones polinomiales homogéneas y no homogéneas. . . . . . . . . . . . . . . . . . 250
7.7.2. Las funciones de incrementos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
7.7.3. El teorema fundamental de polinomios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
7.7.4. Funciones tangentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
7.7.5. El teorema de Taylor, otra vez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
7.7.6. Propiedades de los desarrollos limitados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
7.8. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262

8. Optimización libre y restringida, funciones convexas y teoremas de la función inversa e


implícita. 267
8.1. Optimización libre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
8.1.1. Condiciones necesarias de primer orden. . . . . . . . . . . . . . . . . . . . . . . . . . . 270
8.1.2. Condiciones necesarias de segundo orden. . . . . . . . . . . . . . . . . . . . . . . . . . 271
8.1.3. Condiciones suficientes de segundo orden. . . . . . . . . . . . . . . . . . . . . . . . . . 272
8.2. Funciones convexas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
8.2.1. Funciones convexas en R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
8.2.2. Acotamiento, continuidad y diferenciabilidad de las fuciones convexas en R. . . . . 276
8.2.3. Un poco sobre funciones monótonas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
8.2.4. Caracterizaciones de funciones convexas en R. . . . . . . . . . . . . . . . . . . . . . . . 279
8.2.5. Operaciones que preservan la convexidad en R. . . . . . . . . . . . . . . . . . . . . . . 282
8.2.6. Ejemplos de funciones convexas en R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
8.2.7. Funciones convexas en espacios vectoriales. . . . . . . . . . . . . . . . . . . . . . . . . . 284
8.2.8. Ejemplos de funciones convexas en Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
8.3. Ejemplos de optimización libre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
8.4. Optimización restringida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
8.4.1. Homeomorfismos, difeomorfismos y diferenciabilidad fuerte. . . . . . . . . . . . . . . 298
8.4.2. El método de aproximaciones sucesivas. . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
8.4.3. El teorema de la función inversa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
8.4.4. El teorema de la función implícita. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
8.4.5. Algunos ejemplos de invertibilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
8.4.6. El método de los multiplicadores de Lagrange. . . . . . . . . . . . . . . . . . . . . . . . 316
8.5. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322

II Desarrollo del cálculo integral. 329


9. Área de conjuntos. 331
9.1. ¿Qué es el área? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
9.2. ¿Qué conjuntos son Jordán medibles? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335

IV
Índice general

9.3. Propiedades básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337


9.4. Cambios lineales de variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
9.5. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345

V
Índice general

VI
• Prefacio

El cálculo de varias variables, también llamado cálculo vectorial, es una herramienta fundamental en
las ciencias. Es destacable que el cálculo aparece en diversas ramas del conocimiento, no es simplemente
una curiosidad técnica. Por ejemplo, en la física se le puede encontrar al estudiar el comportamiento de
partículas; en la economía, al estudiar los óptimos del bienestar; en la estadística, al estudiar la máxima
verosimilitud, etcétera. Ocasionalmente se podrá mencionar algunas de estas aplicaciones, aunque cabe
la advertencia de que no se hará énfasis especial en estos temas.
A lo largo del texto se buscó generalizar lo que se entiende como «Cálculo diferencial e integral
en R»; esto es, se trató de dar una generalización natural de las nociones clásicas del cálculo a varias
variables. Se pensó en dar todas las definiciones de tal forma que vinieran motivadas directamente
de propiedades geométricas, el lector decidirá si se consiguió el objetivo. Particularmente, se puso
énfasis especial en la noción de diferenciación para funciones de V a W ; funciones entre dos espacios
vectoriales de dimensión finita. Otros temas clásicos que se definen rigurosamente son las formas
cuadráticas y las funciones de incrementos. También se desarrolla con cuidado y detalle lo que se
entiende como teoría de optimización.
Se espera que las definiciones, teoremas y ejemplos presentadas a lo largo del texto tengan un
caracter geométrico, más que analítco. Sin embargo, no es esta razón para creer que en tales casos
las demostraciones pertinentes se harán sin la rigurosidad de un análisis matemático adecuado. Lo
que se trató de hacer fue resaltar el aspecto geométrico de los resultados y dar una demostración
analítica completa y formal, basándose únicamente en lo que ya se demostró en el texto (salvo contadas
excepciones).
Antes de comenzar a exponer de qué trata cada capítulo quisiera hacer algunos comentario perso-
nales al lector, quien podría mostrarse escéptico en la presentación de este texto pues, ciertamente, el
nivel del mismo podría no ser el más adecuado para un primer curso de cálculo vectorial. El texto fue
diseñado para dar una construcción teórica de todo el material que fue impartido en diversos cursos
de cálculo vectorial, tanto diferencial como integral, en el cual participé como ayudante1 ; esto fue unas
7 veces.

1. Se supone que este será el primer libro de cálculo vectorial que leería el lector. Por esto, las
pruebas a veces son demasiado detalladas para quien esté muy familiarizado con el material. Sin
embargo, los contenidos del texto son tan amplios que perfectamente pueden ser utilizado para
un curso de cálculo avanzado en posgrado.

2. Cada capítulo trata de cubrir todo el material que se podría dar del tema a este nivel. Los ejercicios
a veces especializan los resultados o dan pruebas adicionales más elementales para casos más
particulares. Son pocos los ejercicios que se plantean de tipo mecánico; esto es, ejercicios en los
que solo hace falta memorizar un algoritmo para resolverlo. Se hace énfasis en ejercicios más
teóricos.
1 Un término empleado muy común en inglés es Teaching Assistant

VII
Prefacio

3. Las pruebas están detallas pues están escritas pensando en que el lector no ha llevado ningún
curso de análisis; sin embargo, la experiencia ha mostrado que haber llevado uno o dos cursos
de análisis facilita, mas no trivializa, las pruebas. Obviamente esto conlleva consigo un problema
en la extensión de los capítulos. A modo de tratar de equilibrar tanta tecnicidad en las pruebas,
he intentado exponer algunas motivaciones geométricas de las mismas.
4. Aquí presento una construcción teórica de la mayoría de las dudas que surgieron durante los
años que participé como ayudante. Cabe destacar que originalmente el material iba a ser comple-
tamente desarrollado en Rn sin entrar a espacios métricos ni normados. Pero cuando se quería
desarrollar la derivación superior, no se podían dar las definiciones y demostraciones teóricas
pues las derivadas superiores dejan de poseer contradominio del tipo Rn y sus contradominios
empiezan a devenir más grandes; esto siempre causaba dudas difíciles de contestar.
El último punto es particularmente importante pues yo mismo me mostraba reacio a dar una cons-
trucción más general del cálculo diferencial. Finalmente, conforme la experiencia que iba tomando
creció, decidí dejar mi paradigma de que el cálculo se realiza entre dos espacios Rn y mostrar que
se puede dar más general sin perder la intuición geométrica original; decidí dar una solución a todas
las dudas que recibí. No pude encontrar otra solución a este problema salvo extendender aún más los
capítulos iniciales e introductorios, aumentar los resultados técnicos y emplear más métodos y técnicas
de análisis de las que la mayoría de los profesores consideraron necesarias. Sin embargo, el beneficio
es inmediato. Al dar toda la teoría para funciones entre dos espacios normados de dimensión finita
esencialmente no se aleja de la idea original de Rn y ya es posible construir con toda formalidad las
derivadas de orden superior. La mayoría de los estudiantes que leyeron este material mostraban incon-
formidad en la cantidad de resultados mas nunca en la presentación de los mismos. Finalmente, doy
algunas recomendaciones y consideraciones personales para la lectura de texto.
1. El lector debe tener conocimientos de álgebra lineal, en especial en el uso intensivo de vectores,
matrices, normas y productos escalares. También es deseable que el lector ya haya llevado un
curso de álgebra lineal de espacios vectoriales en general; esto es, que haya estudiado propiedades
de espacios vectoriales arbitrarios. De hecho, aquí se busca introducir al lector a la noción del
álgebra lineal «libre de coordenadas».
2. Considero que este material no puede ser llevado en un curso de un semestre pero se puede tomar
como referencia de cualquier curso. Sería extraño que se presente algún material del cálculo que
no esté desarrollado aquí.
3. Si se desea basar un curso en él, siempre puede tomarse el material que se considere indispensable
y dejar para los estudiantes las lecturas de las pruebas. El profesor del curso puede comprobar
él mismo que estas pruebas están suficientemente detalladas como para que cualquiera pueda
leerlas sin necesidad de tener que hacer muchas anotaciones.
A continuación se exponen los principales temas que se trataron en cada capítulo del texto.
En el capítulo 1 se introducen o mencionan los mínimos requerimientos que el lector debe tener para
poder iniciar a leer este texto. Para empezar, se menciona al álgebra lineal y a la geometría analítica de
Rn ; toda la materia se desarrolla como una generalización de estas dos ramas. Dado que el cálculo de
varias variables estudia el comportamiento de funciones no lineales, es importantísimo tener un buen
entendimiento de las funciones cuyo comportamiento es lineal. Aquí se presentan las definiciones que
dan la estructura de espacio vectorial a Rn y se demuestran algunos teoremas básicos, clásicos y útiles
del álgebra lineal. Destaca, por su embergadura y su sencillez, el teorema de la dimensión (1.2.25).
En el capítulo 2 se presenta una de las definiciones más importantes en matemáticas: el concepto
de función. Se parte desde la visión de teoría de conjuntos de lo que es una función y se demuestran
algunas propiedades. También aquí es donde se define el concepto angular en el análisis de «familia de

VIII
Prefacio

elementos» (ve (2.2.1)) el cual se utiliza cuando se habla de orden en los conjuntos (por ejemplo, de una
«base ordenada» en un espacio vectorial). Al término de este capítulo, aparece la noción de sucesión
y con esta, la de serie. Se dan las propiedades principales, haciéndo énfasis en el caso Rn y dejando
como ejercicio las propiedades básicas del caso real, las cuales se suponen conocidas por el lector.
En el capítulo 3 se estudia el comportamiento de los subconjuntos de Rn . Aquí es donde se define
lo que es un conjunto abierto y se demuestran sus propiedades principales; esto es, que conforman
una topología. Cabe destacar que muchas de las demostraciones aquí presentadas se pueden genera-
lizar a espacios métricos arbitrarios e incluso a espacios topológicos. La topología ayuda a demostrar
varias propiedades generales e importantes sobre funciones. Por ejemplo, el estudio de máximos y
mínimos de funciones utiliza propiedades que no dependen de la estructura métrica del dominio sino
de su estructura topológica. También se definen lo que se conocen como conjuntos compactos, usando
la definición de cubierta abierta (ve (3.3.2))2 . Se demuestran algunos teoremas importantes, como el
teorema de Bolzano-Weierstrass (3.5.3) y el teorema de Borel-Lebesgue (3.3.5). Finalmente, el capítulo
concluye con una generalización a espacios vectoriales normados de dimensión finita.
En el capítulo 4 se estudia uno de los temas más clásicos de la geometría diferencial, las curvas. Aquí
se estudian las propiedades básicas: límites, continuidad, diferenciabilidad, velocidad, rapidez y longitud
de arco. Temas más selectos del área de geometría diferencial, tal como curvatura, torsión, tríada de
Frènet, etcétera, se mencionan únicamente en los ejercicios y a veces solo se hace referencia a estos
temas sin mencionar que se trata de ellos. En este capítulo el lector observará que la mayoría de las
propiedades de curvas se reduce a estudiar las propiedades de funciones de R a R. Al igual que en el
capítulo 3, al final se presentan las generalizaciones pertinentes para un espacio vectorial de dimensión
finita.
En el capítulo 5 se empieza el estudio directamente de funciones entre dos espacios vectoriales de
dimensión finita. Se estudia a la derivada de funciones f : A ⊂ V → W ; este capítulo es el núcleo central
de este texto. También, se estudian el graficado de funciones mencionando dos de las técnicas más
útiles, las curvas de nivel y las secciones. Asimismo, se estudian los campos vectoriales y se demuestra
que las únicas isometrías (funciones que preservan las distancias) son aquellas que, salvo una traslación
por el origen, se comportan como rotaciones y reflexiones, las transformaciones ortogonales. Luego, se
estudian límites y se hace mención de la diferencia fundamental con el caso básico de R, las direcciones
múltiples. Se presentan varios ejemplos para familiarizar al lector con el estudio de límites, para que
estos no presenten un problema en su futuro académico. Luego, se definen las funciones polinomiales,
haciéndo énfasis en que no es lo mismo un polinomio que una función polinomial, pero que existe un
isomorfismo entre los espacios vectoriales asociados. Más adelante, se habla sobre continuidad, lo cual
se facilita debido al estudio de los límites y entonces se presentan algunos teoremas bastante fuertes
respecto a continuidad y propiedades topológicas del dominio. El capítulo continúa con el estudio de
la derivada para funciones de varias variables. Aquí es donde se dedica una sección completa a su
motivación, buscando siempre dejar claro que la ídea de la derivada es la de aproximación lineal.
En esta sección es donde se introduce la idea de que el cálculo en varias variables no debe hacerse
restringido a Rn sino que debe desarrollarse en V , un espacio vectorial real de dimensión finita. Se da
una motivación teórica del porqué esto no afecta la noción de derivación y entonces se concluye que no
importa si un espacio vectorial V se piensa como el espacio vectorial o como el espacio de coordanas.
Después de dar la definición de derivada, se estudian su teoría básica; esto es, las relgas de derivación,
demostrando con ello la regla más importante del cálculo diferencial, la regla de la cadena (5.7.3). Se
continúa con una sección de ejemplos, esto con el fin de que el lector se vuelva diestro al trabajar con la
derivada. Aquí se incluyeron ejemplos de calcular derivadas para funciones entre espacios vectoriales,

2 Es destacable que algunos autores definen, para el caso Rn , que un conjunto compacto es un conjunto cerrado y acotado. Si

bien, el teorema de Borel-Lebesgue afirma que tal hecho es cierto, no se procedió de este modo pues la experiencia muestra
que cuando se empieza con el estudio de espacios más abstractos, resulta confuso y difícil olvidar que no todos los cerrados y
acotados son conjuntos compactos.

IX
Prefacio

no necesariamente del tipo Rn . Más adelante se trabaja con la noción geométrica asociada con la
derivada, la cual es, como ya se mencionó, la de aproximación lineal. Entonces, se encuentra la ecuación
del plano tangente a funciones. La penúltima sección de este capítulo es dedicada a un tema importante,
sobre todo para la teoría de superficies. Esta es, la noción de derivada de la función inversa. Se da una
condición suficiente para que la derivada de la función inversa pueda y tenga que existir. Finalmente, el
capítulo concluye con lo que podría ser considerado el teorema más importante del análisis, el teorema
del valor medio (5.11.2).
En el capítulo 6 se presenta la noción de derivadas parciales en Rn y en el caso general de un
espacio producto V1 × V2 ; en esta sección se presentan varios ejemplos, destacando (6.3.9), que es donde
se menciona por primera vez la técnica de transportación. Esta técnica es muy útil y bella, pues permite
reducir el problem de derivar entre dos espacios vectoriales arbitrarios al de derivar entre dos espacios
de tipo Rn y da una fórmula que conecta las derivadas de una manera sencilla e intuitiva. También se
hace mención de que esta presentación más general de derivación parcial permite que la teoría de
funciones implícitas sea más sencillamente resuelta. También se desarrolla el concepto de derivada
como función, motivando otra vez el uso de espacios vectoriales en la definición de derivada (5.6.5). En
este capítulo se le advierte al lector que empezar definiendo derivación a partir de la noción de derivadas
parciales tiene la consecuencia de que se piensa que una función es diferenciable si existen las parciales,
hecho que, por experiencia reiterada, es difícil de eliminar una vez que se cree cierto. Después de definir
las derivadas parciales de primer orden se definen las de orden superior. Continúa una sección con
varios ejemplos, los cuales poseen la única intención de demoler las esperanzas del lector en creer
que las derivadas parciales pueden usarse para definir derivada. Después de estos ejemplos se muestra
el teorema de Schwarz (6.6.1). El capítulo concluye con muchos ejemplos completamente resueltos y
ejercicios propuestos.
En el capítulo 7 se presentan varias nociones. Primeramente se busca definir a las derivadas de orden
superior. Entonces, se empieza definiendo la segunda derivada y para esto se parte desde un punto de
vista geométrico. Se definen entonces las formas cuadráticas y se da un estudio elaborado de estas;
este incluye su clasificación, el número de clases, la forma geométrica que poseen, su factorización a
forma diagonal, etcétera. Destaca el teorema de la Ley de incercia Sylvester (7.2.1) y particularmente su
prueba, la cual construye un algoritmo el cual permite factorizar cualquier forma cuadrática y llevarla
a disposición diagonal. Después de estudiar a las formas cuadráticas se define a la segunda derivada.
Aquí se presenta un teorema central en la teoría de derivación superior, el teorema de identificación
(7.3.1), el cual da un isomorfismo canónico entre el espacio de transformaciones lineales anidadas con
el espacio de formas multilineales. Una vez demostrado este teorema se define a la segunda derivada,
tanto puntualmente como función. Luego, se prueban propiedades de esta, dentro de las cuales está
que para funciones de clase C2 la derivada y la forma cuadrática asociada son equivalentes. El capítulo
continúa con derivadas superiores y sus propiedades más útiles. Luego, se define el teorema de Taylor
en R y se generaliza a Rn . Aquí se puede usar la técnica de trasportación para definir el teorema de
Taylor en espacios más generales. Sin embargo, no se procede así pues la técnica de transportación
depende íntimamente de elección de bases, lo cual va contrario a la idea de libre de coordenadas que
se utiliza a lo largo del texto. Por lo tanto, se generaliza la noción de forma cuadrática a la de forma
p-ésima entre espacios vectoriales y más generalmente a la de función polinomial homogénea y no
homogénea entre espacios vectoriales, también resulta necesario definir las funciones de incrementos,
mostrando (7.7.12), que se utiliza en teoría de la integración. Con estas definiciones se prueba el teorema
fundamental de polinomios (7.7.15). El capítulo continúa con el estudio de las tangencias de p-ésimo
orden. Se demuestra que el polinomio de Taylor ya definido a este punto satisface una tangencia de
orden p-ésimo siempre que la función sea de clase Cp+1 . Luego, se generaliza y fortalece el teorema
de Taylor a espacios vectoriales. Finalmente, el capítulo concluye con la teoría de desarrollos limitados
y una lista de ejercicios para el lector.
En el último capítulo (el 8) de la primera parte del texto se estudia lo que se entiende como opti-

X
Prefacio

mización. La optimización se divide entonces en dos etapas: libre y restringida. Se empieza estudiando
la optimización libre, dando condiciones necesarias de primer y segundo orden para un óptimo en el
interior. También se da una condición suficiente de segundo orden. Para esto se definen a las formas
cuadráticas no generadas y se demuestra el Lema de Schwarz (8.1.18). Después del desarrollo de las
condiciones necesarias y suficientes para óptimos se desarrolla teoría sobre funciones convexas. Las
funciones convexas son ampliamente utilizadas en economía, aunque no se hace mención de esto en
el texto. También, las fucniones convexas transforman las condiciones necesarias de primer orden en
condiciones suficientes. Se muestra que las funciones convexas son muy regulares y se hacen varias
caracterizaciones de estas. Luego, se dan ejemplos de funciones convexas tanto para R como Rn . El
capítulo continúa con una sección dedicada a varios ejemplos de optimización. Estos ejemplos están
completamente resueltos y están escritos justificando todos los detalles teóricos de la existencia y opti-
malidad de los puntos encontrados; esto es particularmente importante pues no aparece en otros textos.
Después de concluir los ejemplos de optimización libre se aborda el problema de optimización restrin-
gida, motivando con esto el deseo de querer “despejar la variable Y en función de la variable X de la
ecuación F(X, Y ) = 0”. Así, se contruye una demostración del teorema de la función implícita, pasando
por homeomorfismos, difeomorfismos, diferenciablidad fuerte, el método de aproximaciones sucesivas
y el teorema de la función inversa. Se prueba entonces una versión del teorema de la función implícita
(8.4.20). Esta versión es diferente a aquellas presentadas usualmente, pero la experiencia mostró que
la versión aquí presentada es más fácilmente memorizable y es más intuitiva que aquellas presentadas
en [22] o en [7]. El capítulo concluye con ejemplos de optimización restringida, todos ellos clásicos: la
desigualdad de la media geométrica y aritmética, la de Hölder y la de Minkowski; y condiciones sufi-
cientes de segundo orden para la existencia de un óptimo en la restricción. También se destaca que en
los ejercicios hay una demostración sencilla del método de multiplicadores de Lagrange para el caso
de espacios del tipo Rn .

XI
Prefacio

XII
Parte I

Desarrollo del cálculo diferencial.

1
Capítulo 1

• Álgebra lineal y geometría analítica.

El contenido de este capítulo puede ser omitido si el lector considera que ya entiende y domina lo
referente al álgebra linea y la geometría analítica.

§ 1.1. El espacio Rn .
Al igual que cuando se empieza a trabajar en R, es necesario definir las operaciones para trabajar
en Rn ; esto es, las operaciones que dan a Rn la estructura de espacio vectorial.
( 1.1.1 ) Sea R el conjunto de los números reales. Entonces

Rn = R · · × R} = {(x1 , . . . , xn )|xi ∈ R}.


| × ·{z
n veces

En particular,
Rn+m = R
| × ·{z
· · × R} × R
| × ·{z
· · × R} .
n veces m veces
n
De este modo R se vuelve el conjunto de todas las n-adas de números reales. A estas n-adas de
números se les llamará vectores. Se puede definir una suma y un producto por escalar en Rn , esto
con el fin de poder dotar a Rn de la estructura de espacio vectorial sobre R.
( 1.1.2 ) Dados λ ∈ R, X = (x1 , . . . , xn ) y Y = (y1 , . . . , yn ) en Rn se define su suma como

X + Y = (x1 + y1 , . . . , xn + yn )

y el producto escalar λ · X por


λ · X = (λx 1 , . . . , λx n ).
De este modo, se tiene que tanto la suma de vectores como el producto de un escalar con un vector son funciones:

+ : Rn × Rn → Rn y · : R × Rn → Rn .

Por notación habitual, tal como se hizo arriba, en lugar de escribir +(X, Y ) se escribe X +Y y cuando
se aplica el producto λ · X solo se escribe λX. Es fácil verificar que, con esta suma y este producto por
escalar, el conjunto Rn se convierte en un espacio vectorial real1 .
1 Ve la definición (1.2.1) para más detalles.

3
Capítulo 1. Álgebra lineal y geometría analítica.

En muchas ocasiones se tendrá que expresar a los vectores en términos de sus coordenadas. Por
ejemplo si X ∈ R3 entonces se escribirá X = (x, y, z) y diremos que esta es la expresión de X en términos
de sus «coordenadas cartesianas». En general, para X ∈ Rn se escribirá X = (x1 , . . . , xn ). Por facilidad
de notación se hace la siguiente convención, si X ∈ Rn y Y ∈ Rm están dados por X = (x1 , . . . , xn ) y
Y = (y1 , . . . , ym ) entonces (X, Y ) ∈ Rn+m está dado por (X, Y ) = (x1 , . . . , xn , y1 , . . . , ym ).

z 1.1.1 La distancia euclidiana.


Como el interés es llegar a hablar de ortogonalidad, planos y ángulos, resulta natural preguntarse.
¿Cómo se introduce la «geometría euclidiana» en Rn ? Hay que empezar definiendo una longitud en
Rn , pero, ¿cómo introducir una longitud en un espacio que, en general, no puede ser visualizado? Se
procede a tomar la definición de distancia en R2 y generalizar la expresión a varias variables.
Si X = (x1 , x2 ) y Y = (y1 , y2 ) son dos vectores en R2 , la geometría analítica elemental y el teorema
de Pitágoras, conducen a la fórmula fundamental de distancia:
»
d(X, Y ) = (x1 − y1 )2 + (x2 − y2 )2 .

Cuya generalización es obvia: si X = (x1 , . . . , xn ) y Y = (y1 , . . . , yn ) son dos vectores en Rn entonces


»
d(X, Y ) = (x1 − y1 )2 + . . . + (xn − yn )2 .

Si queda definida la distancia en Rn de este modo entonces habrá surgido inmediatamente una ventaja:
la preservación del teorema de Pitágoras en todas las dimensiones.
( 1.1.3 ) Sean X = (x1 , . . . , xn ) y Y = (y1 , . . . , yn ) cualesquier vectores en Rn . Se define la «distancia euclidiana»
entre ellos como el número positivo Ã
Xn
d(X, Y ) = (xk − yk )2 .
k=1

El siguiente teorema es consecuencia de la definición previa y algunos cálculos.


( 1.1.4 ) Sean X, Y , Z ∈ Rn . Entonces
1. d(X, Y ) = 0 Ñ X = Y , identificabilidad;
2. d(X, Y ) ≥ 0, no negativadad;
3. d(X, Y ) = d(Y , X), simetría;
4. d(X, Y ) ≤ d(X, Z) + d(Y , Z), desigualdad triangular.
En efecto, la primera de ellas es consecuencia de que

d(X, Y ) = 0 Ñ d(X, Y )2 = 0,
n
X
y como d(X, Y )2 = |xk − yk |2 es una suma de números no negativos, cada sumando debe ser cero.
k=1
Con esto, x1 = y1 , . . . , xn = yn , mostrando que X = Y . La segunda propiedad, la no negatividad se
obtiene por definición, se toma como distancia la raíz positiva del número correspondiente. La segunda
resulta del hecho que (x − y)2 = x 2 − 2xy + y 2 = y 2 − 2xy + x 2 = (y − x)2 . Para la tercera ve el teorema
(1.4.3).
Las propiedades anteriores de la distancia euclidiana en Rn permiten generalizar el concepto de
distancia.

4
1.2. Un repaso de álgebra lineal.

( 1.1.5 ) Caulquier función d : Rn × Rn → R tal que d sea identificadora, no negativa, simétrica y satisfaga la
desigualdad triangular se denomina una distancia para Rn .

En los ejercicios se definiran otras distancias en Rn , algunas de las cuales tienen interpretaciones
geométricas interesantes.

§ 1.2. Un repaso de álgebra lineal.


Con el fin de poder dotar a este texto una estructura de contención propia se ha decido dar una
retroalimentación de álgebra lineal.

z 1.2.1 Espacios y subespacios vectoriales.


Se empezará con las definiciones de espacio vectorial y algunos resultados sencillos.

( 1.2.1 ) Un espacio vectorial real V es una terna (V , +, ·), que consta de un conjunto V y dos operaciones
+ : V × V → V , llamada «suma», y · : R × V → V , llamada «producto por escalar», que cumple lo siguiente:

1. para cualesquier u, v ∈ V , u + v = v + u;

2. existe (al menos) un x ∈ V tal que para todo v ∈ V , v + x = v;

3. para todo v ∈ V existe (al menos) un u ∈ V tal que u + v = 0;

4. para todo u, v, w ∈ V , u + (v + w) = (u + v) + w;

5. para cualesquier a, b ∈ R y cualquier v ∈ V , a(bv) = (ab)v = b(av);

6. para todos a, b ∈ R y v ∈ V , (a + b)v = av + bv;

7. para todo a ∈ R y todos u, v ∈ V , a(u + v) = au + av;

8. para cualquier v ∈ V , v = 1v, en donde 1 denota al número real uno.

( 1.2.2 ) Todo espacio vectorial V no es vacío; en particular, el conjunto vacío no es espacio vectorial real.

Lo cual se sigue inmediatamente del axioma 2 en la definición de espacio vectorial.


Las demostraciones que se hagan sobre espacios vectoriales se justificarán sobre estos ocho axiomas
o sobre proposiciones ya demostradas (las cuales se basan en ellos). A continuación un ejemplo de una
demostración basada únicamente en los axiomas.

( 1.2.3 ) Sea V un espacio vectorial real. Entonces existen un único elemento en V , llamado «cero», que satisface
el axioma 2. Asimismo, para cada u ∈ V existe un único v ∈ V , llamado «negativo» de u tal que v satisface el
axioma 3 para u.

Para demostrar la unicidad se parte de que existen dos elementos 0 y 00 tales que ambos satisfacen
el axioma 2; se llegará a que coinciden o a una contradicción. La siguiente manipulación muestra lo
afirmado:
0 = 0 + 00 Axioma 2
= 00 Axioma 2.
Del mismo modo, se supone que dado un y ∈ V existen u y v tales que ambos satisfacen el axioma 3
para este y dado. Una manipulación análoga a la previa permite concluir:

5
Capítulo 1. Álgebra lineal y geometría analítica.

u = u+0 Axioma 2
= u + (y + v) Hipótesis
= (u + y) + v Axioma 4
= 0+v Hipótesis
= v Axioma 2.
Por lo tanto si hay dos tienen que coincidir.
De este ejemplo se deduce que no hay ningún peligro en denotar por 0 al vector cero2 en V
y denotar por −v al inverso aditivo de v. Es destacable que, en principio, −v y (−1)v pueden ser
elementos distintos, el siguiente ejemplo que se vera muestra que esto no es así. Para esto, se recuerda
una definición sencilla, la de subespacio vectorial. Sea V un espacio vectorial y W un subconjunto de
V . Si W resulta ser espacio vectorial con las mismas operaciones que las de V entonces se dice que W
es subespacio vectorial de V . Formalmente, son necesarias algunas definiciones.
( 1.2.4 ) Sea (V , +, ·) un espacio vectorial real y W ⊂ V cualquier subconjunto. Se definen las operaciones
+W : W × W → V definida como +W (u, v) = u + v y ·W : R × W → V definida por ·W (λ, u) = λu. Se
dirá que W es subespacio vectorial de V si (W , +W , ·W ) es espacio vectorial real; en particular, es necesario que
+W (W × W ) ⊂ W y que ·W (R × W ) ⊂ W .
Ahora bien, para saber si un subconjunto dado de V es subespacio se utiliza el criterio siguiente.
( 1.2.5 ) Para que W ⊂ V sea subespacio de V es necesario y suficiente que W 6= ∅ y que a, b ∈ W , k ∈ R Ñ
ka + b ∈ W .
Se empieza por la implicación más sencilla; si W es subespacio de V entonces no es vacío y se
satisfacen todos los axiomas de espacio vectorial en W ; en particular, satisface que dados a, b ∈ W y
k ∈ R entonces ka + b ∈ W .
Ahora se demuestra la otra implicación; se supone que W no es vacío y satisface que a, b ∈ W , k ∈
R Ñ ka + b ∈ W . Poniendo k = 1 se ve que a, b ∈ W Ñ a + b ∈ W ; esto es, la suma es «cerrada» en
W. Como W es subconjunto de V se satisfacen automáticamente todos los axiomas de la suma salvo
la existencia de cero en W y la existencia de los inversos en W . Observa que en V se cumple que
0v = (0 + 0)v = 0v + 0v, por lo que, sumando el inverso aditivo de 0v en ambos lados de la igualdad, se
concluye que 0v = 0. Las mismas manipulaciones muestran que el inverso aditivo de v es (−1)v; esto
es, −v = (−1)v. Pero entonces, como W es no vacío, existe a ∈ W , por lo que (−1)a + a = 0 ∈ W ,
por hipótesis. De donde, el cero está en W . Asimismo, poniendo b = 0 en la hipótesis se encuentra
que k ∈ R, a ∈ W Ñ ka ∈ W ; esto es, el producto es cerrado en W . Finalmente, si u ∈ W entonces
−u = (−1)u = (−1)u + 0 ∈ W , lo que muestra que los inversos aditivos están en W y W es subespacio
vectorial de V con las mismas operaciones.
Se realza el hecho de que en este ejemplo se utilizó fuertemente la propiedad (1.2.2); es recomendable
tener esto presente.

z 1.2.2 Bases e independencia lineal.


Un tema importante en el álgebra lineal es dependencia e independencia lineal.
( 1.2.6 ) Sea V un espacio vectorial real dado. A un subconjunto finito S = {v1 , . . . , vr } de V se le llama
r
X
linealmente independiente si a1 , . . . , ar ∈ R son cualesquiera tales que ai vi = 0 entonces cada ai = 0. En
i=1
caso que esta implicación no sea satisfecha se dirá que S es linealmente dependiente. Si S es infinito entonces se
dirá que S es linealmente independente si cada subconjunto finito de él lo es con la noción anterior.
2 Cabe destacar que, aunque algunos autores lo afirman, la experiencia reiterada muestra que no existe ningún peligro de

confusión por denotar con el símbolo 0 tanto al vector cero como al número real cero.

6
1.2. Un repaso de álgebra lineal.

Observaciones: Las siguientes son consecuencias sencillas de la definición previa, serán utilizadas
más adelantes sin hacer referencia a ellas. Supón por lo pronto que S = {v1 , . . . , vr }.
1. Para que el conjunto S sea linealmente dependiente es necesario y suficiente que existan constantes
Xr
ai no todas cero tales que ai vi = 0. Lo cual se obtiene negando la definición.
i=1

2. Si 0 ∈ S entonces S es linealmente dependiente. En efecto, reordenando, se puede suponer que


v1 = 0, entonces se pone a1 = 1, a2 = . . . = ar = 0, así que
r
X
a i vi = 1 · 0 + 0 · v2 + . . . + 0 · vr = 0
i=1

y no todas las ai son cero.


r
X
3. A una suma finita del estilo ai vi se le llama una «combinación lineal» de los elementos de
i=1
S. Cuando todos los escalares en la suma son cero se dice entonces que hay una «combinación
lineal trivial» del cero. Para que S sea linealmente independiente es necesario y suficiente que
la única combinación lineal del cero por elementos de S sea la trivial. Lo cual es exactamente la
definición reescrita en términos de combinaciones lineales.
4. Si v ∈ V \ {0} es combinación lineal por elementos de S entonces S ∪ {v} es linealmente depen-
n
X
diente. Lo cual se sigue del hecho que v = ai vi para algunos ai ∈ R y algunos vi ∈ S. Luego,
i=1
para bi = −ai con i = 1, . . . , n, bn+1 = 1 y vn+1 = v
n+1
X n
X n
X n
X
bi vi = −ai vi + vn+1 = − a i vi + ai vi = 0.
i=1 i=1 i=1 i=1

5. Si S es linealmente independiente, para que v ∈ V haga que S ∪ {v} sea un conjunto linealmente
dependiente es necesario y suficiente que v sea combinación lineal por elementos de S. Se supone
que S es linealmente independente y que S ∪ {v} no lo es; se pone v = vn+1 , entonces supón que
existe una combinación no trivial del cero por elementos de S; es decir
n+1
X n
X
0= a i vi = ai vi + an+1 vn+1 ,
i=1 i=1

y si an+1 = 0 entonces se tendría una combinación lineal de los elementos de S la cual no es trivial
pero S es linealmente independente, esto es una contradicción. Por lo tanto, an+1 6= 0, y así
n
X ai
vn+1 = − vi ,
an+1
i=1

que es una combinación de v por elementos de S. Recíprocamente, supón que v es combinación


por elementos de S, si v fuera el vector 0 entonces ya se habría acabado la demostración, tal como
muestra un inciso previo. Se supone que v 6= 0. Entonces, sin perder generalidad,
n
X
v= a i vi , con a1 6= 0.
i=1

7
Capítulo 1. Álgebra lineal y geometría analítica.

Se pone bi = −ai para i = 1, . . . , n y bn+1 = 1, vn+1 = v, entonces


n+1
X n
X n
X n
X
bi vi = −ai vi + vn+1 = − a i vi + ai vi = 0,
i=1 i=1 i=1 i=1

y aquí b1 6= 0, por lo que S ∪ {v} es linealmente dependiente.


6. Finalmente si S es linealmente independente, todo subconjunto suyo también lo es, por otro lado,
si un subconjunto de S es linealmente dependiente, S también lo es. Quedan para el lector los
detalles de esta observación.
( 1.2.7 ) Sea V = R4 y supón que

S = {(1, 2, 1, 3), (3, −1, 5, 2), (0, −1, −1, 1)}.

¿Es S linealmente dependiente?


Para demostrar dependencia se tiene que encontrar una combinación lineal no trivial de elementos
de S que sumen cero. Se supone que a, b y c satisfacen que

a(1, 2, 1, 3) + b(3, −1, 5, 2) + c(0, −1, −1, 1) = 0.

Se pasa a un sistema matricial,


Ü ê Ü ê Ü ê Ü ê
1 3 0 0
2 −1 −1 0
a +b +c =
1 5 −1 0
3 2 1 0

es decir, Ü ê Ü ê
a + 3b 0
2a − b − c 0
= .
a + 5b − c 0
3a + 2b + c 0
Todo se reduce a resolver el sistema lineal


 a + 3b = 0
2a − b − c = 0

.

 a + 5b − c = 0
3a + 2b + c = 0

El método más eficiente para resolver un sistema general de ecuaciones lineales es el “Gauss-Jordán”.
En este caso se puede hacer algo mejor. De la primera ecuación se obtiene que a = −3b. Sustituyendo
en las otras tres ecuaciones se obtiene el sistema equivalente

 −7b − c = 0
2b − c = 0 .
−7b + c = 0

El cual es redundante, por lo tanto, queda elimidada la tercera ecuación sin perder información.
ß
−7b − c = 0
.
2b − c = 0

8
1.2. Un repaso de álgebra lineal.

Finalmente, restando las ecuaciones se obtiene que b = 0. Sustituyendo en a es claro que a = 0 y, al


utilizar estos valores en cualquier ecuación, se obtiene el valor de c, que es cero. Finalmente, ha sido
demostrado que cualquier combinación lineal de S que sume cero debe ser la trivial. De este modo, S
es linealmente independiente.
Se continúa con la noción de base de un espacio vectorial.
( 1.2.8 ) Un subconjunto B de V se llama generador si todo elementos de V es combinación lineal por elementos
de B; es decir, si satisface lo siguiente
n
X
v ∈ V Ñ existen n ∈ N y λ1 , . . . , λn ∈ R, v1 , . . . , vn ∈ B tales que v = a i vi .
i=1

Además, a B se le llama una base de V si es linealmente independiente máximo; es decir, para que B sea base
es necesario y suficiente que B sea linealmente independiente y que cualquier elemento de v ∈ V tal que v ∈/ B
hará que B ∪ {v} deje de ser linealmente independiente.
( 1.2.9 ) Para que B sea base es necesario y suficiente que genere a todo el espacio y sea linealmente independiente.
En efecto, si B genera y es linealmente independiente entonces todo elemento de V es generado
por elementos de B, por lo que si se agrega a B un elemento que no esté en él hará que B deje de
ser linealmente independiente. Recíprocamente, si B es base entonces es linealmente independiente y
cualquier elemento que sea agregado a B hará que B deje se der linealmente independente, por lo cual,
tal elemento es combinación lineal por elementos de B. Como el elemento fue arbitrario, B genera.
( 1.2.10 ) Sea V un espacio vectorial el cual es generado por los vectores w1 , . . . , wn y se supone que los vectores
v1 , . . . , vm con m ≤ n son linealmente independientes. Los vectores {v1 , . . . , vm , w 0 m+1 , . . . , w 0 n } generan a V ,
en donde los wi0 son una reordenación conveniente de los wi ; el «lema de Steinitz».
En virtud de que los vectores wi generan a V se sigue que existen escalares λ1 , . . . , λn ∈ R tales
Xn
que v1 = λi wi . Como los vectores vj son linealmente independientes ninguno de ellos puede ser el
i=1
vector cero, luego, al menos uno de los escalares no es cero y tras un reordenamiento de los wi se
puede suponer que λ1 6= 0. Entonces,
n
1 X λi
w1 = v1 − wi ;
λ1 λ1
i=2

esto es, w1 es generado por {v1 , w2 , . . . , wm } y entonces todo V es generado por este conjunto. Se repite
esta operación para cada vj . Entonces, se supone que en la etapa j-ésima se cumple que V es generado
por {v1 , . . . , vj , wj+1 , . . . , wm }. Luego, los mismos argumentos que se utilizaron para v1 pueden repetirse
aquí, se deduce que existen escalares µ1 , . . . , µm ∈ R tales que
j m
X X
vj+1 = µ k vj + µk wk .
k=1 k=j+1

Si µj+1 = . . . = µm = 0 entonces vj+1 será combinación lineal por elementos de {v1 , . . . , vj }, lo cual es
falso por la independencia de todos los vi . Se concluye la existencia de un µk 6= 0 con j + 1 ≤ k ≤ m.
Por lo tanto, tras un reordenamiento de los wj+1 , . . . , wm es posible suponer que k = j + 1. Luego,
j m
1 X µk X µk
wj+1 = vj+1 − vk − wk ,
µj+1 µj+1 µj+1
k=1 k=j+2

9
Capítulo 1. Álgebra lineal y geometría analítica.

con lo cual se concluye que los vectores v1 , . . . , vj+1 , wj+2 , . . . , wm generan a V . Como a los más puede
haber un número finito m de pasos, el lema queda concluído.
( 1.2.11 ) Sean B1 y B2 dos bases del espacio vectorial real V . Si card (B1 ) < ∞ entonces card (B1 ) = card (B2 ) .
En particular, cuando un espacio vectorial posee una base la cual es finita entonces todas sus bases son finitas y
poseen la misma cardinalidad.
Esto es una consecuencia directa del lema de Steinitz. En efecto, se pone B1 = {v1 , . . . , vm } y
B2 = {u1 , . . . , un }. Luego, el conjunto {un , v1 , . . . , vm } es linealmente dependiente, existe entonces un
primer elemento que es combinación lineal de los precedentes, evidentemente no puede ser un , pues
por ser B2 una base un 6= 0. Ahora, sea vi un vector que es combinación lineal de los precedentes, por
lo que
{un , v1 , . . . , vi−1 , vi+1 , . . . , vm }
sigue generando a V y tiene cardinalidad m. Se agrega un−1 a este conjunto, de nuevo, hay un primer
elemento que es combinación lineal de los precedentes, tal elemento no puede ser ni un−1 ni un , luego
tiene que ser algún vj . Luego,
{un−1 , un , b1 , . . . , bm } \ {bi , bj }
sigue generando a V . Se continúa de este modo, no puede ocurrir que antes de n iteraciones hayan
sido agotados todas las br pues entonces el conjunto {u2 , . . . , un } generaría a V , lo cual es falso pues
u1 es linealmente independiente de ellos. Por lo tanto, hay al menos tantos br como us , es decir n ≤ m.
Procediedo de manera análoga también se puede concluir que m ≤ n.
( 1.2.12 ) Sea V un espacio vectorial real. Si V posee una base con un número finito de elementos entonces se
dirá que V es de dimensión finita. Al número común de elementos que poseen todas las bases de V se le llamará
dimensión de V . En el caso en el que en V no exista ninguna base finita se dirá que V posee dimensión infinita3 .
( 1.2.13 ) Sea V un espacio vectorial real tal que B2 es un conjunto generador finito de él. Si B1 ⊂ B2 es
linealmente independente y no es generador entonces existen vectores en B2 , que no están en B1 , tales que al
agregarlos a B1 hacen de este una base.
Existe un elemento en B2 que no es generado por B1 , se agrega a B1 . Al agregar a B1 este elemento
se preserva la independencia lineal. Se repite el algoritmo. Este algoritmo termina pues B2 es finito. El
conjunto resultante es base pues genera a B2 y este último genera a V .
A continuación el teorema más importante, quizá, del álgebra lineal.
( 1.2.14 ) Todo espacio vectorial real posee una base. Más específicamente, dado cualquier conjunto linealmente
independente B del espacio vectorial V , puede agragarse a B tantos elementos como sea necesario para que B se
convierta en base de V .
Consideramos A el conjunto de todos los subconjuntos de V que son linealmente independientes y
que contienen a B. El Lema de Zorn (ve [9] y [24]) muestra que existe un conjunto maximal M en A .
Por ser M un elemento de A entonces B ⊂ M. Además, como M ∈ A , es linealmente independente.
Para concluir basta demostrar que M es generador. Se supone que hay un elemento en V que no es
generado por M, sea v un tal elemento. Entonces, M ∪ {v} contiene propiamente a M y es linealmente
independente, lo cual es una contradicción. Por lo tanto, todo elemento en V es generado por M.
( 1.2.15 ) Sea W ⊂ V un subespacio vectorial del espacio V . Entonces, dim W ≤ dim V .
Como W posee una base según (1.2.14), si tal base posee más elementos que dim V entonces puede
agrandarse aún más para obtener una base de V , lo cual es una contradicción. Observa que no se utilizó
ninguna hipótesis de dimensiones finitas.
3 El espacio vectorial V = {0} se conoce como espacio vectorial trivial. Su base es, por definición ∅ y por tanto tiene dimensión

cero.

10
1.2. Un repaso de álgebra lineal.

( 1.2.16 ) Demuestra que si S es como en (1.2.7) entonces no es base de R4 .


La manera de hacer esto es exhibir un vector v de R4 tal que S ∪ {v} sea linealmente independiente,
esto es, un vector v que no es combinación lineal de los elementos de S. Usemos un vector lo más
sencillo posible. Sea v = (1, 0, 0, 0), se verá que S ∪ {v} es linealmente independiente. Para que esto sea
cierto es necesario y suficiente que


 a + 3b + d = 0
2a − b − c = 0


 a + 5b − c = 0
3a + 2b + c = 0

implique a = b = c = d = 0. Se utilizará el método de “Gauss-Jordán” para resolver el sistema. Se resta


dos veces la primera ecuación de la segunda, una vez a la tercera y tres veces a la cuarta, se obtiene


 a + 3b + d = 0
− 7b − c − 2d = 0

.

 + 2b − c − d = 0
− 7b + c − 3d = 0

Ahora, a la tercera ecuación se multiplica por siete y se le suma el doble de la segunda. A la cuarta se
le resta la segunda: 

 a + 3b + d = 0
− 7b − c − 2d = 0

.

 − 9c − 11d = 0
2c − d = 0

Finalmente, se multiplica por nueve la cuarta ecuación y se le suma el doble de la tercera:




 a + 3b + d = 0
− 7b − c − 2d = 0

.

 − 9c − 11d = 0
− 31d = 0

Es claro ahora que d = c = b = a = 0. Por lo tanto, S ∪ {v} es linealmente independiente. De donde, S


no es base de R4 .
( 1.2.17 ) Dado un conjunto S de un espacio vectorial V se define el espacio generado por S (o la «envolvente
lineal» de S) como sigue:
( n )
X
lin hSi = ai vi : n ∈ N, a1 , . . . , an ∈ R, v1 , . . . , vn ∈ S .
i=1

Esto es, el conjunto de todas las combinaciones lineales4 de elementos de S.

Observación: Es fácil verificar que S es subespacio vectorial, lo cual queda a título de ejercicio para
el lector. Nota que la definición anterior incluye los casos en donde S es infinito.
( 1.2.18 ) Sea V un espacio vectorial real y S ⊂ V . Entonces lin hSi es el menor5 espacio vectorial que contiene
a S.
4 Que por definición son sumas finitas.
5 Aquí se entenderá menor respecto al «orden parcial» de contención. Dicho de otro modo, si A, B son subconjuntos de V
entonces A es menor, respecto de este orden, que B si A ⊂ B.

11
Capítulo 1. Álgebra lineal y geometría analítica.

Como lin hSi es espacio vectorial, resta verificar que es el menor que contiene a S. Supón entonces
que A es otro espacio vectorial que contiene a S. Sea v ∈ lin hSi , existen n ∈ N y a1 , . . . , an ∈ R y
n
X
v1 , . . . , vn ∈ S tales que v = ai vi . Pero como cada vi ∈ A y A es espacio vectorial, v ∈ A. En virtud
i=1
de esto, lin hSi ⊂ A.
( 1.2.19 ) Sea V un espacio vectorial real. Entonces lin hV i = V .
Evidentemente V ⊂ lin hV i , pues, por definición, S ⊂ lin hSi para cualquier S ⊂ V . Por otro lado,
lin hV i es el menor subespacio vectorial que contiene a V , pero V es un subespacio vectorial que contiene
a V , por lo tanto lin hV i ⊂ V .
( 1.2.20 ) Sean U y V espacios vectoriales reales arbitrarios. Se cumple que dim(U × V ) = dim U + dim V .
Para empezar se recuerda que el espacio U ×V = {(u, v) : u ∈ U, v ∈ V } es espacio vectorial real con
la suma y producto por escalar definido como sigue. Dado a ∈ R se define a(u, v) = (au, av) y dados
(u, v), (s, t) ∈ U × V se define (u, v) + (s, t) = (u + s, v + t). Sean {ui : i = 1, . . . , m} y {vi : i = 1, . . . , n}
bases de U y V , respectivamente. ¿Quién podría ser una base de U × V ? Lo más natural es pensar
que B = {(ui , vj ) : i = 1, . . . , m, j = 1, . . . , n} es base, un segundo de reflexión hará notar que han sido
seleccionados demasiados elementos. Se define B como {(ui , 0), (0, vj ) : i = 1, . . . , m, j = 1, . . . , n}, se
demostrará que B es base.
Primero se demostrará que B genera U × V . Sea (u, v) ∈ U × V entonces
Ñ é ! Ñ n é
m
X Xn Xm X
(u, v) = ai ui , bj vj = ai ui , 0 + 0, bj vj
i=1 j=1 i=1 j=1
m
X n
X
= ai (ui , 0) + bj (0, vj ).
i=1 j=1

De este modo, B genera a U × V .


n+m
X
Se demostrará ahora la independencia lineal de B. Sean λ1 , . . . , λn+m tales que λi bi = 0, donde
i=1
ß
(ui , 0) si i = 1, . . . , m
bi =
(0, vi−m ) si i = m + 1, . . . , n + m.

De este modo,
n+m
X m
X m+n
X m
X n
X
λi bi = λi bi + λj bj = λi (ui , 0) + λj+m (0, vj )
i=1 i=1 j=m+1 i=1 j=1
Ñ é
Xm n
X
= λi u i , λj+m vj = (0, 0).
i=1 j=1

La ultima igualdad ocurre si y solo si ocurre a coordenadas. Dado que los conjuntos {ui }, {vj } son bases
de U y V , respectivamente, se tiene que λi = 0 para cada i. Con esto, dim(U × V ) = dim U + dim V .
( 1.2.21 ) La dimensión de R es 1: dim R = 1. Por lo tanto, dim Rn = n.
Cualquier
y  elemento no nulo genera a R; en efecto, si x, y son elementos de R con x no nulo entonces
y
y= × x, aquí juega el papel de un escalar.
x x

12
1.2. Un repaso de álgebra lineal.

z 1.2.3 Transformaciones lineales.


Para terminar este corto repaso de álgebra lineal se definene las transformaciones lineales.
( 1.2.22 ) Sea L : V → W , donde V y W son espacios vectoriales reales. Se dirá que L es transformación lineal
si para todo u, v ∈ V y a ∈ R se cumple que

L(u + v) = L(u) + L(v) (aditiva)

y
L(av) = aL(v) (homogénea).
En tal caso se usa la notación abreviada Lv para L(v). Al conjunto de las transformaciones lineales de V a W se
le denotará por Lin (V , W ) .
Es inmediato que Lin (V , W ) también es un espacio vectorial con la suma y producto por escalar
definidos como antes.
Al hablar de transformación lineal es forzoso hablar de su núcleo y de su recorrido.
( 1.2.23 ) Dada una transformación lineal L : V → W se define su núcleo6 como el conjunto de vectores en su
dominio que se mapean al cero:
Nuc (L) = {v ∈ V |Lv = 0}.
Del mismo modo, se define su recorrido7 como el conjunto de vectores para los cuales existe un vector en el
dominio que se mapea a este:
Ran (L) = {w ∈ W |∃v ∈ V , Lv = w}.
Una consecuencia sencilla de la definición continúa.
( 1.2.24 ) Una condición necesaria y suficiente para que una transformación lineal sea inyectiva es que su núcleo
sea el conjunto {0}.
Una transformación lineal L es inyectiva si Lu = Lv Ñ u = v. Se observa que cualquier transfor-
mación lineal mapea el cero al cero. En efecto, 0 + 0 = 0 entonces L0 = L(0 + 0) = L0 + L0, por lo que
L0 = 0. Se supone que L es inyectiva. Entonces, Lv = Lu Ñ v = u, de donde, Lv = 0 = L0 Ñ v = 0.
Por lo tanto, Nuc (L) = {0}. Recíprocamente, si Nuc (L) = {0}, sean u, v ∈ V entonces

Lu = Lv ⇔ L(u − v) = 0 ⇔ u − v ∈ Nuc (L) ,

pero Nuc (L) = {0}, así u − v = 0 y, por lo tanto, u = v. Esto implica que L es inyectiva.
Ahora se muestra una relación íntima entre transformaciones lineales y dimensión. Se observa que
el kernel y la imagen siempre son subespacios vectoriales. Se deja de ejercicio verificar esto (ejercicio
(1.8)).
( 1.2.25 ) Sea L : U → V una transformación lineal entre espacios vectoriales reales de dimensión finita. Entonces,
dim U = dim Nuc (L) + dim Ran (L) ; el «teorema de la dimensión».
La idea detrás de esta demostración consiste en dar una base de U como elementos de una base de
Nuc (L) y una base de Ran (L) . Como Nuc (L) es subespacio de U, tiene dimensión finita. Análogamente,
Ran (L) tiene dimensión finita. Sean {u1 , . . . , ur } ⊂ U, {v1 , . . . , vs } ⊂ V bases de Nuc (L) e Ran (L) ,
respectivamente. Existen w1 , . . . , ws ∈ U tales que Lwi = vi para i = 1, . . . , s. Se demostrará que
B = {ui : i = 1, . . . , r} ∪ {wj : j = 1, . . . , s} es base de U. Entonces, hay que demostrar que B es conjunto
generador de U y que es linealmente independiente.
6 También llamado «kernel» de la transformación.
7 También llamado la «imagen» de la transformación.

13
Capítulo 1. Álgebra lineal y geometría analítica.

Se verá primero que B es un conjunto generador. Sea v ∈ U, existen a1 , . . . , as tales que Lv =


s
X s
X s
X
ai vi , pues vi es base de Ran (L) . Se considera u = ai wi − v, de este modo Lu = ai Lwi − Lv =
i=1 i=1 i=1
s
X r
X
ai vi − v = 0. Por lo tanto, u ∈ Nuc (L) . Con lo cual, existen b1 , . . . , br tales que u = bi ui . Pero
i=1 i=1
s
X s
X r
X
u= ai wi − v, se tiene que v = ai wi − bi ui . Con esto ha sido demostrado que B genera U.
i=1 i=1 i=1
r
X s
X
Se verá ahora que B es linealmente independiente. Sea ai u i + bi wi = 0, esta combinación es
i=1 i=1
la trivial; en efecto, aplicando L a la ecuación anterior se ve que
r s
!
X X
L ai ui + bi wi = 0
i=1 i=1

r
X s
X
y como L es lineal, ai Lui + bi Lwi = 0, y al ser {ui : i = 1, . . . , r} base del núcleo de L, se ve
i=1 i=1
s
X
que bi vi = 0. Como {vi : i = 1, . . . , s} es base de Ran (L) , cada bi = 0. Por lo tanto, la combinación
i=1
r
X
original se reduce a ai ui = 0. Al ser {ui } base de Nuc (L) , se concluye que cada ai = 0. Por lo tanto,
i=1
la combinación lineal es la trivial y el conjunto B es linealmente independiente. Esto prueba que B es
base de U y, por lo tanto, dim U = dim Nuc (L) + dim Ran (L) .

§ 1.3. El determinante de una transformación lineal.


En esta sección se estudiará a la función determinante y se verán algunas de sus principales pro-
piedades. Para poder estudiar al determinante es forzoso hablar de grupo y de permutación, por ende,
esta sección puede ser omitida en caso de conocer la función determinante o bien, si es la primera
lectura de este texto.

z 1.3.1 El grupo de permutaciones.


Se supone que se tienen 3 puntos P1 , P2 y P3 en R2 tales que ellos tres determinan un triángulo
equilátero. Si σ : {1, 2, 3} → {1, 2, 3} es una biyección entonces Pσ(1) , Pσ(2) y Pσ(3) determinan el mismo
triángulo equilátero. Puede suceder que alguna propiedad que no sea clara en el triángulo P1 P2 P3 sea
evidente en el triángulo Pσ(1) Pσ(2) Pσ(3) , por ende se generaliza esto.

( 1.3.1 ) Sea G un conjunto y · : G × G → G una función tal que:

1. Es asociativa; para cualesquier g, h, k ∈ G, se tiene que (g · h) · k = g · (h · k).

2. Posee un neutro; existe e ∈ G tal que e · g = g · e = g.

3. Posee inversos; para cada g ∈ G existe un h ∈ G tal que g · h = h · g = e.

Al par (G, ·) se le llama grupo. Por notación, se escribirá gh en lugar de g · h.

14
1.3. El determinante de una transformación lineal.

( 1.3.2 ) Sea (V , +, ·) un espacio vectorial real. Entonces (V , +) es un grupo.

Lo cual se sigue directamente de la definición (1.2.1).

( 1.3.3 ) Dado un grupo (G, ·), si e es un neutro para ·, es el único neutro; esto mismo ocurre para los inversos,
esto es, todo elemento tiene un único inverso.

Estas y otras propiedades que se verifican directamente de la definición serán encontradas en los
ejercicios (antes de continuar resuelve el ejercicio (1.40)).
Un grupo (también llamado estructura de grupo) consta de dos partes, un conjunto y una operación.
Cambiando la operación, podría suceder que el conjunto siga teniendo estructura de grupo con la nueva
operación, por ende, a veces se utilizarán las frases menos ambiguas “sea G el grupo con la operación
·” y “sea u el neutro para · en G”, etcétera.
Como nuestra intención es hablar de permutaciones, a contiuación son definidas.

( 1.3.4 ) Sea σ : {1, . . . , n} → {1, . . . , n} una función biyectiva. Entonces se dirá que σ es una permutación en
n elementos. Al conjunto de las permutaciones en n elementos se le denota por Sn .

( 1.3.5 ) La cardinalidad de Sn es n!

En efecto, se aplicará una técnica de conteo básica. Se observa que si se manda 1 a cualquiera de
los n elementos entonces a 2 se le puede mandar a cualquiera de los n − 1 (pues toda permutación
debe ser biyección) restantes, a 3 a n − 2 elementos, y así sucesivamente, hasta que a n solo se le puede
mandar al último elemento no usado. Por ende, card (Sn ) = n!, como se afirmó.

( 1.3.6 ) El conjunto Sn con la composición forma un grupo. A tal grupo se le llama el grupo simétrico (en n
elementos).

En efecto, se sabe que si σ ∈ Sn entonces σ −1 ∈ Sn , además la función ISn (k) = k para k = 1, . . . , n


está en Sn . Y, dado que la composición de funciones es asociativa, ha sido demostrado que si en Sn se
considera la composición de funciones entonces Sn obtiene estructura de grupo.

( 1.3.7 ) En Sn existen funciones especiales llamadas transposiciones. Sean 1 ≤ i < j ≤ n. La función τ ∈ Sn tal
que 
 k si k ∈/ {i, j}
τ(k) = i si k = j
j si k = 1

será llamada transposición de i con j. Es destacable que ISn no es una trasposición y que si τ ∈ Sn es una
trasposición entonces τ 2 = ISn , entonces las transposiciones en Sn con la operación composición no forman un
grupo.

En general, si σ ∈ Sn es una permutación entonces se escribirá


Å ã
1 2 ··· n
σ= ,
σ(1) σ(2) · · · σ(n)

con esto, el producto en Sn (que es la composición de funciones), puede ser realizado de manera sencilla.
Por ejemplo, Å ãÅ ã Å ã
1 2 3 1 2 3 1 2 3
= .
2 1 3 3 1 2 3 2 1
Para obtener el producto se observa que en la permutación derecha 1 7Ï 3 y en la izquierda 3 7Ï 3, por
ende, en el producto 1 7Ï 3.

15
Capítulo 1. Álgebra lineal y geometría analítica.

Un concepto relacionado con el de permutación es el de signo. Si σ ∈ Sn , se dirá que σ tiene una


inversión si en la segunda fila de representación matricial de σ existe i < j tal que σ(j) antecede a σ(i).
Entonces, por ejemplo, Å ã
1 2 3
σ=
2 3 1
tiene dos inversiones pues 1 < 2 pero en la segunda fila dos antecede a uno, mismo para uno y tres.
( 1.3.8 ) Toda trasposición tiene un número impar de inversiones.
Si τ ∈ Sn es una trasposición, existe i < j tal que
Å ã
1 ··· i − 1 i ··· j j +1 ··· n
τ= .
1 ··· i − 1 j ··· i j +1 ··· n
Como τ fija 1, . . . , i − 1 no hay inversiones, mismo para j + 1, . . . , n. Las inversiones de τ son entonces
(i, k), k = i + 1, . . . , j y (k, j), k = i, . . . , j − 1. Como se está considerando dos veces la inversión (i, j) se
ve que el número de inversiones en τ es [j − i] + [j − 1 − (i − 1)] − 1 = 2j − 2i − 1, que es un número
impar.
( 1.3.9 ) Sea σ ∈ Sn . Se define el signo de σ por sgn (σ) = 1 si el número de inversiones en σ es par y como
sgn (σ) = −1 si su número de inversiones es impar. En este caso, se dirá que σ es par o impar según sgn (σ) = 1
o sgn (σ) = −1, respectivamente.
( 1.3.10 ) Toda trasposición en Sn es impar.
A continuación se afirma que si se considera a sgn como una función entonces ésta es multiplicativa
en el conjunto de las trasposiciones. Esto tiene como consecuencia que el determinante también es
una función multiplicativa. Para demostrar este resultado se verá primero que todo elemento en Sn es
producto de transposiciones.
( 1.3.11 ) Sean n > 1 y σ ∈ Sn . Existe un k ∈ N y τ1 , . . . , τk transposiciones en Sn tales que σ = τk τk−1 · · · τ1 .
Se procede por inducción matemática8 . Sea H el conjunto de los número naturales n tales que toda
permutación en Sn+1 se factoriza por transposiciones de Sn+1 9 . Como S2 consta únicamente de dos
elementos podemos ver que uno de ellos es una trasposición τ y el otro la identidad. Evidentemente,
τ ya está factorizada por transposiciones, y como τ 2 = IS2 , se ve que todo elemento en S2 se factoriza
por transposiciones. De este modo, 1 ∈ H .
Se supone ahora que existe un n − 1 ∈ H ; esto es, todo elemento en Sn se factoriza por transposi-
ciones.
Sea σ ∈ Sn+1 , existe un k tal que σ(k) = n + 1. Surgen dos casos, primero, si k = n + 1 entonces
σ ∈ Sn y por inducción puede factorizarse

{1,...,n}

σ = τkn · · · τ1n ,

{1,...,n}

8 En matemáticas la inducción es un propiedad de los números naturales. Esta suele probarse en textos dedicados a la lógica

y conjuntos, ve los textos [9] y [24]. Aquí se enuncia para evitar posibles confusiones.
( 1.3.12 ) Sea P(n) una propiedad arbitraria que depende de n ∈ N y se supone que H ⊂ N es el conjunto de los n tales que P(n)
es cierto. Si
1. 1 ∈ H ,
2. n ∈ H Ñ n + 1 ∈ H
se puede concluir que H = N.
Es decir, para poder probar que la propiedad cierta para todo natural, se tiene que demostrar que la propiedad es cierta para
1 y que cada vez que sea cierta para un n arbitrario entonces será cierta para n + 1.
9 Recuerda que S consta de 1! = 1 elementos, la identidad, por ende, no puede factorizarse por transposiciones de S .
1 1

16
1.3. El determinante de una transformación lineal.

donde τin ∈ Sn . Se extiende τin a τi ∈ Sn+1 por


ß
n+1 si j =n+1
τi (j) = .
τin (j) si j 6= n + 1

Claramente, τi sigue siendo una trasposición y σ = τk · · · τ1 . El segundo caso es que k 6= n + 1. Se define


Å ã
1 ··· k ··· n + 1
τ1 = ,
1 ··· n + 1 ··· k

entonces τ es una trasposición. Se observa que στ1 (n + 1) = σ(k) = n + 1. Pero por el caso recién
demostrado,
στ1 = τk · · · τ2 ,
para algunos τi ∈ Sn+1 . Entonces, σ = στ12 = τk · · · τ1 , mostrando que n + 1 ∈ H y, por inducción,
H = N.
( 1.3.13 ) Si σ = τk · · · τ1 entonces σ −1 = τ1 · · · τk .
Esto puede verificarse al hacer el producto y recordar que τ 2 es la identidad para cualquier trans-
posición τ.
( 1.3.14 ) Sean σ ∈ Sn arbitrario y τ ∈ Sn una trasposición. Entonces sgn (τσ) = −sgn (σ) .
Se supone que que τ permuta r < s y que σ(i) = r, σ(j) = s. Entonces
Å ã
1 ··· r ··· s ··· n
τσ = .
σ(1) · · · σ(j) · · · σ(i) · · · σ(n)

Antes de σ(j) la trasposición τ no genera nuevas inversiones y lo mismo para después de σ(i), además,
entre σ(j) y σ(i) no hay nuevas inversiones. Solo resta contar el número de inversiones que se generaron
con el cambio de σ(i) con σ(j). Se supone que entre σ(j) y σ(i) hay p1 números más grandes que s y p2
más pequeños. Al permutar σ(i) con σ(j) se ve que σ(j) genera p2 inversiones pero quita p1 . Del mismo
modo, hay p2 + p3 elementos más grandes que r entre σ(j) y σ(i) y p1 − p3 más pequeños. Al aplicar τ
se ve que σ(i) genera p2 + p3 inversiones pero elimina p1 − p3 inversiones. Luego, contando la inversión
de σ(i) con σ(j), se ve que el número de inversiones nuevas es

[p2 − p1 ] + [p2 + p3 − (p1 + p3 )] + 1 = 2p2 − 2p1 + 1,

por lo tanto, el número de inversiones que genera τ es impar y con esto, sgn (τσ) = −sgn (σ) .
( 1.3.15 ) Sean σ, ρ ∈ Sn . Entonces sgn (σρ) = sgn (σ) sgn (ρ) .
Se puede factorizar σ en producto de transposiciones. Entonces se cumple que σρ = τk · · · τ1 ρ.
Aplicando reiteradamente el teorema anterior (o, más formalmente, utilizando inducción), se ve que

sgn (σρ) = −sgn (τk−1 · · · τ1 ρ) = sgn (τk−2 · · · τ1 ρ)


= . . . = (−1)k sgn (ρ) = sgn (σ) sgn (ρ) .

Concluyendo el resultado deseado.


( 1.3.16 ) Para cualquier σ ∈ Sn se cumple que sgn σ −1 = sgn (σ) .


Basta ver que si τ es una transposición entonces sgn (τ) = sgn τ −1 , pero como τ −1 también es

transpocisión se concluye que, ve (1.3.10), es cierto.

17
Capítulo 1. Álgebra lineal y geometría analítica.

z 1.3.2 El determinante de una matriz.


Antes de pasar a la definición de determinante de una transformación lineal habrá que dar primero
la definición para matrices cuadradas. Se recuerda que una matriz A es un arreglo rectangular de
números:  
a11 · · · a1n
A =  ... .. ..  .

. . 
am1 ··· amn
En este caso se dirá que A es una matriz de m filas por n columnas y se denotará por A = (ai,j ) i=1,...,n .
j=1,...,m
Más abreviadamente, se dirá "Sea A una matriz de m por n y A = (ai,j )". Si m = n se dirá que A es
una matriz cuadrada de orden n. Al conjunto de matrices de m por n se le denota como Matm×n (R) .
Si A = (ai,j ), B = (bi,j ) ∈ Matm×n (R) entonces para λ ∈ R se define A + λB = (ai,j + λbi,j ), con esto,
Matm×n (R) es un espacio vectorial real. Es fácil verificar que si Ei,j = (δi,j ) la matriz con entradas cero
en todas salvo la posición (i, j) que vale uno entonces el conjunto {Ei,j : i = 1, . . . , m, j = 1, . . . , n} es
una base para Matm×n (R) , a este conjunto se le llama «base canónica» de Matm×n (R) .
( 1.3.17 ) Sea A ∈ Matn×n (R) dada por A = (aij ). Se define el determinante de A por
X
det A = sgn (σ) a1σ(1) · · · anσ(n) .
σ∈Sn
ï ò
a b
( 1.3.18 ) Si A = [a] es una matriz de uno por uno entonces det A = a, si ahora A = entonces
c d
det A = ad − bc.
ï ò
a11 a12
Para verificar esta última igualdad considera A = y S2 = {IS2 , τ}. Entonces
a21 a22
det A = a1IS2 (1) a2IS2 (2) + sgn (τ) a1τ(1) a2τ(2) = a11 a22 − a12 a21 ,
sustituyendo a11 = a, a12 = b, a21 = c y a22 = d se obtiene la fórmula anterior.
Como Sn consta de n! elementos, la definición de determinante para una matriz de orden n involucra
n! sumandos. Es por esta razón que su cálculo se vuelve rápidamente dificultoso. Por ejemplo, para
n = 3, el número de sumandos es 3! = 6 y cada uno de estos sumandos es la multiplicación de tres
números. La siguiente tabla da una idea de cuán rápido crecen los cálculos en un determinante:
n Total de sumas: n!
1 1
2 2
3 6
4 24
5 120
6 720
7 5,040
8 40,320
9 362,880
10 3’628,800
Por ende, calcular un determinante de orden 100 ya es prácticamente imposible, incluso para una
computadora. Por esta razón se vuelve una necesidad desarrollar técnicas para facilitar sus cálculos.
A continuación se expone algunas propiedades básicas del determinante las cuales sirven para facilitar
sus cálculos.

18
1.3. El determinante de una transformación lineal.

( 1.3.19 ) Sea A = (ai,j ) una matriz cuadrada de orden n. Entonces det A = det At , donde At denota la matriz
transpuesta10 de A.

Se observa que
n
Y n
Y n
Y
ak,σ(k) = aσ −1 (σ(k)),σ(k) = aσ −1 (k),k ,
k=1 k=1 k=1

pues σ es biyección del conjunto {1, . . . , n} en sí mismo.


Luego, usando (1.3.16)

X n
Y X n
Y
det A = sgn (σ) ak,σ(k) = sgn σ −1 aσ −1 (k),k .
σ∈Sn k=1 σ∈Sn k=1

Pero cuando σ recorre todo Sn también σ −1 , se ve que

X n n
Y X Y
sgn σ −1 aσ −1 (k),k = sgn (ξ) aξ(k),k .
σ∈Sn k=1 ξ∈Sn k=1

Pero si At = (bi,j ) entonces bi,j = aj,i , de donde,

X n
Y X n
Y
t
det A = sgn (ξ) bk,ξ(k) = sgn (ξ) aξ(k),k ,
ξ∈Sn k=1 ξ∈Sn k=1

mostrando esto que det A = det At .

( 1.3.20 ) Sean A un matriz cuadrada y B obtenida de A al intercambiar dos columnas distintas de A. Entonces
det A = − det B.

Sea τ la trasposición que intercambia los dos número correspondientes a las columnas que se
intercambian en A para obtener B. Si A = (ai,j ) y B = (bi,j ), se ve que bi,j = ai,τ(j) . Con esto, se concluye
que biσ(i) = ai,σ(τ(i)) . Como sgn (στ) = −sgn (σ) , se ve que

X n
Y X n
Y
det B = sgn (σ) bk,σ(k) = −sgn (στ) ak,σ(τ(k)) = − det A,
σ∈Sn k=1 σ∈Sn k=1

pues al recorrer σ el conjunto Sn también lo recorre τσ.

( 1.3.21 ) Si una matriz cuadrada A tiene dos columnas idénticas entonces su determinante es cero.

Pues al permutarlas se obtiene la misma matriz A, pero de acuerdo al teorema anterior, el signo
del determinante debe cambiar.

( 1.3.22 ) Los dos teoremas previos son ciertos si en lugar de ser columnas son filas.

Lo cual se sigue directamente de (1.3.19).

( 1.3.23 ) Si A es una matriz triangular11 entonces det A es el producto de los elementos en la diagonal de A.
10 Serecuerda que si A = (ai,j ) es una matriz de m por n entonces At es la matriz de n por m tal que su entrada (j, i) es ai,j .
11 Sedirá que la matriz A = (ai,j ) está dispuesta en forma «triangular inferior» si ai,j = 0 para i < j, y en forma «triangular
superior» si ai,j = 0 siempre que i > j. En caso que A sea triangular inferior o triangular superior se dirá que A es triangular.

19
Capítulo 1. Álgebra lineal y geometría analítica.

Como det A = det At basta demostrar el caso cuando A es triangular inferior. Sea σ ∈ Sn una
permutación tal que σ(1) 6= 1 entonces σ(1) > 1, pero a1,σ(1) = 0, por ende, todos los sumandos de det A
para los cuales σ(1) 6= 1 son cero. Luego, σ(1) = 1. Del mismo modo, σ(2) 6= 2 implica σ(2) > 2 pues
σ(1) = 1, y el mismo argumento muestra que todos los sumandos en det A para los cuales (σ(1), σ(2)) 6=
(1, 2) son cero. Siguiendo este proceso se halla que todos los sumandos para σ 6= ISn son cero, por ende,

det A = sgn (ISn ) a1,ISn (1) · · · an,ISn (n) = a1,1 · · · an,n ,

como debía ser mostrado.

( 1.3.24 ) Sea det : Matn×n (R) → R dada por det(A) = det A. Entonces det es una función lineal en cada
columna de A. Mismo resultado para filas.

Se supone que la j-ésima columna de A toma la forma ai,j = bi,j + λci,j entonces

X n
Y
det A = sgn (σ) ak,σ(k)
σ∈Sn k=1
Ñ é
X n
Y n
Y
= sgn (σ) akσ(k) bk,σ(j) + λ ak,σ(k) ck,σ(j) ,
σ∈Sn k=1,k6=j k=1,k6=j

mostrando la linealidad de det en cada columna de A. Por der det A = det At el mismo resultado vale
para filas.

( 1.3.25 ) Si A posee una fila o una columna de ceros entonces det A es cero.

Pues el determinante es una función lineal de dicha fila o columna y como toda transformación
lineal en el cero vale cero se obtiene el resultado.

( 1.3.26 ) Si A es una matriz cuadrada entonces det A no cambia su valor si en lugar de A se considera A0
donde A0 es obtenida de A al sumar un múltiplo de una fila (o columna) a otra fila distinta (columna distinta,
respectivamente).

Basta ver que el resultado es cierto para columna, se supone que A = [A1 , . . . , An ] en donde Ai es
la fila i-ésima de A. Entonces existe j 6= i y, sin peder generalidad, se supone que j < i; entonces A0 se
obtiene de A al sumar a la columna j-ésima de A el vector λAi . Luego,

A0 = [A1 , . . . , Aj−1 , Aj + λAi , Aj+1 , . . . , An ].

En virtud de (1.3.24) y de (1.3.21),

det A0 = det A + λ det[A1 , . . . , Aj−1 , Ai , Aj+1 , . . . , Ai , . . . , An ] = det A.

Lo que concluye lo afirmado.

( 1.3.27 ) Calcula el determinante de la matriz A dada por


 
1 −2 2 0 −1
2 1 −3 5 0
 
A=  −2 −1 3 1 2
4 0 −1 2 0
−1 −2 1 3 6

20
1.4. Geometría analítica en Rn .

Lo más fácil es tratar de realizar operaciones válidas para no alterar el valor del determinante y
que la matriz resultante sea triangular superior. Aplicando el método de Gauss-Jordán, queda que
 
1 −2 2 0 −1
0 5 −7 5 2
11 4 
 
det A = − det 
0 0 5 2 5 
0 0 0 −6 2 
56
0 0 0 0 11
Å ã
56
Y el determinante buscado es det A = (−11)(−6) = 336.
11

§ 1.4. Geometría analítica en Rn .


En esta sección se discutirá, rápidamente, los conceptos básicos de geometría analítica. Estos son
los de perpendicularidad, plano y recta.

z 1.4.1 Normas y perpendicularidad.


Se continúa con los conceptos relacionados con normas y perpendicularidad en Rn . Primero se
verá la definición producto interior y luego la de norma.
( 1.4.1 ) Sea (V , +, ·) un espacio vectorial real. Se dirá que la función h, i : V × V → R es un producto interno12
si satisface las siguientes propiedades:
1. hu, vi = hv, ui , simetría;
2. hu1 + λu2 , vi = hu1 , vi + λ hu2 , vi , linealidad en cada entrada;
3. hu, ui ≥ 0, definido positivamente;
4. hu, ui = 0 ⇔ u = 0, no degenerado.
( 1.4.2 ) Sea (V , +, ·) un espacio vectorial real. Se dirá que la función kk : V → R es una norma en V si dados
u, v ∈ V y λ ∈ R entonces
1. kuk ≥ 0, no negatividad;
2. kuk = 0 ⇔ u = 0, identificabilidad;
3. kλuk = |λ| kuk , homogeneidad absoluta;
4. ku + vk ≤ kuk + kvk , desigualdad triangular.
) Sea (V , +, ·) un espacio vectorial real. Se supone que en h, i es un producto escalar en V . Entonces,
( 1.4.3p
kvk = hv, vi define una norma en V .
Queda a cargo del lector demostrar las primeras tres propiedades de la definición (1.4.2). Aquí solo
se demostrará la cuarta propiedad. Para realizar esto empieza observando que

ku + vk ≤ kuk + kvk ⇔ ku + vk2 ≤ (kuk + kvk)2


⇔ hu + v, u + vi ≤ kuk2 + 2 kuk kvk + kvk2
⇔ hu, vi ≤ kuk kvk .
12 También llamado producto interior, producto punto o producto escalar, y también denotado como ·; esto es, hu, vi = u · v.

21
Capítulo 1. Álgebra lineal y geometría analítica.

Se demostrará la última desigualdad. Para hacer esto define la función f(λ) = ku + λvk2 , la cual es un
polinomio en λ; en efecto, de la definición de kk

f(λ) = λ 2 kvk2 + 2λ hu, vi + kuk2 .

Por lo tanto, f es un polinomio real de segundo grado el cual siempre es positivo. La geometría analítica
elemental muestra que su discriminante debe ser no positivo; esto es,

4 hu, vi2 − 4 kvk2 kuk2 ≤ 0,

que es la desigualdad deseada.


En la demostración previa dio lugar a una de las desigualdades más famosas del cálculo.
( 1.4.4 ) Sea (V , +, ·) un espacio vectorial real. Se supone que kk es una norma en V la cual deviene de un
producto escalar. Entonces, para cualesquier vectores u y v se cumple que

| hu, vi | ≤ kuk kvk ;

esta se conoce como la «desigualdad de Cauchy-Schwarz».


( 1.4.5 ) Sea d la distancia euclidiana en Rn . Entonces hX, Y i = d(X, Y )2 define un producto escalar en Rn . A
este producto escalara se le denomina «producto escalar estándar» en Rn . Cada vez que se haga referencia a un
producto escalar en Rn se deberá entender que es este, a menos que se mencione explícitamente otro.
Queda a título de ejercicio para el lector.
Ahora se define la noción de ortogonalidad. En R2 es fácil ver los ángulos entre vectores pues todos
se encuentran en un plano donde es fácil definirlo. En Rn se tiene algo más complicado. Se define
perpendicularidad en R2 con vectores y luego se generalizarán las ideas para Rn . Imagina dos vectores
en el plano, y se considera el triángulo con vértices A, B y −B, el cual es isóceles. Por lo tanto, una
condición necesaria y suficiente para que A sea perpendicular a B es que

kA − Bk = kA + Bk .

Elevando al cuadrado y expandiendo, la última igualdad es equivalente a

kAk2 − 2 hA, Bi + kBk2 = kAk2 + 2 hA, Bi + kBk2

de donde, se obtiene que en R2 el vector A es perpendicular al vector B si y solo si

hA, Bi = 0.

Pero esta relación no depende de la dimensión de R2 .


( 1.4.6 ) Sea (V , +, ·) un espacio vectorial real. Se supone que en V hay producto escalar h, i . Se dirá que dos
vectores en V son ortogonales si su producto escalar es cero.

Observación: es trivial verificar que si ei es el vector en Rn cuya i-ésima coordenada es uno y el


Xn
resto es cero entonces ei · ej = 0 para i 6= j. De esto es claro que si ai ei = 0 entonces ai = 0,
i=1
pues basta considerar el producto interior de ambos lados por el vector ei , puesto que ei · ei = 1. Más
generalmente, se tiene que el siguiente resultado,
( 1.4.7 ) Sea (V , +, ·) un espacio vectorial real con prodcuto escalar. Se supone que v1 , . . . , vk ∈ V son vectores
ortogonales a pares tales que ninguno de ellos es cero entonces el conjunto formado por ellos es linealmente
independiente.

22
1.4. Geometría analítica en Rn .

k
X
Observa que si ai vi = 0 entonces tomando el producto escalar en ambos lados por vj se ve que
i=1
aj vj · vj = 0. Como vj 6= 0 entonces vj · vj = kvj k2 > 0, con lo cual aj = 0. Por ende, a1 = . . . = ak = 0
como se quería.
Puesto que cuando se estudien planos en un espacio vectorial real será necesario hablar de espacios
ortogonales, esto se definen a continuación.
( 1.4.8 ) Sea V un espacio vectorial real con producto escalar y W ⊂ V un subespacio vectorial. Se define W ⊥
como el conjunto de los vectores en V que son ortogonales a todos los vectores de W .
( 1.4.9 ) Sea V un espacio vectorial con producto escalar definido positivamente y sea W un subespacio de V .
Entonces W ⊥ es un subespacio vectorial de V . A W ⊥ se le llamará el espacio ortogonal de W .
Se usará (1.2.5). Para empezar, 0 ∈ W ⊥ pues si w ∈ W entonces h0, wi = 0, porque la función
v 7Ï hv, wi es lineal. Sean a, b ∈ W ⊥ y λ ∈ R, para cualquier w ∈ W ,

ha + λb, wi = ha, wi + λ hb, wi = 0 + λ0 = 0.

Por lo tanto, W ⊥ 6= ∅ y a, b ∈ W , λ ∈ R Ñ a + λb ∈ W ⊥ , que es lo que se quería demostrar.

z 1.4.2 Rectas y planos en Rn .


En Rn es fácil definir rectas. Para empezar, en R2 una recta es un conjunto del tipo:

L = {(x, y) ∈ R2 |ax + by = c}

donde a, b, c ∈ R y a, b no pueden ser cero simultáneamente. Se puede expresar este hecho de manera
resumida: el vector (a, b) 6= (0, 0).
Lo importante es que se puede transformar la ecuación en L de la siguiente forma:

L = {X ∈ R2 |X = A + tB, t ∈ R},

donde A y B son dos vectores dados y B 6= 0. ¿Por qué esta forma? Recorda que tB es, precisamente,
todos los vectores sobre la recta que pasa por el cero y en dirección del vector B. Al sumarle A se
está trasladando la recta al punto específico A. La ventaja de esta notación es que no depende de la
dimensión.
( 1.4.10 ) Sean A y B dos vectores de un espacio vectorial V tales que B 6= 0. La recta que pasa por A en
dirección de B es
L = {v ∈ V : v = A + tB, t ∈ R}.
Si V = Rn y A = (a1 , · · · , an ), B = (b1 , · · · , bn ) y X = (x1 , · · · , xn ) entonces las ecuaciones xi = ai + tbi se
llaman ecuaciones paramétricas de la recta.
( 1.4.11 ) Encuentra las ecuaciones paramétricas de la recta L ⊂ R4 que tiene como elemento, o que pasa por,
al vector (1, −1, −1, 0) y tal que es paralela al vector (2, 0, 1, −1).
Por definición, la recta buscada es L = {X ∈ R4 : X = (1, −1, −1, 0) + t(2, 0, 1, −1), t ∈ R}. Por lo
tanto, las ecuaciones paramétricas de L son

x1 = 1 + 2t, x2 = −1, x3 = −1 + t, x4 = −t.

Es decir, si Xt denota la posición de la recta para t ∈ R dado entonces Xt = (1 + 2t, −1, −1 + t, −t).

23
Capítulo 1. Álgebra lineal y geometría analítica.

En la ecuación de una recta se deja variar libremente un parámetro, a saber, t. Esto es lo que da la
noción de un grado de libertad que posee la recta. Si una recta en Rn pasa por el origen entonces la
recta es un subespacio vectorial de dimensión uno. Con esto en mente es natural definir a un plano en
Rn como una figura geométrica plana que posea dos grados de dimensión. En otras palabras, un plano
es un espacio vectorial dos dimensional trasladado.
( 1.4.12 ) Sean A, B y C tres vectores en un espacio vectorial V tales que A y B son linealmente independientes.
El plano que pasa por el vector C y es paralelo al generado por A y B es

P = {v ∈ V : v = tA + sB + C, t, s ∈ R}.

Observa que los parámetros t y s están permitiendo que los puntos en P tengan dos grados de
dimensión. Resulta natural definir el plano de dimensión m que pasa por Q ∈ Rn (donde m ≤ n) como
el conjunto de puntos
Xm
v= ti A i + Q
i=1

donde las Ai son linealmente independientes y Q es un punto cualquiera de Rn . Pero el conjunto de


vectores que satisfacen esta última ecuación es el espacio solución al sistema de ecuaciones AX = 0
trasladado por el vector Q. Esto motiva la siguiente definición general.
( 1.4.13 ) Sean y A1 , . . . , Ak ∈ Rn vectores linealmente independientes y P ∈ Rn arbitrario. Sea A la matriz
con filas los vectores Ai . Entonces el espacio solución al sistema de ecuaciones AX = 0 trasladado por el vector
P se denomina variedad lineal de k dimensiones generada por los vectores Ai ; también se conoce por el nombre
de «plano k-dimensional» generado por los vectores Ai . A los vectores Ai se les llama base de la variedad. Cada
vector en la variedad se determina de manera única por un punto en Rk ; esto es, dado (x1 , . . . , xk ) ∈ Rk el punto
x1 A1 + . . . + xk Ak + P está en la variedad y recíprocamente, dado un vector X en la variedad existe un vector
(x1 , . . . , xk ) ∈ Rk tal que X = xi A1 + . . . + xk Ak + P. Al vector (x1 , . . . , xk ) se le llama coordenadas afines para
P, respecto a la base A1 , . . . , Ak . Dos variedades lineales cualesquiera se dicen paralelas si una se obtiene de la
otra por traslación.
La definición previa está dada únicamente para Rn puesto que su generalización a un espacio vec-
torial real V depende de pasar de antemano por las «coordenadas» de V .
( 1.4.14 ) Una condición necesaria y suficiente para que dos variedades lineales P1 = {X + P1 ∈ Rn : AX = 0}
y P2 = {X + P2 ∈ Rn : BX = 0} sean paralelas es que el espacio solución de AX = 0 y el espacio solución de
BX = 0 sean el mismo.
A manera de ejemplo sencillo se considera los planos coordenados de R3 . Cada uno de ellos es
generado por dos vectores canónicos. Por ejemplo, el plano que pasa por los dos primeros ejes es
aquel generado por los vectores e1 = (1, 0, 0) y e2 = (0, 1, 0), también es aquel generado por (1, 1, 0) y
(1, 0, 0).

z 1.4.3 Ángulo entre vectores.


Sean A y B dos vectores en un espacio vectorial, ¿cómo habría de definirse el ángulo que forman?
Antes de contestar esta pregunta, es importante preguntarse, ¿está definido tal ángulo? La respuesta
es que sí, dado que dos vectores generan un plano, tal ángulo se encontraría sumergido en el plano
generado. Según la ley de los cosenos de la geometría elemental, para T un triángulo con longitudes
de los lados a, b y c el coseno del ángulo γ determinado entre los lados de longitudes a y b viene dado
por
a2 + b2 − c2
cos γ = .
2ab

24
1.4. Geometría analítica en Rn .

Sean A y B dos vectores no nulos. Si A = λB entonces el ángulo medido desde A hasta B deberá ser
entonces cero si λ > 0 y π si λ < 0. Supón ahora que A y B son linealmente independientes. El ángulo
A B
generado por A y B es independiente de la longitud de A y de B. Sean  = y B̂ = lo «vectores
kAk kBk
normalizados» correspondientes
n a A y B y ose considera el
segmento
que va
del punto  al punto
B̂,
tal segmento es l = Â + t(B̂ − Â) t ∈ [0, 1] . Sean a = Â = 1, b = B̂ = 1 y c = B̂ − Â , las

longitudes de los lados del triángulo determinado por el origen y los vectores  y B̂. Por la ley de los
cosenos, el coseno ángulo determinado por los vectores  y B̂ es
2
2 − B̂ − Â

cos γ = .
2
Esto motiva la siguiente definición.
( 1.4.15 ) Sean A y B dos vectores no nulos. Si A = λB para algún λ se define el ángulo γ entre A y B como
γ = 0 si λ > 0 y como γ = π si λ < 0. En caso en que A y B sean linealmente independientes se define el
2
2 − Â − B̂

ángulo entre ellos como el único número γ ∈ (0, π) tal que cos γ = , donde  y B̂ son sus vectores
2
normalizados.

z 1.4.4 El producto vectorial.


Antes de continuar es necesario definir una herramienta que facilita el estudio de planos en R3 ,
esta es el producto vectorial. Sean v1 , . . . , vn−1 ∈ Rn vectores, sea L : Rn → R dada por L(w) es el
determinante de la matriz cuyas filas son v1 , . . . , vn−1 , w, en ese orden. Entonces L ∈ (Rn )∗ , el espacio
dual de Rn , ve el ejercicio (1.36) para mayores referencias. Por el ejercicio (1.36), existe un único vector
v(v1 , . . . , vn−1 ) ∈ Rn tal que L(w) = w · v.
( 1.4.16 ) Sean v1 , . . . , vn−1 ∈ Rn . Se define el producto vectorial de ellos como el único vector v tal que
L(w) = w · v para todo w ∈ Rn . A v lo se le denotará por v = v1 × · · · × vn−1 .
Es importante destacar que este “producto” depende de n−1 factores siempre que se esté trabajando
en Rn . Esto explica porque tal producto no aparece en R = R1 y porque algunos autores dicen que no
está definido si n 6= 3 (no es común tener un producto que dependa de más de dos factores).
( 1.4.17 ) Simbólicamente, en R3 el producto vectorial de A = (a1 , b1 , c1 ) y B = (a2 , b2 , c2 ) puede ser escrito
como  
e1 e2 e3
A × B = det a1 a2 a3  ,
b1 b2 b3
donde ei es el vector i-ésimo de la base canónica de R3 .
Esto es directo de la definición de determinante y de producto vectorial, por ende, queda ejercicio
al lector. (Considera la matriz (ai,j ) para i, j ∈ {1, 2, 3}, escriba el determinante como una suma en S3 y
factorice el vector (a3,1 , a3,2 , a3,3 )).
Las siguiente propiedades se verifican directamente de la definición. Por ende, quedan de ejercicio
al lector.
( 1.4.18 ) Sean A1 , . . . , An−1 , Ai0 vectores en Rn y λ ∈ R. Entonces:
1. σ ∈ Sn Ñ A1 × · · · × An = sgn (σ) Aσ(1) × · · · × Aσ(n) ;

25
Capítulo 1. Álgebra lineal y geometría analítica.

2. A1 × · · · × (Ai + λAi0 ) × · · · × An = A1 × · · · × Ai × · · · × An + λA1 × · · · × Ai0 × · · · × An ;


3. si Ai es paralelo a Aj con i 6= j entonces A1 × · · · × An = 0;
4. para cada i, Ai ⊥ A1 × · · · × An ;
5. si A1 , . . . , An−1 son linealmente independientes entonces A1 , . . . , An−1 y A1 × · · · × An = 0 son una base
de Rn .
En lo que sigue, sean u, v, w ∈ R3 , entonces:
6. ku × vk = kuk kvk sin γ, donde γ es el ángulo entre u y v.
7. u · (v × w) = v · (u × w);
8. u × (v × w) = (u · w)v − (u · v)w;
9. (u × v) × w = (u · w)v − (w · v)u;
»
10. ku × vk = kuk2 kvk2 − (u · v)2 .
Este producto en R3 sirve para calcular planos. Por ejemplo, si A, B son dos vectores linealmente
independientes entonces el plano que generan es P = {tA + sB|t, s ∈ R}. Se verifica que N = A × B
es ortogonal tanto a A como a B, por tanto, N es ortogonal a cualquier vector en el plano. Por ende,
N ⊥ , el conjunto de vectores ortogonales N, contiene al plano generado por A y B. Pero como A y B
son linealmente independientes, se ve que A, B y N son una base de R3 , por lo que dim lin hNi = 1 y
dim lin N = 2, mostrando que N ⊥ es el plano generado por A y B. En resumen

( 1.4.19 ) Sean A y B dos vectores en R3 linealmente independientes, el plano que ellos generan es (A × B)⊥ .
El plano que ellos generan es lin (A × B)⊥ , para concluir se debe mostrar que (A × B)⊥ es un


espacio vectorial. De hecho, se demostrará algo más general, sea v ∈ Rn cualquiera, v ⊥ el conjunto de
vectores ortogonales a v es un espacio vectorial. Basta ver que v ⊥ es un subespacio de Rn , pero 0 ∈ v ⊥
y si a, b ∈ v ⊥ y λ ∈ R entonces v · (a + λb) = v · a + λv · b = 0, mostrando que v ⊥ es espacio vectorial y
concluyendo el teorema.
A continuación una aplicación de esto en el siguiente ejemplo.
( 1.4.20 ) Sean A = (1, 0, −1) y B = (−1, 3, 0), encuentra el plano que estos vectores generan.
El plano que ellos generan es el conjunto de vectores X tales que A × B · X = 0. Pero,
 
e1 e2 e3
A × B = det  1 0 −1 = (−3, 1, −3),
−1 3 0
concluyendo que el plano generado por A y B es {(x, y, z) ∈ R3 : 3x − y + 3z = 0}.
Se considera ahora un plano en R3 definido por la ecuación N · X = c, donde c es constante y N 6= 0.
Si se divide por kNk se encuentra una ecuación de la forma U · X = p, donde U es unitario. El siguiente
teorema da una interpretación geométrica de esta ecuación.
( 1.4.21 ) Sean U ∈ Rn unitario, c ∈ R constante y P = {X ∈ Rn : U · X = c} una variedad lineal n − 1
dimensional en Rn . Entonces |c| es la distancia13 de P al origen.
Sea X = |c|U entonces U · X = U · |c|U = |c|, por lo que la distancia de P al origen es a lo mas
|c|. Recíprocamente, sea X ∈ P cualquiera, la distancia del origen a X es, por definición, kXk . Como
U es unitario, esto es igual a kXk kUk y por la desigualdad de Cauchy-Schwarz (1.4.4), |c| = kX · Uk ≤
kXk kUk , mostrando que la distancia de P al origen es al menos |c|. Por lo tanto, la distancia de P al
origen es |c|.
13 Esto se interpreta como el ínfimo de los número {kXk : X ∈ P}.

26
1.5. Ejercicios.

§ 1.5. Ejercicios.
Se recomienda que el lector resuelva todos los ejercicios presentados a continuación.
( 1.1 ) Se define la «distancia de Manhatan» entre dos vectores de Rn , X = (x1 , . . . , xn ) y Y = (y1 , . . . , yn )
mediante la fórmula
n
X
d(X, Y ) = |xi − yi |.
i=1

La «distancia de Manhatan» es una distancia como fue definido en (1.1.5).


El nombre de esta distancia proviene de la geometría de cualquier ciudad con cuadras uniformes. Para avanzar
en automóvil entre dos cruces de calles hay que avanzar dos unidades pues no hay modo de ir por la diagonal de
la cuadra.
( 1.2 ) Se define la «distancia del máximo» entre dos vectores de Rn , X = (x1 , . . . , xn ) y Y = (y1 , . . . , yn )
mediante la fórmula
d(X, Y ) = máx |xi − yi |.
1≤i≤n

La «distancia del máximo» es una distancia como fue definido en (1.1.5).


Esta distancia surge de manera natural al considerar, por ejemplo, un juego con 2 jugadores, los cuales tienen
que lanzar n dardos cada uno a una diana, la cual tiene una marca en su centro. Entonces gana el jugador que
haya acercado todos sus dardos más que el otro; es decir, se mide la distancia máxima que generó cada jugador
y gana el que haya hecho la menor de estas distancias.
( 1.3 ) Rn es un espacio vectorial real.
( 1.4 ) Sea V un espacio vectorial real. Entonces valen las siguientes impliaciones
1. ax = 0 Ñ a = 0 o x = 0;
2. ax = ay y a 6= 0 Ñ x = y;
3. x 6= 0 Ñ (ax = bx Ñ a = b).
( 1.5 ) Sea V un espacio vectorial real. Para todo S ⊂ V , lin hSi es un subespacio de V . Más aún, si S1 ⊂ S2
entonces lin hS1 i ⊂ lin hS2 i .
( 1.6 ) Cierto o falso: la unión de subespacios vectoriales es, a su vez, un subespacio vectorial.
( 1.7 ) Sean U, W dos subespacios vectoriales de V , para que U ∪ W sea subespacio vectorial de V es necesario
y suficiente que uno esté contenido en el otro.
( 1.8 ) Sea T : V → W una transformación lineal. Los conjuntos Nuc (T) e Ran (T) son sendos subespacios de
V y W.
( 1.9 ) La intersección de un número cualquiera de subespacios vectoriales es un subespacio vectorial.
( 1.10 ) Sean U y W dos subespacios vectoriales reales de V . Se define

U + W = {u + w : u ∈ U, w ∈ W },

el cual es subespacio de V .
( 1.11 ) Dados S1 y S2 dos subconjuntos de un espacio vectorial real V entonces lin hS1 ∪ S2 i = lin hS1 i+lin hS2 i
y lin hS1 ∩ S2 i ⊂ lin hS1 i ∩ lin hS2 i .

27
Capítulo 1. Álgebra lineal y geometría analítica.

( 1.12 ) Sean U, W subespacios vectoriales de V entonces

dim(U + W ) = dim U + dim W − dim(U ∩ W ).

Sugerencia: considera L : U × W → V dada por L(u, v) = u − v y tenga presente el teorema (1.2.25).

( 1.13 ) Si U y W son subespacios de V entonces dim(U∩W ) ≤ mı́n{dim U, dim W } ≤ máx{dim U, dim W } ≤


dim(U + W ) ≤ dim U + dim W .

( 1.14 ) Sean V un espacio con producto interior y X, Y ∈ V . Una condición necesaria y suficiente para que X y
Y sean ortogonales es que kX + Y k2 = kXk2 + kY k2 .

( 1.15 ) Si {v1 , . . . , vr , w1 , . . . , ws } es un conjunto linealmente independiente del espacio vectorial V entonces


lin h{vi : i = 1, . . . , r}i ∩ lin h{wj : j = 1, . . . , s}i = {0}.

( 1.16 ) Sea B una base de V , para todo a 6= 0, aB = {av : v ∈ B} es base de V . Más generalmente, si
{(v, av ) ∈ B × R|v ∈ B} es una colección con av 6= 0 entonces {av v : v ∈ B} es base de V . Observa que no
se supone que la dimensión de V sea finita. En particular, dada una base, se pueden reescalar sus elementos sin
matarlos y se conservará la propiedad de base.

( 1.17 ) Termina la demostración del teorema (1.4.3).

( 1.18 ) Termina la demostración del teorema (1.4.5)

( 1.19 ) Utiliza la desigualdad del triángulo para concluir que

X, Y ∈ Rn Ñ kX − Y k ≤ kXk + kY k .

y que
X, Y ∈ Rn Ñ | kXk − kY k | ≤ kX − Y k .
Sugerencia: para la segunda desigualdad recuerda que si a < b y −a < b entonces |a| < b.

( 1.20 ) Para cualquier X = (x1 , . . . , xn ) ∈ Rn se tiene que


n
X
kXk ≤ |xi |.
i=1

Recíprocamente, si X = (x1 , . . . , xn ) ∈ Rn entonces, para todo i = 1, . . . , n, se tiene que |xi | ≤ kXk . Estas
desigualdades serán utilizadas muchas veces en el texto.

( 1.21 ) Para todo X, Y en un espacio con producto interior se tiene la siguiente igualdad

kX + Y k2 − kX − Y k2
X·Y = .
4
A esta identidad se le conoce con el nombre de «identidad de polarización.»

( 1.22 ) Recuerda que dos espacios vectoriales U y V son isomorfos en el sentido de espacio vectorial, si existe una
transformación lineal L invertible entre ellos. Dos espacios vectoriales reales de la misma dimensión son isomorfos.

( 1.23 ) Supón que L : U → V es isomorfismo (esto es, biyectiva y lineal). Entonces L−1 : V → U es lineal y, por
ende, isomorfismo.

28
1.5. Ejercicios.

( 1.24 ) Resuelve este ejercicio hasta que hayas leído la sección de familia de elementos en el capítulo 2.
Sean B = (v1 , . . . , vn ) una base ordenada del espacio vectorial V y v ∈ V . La función Φ : V → Rn dada por
Xn
Φ(v) = (λ1 , . . . , λn ), en donde v = λi vi , es un isomorfismo de espacios vectoriales entre V y Rn . A la función
i=1
Φ se le denomina «coordenadas» de V respecto a la base B y se denota por Φ(v) = [v]B .

( 1.25 ) Resuelve este ejercicio hasta que hayas leído la sección de familia de elementos en el capítulo 2.
Sea B = (v1 , . . . , vn ) una base ordenada de V y B0 = (w1 , . . . , wm ) una base ordenada de W . Para cualquier
transformación lineal T : V → W existe una y solo una matriz A ∈ Matm×n (R) tal que para todo vector v ∈ V
se cumple que [Tv]B0 = A[v]B , en donde []B y []B0 son las coordenadas respecto a B y B0 , ve el ejercicio (1.24). A
0
tal matriz se le denotará por A = [T]BB y se le llamará «matriz asociada a T respecto a las bases B de V y B0 de
0
W ». La función Φ tal que Φ(T) = [T]BB es un isomorfismo entre el espacio Lin (V , W ) , de las transformaciones
0
lineales de V a W , y el espacio Matm×n (R) . Cuando V = W y B = B0 se denotará [T]BB = [T]B .

( 1.26 ) Resuelve este ejercicio hasta que hayas leído la sección de familia de elementos en el capítulo 2.
Sean B y B0 dos bases de V y T : V → V una transformación lineal. La matriz P = [I]BB0 , donde I : V → V
es la tranformación lineal identidad Iv = v, se le denomina matriz de cambio de base de B a B0 . Entonces,
0
P −1 = [I]BB y [T]B0 = P −1 [T]B P.

( 1.27 ) Resuelve este ejercicio hasta que hayas leído la sección de familia de elementos en el capítulo 2.
Sea T : Rn → Rm una transformación lineal, tal que, en las bases canónicas de Rn y Rm se cumple que
Ñ é 21
Xn X m
2
[T] = (ti,j ) (ve el ejercicio (1.25)). Sea M = ti,j . Entonces, para todo X ∈ Rn se tiene que
i=1 j=1
kTXk ≤ M kXk .

( 1.28 ) Sea L : U → V una transformación lineal entre espacios vectoriales reales de la misma dimensión finita.
Si BU y BV son sendas bases de U y V entonces L queda unívocamente determinada por las imágenes de los
elementos de BU como combinación lineal de los elementos de BV .

( 1.29 ) Sean {u1 , . . . , un } base de U y {w1 , . . . , wn } vectores arbitrarios en W , respectivamente. Existe una
única transformación lineal L : U → W tal que L(ui ) = wi .

( 1.30 ) Sean U, V espacios vectoriales reales de dimensión finita igual. Supón que L : U → V es lineal. Las
siguientes condiciones son equivalentes:

1. L es inyectiva.

2. L es suprayectiva.

3. L es biyectiva.

4. L es isomorfismo.

( 1.31 ) Supón que L : U → V es lineal y B ⊂ V . Si LB = {Lv : v ∈ B} es linealmente independiente entonces


B es linealmente independiente.

( 1.32 ) Sean V y W dos espacios vectoriales con producto escalar. Una transformación lineal L : V → W
preserva la norma si para todo X y Y en el dominio de L se tiene que kXk = kLXk , del mismo modo, preserva
el producto escalar si hX, Y i = hLX, LY i . Para que una transformación lineal L preserve la norma es necesario y
suficiente que preserve el producto escalar.

( 1.33 ) Si una transformación lineal L preserva la norma, L es inyectiva.

29
Capítulo 1. Álgebra lineal y geometría analítica.

( 1.34 ) Si una transformación lineal L preserva la norma y es invertible, L−1 preserva la norma.
( 1.35 ) Un concepto importante en el álgebra lineal es el de espacio dual. El espacio dual se define de la siguiente
forma. Sea V un espacio vectorial real de dimensión finita, al conjunto de las transformaciones lineales de V en
R se le conoce como espacio dual. Es decir, si V ∗ es el dual de V entonces

V ∗ = T : V → R T es lineal


El dual de un espacio vectorial real es, por sí mismo, espacio vectorial con suma de vectores definida como suma
de transformaciones lineales y producto por escalar definido como λT : V → R dado por (λT)(v) = λ(Tv).
( 1.36 ) Sea (Rn )∗ el espacio dual a Rn . Dado x ∈ Rn se define φx ∈ (Rn )∗ por φx (y) = hx, yi . Construye una
aplicación lineal de Rn en (Rn )∗ con la φ anterior. Esta aplicación lineal es un isomorfismo entre Rn y (Rn )∗ .
Concluye que a todo elemento x ∗ en (Rn )∗ le corresponde un único x en Rn tal que φx = x ∗ .
( 1.37 ) Encontrar la base dual de la base canónica de R3 . Sea V un espacio vectorial real y B = {v1 , . . . , vn } una
base de V entonces la base dual B∗ de B en V ∗ es, por definición, B∗ = {v1∗ , . . . , vn∗ } dada por vi∗ (vj ) = 1 si i = j
y vi∗ (vj ) = 0 si i 6= j.
( 1.38 ) Sea G = {−1, 1} ⊂ R y · la multiplicación usual en R. Verifique que (G, ·) es un grupo.
( 1.39 ) Si · es la multiplicación usual entonces (N, ·) no es un grupo.
( 1.40 ) Si (G, ·) es un grupo entonces las siguientes afirmaciones son ciertas.
1. Existe un único neutro. Por esto, a partir de ahora será denotado por 1.
2. Todo elemento tiene un único inverso. Por ende, si x ∈ G se denotará a su inverso por x −1 .
3. Si x, y ∈ G entonces (xy)−1 = y −1 x −1 .
4. Define x = x 1 e, inductivamente, x n = x n−1 x 1 . Verifique que si x ∈ G y n, m ∈ N, x m x n = x m+n ; fija
n y utiliza inducción en m.
n
5. Define x −n = x −1 , para n ∈ N. Entonces n, m ∈ Z Ñ x n+m = x n x m .
( 1.41 ) Sea E1,1 , . . . , En,n la base canónica para matrices cuadradas de orden n y sea A una matriz cuadrada de
orden n. Muestre que
1. det EA = det E det A, donde E = E1,1 + . . . + λEi,i + . . . + En,n .
n
X
2. det EA = det E det A, donde E = Ek,k + λEi,j .
k=1

3. Más generalmente, si B es una matriz cuadrada de orden n,

det AB = det A det B.

Admite el siguiente hecho: toda matriz A puede factorizarse como productos de matrices como las E de los
incisos anteriores.
1
4. Sea A invertible, muestre que det A 6= 0 y que det A−1 = .
det A
5. Sea A tal que det A 6= 0, muestre que A−1 existe. Admite el siguiente hecho: si A no es invertible, existe
una sucesión de matrices Ei como las de los dos primeros incisos tales que Ek · · · E1 A tiene una fila de
ceros.

30
1.5. Ejercicios.

6. Una condición necesaria y suficiente para que una matriz sea invertible es que su determinante no sea cero.
7. Supón que A y B son dos matrices tales que existe una cambio de base P para el cual A = PBP −1 .
Demuestra que det A = det B.
8. Use el inciso anterior para demostrar que si se define el determinante de una transformación lineal como el
determinante de alguna de sus representaciones matriciales entonces está bien definido.
ï ò
a b
( 1.42 ) Sea A = , una condición necesaria para que A sea invertible es que ad − bc 6= 0. Más aún, la
c d
inversa de A es ï ò
−1 1 d −b
A =
ad − bc −c a
( 1.43 ) Sea V un espacio vectorial con producto escalar definido positivamente, sean v, w ∈ V no nulos, existe
un escalar y solo uno λ ∈ R tal que v − λw es ortogonal a w. A λw se le llama la proyección ortogonal de v en
w.
Sugerencia: escribe hv − λw, wi = 0 y despeja λ; esto demuestra la unicidad14 . Para demostrar existencia
proponga λ el encontrado para la unicidad y demuestra que v − λw es ortogonal a w.
( 1.44 ) Sea V un espacio vectorial de dimensión finita con producto interior definido positivamente y sea W ⊂ V
un subespacio de V . Supón que B = {w1 , . . . , wr } es una base15 ortogonal de W , es decir, es base y cada dos
elementos distintos en ella son ortogonales. Entonces, existen n − r vectores en V , por ejemplo wr+1 , . . . , wn ,
tales que {w1 , . . . , wn } es base ortogonal de V .
Sugerencia: en virtud de (1.2.14) existen u1 , . . . , un−r ∈ V tales que

{w1 , . . . , wr , u1 , . . . , un−r }

es base de V . Aunque esto es base, no se puede asegurar la ortogonalidad de sus elementos, por ende se procede
a ortogonalizarlos utilizando el «método de Gram-Schimidt». Lo que se hace es definir
(1)
wr+1 = u1 − λ1 w1 − . . . − λr(1) wr ,
(1)
en donde λj wj es la proyección ortogonal de u1 en wj , ve el ejercicio (1.43). Demuestra que

lin h{w1 , . . . , wr+1 }i = lin h{w1 , . . . , wr , u1 }i .

Define inductivamente
r+k−1
(k)
X
wr+k = uk − λj wk ,
j=1

(k)
en donde λj wj es la proyección ortogonal de uk en wj . Demuestra que para k = 1, . . . , n − r,

lin h{w1 , . . . , wr+k }i = lin h{w1 , . . . , wr , u1 , . . . , uk }i

y concluye.
( 1.45 ) Sea W ⊂ V un subespacio vectorial del espacio V , el cual contiene un producto escalar que está definido
positivamente y tiene dimensión finita n. Entonces W ⊥ cumple las siguientes propiedades
1. W ∩ W ⊥ = {0};
14 En efecto, pues lo que demuestra aquí es que si tal escalar λ ya existe entonces tiene que ser el que haya encontrado.
15 Recuerda que en el caso en que W = {0} se cumple que r = 0, es decir, B = ∅.

31
Capítulo 1. Álgebra lineal y geometría analítica.

2. V = W + W ⊥ ;
3. dim W + dim W ⊥ = dim V .
Sugerencia: el primero insico es muy fácil. Para el segundo, empieza demostrando los casos W = {0} o
W = V . Ahora supón que 1 ≤ dim W ≤ n − 1. Sea {w1 , . . . , wr } una base de W , con r = dim W .
Completa este conjunto a una base ortonormal {w1 , . . . , wr , u1 , . . . , un−r } de V , utilizarás (1.44). Demostrarás
que {u1 , . . . , un−r } es base de W ⊥ . Sea u ∈ W ⊥ , existen constantes λ1 , . . . , λr y µ1 , . . . , µn−r tales que
r
X n−r
X
u= λi wi + µj uj ,
i=1 j=1

entonces considera el producto hu, wk i para k = 1, . . . , r. Usando el hecho que u ∈ W ⊥ concluirás que λk = 0,
por lo que u1 , . . . , un−r generan a W ⊥ . Resta ver que son linealmente independientes, imita la demostración de
(1.4.7). Incidentalmente, demostraste los incisos dos y tres simultáneamente.
( 1.46 ) Encuentra el plano que pasa por los tres puntos dados:
1. A = (0, 0, 0), B = (1, 1, 0) y C = (0, 0, −1);
2. A = (1, 2, 3), B = (4, 5, 6) y C = (0, 0, 0);
3. A = (2, 0, 1), B = (1, 1, 9) y C = (9, 8, 0).
Sugerencia: observa que el plano buscado pasa por los vectores C + (A − C) y C + (B − C) y es paralelo a
aquel trasladado por −C.
( 1.47 ) Encuentra el plano que es generado por los dos vectores dados:
1. A = (1, 1, 1) y B = (1, −1, 1) que pasa por (2, −5, 1);
2. A = (0, −1, 1) y B = (1, −1, 0) que pasa por (0, 0, 0);
3. A = (1, 2, 2) y B = (−3, 4, −5) que pasa por (1, 1, −1).
( 1.48 ) En este capítulo se definió de dos maneras que A y B sean perpendiculares (mediante el producto punto
y el ángulo entre ellos). Demuestra que son equivalentes.
( 1.49 ) El ángulo entre dos vectores A y B puede escribirse como
kAk + kBk − kA − Bk2
cos γ = .
2 kAk kBk
Con esto, derive que si A = (a1 , . . . , an ) y B = (b1 , . . . , bn ) entonces
a1 b1 + . . . + an bn A·B
cos γ = » » =
a12 2 2 2
+ . . . + an b1 + . . . + bn kAk kBk

Que es la interpretación geométrica del producto interior: A · B = kAk kBk cos γ. Luego, para encontrar el ángulo
entre dos vectores, basta conocer las expresiones
ai bi
ξi = » y µi = » .
a12 + . . . + an2 2
b1 + . . . + bn2
A estas expresiones se les conoce como cosenos directores de los vectores A y B, respectivamente. De hecho ξi y µi
son los cosenos de los ángulos que forman los vectores A y B con lo ejes canónicos de Rn , respectivamente. Luego,
ξi = cos αi para algún α ∈ [0, 2π]. En particular, se cumple el teorema de Pitágoras para cosenos directores:
cos2 α1 + . . . + cos2 αn = 1.

32
1.5. Ejercicios.

( 1.50 ) Utilizando la definición de ángulo entre dos vectores derive la desigualdad de Cauchy-Schwarz: |A · B|2 ≤
kAk kBk .
( 1.51 ) Demuestra (1.4.18).
( 1.52 ) Sean c ∈ R una constante, U ∈ Rn un vector unitario y P = {X ∈ Rn |U · X = c}. La distancia de P
a Y es d = |U · Y − |c||.

33
Capítulo 1. Álgebra lineal y geometría analítica.

34
Capítulo 2

• Funciones, sucesiones y series.

§ 2.1. Funciones.
Si el lector desea omitir este capítulo es libre de hacerlo, no afecta el contenido del resto de los
capítulos. Sin embargo, se le solicita que lea esto en algún momento para obtener una visión más
general de las funciones. Se siguen las ideas de teoría de conjuntos sobre lo que es una función.

( 2.1.1 ) Se dirá que f es función de A a B, denotado por f : A → B, si f es un subconjunto de A × B tal que


para todo x ∈ A existe un único y ∈ B tal que (x, y) ∈ f. Por notación, el par (x, y) ∈ f se escribe (x, f(x)).
Asimismo, muchas veces en lugar de considerar el «par ordenado» (x, f(x)) solo se considera a f(x) pues no existe
ningún peligro de confusión.

La definición anterior es una paráfrasis de la que el lector ya conocía. Es común que, como definición
de función se dé la siguiente: una función es una regla de correspondencia entre dos conjuntos tal
que para todo elemento del primer conjunto existe un único elemento del segundo conjunto. Sin
embargo, esta definición tiene ciertas dificultades técnicas. Por ejemplo, habría empezar definiendo
lo que es una regla de correspondencia y no hay un modo claro de cómo hacerlo1 . En cambio, con
la definición dada se evita este detalle y da la oportunidad de definir funciones entre cualesquier dos
conjuntos.
En la definición (2.1.1) al conjunto A se le conoce como dominio de f y al conjunto B se le conoce
como contradominio; más adelante se verá que el contradominio suele ser banal y sin importancia.
Por notación, se escribirá A = Dom (f) . Observa que, por definición, para todo x ∈ A existe un y ∈ B
tal que (x, y) ∈ f y tal y es único. Esto es, todo elemento x en A tiene una y solo una «imagen» en B.
El recíproco no tiene por qué ser verdadero. Esto es, que todo elemento de B sea imagen de algún
elemento en A. Que suceda esto es tan especial que se ha decidido dar una definición.

( 2.1.2 ) Se dirá que f : A → B es una función suprayectiva si para todo y ∈ B existe x ∈ A tal que (x, y) ∈ f.

La definición anterior está dada en términos de conjuntos. En principio esto no debería causar
ningún problema para entenderla en términos clásicos. Dado y ∈ B existe un x ∈ A tal que f(x) = y.
Intuitivamente hablando se dice que f es suprayectiva si exhausta al conjunto B, por esta razón también
se utiliza el término de función «exhaustiva».
Ahora se definirá lo que es una función inyectiva.
1 En algún momento Euler intentó definir el concepto de regla de correspondencia sin tener el éxito que tuvo la definición

presentada arriba

35
Capítulo 2. Funciones, sucesiones y series.

( 2.1.3 ) Se dirá que una función f : A → B es inyectiva si (u, y), (v, y) ∈ f Ñ u = v.


En términos coloquiales, una función es inyectiva si para cualesquier dos elementos con la misma
imagen entonces los elementos coinciden.
Otro término importante, relacionado con funciones, es el de imagen o recorrido de la función.
Este término ha sido definido ya para transformaciones lineales, la idea es dar la misma definición
para funciones en general. Como su nombre lo sugiere, se define la imagen de un conjunto por una
función como el conjunto de las imágenes de los puntos.
( 2.1.4 ) Sea f : A → B una función. Se define la imagen de C ⊂ A por f como f(C) = {y ∈ B : ∃x ∈
C y (x, y) ∈ f}.
De esta definición es inmediato que f(C) = {f(x) : x ∈ C}. Es importante notar que la imagen de un
conjunto C ⊂ A por la función f : A → B es un subconjunto f(C) de B.
Existe una definición relacionada con la de imagen de una función, esta es la de gráfica de una
función, sin embargo, típicamente se define la gráfica de una función como el conjunto Γ(f) = {(x, f(x)) :
x ∈ Dom (f)}. Es importante notar que Γ(f) = f, por esto se omite la definición de gráfica de una
función2 . Existe una definición análoga a la de imagen. Dada f : A → B y C ⊂ B ¿cuáles son los puntos
en A que son mandados a C por f?
( 2.1.5 ) Sea f : A → B una función. Se define la preimagen de C ⊂ B como f −1 (C) = {x ∈ A : ∃y ∈
C tal que (x, y) ∈ f}.
Es cuestión de lenguaje notar que f −1 (C) = {x ∈ A : f(x) ∈ C}. Asimismo, algunos autores prefieren
utilizar el término antiimagen para referirse a la preimagen de un conjunto.
( 2.1.6 ) El núcleo de una transformación lineal es la preimagen del cero. Esto es, Nuc (L) = L−1 ({0}).
Lo cual es reescribir la definición de núcleo en términos de preimágenes.
La siguiente relación es fundamental.
( 2.1.7 ) Sean f : A → B una función y C ⊂ B. Para que x ∈ f −1 (C) es necesario y suficiente que f(x) ∈ C.
Lo cual es inmediato de las definiciones correspondientes.
Muchas veces dada una función f : A → B solo interesa estudiar el comportamiento de esta en algún
subconjunto C de A. De este modo, se quiere estudiar al conjunto g ⊂ f tal que g = {(x, f(x)) : x ∈ C}.
( 2.1.8 ) Sea f : A → B función y C subconjunto
de A. Se dirá que {(x, f(x)) : x ∈ C} es la restricción de f a
C y este conjunto se le denotará por f .

C

( 2.1.9 ) Si f es función con dominio A y C ⊂ A entonces f es función con dominio C.

C

Es directo de la definición de función.


A continuación se presentan algunos ejemplos de aplicaciones entre conjuntos.
( 2.1.10 ) Sean A = {1, 2, 3, 4, 5} y B = A. Determina cuales de la siguientes son funciones de A a B.
1. α = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5)}.
2. β = {(1, 2), (2, 4), (3, 3), (4, 5), (5, 1)}.
3. γ = {(1, 1), (2, 1), (2, 2), (3, 5), (4, 1), (5, 4)}.
2 Por razones de simplicidad a veces se hablará de una función y se entenderá en x 7Ï f(x), la «regla de correspondencia»

subyacente.

36
2.1. Funciones.

4. ι = {(1, 1), (2, 2), (4, 1), (5, 4)}.


Observa que α y β satisfacen la definición (2.1.1), por lo tanto son funciones de A a B. Sin embargo,
γ no es función de A a B pues (2, 1), (2, 2) coinciden en el primer elemento y no en el segundo elemento.
Asimismo, ι no es función de A a B pues no existe ι(3), cabe destacar que si se restringe ι al conjunto
A \ {3} entonces la restricción sí es función.
Del ejemplo anterior se tiene que α(A) = {1, 2, 4}, por tanto α no existe x ∈ A tal que α(x) = 3 y,
por ende, α no es suprayectiva. Esto sugiere el siguiente teorema.
( 2.1.11 ) Para que una función f : A → B sea suprayectiva es necesario y suficiente que f(A) = B.
Observa que f(A) = {f(x) : x ∈ A} ⊂ B independientemente de que f sea suprayectiva o no.
Entonces basta ver que B ⊂ f(A) si y solo si f es suprayectiva. Se supone primero que f es una función
suprayectiva y sea x ∈ B. Como f es suprayectiva, existe x ∈ A tal que (x, y) ∈ f. De este modo, y ∈ f(A)
y B ⊂ f(A). Ahora se supone que B ⊂ f(A). Dado y ∈ B existe x ∈ A tal que f(x) = y, esto es (x, y) ∈ f.
Equivalentemente, f es suprayectiva.
Este teorema da una caracterización simple de funciones suprayectivas, su imagen es todo su con-
tradominio. Se observa que con la definición (2.1.1) no es tan fácil verificar cuando dos funciones
son iguales, tiene que darse la doble contenencia de conjuntos. El siguiente teorema caracteriza a la
funciones iguales.
( 2.1.12 ) Sean f y g funciones. Para que f = g es necesario y suficiente que Dom (f) = Dom (g) y f(x) = g(x)
para todo x en el dominio.
Es fácil notar que si f ⊂ A × B entonces Dom (f) = {x ∈ A|∃y ∈ B con (x, y) ∈ f}. Se observa que
si f = g entonces (x, y) ∈ f ⇔ (x, y) ∈ g. De aquí que Dom (f) = Dom (g) y f(x) = g(x) para todo x
en el domino. Ahora se supone que Dom (f) = Dom (g) y que f(x) = g(x) para todo x en el dominio.
Entonces, (x, y) ∈ f Ñ x ∈ Dom (f) , por lo tanto, x ∈ Dom (g) . Como y = f(x) = g(x), se tiene que
(x, y) ∈ g y f = g.
Es importante observar dos cosas. Primero, si dos funciones difieren en su dominio automáticamente
no pueden ser iguales. Por lo tanto, solo tiene sentido preguntarse por la igualdad de funciones cuando
comparten el mismo dominio. En este caso, la negación de que dos funciones f, g : A → B sean iguales
es la siguiente:
existe x ∈ A tal que f(x) 6= g(x).
Observa que el teorema anterior no solicita nada de los contradominios de f y g, en principio podrían
ser arbitrarios. Esto demuestra que una condición para que una función sea suprayectiva no depende
de la regla de correspondencia, solo de su contradominio. Por ejemplo, la función f : R → R dada por
f(x) = x 2 no es suprayectiva pues ningún punto en R satisface que su cuadrado es −1. Pero la función
g : R → [0, ∞) dada por g(x) = x 2 es suprayectiva. Sin embargo, por el teorema anterior, f = g.
Una noción importante y general respecto de funciones es la composición de las mismas. Por
ejemplo, si f : A → B y g : B → C entonces se puede definir el conjunto h = g ◦ f tal que h =
{(x, g(f(x))) : x ∈ A}. Formalmente,
( 2.1.13 ) Sean f y g funciones tales que f(Dom (f)) ⊂ Dom (g) . Entonces, la composición de f y g es h = g ◦f,
está dada por h = {(x, g(f(x)) : x ∈ Dom (f)}.
La demostración del siguiente teorema queda a cargo del lector.
( 2.1.14 ) La composición de funciones es una función.
De la definición anterior no tienen por qué estar definidas f ◦g y g◦f ambas a la vez. De hecho, cuando
esto sucede no tienen por qué ser iguales. Otras veces f(Dom (f)) no es subconjunto de Dom (g) , en estos
casos se escoge el subconjunto no vacío A más grande contenido en Dom (f) tal que f(A) ⊂ Dom (g) .

37
Capítulo 2. Funciones, sucesiones y series.

î √ ó
( 2.1.15 ) Sea A = [−1, 1], B = [0, 1] y C = 0, 2 , considera f : A → B y g : A → C dadas por f(x) = x 2 , y

g(x) = x + 1. Encuentra f(A), g(A), f −1 ([0, 1]), g −1 ([0, 1]), f ◦ g y g ◦ f.
Primero que nada, observa que f y g son funciones pues su regla de correspondencia está bien
definida y no hay dos elementos en su dominio que se manden a elementos distintos de su contradominio
y todo elemento de su dominio tiene una imagen. Se ve ahora quien es f(A). Se considera x ∈ [−1, 1]
se
√ tiene que 0 √ ≤ x2 ≤ 1. De esto se deduce que f(A) ⊂ [0, 1]. Sea ahora x ∈ [0, 1]. Entonces existe
x ∈ [0, 1] y f x = x. Por lo tanto, f(A) = [0, 1], por lo que f es suprayectiva. Como dato adicional f
no es inyectiva pues f(−1) = f(1) = 1. √ î √ ó î √ ó
Se obtiene ahora g(A). Dado x ∈ [0, 1] se tiene que g(x) = x + 1 ∈ 0, 2 . Así que, g(A) ⊂ 0, 2 .
î √ ó
Se ve ahora que se satisface la otra contenencia. Dado x ∈ 0, 2 se tiene que x 2 − 1 ∈ [−1, 1] y
î √ ó
g(x 2 − 1) = x. De aquí que g(A) = 0, 2 .
Por otro lado, si f(x) ∈ [0, 1] entonces x 2 ∈ [0, 1] y, por ende, x ∈ A. Luego, f −1 ([0, 1]) ⊂ A y, como
se vio antes,
 f(A) ⊂ [0, 1], equivalentemente A ⊂ √ f −1 ([0, 1]), por lo que f −1 ([0, 1]) = A. Para encontrar
−1
g [0, 1] se observa que g(x) ∈ [0, 1] si y solo si x + 1 ∈ [0, 1]. De esto, se ve que x + 1 ∈ [0, 1], por lo
que x ∈ [−1, 0]. Es fácil ver que si x ∈ [−1, 0] entonces g(x) ∈ [0, 1] y por lo tanto g −1 [0, 1] = [−1, 0].
Finalmente las funciones f ◦ g y g ◦ f están dadas por
 Ä√ ä
(f ◦ g)(x) = f g(x) = f x + 1 = |x + 1|

y
 p
(g ◦ f)(x) = g f(x) = g x 2 = x 2 + 1.


Sus dominios son, Dom (f ◦ g) = {x ∈ A : g(x) ∈ A} = [−1, 0] y Dom (g ◦ f) = {x ∈ A : f(x) ∈ B} = A.


Å ã Å ã √
1 3 1 5
Observa que (f ◦ g) = y (g ◦ f) = de lo cual se sigue que f ◦ g 6= g ◦ f.
2 2 2 2
Se verá ahora un ejemplo donde no sucede que f ◦ g y g ◦ f estén definidas ambas a la vez. Se
considera ahora las funciones

f : [0, 1] → [−1, 0] dada por f(x) = −x 2

y √
g : [0, 1] → [0, 1] dada por g(x) = x.
Entonces, (f ◦ g)(x) = −x, sin embargo g ◦ f no está definida.
î √ ó î √ ó
( 2.1.16 ) Sean A = [0, 1], B = 0, 2 , C = 1, 2 y D = [0, 2]. Considera f : A → B y g : C → D tales que
√ √
f está dada por f(x) = x 2 + 1 y g está dada por g(x) = x 2 − 1. Encuentra f ◦ g y g ◦ f.
Hay que encontrar Dom (f ◦ g) y Dom (g ◦ f) . Se tiene que Dom (f ◦ g) = {x ∈ C : g(x) ∈ A} = g −1 (A)
y, análogamente, Dom (g ◦ f) = f −1 î (B)
√ = A.ó Observa
î √ ó que g(x) ∈ A ⇔ g(x) ∈ [0, î1], √
pero
ó g(x) ∈ [0, 1] Ñ
x 2 ∈ [1, 2], pero x 2 ∈ [1, 2] Ñ x ∈ − 2, −1 ∪ 1, 2 . De aquí que g −1 ([0, 1]) = 1, 2 . De este modo,
î √ ó
Dom (f ◦ g) = C. Ahora bien, para x ∈ 1, 2 se tiene que
Ä√ ä p
(f ◦ g)(x) = f x 2 − 1 = x 2 − 1 + 1 = |x| = x.

Como, Dom (g ◦ f) = A, se tiene que para x ∈ A,


p  p
(g ◦ f)(x) = g x 2 + 1 = x 2 + 1 − 1 = |x| = x.

Por lo tanto, la composición de f y g en cualquier orden tuvo la misma regla de correspondencia.

38
2.2. Familias de elementos.

( 2.1.17 ) Considera f, g : [0, ∞) → [0, ∞) dadas como antes. Encuentra f ◦ g y g ◦ f.

Del ejemplo anterior, se sabe que

Dom (f ◦ g) = g −1 ([0, ∞)) = [0, ∞)

y, análogamente,
Dom (g ◦ f) = f −1 ([0, ∞)) = [0, ∞).
Por tanto, falta encontrar la regla de correspondencia de ambas funciones. Es fácil verificar que (f ◦
g)(x) = x = (g ◦ f)(x).
Observa que f ◦ g y g ◦ f satisficieron lo siguiente: para todo x ∈ Dom (f ◦ g) , (f ◦ g)(x) = x y, para
todo x ∈ Dom (g ◦ f) , (g ◦ f)(x) = x. Estas funciones se les conoce como función identidad. En abstracto,
se tiene la siguiente definición.

( 2.1.18 ) Sea f : A → A. Se dirá que f es la función identidad de A o función idéntica de A si f = {(x, x) : x ∈ A}.

En general se denotará a la función identidad de un conjunto A como idA o bien, IA . En el ejemplo


anterior sucedió que f ◦ g = I[0,∞) y g ◦ f = I[0,∞) . Esto se destaca en la siguiente definición.

( 2.1.19 ) Sea f : A → B. Se dirá que f tiene una función inversa si existe g : B → A tal que g ◦ f = IA y
f ◦ g = IB .

Por ejemplo, la función f : [0, 2π) → [−1, 1] dada por f(x) = sin x es invertible y su inversa es
g : [−1, 1] → [0, 2π) dada por g(x) = arcsin x. Nota que el hecho de que f sea invertible depende
directamente de Dom (f) y de su contradominio. Por ejemplo, para que f sea invertible es necesario
que a cada x ∈ Dom (f) se le asocie un único elemento y en su contradominio, pues de otro modo
la inversa g no estaría definida. Entonces, es necesario que f sea inyectiva. El siguiente teorema es
plausible. Su demostración queda de ejercicio al lector.

( 2.1.20 ) Para que una función f : A → B sea invertible es necesario y suficiente que sea inyectiva y suprayectiva;
en particular, si f : A → B es inyectiva entonces f : A → f(A) es invertible.

§ 2.2. Familias de elementos.


Más adelante se tendrá la necesidad de considerar conjuntos {xα |α ∈ Λ} ⊂ X para algunos conjuntos
Λ y X arbitrarios. Lo importante aquí es que será necesario saber qué xα corresponde a cada α ∈ Λ.
Por ejemplo, supón que Λ = {1, 2, 3} y es necesario poner x1 = x2 = 1 y x3 = 2 entonces escribirlo
como {xα |α ∈ Λ} deriva en que este conjunto es {1, 2} y ya no es claro qué elemento corresponde a
cada α. Para evitar esto se define la noción de familia.

( 2.2.1 ) Sea Λ 6= ∅ y X 6= ∅. Se dirá que una función f : Λ → X es una familia de elementos de X cuyo
conjunto de índices es Λ. Luego, se escribirá f(α) = xα y f = (xα )α∈Λ . Si ∆ ⊂ Λ entonces a la restricción de la
función α → xα de Λ a ∆ se le llama subfamilia de (xα )α∈Λ .

( 2.2.2 ) Sea (xα )α∈Λ una familia de elementos de un conjunto X. Entonces la cardinalidad de esta familia coincide
con card (Λ) .

Para demostrar esto se recuerda que si A y B son dos conjuntos cualesquiera tales que existe una
biyección entre ellos entonces card (A) = card (B) . La biyección que se define es

φ : (xα )α∈Λ → Λ dada por φ(α, xα ) = α.

39
Capítulo 2. Funciones, sucesiones y series.

Es claro que φ es inyectiva pues si φ(α, xα ) = φ(β, xβ ) entonces α = β y por ser (xα )α∈Λ una familia,
se sigue que xα = xβ . Asimismo, φ es suprayectiva pues si α ∈ Λ entonces (α, xα ) es un elemento de
la famila que es mandado mediante φ a α y φ es suprayectiva. En virtud de (2.1.20) y la observación
inicial se concluye.
A continuación se da el «Axioma de elección» el cual es equivalente al Lema de Zorn utilizado antes
al demostrar que todo espacio vectorial posee una base (1.2.14). Antes, es necesario definir lo que es la
potencia de una conjunto.

( 2.2.3 ) Sea X un conjunto cualquiera. Se define P (X) como el conjunto de todos los subconjuntos de X.

Observación: Las oraciones A ⊂ X y A ∈ P (X) son equivalentes.

( 2.2.4 ) Sean X y Y dos conjuntos y (Ax )x∈X una familia de elementos de P (Y ) tal que cada Ax 6= ∅. Entonces
existe una «función de elección» f : X → Y tal que f(x) ∈ Ax para cada x ∈ X.

Para la demostración de que este enunciado equivale al Lema de Zorn y otras formas del axioma
de elección se recomienda al lector que lea el libro de Enderton [9] o de Suppes [24].

( 2.2.5 ) Sea (Aα )α∈Λ una familia de elementos de P (X) . El conjunto de todos los elementos x ∈ X que están
en por lo menos un Aα se llama la unión de la familia y se denota por
[ [
Aα o bien (Aα )α∈Λ .
α∈Λ

El conjunto de los elementos x ∈ X que están en todos los Aα se llama la intersección de la familia y se denota
por
\ \
Aα o bien (Aα )α∈Λ .
α∈Λ

Observación: cuando el cunjunto de índices tiene un número finito de elemento, por ejemplo n
elementos, entonces se puede pensar que tal conjunto es {1, . . . , n}. Luego, en este caso, a la unión de
una familia finita se le denota por
n
[
Ak o bien A1 ∪ . . . ∪ An ,
k=1

en donde k es una «variable muda»; es decir, k puede ser sustituído por cualquier otro símbolo conve-
niente. Análogamente, la intersección de una familia finita (A1 , . . . , An ) se denota por
n
\
Ak o bien A1 ∩ . . . ∩ An .
k=1

Sea X un conjunto cualquiera. Se dirá que una familia (Aα )α∈Λ de elementos de P (X) es una cubierta
( 2.2.6 )[
de X si Aα = X. Se dirá que tal familia es una partición si aparte de ser cubierta para cualesquier α, β ∈ Λ
α∈Λ
con α 6= β se tiene que Aα ∩ Aβ = ∅.

( 2.2.7 ) Dado un conjunto fijo X se define la operación {X : P (X) → P (X) mediante {X (Y ) = X \ Y .

40
2.2. Familias de elementos.

Observaciones: Las siguientes son inmediatas de esta definción. Cada una de ellas puede ser derivada
a partir de las relaciones lógicas correspondientes, es decir, son definiciones reescritas en términos de
conjuntos.

1. Para cualquier A ⊂ X, {X {X A = A.

2. Para cualesquier A, B ⊂ X {X (A ∪ B) = {X A ∩ {X B.

3. Para cualesquier A, B ⊂ X {X (A ∩ B) = {X A ∪ {X B.

4. Para A, B ⊂ X cualesquiera las oraciones A ⊂ B y {X B ⊂ {X A son equivalentes; mismo para


A ∩ B = ∅, A ⊂ {X B y B ⊂ {X A; también se cumple para A ∪ B = X, A ⊃ {X B y B ⊃ {X A.

5. Si F : X → Y es una función y A ⊂ Y entonces{X F −1 (A) = F −1 {Y A . Esto se sigue del hecho



que x ∈ {X F −1 (A) ⇔ F(x) ∈ {Y A ⇔ x ∈ F −1 {Y A .

La siguiente proposición resume todas las operaciones más utilizadas entre familas y funciones.

( 2.2.8 ) Sean Λ, ∆, Σ tres conjuntos “de índices”; X, Y dos conjuntos “de elementos”; F : X → Y una función;
(Aα )α∈Λ , (Bβ )β∈∆ dos familias de elementos de P (X) y (Cγ )γ∈Σ una familia de elementos de P (Y ) . Entonces
!
[ \ 
1. {X Aα = {X Aα ;
α∈Λ α∈Λ
! Ñ é
[ [ [
2. Aα ∩ Bβ = Aα ∩ Bβ ;
α∈Λ β∈∆ (α,β)∈Λ×∆

! Ñ é
\ \ \
3. Aα ∪ Bβ = Aα ∪ Bβ ;
α∈Λ β∈∆ (α,β)∈Λ×∆
!
[ [
4. F Aα = F(Aα );
α∈Λ α∈Λ
Ñ é
[ [
5. F −1 Cγ = F −1 (Cγ );
γ∈Σ γ∈Σ
Ñ é
\ \
6. F −1 Cγ = F −1 (Cγ ).
γ∈Σ γ∈Σ

Se dará la demostración de cada inciso por separado.


!
[
1. Si x ∈ {X Aα entonces x no puede estar en ninguno de los Aα , pues si estuviera en algún Aα0
α∈Λ [ \ 
entonces se tendría x ∈ Aα0 ⊂ Aα lo cual es una contradicción. Por lo tanto, x ∈ {X Aα .
α∈Λ ! α∈Λ
\  [
Recíprocamente, supón que x ∈ {X Aα y que x ∈ Aα entonces hay un Aα0 tal que
α∈Λ α∈Λ
x ∈ Aα0 lo cual es una contradicción pues x no está en ninguno de los Aα .

41
Capítulo 2. Funciones, sucesiones y series.

! Ñ é
[ [ [ [
2. Si x ∈ Aα ∩ Bβ entonces x ∈ Aα y x ∈ Bβ , existen entonces α0 ∈ Λ y
α∈Λ β∈∆ α∈Λ β∈∆
[
β0 ∈ ∆ tales que x ∈ Aα0 y x ∈ Bβ0 ; esto es x ∈ Aα0 ∩ Bβ0 ⊂ Aα ∩ Bβ . Recíprocamente, si
(α,β)∈Λ×∆
[
x∈ Aα ∩ Bβ entonces hay un índice (α0 , β0 ) ∈ Λ × ∆ tal que x ∈ Aα0 ∩ Bβ0 , en particular
(α,β)∈Λ×∆
[ [
x ∈ A α0 ⊂ Aα y x ∈ Bβ0 ⊂ Bβ , que demuestra el inciso.
α∈Λ β∈∆

3. Inmediato de los dos primeros al considerar complementos en X.


!
[ [
4. Nota que y ∈ F Aα si y solo si existe un x ∈ Aα tal que F(x) = y. Basta entonces ver que
α∈Λ α∈Λ
esto último equivale a que exista un índice α0 tal que y = F(x) para algún x ∈ Aα0 ; es decir,
[ equivale
a que exista un índice α0 tal que y ∈ F(Aα0 ), y esto último es la definición de que y ∈ F(Aα ).
α∈Λ
Ñ é
[ [
5. Pues x ∈ F −1 Cγ equivale a que F(x) ∈ Cγ ; es decir, existe un γ0 ∈ Σ tal que F(x) ∈ Cγ0 ;
γ∈Σ γ∈Σ
[
o sea, x ∈ F −1 (Cγ0 ) para algún γ0 ∈ Σ; esto es, x ∈ F −1 (Cγ0 ).
γ∈Σ

6. Es directo de los incisos anteriores tomando complementos.


Esto conluye las propiedades.

§ 2.3. Sucesiones.
Recuerda que una sucesión en R se suele pensar como una lista de números a1 , a2 , . Å. . , es inme-
ã
1
diato que conviene considerar familias enumerables. Por ejemplo, considera la sucesión 1 +
n n∈N
1
entonces, el «término general» de la sucesión es an = 1+ . Resulta conveniente la siguiente definición.
n
( 2.3.1 ) Una sucesión definida en un conjunto A (donde A es arbitrario y no vacío) es una familia cuyo conjunto
de índices son los naturales.
( 2.3.2 ) Por definición, se tiene que (an )n∈N = {(n, an ) : n ∈ N}.
Como A 6= ∅, se tiene que F 6= ∅. Asimismo, por notación, F(n) = Fn o F(n) = an . Ahora bien, en
R se tiene el concepto de límite de una sucesión, pues existe la noción de distancia. Dado que en Rn
también se tiene la noción de distancia con la cual se puede introducir todo lo conocido de límite de
sucesiones de R a Rn . Antes de hacer esto será necesario recordar el caso en R. Se considera (an )n∈N
una sucesión en R tal que lı́m an = p. Esto significaba precisamente lo siguiente:
n→∞

(∀ε > 0)(∃N > 0) tal que (n ≥ N Ñ |an − p| < ε).

Intuitivamente hablando, se dice que p es límite de la sucesión (an )n∈N si an está cerca de p cuando n
crece. Esta noción puede generalizarse a Rn sin ningún problema.

42
2.3. Sucesiones.

( 2.3.3 ) Sea F : N → Rm una sucesión de puntos en Rm . Será dicho que la sucesión converge a P ∈ Rm ,
denotado como lı́m F(n) = P, si
n→∞

(∀ε > 0)(∃N > 0) tal que (n > N Ñ kF(n) − Pk < ε).
Esta definición es una generalización directa del caso real. Seguramente el lector dice que solo ha
sido cambiado el valor absoluto por norma. Esto es cierto pues las propiedades geométricas del valor
absoluto se conservan de manera análoga para la norma.
Al igual que en el caso real, para encontrar un límite de una sucesión dada se debe proceder a dar
un número ε > 0 y encontrar un natural N > 0, el cual es función de ε, que satisfaga la definición.
( 2.3.4 ) Determine si la siguiente sucesiónÅconverge o no ã(cuando una sucesión no converge se dice que diverge).
1 1
La función F : N → R2 dada por F(n) = 1 − , 1 + .
n n
Observa que cada coordenada tiende a 1 cuando n → ∞. De aquí que es natural pensar que
lı́m F(n) = (1, 1). Sea ε > 0. Entonces
n→∞
Å ã …
1 1 2
k(1, 1) − F(n)k < ε ⇔ ,− <ε ⇔

2

√ n n n √
2 2
⇔ <ε ⇔ n> .
n ε

3 2
Sea N ∈ N el mínimo natural tal que N > entonces para cada n ≥ N se tiene que la distancia entre
ε
(1, 1) y F(n) es menor que ε. Esto demuestra que lı́m F(n) = (1, 1).
n→∞
¿Siempre existe el límite? Y cuando existe, ¿puede una sucesión convergir a dos vectores distintos?
La primera respuesta es que no, la sucesión (n)n∈N no converge en R hacía ningún número real l ∈ N.
La segunda es que sí, como se demuestra a continuación.
( 2.3.5 ) Sea (Xn )n∈N una sucesión en Rm . Si X y Y son dos puntos en Rm para los cuales la sucesión (Xn )n∈N
converge a ellos entonces son el mismo punto, X = Y .
La demostración de este resultado se basa en la idea de que (Xn ) finalmente estará arbitrariamente
cercana a X y también estará arbitrariamente cercana a Y , por lo que X y Y deberán estar arbitraria-
mente cercanos el uno del otro. Para formalizar esta noción, sea ε > 0. Como (Xn )n∈N converge a X,
existe un N1 tal que
ε
n ≥ N1 Ñ kXn − Xk < .
2
Como (Xn )n∈N converge a Y , existe un N2 tal que
ε
n ≥ N2 Ñ kXn − Y k < .
2
Sea N = máx{N1 , N2 }. Se siguen cumpliendo las dos implicaciones previas. Por lo tanto, n ≥ N Ñ
kX − Y k ≤ kX − Xn k + kXn − Y k ≤ ε, donde la primera desigualdad es consecuencia de la desigualdad
triangular. Se demostró que (Xn )n∈N y (Yn )n∈N están arbitrariamente cercanos, por lo que deben ser
el mismo punto. Para ver esto, supón que X 6= Y , esto es equivalente a que kX − Y k > 0. Define
kX − Y k kX − Y k
ε= . Se demostró que kX − Y k < ε = . Despejando, se obtiene que kX − Y k < 0, lo
2 2
cual es falso.
Antes de continuar es conveniente que el lector recuerde las principales propiedades elementales y
útiles de las sucesiones en R. El siguiente teorema queda a título de ejercicio para el lector.
3 Observa que este natural es función de ε.

43
Capítulo 2. Funciones, sucesiones y series.

( 2.3.6 ) Sea (an )n∈N , (bn )n∈N y (cn )n∈N tres sucesiones en R. Entonces
1. si (an ) es convergente entonces es acotada;
2. si an ≤ bn ≤ cn y (an ) y (cn ) convergen a l entonces (bn ) converge a l;
3. si (an ) es monótona4 y acotada5 entonces an converge; de hecho, (an ) convergerá a su supremo o su ínfimo
según sea monótona creciente o decreciente;
4. si (an ) converge a a y (bn ) converge a b entonces para cualquier λ ∈ R la sucesión
Å (aãn + λbn ) convergerá
an a
a a + λb y la sucesión (an bn ) convergerá a ab; más aún, si b 6= 0, la sucesión convergerá a ;
bn b
5. si 0 ≤ |r| < 1 entonces la sucesión (r n )n∈N converge a cero;
√ 
6. si p > 0 entonces la sucesión n p n∈N converge a 1;
7. si f : [0, ∞) → R es continua (en el sentido que se supone que el lector ya conoce) y (an ) es una sucesión
tal que f(n) = an para todo n ∈ N entonces para que (an ) converga a a es condición necesaria y suficiente
que lı́m f(x) exista, en este caso, tal límite vale a;
x→∞

8. si a < 0, la sucesión (na ) convergerá a 0.


A veces no es fácil encontrar N > 0 el cual sea apropiado. Para lidiar con esto, se utilizan algunos
artificios. El siguiente ejemplo muestra uno de las más utilizado, dado X ∈ Rn entonces |xi | ≤ kXk ≤
Xn
|xi | para i = 1, . . . , n, ejercicio (1.20).
i=1

( 2.3.7 ) Sea F : N → R3 dada por


sin n 3n − 2 (−1)n sin n
Å ã
F(n) = , , .
n n2 n
Determine si F converge o no, en caso que converja encuentra su límite.
1 3 1
, |bn | ≤ y |c| ≤ ,
Sea F(n) = (an , bn , cn ). Entonces (an ), (bn ) y (cn ) convergen. En efecto, |an | ≤
n n n
ε
por lo cual an , bn , cn → 0. Por lo tanto, dado ε > 0 existen N1 , N2 y N3 tales que n ≥ N1 Ñ |an | < ,
3
ε ε
n ≥ N2 Ñ |bn | ≤ y n ≥ N3 Ñ |cn | ≤ . Considera N = máx{N1 , N2 , N3 } entonces n ≥ N Ñ
3 3
ε
|an |, |bn |, |cn | ≤ . Como kF(n)k ≤ |an | + |bn | + |cn | se tiene que n ≥ N Ñ kF(n)k ≤ ε. Por lo tanto,
3
lı́m F(n) = (0, 0, 0).
n→∞
Como observación clave, el ejemplo anterior se puede generalizar al caso general. Esto da un criterio
simple para ver cuando una sucesión en Rn converge.
Ä (1) (m)
ä
( 2.3.8 ) Sea F : N → Rm una sucesión tal que F(n) = an , . . . , an . Entonces, para que F converja a
P = (p1 , . . . , pm ) es necesario y suficiente que ani n∈N converja a pi para i = 1, . . . , m.


La demostración de esto queda de ejercicio al lector.


Al ser una sucesión en Rn convergente si y solo si converge cada una de sus coordenadas simplifica
mucho la teoría. Todos los teoremas de convergencia del caso n dimensional se reducen a aplicar n
veces los teoremas del caso real. Entonces, no faltan muchos puntos a tratar, los más importantes son
sucesiones de Cauchy, subsucesiones y series.
4 Se dice que una sucesión (an )n∈N es «monótona creciente» si an ≤ an+1 y «monótona decreciente» si an ≥ an+1 .
5 Se dice que una sucesión (an )n∈N es acotada si existe un M > 0 tal que |an | ≤ M para cualquier n ∈ N.

44
2.3. Sucesiones.

z 2.3.1 Subsucesiones.
Continuando con este rápido estudio de sucesiones se llega al concepto de subsucesión. Sea (an )n∈N
una sucesión. Se dice que (ani )i∈N es subsucesión de (an )n∈N si (ani )i∈N es una sucesión y ni > nj ⇔ i > j.
Esto conduce a una definición natural para el caso general.

( 2.3.9 ) Sea F : N → Rm una sucesión. Se dirá que f : N → Rm es una subsucesión de F si existe σ : N → N


estrictamente creciente tal que f = F ◦ σ.

El caso real se satisface inmediatamente con esta definición. Como ejemplo de la definición, consi-
dera la sucesión F dada por

 exp(n)
Å ã si n es par;
F(n) = 1
 exp si n es impar.
n

Define σ : N → N dada por σ(n) = 2n − 1. Claramente, σ es una función creciente (en sentido Å estricto),
ã
1
por lo tanto f = F ◦ σ es una subsucesión de F. Se tiene que f está definida por f(n) = exp .
2n − 1
Nota que f es una sucesión convergente cuando F no lo es. La teoría sobre series será desarrollada
por el lector en los ejercicios. Antes de pasar a los ejercicios, se verá un último ejemplo.
h  x α i
( 2.3.10 ) Sea F : N → R dada por F(n) = n log 1 + , donde x ≥ 0 y α ≥ 0. Determine la convergencia
n
de F.

Encontrar el límite de F puede ser tratado de distintas formas, aquí se presentará una. Si (an )n∈N es
una sucesión de número reales y f : (0, ∞) → R satisface que f(n) = an para todo n y que lı́m f(x) = p
x→∞
ï Å ãα ò
x
entonces lı́m an = p. Se definen las funciones φ, ψ : (0, ∞) → R dadas por φ(y) = log 1 +
n→∞ y
y ψ(y) = y. Entonces, (ψφ)(n) = F(n) para todo n ∈ N. Por la aclaración previa, basta encontrar
lı́m (ψφ)(y). Claramente, lı́m ψ(y) = ∞; para φ se observa que log es continua, así
y→∞ y→∞

ï Å ãα ò
x
lı́m φ(y) = log lı́m 1 + = log(1) = 0.
y→∞ y→∞ y

φ(y) 0
Entonces, lı́m (ψφ)(y) = lı́m toma la forma , por lo que aplica la regla de L’Hôpital. Se tiene
y→∞ y→∞ (ψ(y))−1 0
que,

φ(y) φ0 (y) −αx α y −1−α


lı́m = lı́m = lı́m Å ãα ò
y→∞ (ψ(y))−1 y→∞ −(ψ(y))−2 ψ 0 (y)
ï
y→∞ x
− 1+ y −2
y
y 1−α
= αx α lı́m Å ãα
y→∞ x
1+
y

 ∞ si 0 < α < 1,
= x si α = 1,
0 si α > 1 o α = 0.

Esto termina el ejercicio.

45
Capítulo 2. Funciones, sucesiones y series.

z 2.3.2 Sucesiones de Cauchy.


Se dice que (an )n∈N es una sucesión de Cauchy si los términos de índices grandes puede hacerse
arbitrariamente cercanos, esto es

(∀ε > 0)(∃N > 0) tal que (n, m ≥ N Ñ |an − am | < ε).

Tal definición no depende en lo absoluto de R y puede generalizarse de la manera obvia, cambiando el


valor absoluto por norma.
( 2.3.11 ) Sea F : N → Rm una sucesión. Se dirá que F es de Cauchy si

(∀ε > 0)(∃N > 0) tal que (n, m ≥ N Ñ kF(n) − F(m)k < ε).

Esta condición es llamada condición de Cauchy, y por definición una sucesión es de Cauchy si y
solo si satisface la condición de Cauchy. Hay que precisar que no todas las sucesiones son de Cauchy, de
hecho pronto serán caracterizadas aquellas que lo son. El criterio sería el mismo que el caso real, una
sucesión es de Cauchy si y solo si es convergente. Primero se demuestra la implicación más sencilla.
( 2.3.12 ) Toda sucesión convergente es de Cauchy.
Sea (an )n∈N una sucesión en Rm la cual se supone convergente a a. Sea ε > 0 y N ∈ N tal que
ε
n ≥ N Ñ kan − ak ≤ . Entonces, de la desigualdad triangular, se deriva que para cualesquier n, m ≥ N
2
se debe cumplir que
ε ε
kan − am k ≤ kan − ak + kam − ak ≤ + = ε.
2 2
Lo cual concluye la demostración.
Å n ã
p 1
( 2.3.13 ) Considera la sucesión F definida por F(n) = , , F es una sucesión de Cauchy.
n! n

X pn
Solo hay que ver que F es convergente. Observa que es convergente; en efecto, con aplicar
n!
n=1
el criterio del cociente (ve (2.26)) se ve que

pn+1
(n + 1)! p
lı́m = lı́m = 0,
n→∞ pn n→∞ n + 1
n!

X pn pn
lo cual dice que la serie converge y con esto se tiene que lı́m = 0. Por lo tanto, ambas
n! n→∞ n!
n=1
sucesiones son convergente y (2.3.12) concluye el ejercicio.
( 2.3.14 ) Sea F : N → Rk una sucesión de Cauchy. Entonces F es convergente.
Se demostrará primero que toda sucesión de Cauchy en R es convergente. Entonces, sea (an )n∈N
una sucesión de Cauchy en R. Existe un N > 0 tal que n, m ≥ N Ñ |an − am | ≤ 1. En particular,
m ≥ N Ñ |am − aN | ≤ 1, de aquí que

|am | ≤ |am − aN | + |aN | ≤ 1 + |aN |,

lo cual dice que los términos (ak )k≥N están acotados por 1+|aN |. Sea M = máx{|a1 |, . . . , |aN−1 |, 1+|aN |}.
Entonces, todos los elementos de la sucesión (an )n∈N están acotados por M. Se extraerá ahora una

46
2.4. Ejercicios.

subsucesión de (an ) la cual resultará monótona. Se supone que hay una infinidad de términos en la
sucesión que son distintos, en caso contrario, hay una infinidad de términos que coinciden y se define
la subsucesión de tal forma que sea constante, por ende, convergente. Entonces, se puede suponer que
hay una infinidad de términos de la sucesión que son más grandes que a1 (de lo contrario, hay una
infinidad de términos que son más pequeños y el argumento es el mismo). Sean n1 = 1 y define n2 como
el mínimo natural k > 1 tal que ak ≥ an1 . Se prodece inductivamente, definiendo nj+1 como el mínimo
natural k > nj tal que anj+1 ≥ anj . Entonces, se definió una subsucesión (anj )j∈N la cual es monótona
creciente y acotada por M. Por lo tanto, ve (2.3.6), existe el límite de la subsucesión. Sea a = lı́m anj .
j→∞
Se demostrará que (an )n∈N converge a a. Para este efecto, dado ε > 0 existe un N ∈ N tal que si j ≥ N
ε ε
entonces |anj − a| < . Por la propiedad de Cauchy, existe un P ∈ N tal que n, m ≥ P Ñ |an − am | ≤ .
2 2
Sea entonces Q = máx{N, P}. Entonces, j ≥ Q Ñ |aj − a| ≤ |aj − anQ | + |anQ − a| ≤ ε puesto que
nQ ≥ M. Ä (1) (k)
ä Ä (i) ä
Se supone que F(n) = an , . . . , an entonces por (2.3.8) basta demostrar que cada sucesión an
Ä (i) ä n∈N
es convergente. Si se demuestra que cada sucesión an es de Cauchy, se podrá concluir. Como
n∈N
F es de Cauchy
dado ε > 0 existe M > 0 tal que n, m ≥ M Ñ kF(n)Ä− F(m)k < ε. Pero al ser,
(i) (i) (i)
ä
an − am ≤ kF(n) − F(m)k para i = 1, . . . , k (ejercicio (1.20)) se tiene que an es de Cauchy.
n∈N

§ 2.4. Ejercicios.
Resolver cada uno de los siguientes.
( 2.1 ) Sean f, g y h funciones tales que las composiciones h ◦ (f ◦ g) y (h ◦ f) ◦ g están definidas. Entonces
h ◦ (f ◦ g) = (h ◦ f) ◦ g.
( 2.2 ) Para que la función f sea inyectiva es necesario y suficiente que f −1 (f(A)) = A para todo A ⊂ Dom (f) .
( 2.3 ) Supón que f es una función que admite una inversa g entonces g es única. A tal función g se le denotará
por f −1 .
( 2.4 ) Supón que f tiene inversa. Entonces f −1 (A), es independiente de f y f −1 . Esto es, {x : f(x) ∈ A} =
{f −1 (x) : x ∈ A}.
( 2.5 ) Supón que f : X → Y es una función invertible y E una “ecuación”. Sea S = {x ∈ Dom (f) : E(x) = 0}
entonces f(S) = {y ∈ Y : E(f −1 (y)) = 0}.
( 2.6 ) Sea S = {(x, y) ∈ R2 : k(x, y)k = 1}, el círculo unitario en R2 . Considera la transformación lineal
T : R2 → R2 dada por T(x, y) = (3x + 2y, 5x − y), encuentra T(S) y T −1 (S).
( 2.7 ) Sea P un plano en R2 y T : R2 → R2 una transformación lineal invertible. Demuestre que T(P) y que
T −1 (P) son planos.
( 2.8 ) Sea P un plano m dimensional en Rn (m ≤ n) y T : Rn → Rn una transformación lineal invertible.
Demuestre que T(P) y T −1 (P) son planos m dimensionales en Rn .
( 2.9 ) Sea P un plano m dimensional en Rn (m ≤ n). Encuentra T : Rn → Rn tal que T(P) no sea un plano m
dimensional en Rn .
( 2.10 ) Demuestra el teorema (2.3.6). Puedes seguir las siguientes sugerencias.
1. Supón que (an ) converge a a. Por definición, existe un N tal que n ≥ N Ñ |an − a| < 1. Entonces, salvo
un número finito de elementos, todos los elementos de la sucesión están acotados por |a| + 1.

47
Capítulo 2. Funciones, sucesiones y series.

2. Dado ε > 0 existe un N tal que n ≥ N Ñ |an − l| ≤ ε, |cn − l| ≤ ε. Concluye que l − ε ≤ an ≤ bn ≤


cn ≤ l + ε para todo n ≥ N.
3. Supón que (an ) es creciente. De la definición de supremo se deriva que dado ε > 0 existe un aN tal que
0 ≤ sup ak − aN ≤ ε. Por monotonía, n ≥ N Ñ |supk∈N ak − an | ≤ ε.
k∈N

4. Nota que |a + λb − an − λbn | ≤ |a − an | + |λ||b − bn |, que |an bn − ab| ≤ |an − a||bn | + |a||b − bn | ≤
M|an − a| + |a||b − bn |, donde M es una cota de la sucesión (bn ). El cociente es más dificil,

an a an b − abn |an − a||b| + |a||b − bn |

b − = ≤ ,
n b bn b m|b|

donde m > 0 es tal que para todo n grande m ≤ |bn |.


5. Basta ver que |r|n converge a cero. Entonces, dado 0 < ε < 1 se cumple que |r|n ≤ ε ⇔ n log |r| ≤ log ε.

6. Supón que p > 1 y que n p = 1 + hn . Demuestra que (1 + hn )n ≥ 1 + nhn y concluye que hn → 0.
7. Es muy fácil.
8. Solo hay que notar que na = f(n) para f(x) = x a .
( 2.11 ) Sea F : N → Rm una sucesión y P ∈ Rm . Para que el límite de F sea P es necesario y suficiente que
para todo r > 0 existe N > 0 tal que si n > N entonces F(n) ∈ {X ∈ Rm : kX − Pk < r}. Esto conduce a una
interpretación geométrica de que una sucesión converja a un punto P. Conforme n → ∞ todos los términos de
la sucesión van atrapándose en las proximidades de P.
( 2.12 ) Sea F : N → Rm una sucesión convergente a P ∈ Rm . Supón que Q ∈ Rm es un punto para el cual F
también converge a él entonces Q = P, esto demuestra que el límite de sucesiones es único, por lo que hablar de
el límite de una sucesión sin ambigüedades.
( 2.13 ) Sean, f, g, h : N → R3 dadas por
Ç √ å
sin(n) 3n + 2 2
f(n) = , , ,
cos(n) n n
Å Å ãn ã
√ 1 p
g(n) = n
p, , , donde p > 0
np 1 + p
y
√ 3n
Å p ã
h(n) = n
n, n2 + n − n, .
n!
Determine si la convergencia de cada una de ellas. En caso de converger encuentra su límite.
( 2.14 ) Supón que F : N → Rm es una sucesión convergente y toma σ : N → N estrictamente creciente. De-
muestre que f = F ◦ σ es convergente y que lı́m f(n) = lı́m F(n). Esto muestra que en sucesiones convergentes,
n→∞ n→∞
todas sus subsucesiones son convergentes y convergen al mismo límite.
( 2.15 ) Cierto o falso, dada una sucesión F tal que tiene una subsucesión convergente entonces F es convergente.
( 2.16 ) Cierto o falso, dada una sucesión F tal que todas sus subsucesiones son convergente entonces F es
convergente.
( 2.17 ) Cierto o falso, dada una sucesión F tal que todas sus subsucesiones poseen a la vez una subsucesión
convergente entonces F converge.

48
2.4. Ejercicios.

( 2.18 ) Encuentra una subsucesión convergente de la sucesión dada. Las sucesiones están dadas por la imagen
de un punto n ∈ N arbitrario.
1. (n + (−1)n n, pn ) , donde −1 < p < 1.
n
!
n2 X (−1)i
2. , .
3n i
i=1

n
!
1 X i
3. 2 , arctan(n) .
en
i=1

n n
!
X (−1)i π 2i+1 X (−1)i π 2i
4. , .
(2i + 1)! (2i)!
i=1 i=1
n
5. (−1)(−1) , sin(nπ) .


( 2.19 ) Considera F, G : N → Rm dos sucesiones de Cauchy entonces la sucesión

{kF(n) − G(n)k}n∈N

es una sucesión real y convergente.


Sugerencia: para demostrar esto utiliza la desigualdad del triángulo dando lugar a

kF(n) − G(n)k ≤ kF(n) − F(m)k + kF(m) − G(m)k + kG(n) − G(m)k

Con lo cual | kF(n) − G(n)k − kF(m) − G(m)k | es pequeño conforme n, m crecen.


n
X
( 2.4.1 ) Sea F : N → Rm una sucesión y considera S : N → Rm la sucesión dada por S(n) = F(n) entonces
i=1
a S se le llama la sucesión de sumas parciales definida por F. Si S es convergente, a su límite se le denomina
serie definida por F. Si S no es convergente, se dice entonces que la serie definida por F no converge o bien, que
es divergente.
( 2.20 ) Demuestre con un ejemplo en R2 que existe una sucesión convergente cuya serie no converge.
( 2.21 ) Sea F : N → Rm una sucesión y S : N → Rm la serie definida por ella. Supón que S es convergente
entonces lı́m F(n) = 0.
n→∞

( 2.22 ) Una condición necesaria y suficiente para que la serie asociada a la sucesión F sea convergente
es que
X n
para todo ε > 0 existe un N ∈ N tal que si n y m son más grandes que N entonces Fi < ε; el «criterio


i=m
de Cauchy» para convergencia de series.

X
( 2.23 ) Supón que F es una sucesión con valores en Rm . Si la serie numérica (kF(n)k)n∈N converge, kF(n)k <
n=1
∞, entonces la serie asociada a F converge.

X
( 2.4.2 ) Sea F una serie en Rm , se dice que F converge absolutamente si kF(n)k converge. Más aún, se dice
n=1

X ∞
X
que F converge incondicionalmente si para cada biyección σ : N → N se tiene que F(n) = F(σ(n)).
n=1 n=1

49
Capítulo 2. Funciones, sucesiones y series.

( 2.24 ) Una condición necesaria y suficiente para que una serie converja absolutamente es que cada una de las
series coordenadas converja absolutamente.

( 2.25 ) Una condición necesaria y suficiente para que una serie converja absolutamente es que converja incondi-
cionalmente.
Sugerencia: utiliza que este resultado es cierto para el caso real.

( 2.26 ) Sean (an )n∈N y (bn )n∈N dos sucesión de número positivos.
an+1
1. Se supone que lı́m = a existe. Entonces, si a < 1, la serie converge; si a > 1, la serie diverge; si
an
n→∞
a = 1, el criterio falla, esto es, hay series convergentes y divergentes para las que a = 1 (hay que dar un
ejemplo de cada una).

2. Si ahora se supone que lı́m n
an = a existe, las conclusiones anteriores son las mismas.
n→∞

an
3. Si lı́m = l existe y l 6= 0 entonces la serie (an ) converge si y solo si la serie (bn ) también lo hace.
n→∞ bn

4. Si para cualquier n ∈ N se cumple que an ≤ bn entonces que la serie (an ) diverja implica que la serie (bn )
diverge y recíprocamente, que la serie (bn ) converja implica que la serie (an ) converge.
Å ã
1
5. La series de la forma divergen para p ≤ 1 y convergen para p > 1.
np

Sugerencia: para la convergencia de las series n−p utiliza la definición de integral de Riemann para funciones
de R a R. Deberás notar que
Zm m Zm
1 X 1 1
p
dx ≤ p
≤1+ dx.
x n xp
1 n=1 1

Por lo tanto, la serie converge si y solo si la integral lo hace.

( 2.27 ) Determine la convergencia o divergencia de las siguientes series.


n Ç −i
(−1)i sin( iπ
å
e 2 )
X
1. , .
i i
i=1

n Ç √ å
X 1 i−1
2. , .
ip i2
i=1

n Ç √ å
X i−1 i2 − i + 1
3. , .
i i2
i=1

n Ç å
X
αi (−1)i ln(i)
4. p , , donde p > 0 y α ∈ R.
i
i=1

n Ç å
X 5i i2 + 3i
5. , .
7i + i 2 3i − i
i=1

50
2.4. Ejercicios.

( 2.28 ) En R se tiene el orden dado por los números reales. En este caso se puede hablar de la divergencia a
+∞ y a −∞ de las sucesiones. En efecto, se dice que lı́m F(n) = +∞ si dado N > 0 existe M > 0 tal que
n→∞
n ≤ M Ñ F(n) > N, el caso lı́m F(n) = −∞ es análogo. Ahora bien, en Rm no existe un orden como el de R
n→∞
por lo que no hace sentido hablar de +∞ o de −∞, así que para generalizar esta idea, se dirá que F converge a
∞ si kF(n)k converge a +∞. Demuestre que F : N → Rm converge a ∞ si y solo si alguna de sus sucesiones
coordenadas lo hace.

( 2.29 ) El concepto de sucesión puede ser dado sobre cualquier conjunto A (ve (2.3.1)) mas no el de límite pues
este último requiere cierta noción sobre qué tan cerca o qué tan lejos se encuentran los elementos del conjunto.
En general, se dirá que una sucesión (vn )n∈N en un espacio vectorial real y normado (V , kk) converge en V si
existe un elemento v ∈ V tal que para todo ε > 0 existe un N(ε) > 0 tal que n ≥ N(ε) Ñ kvn − vk < ε. El
concepto de subsucesión sí puede darse en general y el de sucesión de Cauchy necesita fuertemente la noción de
distancia.
Demuestra las siguientes propiedades, las cuales los análogos para las propiedades para R. En todos los casos,
supón que (vn )n∈N y (wn )n∈N son dos sucesiones en el espacio vectorial normado y de dimensión finita (V , kk), que
v, w ∈ V son elementos cualesquiera, que (λn )n∈N es una sucesión en R y que λ ∈ R es un número cualquiera.
1. Si (vn )n∈N converge en V hacia los vectores v, w ∈ V entonces v = w.

2. Si (vn )n∈N converge en V (no importando a quien converja) entonces es una sucesión de Cauchy.
3. Si (vn )n∈N converge en V (no importando a quién converja) entonces es una sucesión acotada.
4. Si (vn )n∈N converge a v, (wn )n∈N a w y (λn )n∈N converge en R hacia λ entonces la sucesión (vn +λn wn )n∈N
converge a v + λw.

5. Si (wn )n∈N es una subsucesión de (vn ) entonces, que (vn )n∈N converja a v implica que (wn )n∈N también
converge a v.
6. Si (vn )n∈N es convergente a 0 ∈ V y (λn )n∈N es acotada en R entonces (λn vn )n∈N también converge a
0 ∈ V.
Sugerencia: para cada inciso se da una sugerencia.

1. Imita la demostración de (2.3.5).


2. Imita la demostración de (2.3.12).
3. Relee la demostración de (2.3.14), al principio de la demostración se prueba esta propiedad. Imita la prueba.

4. Nota que

kvn + λn wn − (v + λw)k ≤ kvn − vk + kλn wn + λwk


≤ kvn − vk + kλn wn − λn wk + kλn w − λwk
= kvn − vk + |λn | kwn − wk + |λn − λ| kwk .

Luego, usarás que (λn ) es acotada y que kwk es una constante.


5. Pues si ε > 0 existe un N ∈ N tal que n ≥ N Ñ kvn − vk ≤ ε. Ciertamente también se cumple que
n ≥ N Ñ kwn − vk < ε, ¿por qué?

6. Sea M una cota de (λn ). Entonces, kλn vn k ≤ M kvn k .

51
Capítulo 2. Funciones, sucesiones y series.

52
Capítulo 3

• Topología de Rn .

Aquí se verán las propiedades más importantes sobre los subconjuntos de Rn para poder desarrollar
adecuadamente el cálculo. En el siguiente capítulo se desarrollarán más propiedades sobre topología
de puntos en Rn . Esto será posible una vez que se hayan estudiado a las curvas en Rn .

§ 3.1. Subconjuntos de Rn .
A diferencia del cálculo de una variable en el que solo podían considerarse los intervalos, en Rn se
tiene una infinidad de posibilidades. Se empieza con la generalización de los intervalos. En R el intervalo
[a, b] se definía como el conjunto de todos los números entre a y b incluyendo a los extremos. El análogo
en Rn es, naturalmente, [a1 , b1 ] × · · · × [an , bn ] y a este conjunto se le llamará caja cerrada, rectángulo
cerrado, intervalo n-dimensional cerrado o inclusive policilindro cerrado1 . En R2 se tiene una imagen
geométrica del rectángulo cerrado, la cual es un rectángulo, el cual contiene a todos sus lados. Del
mismo modo, en R3 la imagen geométrica de una caja cerrada es un paralelepípedo el cual contiene
todas sus caras.
Del mismo modo que antes, se tiene una generalización natural del intervalo abierto, ¿puede adivinar
cuál es? Al conjunto (a1 , b1 ) × · · · × (an , bn ) se le denomina caja abierta, rectángulo abierto, etcétera.
Como en el caso del rectángulo cerrado se tiene una imagen geométrica del rectángulo abierto. En R2
se puede ver, igualmente, un rectángulo, mas esta vez no contiene sus lado y en R3 una caja que no
tiene a sus caras.
Los nombres de intervalo abierto y cerrado están muy relacionados con las imágenes geométricas
de tales intervalos. Por ejemplo, ¿se ha preguntado alguna vez por qué al intervalo (a, b) se le llama
abierto? El adjetivo abierto surge del hecho que (a, b) no tiene bordes, es decir, estando dentro del
intervalo se puede acercarse tanto a los extremos como se quiera sin llegar a estar en ellos. Intervalos
como (−∞, a) y (a, ∞) son abiertos. Como generalización natural, se dice que el conjunto A ⊂ R es
abierto si nunca se tocan sus bordes; esto es, si dado un x ∈ A se puede hallar un δ > 0 tal que
(x − δ, x + δ) ⊂ A. Observa que (x − δ, x + δ) = {y ∈ R : d(x, y) < δ}, en donde d es la distancia
euclidiana. Este último conjunto ya no depende de la dimensión y está dispuesta a generalización.

( 3.1.1 ) Dado X en Rn , se llamará al conjunto

{Y ∈ Rn : kX − Y k < δ}
1 El término que se emplee para designarlo dependerá siempre del contexto.

53
Capítulo 3. Topología de Rn .

una bola abierta de radio δ centrada en X. Será denotada por B (X; δ)2 .

Observación: La imagen geométrica en R2 de una bola abierta es un disco centrado en el punto dado
que no contiene a su círculo perimetral. En R3 se tiene un balón esférico sin cáscara.
La generalización natural es considerar ahora un conjunto arbitrario A ⊂ Rn y definir cuando A es
abierto.

( 3.1.2 ) Sea A ⊂ Rn cualquiera. Se dirá que A es un conjunto abierto si para todo X en A existe un δ > 0 tal
que B (X; δ) ⊂ A.

Cabe la aclaración que la definión anterior es para conjunto abierto y que antes se definió bola
abierta. Obviamente los nombres parecen indicar que las bolas abiertas son conjuntos abiertos. Esto
será visto más adelante.

( 3.1.3 ) Para cada n ∈ N, Rn es abierto. Asimismo, el conjunto vacío es abierto.

Para verificar esto, sea X ∈ Rn y δ = 1, claramente B (X; δ) ⊂ Rn . Que ∅ sea abierto se sigue por
vacuidad.
De este modo se extendió la definición de que un conjunto sea abierto partiendo de los intervalos
en R a alguna colección de subconjuntos de Rn . Los ejemplos mostrados a continuación traen como
resultado que esta colección no es vacía.

( 3.1.4 ) Toda bola abierta es un subconjunto abierto de Rn .

Sea X ∈ Rn y M > 0, sea A = B (X; M) . Imagina lo que sucede en R2 , tal vez esto sugiera qué hacer
en el caso general. En R2 se tiene que A es un disco de radio M y con centro en X. Se quiere ver que
para cualquier punto Y en el disco existe otro disco cuyo centro es el punto Y y que está completamente
contenido en el disco dado. Si se toma la recta que une X con Y y se ve que si se toma la diferencia
entre M y la distancia entre X y Y entonces la distancia menor de Y al borde del disco. Con esto
bastaría tomar el radio del disco centrado en Y como cualquier número positivo que sea menor que la
diferencia entre ambos. Se verá que esto funciona.
M − kX − Y k
Sean Y ∈ A y r = . Se define B = B (Y ; r) . Se quiere ver que B ⊂ A. Sea Z ∈ B. Por
2
construcción, kZ − Y k < r y se debe demostrar que kZ − Xk < M; esto sugiere usar la desigualdad del
triángulo.

kZ − Xk ≤ kZ − Y k + kY − Xk < r + kY − Xk
M − kX − Y k M − kX − Y k + 2 kY − Xk
= + kY − Xk =
2 2
M + kY − Xk 2M
= < =M
2 2
Con la última desigualdad se ve que Z ∈ A, con lo cual B ⊂ A. Se concluye que toda bola abierta es un
subconjunto abierto.
El lector deberá buscar la forma de entender los argumentos geométricos empleados en esto ejem-
plos. Una recomendación razonable es que en estos primeros ejemplos resueltos traiga una hoja de
papel y realize el dibujo asociado a la demostración. Rápidamente notará que los argumentos siguen
ideas geométricas muy claras.

( 3.1.5 ) Todo rectángulo abierto en Rn es un subconjunto abierto.


2 Muchos autores denotan al conjunto B
(X; δ) como Bδ (x) o también N(X, δ), en donde N viene de la palabra neighborhood,
la cual significa vecindad en inglés.

54
3.1. Subconjuntos de Rn .

Antes de iniciar la demostración conviene visualizar el problema en R2 . Sean a1 < b1 y a2 < b2 . Se


define el rectángulo abierto
R = {(x, y) ∈ R2 : x ∈ (a1 , b1 ), y ∈ (a2 , b2 )}.
Se toma un punto fijo (x1 , x2 ) en el rectángulo dado. Ahora se construye una bola de centro (x1 , x2 ) que
esté completamente contenida en el rectángulo. Lo más natural es intentar construir una bola de centro
(x1 , x2 ) y de radio r, donde r es menor a la distancia de (x1 , x2 ) a los lados del rectángulo. Las distancias
de (x1 , x2 ), en término de sus coordenadas, a los lados del rectángulo son x1 −a1 , b1 −x1 , x2 −a2 y b2 −x2 .
Se considera B la bola de radio r, el cual es igual a un medio del mínimo de estas distancias, y con centro
en (x1 , x2 ). Sea (x, y) un punto de B. Por ser (x, y) un punto de B se sabe que k(x, y) − (x1 , x2 )k < r. Por
el ejercicio (1.20), se tiene que
|x − x1 | ≤ k(x, y) − (x1 , x2 )k ≤ |x − x1 | + |y − x2 |
y
|y − x2 | ≤ k(x, y) − (x1 , x2 )k ≤ |x − x1 | + |y − x2 |.
Para probar que (x, y) está en R se tiene que ver que x ∈ (a1 , b1 ) y que y ∈ (a2 , b2 ). Se ilustra el
caso para x e inmediatamente después se prueba el caso general.
Para ver el caso de x simplemente se usarán propiedades del valor absoluto.
x − a1 ≤ |x − a1 | = |x − x1 + x1 − a1 | ≤ |x − x1 | + |x1 − a1 |
≤ k(x, y) − (x1 , x2 )k + x1 − a1 < r + x1 − a1
< b1 − x1 + x1 − a1 = b1 − a1 .
La última desigualdad implica que x < b1 . La otra desigualdad es análoga,
b1 − x ≤ |b1 − x| = |b1 − x + x1 − x1 | ≤ |x1 − x| + |b1 − x1 |
≤ k(x, y) − (x1 , x2 )k + b1 − x1 < r + b1 − x1
< x1 − a1 + b1 − x1 = b1 − a1
La última desigualdad implica que a1 < x, esto prueba que x ∈ (a1 , b1 ) el caso para y es análogo.
Ahora se da la prueba para n variables simultaneas. Sea R un rectángulo abierto de Rn y sea
X ∈ R. Por ser R un rectángulo abierto existen ai y bi tales que ai < bi , para todo i ∈ {1, · · · , n}, y
R = (a1 , b1 ) × · · · × (an , bn ). Como X ∈ R se tiene que xi ∈ (ai , bi ), se define
1
r= mı́n{x − ai , bi − x : i = 1, · · · , n},
2
es decir, r es el menor que la mínima distancia de X a las “caras” de R. Sean B = B (X; r) y Y ∈ B,
Y = (y1 , . . . , yn ). Para probar que Y está en R se tiene que verificar que yi ∈ (ai , bi ) para cualquier
i ∈ {1, · · · , n}. Entonces, se repiten las desigualdades previas,
y i − ai ≤ |yi − ai | ≤ |yi − xi + xi − ai | ≤ |yi − xi | + |xi − ai |
≤ kY − Xk + xi − ai < r + xi − ai
< bi − xi + xi − ai = bi − ai
de este modo, yi < bi para cada i ∈ {1, . . . , n}. Análogamente ai < yi , esto prueba que R es abierto.
El lector ya habrá notado que detrás de estos ejemplos existen muchos argumentos geométricos.
Las propiedades de R, R2 y R3 sugieren cómo atacar el caso n dimensional.
A continuación se extenderá la definición de intervalo cerrado a la de subconjunto cerrado de Rn .
Intuitivamente, un conjunto abierto no contiene sus bordes y un conjunto cerrado habrá de contenerlos,
es decir, contiene lo que no contiene el abierto. Por lo que es razonable la siguiente definición.

55
Capítulo 3. Topología de Rn .

( 3.1.6 ) Sea A ⊂ Rn . Se dirá que A es un conjunto cerrado si el conjunto {Rn A = Rn \ A es abierto.


( 3.1.7 ) Tanto como Rn y ∅ son abiertos y cerrados. En cambio, Q no es ni abierto ni cerrado.
Dado que Rn es abierto, se sigue, de esta definición, que el vacío, ∅, es cerrado, pues ∅ = Rn \ Rn .
El mismo argumento muestra que Rn es abierto y cerrado al mismo tiempo. Que Q no es abierto ni
cerrado se sigue que entre cada dos número reales x < y existen x ≤ u, v ≤ y con u ∈ Q y v ∈/ Q.
Para lo que sigue es necesaria la definición de conjunto denso.
( 3.1.8 ) Sea S un subconjunto de Rn . Se dirá que A ⊂ S es denso en S si para todo r > 0 y para todo X ∈ S
existe Y ∈ A ∩ B (X; r) .
Es claro que la definición precedente es equivalente a la siguiente proposición. La demostración se
deja de ejercicio al lector.
( 3.1.9 ) Sea S ⊂ Rn . Entonces A es denso en S si y solo si para todo r > 0 y todo X ∈ S existe Y ∈ A con
kX − Y k < r.
r
Dado r > 0 y t ∈ T existe s ∈ S con kt − sk ≤ . Para este s ∈ S particular y este r > 0 existe
2
r
a ∈ A con ks − ak ≤ . La desigualdad del triángulo conduce a kt − ak ≤ r. Con esto, formalizando los
2
detalles, se demuestra el siguiente resultado.
( 3.1.10 ) Sean A, S y T tales que A es denso en S y S denso en T. Entonces A es denso en T.
El siguiente teorema es conocido del cálculo elemental. Se omite su demostración pues cae fuera
del contexto de este libro. Una demostración de este hecho se puede encontrar en [16].
( 3.1.11 ) El conjunto Q es denso en R.
Asimismo, ahora es fácil demostrar que R \ Q es denso en R (ejercicio (3.1)), se utilizará esto más
adelante.
( 3.1.12 ) Sea A ⊂ [0, 1] subconjunto cerrado de R tal que para todo r ∈ [0, 1] ∩ Q, r ∈ A. Entonces [0, 1] = A.
Se sabe que R \ A es abierto y que [0, 1] ∩ Q ⊂ A. De este modo, basta probar que todo irracional en
[0, 1] es elemento de A. Sea x ∈ [0, 1] \ Q, y supón que x ∈/ A entonces x ∈ R \ A. Por tanto, existe ε > 0
tal que B (x; ε) ⊂ (R \ A) ∩ [0, 1]. Esto equivale a decir que todos los puntos en B (x; ε) son irracionales,
pero se sabe que Q es un conjunto denso sobre R y, en particular, sobre [0, 1] (ejercicio 3.2). Como Q
es denso en [0, 1] existe algún racional en B (x; ε) contradiciendo la hipótesis que R \ A es abierto, por
tanto x ∈ A. Esto prueba que [0, 1] ⊂ A.
Faltan unos términos por definir. Éstos son el interior, la frontera y el exterior de un subconjunto
A ⊂ Rn . Resulta natural la siguiente pregunta: ¿qué debería ser el interior, la frontera y el exterior de
un subconjunto de Rn ? Considera R e I ⊂ R un intervalo. Entonces, la frontera de I es el conjunto de
puntos tales que para toda bola centrada en ellos existe un punto del intervalo en la bola y un punto
del complemento del intervalo en la bola. Ahora la definición deja de depender de la dimensión.
( 3.1.13 ) Dado un subconjunto A ⊂ Rn la frontera de A, denotada como ∂A, es el conjunto de X en Rn tales
que para todo ε > 0 se tiene que existe Y ∈ A y Z ∈ Rn \ A tal que Y ∈ B (X; ε) y Z ∈ B (X; ε) .
¿Puede el lector definir qué es el exterior y el interior de A? Aunque ya es posible para el lector
dar una definición formal para tales conceptos, para evitar cualquier ambigüedad han sido incluidas
las definiciones aquí. Primero se nota que el interior, como su nombre sugiere, es aquello que está
completamente contenido dentro del conjunto. El exterior es análogo, el conjunto de puntos para los
cuales existe una bola cuya intersección con el conjunto dado es vacía.

56
3.1. Subconjuntos de Rn .

˚
( 3.1.14 ) Dado un subconjunto A ⊂ Rn el interior de A, denotado como A, Û es el conjunto de X en Rn tales que
existe algún ε > 0 para el cual B (X; ε) ⊂ A. El exterior de A, denotado como ext A, es el conjunto de puntos
X en Rn para los cuales existe ε > 0 tal que B (X; ε) ⊂ {Rn A.
( 3.1.15 ) Para cualquier subconjunto de Rn , su interior y su exterior son conjuntos disjuntos. Más aún, el interior,
˚
exterior y frontera son conjuntos disjuntos dos a dos y forman una partición de Rn . Esto es, Rn = A Û ∪ ∂A ∪ ext A
n
para cualquier A ⊂ R .
Esta afirmación es inmediata de la definición, queda a cargo al lector la demostración en los ejerci-
cios.
( 3.1.16 ) Determine el interior, exterior y la frontera del conjunto Sn−1 , el cual está definido como {X ∈ Rn :
kXk = 1}.
Este conjunto es muy “delgado” en el sentido que en R2 corresponde a los puntos sobre un círculo
y en R3 a la cáscara de una balón esférico. Es natural pensar que no tiene puntos interiores. De este
modo tiene sentido pensar que el interior es vacío, el exterior es Rn menos el conjunto dado, esto es
que el conjunto dado es su frontera.
Sean X tal que kXk = 1 y r > 0. Existe Y ∈ B (X; r) con kY k 6= kXk ; de hecho, sea L la recta que pasa
r
por el origen en dirección de X, es decir, L = {tX : t ∈ R}, para Y = X + X se tiene que kX − Y k < r
2
pero kXk 6= kY k . De este modo la bola contiene puntos del conjunto, a saber X, y puntos fuera del
conjunto, Y . Luego, el conjunto dado está contenido en su frontera, Sn−1 ⊂ ∂Sn−1 .
Se supone ahora que X está en la frontera del conjunto. Si kXk 6= 1 entonces es mayor o menor. Se
demostrará el caso cuando kXk > 1 y se dejarán los detalles al lector para el caso kXk < 1. Se supone
δ−1
que kXk = δ > 1, y se considera Y en la bola centrada en X de radio . Se cumple que
2
δ−1
kXk ≤ kY k + kY − Xk ≤ kY k + ,
2
usando la desigualdad del triángulo (ve (1.4.2)). Despejando kY k , se ve que
δ−1 δ−1 δ+1
kY k ≥ kXk − =δ− = > 1.
2 2 2
Por tanto, existe una bola centrada en X que no contiene puntos del conjunto. Esto implica que X no
está en la frontera y, por tanto, kXk no es mayor a uno. El razonamiento para el caso menor es análogo.
De este modo, la norma de X es uno. Así, el conjunto y su frontera coinciden.
Del ejemplo anterior es razonable pensar que si B0 (X; r) = {Y ∈ Rn : kX − Y k ≤ r} entonces
∂B (X; r) = {Y ∈ Rn : kX − Y k = r}. Al conjunto B0 (X; r) se le conoce como bola cerrada de centro X
0

y radio r. El siguiente ejemplo confirma nuestra intuición.

0 ˚
( 3.1.17 ) Sea B0 (X; r) ⊂ Rn la bola cerrada de centro X y radio r. Determine quienes son los conjuntos B
˚ (X; r) ,
0 0
ext B (X; r) y ∂B (X; r) .
Observa que B (X; r) ⊂ B0 (X; r) , como B (X; r) es un conjunto abierto se tiene que

0 ˚
B (X; r) ⊂ B
˚ (X; r) .

0 ˚
Lo cual es consecuencia directa de las definiciones. Se supone ahora que Y ∈ B
˚ (X; r) . Claramente,
Y ∈ B0 (X; r) , por lo tanto, kX − Y k ≤ r. Se verá a continuación que

kX − Y k = r ⇔ Y ∈ ∂B0 (X; r) ,

57
Capítulo 3. Topología de Rn .

de lo cual se seguirá que


0 ˚
Y ∈B
˚ (X; r) Ñ kX − Y k < r,

0 ˚
y, por lo tanto, B
˚ (X; r) = B (X; r) .
Se afirma que ∂B0 (X; r) = {Y ∈ Rn : kX − Y k = r}. Sea Y ∈ ∂B0 (X; r) , supón que kX − Y k < r
0 ˚
entonces Y ∈ B ˚ (X; r) y, por tanto, Y ∈/ ∂B0 (X; r) . De este modo, kX − Y k ≥ r. Para verificar la igualdad
se procederá por contradicción. Se supone que kX − Y k > r entonces como Y ∈ ∂B0 (X; r) cualquier bola
centrada en Y contendrá un punto de B0 (X; r) , tal punto no es Y pues al ser kX − Y k > r, Y ∈/ B0 (X; r) .
Sea Å ã
kX − Y k − r
Z ∈ B Y; ∩ B0 (X; r) ,
2
entonces
kX − Y k − r
kY − Xk ≤ kZ − Xk + kZ − Y k < kZ − Xk + ,
2
utilizando la desigualdad del triángulo. Luego,

kX − Y k − r kX − Y k + r
kZ − Xk > kY − Xk − = > r.
2 2
Entonces, Z ∈/ B0 (X; r) , contradicción a que Y ∈ ∂B0 (X; r) . Por lo tanto, kX − Y k = r, esto demuestra
que ∂B0 (X; r) ⊂ {Y ∈ Rn : kX − Y k = r}.
Se demuestra ahora la otra contenencia. Sea Y ∈ Rn con kX − Y k = r, se verá que Y ∈ ∂B0 (X; r) .
Para esto, dada cualquier bola B (Y ; δ) se debe exhibir un elemento Z ∈ B0 (X; r) ∩ B (Y ; δ) y un elemento
Z ∈ {B0 (X; r) ∩ B (Y ; δ) . Claramente, Y ∈ B0 (X; r) ∩ B (Y ; δ) , de esto, basta exhibir un elemento Z ∈
{B0 (X; r) ∩ B (Y ; δ) . Se considera la recta L que pasa por X y Y , esto es, la recta que pasa por X en
δ
dirección de Y − X. Se puede ver que L = {X + t(Y − X) : t ∈ R}. Entonces, para t = 1 + el punto
2r
0
Z = X + t(Y − X) está en {B (X; r) . En efecto, basta calcular la distancia entre X y Z, esta es,

kZ − Xk = kt(Y − X)k = t kY − Xk = tr > r,

pues t > 1. Por lo tanto, Z ∈ {B0 (X; r) . Ahora bien,

δr
kZ − Y k = ktY − (t − 1)X − Y k = (t − 1) kX − Y k = <δ
2r
Luego, Z ∈ B (Y ; δ) Esto demuestra que Y ∈ ∂B0 (X; r) . Por lo tanto,

∂B0 (X; r) = {Y ∈ Rn : kX − Y k = r}.

Finalmente, ext B0 (X; r) = {Y ∈ Rn : kX − Y k > r}, esto es cierto pues Rn está partido de la siguiente
forma
Rn = {Y ∈ Rn : kX − Y k < r} ∪ {Y ∈ Rn : kX − Y k = r} ∪ {Y ∈ Rn : kX − Y k > r}
y
0 ˚
Rn = B
˚ (X; r) ∪ ∂B0 (X; r) ∪ ext B0 (X; r) ,
con ambas particiones disjuntas. Al ser

0 ˚
B
˚ (X; r) = {Y ∈ Rn : kX − Y k < r}

58
3.2. Propiedades de la topología de Rn .

y
∂B0 (X; r) = {Y ∈ Rn : kX − Y k = r},
no queda de otra más que ext B0 (X; r) = {Y ∈ Rn : kX − Y k > r}.
No siempre es fácil visualizar quién es la frontera de un conjunto dado. Por ejemplo, considera
A = [0, 1] ∩ Q ⊂ R. Entonces para x ∈ A se tiene que toda bola de centro x tiene puntos racionales e
irracionales pues Q ⊂ R y R \ Q ⊂ R son conjuntos densos de R. Entonces A ⊂ ∂A, esto demuestra
˚
que AÛ = ∅. Ahora bien, como A ⊂ [0, 1] es fácil pensar que ∂A = [0, 1]. Es cierto, se dejan los detalles
al lector.
( 3.1.18 ) Sea Qn = {(x1 , . . . , xn ) ∈ Rn : xi ∈ Q, i = 1, . . . , n}. Determine el interior, exterior y la frontera de
este conjunto.
Visualizar este conjunto es difícil. Dado que Q ⊂ R es denso en R, se deja de ejercicio verificar que
Qn es denso en Rn . Se afirma que {Qn es denso en Rn . En efecto, sea X ∈ Rn . Si X ∈ {Qn entonces no
hay nada que demostrar, se supone que X ∈ Qn y sea r > 0. Se considera x1 la primera coordenada de
X entonces como {Q es denso en R existe y ∈ {Q tal que |x1 − y| < r. Sea Y = (y, x2 , . . . , xn ) entonces
Y ∈ {Qn y kX − Y k = |x1 − y| < r. Esto demuestra que {Qn es denso en Rn .
Ahora es fácil demostrar que el conjunto dado esta contenido en su frontera. En efecto, dado X ∈ Qn
˚n
y r > 0 existe Y ∈ {Qn tal que kX − Y k < r, con lo cual Qn ⊂ ∂Qn . Esto muestra que Q
Ù = ∅, de manera
˚n
análoga, usando la densidad de Q en R se demuestra que R ⊂ ∂Q . Luego, R = ∂Qn , Q
n n n n n Ù =∅y
n
ext Q = ∅.
En el último ejemplo la frontera era todo Rn . Este resultado puede resultar sorprendente. Cuando
se habla por primera vez de la frontera de un conjunto lo primero que uno imagina es un conjunto
muy “delgado”, esto sucedía en las bolas abiertas. Pero ver que la frontera de un conjunto puede ser
todo el espacio puede traer sorpresas inesperadas.

§ 3.2. Propiedades de la topología de Rn .


Ahora se desarrollará teoría en general sobre conjuntos abiertos y cerrados. Primero que nada se
empezará con uniones e intersecciones de conjuntos abiertos y cerrados. Luego se podrá clasificar la
frontera, el interior y el exterior de un conjunto arbitrario. Esto es, se verá que la frontera de todo
conjunto es un conjunto cerrado y que el interior y exterior son conjuntos abiertos.
( 3.2.1 ) Sea (Aα )α∈Λ una familia de subconjuntos abiertos de Rn entonces su unión es un conjunto abierto.
[
Sea A = Aα . Se quiere ver que A es abierto. Sea X ∈ A. Por definición, existe α ∈ Λ tal que
α∈Λ
X ∈ Aα . Como Aα es abierto, existe δ > 0 tal que B (X; δ) ⊂ Aα ⊂ A y por tanto A es abierto.
En particular, la unión arbitraria de bolas y rectángulos abiertos es un abierto. Pronto el lector
descubrirá otros conjuntos abiertos.
( 3.2.2 ) La intersección finita de conjuntos abiertos es abierto.
Para facilitar la demostración se usará inducción matemática. Se empieza definiendo el conjunto H
al que le será aplicado el teorema de inducción. Sea

H = {n ∈ N : la intersección de n conjuntos abiertos es un abierto}.

Hay que demostrar dos cosas, que 1 ∈ H y que n ∈ H Ñ n + 1 ∈ H . Con esto, H = N, de aquí que
la intersección finita de cualquier número de abiertos es abierto.

59
Capítulo 3. Topología de Rn .

Primero se verá que 1 ∈ H . Sea A un conjunto abierto. Entonces A es abierto y, por tanto, 1 ∈ H .
Se necesitará el caso n = 2. Sean A1 y A2 dos conjuntos abiertos. Sea x un elemento en A1 ∩ A2 . Por
ser A1 y A2 conjuntos abiertos de Rn existen δ1 > 0 y δ2 > 0 tales que B (x; δi ) ⊂ Ai para i = 1, 2. Sea
δ = mı́n{δ1 , δ2 }, basta un segundo para darse cuenta que B (x; δ) ⊂ B (x; δ1 ) y que B (x; δ) ⊂ B (x; δ2 ) .
Por tanto, B (x; δ) ⊂ A1 ∩ A2 . De este modo, 2 ∈ H .
Se verá ahora que m ∈ H Ñ m + 1 ∈ H . Se supone que existe un m ∈ N para el cual, m ∈ H .
Sean A1 , . . . , Am conjuntos abiertos de Rn entonces
A1 ∩ A2 ∩ . . . ∩ Am+1 = (A1 ∩ A2 ∩ · · · ∩ Am ) ∩ Am+1
Se está suponiendo que m ∈ H luego, el conjunto A1 ∩ A2 ∩ · · · ∩ Am es abierto. Al haber demostrado
m+1
\
que 2 ∈ H , se sigue que Ai es un conjunto abierto. Por lo tanto, m ∈ H Ñ m + 1 ∈ H . Por el
i=1
teorema de inducción matemática H = N.
El lector estará preguntándose, ¿por qué una intersección finita? La respuesta la encontrará en el
siguiente ejemplo.
( 3.2.3 ) Existe una familia infinita, de hecho enumerable, de conjuntos abiertos en Rn tales que su intersección
no es abierto.
Lo más sencillo y fácil de visualizar es trabajar en R, cuando n = 1. Sea ε > 0 y se define la familia
(Bk (ε))k∈N por Å ã
1
Bk (ε) = 0, ε +
k
De este modo, la intersección de la familia es
∞ ∞ Å ã
\ \ 1
Bk (ε) = 0, ε + = (0, ε]
k
k=1 k=1

el cual no es un conjunto abierto, pues para el punto ε no existe una bola centrada en él completamente
contenida en el intervalo.
En virtud de (2.2.8) se obtienen reglas análogas para complementos.
( 3.2.4 ) La unión finita de conjuntos cerrados es cerrado.
Se usará (3.2.2), sean C1 , . . . , Cm conjuntos cerrados de Rn entonces cada {Ci es abierto. Se tiene
\m
que {Ci es abierto, luego
i=1 "m #
[ m
\
{ Ci = {Ci ,
i=1 i=1
m
[
que es abierto. Por definición de cerrado, Ci es cerrado.
i=1

( 3.2.5 ) La intersección de conjuntos cerrados es cerrado.


n
Sea (Aα )α∈Λ una
! familia de subconjuntos cerrados de R ; es decir, cada {Aα es abierto. Solo hay que
\
ver que { Aα es abierto. De nueva cuenta, en virtud de (2.2.8)
α∈Λ
!
\ [
{ Aα = {Aα
α∈Λ α∈Λ

60
3.2. Propiedades de la topología de Rn .

y, en virtud de (3.2.1), se concluye que la intersección de conjuntos cerrados es cerrado.


˚
Dado un conjunto A ⊂ Rn existen tres conjuntos ligados íntimamente a A. Estos son el interior, A,Û la
frontera, ∂A, y el exterior, ext A. Con los pocos teoremas que se tienen a mano ya se tienen condiciones
para clasificar la frontera, el interior y el exterior de un conjunto de Rn como conjuntos abiertos o
cerrado.
˚
( 3.2.6 ) Sea A ⊂ Rn no vacío. Entonces se cumple que su interior, A,
Û es abierto, su exterior, ext A, es abierto
y su frontera, ∂A, es cerrado.
˚
Primero se demostrará que para todo A ⊂ Rn , A
Û es abierto. Es cuestión de lenguaje notar que el
interior es
˚
AÛ = {X ∈ Rn : ∃r > 0 y B (X; r) ⊂ A}.
˚ ˚ ˚
Para demostrar que A Û es abierto hay que demostrar que para todo X ∈ A Û existe r > 0 tal que B (X; r) ⊂ A.
Û
˚ ˚
Se observa que si A Û es vacío entonces es abierto por vacuidad. Se supone que X ∈ A Û y r > 0 tal que
˚
B (X; r) ⊂ A. Se afirma que B (X; r) ⊂ A. Supón que Y ∈ B (X; r) , como B (X; r) es abierto, existe r 0 tal
Û
˚ ˚ ˚
que B (Y ; r 0 ) ⊂ B (X; r) ⊂ A. De este modo, Y ∈ AÛ y, por tanto, B (X; r) ⊂ A.
Û Es decir, A
Û es un conjunto
abierto.
Se ve ahora que ext A es abierto. Por definición, se tiene que

ext A = X ∈ Rn : ∃r > 0 y B (X; r) ⊂ {A .




˚
El resto de la demostración es análoga a la de A.
Û
˚
Finalmente, se ve que ∂A es cerrado. Basta ver que {∂A es abierto. Como ∂A ∩ AÛ = ∂A ∩ ext A = ∅ y
n ˚ ˚
R = ∂A ∪ A ∪ ext A se sigue que {∂A = A ∪ ext A, el cual es un conjunto abierto. Con esto se concluye
Û Û
la demostración del teorema.
En ocasiones se trabaja con subconjuntos de Rn para los cuales no se sabe si son abiertos, cerrados
o ninguno. En caso que se quiera trabajar con el conjunto abierto más grande que está contenido en
el conjunto dado se usa su interior. Si se quiere trabajar con el conjunto cerrado más pequeño que
contenga al conjunto dado, se debe trabajar con la unión del conjunto y su frontera. Éste conjunto
recibe un nombre especial, la cerradura.

( 3.2.7 ) Dado un conjunto A ⊂ Rn se define la cerradura de A, denotada por A, como A ∪ ∂A.

A continuación se demostrará una propiedad que caracteriza a los conjuntos cerrados. Lo que dirá
el siguiente teorema es, los conjuntos cerrados son aquellos que contienen a su frontera. El teorema es
de demostración sencilla, pero tiene un detalle técnico importante, se usa la definición de punto límite.

( 3.2.8 ) Sea A ⊂ Rn y P ∈ Rn . Se dirá que P es punto de acumulación de A si toda bola centrada en P tiene
algún punto de A distinto de P.
˚
( 3.2.9 ) Sean A ⊂ Rn y P ∈ A.
Û Entonces P es un punto de acumulación de A.

Existe una bola B (P; r) ⊂ A y sea B es una bola centrada en P entonces se puede encontrar otra
bola B (P; δ) tal que B (P; δ) ⊂ B ∩ B (P; r) (pues la intersección de abiertos es abierto). Para cons-
truir Å
un Q distinto de ã P tal que Q ∈ B (P; δ) se observa lo siguiente, pon P = (p1 , . . . , pn ) y sea
δ δ
Q = p1 + , p2 , . . . , pn , es claro que kP − Qk = , por lo que Q 6= P y Q ∈ B (P; δ) , mostrando
2 2
que P es punto de acumulación de A.

61
Capítulo 3. Topología de Rn .

( 3.2.10 ) Sea B una bola en Rn , ya sea abierta o cerrada. Entonces todos los puntos de ∂B son puntos de
acumulación de B.

En efecto, ya se sabe que ∂B = {X ∈ Rn : kX − Pk = r} (ve (3.2.6)), en donde P es el centro de la bola


y r su radio. Sea Y ∈ ∂B; esto es, ïkY − Pkò = r. Considera una bola B (Y ; δ) y, sin perder generalidad,
δ Y −P
supón que δ < r. Define Z = P + r − (geométricamente, Z es un punto sobre el segmento
2 r
δ
que una a P con Y ), se ve que kZ − Pk = r − < r, con lo que Z ∈ B. Por otro lado,
2
ï ò
δ Y − P = δ kY − Pk = δ < δ,
kZ − Y k = P − Y + r −
2 r 2r 2

mostrando que Z ∈ B (Y ; δ) , con lo cual, se concluye lo afirmado.

( 3.2.11 ) En general no es cierto que los puntos frontera de un subconjunto dado en Rn sean puntos de
acumulación de este conjunto.

Considera, por ejemplo, A = (0, 1) ∪ {2} ⊂ R entonces ∂A = {0, 1, 2} pero 2 no es un punto de


acumulación de A.

( 3.2.12 ) Sea A ⊂ Rn no vacío. Se dirá que P ∈ A es punto aislado de A si existe r > 0 y B (P; r) ∩ A = {P}.

Un término relacionado con los dos anteriores es el de punto límite.

( 3.2.13 ) Sea A un subconjunto de Rn . Se dirá que P ∈ Rn es un punto límite de A si existe una sucesión
(Pn )n≥1 definida en A tal que lı́m Pn = P.
n→∞

( 3.2.14 ) Sea P un punto aislado de A. Entonces P es punto límite de A.

En efecto, se tiene forzosamente que P ∈ A, por lo que se puede definir Pn = P para cada n ∈ N y,
claramente, lı́m Pn = P.
n→∞

( 3.2.15 ) Si P es de acumulación de A ⊂ Rn entonces es punto límite de A.

Para verificar esto se observa que si P ∈ A entonces se pone Pn = P y esto concluye el caso.
Å Si Pã ∈/ A
1
entonces para cada n ∈ N existe, por la definición de punto de acumulación, un punto Pn ∈ B P; ∩A.
n
1
La sucesión (Pn )n≥1 es convergente a P pues kPn − Pk = converge a cero.
n
( 3.2.16 ) Si P es un punto límite de A entonces P o es un punto aislado de A o es un punto de acumulación de
A.

En efecto, se divide la prueba en dos casos: cuando P es punto aislado y cuando no lo es. Si P
es aislado no hay que demostrar nada, por lo que se supone que no lo es. Hay una sucesión (Pn )n∈N
definida en A tal que converge a P. Tal sucesión no deviene constante en ningún momento puesto que
P ∈/ A. Sea ε > 0. Hay un N ∈ N tal que n ≥ N Ñ kPn − Pk < ε; esto es, PN ∈ B (P; ε) y, ciertamente,
PN es distinto de P.

( 3.2.17 ) Sea A ⊂ Rn . Para que A sea cerrado es necesario y suficiente que A contenga a todos sus puntos
límite (de acumulación).

62
3.2. Propiedades de la topología de Rn .

Como todo punto límite o es de acumulación o aislado y, al ser los puntos aislados de A necesaria-
mente elementos de A, basta dar la demostración para el caso de punto de acumulación. Ahora bien,
la demostración consta de dos pasos; primero se supondrá que A es cerrado y se verificará que A
contiene a todos sus puntos de acumulación y, segundo, se demostrará que si A contiene a todos sus
puntos de acumulación entonces A es cerrado.
Supón que A es cerrado y sea x un punto de acumulación de A. Se sabe que, por definición, {A es
abierto, como x es punto de acumulación de A, cada bola centrada en x intersecta a A y, por ende, no
existe una bola centrada en x que esté contenida en {A, mostrando que x ∈/ {A. Como x ∈/ {A, x ∈ A.
Se supone ahora que A contiene a todos sus puntos de acumulación. Para ver que A es cerrado se
tiene que probar que {A es abierto. Sea x ∈ {A, como x no es punto de acumulación de A se sigue
directamente de la definición que existe algún r > 0 tal que B (x; r) está contenido en {A, por tanto {A
es abierto.
Ahora se caracterizarán a los conjuntos cerrados. Para esto, se demostrarán otras propiedades de
puntos límite. Observa que un punto límite de A es un punto “cercano” a A, de este modo, si P es punto
límite de A ∪ B es razonable pensar que P es “cercano” a A o a B. Esto queda formalmente demostrado
en la siguiente proposición.

( 3.2.18 ) Sean A y B dos subconjuntos de Rn . Si para X ⊂ Rn se denota por X 0 a los puntos límite (de
acumulación) de X entonces, el siguiente resultado se verifica: (A ∪ B)0 = A0 ∪ B0 .

Como todo punto límite es o de acumulación o aislado y los puntos aislados de A∪B necesariamente
pertenecen a A ∪ B basta dar la demostración para el caso de punto de acumulación. Sea P ∈ (A ∪ B)0 .
Dado r > 0 el conjunto B (P; r) contiene un punto de A ∪ B que no es P. Por ende, P es punto de
acumulación de A o de B.
Recíprocamente, se considera P ∈ A0 ∪ B0 , se puede suponer sin perder generalidad, que P ∈ A0 . De
la definición de punto de acumulación, se obtiene que para cualquier r > 0 existe un Q que no es P
con Q en A y kP − Qk < r. Luego, Q ∈ A ∪ B, con lo que P ∈ (A ∪ B)0 .
Armados con la intuición de que los puntos límite son aquellos que están cerca del conjunto, se
conjetura que si A es un subconjunto de Rn y B denota el conjunto de puntos límite de A entonces el
conjunto de puntos límite de B está contenido en B. Para demostrar esto se utilizará el teorema (3.2.17),
obteniendo que basta demostrar que B es cerrado.

( 3.2.19 ) Sea A ⊂ Rn y B el conjunto de puntos límite de A entonces B es cerrado.

Al igual que los teoremas previos, basta ver que los puntos de acumulación de B también son puntos
de acumulación de A. Sea P un punto de acumulación de B entonces para demostrar que P ∈ B se
debe ver que P es un punto de acumulación de A. Para r > 0 dado existe un Qr tal que Qr no es P y
1
Qr ∈ B (P; r) ∩ B. Se define δ = mı́n{r − kP − Qr k , kP − Qr k} entonces B (Qr ; δ) ⊂ B (P; r) . Observa
2
que P ∈/ B (Qr ; δ) , pues kP − Qr k > δ. Ahora bien, puesto que Qr ∈ B se sigue que existe R ∈ A con
R 6= Qr y kQr − Rk < δ. Entonces, R ∈ B (P; r) , y R 6= P, por lo tanto, P ∈ B. Esto demuestra que B es
cerrado.
Es importante recordar cómo se tomó δ en el teorema anterior. Era fundamental asegurar que
P 6= Qr y que P 6= R.

( 3.2.20 ) Sea A ⊂ Rn . Entonces A es un subconjunto cerrado de Rn .

Para demostrar esto se debe verificar que A contiene a todos sus puntos límite, recuerda (3.2.17).
Pero al ser A = A ∪ ∂A, se obtiene que el conjunto de los puntos límite de A es la unión de los puntos
límite de A y los de ∂A (ve (3.2.18)). Pero como ∂A es cerrado, se sigue que contiene a sus puntos límite.
Luego, basta demostrar que los puntos límite de A están contenidos en A ∪ ∂A.

63
Capítulo 3. Topología de Rn .

Sea P un punto límite de A. Si P es aislado no hay nada que demostrar, por lo que se supone que
es de acumulación. Si P no está en A entonces necesariamente P ∈ ext A3 , mostrando que existe una
bola centrada en P que no toca a A, contradicción con que P sea punto de acumulación de A.

§ 3.3. El teorema de Borel-Lebesgue.


Continuando con el estudio de subconjuntos de Rn ha llegado el punto de comenzar a definir una
nueva clase de conjuntos, los cuales son de gran importancia.
( 3.3.1 ) Sea A ⊂ Rn y O una cubierta de A (ve (2.2.6)) tal que satisface que para todo U ∈ O se tiene que U
es abierto. Se dirá entonces que O es cubierta abierta de A.
La siguiente definición está dada en términos algo técnicos y define una nueva clase de conjuntos,
los cuales no suelen estudiarse en R. Aunque la definición es bastante complicada de verificar, se verá
que la colección de estos conjuntos es suficientemente grande.
( 3.3.2 ) Sea A ⊂ Rn cualquiera. Se dirá que A es un conjunto compacto si para toda cubierta abierta O de A
existe un subfamilia finita de O tal que sea cubierta abierta de A.
( 3.3.3 ) El vacío es un conjunto compacto.
Pues de toda cubierta abierta del vacío siempre se puede tomar un elemento de dicha cubierta y tal
elemento cubre al vacío.
( 3.3.4 ) Sea A = (0, 1) intervalo abierto y considera la familia
ÅÅ ãã
1
O= 0, 1 − ,
n n∈N
O cubre a A.
Para ver que satisface la definición se tiene que tomar un elemento de A y ver que puede ser
incluido en algún elemento de O. Sea x en A entonces x ∈ (0, 1) y por tanto 0 < 1 − x < 1. Se sabe
1 1 1
que existe un n ∈ N tal que n < < n + 1, de este modo, <1−x < o, equivalentemente,
1−x n+1 n
1 1
−1 + < −x < −1 + . Multiplicando la última desigualdad por menos uno se obtiene que
n+1 n Å ã
1 1 1
1− > x > 1 − > 0 y, por tanto, x ∈ 0, 1 − . Como x fue arbitrario, O es una cubierta
n+1 n n+1
abierta de A.
Se afirma ahora que no existe un subconjunto finito de O tal que cubra a A. La prueba se deja de
ejercicio. Una vez que se haya probado esta afirmación habrá quedado demostrado que el intervalo
(0, 1) no es compacto.
( 3.3.5 ) Sea ∞ < a ≤ b < ∞, el intervalo cerrado [a, b] es compacto; el «teorema de Borel-Lebesgue».
Se aplica un estilo de demostración clásica del cálculo. Si a = b el resultado es trivial pues A
consta de solamente un punto, de este modo se supondrá que a < b. Se tiene que probar que para toda
cubierta de [a, b] siempre se puede tomar un subconjunto finito de la cubierta tal que el subconjunto
siga siendo cubierta de [a, b]. Sea O una cubierta abierta de [a, b] y sea

A = {x ∈ [a, b] : [a, x] es cubierto por un número finito de elementos de O}.


3 Verificar Û˚ ∪ ∂A ∪ ext A y P ∈/ A ∪ ∂A entonces P ∈ ext A.
esto es sencillo, como Rn = A

64
3.4. Compacidad en Rn .

Como se quiere probar que A = [a, b] se tiene que ver que b ∈ A.


Se observa que a ∈ A pues cualquier conjunto que tenga a a como elemento lo cubre como conjunto;
esto es, siempre que un conjunto U ∈ O tenga a a (a ∈ U) se tiene que la familia de un elemento (U)
es cubierta abierta para a. Por lo tanto siempre se puede tomar un elemento de O que cubran a a. De
este modo A 6= ∅. Más aún, como a ∈ U y U es abierto, hay un x > a tal que [a, x] ⊂ U, por lo que
x ∈ A.
Se muestra ahora que A es un intervalo; en efecto, si x ∈ A entonces [a, x] es cubierto por un
número finito de elementos de O y, por ende, [a, y] está cubierto por un número finito de elementos
de O para cualquier y ∈ [a, x]. Esto muestra que [a, x] ⊂ A y que A es un intervalo. De hecho, tal
intervalo es cerrado, pues si A = [a, x) entonces [a, x) es cubierto por un número finito de elementos
de o. Obviamente a {x} lo puede cubrir un elemento, de lo cual se sigue que [a, x] = [a, x) ∪ {x} es
cubierto por una finitud de elementos de O, lo cual significa que x ∈ A.
Se observa que b es cota superior de A, por lo que existe el supremo de A, se pone α = sup A.
Para concluir, bastará ver que α = b. Se supone que α ∈ [a, b) por lo que existe un U en O tal que
α ∈ U, como a < α se ve que [a, α) ⊂ A, por lo que existe x ∈ U ∩ A tal que x ≤ α. Existe además un
ïδ > 0 tal òque x ∈ (α − δ, α + δ)ï⊂ U. Luego, ò [a, x] está cubierto por una finitud de elementos de O y
δ δ δ
x, α + ⊂ U, mostrando que a, α + está cubierto por una finitud de elementos de O y α + ∈ A,
2 2 2
contradicción a que α es el supremo de A.
Por lo tanto, el intervalo [a, b] es cubierto por una finitud de elementos de O, como O fue arbitrario
se sigue que [a, b] es un subconjunto compacto de R.

§ 3.4. Compacidad en Rn .
Esta sección puede contener elementos algo más técnicos que el resto del capítulo. La mayoría de
ellos son resultados que involucran conjuntos compactos en Rn . El lector deberá ser cauteloso cuando
lea las demostraciones.
El primer teorema habla sobre productos cruz de conjuntos compactos. El siguiente hecho se deja
como ejercicio al lector: en la definición de subconjunto abierto de Rn se pudo haber usado equivalen-
temente rectángulos abiertos que bolas abiertas (ve el ejercicio (3.10)).
( 3.4.1 ) Sea f : Rn → Rm . Se dice que f es una aplicación abierta si f(U) es abierto para todo subconjunto
abierto U de Rn .
( 3.4.2 ) Sean m ≤ n con m, n ∈ N y se define pr1,...,m : Rn → Rm la función de proyección dada por

pr1,...,m (x1 , . . . , xn ) = (x1 , . . . , xm ).

Entonces, cada pr1,...,m es una aplicación abierta.


[
Sea U un subconjunto abierto arbitrario de Rn . Observa que U = Rx , donde Rx es un rectángulo
x∈U
abierto con centro en x contenido en U. Tal rectángulo existe pues es la definición alternativa (ve el
n
Y
ejercicio (3.10)) de que U sea abierto. Pero cada Rx es de la forma Rx = (ai , bi ). Como pr1,...,m (Rx ) =
i=1
m
Y
(ai , bi ) y, por (2.2.8),
1=1 !
[ [
pr1,...,m Rx = pr1,...,m (Rx ),
x∈U x∈U

65
Capítulo 3. Topología de Rn .

se tiene que pr1,...,m (U) es abierto.


Con el ejemplo anterior se puede demostrar que el producto cruz de un número finito de conjuntos
compactos es un conjunto compacto.

( 3.4.3 ) Sea X ∈ Rn y B ⊂ Rm compacto. Entonces {X} × B es compacto.

Como siempre, se debe dar una cubierta abierta de {X} × B y demostrar que se puede tomar un
subconjunto finito de O de manera que este subconjunto siga siendo cubierta abierta de {X} × B.
Sea O una cubierta
[ de {X} × B. Todo elemento en {X} × B es de la forma (X, Y ) con Y ∈ B, por
ende {X} × B = {(X, Y )}. Para cada (X, Y ) ∈ {X} × B existe un WY de O tal que (X, Y ) ∈ WY . Como
Y ∈B
WY es un abierto, existen UY ⊂ Rn y VY ⊂ Rm , rectángulos abiertos, tales que

(X, Y ) ∈ UY × VY ⊂ WY .

Entonces, la familia (VY )Y ∈B es cubierta abierta de B. De la compacidad de B se deriva la existencia de


Y1 , . . . , Yn ∈ B tales que (VYi )i=1,...,k cubre B. Se consideran los correspondientes (UYi )i=1,...,k entonces
cada uno de ellos cubre {X} y, además,

[ k
[
{(X, Y )} ⊂ UYi × VYi .
Y ∈B i=1

Se consideran ahora los correspondientes WYi , nota que algunos de los WYi se pueden traslapar entre
sí, esto no importa pues lo que se busca es un subconjunto finito de O. Ahora solo resta demostrar
que (WYi )i=1,...,k cubre {X} × B. Dado (X, Y ) ∈ {X} × B existe i para el cual Y ∈ VYi entonces X ∈ UYi
y (X, Y ) ∈ WYi , por lo tanto, (WYi )i=1,...,k cubre {X} × B. Luego, ha sido demostrado que {X} × B es un
conjunto compacto de Rn+m .

( 3.4.4 ) Sean X ∈ Rn y B ⊂ Rm un compacto. Supón que O es una cubierta de {X} × B. Existe un U ⊂ Rn


abierto tal que X ∈ U y U × B es cubierto por un número finito de elementos de O; el «lema del tubo».

Como {X} × B es compacto, se tiene que existe una subfamilia (Wi )i=1,...,k de O tal que (Wi )i=1,...,k
cubre {X} × B. Se supone que todo Wi intersecta a {X} × B, de lo contrario puede ser eliminado de
la cubierta. Se define pr1,...,n : Rn+m → Rn la función proyección y sea Vi = pr1,...,n (Wi ) entonces Vi es
k
\
abierto (ve (3.4.2)) y X ∈ Vi para i = 1, . . . , k. Se define U = Vi entonces U es abierto y X ∈ U.
i=1
Se ve que U satisface lo pedido; dado (Y , Z) ∈ U × B, existe j tal que (X, Z) ∈ Wj . Pero Y ∈ Vi para
todo i = 1, . . . , k, así que Y ∈ Vj . De esto se sigue que (Y , Z) ∈ Wj , por lo tanto U × B es cubierto por
(Wi )i=1,...,k .
Es clave en el teorema anterior que U debe ser la intersección de los Vi y no su unión. Con la unión
se hubiéra podido concluir que Y estaba en algún Vi , no necesariamente con i = j, de esto no se sigue
necesariamente que (Y , Z) ∈ Wj . El teorema anterior no demuestra que U × B es compacto. De hecho,
más adelante se verá que U × B no puede ser compacto.
A continuación viene la demostración de que el producto cartesiano de cualquier cantidad finita de
conjuntos compactos es un conjunto compacto.

( 3.4.5 ) Sean A ⊂ Rn y B ⊂ Rm conjuntos compactos. Entonces A × B ⊂ Rn × Rm es compacto.

Sea O una cubierta abierta de A × B, para cada X ∈ A se tiene que {X} × B es compacto. De este
modo, por lema del tubo (3.4.4), existe un UX tal que UX × B es cubierto por un número finito de
elementos de O. Evidentemente, la familia (UX )X∈A es cubierta de A. Como A es un conjunto compacto

66
3.4. Compacidad en Rn .

siempre se puede escoger un número finito de los UX , por ejemplo UX1 , . . . , UXs , tales que la familia
(UXi )i=1,...,k cubre a A. Pero cada UXi , i = 1, . . . , k, es cubierto por una cantidad finita de elementos en
O, de este modo una cantidad finita de elementos en O cubren todo A × B.
Como corolario del teorema anterior se tiene el siguiente teorema. Su demostración puede reali-
zarse por inducción y queda a cargo del lector.

( 3.4.6 ) Sea Ai ⊂ Rni un conjunto compacto para i = 1, . . . , s. Entonces,

A1 × · · · × As ⊂ Rn1 +...+ns

es un conjunto compacto.

Este teorema tiene el importante corolario que un rectángulo cerrado es Rn es un conjunto com-
n
Y
pacto. En efecto, un rectángulo cerrado en Rn es de la forma R = [ai , bi ], por el teorema de
i=1
Borel-Lebesgue (3.3.5) cada [ai , bi ] es compacto, de aquí que R es compacto.
Como el lector estará sospechando, demostrar si un conjunto dado es compacto o no puede resultar
tedioso. A continuación se dan algunos criterios para demostrar si un conjunto dado es compacto o no.

( 3.4.7 ) Sea A ⊂ Rn un conjunto compacto y B ⊂ A un conjunto cerrado entonces B es compacto.

Sea O una cubierta abierta de B entonces se considera el conjunto {B. Como [


B es un conjunto
cerrado de Rn se tiene que {B es un conjunto abierto. Asimismo, A ⊂ B ∪ {B ⊂ U ∪ {B. Por lo
U∈O
tanto, la familia formada por los elementos de O y {B cubre a A. Como A es un conjunto compacto de
Rn , se tiene que existe un número finito de esta familia que lo cubren. Sean U1 , . . . , Us tales elementos
entonces
[s
B⊂A⊂ Ui .
i=1

Luego, la familia (Ui )i=1,...,s cubre a B. Como B ∩ {B = ∅ el elemento {B puede ser eliminado de
(Ui )i=1,...,s y la familia que quede seguirá cubriendo a B. Esta es una subfamilia de O pues el único
elemento que pudiera no haber sido elemento de O era {B, el cual fue eliminado. Por lo tanto, B es un
conjunto compacto.

( 3.4.8 ) La cerradura de toda bola es un conjunto compacto.

Toda bola está contenida en un rectángulo cerrado y que todo rectángulo cerrado es un conjunto
compacto. De esto, basta ver que la cerradura de cualquier bola es un conjunto cerrado. Pero esto es
inmediato de (3.2.20).
De acuerdo con la definición de cerradura (3.2.7) y con el ejemplo (3.2.6) se tiene que la cerradura
de una bola es una bola cerrada. Esto aumentó los conjuntos que ya pueden ser determinados como
compactos a un número bastante mayor. Queda a cargo del lector demostrar que la intersección ar-
bitraria de conjuntos compactos es compacto y la unión finita de conjuntos compactos es un conjunto
compacto.
Una condición suficiente para que un conjunto dado sea compacto es que sea cerrado dentro de un
compacto. Según en el hecho de que toda bola cerrada es un conjunto compacto, todo cerrado dentro
de una bola cerrada es un conjunto compacto. Un conjunto que puede cubrirse por una única bola se
denomina conjunto acotado.

( 3.4.9 ) Se dice que A ⊂ Rn es acotado si existe M > 0 tal que A ⊂ B (0; M) .

67
Capítulo 3. Topología de Rn .

De esta definición se dice que M es cota para A. De la discusión anterior se ha demostrado el


siguiente teorema. Los detalles se dejan de ejercicio al lector.

( 3.4.10 ) Un conjunto cerrado y acotado en Rn es compacto.

Sería agradable poder caracterizar a los conjunto compacto de tal forma que sea fácil su identifica-
ción. El siguiente teorema da un prueba sencilla de no compacidad. A su vez es un reciproco parcial
del teorema anterior.

( 3.4.11 ) Un conjunto compacto A ⊂ Rn es acotado.

Sea O = (B (0; k))k∈N entonces O es una familia de bolas abiertas centradas en cero. Nota que O es
una cubierta abierta de Rn , por tanto es una cubierta abierta de A. Por ser A un conjunto compacto
existe un número finito de bolas de O que cubren a A. Sea (B (0; ki ))i=1,...,l una subfamilia de O que
cubre a A y se toma M = máx{ki : i = 1, . . . , l}. Entonces, B (0; ki ) ⊂ B (0; M) para i = 1, . . . , l. Luego,
A ⊂ B (0; M) y A es acotado.
Cualquier conjunto que no sea acotado en Rn no puede ser compacto. En particular los intervalos
de la forma (a, ∞), (−∞, b) no son compactos para cualquier par de reales a, b. Más aún, si A ⊂ Rn
posee una sucesión (an ) tal que la sucesión real bn = kan k diverge a ∞ entonces A no es compacto. La
prueba de esto queda de ejercicio al lector.
Si el lector ha tenido el gusto de leer libros de cálculo o análisis, donde se hable acerca de conjuntos
compactos encontrará que muchas de las definiciones no son textualmente iguales, pero todas son
lógicamente equivalentes. Hay libros que definen un conjunto compacto como aquel conjunto que es
cerrado y acotado, otros definen a los conjuntos compactos como aquellos conjuntos que cumplen que
todo subconjunto infinito tiene un punto límite en el conjunto, entre otras muchas caracterizaciones.
Para poder caracterizar a los conjuntos compactos se necesitará del teorema de Bolzano-Weierstrass
que se presenta en la siguiente sección.

§ 3.5. El teorema de Bolzano-Weierstrass.


Afirma que toda sucesión definida en un compacto tiene una subsucesión convergente. Asimismo,
esto tiene importantes aplicaciones cuando se estudian sucesiones de funciones y convergencia uni-
forme. Para demostrar el teorema de Bolzano-Weierstrass se debe demostrar el recíproco de (3.4.10).
Queda destacado que ha sido separada la demostración de (3.4.11) con la que continúa porque esta
última utiliza elementos técnicos y requiere ser tratada con más cuidado.

( 3.5.1 ) Un conjunto compacto K ⊂ Rn es cerrado.

Se verá que todo punto límite de K es un elemento de ÅK. Sea Å P unããpunto límite de K y se procede
0 1
por contradicción, esto es P ∈/ K. Considera la familia O = {B P; . Queda a título de ejercicio
n n∈N
para el lector verificar que O es cubierta abierta de K. Como K es un conjunto compacto existe un
número finito de elementos de O que cubrenÅK. Sea ã (U1 , . . . , UN ) una subfamilia de O tal que Åcubre ã a
1 1
K y se toma M el máximo índice tal que {B0 P; ∈ {U1 , . . . , UN }. Se observa que Ui ⊂ {B0 P;
Å ã M M
1
para i = 1, . . . , N. Entonces, B0 P; ∩ Ui = ∅ para i = 1, . . . , N y como K ⊂ U1 ∪ · · · ∪ UN , esto
2M
contradice que P sea un punto límite de K. Esta contradicción muestra que P ∈ K.
El resultado clave detrás de esta demostración es ver que todo conjunto compacto posee a todos
sus puntos límite.

68
3.5. El teorema de Bolzano-Weierstrass.

( 3.5.2 ) Una condición necesaria y suficiente para que un conjunto K ⊂ Rn sea compacto es que sea cerrado y
acotado.

Lo cual es inmediato en virtud de (3.4.10), (3.4.11) y (3.5.1).

( 3.5.3 ) Sea F : N → K ⊂ RN una sucesión definida en un conjunto compacto K de RN . Existe una subsucesión
f de F tal que f converge en K; el teorema de «Bolzano- Weierstrass».

La idea detrás de esta demostración técnica es bastante simple. La sucesión F de RN , al ser acotada
puede ser “metida” dentro de un rectángulo. Después partiremos cada arista del rectángulo por la mitad
y formaremos los 2N posibles subrectángulos. Como formamos un número finito de subrectángulos
alguno de ellos contendrá un número infinito de términos de la sucesión. Una vez escogido el subrec-
tángulo con puntos infinitos se aplicará un argumento recursivo. Se verá que los vértices menores, de
cada rectángulo así formado, forman una sucesión estrictamente creciente y acotada. Se usará esto
para demostrar que cada coordenada menor converge.
Como la sucesión (Fn )n∈N está definida en un conjunto compacto, la sucesión está acotada. Por lo
tanto, existe un punto Fn1 de (Fn )n∈N y un número M > 0 tal que la sucesión
Ä (n ) está contenida en una
(n1 )
ä
1
“caja cúbica” de centro Fn1 de lado de longitud M. Se supone que Fn1 = F1 , . . . , FN , es decir, el
subíndice denota a la coordenada y el superíndice al elemento de la subsucesión que se forma. Se ha
mostrado que
N ï ò
Y (n ) M (n1 ) M
Fn ∈ Fi 1 − , Fi + ;
2 2
i=1

se define ï ò
(1) (n ) M (n1 ) M
I i = Fi 1 − , Fi + ,
2 2
y sea
(1) (1) (1)
R(1) = I1 × I2 × · · · × IN .
Es decir, R(1) es el primer rectángulo que se está formando tal que contiene a toda la sucesión. Sea
Ä (1) (1)
ä Å (n ) M (n ) M
ã
A(1) = a1 , . . . , aN = F1 1 − , . . . , FN 1 − ,
2 2
(1)
se denominará a A(1) como el “vértice inferior izquierdo” del rectángulo R(1) . Para cada Ii se define
ï ò ï ò
(1) (n ) M (n1 ) (1) (n ) (n ) M
Ji,1 = Fi 1 − , Fi y Ji,2 = Fi 1 , Fi 1 + ,
2 2

esto es, se está partiendo en dos cada arista del rectángulo R(1) en dos mitades de igual longitud. Sea
Ä (1) (1)
ä
J(1) = J1,i1 × · · · × JN,iN N
,
(i1 ,...,iN )∈{1,2}

(1)
es decir, J(1) es la familia con los 2N posibles productos cruces de los distintos Ji,k .
(1)
Se afirma que J(1) es cubierta de R(1) . Sea (x1 , . . . , xN ) ∈ R(1) entonces, por la construcción, xi ∈ Ii ,
(1) (1) (1)
de aquí que xi esté en Ji,1 o en Ji,2 . Entonces, cada coordenada xi está en algún Ji,k . Por lo tanto, existe
un elemento J de J(1) para el cual (x1 , . . . , xN ) ∈ J. Luego, J(1) cubre a R(1) .
Como los elementos en J(1) son finitos y cubren R(1) existe un elemento en J(1) para el cual existe
un número infinito de puntos de la sucesión. En caso de que tal elemento de J(1) no existiera, todos los
elementos de J(1) tendrían como elementos, a lo más, a un número finito de puntos de la sucesión. Esto

69
Capítulo 3. Topología de Rn .

implicaría que existe un elemento Fk de la sucesión (Fn )n∈N tal que un número infinito de índices coin-
ciden en Fk . Entonces, se toma la subsucesión constante f(i) = Fk , la cual, claramente , es convergente.
De este modo, se puede suponer la existencia de tal elemento de J(1) .
Sea R(2) un rectángulo en J(1) que contiene infinitos puntos de la sucesión. Sea Fn2 ∈ R(2) donde
n2 es el mínimo índice tal que n2 > n1 y Fn2 ∈ R(2) , este elemento existe por dos razones. Primero,
por el axioma de buen orden, todo conjunto de naturales no vacío tiene mínimo. Además, el conjunto
en cuestión es no vacío por lo justificado en el párrafo previo. Se define A(2) como el vértice inferior
(1) (2)
izquierdo de R(2) . Observa que, por construcción, ai ≤ ai para todo i = 1, . . . , N.
Se verá que existe un número infinito de tales rectángulos R(k) , se procede por inducción. Supón que
P(n) indica que se han podido formar n puntos de la subsucesión en sus n rectángulos correspondientes
con sus n vértices inferiores correspondientes tales que cada coordenada define una sucesión creciente
en R. Sea H = {n ∈ N : P(n) es verdadera}.
Hay que probar que 1 ∈ H y k ∈ H Ñ k + 1 ∈ H . De la construcción anterior se sabe que 1 ∈ H
y que 2 ∈ H . Se supone que k ∈ H , se demostrará que, sobre estas condiciones, k + 1 ∈ H . Sea R(k)
(k)
el k-ésimo rectángulo que ha sido formado e Ii la proyección del rectángulo R(k) en el eje i-ésimo.
Entonces,
(k) (k)
R(k) = I1 × · · · × IN .
(k) (k)
Sean Ji,j , con 1 ≤ i ≤ N y 1 ≤ j ≤ 2, las particiones de Ii en dos mitades de misma longitud como
(k) N (k)
se hizo antes. Sea J igual que antes, la familia de los 2 productos cruces de los elementos Ji,j . Por
los mismo argumentos anteriores se puede demostrar la existencia de R(k+1) y A(k+1) tales que R(k+1)
contiene un número infinito de puntos de la sucesión. Se toma Fnk+1 ∈ R(k+1) tal que nk+1 es el mínimo
natural tal que nk+1 > nk y Fnk+1 ∈ R(k+1) . La demostración de la existencia de nk+1 se realiza como
antes. Asimismo,la i-ésima coordenada del vértice inferior izquierdo satisface que
(1) (k) (k+1)
ai ≤ . . . ≤ ai ≤ ai .

Con esto, se puede concluir que P(n + 1) es cierta, pues ha sido posible formar los k + 1 puntos de la
subsucesión en sus k + 1 rectángulos correspondientes con sus k + 1 vértices inferiores que satisfacen
la desigualdad requerida. Con esto, k + 1 ∈ H y de acuerdo alÄ principio de inducción H = N.
(n)
ä
Se ha demostrado que existen las sucesiones crecientes ai , para cada índice i = 1, . . . , N,
(1) (1)
Ä (n) än∈N (1)
y están definidas en Ii . Como Ii es un intervalo acotado y ai es creciente y definida en Ii ,
n∈N
(n)
existe ai tal que que lı́m ai = ai .
n→∞ 
Se afirma que la subsucesión, Fnj j∈N converge a A = (a1 , · · · , an ). Considera las sucesiones
 
 (n )
coordenadas de Fnj j∈N , estas son, para cada i = 1, . . . , N, Fi j . Por construcción, para cada
j∈N
(n ) (j) (j) (j)

(n )

(j) M
j ∈ N, se tiene que Fi j ∈ Ii y ai ∈ Ii , por tanto, Fi j − ai ≤ j−1 . Haciendo j → ∞, se ve que
  2
(n ) (j) (n ) (j)
lı́m Fi j − ai = 0, para i = 1, . . . , N. Esto implica que lı́m Fi j = lı́m ai = ai . Por lo tanto, se tiene
j→∞ j→∞ j→∞
que lı́m Fnj = A.
j→∞
Finalmente, se define σ : N → N dada por σ(j) = nj entonces f = F ◦ σ es una subsucesión de
F tal que lı́m f(n) = A. Por último, se debe demostrar que A ∈ K. Pero al ser K compacto, K es
n→∞
cerrado y por tanto, contiene a todos sus puntos límite. Como f converge a A y f está definida en K, A
es un punto límite de K. Por lo tanto, f converge en K.

( 3.5.4 ) Dado un conjunto abierto U y un compacto K ⊂ U siempre existe un compacto D ⊂ U tal que K es
subconjunto propio de D.

70
3.6. Generalización a un espacio vectorial real.

Sea U un abierto de Rn y K un conjunto compacto contenido en U. Como K es compacto, K es


cerrado y acotado en U. Todos los puntos límites de K son elementos de K, en particular los de la
frontera. Cada punto de la frontera de K está en U, de este modo, existe una bola abierta alrededor de
cada punto en la frontera de K tal que está contenida en U. Sea X ∈ ∂K y r > 0 tal que B (X; r) ⊂ U.
Como X ∈ ∂K, existe Y ∈ {K ∩ B (X; r) entonces K ∪ {Y } es compacto y K es subconjunto propio de
K ∪ {Y }.

§ 3.6. Generalización a un espacio vectorial real.


La mayoría de los conceptos involucrados en este capítulo se definieron únicamente a través de la
definición de bola o se demostraron a partir de lo demostrado en términos de bola. Aquí se dan las
generalizaciones para un espacio vectorial real normado.

( 3.6.1 ) Sea (V , +, ·) un espacio vectorial real. Se supone que en V hay una norma kk y sean v ∈ V y r > 0.
Se dirá que el conjunto B (v; ε) = {u ∈ V | ku − vk < r} es la bola abierta de en V de centro v y radio r.
Un subconjunto A ⊂ V se dirá abierto si para cualquier punto v ∈ A existe un número positivo r > 0 tal que
B (v; r) ⊂ V .

En particular, se demuestra que

( 3.6.2 ) Sea V un espacio vectorial real y normado. Toda bola abierta en él es un conjunto abierto.

La misma prueba que en (3.1.4) aplica aquí también.

( 3.6.3 ) Sea V un espacio vectorial real y normado. Sea τ = {A ⊂ V |A es abierto}. Entonces τ es una topología;
esto es, τ satisface las siguientes propiedades:

1. ∅, V ∈ τ,

2. la unión de cualquier familia de elementos de τ también es un elemento de τ,

3. la intersección de cualquier familia finita de elementos de τ también es un elemento de τ.

Repita las pruebas de (3.2.1) y (3.2.2).


Entonces, todas las definiciones presentadas en este capítulo ahora se transportan para el caso
de un espacio vectorial real. Asimismo, todas las pruebas importantes aplican, exceptuando el caso del
teorema de Bolzano-Weierstrass, pues este necesitó fuertemente la noción de rectángulo, que no se tiene
en un espacio vectorial arbitrario. Sin embargo, más adelante (unos párrafos más abajo) se mostrará
que tal teorema sigue siendo válido en este caso más general. En particular, se pueden suponer las
definiciones de conjunto cerrado, bola cerrada, conjunto denso, interior, exterior, frontera, cerradura,
punto de acumulación, punto aislo, punto límite, cubierta abierta y conjunto compacto. Las pruebas de
los teoremas enunciados se mantienen al cambiar Rn por V (donde V es un espacio vectorial real) con
la excepción de (3.2.9), (3.3.5), (3.4.8), (3.4.10), (3.5.2) y de (3.5.3). Por ningún motivo esto significa que
estos teoremas sean falsos en este caso, sino que su prueba necesitó de la definición de rectángulo o
se basó en una que la necesitó.

z 3.6.1 Prueba de los teoremas especiales.


Aquí se darán las pruebas concernientes a los teoremas de este capítulo que no aplican para un
espacio vectorial real de dimensión finita arbitrario. Para esto será necesario transportar una definición,
la de isometría entre espacios normados.

71
Capítulo 3. Topología de Rn .

( 3.6.4 ) Sean V y W dos espacios vectoriales reales. Supón que kkV y kkW son sendas normas en V y W . Se
dirá que las normas son isomorfas o que V y W son dos espacios vectoriales normados isormofos si existe una
transformación lineal Φ : V → W que sea invertible tal que para cualquier v ∈ V se cumpla que kΦ(v)kW = kvkV .
A Φ se le llamará «isomorfismo» entre espacios vectoriales normados.
Cabe destacar que existe la noción de isomorfismo entre espacio vectoriales (ve el ejercicio (1.22)).
La noción recién definida puede parafrasearse como sigue. Dos espacios vectoriales normados son
isomorfos si existe una isomorfismo de espacio vectorial entre ellos tal que este preserve la norma.
Por lo tanto, esta definición es más fuerte comparada con la definición de isomorfismo de espacio
vectorial. A continuación una definición todavía más fuerte.
( 3.6.5 ) Sean V y W dos espacios vectoriales reales. Supón que h, iV y h, iW son sendos producto interiores en
V y W . Se dirá que los producto son isomorfos o que V y W son dos espacios vectoriales con producto interior
isormofos si existe una transformación lineal Φ : V → W que sea invertible tal que para cualesquier u, v ∈ V se
cumpla que hΦ(u), Φ(v)iW = hu, viV . A Φ se le llamará «isomorfismo» entre espacios vectoriales con producto
interior.
Esta definición
p es más fuerte
p que la previa, pues si Φ es tal isomorfimo entre V y W entonces
kΦ(v)kW = hΦ(v), Φ(v)iW = hv, viV = kvkV . Por lo tanto, Φ también es un isomorfismo entre
espacios normados.
( 3.6.6 ) Sean V un espacio vectorial real de dimensión finita sobre R, B = (v1 , . . . , vn ) una base ordenada en V
y [ ]B las coordenadas de V (ve el ejercicio (1.24)). Sea h, iV : V × V → R dada por hu, viV = [u]B · [v]B , aquí se
denota con · al producto escalar estándar de Rn . Entonces, h, iV define un producto interior en V . Más aún, [ ]B
es un isomorfismo de espacios vectoriales con producto interior.
Ya se sabe que [ ]B es un isomorfismo entre espacios vectoriales (ve el ejercicio (1.24)). Solo hay que
probar que h, iV es un producto interior en V pues de la definición de h, iV se obtendrá que [ ]B es un
isomorfismo entre espacios vectoriales con producto interior.
Se verficará que h, iV satisface la definición de producto interior (1.4.1). Entonces, sean u, v, w ∈ V y
λ ∈ R cualesquiera, se cumple que
1. hu, viV = [u]B · [v]B = [v]B · [u]B = hv, uiB ;

2. hu + λw, viV = [u + λw]B · [v]B = [u]B + λ[w]B · [v]B = [u]B · [v]b + λ[w]B · [v]B = hu, vi + λ hw, vi ;
3. hu, uiV = [u]B · [u]B ≥ 0;
4. hu, ui = 0 ⇔ [u]B · [u]B = 0 ⇔ [u]B = 0 ⇔ u = 0, donde la última igualdad es consecuencia de que
[ ]B es un isomorfismo.
Esto concluye la prueba.

Observaciones: aquí se enuncian algunas consecuencias de este teorema.


1. Las coordenadas dependen de la base, si cambia la base, cambia el producto interior y entonces
la norma.
2. Con este teorema se puede normar y hasta obtener un producto interior en cada espacio vectorial
de dimensión finita. El teorema no prevalece en espacios de dimensión infinita.
3. Dos normas distinas kk1 y kk2 se denominan equivalentes si existen constantes a, b > 0 tales
que a kk1 ≤ kk2 ≤ b kk1 . Se demostrará ahora que si kk1 y kk2 son dos normas equivalentes en
V entonces las topologías que definen coinciden (o sea, algo es abierto respecto a una norma si

72
3.6. Generalización a un espacio vectorial real.

y solo si es abierto respecto de la otra). Para ver esto, supón que A es un abierto en V respecto
de la norma kk1 . Entonces, como hay una constante b > 0 tal que kk2 ≤ b kk1 se sigue que
1
kk ≤ kk1 . Como A es abierto respecto de la norma kk1 , para cada v ∈ A existe una bola del
b 2
tipo B1 (v; r) = {u ∈ V | ku − vk1 < r} ⊂ A. Nota que B2 (v; br) = {u ∈ V | ku − vk2 < br} es una
bola respecto de la norma kk2 . Como
B2 (v; br) ⊂ B1 (v; r) ⊂ A,
se ve que A es abierto respecto de la norma kk2 . Por lo tanto, todo abierto respecto de la norma kk1
es abierto respecto de la norma kk2 . Cambiando los papeles de kk1 y kk2 se concluye que cualquier
subconjunto A de V es abierto respecto de alguna de las normas si y solo si lo es respecto de las
dos. En consecuencia, todas las propiedades topológicas ya demostradas prevalecen válidas sin
importar qué normas equivalentes se usen.
4. Obviamente, si se define ∼ en el conjunto de las normas en V como kk1 ∼ kk2 si y solo si kk1 y kk2
son equivalentes, entonces ∼ es una relación de equivalencia. Es inmediato de la observación previa
que hay tantas topologías generadas por una norma en V como distintas clases de equivalencia
hay mediante ∼ . ¿Cuántas clases de equivalencia hay? Parece sorprendente que solo hay una
clase de equivalencia (3.6.7). Por lo tanto, en un espacio vectorial V de dimensión finita, solo se
puede generar una topología mediante una norma.
5. Si Φ es un isomorfimo entre V y W que preserva la norma entonces un conjunto A es abierto
en V si y solo si Φ(A) es abierto en W . Para ver esto, basta probar que Φ(BV (v; r)) = B (Φ(v); r) ,
donde BV (v; r) es la bola de centro v y radio r en v y B (Φ(v); r) es la bola de centro de Φ(v) ∈ W
y radio r 4 . Para probar esta igualdad se utiliza que kvkV = kΦ(v)k . Entonces,
Φ(BV (v; r)) = {Φ(u) ∈ W | ku − vkV < r} = {Φ(u) ∈ W | kΦ(u) − Φ(v)k < r}
= {w ∈ W | kw − Φ(v)k < r} = B (Φ(v); r) ,
donde la tercera igualdad vale por la invertibilidad de Φ. Por lo tanto, para que un conjunto A ⊂ V
sea abierto es condición necesaria y suficiente que Φ(A) ⊂ W sea abierto. Por lo tanto, para dos
espacios vectoriales normados isomorfos (con isomorfismo entre espacios vectorial normado) las
topologías son esencialmente la misma.
El teorema que continua deberá ser leído hasta después de haber leído sobre conexidad
(capítulo 4) y continuidad de funciones en varias variables (capítulo 5).
( 3.6.7 ) Sea V un espacio vectorial normado de dimensión finita y kk1 , kk2 dos normas en V . Existen constantes
a > 0 y b > 0 tales que para cualquier v ∈ V
a kvk1 ≤ kvk2 ≤ b kvk1 .
( 3.6.7.1 ) Basta demostrar (3.6.7) cuando V = Rn .
En efecto, existe un isomorfismo entre espacios vectoriales Φ : Rn → V , en donde n = dim V .
Luego, se definen en R las normas kXkR R
1 = kΦ(X)k1 y análoga para kk2 . Si (3.6.7) vale cuando V = R
n

entonces existen a y b tales que


a kXkR R R
1 ≤ kXk2 ≤ b kXk1 .

Luego, dado v ∈ V cualquiera existe un X ∈ Rn y solo uno tal que v = Φ(X), de la definición de kkR
1 y
R
kk2 se concluye el resultado deseado.
4 Si esta implicación vale entonces para A ⊂ V un abierto y w ∈ Φ(A) existe un v ∈ A tal que Φ(v) = w. Para este v
existe un r > 0 tal que BV (v; r) ⊂ A, obviamente Φ(BV (v; r)) = B (Φ(v); r) = B (w; r) ⊂ Φ(A), mostrando que Φ(A) es abierto.
Recíprocamente, si Φ(A) es abierto, se aplica el mismo argumento que antes pero sustituyendo A por B = Φ(A) y Φ por Ψ = Φ−1

73
Capítulo 3. Topología de Rn .

( 3.6.7.2 ) Basta demostrar (3.6.7) cuando kk2 es la norma estándar de Rn .

Pues si fuese cierto el teorema en ese caso existen constantes a > 0, b > 0, c > 0 y d > 0 tales que
para todo X ∈ Rn
a kXk1 ≤ kXk ≤ b kXk1 ; c kXk2 ≤ kXk ≤ d kXk2 .
a b
De donde, kXk1 ≤ kXk2 < kXk1 .
d c
( 3.6.7.3 ) Para la norma euclidiana vale (3.6.7).
n
X
Pues si X = ai ei , donde {e1 , . . . , en } es la base canónica de Rn , en virtud de la desigualdad
i=1
triangular (ve (1.4.2))
n
X n
X
kXk1 ≤ |ai | kei k1 ≤ máx kej k1 |ai | ≤ n máx kej k1 kXk .
1≤j≤n 1≤j≤n
i=1 i=1

Se ve ahora la otra desigualdad. Se probará que que la función kk1 : Rn → [0, ∞) es continua. Entonces,
para cualesquier u, v ∈ V ,
kuk1 = ku − v + vk1 ≤ ku − vk1 + kvk1 ,

por lo que kuk1 −kvk1 ≤ ku − vk1 Cambiando los papeles de u y v se obtiene que kvk1 −kuk1 ≤ ku − vk1 .
Por lo tanto,
| kuk1 − kvk1 | ≤ ku − vk1 = b ku − vk ,

donde b = n máx kej k1 . Por lo tanto, si u → v entonces kuk1 → kvk1 . Ahora, considera S (0; 1) = {X ∈
1≤j≤n
Rn | kXk = 1}. Entonces, {kXk1 |X ∈ S (0; 1)} es un conjunto conexo y compacto (ve (5.5.7) y (5.5.8)) en
R. Por lo tanto, es un intervalo de la forma [a, b] (ve (4.8.7)). Obviamente, [a, b] ⊂ [0, ∞) pues kk1 ≥ 0.
Se afirma que a > 0. Se procede por contradicción. Si a = 0 entonces existiría un X ∈ S (0; 1) tal que
| kXk1 | = 0, lo cual es falso pues X 6= 0. Por lo tanto kXk1 ≥ a para todo X ∈ S (0; 1) . Sea ahora X ∈ Rn
X
cualquiera. Entonces, X = 0 Ñ kXk1 = kXk y la desigualdad vale, por otro lado, X 6= 0 Ñ ∈ S (0; 1)
kXk
X
y, por lo tanto kXk ≥ a. Usando que kXk > 0 se concluye que kXk1 ≥ a kXk .

1
Ahora veamos las pruebas de las propiedades faltantes para el caso más general. Estas utilizan el
teorema previo.

(3.2.9) Sean (V , kkV ) un espacio normado no trivial5 de dimensión finita y A ⊂ V cualquier subconjunto.
˚
Entonces, todo P ∈ A Û es punto de acumulación de A. La idea es la misma que en el teorema
δ
para Rn . Si P = 0, existe un v 6= 0 y entonces v dista de P exactamente δ, con hacer δ
kvkV
˚
suficientemente pequeño y usando que P ∈ A Û se concluye lo afirmado para
Å este caso.
ã En el caso
δ
P 6= 0, existe una bola B (P; r) ⊂ A. Para r > δ > 0 se cumple que Q = 1 + P ∈ B (P; δ)
2 kPkV
δ δ
y que kQ − PkV = kPkV = > 0.
kPkV 2
5 Esto es, existe un elemento de V que no es el cero.

74
3.7. Ejercicios.

(3.3.5) Sea (V , kkV ) un espacio vectorial normado de dimensión finita. Todo conjunto cerrado y acotado
es compacto. En este caso sea B = (v1 , . . . , vn ) una base ordenada de V (tal base existe en virtud
de (1.2.14)). Sea [ ]B las coordenadas de V respecto a dicha base y se genera en Rn la norma
asociada al isomorfismo [ ]B , la cual se denotará por kk1 . (ya se mencionó antes que esto no
afecta las propiedades topológicas del espacio, (3.6.7)). Entonces, Sea A ⊂ V un conjunto cerrado
y acotado y O = (Uα )α∈Γ una cubierta abierta de A. Entonces [A]B ⊂ Rn es cerrado y acotado
y [O]B = ([Uα ]B )α∈Γ es una cubierta abierta de [A]B . En virtud de (3.4.10) [A]B es compacto en
Rn , por lo que existe una subfamilia finita ([Uα1 ]B , . . . , [Uαk ]B ) que cubre a [A]B . Por definición de
coordenadas, (Uα1 , . . . , Uαk ) es cubierta abierta de A, lo cual muestra que A es compacto en V .

(3.4.8) Sean (V , kkV ) un espacio vectorial normado de dimensión finita. Toda bola cerrada de V es un
conjunto compacto. Lo cual es consecuencia del teorema de Borel-Lebesgue (inciso previo) pues
una bola cerrada de un conjunto cerrado y acotado en V .

(3.4.10) Sea (V , kkV ) un espacio vectorial normado de dimensión finita. Todo conjunto cerrado y acotado
es compacto. Que es exactamente lo que dice el teorema de Borel-Lebesgue.

(3.5.2) Sea (V , kkV ) un espacio vectorial normado de dimensión finita. Una condición necesaria y
suficiente para que un conjunto sea cerrado y acotado es que sea compacto. Una implicación
es el teorema de Borel-Lebesgue, la otra es consecuencia de (3.4.11) y (3.5.1).

(3.5.3)) Sea (V , kkV ) un espacio vectorial normado de dimensión finita. Toda sucesión definida en un
compacto tiene una subsucesión convergente ahí. Sea B = (v1 , . . . , vn ) una base ordenada de V
y [ ]B las coordenadas de V relativas a B. Sea (an )n∈N una sucesión definida en el compacto K de
V . Entonces ([an ]B )n∈N es una sucesión acotada en el compacto6 [K]B de Rn . Por el teorema de
Bolzano-Weierstrass existe una subsucesión ([ank ]B )k∈N la cual es convergente a cierto X ∈ [K]B .
La subsucesión correspondiente (ank )k∈N converge en K a a. En efecto, se cumple que existe un
a ∈ V tal que [a]B = X. Se verá que ank → a; de hecho,

kank − akV = k[ank ]B − [aB ]k → 0

cuando k → ∞. Por lo tanto, ank → a en V . Que a ∈ K se sigue de que K es cerrado y de que a


es un punto límite de K.

§ 3.7. Ejercicios.
Resuelve cada ejercicio.

( 3.1 ) {Q es denso en R.

( 3.2 ) Supón que A es denso en S y que S es denso en T entonces A es denso en T.

( 3.3 ) Demuestra (3.1.9).


˚ ˚
( 3.4 ) Observando que A
Û es un conjunto abierto contenido en A, concluir que A
Û es el abierto más grande
contenido en A.
˚
( 3.5 ) Una condicion necesaria y suficiente para que un conjunto A ⊂ Rn sea abierto es que A = A.
Û

( 3.6 ) Sean A, B ⊂ Rn , A \ B es abierto si A es abierto y B es cerrado.


6 Que [K]B sea compacto se obtiene de que es cerrado y acotado.

75
Capítulo 3. Topología de Rn .

( 3.7 ) La cerradura de un conjunto es el conjunto cerrado más pequeño que contiene al conjunto dado. Esto es,
la cerradura de A es la intersección de todos los cerrados que contienen a A.

( 3.8 ) Para que un conjunto A ⊂ Rn sea cerrado es necesario y suficiente que A = A.


˚
( 3.9 ) El interior de un conjunto es el conjunto abierto más grande contenido en él. Esto es, A
Û es la unión de
todos los conjuntos abiertos que están contenidos en A.

( 3.10 ) Dada una bola abierta B (x; δ) siempre se puede encontrar un rectángulo abierto R tal que R está
contenido en B (x; δ) y x ∈ R. Concluya que en la definición de abierto se puede sustituir bolas por rectángulos
abiertos sin alterar ninguno de los resultados precedentes.

( 3.11 ) Si R1 ⊂ Rn y R2 ⊂ Rm son rectángulos abiertos entonces R1 × R2 ⊂ Rn+m es rectángulo abierto.


Concluya, usando el ejercicio previo, que si A y B son abiertos entonces A×B es abierto. En particular, el producto
cartesiano de cualquier número finito de conjuntos abiertos es abierto.

( 3.12 ) Dé un ejemplo de intervalos cerrados tales que su unión infinita sea abierto.

( 3.13 ) Para conjuntos arbitrarios A, B y C se tiene que

(A ∪ B) × C = (A × C) ∪ (B × C).

Si A ⊂ Rn y B ⊂ Rm entonces

Rn+m \ (A × B) = [A × (Rm \ B)] ∪ [(Rn \ A) × B] ∪ [(Rn \ A) × (Rm \ B)]


= [A × (Rm \ B)] ∪ [(Rn \ (A × Rm )]
= [Rn × (Rm \ B)] ∪ [(Rn \ A) × B].

Concluye que que si A ⊂ Rn y B ⊂ Rm son cerrados entonces A × B es cerrado.


Sugerencia: Rn+m = (A ∪ Rn \ A) × (B ∪ Rm \ B).

( 3.14 ) ∂([0, 1] ∩ Q) = [0, 1].

( 3.15 ) Para que P sea un punto límite de A ⊂ Rn es necesario y suficiente que para todo r > 0, se tenga que
card (A ∩ B (P; r)) = ∞.

( 3.16 ) Sea P un punto límite de A ∩ B. Entonces P es punto límite de A y de B; esto es, los puntos límite de
A ∩ B están contenidos en la interseccion de los puntos límite de A y de B.

( 3.17 ) Dé un ejemplo de un conjunto cerrado sin puntos límite.

( 3.18 ) Dé un ejemplo de un conjunto con una infinidad de puntos límite.

( 3.19 ) Dé un ejemplo de un conjunto con exactamente n puntos límite.

( 3.20 ) Dé un ejemplo de una sucesión con una cantidad infinita y numerable de puntos límite.

[
Sugerencia: La siguiente partición de N puede ser útil, N = An , donde, para i ∈ N, Ai = {pin : n ∈ N}
[ n=0
tomando pi el i-ésimo primo y A0 = N \ Ai .
i∈N

( 3.21 ) Los siguiente conjuntos son abiertos:

1. {(x, y) ∈ R2 |x > 0, y > 0}.

76
3.7. Ejercicios.

2. {(x, y) ∈ R2 |xy > 0}.


3. {(x, y) ∈ R2 |2x + 3y − 2 > 0}.
4. {(x, y) ∈ R2 |4 < x 2 + y 2 < 9}.
5. {(x, y) ∈ R2 |0 < x < 1, 0 < y < x 2 }.
˚
Sugerencia: para cualquier A ⊂ Rn , ∂A ∩ A = ∅ Ñ A = A.
Û

( 3.22 ) Determine si la proposición es cierta o falsa. En caso de ser cierta proporcione una prueba sencilla y
breve. Si es falso, debe dar un ejemplo explícito.
˚
1. A = A
Û ∪ ∂A.
˚
2. A \ A
Û = ∂A.
˚
3. A ∪ A
Û = A.
4. Rn \ A = ext A.

5. ∂A = A ∩ {A.
6. Todo conjunto abierto de Rn se puede expresar como unión de conjuntos cerrados.
7. Todo conjunto cerrado de Rn se puede expresar como intersección de conjuntos abiertos.
8. Todo conjunto abierto de Rn se puede expresar como unión de conjuntos cerrados con interiores no vacíos.
9. Todo conjunto abierto no vacío de Rn se puede expresar como unión de conjuntos cerrados con interiores
no vacíos.
10. A ⊂ Rn y {A tienen la misma cerradura.
11. Todos subconjunto numerable de R es compacto.
12. Sea X un subconjunto de Rn . Si O y O0 son cubiertas abiertas de X entonces O ∩ O0 es cubierta abierta de
X.
13. La unión numerable de conjuntos compactos es compacto.
14. La intersección finita de conjuntos compactos es compacto.
15. Todo conjunto cerrado es unión numerable de conjuntos compactos.
Sugerencia: Para A ⊂ Rn y X ∈ Rn define ρ(X, A) = ı́nf kX − Y k , la «distancia» de X a A. Considera
Y ∈A
los conjuntos Ar = {X ∈ Rn : ρ(X, A) < r} y Ar0 = {X ∈ Rn : ρ(X, A) ≤ r} y muestra que el primero es
abierto y el segundo es cerrado. Además, muestra que A = {X ∈ Rn : ρ(X, A) = 0}. También puedes considerar
Br = {X ∈ Rn : ρ(X, {A) ≥ r} y demostrar que este conjunto es cerrado.
( 3.23 ) Para que una función f : R → R sea continua es necesario y suficiente que la preimagen de cualquier
abierto sea abierto.
Sugerencia: reescriba la definición de continuidad en términos de bolas.
( 3.24 ) Sea P un conjunto de n ∈ N puntos látices, es decir, puntos de coordenadas en Z, de R2 y L un conjunto
de m rectas en el plano que es cubierta de P. Si m < n entonces existe al menos una recta en L cuya pendiente
no es irracional.

77
Capítulo 3. Topología de Rn .

( 3.25 ) Sea d : R2n → R definida por

d(x1 , . . . , xn , y1 , . . . , yn ) = máx{|xi − yi | : i = 1, . . . , n},

la «distancia del máximo»7 . Demuestre que:


1. La función Rn × Rn → R dada por (X, Y ) 7Ï d(X, Y ) es una norma (ve (1.4.2)).
2. Se define una bola abierta de centro X y radio ε > 0 como

B (X; ε) = {Y ∈ Rn : d(X, Y ) < ε}.

Describa exactamente la forma geométrica de las bolas abiertas con esta distancia en Rn .
3. Se da la misma definición de conjunto abierto de Rn solo que usando esta distancia. Esto no genera
ambigüedad con lo definido en el texto; esto es, que la colección de abiertos generada por la distancia
definida aquí coincide con aquella generada con la distancia euclidiana. Cuando dos distancias generan el
mismo conjunto de abiertos se dice que son equivalentes.
4. Concluya que todas las propiedades demostradas en este capítulo valen de igual manera para la distancia
euclidiana como para la distancia definida aquí.
( 3.26 ) Repita el ejercicio anterior para la «distancia de Manhatan»:
n
X
d(x1 , . . . , xn , y1 , . . . , yn ) = |xi − yi |.
i=1

( 3.27 ) Sea τ(Rn ) = A ⊂ Rn : {A = ∅ o bien, es compacto . Entonces




1. si (Ui )i∈I es una familia de elementos de τ(Rn ) entonces su unión es un elemento de τ(Rn );
2. la intersección de cualquier familia finita de elementos de τ(Rn ) es un elemento de τ(Rn );
3. Rn , ∅ ∈ τ(Rn ).
Cuando un subconjunto τ ∈ P (Rn ) satisface las condiciones anteriores se dice que τ es una topología de Rn
entonces la colección de abiertos de la distancia euclidiana es una topología de Rn .
( 3.28 ) Sea A como en el ejemplo (3.3.4). No existe una subfamilia finita de O tal que cubra A. Esto demuestra
que A no es compacto.
( 3.29 ) Recuerda que un intervalo en Rn es cerrado si su complemento es abierto, de este modo, el intervalo
[a, ∞) es cerrado, el cual no es compacto.
( 3.30 ) Cualquier intervalo abierto no es compacto.
( 3.31 ) Un intervalo de la forma [a, b) × [c, d] ⊂ R2 no es compacto.
( 3.32 ) [0, 1] ∩ Q no es compacto.
( 3.33 ) Sean a ≤ c ≤ b y a 6= b entonces [a, b] \ {c} no es compacto.
Sugerencia: construye una cubierta de [a, b] \ {c} construyendo anillos a través de bolas centradas en c.
( 3.34 ) Sea A un conjunto acotado con un número finito de puntos límite tal que los contiene a todos. Entonces
A es compacto.
7 Esta distancia apareció en los ejercicios del primer capítulo.

78
3.7. Ejercicios.

( 3.35 ) Sea A un conjunto acotado de Rn . Para todo X ∈ Rn existe MX > 0 tal que A ⊂ B (X; MX ) .
( 3.36 ) El producto cartesiano de cualquier cantidad finita de compactos es compacto.
( 3.37 ) La unión finita de conjuntos compactos es un conjunto compacto.
( 3.38 ) La intersección arbitraria de conjuntos compactos es un conjunto compacto.
( 3.39 ) Si A es compacto en Rn y pr1,...,m : Rn → Rm es proyección, con m ≤ n entonces pr1,...,m (A) ⊂ Rm
es compacto.
( 3.40 ) Sea A un conjunto compacto en Rn . Se puede decir que A es compacto independientemente del espacio.
Esto es, la inclusión de A en Rm es compacto para m ∈ N, en donde la inclusión de A en Rm es proyección si
m ≤ n o bien, es A × {0} si m > n.
( 3.41 ) Las siguientes afirmaciones son equivalentes sobre un conjunto compacto K.
1. Toda sucesión definida en K tiene una subsucesión convergente en K.
2. Todo subconjunto infinito de K tiene un punto límite en K.
( 3.42 ) Las siguientes condiciones son equivalentes sobre un conjunto K ⊂ Rn .
1. K es compacto.
2. K es cerrado y acotado.
3. Toda sucesión definida en K tiene una subsucesión convergente en K.
4. Todo subconjunto infinito de K tiene un punto límite en K.
( 3.43 ) Sea (Ki )i∈I una familia de subconjuntos compacto de Rn . Supón que la intersección de cualquier subfamilia
finita es no vacía. Entonces, la intersección de toda la familia es\
no vacía; «propiedad de la intersección finita».
Sugerencia: Considera un índice α fijo. Supón que Kα ∩ Ki = ∅. Toma O la familia formada por
i∈I,i6=α
los complementos de los elementos Ki , en donde i 6= α entonces O es una cubierta abierta de Kα y utiliza
la compacidad de Kα para encontrar una subfamilia finita de O que sea cubierta de Kα . Esto demuestra que
k
\
Kα ∩ Kij = ∅, deduzca una contradicción de esto.
j=1

( 3.44 ) Sea K1 = [0, 1], y se divide K1 en tres subintervalos de igual longitud, a saber, K1 = [0, 31 ]∪( 31 , 23 )∪[ 32 , 1],
se define K2 = K1 − ( 31 , 23 ) = [0, 31 ] ∪ [ 23 , 1] = I21 ∪ I22 .
Se procede inductivamente, supón que en el paso n-ésimo se ha construido un conjunto de la forma Kn =
n−1
2[
Iin , donde Iin es un intervalo cerrado. Para construir Kn+1 se divide cada Iin en tres subintervalos de igual
i=1
longitud iguales y son quitados el interior del intervalo de en medio, de este modo, Kn+1 el conjunto formado de
\∞
Kn al quitarle todos estos subintervalos. Sea K = Kn entonces K es el «conjunto de Cantor». Demuestre
n=1
que:
1. K es un compacto no vacío;
2. tiene longitud8 cero;
8 Considera la longitud de K como el límite de las longitudes de K . Observa que cada K tiene longitud bien definida pues
n n
es una unión disjunta y finita de intervalos cerrados.

79
Capítulo 3. Topología de Rn .

3. K coincide con el conjunto de sus puntos límite. Un conjunto que satisface esta última propiedad se denomina
perfecto.
( 3.45 ) Si K ⊂ R es compacto entonces α = ı́nf K y β = sup K son elementos de K.
Sugerencia: α o es punto aislado o es punto límite de K. Procede de manera análoga para β.

( 3.46 ) Sean 1, x, x 2 y x 3 las funciones


de R a R definidas por sendas reglas de correspondencia t 7Ï 1, t 7Ï t,
t 7Ï t 2 y t 7Ï t 3 . Considera V = lin {1, x, x 2 , x 3 } , el espacio de funciones polinomiales de grado a lo más

tres. Entonces, B = (1, x, x 2 , x 3 ) constituye una base de V y, por ende dim V = 4 Considera la única topología
que se puede generar en V a partir de una norma (elije la norma que más te guste). Considera el conjunto
{3 + 2x + ax 2 |a ∈ R}.

Con la norma que diste, ¿cuál es la norma de este elemento?


¿Es un abierto en V ?
¿Es un cerrado de V ?
Determina su interior, exterior, frontera y cerradura.

Para el mismo V , sea U ⊂ V el conjunto de funciones polinomiales de grado a lo más dos. ¿Es U un conjunto
abierto?, ¿es cerrado?
( 3.47 ) Sea V un espacio vectorial real y normado, de dimensión finita. Supón que U ⊂ V es un subespacio
vectorial que tiene interior no vacío. Demuestra que U = V .
˚
Sugerencia: sea x ∈ U. Ù Existe r > 0 tal que B (x; r) ⊂ U. Trasladala por −x para concluir que B (0; r) ⊂ U.
rx
Sea x ∈ V cualquier vector no nulo. Entonces, ∈ B (0; r) ⊂ U. Concluye que x ∈ U.
2 kxk

( 3.48 ) Se concibe una función polinomial en R2 de grado menor o igual que tres como un par ordenado de
polinomios (p, q) tales que p, q ∈ V , en donde se toma V tal como en el Ejercicio (3.46). Entonces, el espacio
de polinomios en R2 de grado a lo más tres es un espacio vectorial con la suma y producto por escalar definido
en cada entrada y cuya dimensión deberás determinar; de hecho, este espacio coincide con V × V (ve (1.2.20)).
Sea kkV una norma en V , cualquiera. Entonces, k(p, q)kV ×V = kpkV + kqkV define una norma en V × V . ¿Es el
conjunto de los polinomios (a0 + a1 x + a2 x 2 + a3 x 3 , b0 + b1 x + b2 x 2 + b3 x 3 ) tales que a0 < a1 y a3 > b3 un
abierto en V × V ?

80
Capítulo 4

• Curvas en Rn .

Las curvas, caminos, trayectorias y trazas son objetos matemáticos íntimamente ligados con ciertos
conjuntos especiales, llamados conexos por trayectorias. A manera intuitiva se entenderá que un con-
junto es conexo por trayectorias si para cualesquier dos puntos del conjunto existe una linea curva que
los une. Esto permitirá demostrar que en Rn los únicos conjuntos que son abiertos y cerrados a la vez
son únicamente Rn y ∅. La linea curva antes mencionada será, precisamente, un camino (concepto que
se define más adelante).
A manera resumida, este capítulo tratará los conceptos de límite, derivada, teoremas sobre derivadas
e integración para funciones cuyo dominio es subconjunto de R. No debe causar dificultades este
capítulo pues casi todos los métodos, técnicas, teoremas e ideas se basan en los conocimientos que el
lector posee sobre funciones de R en R.

§ 4.1. Definiciones.
Se supone que dados A, B ∈ Rn se quiere describir, a través de una función, el segmento de recta
que une a A con B. Ya se mencionó como hacer esto con conjuntos, a saber,

L = {(1 − t)A + tB : t ∈ [0, 1]}.

Observa que lo que se está haciendo es, para cada t ∈ [0, 1], asignar un único vector en L. De este
modo se puede definir una función f : [0, 1] → L, dada por f(t) = (1 − t)A + tB, y decir que f es una
curva y al segmento descrito por f es la traza. El dominio de f es subconjunto de R y el contradominio
es subconjunto de Rn .

( 4.1.1 ) Sea f : I ⊂ R → Rn entonces f es una curva. Asimismo, los términos curva, camino y trayectoria son
indistintos entre sí. Además, α = f(I) será llamada la traza definida por f.

Obsérve que α no es la gráfica de f, el conjunto α es el recorrido o imagen de f. Asimismo, el


conjunto α es subconjunto de del contradominio de f y la gráfica de f, Γ(f), es subconjunto I × Rn .

( 4.1.2 ) Sea f : [0, 2π] → R2 definida según la regla de correspondencia

f : t 7Ï (cos t, sin t).

Determine la “figura geométrica” que es la traza descrita por f.

81
Capítulo 4. Curvas en Rn .

Sea α la traza descrita por f. Es importante la siguiente observación: todos los puntos de α están
en el círculo unitario S1 = {(x, y) ∈ R2 : x 2 + y 2 = 1}, analíticamente esto es cierto pues kf(t)k = 1.
Esto sugiere pensar que α = S1 . Ahora bien, para cualquier t ∈ [0, 2π] se tiene que (cos t, sin t) ∈ S1 .
De esto se concluye que α ⊂ S1 , falta ver que la otra contenencia también es válida. Sea (x, y) ∈ S1
entonces x 2 + y 2 = 1. Sea θ ∈ [0, 2π) el ángulo formado desde el vector (1, 0) al vector (x, y) entonces
por definición del seno y del coseno1 (x, y) = (cos θ, sin θ) ∈ α. De donde, α = S1 . Este primer ejemplo,
aunque sencillo, es de los más importantes pues da una parametrización de S1

( 4.1.3 ) Sea S ⊂ Rn , se dice que f : R → Rn es una curva que parametriza S si la traza de f es S.

Observación: dada una función f : A ⊂ R → R se tiene que su gráfica, Γ(f), es un subconjunto de R2 .


Entonces, si se define g : A → R2 dada por g(t) = (t, f(t)) entonces la traza de g es la gráfica de f y, por
definición, g parametriza a f.
Queda advertido al lector que se debe recordar la parametrización del ejemplo (4.1.2) pues es, sin
lugar a dudas, la más importante de las parametrizaciones del círculo, es sencilla y fácil de recordar.
También nota que la parametrización aquí dada recorre al círculo en sentido contrario a las manecillas
del reloj. A este sentido se le conoce como levógiro. Hay otra cosa interesante, nuestra parametriza-
ción empieza en (1, 0), cuando el ángulo es cero. Esto motiva en llamar a esta parametrización como
«canónica» de S1 . El ejemplo (4.1.2) puede generalizarse a un círculo arbitrario en R2 .

( 4.1.4 ) Sea C = {X ∈ R2 : kX − Pk = r}, el círculo de radio r y centro P. Encuentra una parametrización de


C.

Ya se sabe que f : [0, 2π] → R2 dada por f(t) = (cos t, sin t) parametriza al círculo unitario entonces
rf(t) = r(sin t, cos t), debería parametrizar al círculo de radio r y centro 0. Entonces, g(t) = rf(t) + P
debería parametrizar a C. Se verá que esto es cierto, se pone α = f([0, 2π]). Observa que kg(t) − Pk =
r kf(t)k = r. Por lo tanto, α ⊂ C. Sea X ∈ C entonces se considera t el ángulo que forman los vectores
X−P 1
X − P y e1 = (1, 0). Entonces, f(t) = = (X − P), de este modo, g(t) = X y C ⊂ α.
kX − Pk r
Con este ejemplo se ha podido parametrizar a todo círculo en R2 . En los ejercicios se dan más
parametrizaciones de curvas famosas.
Dadas dos curvas en el mismo espacio, por ejemplo f y g, hay interés en definir el tipo de opera-
ciones que pueden realizarse con ellas. Por ejemplo, no existe la división o multiplicación de vectores,
f
por ende, no seran definidas o fg; sin embargo, se puede pensar en división por coordenadas o mul-
g
tiplicación por coordenadas, aún así, esto no se hará pues más adelante se identificarán a las funciones
vectoriales como matrices de 1 × n cuyas entradas son funciones en vez de números.

( 4.1.5 ) Sean f y g dos curvas definidas en Rn y φ una curva en R. Se definen las siguientes funciones a partir
de ellas:

1. la suma (de curvas en el mismo espacio) como la función f + g que posee regla de correspondencia
t 7Ï f(t) + g(t) y dominio Dom (f + g) = Dom (f) ∩ Dom (g) ;

2. el producto escalar (de curvas en el mismo espacio) f · g como la función con regla de correspondencia
t 7Ï f(t) · g(t) y dominio Dom (f · g) = Dom (f) ∩ Dom (g) ;

3. si n = 3, el producto vectorial f × g como la función con regla de correspondencia t 7Ï f(t) × g(t) y dominio
Dom (f × g) = Dom (f) ∩ Dom (g) ;
1 Ve, por ejemplo, [21].

82
4.2. Límites.

4. el producto por una función escalar φf como la función con regla de correspondencia t 7Ï φ(t)f(t) y dominio
Dom (φf) = Dom (φ) ∩ Dom (f) .
Es inmediato de estas definiciones que la función f · g es una función de R en R y la función f × g
es una función de R en R3 y φf es de R en Rn .

z 4.1.1 Curvas equivalentes.


¿Que debería significar que dos curvas son equivalentes? Una manera intuitiva de pensarlo es con
una partícula la cual recorre la traza descrita por una curva α. Si β es una curva equivalente a α
entonces cuando la particula sigue la regla de correspondencia de β recorre la misma traza y en la
misma dirección que con α. Entonces, se debe mantener el sentido en el que se recorre el dominio de
α.
( 4.1.6 ) Sea f : [a, b] → Rn una curva. Se dirá que g : [c, d] → Rn es equivalente a f si existe una función
continua y estrictamente creciente u : [a, b] → [c, d] tal que u(a) = c y u(b) = d, además tal u satisface que
f = g ◦ u. A u se le llama «cambio de parámetro».
( 4.1.7 ) Se supone que f es equivalente a g con cambio de parámetro u entonces g es equivalente a f con
cambio de parámetro u−1 . Más aún, la relación en el espacio de curvas en Rn definida por

R : f y g son equivalentes,

es de equivalencia.
Esto es así pues al ser u continua y estrictamente creciente existe una inversa, también estrictamente
creciente, u−1 : [a, b] → [a, b] tal que g = f ◦ u−1 . Además, es claro que f = f ◦ I[a,b] y si f = g ◦ u y
g = h ◦ v entonces f = h ◦ (v ◦ u) y v ◦ u es continua y estrictamente creciente pues u y v lo son.
( 4.1.8 ) Cuando u es estrictamente decreciente se obtiene la definición de curvas opuestas. En particular,
f, g : [a, b] → Rn y u : [a, b] → [a, b] es tal que u(t) = a + b − t, se dirá que g parametriza la misma traza
que f pero en dirección opuesta. Esto también se expresa diciendo que g es la curva f recorrida al revés.
( 4.1.9 ) Si f : [a, b] → Rn entonces existe una curva equivalente a f, por ejemplo g, tal que g : [0, 1] → Rn .
Hay que encontrar un cambio de Å parámetro
ã adecuado. Define g(t) = f ((b − a)t + a) . Entonces,
t − a t−a
g : [0, 1] → Rn . Observa que f(t) = g , donde u(t) = . Claramente u representa una recta
b−a b−a
con pendiente positiva, por lo que es una función continua y estrictamente creciente. Además, dado que
u(a) = 0 y u(b) = 1 se ve que f es equivalente a g.

§ 4.2. Límites.
Uno de los conceptos más importantes (y abstractos) en cálculo es el de límite. Cuando se habla de
límite siempr se piensa en cercanía. Entonces, el símbolo lı́m f(t) = L habrá de significar que la curva
t→a
f estará tan cerca como se desee de L bastando para esto acercar a t la suficiente a a. Esta expresión
intuitiva requiere ser expresada en términos precisos.
( 4.2.1 ) Sea f una curva definida sobre un conjunto I ⊂ R, sea a ∈ R un punto de acumulación de I. Se dice
que un límite de f en a es L, denotado por lı́m f(t) = L, si
t→a

(∀ε > 0)(∃δ > 0) tal que (0 < |t − a| < δ, t ∈ I Ñ kf(t) − Lk < ε).

83
Capítulo 4. Curvas en Rn .

Observaciones:
1. El δ que aparece en la definición es, típicamente, función de ε y de a. Esto difiere con las sucesiones
donde el N encontrado era función únicamente de ε.
2. Muchos autores utilizan la notación lı́m f = L para referirse al límite de f en a.
a

3. No se pide que a ∈ Dom (f) pues puede suceder que I = [b, a) ∪ (a, c]. En este caso, nada impide
que para valores cerca de a las imágenes de tales valores tengan como límite a cierto vector L.
4. Si a no es un punto límite de I pero está en I entonces cualquier vector L es límite de f en a.
Para ver esto se observa lo siguiente, dado que a no es punto límite de I existe una bola centrada
en a tal que su intersección con I es {a}. De este modo, cualquier punto distinto de a, que esté
en esta bola e I satisface que su imagen dista de L menos que ε para cualquier ε > 0. Por eso es
importante que a sea punto límite de I.
5. Observa que la definición anterior coincide con aquella dada para funciones de R en R cuando la
curva está definida en R.
6. En principio no existe ninguna garantía que existe el límite. El siguiente teorema aclara este punto.
( 4.2.2 ) Sea f una curva definida en I tal que lı́m f existe. Entonces este límite es único.
a

Se supone que lı́m f = L1 y lı́m f = L2 . Sea ε > 0, para que ocurra las dos igualdades anteriores es
a a
necesario y suficiente que2

∃δ1 > 0 tal que t ∈ B∗ (a; δ1 ) ∩ I Ñ kf(t) − L1 k < ε

y
∃δ2 > 0 tal que t ∈ B∗ (a; δ2 ) ∩ I Ñ kf(t) − L2 k < ε.
Sea δ = mı́n{δ1 , δ2 } entonces las dos implicaciones previas se mantienen simultáneamente. Observa
que L1 = L2 ⇔ L1 − L2 = 0 ⇔ kL1 − L2 k = 0, en donde la última equivalencia se deriva de la definición
de norma (1.4.2). Usando la desigualdad triangular (otra vez, ve la definición de norma), se ve que

kL1 − L2 k = kL1 − f(t) + f(t) − L2 k ≤ kL1 − f(t)k + kf(t) − L2 k .

Para cualquier t ∈ B∗ (a; δ) se tiene que

kf(t) − L1 k + kf(t) − L2 k ≤ 2ε.

Como L1 y L2 son vectores fijos y la última desigualdad se preserva para cualquier ε, se sigue que
kL1 − L2 k es cero3 . Esto prueba el teorema.
Antes de los siguientes ejemplos habrá que convenir algo. A partir de ahora se daren solamente la
regla de correspondencia de una curva f y siempre se deberá considerar al dominio como el conjunto
más grande de R para el cual esta regla está definida.
( 4.2.3 ) Demuestra los siguientes límites.
1. lı́m(t, 2t, t − 1) = (2, 4, 1);
t→2
2 Aquí se está usando la notación B∗ (a; δ) = B (a; δ) \ {a}, la bola agujerada de centro a y radio δ.
3 Si kL1 − L2 k
es clara la conclusión puedes proceder como sigue. Supón por el contrario que kL1 − L2 k > 0, sea ε = entonces
4
kL1 − L2 k
kL1 − L2 k < 2ε = , lo que es falso por la suposición de que kL1 − L2 k > 0
2

84
4.2. Límites.

2. lı́m(sin t, t) = (0, 0).


t→0

Se resuelve cada caso.

1. Sea ε > 0, se quiere encontrar un δ > 0, como función de ε y 2, tal que se satisfaga la definición
de límite. Observa que 2 es un punto límite del dominio de la función (en este caso el dominio
es R, el conjunto más grande donde la función está definida). También, si se pidiera encontrar
el límite de la primera coordenada (o de la tercera), solamente bastaría dar δ ≤ ε para que se
satisficiera la definición de límite. Análogamente, si se tomára a la segunda coordenada se tendría
1 1
que cualquier δ ≤ ε es buen candidato. Resulta natural pensar que δ = ε, es buen candidato;
2 2
sea t ∈ B∗ (2; δ) . Entonces

kf(t) − L)k = k(t, 2t, t − 1) − (2, 4, 1)k = k(t − 2, 2t − 4, t − 2)k



= k(t − 2)(1, 2, 1)k = |t − 2| k(1, 2, 1)k = 6|t − 2|

√ 6
< 6δ = ε.
2
1
Este δ “casi” funcionó4 ; sin embargo, ahora es claro cuál es el candidato adecuado; sea δ = √ ε.
6
Con repetir los pasos anteriores se ve que
ε
δ ≤ √ Ñ k(t, 2t, t − 1) − (2, 4, 1)k < ε.
6

2. Este ejemplo es un poco más complicado que el anterior, sin embargo, es más ilustrativo. Dado
ε > 0 existen δ1 y δ2 tales que
ε ε
|t| < δ1 Ñ | sin t| < √ y |t| < δ2 Ñ |t| < √
2 2
La existencia de δ1 y δ2 está garantizada pues en R las funciones seno e identidad son continuas.
Sea δ = mı́n{δ1 , δ2 } entonces para todo t ∈ B∗ (0; δ) se tiene que
 
» ε2 ε2
kf(t) − Lk = k(sin t, t)k = sin2 (t) + t 2 < + = ε,
2 2
que es lo que se quería demostrar.

Seguramente el lector estará sospechando los límites de curvas se comportan como límites de
sucesiones. Esto es, si f = (f1 , . . . , fn ) entonces
 
lı́m f(t) = lı́m f1 (t), . . . , lı́m fn (t) ;
t→a t→a t→a

esto es cierto.

( 4.2.4 ) Sea f = (f1 , . . . , fn ) una curva en Rn , y sea a un punto de acumulación de Dom (f) . Para que
lı́m f(t) = L es ncesario y suficiente que lı́m fi (t) = Li , para cada i = 1, . . . , n.
t→a t→a

4 Siendo menos estrictos, éste δ es suficiente para demostrar el límite pues el multiplicar por cualquier constante positiva no
modifica el significado geométrico de límite. Simplemente, se considera una bola reducida más pequeña (o más grande, según
sea el caso).

85
Capítulo 4. Curvas en Rn .

Se demostrará la necesidad y la suficiencia quedará a cargo del lector.


Se supone que lı́m f(t) = L entonces, para todo ε > 0 existe δ > 0 tal que para todo t ∈ B∗ (a; δ) se
t→a
tiene que kf(t) − Lk < ε. Observa que
|fi (t) − Li | ≤ kf(t) − Lk < ε, consecuencia del ejercicio (1.20),
esto prueba que lı́m fi (t) = Li para todo i = 1, . . . , n.
t→a
Los ejemplos anteriores dieron pauta para sospechar del teorema anterior. El cual permite reducir
el problema de encontrar el límite de una curva en Rn a encontrar n límites de funciones de R en R.
Del mismo modo se puede pensar lo siguiente, dado que la definición de límite de curvas coincide con
la de funciones de R en R entonces los teoremas de aquellas funciones deberán tener sus análogos n
dimensionales.
( 4.2.5 ) Sean f y g dos curvas definidas en el mismo espacio y sea a um punto de acumulación de Dom (f + g) ,
también se supone que lı́m f(t) = L1 y lı́m g(t) = L2 . Entonces,
t→a t→a

lı́m(f + g)(t) = L1 + L2 .
t→a

Hay que hacer una aclaración, se deben demostrar dos cosas, la primera es que el límite de f + g
en a existe, la segunda, que este límite es L1 + L2 .
Sea ε > 0. D acuerdo al ejercicio (3.16) a es punto límite de Dom (f) y de Dom (g) . Entonces, existen
δ1 y δ2 tales que
ε
t ∈ B∗ (a; δ1 ) ∩ Dom (f) Ñ kf(t) − L1 k <
2
y
ε
t ∈ B∗ (a; δ2 ) ∩ Dom (g) Ñ kg(t) − L2 k <
2
De este modo, se toma δ = mı́n{δ1 , δ2 } entonces las dos ecuaciones anteriores se satisfacen simultá-
neamente. Por lo tanto, para t ∈ B∗ (a; δ) ∩ Dom (f + g) , se tiene que
k(f + g)(t) − (L1 + L2 )k = kf(t) − L1 + g(t) − L2 k
ε ε
≤ kf(t) − L1 k + kg(t) − L2 k < + =ε
2 2
Lo cual prueba que el límite de f + g en a existe y es igual a L1 + L2 .
La demostración de este teorema fue prácticamente la misma que en el caso de una variable.
( 4.2.6 ) Sean f y g dos curvas definidas en el mismo espacio y sea a un punto de acumulación de Dom (f · g) .
Se supone que lı́m f(t) = L1 y lı́m g(t) = L2 . Entonces
t→a t→a

lı́m(f · g)(t) = L1 · L2 .
t→a

Se sabe que los límites de f y g existe si y solo si existen coordenada a coordenada. Luego,
n
X n
X
lı́m(f · g)(t) = lı́m (fi gi )(t) = lı́m fi (t)gi (t)
t→a t→a t→a
i=1 i=1
n
X
= lı́m fi (t) lı́m gi (t)
t→a t→a
i=1
   
= lı́m f1 (t), . . . , lı́m fn (t) · lı́m g1 (t), . . . , lı́m gn (t)
t→a t→a t→a t→a
= lı́m f(t) · lı́m g(t) = L1 · L2 .
t→a t→a

Esto concluye la demostración.

86
4.2. Límites.

( 4.2.7 ) Considera las curvas f y g definidas en R2 de la siguiente forma


Å ã Å ß ™ã
ln(t + 1) sin t 1 1
f(t) = , y g(t) = 2 , exp − 2 .
t t t +1 t
Cierto o falso: el límite en 0 de f · g existe. En caso de existir, calcularlo.
En acuerdo con (4.2.6) basta encontrar los límites de f y g, pero para hacer esto basta encontrar
los límites por coordenadas. Como lı́m ln(t + 1) = lı́m t = 0, se tiene, por la regla de L’Hôpital, que
t→0 t→0
ln(t + 1) 1 sin t
lı́m = lı́m = 1. Análogamente, lı́m = 1, esto prueba que lı́m f(t) = (1, 1). Para la
t→0 t t→0 t + 1 ß t→0 ™t t→0
1 1 w 1
curva g se tiene que lı́m 2 = 1 y lı́m exp − 2 = lı́m e = 0, pues lı́m − 2 = −∞ y exp es una
t→0 t + 1 t→0 t w→−∞ t→0 t
función continua. Así, ha sido demostrado que lı́m g(t) = (1, 0). Consecuentemente, en virtud de (4.2.6)
t→0
se tiene que lı́m(f · g)(t) = 1.
t→0

( 4.2.8 ) Sean f y g curvas que están definidas en R3 y sea a un punto de acumulación de Dom (f × g) .
Asimismo, se supone que lı́m f(t) = L1 y lı́m g(t) = L2 . Entonces, existe lı́m(f × g)(t) y se tiene la siguiente
t→a t→a t→a
igualdad
lı́m(f × g)(t) = L1 × L2 .
t→a

Recuerda que si A = (a1 , a2 , a3 ) y B = (b1 , b2 , b3 ), entonces

A × B = (a2 b3 − a3 b2 , a3 b1 − a1 b3 , a1 b2 − a2 b1 )

De este modo,

lı́m(f × g) = lı́m(f2 g3 − f3 g2 , f3 g1 − f1 g3 , f1 g2 − f2 g1 )
a a
= (lı́m(f2 g3 − f3 g2 ), lı́m(f3 g1 − f1 g3 ), lı́m(f1 g2 − f2 g1 ))
a a a
= (lı́m f1 , lı́m f2 , lı́m f3 ) × (lı́m g1 , lı́m g2 , lı́m g3 )
a a a a a a
= lı́m f × lı́m g = L1 × L2 .
a a

Esto concluye la demostración.


Falta considerar los límites que se presentan cuando se tiene una función real de variable real
multiplicando a una curva, como es de esperarse, éste límite es el producto de los límites. Se deja esto
como ejercicio para el lector.
Con los teoremas anteriores se puede encontrar casi cualquier límite que se presente en la práctica.
La idea para encontrar límite es simple, se encuentra el límite coordenada a coordenada. Luego, se
realizan las operaciones algebraicas necesarias.
( 4.2.9 ) Encuentra los siguientes límites.
1. lı́m(sin t, cos t, t);
t→π
Ä√ ä
2. lı́m t, (sin t)t .
t→2

Como se sabe, basta encontrar los límites individuales. Entonces,


 
lı́m(sin t, cos t, t) = lı́m sin t, lı́m cos t, lı́m t
t→π t→π t→π t→π
= (sin π, cos π, π) = (0, −1, π)

87
Capítulo 4. Curvas en Rn .

y Ä√ ä  √  Ä√ ä
lı́m t, sint (t) = lı́m t, lı́m(sin t)t = 2, (sin 2)2 .
t→2 t→2 t→2

Obsérve que se han usados hechos de cálculo de una variable, a saber, las funciones seno, coseno,
identidad y exponencial son continuas.

§ 4.3. Continuidad.
Como su nombre indica, en esta sección se hablará de continuidad y se demostrarán algunos teore-
mas concernientes a ella. Supón entonces que una mosca se encuentra volando en la habitación. Para
que ella pueda trasladarse de un punto determinado A a otro punto determinado B la mosca no puede
desaparecer en A y aparecer en algún punto arbitrario C, tiene que recorrer todo un camino que no
se rompe.
( 4.3.1 ) Sea f una curva y a ∈ Dom (f) ; si a no es punto de acumulación de Dom (f) , se dirá que f es continua
en a; si a es un punto de acumulación de Dom (f) , se dirá que f es continua en a si

(∀ε > 0)(∃δ > 0) tal que t ∈ B (a; δ) ∩ Dom (f) Ñ f(t) ∈ B (f(a); ε) .

Observaciones:
1. Si f es una curva y a es un punto de acumulación del dominio de f entonces para que f sea
continua en a es necesario y suficiente que

lı́m f(t) = f(a).


t→a

2. La definición de continuidad ha sido dada para cada punto del dominio de la curva. Luego, esto
es lo que se conoce como una propiedad local de la curva. Puede suceder que haya curvas que
sean continuas en un único de su dominio. Como muestra, considera la curva f : R → R dada
por f(x) = x para x racional y f(x) = 0 para x irracional. Tal curva satisface ser continua en cero
pero no en ningún otro punto de su dominio.
3. Si f está definida sobre un conjunto I ⊂ R se dirá que f es continua en I si para todo x ∈ I, f es
continua en x. Con esto, si se dice que f es una curva continua se deberá entender que f es una
curva continua en cada punto de su dominio.
La demostración de los teoremas sobre contiuidad se basa en usar repetidamente (4.2.4) para los
puntos de acumulación del dominio.
( 4.3.2 ) Sean f = (f1 , . . . , fn ) una curva definida en Rn y a ∈ Dom (f) . Una condición necesaria y suficiente
para que f sea continua en a es que cada fi sea continua en a.
( 4.3.3 ) Sean f y g curvas definidas en Rn las cuales son continuas en a. Se cumple lo siguiente:
1. f + g es continua en a;
2. f · g es continua en a;
3. f × g es continua en a.
En Rn la continuidad puede ser definida sin usar límites, sin usar el clásico estilo ε-δ. Si dos puntos
están arbitrariamente cercanos en la imagen entonces sus preimágenes están arbitrariamente cerca.

88
4.4. Diferenciación.

( 4.3.4 ) Sea f una curva con valores en Rn . Para que f sea continua en t ∈ Dom (f) es necesario y suficiente
que para toda bola B (f(t); ε) en Rn exista una bola B (t; δ) en R tal que

f (B (t; δ) ∩ Dom (f)) ⊂ B (f(t); ε) .

Para f continua en t considera ε > 0 entonces existe δ > 0 tal que para s ∈ Dom (f) con |t − s| < δ
se tiene que |f(t) − f(s)| < ε. Esto es precisamente que f (B (t; δ) ∩ Dom (f)) ⊂ B (f(t); ε) .
Se supone ahora que para toda bola B (f(t); ε) en Rn exista una bola B (t; δ) en R tal que

f (B (t; δ) ∩ Dom (f)) ⊂ B (f(t); ε) .

Toma ε > 0 entonces existe δ > 0 con f (B (t; δ) ∩ Dom (f)) ⊂ B (f(t); ε) . Esto es, existe un δ > 0 para el
cual, si s ∈ Dom (f) es tal que |t − s| < δ entonces kf(t) − f(s)k < ε. Es decir, f es continua en t.

( 4.3.5 ) Sea f una curva con valores en Rn . Para que f sea continua en t ∈ Dom (f) es necesario y suficiente
que para todo abierto U ⊂ Rn que tenga a f(t) como elemento exista un abierto I ⊂ R que contenga a t tal que
f(I ∩ Dom (f)) ⊂ U.

La demostración utilizará el teorema anterior. Considera a f una función continua de t. Sea U un


abierto que contenga a f(t) entonces existe ε > 0 con B (f(t); ε) ⊂ U. Por el teorema anterior, existe
δ > 0 tal que
f(B (t; δ) ∩ Dom (f)) ⊂ B (f(t); ε) ⊂ U.
Toma I = B (t; δ) , luego, el resultado se sigue.
Recíprocamente, sea ε > 0 entonces para U = B (f(t); ε) existe I abierto con t ∈ I y f(I ∩Dom (f)) ⊂ U.
Al ser I abierto y t ∈ I existe un δ > 0 tal que B (t; δ) ⊂ I. Por el teorema anterior, f es continua en t.

§ 4.4. Diferenciación.
En los cursos de cálculo de una variable el lector debió haber aprendido lo que es una derivada.
Quienes estudiaron carreras con fuerte base matemática deberán saber que la derivada es un número
que se obtiene como el resultado de un límite. Más aún, la derivada tiene interpretaciones geométricas y
físicas interesantes. En R la derivada de una función f en un punto t es el valor numérico de la pendiente
de la recta tangente a f en t. Para la física la derivada representa la razón de cambio instantánea en t.
Esto es, el promedio puntual del crecimiento de una función respecto al crecimiento de su argumento.
Como es de esperarse, la derivada de una curva también tiene representaciones geométricas y físicas.
A diferencia de las funciones de Rn en Rm , donde definir derivada es bastante más complicado que
este caso, la generalización a una curva es simple y natural. Cómo en el caso de los límites, la derivada
de una curva es la derivada por coordenadas.

( 4.4.1 ) Sea f una curva definida en Rn . La derivada de f, denotada como f 0 es una función de un subconjunto
de R a Rn con regla de correspondencia

f(t + h) − f(t)
f 0 (t) = lı́m
h→0 h
y dominio el conjunto de puntos donde el anterior límite existe.

Observaciones:

1. La derivada es única, lo cual queda claro de la unicidad de los límites.

89
Capítulo 4. Curvas en Rn .

2. La derivada ha sido definida como una función de R a Rn . Esto difiere con lo aprendido en
cursos de cálculo de una variable, donde la derivada era un número. Asimismo, esto diferirá con
la derivada más general presentada en el siguiente capítulo. Sin embargo, se demostrará en el
próximo capítulo que pese a las diferentes definiciones todas se adaptan al caso general haciendo
algunas identificaciones naturales.
3. En el caso real también se pudo haber dicho que la derivada era una función de R en R que
satisface el anterior límite. Con esto en mente, las definiciones de derivada para funciones de R
en R y las de curvas coinciden cuando n = 1.
4. Dada una curva f = (f1 , . . . , fn ), para que esta sea diferenciable en f es necesario y suficiente que
cada fi sea diferenciable en a. En este caso f 0 (a) = (f10 (a), . . . , fn0 (a)). Lo que es inmediato de (4.2.4).
5. Existen variadas notaciones para la derivada. La siguiente es una lista de símbolos que denotan a
df dX d
la derivada de f: f 0 , D(f)(t), Df(t), , si f(t) = X(t) entonces denota la derivada, f(t), y ḟ,
dt dt dt
o bien, si f(t) = X(t) entonces Ẋ. Esta última es frecuentemente utilizada en la física.
6. El problema de encontrar una derivada de R en Rn se transformó al de encontrar n derivadas
de funciones de R en R. Observa que todos los teoremas sobre funciones con dominio R y
contradominio Rn se han desmenuzado a resolver n veces el mismo teorema de R a R. Lo
mismo sucedió con sucesiones y series.

z 4.4.1 Teoremas sobre derivadas.


Aquí se desarrollarán técnicas para derivar curvas y las funciones definidas por operaciones entre
ellas. Se verá que, como en el caso de una variable, diferenciabilidad implica continuidad y no al revés.
También se demostrará una generalización del teorema del valor medio a curvas.
Se empieza con cómo calcular derivadas.
( 4.4.2 ) Sean f y g dos curvas en Rn para las cuales f 0 y g 0 existen en a. Entonces (f + g)0 existe en a y
(f + g)0 (a) = f 0 (a) + g 0 (a).
Pues para cada i = 1, . . . , n se tiene que (f + g)0i (a) = fi0 (a) + gi0 (a).
( 4.4.3 ) Sean f y g dos curvas en Rn para las cuales f 0 y g 0 existen en a. Entonces (f · g)0 existe en a y
(f · g)0 (a) = f(a) · g 0 (a) + f 0 (a) · g(a).
El modo más sencillo de proceder es utilizando la regla del producto para funciones de R en R. De
este modo,
n
!0 n
X X
0
(f · g) (a) = fi (a)gi (a) = (fi (a)gi (a))0
i=1 i=1
n
X
= (fi (a)gi0 (a) + fi0 (a)gi (a))
i=1
n
X n
X
= fi (a)gi0 (a) + fi0 (a)gi (a)
i=1 i=1
= f(a) · g 0 (a) + f 0 (a) · g(a).
Lo cual concluye la demostración.
De entre todas las operaciones que se definieron para curvas en Rn existe una que está definida
exclusivamente para curvas en R3 . Este es, el producto vectorial.

90
4.4. Diferenciación.

( 4.4.4 ) Sean f y g dos curvas en R3 para las cuales f 0 y g 0 existen en a. Entonces (f × g)0 existe en a y

(f × g)0 (a) = f(a) × g 0 (a) + f 0 (a) × g(a).

Sean f = (f1 , f2 , f3 ) y g = (g1 , g2 , g3 ) entonces (omitiendo la evaluación en a, por falta de espacio)

(f × g)0 = (f2 g3 − f3 g2 , f3 g1 − f1 g3 , f1 g2 − f2 g1 )0
= ((f2 g3 − f3 g2 )0 , (f3 g1 − f1 g3 )0 , (f1 g2 − f2 g1 )0 )
= (f2 g30 + f20 g3 − f3 g20 − f30 g2 , f3 g10 + f30 g1 − f1 g30 − f10 g3 ,
f1 g20 + f10 g2 − f2 g10 − f20 g1 )
= (f2 g30 − f3 g20 , f3 g10 − f1 g30 , f1 g20 − f2 g10 )
+(f20 g3 − f30 g2 , f30 g1 − f10 g3 , f10 g2 − f20 g1 )
= f × g 0 + f 0 × g.

Lo cual concluye la demostración.


En el teorema para obtener la derivada de un producto vectorial entre curvas se debe tener cuidado
en el orden en que aparecen los factores, pues el producto cruz no es conmutativo. Finalmente, se
demuestra el teorema que corresponde a la operación del producto de una función real con una
vectorial.

( 4.4.5 ) Sea f una curva y φ una función real de variable real para las cuales f 0 y φ0 existen en a. Entonces

(φf)0 (a) = φ(a)f 0 (a) + φ0 (a)f(a).

Sea f = (f1 , . . . , fn ) entonces

(φf)0 (a) = (φf 1 , . . . , φf n )(a)0 = ((φf1 )0 (a), . . . , (φfn )0 (a))


= (φ(a)f1 (a)0 + φ0 (a)f1 (a), . . . , φ(a)fn0 (a) + φ0 (a)fn (a))
= (φf10 , . . . , φfn0 )(a) + (φ0 f1 , . . . , φ0 fn )(a)
= φ(a)f 0 (a) + φ0 (a)f(a).

Con esto demostramos el teorema.

Observación: Es interesante que estos teoremas hayan dado como derivada la misma regla de co-
rrespondencia. En los tres casos se tiene un producto P(f, g)(t) y se satisface que P es lineal en f y en
d
g, luego P(f, g)(t) = P(f, g 0 )(t) + P(f 0 , g)(t). En el siguiente capítulo se verá la razón de esto.
dt
Un hecho importante es que si una función real de variable real es derivable entonces la función
es suave en los puntos donde es derivable. También se sabe que si una función es derivable en algún
punto t, tiene que ser continua en t.

( 4.4.6 ) Sea f una función definida en un conjunto I ⊂ R y sea a ∈ I tal que f 0 existe en a. Entonces f es
continua en a.

La idea de la demostración es, esencialmente, la misma que para el caso R. Como f es derivable
f(a + h) − f(h)
en a, lı́m existe. También, f es continua en a si lı́m f(t) = f(a) o, equivalentemente,
h→0 h t→a

91
Capítulo 4. Curvas en Rn .

lı́m[f(t) − f(a)] = 0. Como


t→a

lı́m[f(t) − f(a)] = lı́m[f(t) − f(a)] = lı́m (f(a + h) − f(a))


t→a t→a h→0
(f(a + h) − f(a))
= lı́m h
h→0 h
(f(a + h) − f(a))
= lı́m lı́m h
h→0 h h→0
0
= f (a) · 0 = 0

se ve que lı́m f(t) = f(a), mostrando lo pedido


t→a

( 4.4.7 ) Sea f una curva en Rn definida sobre [a, b], con a < b, tal que f es diferenciable en (a, b) y continua
en [a, b]. Entonces, para cada i = 1, . . . , n, existe ci ∈ (a, b) tal que

f(b) − f(a) = (b − a) f10 (c1 ), . . . , fn0 (cn ) .




Esto se conoce como el «teorema del valor medio clásico».


Como f es diferenciable en (a, b) y continua en [a, b] cada fi es diferenciable en (a, b) y continua
en [a, b]. Entonces, cada función fi satisface el teorema del valor medio clásico para funciones de R a
R. Entonces, para cada i = 1, . . . , n existe ci ∈ (a, b) tal que

fi (b) − fi (a) = (b − a)fi0 (ci )

lo cual concluye la demostración.

Observaciones:
1. no se demuestra la existencia de un c en (a, b) tal que f(b) − f(a) = (b − a)f 0 (c). De hecho, en
general, esto no se cumple. Por ejemplo, para f : [0, 1] → R2 dada por f(t) = (t 2 , t 3 ) no se cumple;
en efecto, f 0 (t) = (2t, 3t 2 ), por lo cual f(1) − f(0) = f 0 (c) si y solo si (1, 1) = (2c, 3c2 ). Pero ningún
c ∈ [0, 1] cumple esto.
2. Aquí se utilizó el teorema del valor medio clásico para funciones de R a R. En (4.6.8) se da una
demostración alternativa al «teorema del valor medio» moderno.
Los teoremas anteriores fueron sencillos de demostrar, básicamente todo el trabajo desarrollado
hasta ahora se ha resumido a cálculo de una variable.

z 4.4.2 Tangentes, Velocidad y Rapidez.


¿Qué se entiende cuando se habla de tangencia? Una primera idea que viene a la mente es una recta
que se aproxima a la traza y la toca en un solo punto. En el círculo se cumple que esto es cierto, pero
una traza en general no lo cumple. Como ejemplo básico cualquier recta. La tangente a una recta es
la misma recta, por lo tanto, la tangente a una recta intersecta a la recta en una infinidad de puntos.
Hay trazas que en ciertos puntos de ellas se pueden dibujar una infinidad de rectas que no intersectan
a la traza salvo un punto. En ese caso, ¿cuál se elegiría como tangente? El ejemplo clásico para una
traza de este estilo es la gráfica de la función valor absoluto, pues en el punto cero tiene un pico.
Una traza en Rn tiene forma curvada. Si la traza es lo suficientemente suave entonces la recta
que fuere la tangente deberá aproximar a la traza en el punto dado. Lo más intuitivo es pensar que
la tangente en el punto t debe ser la recta con pendiente f 0 (t), para f de R a R. Entonces surge la

92
4.5. Longitud de Arco.

pregunta, ¿qué sería la pendiente en Rn ? En R la pendiente se puede pensar como la dirección de la


recta. Así, el análogo natural de la pendiente en Rn es el vector dirección. Entonces, la recta tangente
a la traza descrita por f en el punto t debería ser

T = {v ∈ Rn : v = f(p) + tf 0 (p), t ∈ R}.

( 4.4.8 ) Sea f una curva en Rn . Se dirá que f 0 (p) es el vector tangente a f en p, siempre que tal vector exista.
Con la definición de vector tangente se procede a definir lo que es la recta tangente.
( 4.4.9 ) Sea f una curva en Rn con vector tangente en p. Se define la recta tangente a la traza descrita por f
en p como
T = {v ∈ Rn : v = f(p) + tf 0 (p), t ∈ R}.
( 4.4.10 ) Sea f : R → R. Entonces, para que f sea diferenciable en a es necesario y suficiente que

f(a + h) − f(a) − hf 0 (a)


lı́m = 0.
h→0 h
Se cumple que
ï ò
f(a + h) − f(a) f(a + h) − f(a)
lı́m = f 0 (a) ⇔ lı́m 0
− f (a) = 0
h→0 h h→0 h
f(a + h) − f(a) hf 0 (a)
ï ò
⇔ lı́m − =0
h→0 h h
f(a + h) − f(a) − hf 0 (a)
⇔ lı́m = 0.
h→0 h
Que es lo afirmado.
( 4.4.11 ) Sea f una curva en Rn la cual es derivable en a y sea g la transformación afín con regla de corres-
pondencia
g(t) = f(a) + tf 0 (a)
entonces,
f(t) − g(t − a)
lı́m = 0.
t→a t−a
Como el límite es el límite en cada coordenada esto es consecuencia de la proposición previa.
En la demostración anterior se dice que la función g es buena aproximación “lineal” de f en p.
Faltan de ser definidos los términos velocidad y rapidez. La velocidad, como en la física, expresa
más información que un simple número y su unidad. Expresa la razón de cambio de la curva, esto es,
da la razón de cambio de la curva en cada coordenada. Luego, se dirá que la velocidad de f en p es
f 0 (p), en caso que exista. Asimismo, la rapidez expresará la magnitud de la velocidad. Por esta razón, a
la rapidez también se le conoce como velocidad modular. Esta queda definida como kf 0 (p)k , siempre
que la velocidad en p de f exista.

§ 4.5. Longitud de Arco.


El nombre de la sección dice todo lo que se busca ahora. Primero, antes de dar la definición, habrá
que hacerse unas preguntas. ¿Qué se pide a una curva para que su longitud esté definida? Se debe
buscar una definición tal que se pueda hablar de la longitud. Recuerda que las trazas pueden ser
parametrizadas de muchas formas, en nuestro caso, se quiere que su longitud sea independiente de

93
Capítulo 4. Curvas en Rn .

la parametrización. Más aun, se quiere encontrar una fórmula explícita y relativamente sencilla para
calcular dicha longitud.
Se empieza tratatando de buscar algún significado a la longitud. Es natural pensar que ésta debe
ser la distancia recorrida por la curva en la traza. Ahora bien, si la curva recorre varias veces la
traza entonces la distancia debe ser proporcional al número de veces que se ha recorrido la traza.
Por ejemplo, es bien sabido que la longitud de la circunferencia unitaria es 2π, de este modo, la curva
f : [0, 2π] → R2 dada por f(t) = (cos t, sin t) debe tener longitud de arco de 2π y la curva g : [0, 4π] → R2
dada por g(t) = (cos t, sin t) debe tener una longitud de 4π.
Es razonable preguntarse, ¿qué debe pedirse a la traza para que su longitud exista? Lo primero que
viene a la mente es pedirle que no se rompa, esto es, que sea continua. Es claro que no hay necesidad
de perdir diferenciabilidad pues, la traza de t 7Ï (t, |t|) debería tener longitud sobre cualquier intervalo
de la forma [−a, a]. Lo que puede causar un poco de extrañeza es que tampoco hay necesidad de pedir
continuidad, una traza como (t, −1) para t < 0 y (t, 1) para t ≥ 0 también debería tener longitud en
cualquier intervalo de la forma [−a, a] y esta traza no es continua en el origen.
Lo más natural es empezar definiendo la longitud de segmentos de recta. Esta puede ser definida
de la siguiente forma natural, se toma la distancia entre ambos puntos.

( 4.5.1 ) Sean A y B dos puntos en Rn . Se define la longitud del segmento de recta que une A con B como

L ([A, B]) = kA − Bk .

¿Cómo se miden las distancias curvadas? Por lo regular se toma una medida recta unitaria y se
aproxima la distancia traza con la medida recta. Se procede análogamente aquí; sea f : [a, b] → Rn una
curva continua. Sea P = {ti : t0 = a, tm = b, ti−1 < ti , i = 1, . . . , m}, una aproximación a la longitud de
fes
Xm
∆(f, P) = kf(xi ) − f(xi−1 )k .
i=1

Luego, resulta natural considerar a

Lf ([a, b]) = sup{∆(f, P) : P ∈ P}

como la longitud buscada. Antes de hcer esto hay que verificar que la aproximación va mejorando
conforme la «norma» de P se va haciendo más fina, pero esto es cierto, ejercicio (4.64). Así, en efecto,
la aproximación va mejorando y acercándose a la longitud de la traza cuando ésta es finita. En otro
caso no existe.

( 4.5.2 ) Sea [a, b] un intervalo en R. Se define una partición de [a, b] como cualquier familia P = (ti )i=0,1,...,n
de puntos en [a, b] tales que a = t0 < t1 < . . . < tn = b. Si Q = (si )i=0,...,m es otra partición de [a, b] con
n ≤ m y tal que existen 0 = i0 < . . . < in−1 < in = m para los cuales sj = tij , o equivalentemente, la subfamilia
(sij )j=0,...,n es P entonces a Q se le llama un refinamiento de P. Asimismo, el conjunto de todas las particiones
de [a, b] es P([a, b]).

( 4.5.3 ) Sea f una curva continua en Rn definida en un intervalo [a, b]. Sea P una partición de [a, b], se define
la aproximación de la longitud de arco de f por la partición P como
m
X
∆(f, P) = kf(ti ) − f(ti−1 )k ,
i=1

en donde P = (ti )i=0,...,m .

94
4.6. Cálculo de longitud de arco.

( 4.5.4 ) Sea f una curva continua en Rn definida en un intervalo compacto I. Sea P(I) el conjunto de todas las
particiones de I. Si a y b están en I (a ≤ b) entonces se define la longitud de arco de f entre a y b como

Lf ([a, b]) = sup{∆(f, P) : P ∈ P([a, b])}

en caso que exista. Si la tal longitud existe, se dirá que f es rectificable.


En el siguiente ejemplo se ilustra el uso de la definición (4.5.4) al demostrar que toda circunferencia
es rectificable.
( 4.5.5 ) Considera la circunferencia C de radio r > 0 centrada en P ∈ R2 entonces es rectificable.
De acuerdo con el ejercicio (4.66) y el ejemplo (4.1.4) se puede considerar que la circunferencia
dada C está parametrizada por f(t) = r(sin t, cos t) + P para t ∈ [0, 2π]. Se observa que si Q = (ti )i=1,...,n
Xn
es una partición de [0, 2π] entonces ∆(f, Q) = kf(ti ) − f(ti−1 )k . Pero f es diferenciable en (0, 2π) y
i=1
continua en [0, 2π]. Por el teorema (4.4.7) se tiene que f(ti ) − f(ti−1 ) = (ti − ti−1 )(cos(c1 ), − sin(c2 )). De
este modo,
n
X
∆(f, Q) = r (ti − ti−1 ) k(cos(c1 ), − sin(c2 ))k
i=1
n
X
≤ r (ti − ti−1 ) (| cos(c1 )| + | sin(c2 )|)
i=1
Xn
≤ 2r (ti − ti−1 ) = 4rπ.
i=1

Esto muestra que {∆(f, Q)|Q ∈ P([0, 2π])} está acotado superiormente. De este modo f es rectificable.
Más adelante se tendrá la oportunidad de calcular el valor de Lf ([a, b]).

§ 4.6. Cálculo de longitud de arco.


Esta sección deberá leerse hasta después de haber leído el teorema de Heine-Cantor
(5.5.14) o mejor, después de haber leído el capítulo 5.
En esta sección se desarrollará una técnica general para calcular longitudes de arco. La construcción
de la longitud de arco tiene importantes analogías con la construcción de la integral en R.
La rapidez media es la razón entre la distancia recorrida y el tiempo empleado. Así, la distancia
recorrida es la rapidez por el tiempo. Considerando la curva rectificable f como una función del tiempo,
la cual da la posición de una partícula en Rn , se quiere calcular la longitud recorrida por la partícula
en el intervalo [a, b]. Se supone que se tiene una partición P de [a, b] tal que

kPk = máx |ti − ti−1 |


i=1,...,m

es pequeño. La longitud de la traza sobre el intervalo [ti−1 , ti ] es tan pequeña que se puede aproximar
con la partición. Ahora bien, si se supone que en Rn la longitud es igual a la rapidez por el tiempo es
razonable la siguiente igualdad
m
X m Ä ä
X
Lf ([a, b]) ≈ ∆(f, P) =
0 ˆ
kf(xi ) − f(xi−1 )k ≈ f ti (ti − ti−1 ) = S(kf 0 k , P)
i=1 i=1

95
Capítulo 4. Curvas en Rn .

donde tˆi =∈ [ti−1 , ti ].


Es natural pensar que si se hacen refinamientos sucesivos de la partición P entonces debería tenerse
la siguiente expresión
Zb
lı́m S(kf k , P) = kf 0 (t)k dt.
0
kPk→0
a

Es destacable que el símbolo lı́m no ha sido definido aún. Estas consideraciones conducen a la defini-
kPk→0
ción de integral, dada originalmente por Riemann5 .

z 4.6.1 Integral de Riemann.


Para poder dar una definición muy estilizada de la integral de Riemann es necesario introducir el
concepto de suma de Riemann.
( 4.6.1 ) Sean f : [a, b] → Rn una curva acotada, P = (ti )i=0,...,N una partición de [a, b] y ri ∈ [ti−1 , ti ].
XN
Entonces, S(f, P) = f(ri )(ti − ti−1 ) se conoce como una suma de Riemann de f en [a, b] con respecto a la
i=1
partición P y subordinada a la familia de punto intermedios (ri )i=1,...,N .
En la definición anterior la elección de los ri es completamente arbitraria. Con esta definición se
puede dar la definición que dió Riemann de integral.
( 4.6.2 ) Sea f : [a, b] → Rn una curva acotada. Se dirá que f es integrable en el sentido de Riemann («Riemann-
integrable») si existe un vector I ∈ Rn que satisfaga que para cada número ε > 0 exista una partición Pε de
[a, b] tal que para todo refinamiento P de Pε se tenga que kI − S(f, P)k < ε, en donde S(f, P) es cualquier
suma de Riemann de f en [a, b]. En este caso, se dirá que I es una integral de Riemann de f sobre [a, b].
Esta definición es acorde a nuestra idea de que la integral sea un límite. Se denotará esto mediante
lı́m S(f, P) = I.
kPk→0
El primer teorema que se demostrará afirma que la integral de Riemann es única cuando existe.
La demostración es análoga al teorema para límite de una suma de curvas, todo se basa en utilizar la
desigualdad triangular.
( 4.6.3 ) Sea f : [a, b] → Rn integrable según Riemann. Entonces, su integral es única.
Sean I y J integrales de Riemann de f sobre [a, b]. Dado ε > 0 existen Pε y Qε particiones de [a, b]
tal que para toda suma de Riemann y todo refinamiento P de Pε y todo refinamiento Q de Qε se tiene
que
ε ε
kI − S(f, P)k < y kJ − S(f, Q)k < .
2 2
Luego, considerando un refinamiento común (ve ejercicio (4.63)) Rε se tiene que para R refinamiento
de Rε se obtiene que kI − Jk < ε. Dado que esto puede repetirse para cualquier ε > 0 dado, se puede
concluir que, I = J.
El lector ya ha de haber notado que la mayoria de las propiades de funciones de R a Rn se reduce
a considerar n veces el caso de R a R. En particular para la integral de Riemann.
5 La definición de integral de Riemann que maneja sumas superiores e inferiores fue originalmente dada por Jean Gaston

Darboux (14 de febrero de 1842 - 23 de febrero de 1917), un matemático francés. Para evitar caer en confusiones se dirá que una
función es integrable en el sentido de Darboux si satisface la definición dada por Darboux. Asimismo, se supondrá que el lector
aprendió integración de Darboux en sus cursos de cálculo de una variable. El desarrollo de tal integral puede ser encontrado en
el libro de Michael Spivak [21].

96
4.6. Cálculo de longitud de arco.

( 4.6.4 ) Sea f = (f1 , . . . , fn ) : [a, b] → Rn una curva acotada. Para que la integral de Riemann de f sobre
[a, b] exista es necesario y suficiente que la integral de Riemann de cada fi sobre [a, b] exista. En este caso, si
I = (I1 , . . . , In ) es la integral de f entonces Ii es la integral de fi .
Todo lo que hay que notar es que
S(f, P) = (S(f1 , P), . . . , S(fn , P)).
Luego, como de costumbre, en virtud del ejercicio (1.20)
n
X
|Ii − S(fi , P)| ≤ kI − S(f, P)k ≤ |Ik − S(fk , P)|,
k=1

por lo que si f es integrable según Riemann también lo es cada fi y recíprocamente.


Ahora se demostrará que para funciones a valores reales, la integral de Riemann que ha sido
definido antes es equivalentemente a la integral de Darboux, aprendida a los cursos de cálculo de una
variable.
( 4.6.5 ) Una condición necesaria y suficiente para que f : [a, b] → R sea integrable según Darboux es que sea
integrable según Riemann; en este caso, ambas integrales coinciden.
Se supone primero que f es integrable según Darboux y sea I su integral. Se denotará por U(f, P)
a la suma superior de f en [a, b] respecto a la partición P y por L(F, P) a la suma inferior. Entonces,
ε
dado ε > 0 se puede encontrar una partición P de [a, b] tal que U(f, P) − L(f, P) < . Para cualquier
2
ε
valor x comprendido entre L(f, P) y U(f, P) se puede concluir que 0 ≤ U(f, P) − x < . Recuerda
2
que I está comprendido entre L(f, P) y U(f, P). Sea S(f, P) cualquier suma de Riemann de f respecto
de la partición P. Entonces, de acuerdo a las definiciones de L(f, P), U(f, P) y S(f, P) se tiene que
ε
L(f, P) ≤ S(f, P) ≤ U(f, P). Por lo que 0 ≤ U(f, P) − S(f, P) < entonces
2
|I − S(f, P)| ≤ |I − U(f, P)| + |U(f, P) − S(f, P)| < ε.
Esto demuestra que si f es integrable en [a, b] según Darboux con integral I entonces f es integrable
según Riemann en [a, b] con integral I.
Se supone ahora que f es integrable según Riemann. Sea I como en la definición (4.6.2) y sea ε > 0.
Para cada partición P de [a, b] se puede escoger SU (f, P) y SL (f, P) tales que
ε ε
0 ≤ (U, f) − SU (f, P) < y 0 ≤ SL (f, P) − L(f, P) < .
4 4
Por la integrabilidad de f, se puede encontrar una partición Pε tal que si P es un refinamiento de Pε
entonces para cualquier suma de Riemann S(f, P) se tiene que
ε
|I − S(f, P)| < .
4
De este modo,
U(f, Pε ) − L(f, Pε ) = U(f, Pε ) − SU (f, Pε ) + SU (f, Pε ) − SL (f, Pε ) + SL (f, Pε ) − L(f, Pε )
y como
ε
|SU (f, Pε ) − SL (f, Pε )| ≤ |SU (f, Pε ) − I| + |I − SL (f, Pε )| < ,
2
se ve que
U(f, Pε ) − L(f, Pε ) < ε.
Esto concluye la demostración.

97
Capítulo 4. Curvas en Rn .

( 4.6.6 ) Para una curva f con primera derivada continua se tiene que

Zb
0
lı́m S(kf k , P) = kf 0 (t)k dt.
kPk→0
a

En efecto, esto es consecuencia de que todas las funciones continuas son integrables6 , por lo que lo
único que se debe verificar es que kf 0 k es continua cuando f 0 lo es. Pero dado ε > 0 y t1 ∈ [a, b] existe
δ > 0 tal que |t1 − t2 | < δ Ñ kf 0 (t1 ) − f 0 (t2 )k < ε. De acuerdo al ejercicio (1.19), se tiene que

| kf 0 (t1 )k − kf 0 (t2 )k | ≤ kf 0 (t1 ) − f 0 (t2 )k < ε

siempre que |t1 − t2 | < δ.

z 4.6.2 El teorema del valor medio.


Se demostrará ahora la versión más moderna del teorema del valor medio. Es destacable que en
su libro de análisis [8], Jean Dieudonné afirma que éste es posiblemente el teorema más importante en
todo el análisis matemático y que su verdadera belleza queda expresada como desigualdad, en la forma
que se demostrará a continuación. Aunque se dará una versión más débil que aquella que presenta
Dieudonné en su libro, esta será suficiente para todos los propósitos del texto (y el autor del mismo
nunca ha necesitado la versión fortalecida que presenta Dieudonné).
( 4.6.7 ) Sea f : [a, b] → Rm una curva, se dirá que f posee derivada por la derecha en un punto x ∈ [a, b) si

f(x + h) − f(x)
lı́m
h→0,h>0 h

existe; este límite será denotado por fd0 (x)7 . Análogamente se define que f posee una derivada por la izquierda en
x ∈ (a, b], denotado por fg0 (x)8 si
f(x + h) − f(x)
lı́m
h→0,h<0 h
existe.
( 4.6.8 ) Sean f : [a, b] → Rn una curva y g : [a, b] → R una función cualquiera. Se supone que f y g son
continuas y sus derivadas por la derecha existen para todo x ∈ (a, b) y que estas satisfacen

kfd0 (x)k ≤ gd0 (x) para cada a < x < b.

Entonces,
kf(b) − f(a)k ≤ g(b) − g(a).
Este es el «teorema del valor medio».
Aunque la idea puede parecer un poco oscura, se demostrará que para ε > 0 dado se satisface que
para todo x ∈ [a, b]

kf(x) − f(a)k ≤ g(x) − g(a) + ε(x − a) + ε para cada x ∈ [a, b].


6 Dado que una función es integrable según Riemann si y solo si es integrable según Darboux y con mismo valor de la integral

ya no hace falta especificar si se habla de integral de Riemann o de Darboux.


7 En francés, derecha se escribee droite; de ahí el uso de la d.
8 En francés la palabra izquierda se escribe gauche; al ser los franceses quienes introdujeron las derivadas laterales se utiliza

la notación adoptada por ellos.

98
4.6. Cálculo de longitud de arco.

Luego, bastará tomar el ínfimo sobre ε > 0, el lado izquierdo permanece igual por ser independiente
de ε y luego se obtiene el teorema.
Para demostrar esta igualdad define U como el conjunto de los x ∈ [a, b] para los cuales la desigual-
dad es falsa; para concluir basta ver que U es vacío. Observa que U es abierto; esto se sigue del hecho
que U = φ−1 ((0, ∞)) para φ una curva continua (ve (4.3.5)). Supón entonces que exite x ∈ U. Claramen-
te, U es acotado y no vacío, por lo tanto existe c = ı́nf U. Se tiene que c > a pues kf(a) − f(a)k = 0.
Asimismo, c < b, pues si c = b entonces para todo x ∈ [a, b) se cumple la desigualdad, como f es
continua también se cumple para b. Finalmente, c ∈/ U, porque todo x ∈ [a, c) satisface la desigualdad,
de nuevo la continuidad de las funciones muestra que se satisface para c. De la definición de fd0 (c) y
gd0 (c) existe δ > 0 para el cual x ∈ [c, c + δ] implica

f(x) − f(c) ε g(x) − g(c) ε
kfd0 (c)k ≥
− y gd0 (c) ≤ + .
x−c 2 x−c 2

Como c ∈/ U, se deduce que kfd0 (c)k ≤ gd0 (c) y así

kf(x) − f(c)k ≤ g(x) − g(c) + ε(x − c).

Usando la desigualdad triangular se deduce que para cada x ∈ [c, c + δ] se cumple que

kf(x) − f(a)k ≤ g(x) − g(a) + ε(x − a) + ε.

Por lo que c no es el ínfimo de U, lo que es una contradicción.

Observación: el caso más importante del teorema del valor medio es cuando
Ç f posee derivada
å acotada
en (a, b). En este caso se toma g 0 (t) = sup kf 0 (s)k ; esto es, cuando g(t) = sup kf 0 (s)k t, y se obtiene
s∈(a,b) s∈(a,b)
que
kf(b) − f(a)k ≤ (b − a) sup kf 0 (t)k .
t∈(a,b)

z 4.6.3 Fórmula para la longitud de arco.


Ahora se conectará la integral de Riemann con la longitud de arco de una curva con primera
derivada continua.

( 4.6.9 ) Sea f : [a, b] → Rn una curva continua sobre [a, b] y diferenciable sobre (a, b) (se supone a < b) y
Zb
con primera derivada continua sobre [a, b] . Entonces f es una curva rectificable y Lf ([a, b]) = kf 0 (t)k dt.
9

En efecto, sea P = (ti )i=0,...,m una partición de [a, b]. Entonces, en virtud del teorema del valor medio
(4.6.8) aplicado a cada intervalo [ti−1 , ti ] se cumple que
m
X m
X
∆(f, P) = kf(ti ) − f(ti−1 )k ≤ (ti − ti−1 ) sup kf 0 (t)k ≤ sup kf 0 (t)k (b − a),
i=1 i=1 t∈[ti−1 ,ti ] t∈(a,b)

9 Esto significa que f 0 existe sobre (a, b) y los límites lı́m f 0 (t) y lı́m f 0 (t) existen ambos.
t→a t→b

99
Capítulo 4. Curvas en Rn .

en donde la última desigualdad es consecuencia de que sup kf 0 (t)k ≤ sup kf 0 (t)k y de que la suma
t∈[ti−1 ,ti ] t∈(a,b)
resultante resulta telescópica10 . Ahora, como t 7Ï kf 0 (t)k es continua de [a, b] a R se sigue que está
acotada; sea M una cota. Entonces,
∆(f, P) ≤ M(b − a),
y M solo depende de f 0 , a y b. Por lo tanto, f es rectificable.
Ahora se demostrará que para todo ε > 0 se cumple que
Zb


Lf ([a, b]) − kf 0 (t)k dt < ε.



a

Se aplicará una técnica clásica de análisis. Observa que para cualquier P ∈ P([a, b]),
Zb Zb


Lf ([a, b]) − kf 0 (t)k dt = Lf ([a, b]) − ∆(f, P) + ∆(f, P) − S(kf 0 k , P) + S(kf 0 k , P) − kf 0 (t)k dt



a a
Zb


0 0 0

≤ |Lf ([a, b]) − ∆(f, P)| + |∆(f, P) − S(kf k , P)| + S(kf k , P) − kf (t)k dt .


a

Entonces, dado ε > 0, por definición de la longitud de arco, existe una partición Pε tal que
ε
|Lf ([a, b]) − ∆(f, P)| ≤ ,
3
en donde P es cualquier refinamiento de Pε . Ahora, en virtud de (4.6.6) se cumple que existe un
Qε ∈ P([a, b]) tal que si Q es un refinamiento de Qε entonces para cualquier suma de Riemann
Zb
0
0 0
ε
S(kf k , P) se cumple que S(kf k , P) − kf (t)k dt ≤ . Se consideran las sumas específicas

3
a
m
X
S(kf 0 k , Q) = kf 0 (qj−1 )k (qj − qj−1 ),
j=1

en donde Q = (qj )j=0,...,m . Por lo tanto, faltan acotar los términos de la forma |∆(f, R) − S(kf 0 k , R)| , en
donde R ∈ P([a, b]). Para esto supón que R = (rj )j=0,...,m entonces

X m Xm
|∆(f, R) − S(kf 0 k , R)| = kf 0 (rj−1 )k (rj − rj−1 )

kf(rj ) − f(rj−1 )k −
j=1 j=1

m 
X
0

= kf(rj ) − f(rj−1 )k − kf (rj−1 )k (rj − rj−1 )
j=1
m
X
kf(rj ) − f(rj−1 )k − kf 0 (rj−1 )k (rj − rj−1 )
 

j=1
m
X
≤ kf(rj ) − f(rj−1 ) − f 0 (rj−1 )(rj − rj−1 )k ,
j=1
m
10 Una
P
suma (xi − yi ) se llama telescópica si xi+1 = yi ; es fácil ver que en tal caso la suma vale xm − y1 (aplique inducción
i=1
en m).

100
4.6. Cálculo de longitud de arco.

donde la última desigualdad fue demostrada en el ejercicio (1.19).


Ahora, como f es diferenciable, se puede escribir
f(x + h) − f(x)
= f 0 (x) + ε(x; h),
h
donde ε(x; h) es el «error de aproximación» de f en x con incremento h. Tal error satisface que para
todo x fijo, lı́m ε(h; x) = 0. Entonces, despejando el error, resulta
h→0

kf(x + h) − f(x) − f 0 (x)hk


kε(h; x)k = ,
|h|
que igualmente tiende a cero cuando h → 0 siempre que x se mantenga fijo. Esto demuestra que, tras
sustituir en la desigualdad anterior,
m
X
∆(f, R) − S(kf 0 k , R) ≤

kε(rj − rj−1 ; rj−1 )k (rj − rj−1 ).
j=1

¡En esta última desigualdad h tiende cero pero x no es fijo! Por lo que debe hacerse un refinamiento11 .
Esta es la parte más difícil pues involucra el concepto de continuidad uniforme12 . Entonces, define la
función g : [a, b] × [a, b] → Rn como

 f(x) − f(y)
si x 6= y
g(x, y) = x−y
 0
f (x) si x = y.

Se afirma que g es continua en todo su dominio. Es claro que g es continua en los puntos x 6= y. Solo
se verificará que g es continua cuando x = y. Sean r > 0 y |h|, |k| < r. Se observa lo siguiente, supón
primero que h 6= k,

f(x + h) − f(x + k)
kg(x + h, x + k) − f 0 (x)k ≤ ε ⇔ 0

− f (x) ≤ε
h−k
0
⇔ kf(x + h) − f(x + k) − f (x)(h − k)k ≤ (h − k)ε
⇔ f(x + h) − f 0 (x)h − f(x + k) − f 0 (x)k ≤ (h − k)ε
 

⇔ kφ(h) − φ(k)k ≤ (h − k)ε,

donde φ(t) = f(x + t) − f 0 (x)t. Esto sugiere utilizar el teorema del valor medio (4.6.8). Aplicándolo, se
concluye que
kφ(h) − φ(k)k ≤ (h − k) sup kφ0 (t)k ,
t∈[−r,r]

puesto que [h, k] ∪ [k, h] ⊂ [−r, r] (uno de los dos intervalos entre [h, k] y [k, h] es vacío puesto que se
ha supuesto que h 6= k.). Observa que φ0 (t) = f 0 (x + t) − f 0 (x). Por lo tanto, se ha demostrado que

kg(x + h, x + k) − f 0 (x)k ≤ sup kf 0 (x + t) − f 0 (x)k


t∈[x−r,x+r]

siempre que h 6= k y |h|, |k| ≤ r. Si h = k y |h| ≤ r se ve que

kg(x + h, x + k) − f 0 (x)k = kf 0 (x + h) − f 0 (x)k ≤ sup kf 0 (x + t) − f 0 (x)k ,


t∈[x−r,x+r]

11 Se espera que el lector entienda esta sutileza, pues la prueba puede quebrarse en este punto si tal cuestión es ignorada.
12 A partir de este punto es donde se supone conocido el teorema de Heine-Cantor (5.5.14)

101
Capítulo 4. Curvas en Rn .

lo cual muestra que para cualesquier |h|, |k| ≤ r se cumple que


kg(x + h, x + k) − f 0 (x)k ≤ sup kf 0 (x + t) − f 0 (x)k .
t∈[x−r,x+r]

Como f 0 es continua sobre [a, b], el teorema de Heine-Cantor (5.5.14) muestra que f es uniformemente
continua sobre [a, b]. Así que para cualquier δ > 0 existe r > 0 tal que si x1 , x2 ∈ [a, b] y |x1 − x2 | < r
entonces kf 0 (x1 ) − f 0 (x2 )k < δ. Por lo tanto, se puede concluir que
lı́m kg(x + h, x + k) − f 0 (x)k ≤ lı́m sup kf 0 (x + t) − f 0 (x)k = 0;
(h,k)→(0,0) r→0 t∈[−r,r]

y por lo tanto, g es continua sobre [a, b] × [a, b] y entonces, g es uniformemente continua ahí (otra vez,
Heine-Cantor). Observa ahora que
ε(h; x) = g(x + h, x) − f 0 (x).
Como ε(0; x) = 0, se puede concluir que existe un r > 0 tal que si |h| < r y x ∈ [a, b] entonces
ε
kε(h; x)k ≤ .
3(b − a)
Finalmente, para concluir, se mostró la existencia de particiones Pε y Qε tales que si P es un
refinamiento de Pε y Q es un refinamiento de Qε entonces
ε
|Lf ([a, b]) − ∆(f, P)| <
3
y b
Z
kf 0 (t)k dt − S(kf 0 k , Q) < ε .

3

a
También se demostró la existencia de un r > 0 tal que si |h| < r y x ∈ [a, b] entonces
ε
kε(h; x)k ≤ .
3(b − a)
Considera ahora Rε una partición de [a, b] que refine simultáneamente (ve el ejercicio (4.63)) a Pε y
Qε de tal forma que si Rε = (rj )j=1,...,m entonces máx |rj − rj−1 | < r. Para cualquier partición R más
1≤j≤m
fina que Rε se cumple que
∆(f, R) − S(kf 0 k , R) ≤ ε .

3
Por lo tanto,
Zb


Lf ([a, b]) − kf 0 (t)k dt ≤ |Lf ([a, b]) − ∆(f, P)| + ∆(f, R) − S(kf 0 k , R)



a
b
Z
+ kf 0 (t)k dt − S(kf 0 k , Q) ≤ ε.


a

Como ε > 0 fue arbitrario, se deduce que


Zb
Lf ([a, b]) = kf 0 (t)k dt
a

que es la fórmula clásica para la longitud de arco.

102
4.7. Parametrización por longitud de arco.

( 4.6.10 ) Encuentra la longitud de una circunferencia C de radio r y centro P ∈ R2 y que es recorrida una vez.
En virtud del ejemplo (4.5.5), la circunferencia C es rectificable. Además, la curva
f(t) = r(cos t, sin t) + P
parametriza a la circunferencia y la función kf 0 (t)k = kr(− sin t, cos t)k = r es integrable sobre [0, 2π].
Por el teorema anterior,
Z2π
Lf ([0, 2π]) = kf 0 (t)k dt = 2rπ.
0
Esto muestra que la longitud de una circunferencia unitaria es 2π.
Los teoremas anteriores dan un método general de cómo calcular longitudes de arco. Cuando uno
estudia cálculo integral se aprenden los métodos de integración. Sin embargo, se advierte al lector que
la mayoría pde las funciones no tienen una antiderivada explícita. Para ejemplo, trate el lector de integrar
la función sin(x 2 ). Sin embargo, para facilidad y comodidad del uso de este material se han expuesto
ejercicios que cuyos resultados pueden obtenerse explícitamente.

§ 4.7. Parametrización por longitud de arco.


Para muchas aplicaciones resulta conveniente hacer un cambio de parámetro. Supón ahora que
f : [a, b] → Rn es tal que f posee una derivada continua sobre [a, b]. Se sabe que f posee longitud de
arco y que la longitud de arco de f viene dada por
Zb
Lf ([a, b]) = kf 0 (t)k dt.
a
0
Luego, si sucede que kf (t)k = 1 para todo t ∈ [a, b] entonces resulta que
Lf ([a, b]) = b − a.
¿Qué significa que kf (t)k = 1? La rapidez de f en un punto p ha sido definida como kf 0 (p)k , por lo
0

que si kf 0 (t)k = 1 para todo t ∈ [a, b] entonces la curva recorre su traza con la misma rapidez que su
Zb
parámetro recorre su domino. Esto conduce a una interpretación de la fórmula kf 0 (t)k dt = b − a.
a
Conforme el parámetro t se mueve por el intervalo [a, b] la curva f recorre a la traza en la misma
proporción. Como la rapidez es unitaria, esta proporción es 1 y entonces, se puede pensar que la curva
mapea el segmento [a, b] en un pedazo de recta curvado en Rn sin provocarle ningún estiramiento.
Toda esta discusión motiva la siguiente definición.
( 4.7.1 ) Sea f una curva de [a, b] a Rn . Se dirá que f está parametrizada por longitud de arco si f posee una
primera derivada continua y kf 0 (t)k = 1 para todo t ∈ [a, b].
A la par de esta definición, se puede
 construir la función de longitud de arco
 de una curva f. Esto
es, una función sf tal que Dom sf = Dom (f) = [a, b] y para todo t ∈ Dom sf , sf (t) es la longitud o
distancia que ha recorrido f durante el intervalo de tiempo [a, t].
( 4.7.2 ) Sea f : [a, b] → Rn una curva rectificable. Se define la función sf : [a, b] → [0, ∞) según
sf (t) = Lf ([a, t]).
En este caso, decimo que sf es la función de longitud de arco de f.

103
Capítulo 4. Curvas en Rn .

Es conveniente destacar que en la mayoría de los casos no hay peligro de confusión de la curva.
Por esta razón, se escribirá s en lugar de sf cuando el contexto sea claro.

z 4.7.1 Propiedades de la función de longitud de arco.


A continuación se exponen algunas propiedades básicas de la función de longitud de arco. Para
empezar, se sabe que si la curva en cuestión posee primera derivada continua en [a, b] entonces es
Zt
rectificable y s(t) = kf 0 (u)k du.
a

( 4.7.3 ) Sea f una curva definida en [a, b] con valores en Rn y sea s su función de longitud de arco. Se supone que
Zt
f posee primera derivada continua en [a, b]. Se tiene que s(t) = kf 0 (u)k du y que s es una función creciente
a
(en el sentido amplio). Más aún, si la derivada de f nunca se anula entonces s es estrictamente creciente.
Como f es continuamente diferenciable en [a, b] se sigue que f es rectificable. Sea t ∈ [a, b], por
definición, se tiene que s(t) = Lf ([a, t]) pero por la diferenciabilidad de f se sigue que Lf ([a, t]) =
Zt
kf 0 (u)k du, que concluye el primer punto. Ahora bien, sean x < y con x, y ∈ [a, b] entonces
a

Zy Zx Zy
0 0
s(y) = kf (u)k du = kf (u)k du + kf 0 (u)k du.
a a x

Zy
0
Al ser la integral monótona y kf (u)k ≥ 0 se concluye que kf 0 (u)k du ≥ 0. Por lo tanto, s(y) ≥
x
Zx
kf 0 (u)k du = s(x). Si la derivada de f nunca se anula entonces se tiene que kf 0 (u)k > 0 para todo
a
Zy
u ∈ [x, y] por lo que se puede asegurar kf 0 (u)k du > 0, de donde, s(y) > s(x).
x
El siguiente teorema afirma que si una curva es lo bastante suave entonces su longitud de arco se
comporta de manera agradable. Esto es, es diferenciable.
( 4.7.4 ) Sea f : [a, b] → Rn una curva con primera derivada continua y sea s su función de longitud de arco.
Entonces, s es diferenciable y s0 (t) = kf 0 (t)k .
Zx
Como s(x) = kf 0 (u)k du y kf 0 k es continua, se sigue, de los teoremas fundamentales del cálculo,
a
que s es diferenciable y que s0 (t) = kf 0 (t)k .
( 4.7.5 ) Si una función f : I ⊂ R → R es estrictamente creciente y diferenciable entonces se puede definir una
función diferenciable g : f(I) → I tal que g(f(t)) = t para todo t ∈ f(I).
Para una demostración de este hecho lee [21].
De la observación previa se puede concluir la siguiente propiedad fundamental de las curvas con
primera derivada continua que no se anula.

104
4.8. Conexidad en Rn .

( 4.7.6 ) Sea f : [a, b] → Rn una curva diferenciable con primera derivada continua que no se anula en [a, b].
Entonces, existe un cambio de parámetro diferenciable u : [c, d] → [a, b] tal que f ◦ u está parametrizada por
longitud de arco.
Sea s la función de longitud de arco de f. De los teoremas anteriores, s es estrictamente creciente y
diferenciable. Por lo tanto, s([a, b]) = [c, d] para algunos c, d ∈ [0, ∞) y existe una función diferenciable

u : [c, d] → [a, b] tal que u(s(t)) = t.

Se afirma que f ◦ u está parametrizada por longitud de arco; en efecto, u ◦ s = I[a,b] , por lo tanto,
u0 (s(t))s0 (t) = 1 para todo t ∈ [a, b]. De esto se sigue que
1
u0 (s(t)) = , ∀t ∈ [a, b].
s0 (t)

Ahora se calcula la norma de la derivada de f ◦ u. Sea p ∈ [c, d], como [c, d] = s([a, b]) existe un
t ∈ [a, b] con s(t) = p. Luego,
0 0
f (t)
k(f ◦ u)0 (p)k = kf 0 (u(p))u0 (p)k = = 1 kf 0 (t)k = s (t) = 1.
s0 (t) |s0 (t)| s0 (t)

Obsérve que ha sido usado el hecho que s es una función estrictamente creciente y diferenciable, luego
su derivada es positiva.
Este teorema permite demostrar, por ejemplo, que una parábola puede obtenerse de una recta solo
doblandola y no estirándola. Esto es, se puede parametrizar una parábola con longitud de arco.
( 4.7.7 ) Demuestra que la parábola f(t) = (t, t 2 ) para t ∈ R puede parametrizarse por longitud de arco.
Para esto se apela al teorema anterior. Entonces, solo se debe demostrar que f 0 (t) 6= 0. Pero,
0
f (t) = (1, 2t) 6= 0 para todo t ∈ R. Por ende, se puede parametrizar a la parábola por longitud de arco.
Es importante destacar que es mucho más complicado encontrar el cambio de parámetro u, pues esto
implica invertir una función definida a través de integrales.
y
( 4.7.8 ) Sea f : [a, b] → Rn una curva con primera derivada continua. Entonces, si Sx denota la longitud de
y
arco de f entre los puntos x y y, se tiene que Sx = −Syx y para todo c ∈ (a, b), Sac + Scb = s(b).
Zy
Se ha demostrado que, sobre estas hipótesis, Sxy = kf 0 k , por las propiedades de la integral, se
x
sigue el teorema.

§ 4.8. Conexidad en Rn .
En esta sección se trata el tema de conexidad. Como su nombre lo indica se buscará construir una
definición que expresa la idea de que un conjunto conste de un solo pedazo. Por ejemplo, un círculo, un
cuadrado, una recta y un intervalo deberán ser conjuntos conexos. Con todo esto en mente es razonable
decir que un conjunto C es conexo si no existen dos conjuntos I y J, que satisfagan lo siguiente:
1. C ∩ J ∩ I = ∅;
2. C ⊂ I ∪ J;
3. C ∩ I 6= ∅ y C ∩ J 6= ∅.

105
Capítulo 4. Curvas en Rn .

Esto no es satisfactorio del todo, el intervalo [0, 1] puede ser separado en Q ∩ [0, 1] y Qc ∩ [0, 1]. Entonces,
se tiene que modificar la definición y se pedirá que I y J sean conjuntos abiertos. Con esto, se tienen
las definiciones de separación de un conjunto y de conjunto conexo13 .
( 4.8.1 ) Se dice que el par U y V es separación14 del conjunto A ⊂ Rn si se satisface lo siguiente:
1. U ∩ V ∩ A = ∅;
2. A ⊂ U ∪ V ;
3. A ∩ U 6= ∅ y A ∩ V 6= ∅.
Si U y V son conjuntos abierto entonces se dirá que es una separación abierta de A.
( 4.8.2 ) Un conjunto A ⊂ Rn es conexo si no existe una separación abierta de él.
Es importante destacar que las definiciones de ser conexo y no poseer separaciones abiertas son
equivalentes.
Otra manera de definir lo que es un conjunto conexo es empezar con la idea de que dos puntos
cualesquiera en él pueden ser unidos de manera continua por una curva. Esto se aleja un poco de la
idea de que el conjunto consta de una pieza, por eso se decidió no motivar esta definición de ese modo.
Sin embargo, este concepto es potente como se verá más adelante, por esta razón se define.
( 4.8.3 ) Un conjunto A ⊂ Rn se dice que es conexo por trayectorias si para cualesquier dos puntos X y Y en él
existe una trayectoria continua f : [a, b] → A tal que f(a) = X y f(b) = Y .
Por ejemplo, un conjunto convexo15 es conexo por trayectorias. Como resultado más fuerte se deja
de ejercicio demostrar que un conjunto con forma de estrella es conexo por trayectorias.
( 4.8.5 ) Para cualesquier números reales a ≤ b, un intervalo ha, bi es conexo y conexo por trayectorias, donde
h puede ser [ o ( y i puede ser ] o ).
Primero se verá que ha, bi es conexo por trayectorias. Sean x, y ∈ ha, bi, se supone que x ≤ y. Se
considera la curva f : [x, y] → ha, bi dada por f(z) = z. Entonces, de acuerdo al ejercicio (4.25), f es
continua y f(x) = x, f(y) = y. Esto demuestra que ha, bi es conexo por trayectorias.
Ahora se demuestra que ha, bi es conexo. Para demostrar que un conjunto es conexo típicamente
se da una separación abierta de él y se llega a una contradicción. Sean U, V separación abierta de ha, bi.
Sea x ∈ ha, bi y se supone que x ∈ U. Sea
α = ı́nf {y ∈ [a, b] : [y, x] ⊂ U ∩ ha, bi}
y
β = sup{y ∈ [a, b] : [x, y] ⊂ U ∩ ha, bi}.
Observa que α ≥ a y que β ≤ b, se afirma que ambas igualdades se cumplen. Para esto se supone
primero que a < α, de este modo, α ∈ U ∪ V . Si α ∈ V entonces existe un r > 0 tal que (α − r, α + r) ⊂ V ,
contradicción a la definición de α entonces α ∈ U. Como α ∈ U existe un r tal que (α − r, α + r) ⊂ U,
lo que también es una contradicción a la definición de α. Luego, α = a, análogamente se demuestra
que β = b. Por ser U abierto, [a, b] ⊂ U y entonces ha, bi ∩ V = ∅, lo cual es una contradicción.
13 Intuitivamentehablando un conjunto sin separaciones consta de solamente un pedazo, luego es conexo.
14 Es
importante destacar que existe la noción de que un subconjunto de Rn sea separable. Esta noción cae fuera del contexto
actual y del contexto del libro, por lo que no será mencionada explícitamente. Para un estudio básico sobre conjuntos separables
lee [16]. Un tratado más avanzado puede encontrarse en [8].
15 Por si el lector no recuerda la definición.

( 4.8.4 ) Un conjunto C ⊂ Rn se dice convexo si para cualesquier par de puntos X y Y en C, el segmento de recta que une a X con
Y es subconjunto de C.

106
4.8. Conexidad en Rn .

( 4.8.6 ) Si A ⊂ R es un conjunto conexo o conexo por trayectorias entonces A es un intervalo.

Primero se verá que si A no es un intervalo entonces A es no conexo (esto es, existe una separación
abierta de A). Como A no es un intervalo existe x ∈ {A tal que existen y, z ∈ A y y < x < z. Entonces,
U = (−∞, x) y V = (x, ∞) es separación abierta de A. En efecto, A ⊂ U ∪ V , U ∩ V ∩ A = ∅ y y ∈ U ∩ A,
z ∈ V ∩ A. Esto demuestra que A posee una separación abierta, equivalentemente A es no conexo.
Ahora si A no es un intervalo entonces A no es conexo por trayectorias; de hecho, se supone que
x ∈ {A es tal que existen y, z ∈ A con y < x < z. Sea f : [a, b] → A continua tal que f(a) = y y f(b) = z.
Como x ∈ (y, z) y f es continua, por el teorema del valor intermedio existe un c ∈ [a, b] tal que f(c) = x.
Esto es una contradicción pues x ∈/ A.
Como corolario de estos ejemplos, se tiene que las nociones de conexo y conexo por trayectorias
coinciden en R.

( 4.8.7 ) Sea A ⊂ R, las siguientes afirmaciones son equivalentes.

1. A es un intervalo.

2. A es conexo.

3. A es conexo por trayectorias.

De manera natural surge la siguiente pregunta. ¿Las nociones de ser conexo y ser conexo por
trayectorias coinciden en Rn ? La respuesta es que no. Todavía no se tienen herramientas para ver
un ejemplo. Se necesita desarrollar un poco más de teoría sobre conexión. El siguiente teorema es
intuitivamente claro, dice que la traza de una curva continua definida sobre un intervalo es un conjunto
conexo por trayectorias y conexo.

( 4.8.8 ) Sea f : I → Rn una curva continua, donde I ⊂ R es un intervalo. Entonces f(I) es conexo y es conexo
por trayectorias.

Se ve primero que f(I) es conexo por trayectorias. Sea X, Y ∈ f(I) entonces existen a, b ∈ I con
f(a) = X y f(b) = Y . Sin pérdida de generalidad, se supondrá que a < b. Se toma f restringida al
intervalo [a, b] ⊂ I. Entonces, de acuerdo al ejercicio (4.25) la restricción de f en [a, b] es continua.
Se nota que la restricción satisface que f(a) = X y f(b) = Y . Esto demuestra que f(I) es conexo por
trayectorias.
Ahora se supone que f(I) no es conexo; sean U, V ⊂ Rn una separación abierta de f(I). Como f
es continua, de acuerdo con (4.3.5) se tiene que f −1 (U) = A ∩ I y f −1 (V ) = B ∩ I, donde A, B ⊂ R son
abiertos. Como U ∩ V ∩ f(I) = ∅ se tiene que

f −1 (U) ∩ f −1 (V ) ∩ I = f −1 (U ∩ V ∩ f(I)) = ∅.

Pero f −1 (U) ∩ f −1 (V ) ∩ I = A ∩ B ∩ I, así, A ∩ B ∩ I = ∅. Al ser U, V una separación abierta de f(I) existen


x, y ∈ I con f(x) ∈ U y f(y) ∈ V . Esto muestra que A ∩ I 6= ∅ y B ∩ I 6= ∅. Por último, si x ∈ I entonces
f(x) ∈ U ∪ V , así x ∈ f −1 (U) ∪ f −1 (V ) = (A ∪ B) ∩ I, por lo que x ∈ A ∪ B e I ⊂ A ∪ B. Esto demuestra
que A, B es una separación abierta de I lo que es una contradicción. Por lo tanto, f(I) es un conjunto
conexo.
El teorema anterior permite concluir de manera relativamente sencilla si cierto conjunto dado es
1
conexo. Por ejemplo, la gráfica de t 7Ï para t > 0 no es acotado pero es conexo.
t
El siguiente razonamiento suele repetirse mucho siempre que se inicia el estudio de conexidad.
Se piensa que la intersección de conjuntos conexos es un conjunto conexo y que la unión no lo es.
Esto es parcial, la intersección de conexos no es necesariamente conexo. Como ejemplo considera la

107
Capítulo 4. Curvas en Rn .

intersección de dos circunferencias16 . Se podría pensar que la intersección de abiertos y conexos es


conexo, pero esto es falso si se consideran dos anillos17 . Por ende, no se dará un criterio general para
determinar cuando una intersección de conexos es conexo. Parece sorprendente que sí se dará un
criterio para la unión de conexos.
( 4.8.9 ) Sea (Ci )i∈I una familia de subconjuntos conexos de Rn . Si la intersección de la familia no es vacía
entonces su unión es un conjunto conexo.
Sean U, V una separación abierta de la unión de la familia y se considera X un punto en la intersec-
ción. Se tiene que X ∈ U o X ∈ V , se supondrá que X ∈ U. Para cada índice i ∈ I se tiene que Ci ⊂ U,
de lo contrario U, V es separación abierta de Ci lo que es una contradicción a que Ci es conexo. Por lo
tanto, cada Ci ⊂ U y luego también la
[unión de los Ci es subconjunto de U, lo cual es una contradicción
pues U, V es separación abierta de Ci .
i∈I [
Con esto, se puede demostrar que R2 es conexo. En efecto, R2 = Lθ , en donde
θ∈[0,2π]

Lθ = {t(cos θ, sin θ) ∈ R2 : t ∈ R}

es la recta de pendiente θ que pasa por el origen; cada recta Lθ , es conexo porque es la imagen continua
de R por la aplicación lineal t 7Ï t(cos θ, sin θ) y como cada Lθ pasa por el origen, su intersección es
no nula. Este ejemplo puede generalizarse, sobre ciertas consideraciones, a Rn . Sin embargo, se deja
la demostración a cargo del lector.
( 4.8.10 ) El conjunto Rn es conexo para todo n ∈ N.
Se sabe que un conjunto conexo no puede separarse en abiertos. Si a un conjunto conexo se le
agregan algunos de sus puntos límite, como los puntos límite están “cerca” del conjunto, es natural que
el conjunto así formado sea conexo.
( 4.8.11 ) Sea A ⊂ Rn conexo entonces para todo B ⊂ Rn tal que A ⊂ B ⊂ A se tiene que B es conexo. En
particular, la cerradura de un conjunto conexo es un conjunto conexo.
Se procede por contradicción, así, sean U, V una separación abierta de B entonces A está com-
pletamente contenido en alguno de los dos, de lo contrario A no es conexo. Se supone, pasando por
un renombramiento de los conjuntos en caso de ser necesario, que A ⊂ U. Sea X ∈ B \ A entonces
X ∈ ∂A \ A. Para llegar a una contradicción se debe demostrar que X ∈ U, así se supone que X ∈ V . Al
ser V abierto, existe una bola de B (X; r) ⊂ V . Pero entonces, X es un punto exterior de A, con lo cual,
X ∈/ A. Esto muestra que X ∈/ B y se llega a una contradicción. De este modo, X ∈ U y B ⊂ U, por lo
que U, V no es separación abierta de B. Con esto, ha sido demostrado que B es un conjunto conexo.
A continuación se va a relacionar la conexidad con la conexidad por trayectorias. Como se adelantó,
estos conceptos no son equivalente pero uno es más fuerte que el otro.
( 4.8.12 ) Todo conjunto A ⊂ Rn conexo por trayectorias es conexo.
Sea x ∈ A. Por hipótesis, para cada y ∈ A, el conjunto Cy de las curvas continuas de [0, 1] a A que
tienen a x como punto inicial y a y como punto final es no vacío. Se considera la familia (Cy )y∈A . En
virtud del axioma de elección (2.2.4) existe una función f con dominio A tal que f(y) = fy ∈ Cy es una
16 Ya se sabe que una circunferencia es un conjunto conexo pues es la imagen continua de un intervalo. En efecto, f : [0, 2π] → R2

dada por f(t) = r(cos t, sin t) + P describe una circunferencia de radio r > 0 y centro P. Como f es continua, tal circunferencia
es un conjunto conexo.
17 Un anillo es el conjunto de puntos que están entre dos círculos concéntricos dados; como ejemplo típico, {(x, y) ∈ R2 : 1 <

x 2 + y 2 < 2} es un anillo.

108
4.9. Generalización a un espacio vectorial real.

[
curva continua que une x con y. Sea Cy la traza de fy . Se cumple la siguiente igualdad A = Cy .
y∈A
Observa que cada traza Cy es un conjunto conexo pues es la imagen continua de algún intervalo. Como
x ∈ Cy para todo y ∈ A, se tiene por el teorema (4.8.9) que A es conexo.
El siguiente ejemplo muestra que el recíproco del teorema anterior es falso.
( 4.8.13 ) Considera el conjunto
ßÅ Å ãã ™
1
E= x, sin : x ∈ (0, 1] ∪ {(0, y) : y ∈ [−1, 1]} ⊂ R2 .
x
Entonces, E es conexo y no es conexo por trayectorias.
ßÅ Å ãã ™
1
Observa que A = x, sin : x ∈ (0, 1] es un conjunto conexo pues es la imagen de la curva
Å Å ãã x
1
continua t 7Ï x, sin para t ∈ (0, 1]. Para ver que E es conexo se demostrará que A ⊂ E ⊂ A.
x
Claramente, A ⊂ E, por lo que basta ver que X ∈ E \ A implica que X ∈ ∂A. Sea X = (x, y) ∈ E \ A
entonces x = 0. En este caso, basta exhibir una sucesión (Yn )n∈N definida en A con lı́m Yn = X.
n→∞
Como y ∈ [−1, 1] existe θ ∈ [0, 2π] tal que sin θ = y. Se considera
Å ã Å ã
1 1
Yn = , sin (θ + 2nπ) = ,y ,
θ + 2nπ θ + 2nπ
entonces (Yn )n∈N está definida A y lı́m Yn = X. Por lo tanto, X ∈ ∂A. Esto demuestra que A ⊂ E ⊂ A,
n→∞
por (4.8.11) se tiene que E es conexo. Å ã
1
Ahora se demuestra que E no es conexo por trayectorias. Se considera X = (0, 0) y Y = ,0 ,
π
supón que existe una curva continua f : [a, b] → E tal que f(a) = X y f(b) = Y . Sin pérdida de generalidad
se puede suponer que a = 0 y b = 1, (ve (4.1.9)). Se construirá una sucesión decreciente (tn )n∈N en [0, 1]
tal que (f(tn ))n∈N no converge. Para esto se utilizará repetidamente el teorema del valor intermedio
para funciones reales. Sea f(t) = (f1 (t), Å f2 (t)) entonces
ã f1 (t) y f2 (t) son continuas. Como f(t) ∈ E para
1 1
cada t ∈ [0, 1] debe ser que f2 (t) = sin . Al ser f1 (0) = 0 y f1 (1) = existe t1 ∈ (0, 1) tal que
f1 (t) π
2
f1 (t1 ) = . De este modo,
3π Å ã
1
f2 (t1 ) = sin = −1.
f1 (t)
2 2
Como f1 (0) = 0 y f1 (t1 ) = existe t2 ∈ (0, t1 ) tal que f1 (t2 ) = , de este modo, f2 (t2 ) = 1. Prosiguiendo
3π 4π
de este modo, puede probarse inductivamente que la sucesión (tn )n∈N existe en [0, 1], es decreciente y
2
f1 (tn ) = . De aquí, se puede ver que f2 (tn ) = (−1)n . Como (tn )n∈N es decreciente y acotada,
(2n − 1)π
converge, de acuerdo al ejercicio (4.24), (f1 (tn ))n∈N y (f2 (tn ))n∈N convergen. Pero (f2 (tn ))n∈N es una
sucesión que va alternando entre dos valores, por lo que no converge y esto es una contradicción. De
aquí se sigue que la función f no es continua y entonces E no es conexo por trayectorias.
Se pide al lector que demuestre otras varias propiedades de los conjuntos conexos.

§ 4.9. Generalización a un espacio vectorial real.


Al igual que en el capítulo 3 se pretende generalizar los conceptos a un espacio vectorial real,
normado y de dimensión finita. Las definiciones serían las mismas, los conceptos y las interpretaciones

109
Capítulo 4. Curvas en Rn .

geométricas también . Lo que cambia redicalmente es que en un espacio vectorial V las funciones
f : [a, b] → V no poseen funciones coordenadas.
Los conceptos que se definen idénticamente, solo cambiando Rn por V , donde V es un espacio vec-
torial real, son curva, traza, parametrización, curva equivalente, límite, continuidad, derivada, tangente,
velocidad, rapidez, longitud de arco, integral de Riemann, derivadas laterales, parametrización por lon-
gitud de arco, conexidad y conexidad por trayectorias. Los teoremas se demuestran igual, palabra por
palabra excepto aquellos que hablen de coordenadas, los cuales sí poseen generalización, por ejemplo,
aquello del tipo f : V → W1 × . . . × Wk , donde los Wi son espacios vectoriales normados y de dimensión
finita, las cuales se ven más abajo o en los ejercicios.
Entonces, por ejemplo, una curva en un espacio vectorial V real y de dimensión finita es cualquier
función f : [a, b] → V . Si V posee una norma, entonces f es continua en t0 ∈ [a, b] si para cualquier
ε > 0 existe un δ > 0 tal que

t ∈ [a, b], |t − t0 | < δ Ñ kf(t) − f(t0 )k < ε.

El resto de las definiciones son análogas. Los argumentos en los teoremas principales permanecen
sin cambios pues solo se utilizaron propiedades generales. Mas aquellos que deben demostrarse para
este caso (pues son muy útiles), son (4.2.6), (4.4.2) y (4.4.3). También se destaca el hecho que para el
teorema del valor medio y la fórmula de longitud de arco se dieron pruebas que valen en espacios
más generales aún que los espacios vectoriales de dimensión finita. Se ven a continuación la prueba
para el caso más general de los teoremas anteriores. Al igual que en el capítulo 3, se supondrá
que el lector ya leyó la parte continuidad del capítulo 5. El siguiente teorema será útil para la
demostración de estos teoremas.

( 4.9.1 ) Sea V un espacio vectorial real, con producto interior y de dimensión finita. La función (x, y) 7Ï hx, yi
de V × V a R2 es continua.

Por la desigualdad de Cauchy-Schwarz (1.4.4) y la desigualdad del triángulo

| hx + h, y + ki − hx, yi | = | hx, ki + hh, yi + hh, ki |


≤ kxk kkk + khk kyk + khk kkk ,

el cual tiende a cero cuando h, k → 0 simultaneamente. Por lo tanto, la función es continua.


La prueba de los teoremas se basa en el teorema previo.

(4.2.6) Sea V un espacio vectorial real, normado y de dimensión finita. Supón que f : [a, b] → R toma
la forma f(t) = hα(t), β(t)i , en donde α y β son dos funciones de [a, b] a V las cuales poseen
sendos límites u y v en el punto t0 ∈ (a, b). Entonces f posee el límite hu, vi en t0 . La función f
es composición de las funcions h, i y (α, β), las cuales son continuas, de ahí el resultado.

(4.4.2) Sea V un espacio vectorial real, normado y de dimensión finita. Supón que f, g : [a, b] → V son
dos curvas diferenciables en t0 ∈ [a, b]. Entonces f + λg es diferenciable en t0 y (f + λg)0 (t0 ) =
f 0 (t0 ) + λg 0 (t0 ). En efecto, esto se deduce inmediatamente de (4.2.5) al escribir la definición de
derivada.

(4.4.3) Sea V un espacio vectorial real, con producto interior h, iV y de dimensión finita. Supón que
f : [a, b] → R toma la forma f(t) = hα(t), β(t)i , en donde α y β son dos funciones de [a, b] a V
las cuales son diferenciables en cierto t0 ∈ (a, b). Entonces, f es diferenciable en t0 y

f 0 (t0 ) = hα0 (t0 ), β(t0 )i + hα(t0 ), β0 (t0 )i .

110
4.9. Generalización a un espacio vectorial real.

En efecto, se hace aplica manipulación estándar en análisis. Nota que

f(t0 + h) − f(t0 ) = hα(t+ h), β(t0 + h)i − hα(t0 ), β(t0 )i


= hα(t0 + h), β(t0 + h)i − hα(t0 + h), β(t0 )i + hα(t0 + h), β(t0 )i − hα(t0 ), β(t0 )i
= hα(t0 + h), β(t0 + h) − β(t0 )i + hα(t0 + h) − α(t0 ), β(t0 )i .

Ahora, se divide todo por h y se utiliza la linealidad del producto interior en cada entrada. Se
encuentra que
≠ ∑ ≠ ∑
f(t + h) − f(t) β(t0 + h) − β(t0 ) α(t0 + h) − α(t0 )
= α(t0 + h), + , β(t0 ) .
h h h
Resulta irresistible pensar que ahora se puede meter el límite en el lado derecho y entonces usar
la diferenciabilidad de α y β. Para hacer esto, se debe probar primero que (x, y) 7Ï hx, yi es
continua de V × V a R, lo cual se probó en (4.9.1). De esto se deriva que
≠ ∑ ≠ ∑
f(t + h) − f(t) β(t0 + h) − β(t0 ) α(t0 + h) − α(t0 )
lı́m = lı́m α(t0 + h), lı́m + lı́m , β(t0 )
h→0 h h→0 h→0 h h→0 h
= hα0 (t0 ), β(t0 )i + hα(t0 ), β0 (t0 )i .

Que es lo que se quería demostrar.


Con esto se concluyen las propiedades de este capítulo. Se destaca que todas ellas aplican para un
espacio vectorial V de dimensión finita.

Ejemplo. Ahora se desarrollará con cierto detalle un ejemplo de interés. Se considerará entonces
la familia (x n )n∈N∪{0} de funciones de R a R tales que x n (t) = t n . Por notación, a x 0 se le escribirá 1
(entonces, 1(t) = 1 para cualquier t ∈ R). Define Vn = lin h{1, . . . , x n }i ; se afirma que dim Vn = n + 1. En
efecto, hay que probar que los n + 1 vectores 1, . . . , x n son linealmente independientes. Supón entonces
n
X
que existen constantes 10 , . . . , 1n ∈ R tales que ai x i = 0. Como cada x i es una función, esto significa
i=1
n
X
que para cualquier t ∈ R se debe cumplir que ai t i = 0. Supón que t = N, y divide la expresión
i=0
anterior por t n , se obtiene que
a0 a1 an−1
n
+ n−1 + . . . + + an = 0,
N N N
sin importar lo grande que sea N. Entonces, haz N → ∞ para obtener an = 0. El resto es aplicar
inducción. Por lo tanto, dim Vn = n + 1 y B = (1, x, . . . , x n ) es una base ordenada de Vn , la cual
se llamará «base canónica». Las coordenadas [ ]B son entonces muy fáciles de encontrar. Pues si
n
X
v = ai x i entonces [v]B = (a0 , . . . , an ). La idea ahora es definir algunas curvas y encontrar sus
i=0
derivadas, longitudes, etcétera.
¿Quién es la norma de V inducida por su base canónica? ¿Proviene de algún producto escalar?
X n n
X
Supón que v = ai x i y u = bi x i . En acuerdo con (3.6.6), el producto escalar en V inducido por
i=0 i=0
n
X n
X
la base ordenada B es hu, viV = ai bi y la norma es kvk2 = ai2 . Con esto, Vn es escencialmente
i=1 i=0

111
Capítulo 4. Curvas en Rn .

Rn+1 , lo cual facilita las cosas pues se deja un espacio abstracto y se trabaja en un espacio con el que
se está más familiarizado.
2
Considera entonces dos curvas en V3 . Por ejemplo, sean α(t) = sin t + 2e−t x 2 y β(t) = et x + cos tx 3 .
Primeramente observa que para cada t ∈ R tanto α(t) como β(t) son funciones de R a R; son funciones
2
polinomiales. Por ejemplo, α(t)(π) = sin t + 2e−t π 2 . Entonces, el producto escalar de α con β es
2
hα(t), β(t)iV = [α(t)]B · [β(t)]B = (sin t, 0, 2e−t , 0) · (0, et , 0, cos t) = 0;

entonces, los vectores posición de las curvas son ortogonales en cada instante. Por otro lado, ahora se
calculan las derivadas de α y β :
2 2
α(t + h) − α(t) sin(t + h) + 2e−(t+h) x 2 − sin t − 2e−t x 2
α0 (t) = lı́m = lı́m ,
h→0 h h→0 h
observa que aún siendo funciones, los vectores 1, x, x 2 y x 3 son constantes fijas en el espacio vectorial
V3 . Por lo tanto,
2 2
Ç å
2e−(t+h) − 2e−t
Å ã
0 sin(t + h) − sin t 2
α (t) = lı́m 1 + lı́m x 2 = cos t − 4te−t x 2 .
h→0 h h→0 h
2
Análogamente, β0 (t) = et x − sin tx 3 . Es interesante notar que [α(t)]B = (sin t, 0, 2e−t , 0) por lo que
d
[α0 (t)]B = [α(t)]0B y mismo para β. Esto es acorde con (4.4.3) pues se debe tener que hα, βiV (t) = 0.
dt
Finalmente, en virtud de (4.6.9)
Zπ Zπ Zπ »
Lα ([0, π]) = 0
kα (t)k dt = 0
k[α (t)]B k dt = [cos t]2 + 16t 2 e−2t 2 dt.
0 0 0

Observación: en el ejemplo previo todo se pudo haber reducido a encontrar [α(t)]B y entonces trabajar
con la curva en R4 dada por t 7Ï [α(t)]B . En general esto se cumple.
El siguiente teorema utiliza la regla de la cadena (5.7.3)
( 4.9.2 ) Sea V un espacio vectorial real, normado y de dimensión finita. Sea B una base ordenada de B =
(v1 , . . . , vn ) de V y [ ]B sus coordenadas asociadas. Entonces, una condición necesaria y suficiente para que una
curva α : [a, b] → V sea diferenciable en t0 ∈ (a, b) es que [α]B : [a, b] → Rdim V sea diferenciable en t0 . En
este caso, [α0 (t)]B = [α(t)]0B .
En efecto, la función [ ]B es lineal, por lo que su derivada es ella misma (5.8.1). Con observar que
[ ]B es invertible se obtiene que [α]B es diferenciable si y solo si α lo es. Luego, de la regla de la cadena
(5.7.3)
d
[α(t)]B = [α0 (t)]B ,
dt
que es lo que se quería demostrar.

§ 4.10. Ejercicios.
Se concluye este capítulo con una serie de ejercicios para el lector. Es recomendable que intente
resolverlos todos.
( 4.1 ) Encuentra un conjunto C ⊂ Rn y dos parametrizaciones de él.

112
4.10. Ejercicios.

( 4.2 ) Dibuje las trazas descritas por las siguientes curvas.

1. Sea f : [a, b] → R2 dada por t 7Ï (t, t 2 ).

2. Sean A ∈ Rn y B ∈ Rn , se define f : [0, 1] → Rn por f(t) = (1 − t)A + tB.

3. Define la curva f : [0, 2π] → R2 dada por f(t) = (a cos t, b sin t), en donde a y b son positivas.

4. Sea f : R → R3 dada por t 7Ï (cos t, sin t, t).

5. Define la curva f : R → R2 dada por f(t) = (a cosh t, b sinh t), en donde a y b son positivas.

( 4.3 ) Encuentra dos parametrizaciones explícitas para las siguientes trazas. Encuentra el cambio de parámetro
u.

1. S1 .

2. La gráfica de f : [−1, 1] → R dada por f(x) = x 2 .

3. La gráfica de f : [0, 1] → R3 dada por f(x) = (1 − x)(2, 1, 0) + x(1, −1, −1).

( 4.4 ) Se define la relación ∼ de la siguiente forma:

f ∼ g ↔ f es equivalente a g.

Entonces, ∼ es una relación de equivalencia en el conjunto de todas las curvas de [0, 1] a Rn .

( 4.5 ) Se supone que un disco de radio uno rueda continuamente sin resbalar a lo largo del eje X. Se fija un
punto la frontera del disco y se supone que el punto empieza en (0, 0), se pinta la traza que deja el punto al rodar
el disco. Encuentra una curva que parametrice esta traza.

( 4.6 ) Considera la traza L definida como sigue: un punto (x, y) está en L si sus coordenadas polares18 satisfacen
que r = exp(−θ). Encuentra una curva que parametriza a L. A L se le llama la «espiral logarítmica».

( 4.7 ) Usando la definición de límite verifique las siguientes igualdades.

1. lı́m(3t, t 2 ) = (6, 4);


t→2

2. lı́m (2, t − 1, t 2 + 1) = (2, −2, 2);


t→−1

3. lı́m(exp(t + 1), t + 1) = (e, 1);


t→0

4. lı́m(ln(t + 1), |t|) = (0, 0);


t→0

5. lı́m(sin(ln(t)), 1 − cos t) = (0, 0).


t→1

( 4.8 ) Calcula los siguientes límites:


Ç å
et − e−t t
1. lı́m , sin(e ) ;
t→0 2

2. lı́m(exp(sin t), exp(− cos t);


t→π

18 Supón que las coordenadas polares son aquellas definidas por r ≥ 0, r 2 = x 2 + y 2 , y θ ∈ [0, 2π) es el ángulo que se forma

desde el vector (1, 0) al vector (x, y) en sentido levógiro.

113
Capítulo 4. Curvas en Rn .

3. lı́m(ln(sin t, 1 − exp(tan(t)));
t→π
Ç å
t 2 − 16 1 − cos t
4. lı́m 2
, ;
t→0 t + t − 20 t
Å ã
ln(t)
5. lı́m , sin t .
t→1 t − 1

( 4.9 ) Sea f = (f1 , . . . , fn ) una curva. Supón que en a se tiene lı́m fi (t) = bi entonces lı́m f(t) = b, donde
t→a t→a
b = (b1 , . . . , bn ).
( 4.10 ) Sea φ : R → R y f : R → Rn tales que lı́m φ(t) = r y lı́m f(t) = L entonces lı́m(φf)(t) = rL.
t→a t→a t→a

2 19
( 4.11 ) Sea f : R → R la función con regla de correspondencia f(t) = (btc, t) . Si r es entero entonces lı́m f(t)
t→r
no existe.
( 4.12 ) Sea f : R → R2 dada por ß
(t, t) si t ≥ 0;
f(t) =
(t, −t) si t < 0.
Entonces lı́m f(t) = (0, 0).
t→0

( 4.13 ) Sea f(t) = (t, t 2 ) y p ∈ R cualquier número real, para la función gp (t) = (p, p2 ) + t(1, 2p) se cumple
que
f(t) − gp (t − p)
lı́m = 0.
t→p t−p
( 4.14 ) Sea f(t) = (sin t, cos t) y p ∈ R cualquier número real. Se define la función gp (t) como antes, es decir,
gp (t) = (sin p, cos p) + t(cos p, − sin p). Entonces

f(t) − gp (t − p)
lı́m = 0.
t→p t−p

( 4.15 ) Del ejercicio (4.6), el límite de la curva en cero es el origen.


( 4.16 ) Sea f una curva tal que para todo t y s en su dominio se tiene que kf(t) − f(s)k ≤ |t − s|. Entonces f
es continua en todo su dominio.
( 4.17 ) Demuestra el teorema (4.3.2).
( 4.18 ) Sean f y g curvas, se supone que f y g son continuas en a. Las siguientes curvas también son continuas
en a : f + g, f · g y f × g si f y g están definidas en R3 .
( 4.19 ) Si f es continua en a entonces la función kfk es continua en a, donde kfk : Dom (f) → R está dada
por kfk (t) = kf(t)k .
Ç å
2 t2 + 1
( 4.20 ) Sea f : R → R dado por f(t) = t, 2 , si t ∈/ {−1, 1} y f(t) = 1 para t = −1, 1. Entonces f no
t −1
es continua en {−1, 1}.
19 A la función b c : R Ï Z se le conoce como función menor entero y se define de la siguiente forma:
bxc = el mayor entero r tal que r ≤ x.

114
4.10. Ejercicios.

( 4.21 ) Se define la noción de convexidad como sigue: un conjunto A ⊂ Rn se dice convexo si para cualesquier
dos de sus puntos el segmento de recta que los une está contenido en el conjunto. Cualquier caja (cerrada o
abierta, acotada o no) es un conjunto convexo. Cualquier bola cerrada o abierta es un conjunto convexo.

( 4.22 ) Una transformación lineal T : R → Rn es continua.


Sugerencia: ve el ejercicio (1.27).

( 4.23 ) Para todo subconjunto no cerrado U ⊂ R existe una curva continua, f : U → R tal que f no es acotada
en U.
Sugerencia: considera un punto en la frontera de U que no esté en U y define f como la función que toma el
recíproco de la distancia a ese tal punto.

( 4.24 ) Una condición necesaria y suficiente para que la curva f : [a, b] → Rn sea continua en t es que para
toda sucesión (an )n∈N , definida en [a, b], convergente a t se tenga que la sucesión (f(an ))n∈N converja a f(t).

( 4.25 ) Sea f : I ⊂ R → Rn una curva continua y considera J ⊂ I. Entonces la función f restringida a J es


continua.
Sugerencia: el teorema (4.3.5) será de gran ayuda.

( 4.26 ) Al igual que en una variable, se define que una curva f sea uniformemente continua si para todo ε > 0
existe δ > 0 tal que x, y ∈ Dom (f) con |x − y| < δ implican que kf(x) − f(y)k < ε. Luego, toda curva
uniformemente continua es continua.

( 4.27 ) Una curva continua definida sobre un intervalo compacto es uniformemente continua. Este resultado se
conoce como el teorema de Heine-Cantor. Será demostrado para el caso general en el siguiente capítulo.
Sugerencia: sea f : [a, b] → R continua. Entonces, f([a, b]) = [c, d] (¿por qué?). Ahora, dado ε > 0 existe
m
[
una finitud de puntos y1 , . . . , ym tales que [c, d] ⊂ (yi − ε, yi + ε). Sea xi ∈ [a, b] tal que f(xi ) = yi . Para
i=1
cada xi existe un δi > 0 tal que si |x − xi | y xi ∈ [a, b] entonces f(xi ) ∈ (yi − ε, yi + ε). Intenta ahora jugar
con las desigualdades del triángulo.

( 4.28 ) Si f : [a, b] → Rn es una curva continua entonces para todo ε > 0 existe δ > 0 tal que |t − si | < δ, i =
1, . . . , n, implica
kf(t) − (f1 (s1 ), . . . , fn (sn ))k < ε.
Sugerencia: considera funciones coordenadas y use el ejercicio previo (recuerda que el ejercicio previo en un
caso particular de (5.5.14)).

( 4.29 ) Encuentra la derivada de las siguientes curvas.

1. f(t) = at 2 + bt + c, sin t + cos t, exp(2t + 1) , t ∈ R;




Ä ä
2. f(t) = [cos t]2 , [sin t]2 , t ∈ R;
Å ã
t−1 » h π πi
3. f(t) = , [sin t]2 − [cos t]2 , t ∈ − , ;
t+1 4 4
Ç Ç å ãå
t 2 + 2t
Å
1
4. f(t) = exp , − exp − , t ∈ R;
t−1 t
Ä 2 ä
5. f(t) = exp tan t 2 , sin et
 
, t ∈ R.

( 4.30 ) Encuentra la recta tangente de la curva f en el instante dado p. Ilustre geométricamente este hecho.

115
Capítulo 4. Curvas en Rn .

1. f(t) = (a + tc, b + td) , t ∈ R, p = 0;


2. f(t) = t, t 2 , t ∈ R, p = −1;


π
3. f(t) = (cos t, sin t) , t ∈ R, p = ;
3
4. f(t) = (cos t, sin t, t) , t ∈ R, p = π;
π
5. f(t) = (3 cos t, 2 sin t), t ∈ [0, 2π), p = .
4
( 4.31 ) Supón que un ferrocarril de pasajeros sigue la curva descrita por

f(t) = t, t 3 − 2t 2 − 2t + 1 , t ∈ R+ .


Supón que el ferrocarril sale de las vía al tiempo t0 = 2, siguiendo la dirección de su tangente. Si dos segundos
después el ferrocarril se estrella, ¿cuáles son las coordenadas donde se estrellaría el ferrocarril?
( 4.32 ) Del ejercicio anterior, si el tiempo de salida es en t0 = 7 y se estrella un segundo después, ¿en qué punto
se estrella?
Ä p ä
( 4.33 ) Las curvas f, g : [−1, 1] → R2 dadas por f(t) = t, |t| y

(−t 4 , t 2 )
ß
si t<0
g(t) =
(t 4 , t 2 ) si t≥0
parametrizan la misma traza. Observa que f no es diferenciable en 0 pero g sí lo es. Luego, la relación f ∼ g si
f y g son equivalentes no preserva diferenciabilidad.
( 4.34 ) Sea f una curva definida en I ⊂ R, tal que f · f = c sobre I entonces f · f 0 = 0 sobre I. Interprete,
geométricamente, este resultado en R2 y R3 .
( 4.35 ) Considara la hélice cilíndrica, descrita por

f(t) = (cos t, sin t, t), t ∈ R.


h πi π
En ningún punto del intervalo 0, existe una tangente paralela a la secante que pasa por los puntos en 0 y .
2 2
( 4.36 ) Sea r = θ la ecuación polar de una traza. Determine la tangente a la traza en el punto (−π, 0) dado en
coordenadas cartesianas.
Sugerencia: encuentra las ecuaciones paramétricas de x y de y en función de θ.
( 4.37 ) Encuentra un plano que tenga como normal a la traza descrita por la curva f(t) = (sin t, cos t, t) en el
instante t = π.
( 4.38 ) Sea f una curva diferenciable en un conjunto I ⊂ R. Sea P un punto que no está en la traza descrita por
f. Supón que en el instante t el punto P se encuentra en una distancia mínima a la traza. Pruebe que P − f(t)
es perpendicular a la traza en f(t). En particular, t es único si f es describe un segmento de recta.
Sugerencia: construye la función d que regresa la distancia de una punto de la traza a P e investigue el mínimo
de d2 .
( 4.39 ) Sea C la traza descrita por f, donde
Ç å
2t 1 − t2
f(t) = , ,1 .
t2 + 1 1 + t2

El ángulo que forman C y su tangente en cada punto es constante.

116
4.10. Ejercicios.

( 4.40 ) Las trazas descritas por las curvas

f(t) = (et , e2t , 1 − e−t )

y
g(t) = (1 − t, cos t, sin t)
se intersectan en el punto (1, 1, 0). Encuentra el ángulo formado por ellas, este es, el ángulo formado por sus
tangentes.
( 4.41 ) Se define la aceleración de una traza como la derivada de su velocidad, en caso que exista. Intente justificar
esta definición a partir de nociones físicas. Si la rapidez es constante entonces la aceleración y la velocidad son
ortogonales20 .
( 4.42 ) Si la aceleración de una traza siempre es ortogonal a su velocidad entonces su rapidez es constante.
( 4.43 ) Sea C la traza descrita por f, la curva con regla de correspondencia

t 7Ï (t + 1, 2t, t 2 − 1).

Encuentra los puntos de intersección de C y el plano P, donde

P = {X ∈ R3 : X · (2, −1, −3) = 2}.

( 4.44 ) La traza C descrita por la curva f, donde

f(t) = (et − t, et + t, 2t + 1)

se encuentra en el plano P, donde

P = {X ∈ R3 : X · (−1, 1, −1) = −1}.

( 4.45 ) Encuentra la recta perpendicular a la elipse (a cos t, b sin t) en el instante p. ¿Para qué instantes p
sucede que la elipse es ortogonal a su tangente21 ?
( 4.46 ) Una condición necesaria y suficiente para que la traza C, descrita por f, se encuentre en el conjunto C,
donde
C = {X ∈ Rn : g1 (X) = 0, . . . , gs (X) = 0}
es que gi (f(t)) = 0 para todo t en el dominio de f y para todo i.
( 4.47 ) Sea L1 el segmento de recta entre los puntos (1, −3, 2) y (−1, 1, −2) y L2 el segmento de recta entre los
puntos (0, 0, 0) y (1, 1, −2). Encuentra los puntos, en caso de existir, que minimizan la distancia entre L1 y L2 .
Encuentra los puntos que maximizan la distancia.
( 4.48 ) Del ejercicio (4.6). La derivada de la curva es cero cuando θ → ∞.
( 4.49 ) Del ejercicio (4.5). Encuentra aquellos puntos donde la curva no sea diferenciable.
( 4.50 ) Verifique el valor de verdad de las siguientes oraciones. Si son ciertas basta dar un argumento breve,
enunciar alguna proposición vista, por ejemplo. Si son falsas hay que dar un contraejemplo explícito.

1. Para todas curvas f, g y h definidas en R3 se tiene que (f + g) × h = f × h + g × h.


20 Conviene que el lector resuelva mentalmente la pregunta: ¿qué sentido físico y geométrico puedo encontrar?
21 Esto es, que el vector posición en la elipse sea ortogonal al vector de dirección de la tangente.

117
Capítulo 4. Curvas en Rn .

2. Para todas curvas f, g y h definidas en R3 se tiene que (f × g) × h = f × (g × h).


3. Para toda curva f tal que f 0 (a) existe y es no nula se tiene que

f 0 (a) f(a + h) − f(a)


0
= lı́m
kf (a)k h→0 kf(a + h) − f(a)k

f 0 (a)
Cuando este vector existe se dice que la curva posee una tangente unitaria en a.
kf 0 (a)k
( 4.51 ) Sea f : [a, b] → Rn y supón que T(t), su tangente unitaria en t, existe en todo t ∈ [a, b]. Demuestra
que T(t) · T 0 (t) = 0 para todo t ∈ [a, b].
La siguiente es una definición.
( 4.10.1 ) Sea f : I ⊂ R → Rn una curva, si f es continua, se dirá que f es de clase C0 y si f 0 : I → Rn existe
y es continua, se dirá que f es de clase C1 . Más generalmente, se dice que f es de clase Ck si f es k veces
diferenciable y su k-ésima derivada es continua. Si f es clase Ck para cada k ∈ N entonces f es de clase C∞ y
se dice que f es indefinidamente diferenciable. Se utilizará la notación f ∈ Ck (I, Rn ) para k ∈ N ∪ {0} ∪ {∞}.
˚
( 4.52 ) Supón que f es una curva de clase C1 , a ∈ Dom
¸ (f) y que f 0 (a) 6= 0. Entonces,

f 0 (a) f(a + h) − f(a + k)


= lı́m
kf 0 (a)k h,k→0 kf(a + h) − f(a + k)k

Una curva que cumple este límite se dice que tiene una tangente fuerte en a.
Sugerencia: utiliza el teorema del valor medio clásico tanto en numerador como denominador.
T 0 (t)
( 4.53 ) Sea f : [a, b] → Rn , supón que f ∈ C2 ([a, b], Rn ) y que f 0 (t) 6= 0 en [a, b]. Entonces, N(t) =
kT 0 (t)k
es ortogonal a la tangente unitaria, aquí T es la tangente unitaria de f. Si Rn = R3 entonces a N(t) se le conoce
como vector normal principal, asimismo, al vector B = T × N se le llama vector binormal.
( 4.54 ) Del problema (4.53). Sea f ∈ C2 [a, b], R2 y tal que f 0 6= 0 en [a, b], los tres vectores T, N, y B son

ortonormales.
( 4.55 ) Sea f como en el problema (4.53). Las siguientes igualdades se dan:
1. B0 · B = 0 en [a, b];
2. B0 · T = 0 en [a, b].
( 4.56 ) Encuentra una curva f y un punto a tal que exista f 0 (a) y no exista la tangente fuerte de f en a.
( 4.57 ) Dada una curva f se define su primitiva como una curva g tal que g 0 = f. Para cualquier curva f si su
primitiva existe entonces es única salvo la suma de una constante.
Sugerencia: utiliza el teorema del valor medio (4.4.7)
( 4.58 ) Del ejercicio (4.57). Muestre que si f = (f1 , . . . , fn ) es integrable sobre [a, b] entonces

Zt
Ñ t
Zt
é
Z
h(t) = f(u)du = f1 (u)du, . . . , f(u)du
a a a

es una primitiva de f.

118
4.10. Ejercicios.

( 4.59 ) Encuentra todos los instantes p tales que el vector posición es ortogonal a la tangente para la elipse
con centro en el origen y ejes mayor y menor de longitud 2a y 2b, respectivamente. Asimismo, supón que el eje
menor de la elipse está en el primer eje coordenado y el eje mayor está en el segundo eje coordenado.
( 4.60 ) Encuentra la integral de f : [1, 2] → R3 dada por

f(t) = ln(t 2 ), exp(2t − 1), sin t .




b
Z Zb
n

( 4.61 ) Sea f : [a, b] → R una curva integrable. Entonces
f ≤ kfk .


a a

( 4.62 ) Adapte los teoremas fundamentales del cálculo de una variable para curvas y demuéstralos.
( 4.63 ) Sea P, Q ∈ P([a, b]), existe un refinamiento R de P y Q simultáneamente.
Sugerencia: supón que P = (pi )i=0,...,n1 y Q = (qi )i=0,...,n2 . Define r0 = p0 = q0 , sea r1 el más pequeño entre
p1 y q1 y considera aparte el caso p1 = q1 . Supón que has podido definir rk y define rk+1 como el más pequeño
de los puntos pi , qi que aún no ha aparecido en la partición.
( 4.64 ) Sea f : [a, b] → Rn una curva y P, Q dos particiones de [a, b] tales que Q es refinamiento de P.
Entonces
∆(f, P) ≤ ∆(f, Q)
( 4.65 ) Sea f la curva con regla de correspondencia
ß
0 si t ∈ [−1, 0];
f(t) =
t 2 si t ∈ (0, 1].

Pruebe que f es continua en [−1, 1].


( 4.66 ) Sea C una traza en Rn tal que es parametrizada por dos curvas equivalentes f : [a, b] → Rn y
g : [c, d] → Rn . Sea u : [c, d] → [a, b] el cambio de parámetro; es decir, g = f ◦ u. Para cada P = (ti ) que sea
partición de [a, b] se cumple que u−1 (P) = (u−1 (ti )) es una partición de [c, d]; además

∆(f, P) = ∆(g, u−1 (P)).

En particular, la longitud de arco es independiente de la parametrización.


( 4.67 ) Calcula la longitud de arco de las siguientes curvas:
1. la parábola descrita por f(t) = (t 2 , 2t) para t ∈ [0, 1];
2. la gráfica de la función cuya regla de correspondencia es y = ln(1 − x 2 ) entre las rectas de ecuaciones
1
x=0yx= ;
2
3. un arco de la cicloide. La traza de la cicloide puede parametrizarse mediante la siguiente curva

f(t) = (t − sin t, 1 − cos t), t ∈ [0, 2π].

4. La hélice cónica descrita por f(t) = (t cos t, t sin t, t) en [0, 1].


5. La espiral de Arquímedes entre los ángulos 0 y 2π. La espiral de Arquímedes puede describirse en coordenadas
polares como r = θ (recuerda que r ≥ 0).
( 4.68 ) Del ejercicio (4.6). La espiral logarítmica tiene longitud de arco finita sobre [0, ∞].

119
Capítulo 4. Curvas en Rn .

( 4.69 ) Del ejercicio (4.5). Encuentra la distancia que recorre el punto fijo desde el inicio en (0, 0) hasta que
vuelve a tocar al eje X.
( 4.70 ) La curva de longitud más corta entre dos puntos A y B en Rn es la recta que los une.
( 4.71 ) Sea f : I → R una curva continua, donde I es un intervalo. Su gráfica es un conjunto conexo.
Sugerencia: en este ejercicio no resta mucho por hacer, considera t 7Ï (t, f(t)).
( 4.72 ) Considera Sn−1 = {X ∈ Rn : kXk = 1}, sea LX la recta que pasa por el origen y X, para X ∈ Sn−1 .
Concluya que Rn es un conjunto conexo.
( 4.73 ) Si A ⊂ Rn es conexo y B ⊂ Rm es conexo entonces A × B ⊂ Rn+m es conexo.
Sugerencia: considera dos punto arbitrarios x ∈ A y y ∈ B. Los conjuntos {x} × B y A × {y} son conexos.
Concluya que para
[ todo x ∈ A y todo y ∈ B se tiene que A × {y} ∪ {x} × B es conexo. Considera a ∈ A fijo, y
que A × B = (A × {y} ∪ {a} × B) concluya el ejercicio al aplicar (4.8.9).
y∈B

( 4.74 ) Un conjunto A se dice que tiene forma de estrella respecto del punto P si para cualquier punto Q ∈ A el
segmento de recta que une P con Q está completamente contenido en A. Si A tiene forma de estrella respecto
a alguno de sus puntos entonces A es conexo por trayectorias (recuerda que esto implica que A es conexo).
( 4.75 ) En Rn si A es un subconjunto abierto y cerrado al mismo tiempo entonces A = ∅ o bien, A = Rn .
Sugerencia: recuerda que Rn es conexo.
( 4.76 ) Supón que A ⊂ Rn es tal que A ∩ Q tiene más de un punto entonces A ∩ Q no es conexo.

( 4.77 ) Los siguientes conjuntos son conexos:


1. {(x, y) ∈ R2 : y > x 2 };
2. {(x, y, z) ∈ R3 : z ≥ x 2 + y 2 .};
3. {(x, y) ∈ R2 : 0 ≤ x ≤ 1, y ≤ ex }.

( 4.78 ) Todo abierto y conexo A ⊂ Rn es un conjunto conexo por trayectorias.


Sugerencia: sea X ∈ A y construye D el conjunto de los Y en A tales que existe una curva continua de [0, 1]
en A tal que tiene por origen a X y por extremo a Y . Define C = A \ D. Toma un punto Y ∈ D entonces como
A es abierto, B (Y ; r) ⊂ A. Para Z ∈ B (Y ; r) se puede unir Z y Y con un segmento de recta y a Y y X con una
curva continua, concluye que se puede unir X y Z con una curva continua. De esto, B (Y ; r) ⊂ D y D es abierto.
Por el mismo argumento, C es abierto. Obtenga de esto una contradicción.

120
Capítulo 5

• La derivada en varias variables.

En este capítulo se desarrollará la herramienta fundamental del cálculo en varias variables, la deri-
vada. Se introducirá este concepto de una manera diferente a la habitual, esperando que esta sea más
simple y natural; se motivará de tal forma que sea consecuencia directa de lo ya aprendido. El desarro-
llo formal de la derivada puede resultar técnico. Para lidiar con esto han sido desarollados de manera
sencilla y clara los procesos de derivación. También se introduciren la nociones de varias direcciones;
esto es, se tratarán principalmente funciones con dominio en Rn y contradominio en R.
En este capítulo es donde ya se cohesionan las propiedades de espacio vectorial normado. El lector
habrá notado ya que todas las nociones se pueden dar en espacios vectoriales normados de dimensión
finita arbitrarios. De hecho, muchas de las propiedades demostradas se basan en la idea de tomar un
isomorfismo entre el espacio vectorial y un Rn conveniente y ahí trabajar el teorema (dar la demostra-
ción, desarrollar la idea, etcétera). Entonces, ¿para qué molestarse en dar los enunciados para espacio
vectorial si todo se reduce a trabajar en Rn ? Resulta que más adelante, cuando la derivada se piense
como una función, resultará más natural trabajar a las funciones como objetos entre dos espacios vec-
toriales normados que entre un Rn y un Rm . Si no se trabaja así, el querer definir las derivadas de
orden superior deviene en un problema complicado y usualmente solo se trabajan tangencialmente,
mecánicamente o de manera ineficiente; sin dar la teoría de fondo. Se recomienda que el lector consulte
[1], [3], [7], [11], [15], [19] y [22] en donde apenas se menciona la segunda derivada y no se desarrolla
formalmente.

§ 5.1. Funciones de varias variables.


Las funciones de varias variables surgen de manera natural en aplicaciones a la industria, biología,
química y otras ciencias. Por ejemplo, imagine la siguiente situación. Se quiere describir la relación
que existe entre el peso y la altura de una persona con su índice de masa corporal1 . Si se denota por
f a la función que dada la altura y el peso regresa el índice entonces f : [0, ∞)2 → R. Observa que el
peso y la altura de una persona son variables independientes entre sí.
En general, se dice que dos “variables” son “independientes” entre sí si no existe una relación fun-
cional entre ellas; esto es, no es posible expresar a una de ellas como función de la otra. Intuitivamente

1 El índice de masa corporal es una medida que sirve para obtener una estadística bien aceptada como índice para medir el

grado de obesidad de una persona. La definición del índice es simple, si la persona pesa m kilogramos y mide n metros entonces
m
su índice de masa corporal, IMC, es IMC = 2 .
n

121
Capítulo 5. La derivada en varias variables.

hablando, esto es lo que se entiende por tener varias direcciones. Cada variable tiene su dominio; el
contradominio de la función es el conjunto donde interactúan todas estas variables.
Durante el resto del texto se trabajará con funciones cuyo dominio es subconjunto de Rn y cuyo
contradominio lo es de Rm . Esta funciones se conocen como funciones vectoriales de varias variables.
Nota que las curvas son un caso particular de funciones vectoriales de varias variables. Sin embargo,
en este caso solo se tiene una variable independiente. Por este motivo las funciones de varias variables
poseen más cualidades que las curvas.
Otro resultado importante dice que para una función lo suficientemente suave, su imagen cerca
de un punto se comporta como un subespacio vectorial del dominio trasladado al punto imagen. Es
importante recordar que las curvas tenían por imagen una “linea curvada” en Rn2 . En cambio, dada
una función f : Rn Ï Rm la imagen de f define, sobre ciertas condiciones, una “superficie” en Rm con
n “grados de libertad”. Más adelante se discutirá esto. Por lo pronto se está interesados en empezar las
definiciones de las posibles operaciones que pueden tener este tipo de funciones especiales.

( 5.1.1 ) Sean V y W dos espacios vectoriales reales, con producto interior y de dimensión finita, y f y g dos
funciones de V a W .

1. Se define f + g como la función cuyo dominio es Dom (f + g) = Dom (f) ∩ Dom (g) y cuya regla de
correspondencia es (f + g)(X) = f(X) + g(X), a f + g se le llama la suma de f con g.

2. Se define f · g como la función cuyo dominio es Dom (f + g) = Dom (f) ∩ Dom (g) y con regla de
correspondencia hf, gi (X) = hf(X), g(X)i , a hf, gi se le llama el producto escalar de f con g.
Å ã
f f
3. En el caso en que W = R se define como la función cuyo dominio es Dom = {X ∈ Dom (f) ∩
g Å ã g
f f(X) f
Dom (g) : g(X) 6= 0} y regla de correspondencia (X) = ,a se le llama el cociente de f entre
g g(X) g
g.

4. En el caso en que W = R3 se define f × g como la función cuyo dominio es Dom (f × g) = Dom (f) ∩
Dom (g) y regla de correspondencia (f × g)(X) = f(X) × g(X), a f × g se le llama el producto vectorial de
f con g.

Es importante notar que si W = R entonces la función hf, gi es el producto usual de f de g. En


ocasiones se presentarán solamente las reglas de correspondencia, como convención se opta por tomar
el dominio de la función como el conjunto más grande para el cual la regla esté bien definida. Observa
que la composición de funciones ha sido definida ya con anterioridad. Para simplificar la autocontención
se redefine aquí.

( 5.1.2 ) Sean f : A ⊂ U → V y g : B ⊂ V → W dos funciones cualesquiera. Se define la función g ◦ f


como aquella función con dominio Dom (g ◦ f) = {X ∈ Dom (f) : f(X) ∈ Dom (g)} y regla de correspondencia
(g ◦ f)(X) = g(f(X)), a g ◦ f se le llama la composición de f seguida de g o la precomposición de g con f.

Note que se definió el dominio de g ◦ f no como todo Dom (f) , sino aquellos puntos en Dom (f) cuya
imagen por f están en Dom (g) .
x+y
( 5.1.3 ) Sea f(x, y, z) = , encuentra el dominio de f y determine si f es inyectiva, suprayectiva y encuentra
z
la imagen de f.
2 Es importante destacar la existencia de una curva α : [0, 1] → [0, 1]2 tal que α es continua y suprayectiva. Tal curva se

denomina “una curva que llena el espacio”; la «curva de Peano».

122
5.1. Funciones de varias variables.

El dominio de f es el conjunto de puntos más grande en R3 donde f esté definida. La suma está
siempre definida, el único posible problema es el cociente de z, así, el dominio de f es

Dom (f) = {(x, y, z) ∈ R3 : z 6= 0}.

Al ver la regla de correspondencia de la función f uno piensa que es poco probable que sea inyectiva.
Lo más fácil es ver que si x + y = 0 entonces f(x, y, z) = 0. Sean X1 = (1, −1, 1) y X2 = (−1, 1, 1) dos
puntos en R3 , f(X1 ) = f(X2 ) = 0 y X1 6= X2 , esto es, f no es inyectiva. Al ser f una función de R3
en R es natural pensar que f es suprayectiva pues R3 es “más grande” que R. Sea r en R entonces
f(r, 0, 1) = r, esto implica que f es suprayectiva. Falta encontrar la imagen de f, pero esto es inmediato
de la suprayectividad, pues al ser f suprayectiva su imagen es todo R.
√ y
( 5.1.4 ) Sea α la curva dada por t 7Ï (t 2 , 2t, 1 − t) y sea f la función dada por f(x, y, z) = x − .
z+1
Determine el dominio de α, f, f ◦ α, la imagen de las tres funciones, y la regla de correspondencia de f ◦ α.
Asimismo, determine si f ◦ α es suprayectiva e inyectiva.
Primero se encuentran los dominios de α y f. Como cada función coordenada de α tiene dominio
R se tiene que α tiene dominio R. Del mismo modo que el ejemplo anterior f no estará definida si
z = −1 o bien, si x < 0. De este modo el dominio de f es

Dom (f) = {(x, y, z) ∈ R3 : x ≥ 0, z 6= −1}.

Para poder determinar el dominio de f ◦ α es necesario que α(t) ∈ Dom (f) . Para que esto pase
es necesario y suficiente que α1 (t) ≥ 0 y α3 (t) 6= −1, donde α = (α1 , α2 , α3 ); es decir, si t 2 ≥ 0 y
1 − t 6= −1 ocurren simultaneamente. Esta condición es equvialente a que t 6= 2. Se puede concluir que
Dom (f ◦ α) = R\{2}. No se puede hacer algo mejor sobre la imagen de α que

Ran (α) = {(x, y, z) ∈ R3 : ∃t ∈ R tal que x = t 2 , y = 2t, z = 1 − t}.

Es fácil ver que la imagen de f es R pues para cada r ∈ R el punto (0, −r, 0) es enviado a r mediante
f. Para poder determinar la imagen de f ◦ α se debe encontrar la regla de correspondencia para f ◦ α.
Pero,

(f ◦ α)(t) = f(α(t)) = f(t 2 , 2t, 1 − t)


√ 2t 2t
= t2 − = |t| −
1−t+1 2−t
que es la regla de correspondencia buscada para f ◦ α. Se procede a encontrar la imagen de f ◦ α. Sea
2t
r ∈ R, |t| − = r si y solo si |t|(2 − t) − 2t = r(2 − t). Despeja la ecuación cuadrática de t, se supone
2−t
que t ≥ 0. Entonces

t(2 − t) − 2t = r(2 − t) ⇔ 2t − t 2 − 2t = 2r − rt
⇔ t 2 − rt + 2r = 0.

r ± r 2 − 8r
Resolviendo la última ecuación para t se obtiene que t = . Esto tiene solución si y solo si
2
2
r − 8r ≥ 0. Por tanto, r ≥ 0 y r ≥ 8 o bien, r ≤ 0 y r ≤ −8, así que la ecuación tiene solución para
r ∈ (−∞, −8] ∪ [8, ∞). Se supone ahora que t < 0,

−t(2 − t) − 2t = r(2 − t) ⇔ −2t + t 2 − 2t = 2r − rt


⇔ t 2 − (4 − r)t − 2r = 0.

123
Capítulo 5. La derivada en varias variables.

p
(4 − r)2 + 8r
4−r±
Resolviendo la ecuación para t se obtiene que t = . Entonces, existe solución
2
2 2
para t si (4 − r) + 8r ≥ 0, equivalentemente, si r + 16 ≥ 0. Pero la última desigualdad es cierta para
todo r, de este modo, la ecuación siempre tiene solución. Esto implica que f ◦ α es suprayectiva. Por
lo tanto, su imagen es todo R. De las desigualdades anteriores es claro que f ◦ α no es inyectiva. Por
12 6
ejemplo, (f ◦ α)(6) = 6 − = 9 y (f ◦ α)(3) = 3 − = 9, así, f no es inyectiva.
−4 −1

§ 5.2. Campos vectoriales, una introducción intuitiva.


Una de las interpretaciones físicas de las funciones de varias variables se deriva de estudiar las
trasformaciones del espacio. Para esto es importante introducir la noción de campo vectorial. Un
campo vectorial F es una función con dominio un subconjunto de Rn y contradominio también en Rn .
La idea geométrica de un campo vectorial es la siguiente: dado un punto en Rn éste es movido por el
campo (pensado aquí como un campo de fuerzas) a otro punto en Rn . Aunque la definición de campo
vectorial puede ser dada para espacios vectoriales, al tomar F : V → V , esto no suele ser realmente útil.
Así, a lo largo del texto siempre se entenderá que un campo vectorial F posee por dominio cierto Rn
y por contradominio el mismo Rn .

( 5.2.1 ) La función F(x, y) = (y, x) es un campo vectorial en R2 . Geométricamente hablando, se entiende que
F refleja R2 a través de la recta con vector de dirección (1, 1).
X
( 5.2.2 ) El campo vectorial F : Rn \ {0} → Rn \ {0} dado por F(X) = se conoce como inversión.
kXk2

Se deja de ejercicio verificar que la inversión es invertible, fija el círculo unitario3 y es una biyección
entre la bola unitaria y su exterior.

z 5.2.1 Representación geométrica.


Para entender un poco mejor a los campos vectoriales se suele hacer una representación geométrica
de ellos. Cabe destacar que no se puede dibujar la gráfica de un campo vectorial en general. Si F : U ⊂
Rn → Rn es un campo vectorial la gráfica de F es un subconjunto de Rn × Rn = R2n , por lo que para
n ≥ 2 ya no es posible dibujar su gráfica.
Es posible dar una representación geométrica de F. Si en Rn se dibuja el vector F(X) basado
en el punto X, se obtendrá una imagen geométrica de F. Más precisamente, lo que se realiza es lo
siguiente: se supone que F : U ⊂ R2 → R2 entonces en el pedazo de papel donde se va a representar
geométricamente el campo se empieza dibujando dos lineas ortogonales como referencia a los ejes
coordenados; luego, desde el punto con coordenadas (x, y) se dibuja una flecha cuya dirección es
la dirección de F(x, y) y cuya magnitud es proporcional a F(x, y). Es común utilizar una constante
proporcional muy pequeña, la idea de esto es que las flechas dibujadas no se sobrepongan entre sí.
Dependiendo del problema, 5 % o bien, 1 % es una buena constante proporcional.
Para evitar que el gráfico se vuelva rápidamente engorroso se dibujan las menos flechas posibles
pero de tal forma que pueda verse la influencia que el campo realiza a los puntos del plano. En ocasiones
incluso, se dibujan todas las flechas del mismo tamaño pues no se quiere saber la influencia local del
campo, sino, solamente el comportamiento global.
Por ejemplo, para graficar el campo vectorial F(x, y) = (x, −y) lo primero que debe realizarse es
dibujar un par de lineas ortogonales. Enseguida, en el punto de coordenadas (x, y) se debe dibujar una
3 Esto es, si U es el círculo unitario, el conjunto de pares (x, y) tales que x 2 + y 2 = 1, F(U) = U.

124
5.2. Campos vectoriales, una introducción intuitiva.

flecha de dirección (x, −y), por comodidad se dibujan todas las flechas del mismo tamaño. Se le pide
al lector que realice él mismo el dibujo. Si lo ha hecho bien debería conseguir que sus flechas, si se
encuentran sobre los ejes, se alejen del origen por el primer eje y se aceren al origen por el segundo
eje. En los puntos que no están sobre los ejes, las flechas deberían describir dos sistema de hipérbolas
simétricos tales que el origen del plano es centro común de todas las hipérbolas.

z 5.2.2 Las transformaciones rígidas.


Dentro del conjunto de los campos vectoriales definidos en Rn existe un subconjunto de especial
importancia. Aunque como se vió antes, los campos pueden “invertir” el plano sobre sí mismo, es de
especial importancia estudiar aquellos que lo transforman “rígidamente”.
( 5.2.3 ) Sea T : Rn → Rm una función cualquiera, en donde Rn y Rm son dos espacios vectoriales con producto
interior de dimensión finita. Se dirá que esta función es rígido o que es una trasformación rígida si para cualquier
par de vectores A y B en Rn se cumple que d(T(A), T(B)) = d(A, B), donde d es la distancia euclidiana. Si,
además, T es lineal se llamará a T una transfomación ortogonal.
El siguiente teorema explica este nombre.
( 5.2.4 ) Sea T : Rn → Rn una trasformación rígida. Entonces,
1. si T es ortogonal, es invertible;
2. T preserva el producto escalar;
3. T preserva bases ortogonales de V ; esto es, si v1 , . . . , vn es una base ortogonal de Rn entonces Tv 1 , . . . , Tv n
en una base ortogonal de Rn ;
Se verá cada inciso por separado. Para empezar nota que kT(A) − T(0)k = d(T(A), T(0)) = d(A, 0) =
kAk y haciendo A = 0 se encuetra que kT(0)k = kT(0) − T(0)k = 0, por lo que T(0) = 0. De esta forma,
toda transformación rígida preserva la norma.
1. Basta ver que T es inyectiva por el ejercicio (1.30). Al ser que kTu − Tvk = ku − vk , se ve que T
es inyectiva.
2. Solo hay que observar que
2 2 2
kA − Bk2 = kT(A) − T(B)k ⇔ kAk2 + 2 hA, Bi + kBk2 = kT(A)k + 2 hT(A), T(B)i + kT(B)k ,

y como T preserva norma, se obtiene lo afirmado.


3. Como T preserva el producto escalar, en particular lo hace para vectores ortogonales.
Esto demuestra el teorema.
( 5.2.5 ) La composición de cualquier número finito transformaciones rígidas es a si vez una trasformación rígida.
Se procede por inducción matemática. Se define H el conjunto de los números naturales k para
los cuales, la composición de k transformaciones rígidas en Rn es a su vez una trasformación rígida
en Rn . Evidentemente, 1 ∈ H . Se supone entonces que existe un k ∈ H y sean T1 , . . . , Tk+1 k + 1
transformaciones rígidas de Rn . Entonces, para cualesquier a y b en Rn , se ve que si T = Tk ◦ · · · ◦ T1
entonces     
d Tk+1 T(a) , Tk+1 T(b) = d T(a), T(b) = d(a, b),

en donde la última igualdad es válida por ser k ∈ H . De esto se sigue que H = N.

125
Capítulo 5. La derivada en varias variables.

( 5.2.6 ) El conjunto de transformaciones ortogonales en Rn con la composición forman un grupo. En este grupo
la identidad es el neutro multiplicativo.
En efecto, en virtud de (5.2.5) y de (5.2.4) solo resta probar que si T es ortogonal T −1 también lo es.
Pero la inversa de una transformación lineal es una transformación lineal, ve el ejercicio (1.23), y si
una transformación lineal invertible preserva la distancia también su inversa, ve el ejercicio (1.34).
( 5.2.7 ) Toda trasformación rígida se descompone de manera única como la composición una trasformación
ortogonal seguida de una traslación.
Se supone que T : Rn → Rn es una trasformación rígida. Sea P = T(0) entonces T − P : Rn → Rn es
una trasformación ortogonal; evidentemente, T − P es la composición de T con la traslación X 7Ï X + P,
luego como consecuencia de (5.2.5) se sigue que T − P es rígida4 . Por ende, basta demostrar que toda
trasformación rígida que fija el origen es una transfomación lineal.
( 5.2.7.1 ) Sea T una trasformación rígida que fija el origen. Entonces T es lineal.
Si {e1 , . . . , en } es la base canónica de Rn , se ve que {Te1 , . . . , Ten } es base ortonormal de Rn
X n
(ve (5.2.4)). De este modo, X ∈ Rn se descompone como X = hX, ei i ei . Análogamente, TX se
i=1
n
X
descompone como TX = hTX, Tei i Tei ; al ser T rígida, preserva el producto escalar (de nuevo,
i=1
(5.2.4)) y, por ende, hTX, Tei i = hX, ei i y, por lo tanto,
n
X
TX = hX, ei i Tei ;
i=1

mostrando que T es lineal5 .


Se supone que T = S ◦ U, con U ortogonal y S una traslación, del párrafo pasado se sabe que S es
la traslación por T(0), como las formas lineales quedan determinadas por las imágenes de una base, se
ve que U también está determinada de manera única.
Como importante corolario de esta proposición se obtiene lo siguiente.
( 5.2.8 ) Si T es una isometría de Rn en sí mismo que fija el origen T es lineal.
Dicho de otro modo, las únicas funciones que preservan las distancias en Rn son lineales, salvo una
traslación.
( 5.2.9 ) Toda trasformación rígida es invertible.
Si T : Rn → Rn es la trasformación dada, se sabe que T es composición de traslación con forma
lineal invertible; T es invertible.
( 5.2.10 ) La inversa de una trasformación rígida es a si vez una trasformación rígida.
Supón que T es rígida
d(T −1 u, T −1 v) = d(TT −1 u, TT −1 v) = d(u, v);
por lo que T −1 es rígida.
( 5.2.11 ) Las transformaciones rigidas en Rn con la composición forman un grupo. El grupo de transformaciones
ortogonales es subgrupo de este.
Es inmediato de los teoremas previos y la definición de grupo.
4 El hecho que una traslación sea una trasformación rígida queda de ejercicio al lector.
n n n
5 Para
P P P
ver la linealidad de T recuerda que si u = ai ei entonces ai = hu, ei i . Luego, se supone que u = ai ei y v = bi e i
i=1 i=1 i=1
entonces los argumentos utilizados en la demostración prueban que T(u + λv) = Tu + λTv para cualquier escalar λ ∈ R.

126
5.3. Gráficas.

§ 5.3. Gráficas.
Ya se ha hablado de la gráfica de una función pero todavía no ha sido definido lo que se interpreta
por gráfica. Se había definido a la gráfica de una función es la función misma. Por esta razón, si
f : Rn → Rm entonces f ⊂ Rn+m y solamente se pueden dibujar las gráficas para n = 1 y m = 1, para
n = 2 y m = 1 y, para n = 1 y m = 2. Se considera f : Rn → Rm , el caso en que n = 1 y m = 1 se tiene
una función de R a R para la cual el lector ya es experto realizando las gráficas correspondientes. Si
en cambio, se considera n = 1 y m = 2 se está considerando una curva, las cuales fueron tratadas en
el capítulo 4. Es por este motivo que se concentrará el interés en funciones de R2 a R.

z 5.3.1 Método de los conjuntos de nivel.


Sea f una función de Rn a R con regla de correspondencia X 7Ï f(X). Sea c ∈ R una constante
arbitraria, se está interesado en definir el conjunto de aquellos puntos (X, c) ∈ f.
( 5.3.1 ) Sean f : A → B y c ∈ B. Se dirá que el conjunto

Nc (f) = {(x, y) ∈ f : y = c}

se le conoce como conjunto de nivel6 c de f.


Es importante notar que si A = Rn y B = Rm entonces los conjuntos de nivel de una función son
subconjuntos de Rn+m . Ahora bien, como la segunda coordenada de los elementos de un conjunto de
nivel siempre es la misma se grafica la proyección de Nc (f) en Rn . Esto dice que se pueden graficar
los conjuntos de nivel cualquier función con dominio hasta R3 .
( 5.3.2 ) La gráfica de f es la unión de todos los conjuntos de nivel no vacíos.
Es inmediato de la definición.
De hecho, los conjuntos vacíos no aportan nada a la gráfica.
( 5.3.3 ) Sea f la función de R2 a R dada por X 7Ï kXk . Encuentra los conjuntos de nivel de f para cualquier
valor c.
Como se sabe, kXk ≥ 0, de este modo, para todo c < 0, Nc (f) = ∅. Para c = 0 se tiene que
Nc (f) = {(0, 0, 0)} y para c > 0, se tiene que
»
Nc (f) = {(x, y, c) ∈ R3 : x 2 + y 2 = c}

esto es, un círculo de radio c sobre el plano P = {(x, y, c) : (x, y) ∈ R2 } y concentro en el tercer eje.
Finalmente, la gráfica de f es la unión de todos estos círculos de centro el origen y radio r con la idea
que el círculo de radio r tiene su centro en el tercer eje y se encuentra embebido en un plano paralelo
a aquel generado por los dos primeros ejes y que se encuentra a una altura de r sobre el origen.
x
( 5.3.4 ) Sea f la función de R2 a R dada por f(x, y) = . Encuentra los conjuntos de nivel de f para un valor
y
c arbitrario de R.
Sea c = 0 entonces
x
f(x, y) = 0 ⇔ = 0 ⇔ x = 0.
y
6 También conocidos como “isoconjuntos” de valor c. Por ejemplo, cuando una función mide la temperatura éstos conjuntos

reciben el nombre de “isotérmicos”; cuando se hable en términos de utilidad económica se les denomida de “isoutilidad”, etcétera.

127
Capítulo 5. La derivada en varias variables.

De este modo, N0 (f) = {(0, y, 0) ∈ R3 : y 6= 0}. A este conjunto se le puede pensar como {(0, y) ∈ R2 :
y 6= 0}. Ahora, si c = 1 entonces es fácil ver que

N1 (f) = {(x, x, 1) : x 6= 0}.

En general, para cualquier c ∈ R, se tiene que Nc (f) = {(cy, y, c) : y 6= 0}, esto es, lineas que cortan al
1
tercer eje en la altura c cuya pendiente es . ¿Puede el lector imaginar la gráfica de f?
c
( 5.3.5 ) Se supone que f es una función de R2 a R tal que Nc (f) = {(x, y, c) : 2x − y + 1 = c}, determine f.
Observa que para cada valor de c el conjunto de nivel de f es una recta. Es importante notar que para
todos los valores de c las rectas tienen la misma pendiente. En la gráfica de f se tendrá que en la altura
c la gráfica es una recta y que para cualquier altura se tienen rectas paralelas entre sí. Esto sugiere
pensar que la gráfica de f es un plano. Bastará un segundo para que el lector se convenza que una
función en cuestión es f(x, y) = 2x − y + 1 y la gráfica de f es el plano P = {(x, y, z) : 2x − y − z = −1}.

z 5.3.2 Método de las secciones.


Este método consiste en obtener secciones de las gráficas al estudiar las intersecciones de la gráfica
con conjuntos ya conocidos y para los cuales se sabe su forma. Lo más fácil es obtener intersecciones
con los planos coordenados o, en general, con un planos arbitrarios o rectas.
( 5.3.6 ) Sea f una función de A a B y C un subconjunto en A × B entonces la sección de f sobre el conjunto
C es SC (f) = C ∩ f.
La definición, como era de esperarse, ha sido dada de manera general. Para el caso de funciones
de Rn a R se tiene que la sección de f sobre C de es un subconjunto de Rn+1 .
( 5.3.7 ) De los ejemplos (5.3.3) y (5.3.4) anteriores, determinar las secciones de las funciones ahí consideradas
sobre los planos coordenados.
Se considera primero el ejemplo (5.3.3). Los planos coordenados son aquellos conjuntos que satisfa-
cen que una de sus coordenadas es cero. Sea Pi = {(x1 , x2 , x3 ) ∈ R3 : xi = 0} el plano
p en R3 con la i-ésima
coordenada igual a cero. Sea f la función en cuestión, en este caso f(x, y) = x 2 + y 2 , y se considera
SP1 (f). Por la definición anterior, se tiene que SP1 (f) = P1 ∩f = {(x, y, z) ∈ f : x = 0} = {(0, y, |y|) : y ∈ R}.
Entonces, restringiendo a P1 se tiene que la sección se ve como la función valor absoluto. Análogamente
para P2 se obtiene gráfica de la función valor absoluto. No es difícil imaginar la gráfica de f. Se tiene
que por secciones es valor absoluto y por niveles son círculos, luego f tiene un pico en el origen. Por
lo que f tiene la forma de un cono.
Se considera ahora al ejemplo 5.3.4. En este caso las secciones a los planos coordenados no dan
mucha información. Se sabe que la intersección con el plano que tiene a la segunda coordenada igual
a cero no está definida y el de la primera coordenada siempre es cero. Realmente no ayudan mucho,
se usan las secciones con otros planos. Por ejemplo, sea P(k) = {(x, y, z) : x = k} entonces
ßÅ ã ™
k
SP(k) (f) = k, y, : y 6= 0 .
y
Estos conjuntos son hipérbolas en los planos que tienen x = k. La imagen geométrica de la gráfica no
es muy clara pero uno puede imaginarla un poco mejor con secciones que con conjuntos de nivel y
juntos proveen de una buena imagen geométrico de la gráfica.
Esta dos técnicas son muy utilizadas para graficar funciones. No se desarrollarán más técnicas ni
métodos de graficación. Estas dos herramientas satisfacen casi todos los encuentros prácticos para
graficar funciones.

128
5.4. Límites.

§ 5.4. Límites.
La generalización de límite en funciones de varias variables es inmediata de la definición dada antes
para curva (4.2.1)

( 5.4.1 ) Sean V y W dos espacios vectoriales. Supón que A es un subconjunto de V y que f : A → W es una
función cualquiera. Sea v ∈ A un punto de acumulación de A. Se dirá que w ∈ W es un «límite de f en v a
través de A» siempre que se cumpla la siguiente propiedad

(∀ε > 0)(∃δ > 0) tal que (u ∈ B∗ (v; δ) ∩ A Ñ f(u) ∈ B (w; ε)),

donde B∗ (v; δ) = B (v; δ) \ {v}. Se utilizará la notación u→v


lı́m f(u) = w y lı́m f(u) = w cuando A quede claro del
u→v
u∈A
contexto.

Observaciones:

1. Siempre se deberá suponer que las bolas son respecto a la única topología que se puede definir
en V y W con respecto a una norma, ve las observaciones después de (3.6.6). En particular, si una
función posee un límite respecto a algunas normas de V y W entonces posee el mismo límite
para todas las normas que se puedan definir en V y W .

2. Esta definición coincide con la clásica definición de cálculo en una variable cuando n = 1 y
V = W = R. También incluye las definiciones de límite hacia arriba (o izquierdo) y hacia abajo (o
derecho).

3. El δ encontrado es típicamente función de ε y v. A veces se escribirá δ(ε, v).

4. Si en la definición no se pidiera que v fuera un punto de acumulación de A pero que v esté en A


entonces cualquier w ∈ W sería límite de f en v a través de A. En efecto, existe un δ > 0 tal que
B (v; δ) ∩ A = {v}. Luego, la propiedad definitoria de límite se cumpliría trivialmente para todo
punto w ∈ W , esto es por vacuidad. Como se desean que los límites sean únicos, se excluye este
caso.

5. Esta noción de punto límite explica por qué en las sucesiones solo se consideran límites en el
“infinito”. Supón que a R se le agrega el “punto” especial ∞ y se define una bola abierta de centro
∞ como (a, ∞), para cualquier a ∈ R. Entonces, si se pone U = N en la definición anterior el
único punto de acumulación
Å de U ães ∞. Esto puede “verificarse” de la siguiente manera, supón
1 1
que n ∈ N entonces n − , n + ∩ N = {n}, por lo que n no es punto de acumulación de N,
2 2
en cambio, se toma a ∈ R, se ve que (a, ∞) ∩ N 6= ∅ sin importar a. Luego, lo estudiado sobre
límites de sucesiones es un caso especial de este.

6. La función f tiene a lo más un límite en A. Lo cual puede verificarse imitando la demostración


de (4.2.2), hazlo.

7. Asimismo, resulta ser más complicado el cálculo de los límites ahora que antes. A continuación
se presentan algunos ejemplos para ilustrar este hecho. En estos ejemplos se varán algunas ideas
que se utilizan con frecuencia a la hora de lidiar con límites.

( 5.4.2 ) Calcula el siguiente límite


lı́m cos x + cos y = 0.
(x,y)→(π,0)

129
Capítulo 5. La derivada en varias variables.

La función con la que se va a trabajar es aquella cuya regla de correspondencia es (x, y) 7Ï cos x +
cos y. Se sabe que la función coseno está bien definida en todo R. De este modo el dominio de la
función es R2 . Dado ε > 0 se debe encontrar un δ > 0, posiblemente en función de ε y (π, 0), tal que
cumpla la definición de límite. Sea ε > 0. Como el coseno es una función continua en R existe un
ε ε
δ1 > 0 tal que |x − π| < δ1 Ñ | cos x + 1| < . Asimismo, existe δ2 > 0 tal que |y| < δ2 Ñ | cos y − 1| < .
2 2
Sea δ = mı́n{δ1 , δ2 }. Entonces k(x, y) − (π, 0)k < δ Ñ |x − π| < δ y |y| < δ. Luego, las desigualdades
anteriores prevalecen, por lo que

| cos x + cos y| ≤ | cos x + 1| + | cos y − 1| < ε.

Esto implica que lı́m cos x + cos y = 0.


(x,y)→(π,0)

( 5.4.3 ) Sea f(x, y, z) = x − y + 2z. Encuentra y calcula

lı́m f(x, y, z).


(x,y,z)→(1,0,−1)

Lo más natural es pensar que lı́m f(x, y, z) = −1. Sea ε > 0 y sea δ > 0 tal que
(x,y,z)→(1,0,−1)

ε
|x − 1| < δ Ñ |x − 1| < ,
3
ε
|y| < δ Ñ |y| <
3
y
ε
|z + 1| < δ Ñ |2z + 2| <
3
El lector deberá explicar por qué existe este δ. Al igual que antes, si k(x, y, z) − (1, 0, −1)k < δ entonces
las tres desigualdades anteriores valen y por tanto

|x − y + 2z + 1| ≤ |x − 1| + |y| + |2z + 2| < ε

Esto implica que lı́m f(x, y, z).


(x,y,z)→(1,0,−1)

( 5.4.4 ) Sea F : R3 → R3 dada por F(x, y, z) = (x + y, x 2 − z, cos z). Encuentra y calcula

lı́m F(x, y, z).


(x,y,z)→(1,−1,π)

Es fácil pensar que el límite es (0, 1 − π, −1). Se calcularán primero los límites de las funciones

f1 (x, y, z) = x + y, f2 (x, y, z) = x 2 − z

y
f3 (x, y, z) = cos z
en el punto (1, −1, π). Sean ε > 0 y δ1 > 0 tal que
ε
|x − 1| < δ1 Ñ |x − 1| < ,
6
y
ε
|y + 1| < δ1 Ñ |y + 1| < ,
6

130
5.4. Límites.

De este modo, si k(x, y, z) − (1, −1, π)k < δ1 entonces las dos desigualdades anteriores prevalecen y, por
tanto,
ε
|f1 (x, y, z)| = |x + y| < |x − 1| + |y + 1| <
3
Sea δ2 > 0 tal que
ε
|x − 1| < δ2 Ñ |x 2 − 1| < ,
6
y
ε
|z − π| < δ2 Ñ |z − π| < .
6
Y del mismo modo que antes, si k(x, y, z) − (1, −1, π)k < δ2 entonces las dos desigualdades anteriores
prevalecen y, por tanto,
ε
|f2 (x, y, z)| = |x 2 − z − 1 + π| < |x 2 − 1| + |z − π| <
3
Por último, como cos es una función continua se tiene que existe δ3 tal que
ε
|z − π| < δ3 Ñ |f3 (x, y, z) + 1| = | cos z + 1| < .
3

Sea δ = mı́n{δ1 , δ2 , δ3 }, las desigualdades concernientes a las fi se mantienen simultáneamente. De este


modo, se puede ver que

k(x, y, z) − (1, −1, π)k < δ Ñ kF(x, y, z) − (0, 1 − π, −1)k < ε.

Con lo cual se puede concluir que el límite es cierto.

z 5.4.1 Proyecciones canónicas.


Dentro de las funciones especialmente importantes que solo han sido mencionadas vagamente
se encuentran las proyecciones naturales a los ejes coordenados. Por ejemplo, dado un punto X =
(x1 , · · · , xn ) ∈ Rn se quieren considerar las aplicaciones X 7Ï xi para algún i fijo. Estas funciones en
realidad no dependen de la estructura de Rn , por lo que se definen en general.
s
Y
( 5.4.5 ) Sean X1 , . . . , Xs son conjuntos no vacíos y sea X = Xi su producto cartesiano. Se define a pri1 ,...,ij :
i=1
j
Y
X→ Xik dada por pri1 ,...,ij (x1 , . . . , xs ) = (xi1 , . . . , xij ); se dirá que pri1 ,...,ij es proyección parcial. Cuando j = 1
k=1
entonces se dirá que pri1 la proyección canónica al i1 -ésimo conjunto. Si X1 = . . . = Xs , se denotará a X por X s .
Dada una función F : V → W , donde W = U1 × . . . × Um , se tiene de manera natural m funciones que
coordenadas. Es decir, para cada vector v ∈ V , se tiene que F(v) = (f1 (v), . . . , fm (v)). Las funciones fi = pri ◦ F
anteriores se les conoce como funciones coordenadas de la función F. Se tiene que las funciones coordenadas
tienen (al menos) el mismo dominio que la función F. Por costumbre uno escribe F = (f1 , . . . , fm ).

( 5.4.6 ) Sean V , W1 , . . . , Wm espacio vectoriales y define W = W1 × . . . × Wm . Sean A ⊂ V cualquier


conjunto y v un punto de acumulación de A. Para que la función F = (f1 , · · · , fm ) : A → W posea un límite
w = (w1 , . . . , wm ) ∈ W a través de A es condición necesaria y suficiente que cada una de sus funciones
coordenadas fi posea a wi como límite en v a través de A, para i = 1, . . . , m.

131
Capítulo 5. La derivada en varias variables.

Recuerde que no importa que norma se utilice en la definición de límite. Supón entonces que
kk1 , . . . , kkm son sendas normas en W1 , . . . , Wm y define la norma en W mediante
m
X
k(z1 , . . . , zm )k = kzi ki
i=1

(queda a título de ejercicio para el lector demostrar que kk es una norma en W ). Se verifica trivialmente
que para cualquier zi ∈ Wi
m
X
kzi ki ≤ k(z1 , . . . , zm )k = kzi ki .
i=1
m
X
Por lo tanto, kwi − fi (u)ki ≤ kw − F(u)k = kwi − fi (u)ki . Por lo tanto, si F(u) → w cuando u → v a
i=1
través de A entonces fi (u) → wi cuando u → v a través de A. Del mismo modo, si para cada i = 1, . . . , m
se cumple que fi (u) → wi cuando u → v a través de A entonces, por ser un número finito de sumandos,
F(u) → w cuando u → v a través de A.

( 5.4.7 ) Sean g : A ⊂ V → R, y f : I ⊂ R → R. Se supone que v es un punto de acumulación de A y que


lı́m g(u) = l y que f es continua (como función de R en R) en l. Entonces
u→v

lı́m f(g(u)) = f(l).


u→v

Sea ε > 0. Existe η > 0 tal que

t ∈ B (l; η) Ñ f(t) ∈ B (f(l); ε) .

Para este η existe δ > 0 tal que


u ∈ B∗ (v; δ) Ñ g(u) ∈ B (l; η) .
De este modo,
u ∈ B∗ (v; δ) Ñ f(g(u)) ∈ B (f(l); ε) .
Esto prueba que lı́m f(g(u)) = f(l).
u→v

1
( 5.4.8 ) Sea f(x, y, z) = . Encuentra y calcula
x2 + 2y − z

lı́m f(x, y, z).


(x,y,z)→(1,0,−1)

Considera la siguiente función


g(x, y, z) = x 2 + 2y − z.
Se encuentra primero el límite de g en (1, 0, −1), este límite es 2. Se observa lo siguiente

|x 2 + 2y − z − 2| = |x 2 − 1 + 2y − z − 1| ≤ |x 2 − 1| + |2y| + |z + 1|.

Un segundo de reflexión hará notar que el único posible problema para encontrar una cota es con
|x 2 − 1|. Se hacen unas pequeñas manipulaciones algebraicas.

|x 2 − 1| = |x + 1||x − 1| ≤ (|x| + 1)|x − 1|

132
5.4. Límites.

Para 0 < δ < 1, se tiene


n ε que
o |x − 1| < δ Ñ |x| < 2. Además, dado ε > 0 se puede escoger δ > 0 de tal
forma que δ ≤ mı́n 1, entonces
6
k(x, y, z) − (1, 0, −1)k < δ Ñ |x 2 + 2y − z − 2| ≤ (|x| + 1)|x − 1| + |2y|
+|z + 1| ≤ 3|x − 1| + |2y| + |z + 1|
≤ 3δ + 2δ + δ ≤ ε.
Se aplicará el teorema anterior; se debe encontrar una función ψ : I ⊂ R → R tal que ψ ◦ g = f. Sea
1
ψ : R+ → R dada por ψ(x) = . Entonces,
x
1
lı́m ψ(g(x, y, z)) = lı́m f(x, y, z). = .
(x,y,z)→(1,0,−1) (x,y,z)→(1,0,−1) 2
1
Por lo tanto, lı́m .
f(x, y, z) =
(x,y,z)→(1,0,−1) 2
Generalizando el ejemplo anterior no es difícil demostrar el siguiente resultado. La prueba se deja
de ejercicio al lector.
( 5.4.9 ) Sean g : A ⊂ V → R y v un punto de acumulación de A. Si lı́m g(u) = l 6= 0, se tiene que
Å ã u→v
1 1
lı́m (u) = .
u→v g l
El siguiente teorema engloba todas las propiedades básicas de límites de funciones que toman
valores reales. Las operaciones en cuestión son la suma y el producto.
( 5.4.10 ) Sean f, g : A ⊂ V → W y v un punto de acumulación de A. Se supone que lı́m f(u) = l1 y que
u→v
lı́m g(u) = l2 . Entonces, las siguientes propiedades se verifican.
u→v

1. Para cualquier λ ∈ R, lı́m (f + λg)(v) = l1 + λl2 ;


u→v

2. Si en W hay un producto escalar h, i , lı́m hf, gi (u) = hl1 , l2 i .


u→v

La demostración se delega al lector como ejercicio. Como siempre, se darán algunas sugerencias.
Las funciones proyección antes definidas satisfacen ciertas propiedades especiales. De acuerdo al
ejemplo (3.4.2) se tiene que las funciones proyección son funciones abiertas.
( 5.4.11 ) Sean V1 , . . . , Vn espacios vectoriales y define V = V1 × . . . × Vn . Las proyecciones canónica satisfacen
que v = (v1 , . . . , vn ) Ñ lı́m pri (u) = vi .
u→v

Es destacable que Dom (pri ) = V por lo que cualquier v ∈ V es punto de acumulación de Dom (pri ) .
Aquí otra vez se utilizará que no importa la norma que se utilice en la definición de límite. Su-
pón entonces que kk1 , . . . , kkn son sendas normas en V1 , . . . , Vn y define la norma en V mediante
n
X
k(v1 , . . . , vn )k = kvi ki . Sean ε > 0 y δ = ε. Por definición,
i=1
n
X
u ∈ B∗ (v; δ) ⇔ 0 < kui − vi ki < δ,
i=1

por lo que
kui − vi ki ≤ ku − vk < δ = ε
que es la definición de que lı́m pri (u) = pri (v).
u→v

133
Capítulo 5. La derivada en varias variables.

Observación: de aquí es inmediato que toda proyección parcial pri1 ,...,ik satisface que
lı́m pri1 ,...,ik (u) = (vi1 , . . . , vik ),
u→v

lo cual es consecuencia de (5.4.6) y de (5.4.11).

z 5.4.2 Funciones polinomiales y racionales.


Con las funciones proyecciones surgen de manera natural las funciones polinomiales y racionales.
Así, se desea definit a las funciones polinomiales y las funciones racionales. Un polinomio en R es, por
definición, una expresión formal de la forma
n
X
ai x i = a0 + a1 x 1 + a2 x 2 + · · · + an x n ,
i=0
i
en donde cada x es un símbolo que carece de sentido como tal, simplemente representa posición. Al
conjunto de todos los polinomios se le puede representar por
( n )
X
R[x] = ai x i : ai ∈ R, n ∈ N .
i=0
n
X
Se hace hincapié en que las expresiones ai x i no son números, el elemento x i solo está representando
i=0
una posición en el polinomio. De hecho, se puede pensar que R[x] es el siguiente conjunto:
R[x] = (a0 , a1 , a2 , . . .) ∈ RN : ai ∈ R y ∃N ∈ N ∪ {0} tal que n > N Ñ an = 0 ,


en donde RN es el conjunto de vectores con un número infinito de entradas; esto es, RN es el conjunto de
las sucesiones que toman valores reales. La notación con vectores no es habitual pues resulta complicado
definir el producto de polinomios, por eso se prefiere la notación de sumas. Otra forma de definir R[x]
es pensarlo como el espacio vectorial generado por los símbolos formales {x i : i = 0, 1, 2, . . .}. A este
conjunto se le conoce como conjuntos de monomios de una variable.
Existen muchas analogías entre RN y Rn para n ∈ N. No se necesitará de ninguna durante este
texto. Por otra parte, se deja de ejercicio al lector verificar que R[x] es un espacio vectorial sobre R
con las operaciones de suma y producto por escalar definidas como antes, coordenada a coordenada.
Asimismo, se deja verificar que este espacio vectorial es de dimensión infinita, de hecho el conjunto de
monomios de una variable es un conjunto linealmente independiente e infinito que es base (ve (1.2.8))
de R[x].
Dado un polinomio siempre es posible definir una función mediante él. Por ejemplo, para P ∈ R[x]
n
X
dado por P = (a0 , . . . , an , 0, . . .) = ai x i entonces se puede definir la función f : R → R dada por
i=0
n
X
f(x) = ai x i .
i=0

A una función de este tipo se le conoce como función polinomial en R y cabe destacar que f no es un
polinomio7 . Observa que existe una aplicación natural entre el espacio de polinomios y el de funciones,
n n
!
X X
i i
ai x 7Ï t 7Ï ai t
i=0 i=0
7 Técnicamente, f ∈/ R[x].

134
5.4. Límites.

Esta aplicación será denotada por Φ : R[x] → P RR 8 , el cual es lineal e inyectivo.



Para generalizar los resultados precedentes uno ha de preguntarse, ¿cómo se generaliza la idea de
función polinomial a Rn ? Una idea natural es definir R[x1 , . . . , xn ] como el espacio vectorial generado
por el conjunto de los monomios en n variables. Esto es R[x1 , . . . , xn ] = lin hBi , donde
¶ ©
B = x1i1 · · · xnin : i1 + · · · + in = k, (i1 , . . . , in , k) ∈ (N ∪ {0})n+1 .

Entonces, queda a cargo del lector demostrar que B es conjunto linealmente independiente.
( 5.4.12 ) Se define el conjunto de los polinomios en n variables como
¨¶ ©∂
R[x1 , . . . , xn ] = lin x1i1 · · · xnin : i1 + · · · + in = k, (i1 , . . . , in , k) ∈ (N ∪ {0})n+1 .

Si k es un número natural, la expresión


k
X
ai1 ,...,in x1i1 · · · xnin ,
i1 +···+in =0

en donde ai1 ,...,in ∈ R, se llamará «polinomio de grado k en n variables».

Observación: evidentemente, si Ak es el conjunto de polinomios de grado k para k ∈ N∪{0} entonces



[
R[x1 , . . . , xn ] = Ak .
k=0
De nueva cuenta se hace hincapié en que un polinomio no es una función, es una simple expresión
formal.
( 5.4.13 ) A f : Rn → R se le llama función polinomial si existen ai1 ,...,in ∈ R tales que
k
X
f= ai1 ,...,in pri11 · · · prinn .
i1 +···+in =0

En este caso, se dirá que f es una función polinomial de grado k en n variables.


n
Otra vez existe una función lineal e inyectiva de R[x1 , . . . , xn ] en R(R ) . Una vez que han sido definidas
las funciones polinomiales se está en condiciones de definir las funciones racionales.
( 5.4.14 ) Se dice que h : U ⊂ Rn → R es una función racional si existen f, g dos funciones polinomiales en n
f
variables tales que g(X) 6= 0 para todo X en U ⊂ Rn y h = .
g
Por las propiedades básicas de límites de sumas, productos y cocientes, junto con (5.4.11) se tiene
que el límite de una función polinomial en un punto A es la función evaluada en A. Asimismo, si h es
una función racional se tiene que el límite de h en A es h(A).
( 5.4.15 ) Calcula los siguientes límites.
1. lı́m x + y + z.
(x,y,z)→(1,0,0)

8 Por notación, si X y Y son conjunto, el conjunto X Y denota al conjunto de todas las funciones con dominio Y y contradominio

X. Se puede verificar que si Y es espacio vectorial X Y también es un espacio vectorial (note que no hay ninguna suposición sobre
X, ¡puede ser cualquier conjunto no vacío!). Por estas razones se puede verificar que RR posee una base como espacio vectorial,
n 
ve (1.2.14). Por otra parte, se denotará al conjunto de las funciones polinomiales de Rn en R por P R(R ) .

135
Capítulo 5. La derivada en varias variables.

2. lı́m x 2 y − 3z3 y.
(x,y,z)→(1,1,−1)

ex+y x
Å ã
x
3. lı́m , , e + e−y+z .
(x,y,z)→(0,−1,2) z+y z
2 sin y
4. lı́m .
(x,y,z)→(2,π,−π) x 2 + cos z
sin x cos y
5. lı́m z .
(x,y,z)→( π2 ,π,2π ) sin
4
1. Nota que la función en cuestión es pr1 + pr2 + pr3 . Por (5.4.10) se tiene que

lı́m x+y+z = 1 + 0 + 0 = 1.
(x,y,z)→(1,0,0)

2. Se procede análogamente al ejemplo anterior. En este caso la función es pr21 pr2 − 3pr3 pr2 y, por
tanto, el límite buscado es

lı́m x 2 y − 3z3 y = (1)2 (1) − 3(−1)3 (1) = 1 + 3 = 4.


(x,y,z)→(1,1,−1)

3. Para resolver este ejemplo se usará (5.4.6). Por razonamientos análogos a los de los incisos uno
y dos se puede ver que el límite en la primera coordenada es cero. Para calcular el límite de la
segunda coordenada se utiliza el hecho que la función exponencial es continua en R. Así, el límite
de ex+y en (0, −1, 2) es e−1 . Se utilizará de nuevo (5.4.9), se tiene que el límite de pr3 en (0, −1, 2)
e−1
es 2, por tanto, el límite de la segunda coordenada es . Usando que el límite de la suma es la
2
suma de los límites se ve que el límite de la tercera coordenada es e0 + e3 = 1 + e3 . Por tanto, el
límite buscado es 0, e−1 , 1 + e3 .
4. La función seno es continua de R en R, así el límite de sin ◦pr2 en (2, π, −π) es sin π = 0. De aquí
que el límite en el numerador sea cero. Por un razonamiento análogo al previo se ve que el límite
del denominador es 3. Como el límite del denominador no es cero, se sigue que el límite buscado
es cero.
5. Se deja al lector los detalles de este ejercicio para que verifique que, en este caso, el límite buscado
es -1.

z 5.4.3 Límites reiterados.


En esta subsección se desarrollan técnicas más avanzadas para calcular límites. Es interés el casos
donde se puedan calcular los límites de una función f : Rn → R tomando límites parciales en cada
dirección. Por ejemplo, la función f(x, y, z) = x + y − z satisface lo siguiente

lı́m f(x, y, z) = 0.
(x,y)→(1,1,2)

El anterior límite pudo haber sido calculado como sigue

lı́m f(x, y, z) = lı́m lı́m lı́m f(x, y, z) = lı́m lı́m lı́m x + y − z


(x,y)→(1,1,2) x→1 y→1 z→2 x→1 y→1 z→2

= lı́m lı́m x + y − 2 = lı́m x − 1 = 0.


x→1 y→1 x→1

136
5.4. Límites.

La pregunta natural y obvia que surge es la siguiente. ¿Cuándo se pueden calcular los límites de manera
reiterada?
Se observa lo siguiente, se supone que f : U ⊂ Rn → R tal que f(X) → l cuando X → A, donde A es
un punto de acumulación de U. El límite de f es l tomando cualquier dirección hacia A. Entonces, si el
límite por definición existe y el límite reiterado existe deben coincidir.

( 5.4.16 ) Sean A ⊂ Rn , P = (p1 , . . . , pn ) un punto de acumulación de A y F : A → Rm tal que lı́m F(X) = L


X→P
existe. Supón que existe una permitación σ ∈ Sn (ve (1.3.4)) para la cual se pueden definir a las funciones

g0 xσ(1) , . . . , xσ(n) = f(x1 , . . . , xn )

y
 
gk xσ(k+1) , . . . , xσ(n) = lı́m gk−1 xσ(k) , . . . , xσ(n) ,
xσ(k) →pσ(k)

para k = 1, . . . , n. Entonces, gn es una función constante cuyo valor es L. Por notación se escribirá

lı́m . . . lı́m f(x1 , . . . , xn ) = L.


xσ(n) pσ(n) xσ(1) pσ(1)

( 5.4.17 ) Supón que lı́m F(X) existe en cada caso, encuentra su valor:
X→A

1. F(x, y, z) = (2xy, 2yz, 2xz), P = (1, 0, −1);

x 2 + yz − z
2. f(x, y, z) = , P = (−1, 1, 2).
3xyz

Como los límites existen se puede utilizar límites reiterados para encontrar su valor. Entonces, se
tiene que, para el primer caso

lı́m F(x, y, z) = lı́m lı́m lı́m F(x, y, z)


(x,y,z)→(1,0,−1) x→1 z→−1 y→0

= lı́m lı́m lı́m(2xy, 2yz, 2xz)


x→1 z→−1 y→0

= lı́m lı́m (0, 0, 2xz)


x→1 z→−1
= lı́m(0, 0, −2x) = (0, 0, −2).
x→1

Y para el segundo,

lı́m f(x, y, z) = lı́m lı́m lı́m f(x, y, z)


(x,y,z)→(−1,1,2) x→−1 z→2 y→1

x 2 + yz − z
= lı́m lı́m lı́m
x→−1 z→2 y→1 3xyz
2
x +z−z
= lı́m lı́m
x→−1 z→2 3xz
x2 1
= lı́m = .
x→1 6x 6

Que son los límites buscdos.

137
Capítulo 5. La derivada en varias variables.

Observación: aunque no se ha demostrado un teorema muy fuerte, pues su validez depende de la


existencia del límite y de las funciones g0 , . . . , gn , se tiene un criterio para determinar cuando una
función no tiene límite en un punto. Si dos límites reiterados existen y no coinciden en valor el límite
global no existe.

( 5.4.18 ) Las siguientes funciones no tienen límite en los puntos señalados:


x
1. , P = (0, 0);
x − y2
x
2. , P = (0, 2).
x + y2 − 4
Se calculan los límites reiterados en cada caso. Para el primero se tiene que
x
lı́m lı́m =1
x→0 y→0 x − y2
y
x
lı́m lı́m = 0.
y→0 x→0 x − y 2

Como los dos límites reiterados existen y no coinciden en valor, se tiene que el límite global no existe.
Para el otro caso, se procede de manera análoga.
x
lı́m lı́m =1
x→0 y→2 x + y 2 − 4

y
x
lı́m lı́m = 0.
y→2 x→x x + y2 − 4
x
Por lo que lı́m tampoco existe.
x + y2 − 4
(x,y)→(0,2)
A continuación un ejemplo de una función que su restricción a toda recta que pasa por el origen
en Rn la convierte en una función continua (de R a R) pero que la función no tiene límite en (0, 0).

( 5.4.19 ) Sean F : U ⊂ Rn → Rm y A un punto de acumulación de U; se supone que lı́m F(X) = L. Asimismo,


X→A
se supone que f : I ⊂ R → U es una curva tal que lı́m f(t) = A, con a ∈ I un punto de acumulación. Entonces,
t→a
lı́m(F ◦ f)(t) = L.
t→a

La técnica para demostrar esto ya ha sido empleada antes. Sea ε > 0, existe δ > 0 tal que

X ∈ U, 0 < kX − Ak < δ Ñ kF(X) − Lk < ε.

Para este δ > 0 existe η > 0 con

t ∈ I, 0 < |t − a| < η Ñ kf(t) − Ak < δ.

Por lo tanto, si t ∈ I es tal que 0 < |t − a| < η entonces kF(f(t)) − Lk < ε.


El teorema anterior asegura que si el límite de una función F : U ⊂ Rn → Rm existe en el punto A
(punto de acumulación de U) el límite de F en A no cambia sin importar la ruta que se use al acercarse
a A. Así, se tiene el criterio por excelencia para demostrar que una función F : U ⊂ Rn → Rm no
tiene límite en el punto A. Basta dar dos curvas α y β tales que lı́m α(t) = A y lı́m β(t) = A, pero que
t→t0 t→t1
lı́m F(α(t)) 6= lı́m F(β(t)).
t→t0 t→t1

138
5.4. Límites.

( 5.4.20 ) Sea f : R2 → R dada por



xy 2
si (x, y) 6= (0, 0)

f(x, y) = 2 4
 x +y
0 si (x, y) = (0, 0).

Asimismo, sea u ∈ Rn un vector unitario. La restricción de f a Lu , la recta que pasa por cero y en dirección del
vector u, es continua (como funciones de R a R). Sin embargo, lı́m f(x, y) no existe.
(x,y)→(0,0)

Se calcula la regla de correspondencia de f restringida a Lu . No es difícil convencerse que, para


u 6= (0, ±1), (x, y) ∈ Lu si y solo si (x, y) = (x, ax) con a ∈ R. Si u = (0, ±1), (x, y) ∈ Lu si y solo si
(x, y) = (0, y). La restricción de f en el segundo caso es f(x, y) = 0 para todo (x, y) en la recta. Si se
está en el primer caso,
a3 x 3 a3 x
g(x) = f(x, ax) = 2 = .
x + a4 x 4 1 + a4 x 2
Como el límite de g cuando x va a cero es cero y g(0) = f(0, 0) = 0, se tiene que g es una función
Ä √ ä t2 1
continua de R en R. Observa que la curva h(t) = t, t satisface que f(h(t)) = 2 = . Como la
2t 2
1
función toma valor constante en esta curva, se sigue que su límite en el cero es . Pero ya se había
2
probado que el límite de f en la restricción a una recta era 0, así, el límite global de f no existe.

z 5.4.4 Límites infinitos.


1
El límite de la función por la derecha del cero es infinito. ¿Qué significado tiene que el límite
x
sea infinito? La idea intuitiva es que la función puede tomar cerca del punto un valor más grande que
cualquier valor grande “dado de antemano”.

( 5.4.21 ) Sea F : U ⊂ Rn → Rm y A un punto de acumulación de U. Se dice que el límite de F en A es infinito,


denotado esto como lı́m F(X) = ∞, si
X→A

(∀M ∈ N)(∃δ > 0) tal que (X ∈ B∗ (A; δ) Ñ kF(X)k > M).

En el caso que m = 1, se dice que F tiende a +∞ en A si

(∀M ∈ N)(∃δ > 0) tal que (X ∈ B∗ (A; δ) Ñ F(X) > M).

Asimismo, F tiende a −∞ en A si

(∀M ∈ N)(∃δ > 0) tal que (X ∈ B∗ (A; δ) Ñ F(X) < −M).

sin x π π 
( 5.4.22 ) Sea f la función dada por f(x, y) = . El límite de f en , es infinito.
cos y 2 2
π π 
Sean M ∈ N y A = , , se quiere encontrar δ > 0 tal que X ∈ B∗ (A; δ) Ñ f(x) > M. Se hace un
2 2
pequeño análisis del problema.

sin x
f(X) > M ⇔ > M ⇔ sin x > M cos y.
cos y

139
Capítulo 5. La derivada en varias variables.

π π
Se observa lo siguiente, sin x → 1 cuando x → y cos y → 0 cuando y → . Se tiene que para algún
2 2
1 π 1
δ1 > 0, cos y < siempre que y − < δ1 . Asimismo, existe δ2 > 0 tal que sin x > siempre que

2M 2 2
π
x − < δ2 . Por tanto, si δ = mı́n{δ1 , δ2 } entonces

2
π π
(x, y) ∈ B∗ (A; δ) Ñ x − < δ1 , x − < δ2 ,

2 2
sin x 1 2M
implicando esto que f(x, y) = > > = M. Con lo cual, el límite es infinito, como se
cos y 2 cos y 2
había afirmado.
Es cuestión de lenguaje notar que el límite en A de una función f : Rn → R es infinito si y solo si el
1
límite de en A se va aproximando a cero por la derecha.
f
1
( 5.4.23 ) Sea f : U ⊂ Rn → R. Entonces, lı́m f(X) = +∞ si y solo si lı́m = 0+ .
X→A X→A f(X)
1
Se supone primero que el límite de f en A es +∞. Se verá que el límite de en A es cero, y que la
f
1
aproximación es por la derecha. En efecto, dado ε > 0, sea M ≥ . Existe δ > 0 tal que
ε
X ∈ B∗ (A; δ) Ñ f(X) > M.

Es decir,
1 1
X ∈ B∗ (A; δ) Ñ 0 < < < ε.
f(X) M
1
Con esto se ve que el límite deen A es cero y la aproximación es por la derecha.
f
1 1
Recíprocamente, se supone que el límite de en A es cero, y > 0. Sea M ∈ N entonces existe
f f
1 1
ε > 0 tal que > M. Como el límite de es cero, se sigue que para este ε existe δ > 0 tal que
ε f
1
X ∈ B∗ (A; δ) Ñ < ε.
f(X)
Esto es,
1
X ∈ B∗ (A; δ) Ñ f(X) > > M.
ε
Lo cual implica que el límite de f en A es +∞.

§ 5.5. Continuidad.
Al igual que el capítulo pasado se está interesado en definir continuidad; en aquel caso fue fácil dar
una idea geométrica de lo que es la continuidad. Bastaba decir que se quería que la traza de la curva
no “saltara” ni se “rompiera”. Ahora no es tan fácil esta noción de “rompimiento” pues las gráficas de
las funciones de varias variables son superficies en Rn+m y no es clara su visualización. Lo que si es
claro, y además fácil, es transcribir la definición de continuidad con la noción de siempre, procurar que
lı́m f(X) = f(A).
X→A

140
5.5. Continuidad.

( 5.5.1 ) Sean V y W dos espacios vectoriales y A ⊂ V . Se considera una función f : A → W y v ∈ A un punto


cualquiera. Se dirá que f es continua en v si v no es un punto de acumulación de A. Cuando v sea un punto de
acumulación de A entonces se dirá que f es continua en v si para todo ε > 0 existe un δ > 0 tal que

u ∈ B (v; δ) ∩ A Ñ f(u) ∈ B (f(v); ε) .

Por convención, se dirá que la función f es continua en A si es continua en v para cualquier v ∈ A.

Observaciones:

1. Es consecuencia directa de la definición que una condición necesaria y suficiente para que f sea
continua en un punto de acumulación v es que lı́m f(u) = f(v).
u→v

2. Si F = (f1 , . . . , fm ) entonces una condición necesaria y suficiente para que F sea continua en v es
que cada fi sea continua en v. Lo cual es consecuencia directa de (5.4.6).

3. Sean f, g : A ⊂ V → W dos funciones continuas en v. Entonces, f + λg y hf, gi (cuando en W haya


un producto interior) son funciones continuas en v. Si W = R3 , f × g es continua en v. Si W = R
f
y g(v) 6= 0 entonces es continua en v. Se dejan los detalles al lector, como sugerencia, en cada
g
caso utilice la propiedad análoga para límites.

Una de los resultados más potentes sobre continuidad es que esta puede caracterizarse de varias
maneras distintas. Por ejemplo, las funciones continuas satisfacen que lı́m f(u) = f(v), esto se puede
  u→v
pensar como lı́m f(u) = f lı́m u . Esto se expresa coloquialmente diciendo que las funciones continuas
u→v u→v
permiten “entrar los límites a su argumento”. Sin embargo, el resultado que se va a demostrar garantiza
que esta operación puede realizarse cuando se toma cualquier sucesión, (un )n∈N , tal que lı́m un = v.
n→∞

( 5.5.2 ) Sea f : A ⊂ V → W una función. Una condición necesaria y suficiente para que f sea continua en
v ∈ A es que para cualquier sucesión convergente (un )n∈N definida en A tal que lı́m un ∈ A se tenga que
  n→∞
lı́m f(un ) = f(v). Esto se expresa equivalentemente como lı́m f(un ) = f lı́m un .
n→∞ n→∞ n→∞

Se utilizará una técnica ya empleada antes varias veces; primero se demuestra la necesidad. Como
lı́m f(u) = f(v) se tiene que dado ε > 0 existe δ > 0 tal que u ∈ B (v; δ) ∩ A Ñ f(u) ∈ B (f(v); ε) . Como
u→v
un → v se tiene que para este δ > 0 existe M > 0 tal que n ≥ M Ñ un ∈ B (v; δ) . De este modo,
n ≥ M Ñ f(un ) ∈ B (f(v); ε) . Esto es que lı́m f(un ) = f(v).
n→∞
Para demostrar el recíproco se procede por contrapuesta. Esto es, se supone que existe una sucesión
(un )n∈N definida en A tal que un → v y f(un ) 6→ f(v). Entonces, existe ε > 0 tal que para todo M > 0
existe n ≥ M tal que kf(un ) − f(v)k > ε. Como un → v se puede tomar M > 0 tal que kun − vk < δ
para δ > 0 dado de antemano. Pero esto es precisamente que lı́m f(u) 6= f(v).
u→v
Otra manera de caracterizar a las funciones continuas es aquella que se presenta a continuación.
En la sección pasada se introdujo a las funciones de proyección a los ejes. Se deja de ejercicio al lector
verificar que las proyecciones son continuas (ve (5.4.11)). Asimismo, en el capítulo pasado se dijo una
caracterización para curvas continuas la cual no depende del estilo ε-δ. La misma caracterización para
las funciones de varias variables es válida.

( 5.5.3 ) Sean A ⊂ V y f : A → W . Para que F sea continua en v, un punto de acumulación de A, es condición


necesaria y suficiente que para toda bola abierta B (f(v); ε) ⊂ W exista una bola abierta B (v; δ) ⊂ V tal que
f(B (v; δ) ∩ A) ⊂ B (f(v); ε) .

141
Capítulo 5. La derivada en varias variables.

Se supone primero que f es una función continua en v. Sea ε > 0 entonces existe δ > 0 tal que
u ∈ B (v; δ) ∩ A Ñ f(u) ∈ B (f(v); ε) . Esto muestra la necesidad de la afirmación.
Para ver la suficiencia se empieza suponiendo que f es tal que para toda bola abierta B (f(v); ε) ⊂ W
existe una bola abierta B (v; δ) ⊂ V tal que f(B (v; δ) ∩ A) ⊂ B (f(v); ε) . Entonces, si u ∈ A y u ∈ B (v; δ)
entonces f(u) ∈ B (f(v); ε) , que es la definición de límite.

( 5.5.4 ) Una condición necesaria y suficiente para que una función f : A ⊂ V → W sea continua en el punto v
es que para todo conjunto abierto P ⊂ W para el cual f(v) ∈ P exista un abierto Q tal que f(A ∩ Q) ⊂ P.

Sea P un subconjunto abierto de W tal que f(v) ∈ P. Entonces, existe ε > 0 tal que B (f(v); ε) ⊂ P.
Por el teorema anterior, existe un δ > 0 tal que f(B (v; δ) ∩ A) ⊂ B (f(v); ε) . Tomando B (v; δ) como Q
se obtiene una implicación.
Recíprocamente, se toma P = B (f(v); ε) ; existe un abierto Q tal que v ∈ Q y f(Q ∩ A) ⊂ P; como
v ∈ Q existe δ > 0 con B (v; δ) ⊂ Q. Utilizando el teorema anterior se concluye el resultado.

( 5.5.5 ) Una condición necesaria y suficiente para que una función f : A ⊂ V → W sea continua en v es que
para todo abierto P ⊂ W exista un abierto Q ⊂ V tal que F(V ∩ U) = W .

Es inmediato de (5.5.4) al recordar que la unión de cualquier familia de conjuntos abiertos constituye
un conjunto abierto.

( 5.5.6 ) Sea f : A ⊂ V → W , una condición necesaria y suficiente para que f sea continua es que para todo
C ⊂ W cerrado exista un cerrado K ⊂ V tal que f −1 (C) = A ∩ C.

El punto clave para demostrar esto es ver que f −1 {A = {f −1 (A). Se dejan los detalles al lector, ve

ejercicio (5.34).

z 5.5.1 Continuidad y compacidad.


La continuidad de funciones refleja y conserva importantes condiciones sobre subconjuntos del
dominio. Una de las más importantes es que preserva la compacidad. Esto es, la imagen continua de
cualquier conjunto compacto es un conjunto compacto, ve (3.3.2).

( 5.5.7 ) Sea f : A ⊂ V → W una función continua y K ⊂ A un conjunto compacto de V . Entonces, f(K) es


compacto en W .

La idea es aplicar la [
definición de que f(K) sea compacto. Sea O = (Pα )α∈Γ una cubierta abierta de
f(K). Entonces f(K) ⊂ Pα . Como f es continua, se tiene que para cada α ∈ Γ existe Qα ⊂ V un
α∈Γ
abierto tal que f −1 (Pα ) = Qα ∩ A. Se considera la familia (Qα )α∈Γ , se afirma que esta familia es cubierta
abierta de K. Sea u ∈ K entonces f(u) ∈ Pα para algún α ∈ Γ, pues O cubre f(K). Observa que f(u) ∈ Pα
es equivalente a u ∈ f −1 (Pα ) = Qα ∩ A, por lo que u ∈ Qα . Como K es un conjunto compacto de V
existe una subfamilia finita (Qαi )i=1,...,k tal que cubre a K. Se deducirá que la subfamilia (Pαi )i=1,...,k cubre
a f(K). Sea w ∈ f(K). Entonces existe un u ∈ K tal que f(u) = w. Como u ∈ K, existe i para el que
u ∈ Qαi , pero esto implica que w = f(u) ∈ Pαi . Esto demuestra que f(K) es un conjunto compacto.
Esto provee de un modo relativamente sencillo para determinar cuando un conjunto K ⊂ W es
compacto. Basta ver que K es imagen continua de algún conjunto compacto C ⊂ V , para algún n ∈ N.

z 5.5.2 Continuidad y conexidad.


Así como la continuidad preserva compacidad se tiene que ésta también preserva la conexidad de
los subconjuntos de V , ve (4.8.2). Esto tiene consecuencias importantes; por ejemplo, corolario de este

142
5.5. Continuidad.

resultado es que no existe una trasformación continua del conjunto B (0; 1) al conjunto (−1, 0) ∪ (0, 1).
Otra consecuencia importante es el teorema del valor intermedio. Este dice que si f : V → R es continua,
S ⊂ V es conexo y f(u) < f(v), para algunos u, v ∈ S, entonces para todo f(u) < a < f(v) existe w ∈ S
con f(w) = a.

( 5.5.8 ) Sea f : C ⊂ V → W una función continua. Se supone que C es conexo de V entonces f(C) ⊂ W es
conexo.

La demostración de este resultado es análoga a la de (5.5.7). Se considera A, B una separación


abierta de f(C), ve (4.8.1). Como A y B son conjuntos abiertos de V existen abiertos S, T ⊂ W tales que
f −1 (A) = S ∩ C y f −1 (B) = T ∩ C (5.5.4). Entonces, S, T son conjuntos abiertos tales que C ⊂ S ∪ T. Como
C es conexo, el par S, T no puede ser una separación abierta de él. Por lo tanto, C ∩ S = ∅ o C ∩ T = ∅.
Observa que
C ∩ S = ∅ Ñ f −1 (A) = ∅,
con lo cual f(C) ∩ A = ∅. Esto es contradiría al hecho que f(C) ∩ A 6= ∅, por lo tanto, C ∩ S 6= ∅.
Análogamente, C ∩ T 6= ∅. Lo cual es una contradicción.
A continuación se demuestra la generalización del teorema del valor intermedio.

( 5.5.9 ) Sean f : C ⊂ V → R una función continua y C un conjunto conexo de V . Si f(u) < f(v) para algunos
u, v ∈ C entonces, para todo a tal que f(u) < a < f(v), existe w ∈ C con f(w) = a; el «teorema de Bolzano».

Como f(C) es conexo, se tiene que f(C) = I ⊂ R con I un intervalo (ve (4.8.6)). De este modo,
f(u), f(v) ∈ I y como f(u) < f(v), [f(u), f(v)] ⊂ I. Pero I = f(C), por lo que para todo a ∈ (f(u), f(v))
existe w ∈ C tal que f(w) = a.

( 5.5.10 ) Toda función polinomial de grado impar de n variables tiene al menos una raíz. Esto es, dado p : Rn →
R una función polinomial tal que su grado es impar existe X ∈ Rn tal que p(X) = 0.
k
X
Se supone que p(x1 , . . . , xn ) = ai1 ...in x1i1 · · · xnin . Toma
i1 +···+in =0

j = máx{ir : ir es impar e i1 + · · · + in = k},

este índice existe, pues de lo contrario todos los terminos i1 , . . . , in serían pares,
Pde lo que ksería par y
el polinomio sería de grado par. Toma f : R → R la función dada por f(x) = p i6=j ei + xej . Entonces
f es de grado impar. De este modo, existe r ∈ R tal que f(r) = 0. En efecto, al ser f de grado impar,
se tiene que lı́m f(x) = −∞, por lo que existe x ∈ R tal que f(x) < 0. Análogamente, lı́m f(x) = ∞ y
x→−∞ x→∞
existe y ∈ R tal que f(y) > 0. De estas dos desigualdades se concluye la existencia de este número r.
Pero (r, 1, . . . , 1) es raíz de p.

z 5.5.3 Continuidad y continuidad uniforme. El teorema de Heine-Cantor.


Uno de los conceptos más importantes en el análisis matemático es el de continuidad uniforme.
La continuidad uniforme permite demostrar que toda función continua es integrable si su dominio de
definición es un compacto. Este resultado será demostrado más adelante, una vez iniciado el estudio de
la integral en Rn . La definición de continuidad uniforme en Rn es análoga a la del caso real.

( 5.5.11 ) Sea f : A ⊂ V → W . Se dirá que f es uniformemente continua en si

(∀ε > 0)(∃δ > 0) tal que u, v ∈ A, ku − vk < δ Ñ kf(u) − f(v)k < ε.

143
Capítulo 5. La derivada en varias variables.

Nota que δ depende únicamente de ε, f y A; el punto x no influye en su elección. Se hace tanto


énfasis en esto que continúa un ejemplo al respecto.

( 5.5.12 ) Determine si la función f : [1, ∞) × [1, ∞) → R dada por f(x, y) = x + y es uniformemente continua
o no.

Lo más sencillo es ver si individualmente son uniformemente continuas las funciones g(x) = x
y h(y) = y. Sean ε > 0 y δ = ε. Entonces |u − v| < δ Ñ |h(u) − h(v)| < ε. Esto demuestra que h es
uniformemente continua. Se ve ahora que g(x) también es uniformemente continua. Para este ε y este
δ se tiene que si
|u − v| < δ Ñ |g(u) − g(v)| < ε
pues √
u − √v √u + √v

|g(u) − g(v)| = √u + √v ≤ |u − v| < ε.

Por lo tanto, g también es uniformemente continua.


Ahora bien, para demostrar que f es uniformemente continua se debe ver que satisface la definición.
Toma ε > 0 entonces existe δ1 > 0 y δ2 > 0 tales que
√ √ ε
|u − v| < δ1 Ñ u − v <
2
y
ε
|u − v| < δ2 Ñ |u − v| <.
2
Toma δ = mı́n{δ1 , δ2 }, entionces k(x, y) − (u, v)k < δ Ñ |x − u| < δ y |y − v| < δ. De este modo, se
tiene que √ √ √ √
|f(x, y) − f(u, v)| = x − u + y − v ≤ x − u + |y − v| < ε.
Por lo tanto, f es una función uniformemente continua.
El siguiente teorema es análogo al teorema (5.4.6).

( 5.5.13 ) Sea F = (f1 , . . . , fm ) : A ⊂ V → W = W1 × . . . × Wm . Una condición necesaria y suficietne para que


F sea una función uniformemente continua es que, para cada i = 1, . . . , m, fi sea uniformemente continua.

El siguiente teorema debería ser nuevo para el lector; dice que la continuidad y continuidad uniforme
son equivalentes en funciones cuyo dominio un conjunto compacto.

( 5.5.14 ) Sea K ⊂ V un conjunto compacto y f : K → W continua. Entonces, F es una función uniformemente


continua; el «teorema de Heine-Cantor».

Dado ε > 0 se quiere encontrar un δ > 0 tal que

u, v ∈ K, ku − vk < δ Ñ kf(u) − f(v)k < ε.

Como f es continua en K para cada u en K existe δu tal que


 ε
v ∈ B (u; δu ) Ñ f(v) ∈ B f(u); .
2
Å Å ãã
δu
Sea O = B u; , por construcción O es cubierta abierta de K. De este modo, como K es
2 u∈K Å Å ãã
δu i
compacto, existen u1 , . . . , uN ∈ K tales que B ui ; es cubierta abierta de K. Sea δ =
2 i=1,...,N

144
5.6. La derivada.

1
mı́n δu . Se afirma que este δ satisface la definición de continuidad uniforme. Sean u, v ∈ K tales
2 i=1...,N i
que kuÅ − vk < ã δ. Entonces, existe algún i para el cual u, v ∈ B (ui ; δui ) . En efecto, existe i tal que
δu i
u ∈ B ui ; entonces
2

δui
kv − ui k ≤ ku − vk + ku − ui k ≤ δ + < δui .
2
Por lo que u, v ∈ B (ui ; δui ) . Como u, v ∈ B (ui ; δui ) se tiene que

kf(u) − f(v)k ≤ kf(u) − f(ui )k + kf(v) − f(ui )k < ε.

Es decir, ha sido demostrado que F es uniformemente continua.


Es destacable la manera mañosa en que las bolas fueron escogidas para que al final quedara ε.

§ 5.6. La derivada.
Nuestro siguiente paso para definir la derivada de una función de varias variables será dar una
motivación del cómo habría que definirse la derivada.

z 5.6.1 Motivación para la definición.


La definición de derivada de una función f de I ⊂ R, intervalo abierto, en R es la siguiente:

La función f : I → R, en donde I es un intervalo abierto, es derivable (o diferenciable) en a ∈ I si


f(x) − f(a)
lı́m existe y por definición, este número es el valor de la derivada f en a.
x→a x−a
Esta definición puede ser escrita de manera natural para una curva. De hecho, la definición en este
caso solo cambia en contradominio R por Rn . En ambos casos la idea era preservar la razón entre
el cambio que ejerce la función a los puntos y el cambio que ocurre entre los puntos. Sin embargo,
cuando el dominio de la función es un subconjunto de Rn ya no es claro como medir el cambio.
Una manera de hacerlo sería tomando la norma, pues la norma mide la magnitud del cambio, más
no la dirección de este. Sin embargo, lo que se le pide a la derivada en una función de R a R es que
represente a la pendiente de la recta tangente que pasa por el punto. Esto es, se quiere que la derivada
no sólo represente un número como la magnitud.
Cuando se definió la derivada para curvas esta definición cuidaba este aspecto y se procuraba que la
derivada diera la dirección del vector tangente a la curva. En otras palabras, la derivada de una curva
dice cómo se comporta la curva en “lo pequeño”. Así que, lo que se le pide a la derivada es que brinde
información de la función sobre su comportamiento en “lo pequeño”. Para definir la derivada de una
curva era posible considerar cualquier subconjunto de R pues existe la noción de “hacia adelante” y
“hacia atrás”; en Rn no existe tal cosa y como se quiere medir el cambio en todas las direcciones será
necesario pedir que para que una función F : A ⊂ V → W sea diferenciable en un punto v ∈ V entonces
˚
que v ∈ A.
Û
Para extender la definición se hará algunas manipulaciones sencillas a la definición de R, de tal
forma que las expresiones encontradas equivalgan a la definición clásica y dejen de depender de la
dimensión del dominio. Considera f : I ⊂ R → Rm derivable en a ∈ I, se tiene que

f(a + h) − f(a)
lı́m = f 0 (a),
h→0 h

145
Capítulo 5. La derivada en varias variables.

Se quita el límite en la igualdad anterior, queda que

f(a + h) − f(a)
= f 0 (a) + ε(a; h),
h
en donde lı́m ε(a; h) = 0. Por lo que, al multiplicar la igualdad anterior por h, se tiene
h→0

f(a + h) − f(a) = f 0 (a)h + ε(a; h)h,

y, por tanto,
f(a + h) = f(a) + f 0 (a)h + ε(a; h)h.
La igualdad anterior realmente no depende en que h sea un número y puede generalizarse de distintas
maneras. Se considera la siguiente, ten en cuenta que aquí h se piensa como un vector en todo momento
(por lo que no se puede dividir por él). Se define Ta tal que Ta (h) = f 0 (a)h entonces T es lineal. La
igualdad anterior toma la forma

f(a + h) = f(a) + Ta h + ε(a; h)h.

Por lo tanto, una generalización posible (y directa de la definición del caso R a R) es decir que f es
diferenciable en a si existe una transformación lineal Ta y una función de error ε(a) tal que para todo
h pequeño se satisfaga la igualdad previa. Esta definición posee una dificultad natural, ¿qué significa la
multiplicación ε(a; h)h? Aquí es donde entra fuertemente el uso de espacios vectoriales. Observa que
para h fijo, la función k 7Ï ε(a; h)k es una función lineal. Por lo tanto, se puede pensar que ε(a; h)
es una función lineal y que la asignación h 7Ï ε(a; h) posee por dominio un subconjunto de R y por
contradominio a Lin (R, R) , donde Lin (R, R) es el espacio vectorial de las transformaciones lineales de
R a R. De este modo, la multiplicación ε(a; h)h cobra sentido.
Existen otras generalizaciones, las cuales se dan únicamente con el propósito de evitar que ε(a) sea
una función de R a Lin (R, R) . Por ejemplo, algunos autores proponen hacer
h
ε(a; h)h = ε(a; h) |h| = ε̃(a; h)|h|.
|h|

Aquí se sigue cumpliendo que lı́m ε̃(a; h) = 0 mas ahora ε̃(a) es una función de R a R (recuerda que |h|
h→0
es un número y no un vector). La última forma que se considera es generalizar la igualdad al considerar
Ta como antes y despejar ε(a; h). Se llega a

f(a + h) − f(a) − Ta h
= ε(a; h),
h
tomar normas ahora no afecta a la derivada Ta . Por lo que después de tomar normas y el límite cuando
h → 0 se ve que
|f(a + h) − f(a) − Ta h|
lı́m = 0.
h→0 |h|
Cualquiera de estas tres generalizaciones ya no dependen de que h ∈ R, por lo que se puede tomar
cualquiera de ellas como definición de derivada. La pregunta que surge ahora es, ¿cuál es la mejor
opción?

z 5.6.2 Definición de derivada.


Se han visto tres formas de cómo definir generalizar la derivada en Rn . Conviene analizar un
ejemplo para ver cuál de ellas es la mejor opción.

146
5.6. La derivada.

( 5.6.1 ) Sea F : R2 → R2 dada por F(x, y) = (xy, x + y 2 ). Encuentra trasformaciones lineales T, R y S de R2


en R2 tales que en A = (1, 0) y para todo H pequeño se cumpla que

F(A + H) − F(A) = TA + ε1 (A; H)H; F(A + H) − F(A) = SA + ε2 (A; H) kHk

y
kF(A + H) − F(A) − RAk
= ε3 (A; H),
kHk
en donde cada εi (A; H) converja a cero cuando H → 0.

Sea H = (h1 , h2 ). Entonces

F(A + H) = F(1 + h1 , h2 ) = (h2 + h1 h2 , 1 + h1 + h22 )


= (0, 1) + (h2 + h1 h2 , h1 + h22 ) = (0, 1) + (h2 , h1 ) + (h1 h2 , h22 )
= F(1, 0) + TH + (h1 h2 , h22 ),

en donde T(h1 , h2 ) = (h2 , h1 ), es lineal. Se puede tomar T = R = S y manipular el término (h1 h2 , h22 ).
Sean Ñ é
h1 h2 h22
ε1 (A; h1 , h2 ) = (h2 , h2 ), ε2 (A; h1 , h2 ) = » ,»
h12 + h22 h12 + h22
y
(h1 h2 , h2 )
2
ε3 (A; h1 , h2 ) = = |h2 |.
k(h1 , h2 )k
Resulta inmediato que ε1 (A; H) y ε3 (A; H) convergen a cero cuando H converge a cero. Se ve que lo
mismo sucede con ε2 (A; H). Pero,

(h h , h2 ) (h , h ) H
lı́m »1 2 2 = lı́m » 1 2 h2 = lı́m h2 .
(h1 ,h2 )→(0,0) 2 2 (h ,h )→(0,0) 2 2 H→0 kHk
h1 + h2 1 2 h1 + h2

Ahora bien, para poder calcular este límite habrá que notar algo. Se sabe que la función kk es continua,
por lo que
lı́m H h2 = lı́m H h2 = lı́m kHk |h2 | = 0.

H→0 kHk H→0 kHk H→0 kHk

Con lo cual, ε1 (A; H) converge a cero cuando H converge a cero. Luego, T = R = S dadas por
T(h1 , h2 ) = (h2 , h1 ) satisfacen las posibles definiciones respectivas de derivada.
Este ejemplo sugiere pensar que si se define que una función sea diferenciable de alguna de estas
maneras también lo será con las otras dos y con la misma derivada. Dado que en la motivación para
derivada se imponía la existencia de cierta función ε(v) : V → Lin (V , W ) parece obligado definir una
norma natural9 en Lin (V , W ) . Entonces, se supone que (V , kkV ) y (W , kkW ) son dos espacios vectoriales
normados. ¿Qué norma suge naturalmente con estas dos normas? Una primera idea sería:

1. Dar bases sendas bases BV y BW de V y W .

2. Considerar el espacio de matrices asociado, el cual sí posee una base canónica.

3. Dar la norma canónica a tal espacio de matrices.


9 Para fines de límite, ya se sabe que esto es vago. Cualesquier dos normas generan la misma topología y por ende generan

los mismos límites.

147
Capítulo 5. La derivada en varias variables.

4. Definir la norma de un elemento L ∈ Lin (V , W ) como [L]BBW


V
.
Este método ciertamente funciona, ¡pero no utiliza a las normas kkV y kkW ! Esto resulta incómodo.
La siguiente norma fue propuesta y resulta natural desde la perspectiva de conservar a las normas
originiales en V y W .
( 5.6.2 ) Sean (V , kkV ) y (W , kkW ) dos espacios vectoriales normados de dimensión finita. Sea L ∈ Lin (V , W ) .
Existe una constante c > 0 tal que kLvkW ≤ c kvkV para cualquier v ∈ V . De hecho,
kLkLin(V ,W ) = ı́nf{c > 0|∀v ∈ V , kLvkW ≤ c kvkV }
define una norma en Lin (V , W ) .
Para demostrar la existencia de tal c se verá primeramente que L es continua. De nuevo, basta
ver que L es continua para algunas normas en V y W . Sean BV = (v1 , . . . , vn ) y BW = (w1 , . . . , wm )
sendas bases ordenadas en V y W . Define las funciones de coordenadas [ ]BV y [ ]BW con sendas normas
asociadas kk0V y kk0W (ve (3.6.6)). Considera la transformación lineal de Rn a Rm dada por TX = [L]BBW V
X.
ε
En virtud de (1.27) existe una c > 0 tal que kTXk ≤ c kXk . Sea ε > 0 y define δ = . Entonces,
c

0 0 BW 0
kvkV < δ Ñ kLvkW = k[Lv]BW k = [L]BV [v]BV ≤ c k[v]BV k = c kvkV < ε,

por lo tanto, L es continua en el origen. En virtud del ejercicio (5.26), L es continua en V (recuerda que
esto es independiente de la norma). Por lo tanto, kLkW : V → [0, ∞) es una función continua. Así, como
S (0; 1) = {v ∈ V | kvkV = 1} es compacto en V (ve la generalización del teorema de Borel-Lebesgue),
kLkW está acotada superiormente ahí (ve (3.4.11) y (5.5.7)). Sea c una cota superior. Entonces, para v ∈ V
v
cualquiera, se cumple que si v = 0 entonces kLvkW = 0 ≤ c kvkV y si v 6= 0 entonces ∈ S (0; 1) y
kvk V
v
L kvk ≤ c, despejando, se obtiene que kLvkW ≤ c kvkV . Esto completa la primera parte de la
así
V W
prueba.
Ahora se debe demostrar que kkLin(V ,W ) define una norma en Lin (V , W ) . Ciertamente, es claro que
kλLkLin(V ,W ) = |λ| kLkLin(V ,W ) y que kLkLin(V ,W ) ≥ 0. Ahora, si kLkLin(V ,W ) = 0 entonces kLvkW = 0 para
todo v ∈ V ; esto es, L = 0. Resta ver la desigualdad triangular, la cual es bastante más trabajosa. Para
empezar, supón que L1 , L2 ∈ Lin (V , W ) y que c1 , c2 > 0 son tales que kLi vkW ≤ ci kvkV para i = 1, 2.
En virtud de la desigualdad triangular para kkW se cumple que
k(L1 + L2 )vkW ≤ kL1 vkW + kL2 vkW ≤ c1 kvkV + c2 kvkV = (c1 + c2 ) kvkV .
Esto es válido para cualquier c1 > 0 tal que kL1 vkW ≤ c1 kvkV . Se toma el ínfimo sobre tales c1 , se
puede concluir que
Ä ä
k(L1 + L2 )vkW ≤ ı́nf (c1 + c2 ) kvkV = kL1 kLin(V ,W ) + c2 kvkV ,
c1

donde la última igualdad es consecuencia de que c2 es constante. Nota ahora que kL1 kLin(V ,W ) es una
constante, por lo que se puede considerar el ínfimo sobre c2 para concluir que
Ä ä
k(L1 + L2 )vkW ≤ kL1 kLin(V ,W ) + kL2 kLin(V ,W ) kvkV .
Luego, kL1 kLin(V ,W ) + kL2 kLin(V ,W ) es un elemento del conjunto {c > 0|∀v ∈ V , k(L1 + L2 )vkW ≤ c kV kV }.
Finalmente, de la definición de kL1 + L2 kLin(V ,W ) se puede concluir que
kL1 + L2 kLin(V ,V ) ≤ kL1 kLin(V ,W ) + kL2 kLin(V ,W ) ,
que es la desigualdad triangular. Esto concluye el teorema.
( 5.6.3 ) Sean (V , kkV ) y (W , kkW ) dos espacios vectoriales normados de dimensión finita. Se define la norma
generada por kkV y kkW en el espacio vectorial Lin (V , W ) como la norma definida en (5.6.2).

148
5.6. La derivada.

Observación: cuando sea claro por el contexto, se omitirán los subíndices en kkV , kkW y kkLin(V ,W ) y
siempre se denotarán por kk . Asimismo, el teorema anterior posee como consecuencia inmediata que
kLvkW ≤ kLkLin(V ,W ) kvkV . Esto se utilizará más adelante.
( 5.6.4 ) Sean (V , kkV ) y (W , kkW ) dos espacios vectoriales normados. Los siguientes enunciados son equivalentes
˚
para una función f : A ⊂ V → W , en donde A es un conjunto arbitrario. Sea v ∈ A. Û

1. Existe una trasformación lineal T : V → W tal que


kf(v + h) − f(v) − ThkW
lı́m = 0.
h→0 khkV

2. Existe r > 0, una trasformación lineal T : V → W y una función ε(v) : B (0; r) → Lin (V , W ) , donde
Lin (V , W ) es el espacio vectorial de las funciones lineales de V a W , tal que para todo h ∈ B (0; r) se
tiene que
f(v + h) = f(v) + Th + ε(v; h)h,
y lı́m ε(v; h) = 0.
h→0

3. Existe un r > 0, una trasformación lineal T : V → W y una función ε̃(v) : V → W tal que para h ∈ B (0; r)
se cumple
f(v + h) = f(v) + Th + khkV ε̃(v; h),
donde lı́m ε̃(v; h) = 0.
h→0

Más aún, en cada caso se puede tomar T como la misma trasformación lineal.
Se demostrará que 1) Ñ 2) Ñ 3) Ñ 1) para el caso V = Rn y W = Rm . Los casos no demostrados
quedarán de ejercicio para el lector, ve (5.54) y (5.55).
Para demostrar que 1) Ñ 2), se hace la suposición de que el teorema es válido para m = 1 (ejercicio
(5.54)) y se verá que también se satisface para m > 1. Se supone que existe una trasformación lineal
T : Rn → Rm tal que
kf(v + h) − f(v) − Thk
lı́m = 0.
h→0 khk
Se quita el límite de la expresión anterior; existe r > 0 tal que B (v; r) ⊂ A. Se define g : B (0; r) → R
dada por
kf(v + h) − f(v) − Thk
g(h) = .
khk
Se observa que lı́m g(h) = 0. Si pri denota la función de proyección canónica al i-ésimo eje coordenado
h→0

k(pri ◦ f)(v + h) − (pri ◦ f)(v) − (pri ◦ T)hk


≤ g(h).
khk
Por lo que la función pri ◦ f = fi : A → R satisface 1) para la trasformación lineal pri ◦ T = T i . Se sigue
que, al ser válido el teorema para m = 1, existe una función εi (v) : B (0; r) → Lin (Rn , R) tal que
fi (v + h) = fi (v) + T i h + εi (v; h)h
Se considera ahora lo siguiente,
Ö è Ö è Ö 1 è Ö è
f1 (v + h) f1 (v) T h ε1 (v; h)h
.. = .. + .. + .. .
. . . .
fm (v + h) fm (v) Tmh εm (v; h)h

149
Capítulo 5. La derivada en varias variables.

Ö è
ε1 (v; h)
Se define la función h 7Ï ε(v; h) = .. . Entonces, ε(v) : B (0; r) → Lin (Rn , Rm ) . Se cumple
.
εm (v; h)
que
f(v + h) = f(v) + Th + ε(v; h)h.

Como cada εi (v) satisface que lı́m εi (v; h) = 0 se tiene que lı́m ε(v; h) = 0. Esto demuestra que 1) Ñ 2)
h→0 h→0
(cuando m > 1 y el teorema es válido para m = 1).
A continuación se demostrará que 2) Ñ 3). Se supone que f satisface 2); esto es existe r > 0 y una
trasformación lineal T : Rn → Rm tal que para todo v + h ∈ B (v; r) se tiene que

f(v + h) = f(v) + Th + ε(v; h)h,

donde, ε(v) : B (0; r) → Lin (Rn , Rm ) es una función tal que lı́m ε(v; h) = 0. Solo se debe construir la
h→0
función ε̃(v) de 3). Observa lo siguiente,

h
ε̃(v)(h)h = ε(v; h) khk .
khk

h
Por lo que se define ε̃(v; h) = ε(v; h) para h ∈ B (0; r) . Solo resta ver que lı́m ε̃(v; h) = 0. De acuerdo
khk h→0
con (5.6.2) se tiene que kε(v; h)hk ≤ kε(v; h)kLin(Rn ,Rm ) khk . Asimismo, se recuerda que kk es una función
continua de Rn a R, por lo que

lı́m ε̃(v; h) = lı́m kε̃(v; h)k = lı́m ε(v; h) h ≤ lı́m kε(v; h)k = 0.

h→0 h→0 h→0 khk h→0

Esto demuestra que lı́m ε̃(v; h) = 0. Por lo tanto, 2) Ñ 3).


h→0
Ahora se demuestra que 3) Ñ 1), se supone que f satisface 3). Esto es, existe una trasformación
lineal T : Rn → Rm y una función ε(v) : Rn → Rm tal que para H ∈ B (0; r) se cumple

f(v + h) = f(v) + Th + khk ε̃(v; h),

donde lı́m ε̃(v; h) = 0. Así que, despejando ε̃(v; h), se obtiene que
h→0

f(v + h) − f(v) − Th
= ε̃(v; h).
khk

Tomando normas y el límite cuando H → 0 se obtiene 1) (observa que se ha usado que la función
norma es continua). Por lo tanto, 3) Ñ 1).

˚
( 5.6.5 ) Sean f : A ⊂ V → W con A un conjunto arbitrario y v ∈ A. Û Si existen r > 0, T : V → W una
trasformación lineal y ε(v) : B (0; r) → Lin (V , W ) tales que para todo h ∈ B (0; r)

f(v + h) = f(v) + Th + ε(v; h)h,

entonces se dirá que T es una derivada de f en v. Se dirá que f es diferenciable en A si A es abierto y para todo
v ∈ A, se tiene que F posee una derivada en v.

150
5.6. La derivada.

Observaciones:

1. Definiciones como esta son típicas en matemáticas, las cuales definen cierto objeto sobre la supo-
sición de existencia pura sin mención explícita de cómo conseguirlos. Sobre esta definición, uno
debe tener cuidado pues en principio podría suceder que ninguna función fuese deferenciable
(sin embargo, nota que (5.6.1) muestra que existe una función diferenciable).

2. El siguiente capítulo lidia con el problema de cómo encontrar la derivada. En lo que resta de
este se lidia con el problema de qué funciones son derivables y qué operaciones preservan la
diferenciabilidad.

3. Aunque esta definición no parece nada parecida a la dada para funciones de R en Rn sí es una
generalización. Pues se vió que la derivada de una curva f satisface que

f(t + h) − f(t) − f 0 (t)h


lı́m = 0,
h→0 h

lo cual indica que la transforación lineal h 7Ï f 0 (t)h es la derivada que se acaba de definir.

4. Aunque los límites son independientes de la norma podría haber cabida a duda de que si se
cambian las normas en V y W entonces la derivada cambiaría. Esto no ocurre; la definición (5.6.5)
es independiente de la norma que se utiliza. Pues si kk1 es cualquier otra norma en V , y kk2 es
cualquier otra norma en W , en virtud de (3.6.7) existen constantes a, b, c y d positivas tales que

a kkV ≤ kk1 ≤ b kkV y c kkW ≤ kk2 ≤ d kkW .

Entonces
kf(v + h) − f(v) − Thk2 d kf(v + h) − f(v) − ThkW
≤ ,
khk1 a khkV
con tomar límite se ve que f tiene la misma derivada T en v respecto de las normas kk1 y kk2 .

En (5.6.1) se presenta cómo calcular la derivadade una función del tipo polinomial. A continuación
se presentan otros ejemplos donde se utiliza una idea general.

( 5.6.6 ) ¿Es la función (x, y) 7Ï sin x + cos y diferenciable en (π, 0)? Si sí, encuentra una derivada.

Al igual que en (5.6.1) se debe proceder a calcular el incremento sin(π + h) + cos(0 + k). Aunque
parece tentador intentar utilizar las fórmulas de seno y cosena de la suma de ángulos, es más rápido
razonar y utilizar lo ya aprendido. Observa que sin y cos son funciones diferenciables de R a R. Por
ende, se puede escribir sin(π + h) = sin π + h sin0 π + e1 (h)h = h cos π + e1 (h)h = −h + e1 (h)h y
cos k = cos 0 + k cos0 0 + e2 (k)k = 1 − k sin 0 + e2 (k)k = 1 + e2 (k)k, donde e1 (h) → 0 cuando h → 0 y
e2 (k) → 0 cuando k → 0. Entonces,

sin(π + h) + cos k = 1 − h + e1 (h)h + e2 (k)k.

Si f(x, y) = sin x + cos y entonces la igualdad previa toma la forma f(π + h, k) = f(π, 0) + T(h, k) +
hε(h, k), (h, k)i , donde T(h, k) = −h es lineal y ε(h, k) = (e1 (h), e2 (k)) tiende a cero cuando (h, k) → 0.
En virtud de (5.6.5) se obtiene que T es una derivada de f en el punto (π, 0).

( 5.6.7 ) Considera la función F definida por F(x, y) = (cos x + y, xy 2 ) y el punto P = (0, 1). ¿Puedes encontrar
una función lineal T : R2 → R2 tal que satisfaga alguna de las generalizaciones previas de derivada? Si sí, ¿cuál?

151
Capítulo 5. La derivada en varias variables.

Para poder responder la primera pregunta se realizarán algunos cálculo. Para empezar se considera
un “incremento” H = (h, k) ∈ R2 . Entonces
F(P + H) − F(P) = (cos h + 1 + k, h(1 + k)2 ) − (2, 0) = (cos h − 1 + k, h + 2hk + hk2 ).
Para manipular el término cos h − 1 se observa que la función cos es diferenciable en el cero y que su
derivada en el cero es − sin 0 = 0, por lo que existe una función de error e tal que
cos h = cos 0 + 0 × h + e(h)h = 1 + e(h)h,
donde lı́m e(h) = 0. Entonces,
h→0

F(P + H) − F(P) = (e(h)h + k, h + 2hk + hk2 ).


Para escribir esto en la forma TH +ε(H)H, con T lineal que solo dependa de F y P, y que ε(H) converja
a cero cuando H lo haga, se observa que
(e(h)h + k, h + 2hk + hk2 ) = (k, h) + (e(h)h, 2hk + hk2 ).
Se propone entonces T : R2 → R2 dada por
ï ò ï ò
0 1 e(h) 0
T= y ε(H) = .
1 0 2k hk
Un cálculo mental muestra que (aquí todo se escribe como vectores columna)
F(P + H) − F(P) = TH + ε(H)H.
Como cada entrada de E(H) converge a cero cuando H converge a cero se ve que lı́m E(H) = 0. Por
H→0
lo tanto, se puede afirmar que existe una T que satisface la generalización de derivada y por lo tanto,
T es una derivada de F en P

z 5.6.3 Completez de los espacios vectoriales normados.


Conviene dar una más observación más que se obtiene (3.6.6). Para empezar, un espacio vectorial se
denomina completo si satisface que toda sucesión de Cauchy converge. En virtud de (2.3.14) se obtiene
que Rn es un espacio vectorial completo. Más generalmente, todo espacio normado de dimensión
finita es completo. Para verificarlo se considera V un espacio vectorial normado de dimensión finita y
B = (v1 , . . . , vn ) una base ordenada de V . La función de coordenadas [ ]B define un isomorfimo entre
espacios normados (con alguna norma para Rn ). Ahora se considera (vn )n∈N una sucesión de Cauchy
en V . Entonces, ([vn ]B )n∈N es una sucesión de Cauchy respecto a la norma asociada a [ ]B . Se puede
verificar (lo cual queda a cargo del lector) que esta sucesión también es de Cauchy respecto a la norma
estándar de Rn . Por lo que (2.3.14) muestra que existe un X ∈ Rn tal que [vn ]B → X. Como los límites
son independientes de las normas, la sucesión ([vn ]B )n∈N converge a v respecto de la norma de [ ]B .
Entonces, hay un único v ∈ V tal que [v]B = X. Se verifica entonces que vn → v y así, V es completo.

§ 5.7. Teoría de derivación.


En esta sección se desarrollan los teoremas más importantes respecto a la derivada. Asimismo, se
establecerá una fórmula general para obtener la derivada de una composición de funciones. Muchos
de los teoremas presentados a continuación son generalizaciones directas de los teoremas de R. Por
ejemplo, un conocido teorema de R afirma que una función que es diferenciable en un punto ha de ser
continua en éste punto. Este teorema tiene una generalización idéntica al caso n dimensional.

152
5.7. Teoría de derivación.

z 5.7.1 Unicidad.
Primero se demostrará que la derivada, así como ha sido definida, es única. Esto en el sentido que
si T y S son dos transformaciones lineales tales que para H ∈ B (0; r) ,

f(v + h) = f(v) + Th + ε1 (v; h)h y f(v + h) = f(v) + Sh + ε2 (v; h)h,

T = S en V , donde Dom (f) ⊂ V .


˚
( 5.7.1 ) Sea f : A ⊂ V → W tal que f es diferenciable en v ∈ A.
Û Se supone que T y S son dos transformaciones
lineales tales que ambas satisfacen la definición de derivada (5.6.5). Entonces, para todo h ∈ v se tiene que
Th = Sh.
Dado que S y T satisfacen ambas la definición de ser derivada de f en v, existen rT > 0, rS > 0 y
funciones
ε1 (v) : B (0; rT ) → Lin (V , W ) y ε2 (v) : B (0; rS ) → Lin (V , W )
tales que
h ∈ B (0; rT ) Ñ f(v + h) = f(v) + Th + ε1 (v; h)h,
h ∈ B (0; rS ) Ñ f(v + h) = f(v) + Sh + ε2 (v; h)h,
y lı́m ε1 (v; h) = 0, lı́m ε2 (v; h) = 0. Se pone r = mı́n{rT , rS }, para h ∈ B (0; r) , se tiene, tras restar que
h→0 h→0

(T − S)h = (ε1 (v; h) − ε2 (v; h))h.

Sea Lu = {tu ∈ V : t ∈ R} la recta que pasa por el origen en dirección del vector unitario u ∈ V . Se
considera 0 < t < r entonces tu ∈ B (0; r) y tu 6= 0. Por lo que,

(T − S)(tu) = (ε1 (v; tu) − ε2 (v; tu))(tu).

Dividiendo por t, se obtiene que

(T − S)u = (ε1 (v; tu) − ε2 (v; tu))u.

El lado izquierdo es independiente de t mientras que el derecho no lo es. Tomando el límite cuando t
tiende a cero, el lado derecho va a cero, por lo que el izquierdo siempre es cero. Por lo tanto Tu = Su
para todo vector unitario u ∈ V . Si h ∈ V no es unitario surgen dos casos, primero que h = 0 pero
h
entonces T0 = S0 (por ser lineales); en el caso en que h 6= 0, se tiene que u = es unitario, de este
khk
modo, Tu = Su, así que multiplicando por khk y usando que tanto T como S son lineales, se obtiene
que Th = Sh.

Observación: dada esta unicidad, uno escribe T = Df (v) para designar a la derivada de v en el punto
v.

z 5.7.2 Diferenciabilidad implica continuidad.


˚
( 5.7.2 ) Sea f : A ⊂ V → W , con A cualquiera y f diferenciable en v ∈ A.
Û Entonces, f es continua en v.
Como f es diferenciable en v existe r > 0 y ε(v) : B (0; r) → Lin (V , W ) tal que para todo h ∈ B (0; r)
se tiene que
f(v + h) = f(v) + Df (v) h + ε(v; h)h.
Por lo que, al tomar límite cuando h → 0, se ve que lı́m f(v + h) = f(v). Esto es, f es continua en v.
h→0

153
Capítulo 5. La derivada en varias variables.

z 5.7.3 La regla de la cadena.


De acuerdo con la definición (5.6.5) y (5.7.1) se tiene que la derivada de f en v es la única trasforma-
ción lineal que aproxima a f(v) en los alrededores de v. Entonces, cuando uno estudia la composición
de funciones diferenciables en natural pensar que la única trasformación lineal que aproxima a la
composición en el punto es la composición de las derivas.

( 5.7.3 ) Sean f : A ⊂ U → V y g : B ⊂ V → W tales que f es diferenciable en u, punto interior de A y g es


diferenciable en v = f(u), punto interior de B. Entonces, g ◦ f es diferenciable en v y, además,

D(g ◦ f) (v) = Dg (f(u)) Df (u) .

Esto se conoce como la «regla de la cadena».



Dado que f es diferenciable
 en u se puede encontrar rf > 0 y εf (u) : B 0; rf → Lin (U, V ) tal que
para todo h ∈ B 0; rf ⊂ U se tiene que

f(v + h) = f(v) + Df (v) h + εf (u; h)h,



donde lı́m εf (u; h) = 0. Análogamente, para g en v existe rg > 0 y εg : B 0; rg → Lin (V , W ) las cuales
h→0 
satisfacen que lı́m εg (v; k) = 0 y tal que para todo k ∈ B 0; rg se tiene que
k→0

g(v + k) = g(v) + Dg (v) k + εg (v; k)k.

Observa lo siguiente,

kDf (u) h + εf (u; h)hk = k[Df (u) + εf (u; h)]hk ≤ kDf (v) + εf (u; h)k khk
≤ (kDf (u)k + kεf (u; h)k) khk
≤ (kDf (v)k + 1) khk ,

en donde la última desigualdad es válida por lo siguiente: como lı́m kεf (u; h)k = 0 se tiene que existe
h→0
δ > 0 tal que si h ∈ B (0; δ) entonces kεf (u; h)k ≤ 1. Define
ß ™
rg
r = mı́n , δ, rf ,
kDg (v)k + 1

entonces Df (v) h + εf (u; h)h ∈ B 0; rg siempre que khk < r. Por lo que, para h ∈ B (0; r) se tiene que

(g ◦ f)(v + h) = g(f(v + h)) = g(v + Df (v) h + εf (u; h)h)


= g(v) + Dg (v) (Df (u) h + εf (u; h)h) + εg (v; Df (u) h + εf (u; h)h)(Df (u) h + εf (u; h)h)
= g(v) + Dg (v) Df (u) h + Λ(h)h,

donde Λ está definida por Λ : B (0; r) → Lin (U, W ) dada por

Λ(h) = Dg (v) εf (u; h) + εg (v; Df (u) h + εf (u; h)h)(Df (u) + εf (u; h)).

Basta ver que lı́m Λ(h) = 0 para demostrar que Dg (v) Df (u) es la derivada de g ◦ f en v. Observa
h→0
que lı́m εf (u; h) = 0 y que lı́m (Df (u) h + εf (u; h)h) = 0, por lo que lı́m εg (Df (u) h + εf (v; h)h) = 0. Esto
h→0 h→0 h→0
concluye la demostración de la regla de la cadena.

154
5.7. Teoría de derivación.

z 5.7.4 Diferenciabilidad de las funciones componentes.


El siguiente teorema es análogo a (5.4.6). Dice que para que una función sea diferenciable en P es
necesario y suficiente que todas sus funciones coordenadas lo sean.
( 5.7.4 ) Sea F = (f1 , . . . , fm ) : A ⊂ V → W = W1 × . . . × Wm . Se considera v un punto interior de A. Para
que F sea diferenciable en v es necesario y suficiente que cada fi sea diferenciable en v.
Observa que F es diferenciable en v si y solo si existe r > 0 y ε : B (0; r) → Lin (V , W ) tal que
lı́m ε(h) = 0 y tal que para todo h ∈ B (0; r) se tiene que
h→0

F(v + h) = F(v) + DF (v) h + ε(h)h.

Reescribiendo esta última expresión en columnas, se ve que


Ö è Ö è Ö è Ö è
f1 (v + h) f1 (v) pr1 (DF (P)) pr1 (ε(h))
.. = .. + .. h+ .. h.
. . . .
fm (v + h) fm (v) prm (DF (P)) prm (ε(h))

Como pri es lineal, se tiene que pri (DF (P)) es lineal para todo i, además pri (ε(h)) es una función lineal
de V a Wi tal que lı́m pri (ε(h)) = 0. De este modo, cada fi es diferenciable en v. Ahora bien, si cada fi
h→0
es diferenciable en v la igualdad anterior demuestra que F es diferenciable en v.

Observación: el teorema previo demuestra que al fijar bases en V y W entonces la matriz de Dfi (v)
corresponde a la i-ésima fila de la matriz de DF (v) , esto puede escribirse como
   
Df1 (v) Df1 (v) h
DF (v) h =  .. ..
h =  .
   
. .
Dfm (v) Dfm (v) h

z 5.7.5 Linealidad.
˚
( 5.7.5 ) Sean f, g : A ⊂ V → W diferenciables en v ∈ A.
Û Entonces, para cualquier λ ∈ R la función f + λg es
diferenciable en v y, además, D(f + λg) (v) = Df (v) + λDg (v) .
Se aplica la regla de la cadena, define Ψ(w1 , w2 ) = w1 + λw2 para w1 , w2 ∈ W . Entonces Ψ es lineal
y diferenciable pues
Ψ(w1 + h, w2 + k) = Ψ(w1 , w2 ) + Ψ(h, k);
según (5.6.5) DΨ (w1 , w2 ) = Ψ. Como f + λg = Ψ(f, g), de la regla de la cadena
 
D(f + λg) (v) = D Ψ ◦ (f, g) (v) = DΨ (f(v), g(v)) D(f, g) (v)
= Ψ(Df (v) , Dg (v)) = Df (v) + λDg (v) ,

lo cual demuestra la linealidad.

z 5.7.6 Derivada de un producto.


Todo producto α × β satisface que si se define B(α, β) = α × β entonces B es lineal en cada entrada,
«bilineal»; conviene entonces dar el caso general.

155
Capítulo 5. La derivada en varias variables.

( 5.7.6 ) Sean f y g dos funciones de A ⊂ V a W1 y W2 , respectivamente. Se supone que f y g son diferenciables


˚
en v ∈ A.
Û Sea B : W2 × W2 → U una función bilineal; esto es, para cada (w1 , w2 ) ∈ W1 × W2 fijo, las funciones
h 7Ï B(h, w2 ) de W1 a U
y
k 7Ï B(w1 , k) de W2 a U
son lineales. Entonces, el producto de f y g relativo a B, esto es, la composición B(f, g), es diferenciable en v y,
además,
DB(f, g) (v) h = B(Df (v) h, g(v)) + B(f(v), Dg (v) h);
esto se conoce como la «regla de Leibniz».
Conviene dividir la prueba en varias etapas.
( 5.7.6.1 ) Sean W1 , W2 y U tres espacios vectoriales. Si B : W1 ×W2 → U es bilineal entonces B es diferenciable
en W1 × W2 y su derivada posee por regla de correspondencia
DB (w1 , w2 ) (h, k) = B(w1 , k) + B(h, w2 ).
En efecto, al igual que siempre se considera el incremento
B(w1 + h, w2 + k) = B(w1 , w2 ) + B(w1 , k) + B(h, w2 ) + B(h, k),
por lo que solo se debe demostrar que B(h, k) = ε(h, k)(h, k). Sin embargo, no se conoce la forma de
B por lo que se utilizará la primera caracterización del teorema (5.6.4). Se debe de mostrar que
kB(h, k)k
lı́m = 0.
(h,k)→0 k(h, k)k
Como los límites son independientes de las normas, se puede considerar cualquier norma en el espacio
W1 × W2 . Entonces, se supondrá que k(h, k)k = khk + kkk . Supón que kB(h, k)k ≤ c khk kkk para alguna
constante c > 0. Entonces,
kB(h, k)k c khk kkk khk2 + 2 khk kkk + kkk2
0≤ ≤ ≤c = c(khk + kkk),
k(h, k)k khk + kkk khk + kkk
la cual tiende a cero cuando (h, k) → 0. Por lo tanto, solo debe demostrarse la existencia de tal c.
( 5.7.6.2 ) Sean W1 , W2 y U tres espacios vectoriales y supón que kk1 y kk2 son sendas normas en W1 y W2 . Si
B : W1 × W2 → U es bilineal entonces existe c > 0 tal que kB(w1 , w2 )k ≤ c kw1 k1 kw2 k2 .
En efecto, se utilizará (5.6.2). Para este efecto define la función φ : W1 → Lin (W2 , U) dada por φ(w1 )
es la transformación lineal de W2 a U que posee regla de correspondencia φ(w1 )w2 = B(w1 , w2 ). En
virtud de (5.6.2) se cumple que para cada w1 ∈ W1
kφ(w1 )w2 )k ≤ kφ(w1 )k kw2 k2 .
Para concluir, se demostrará que φ es lineal de W1 a Lin (W2 , U) . En efecto, sean v1 , v2 ∈ W1 y λ ∈ R
cualesquier elementos. Se debe demostrar que las transformaciones lineales φ(v1 +λv2 ) y φ(w1 )+λφ(w2 )
coinciden; esto es, se debe demostrar que para todo h ∈ W2
φ(v1 + λv2 )h = φ(v1 )h + λφ(v2 )h.
Por definición, el lado izquierdo previo es B(v1 + λv2 , h) y el lado derecho es B(v1 , h) + λB(v2 , h). El
hecho que son iguales se deriva de que B es bilineal. Por lo tanto, φ es lineal de W1 a Lin (W2 , U) . Así
que existe una c > 0 tal que kφ(w1 )k ≤ c kw1 k1 , que concluye lo afirmado.

156
5.8. Algunas derivadas especiales.

( 5.7.6.3 ) Vale la regla de Leibniz.


En efecto, usando la regla de la cadena,
DB(f, g) (v) h = DB (f(v), g(v)) D(f, g) (v) h
= DB (f(v)) g(v)(Df (v) h, Dg (v) h)
= B(f(v), Dg (v) h) + B(Df (v) h, g(v)).
Lo que concluye la demostración.

z 5.7.7 Derivada de un cociente.


˚ 1
( 5.7.7 ) Sea g : A ⊂ V → R diferenciable en v ∈ A.
Û Entonces, si g(v) 6= 0, se tiene que es diferenciable en
ï ò g
1 Dg (v)
vyD (v) = − .
g [g(v)]2
1
Sea f = ◦ g, donde IR es la función identidad de R. Por la regla de la cadena (5.7.3), se tiene que
IR
ï ò
1
Df (v) = D (g(v)) Dg (v) .
IR
1 h
La derivada de la función en t es h 7Ï − 2 , por lo que
IR t
ï ò
1 Dg (v)
D (g(v)) Dg (v) = − .
IR [g(v)]2
Esto demuestra el teorema.

§ 5.8. Algunas derivadas especiales.


Las funciones más comunes que se trabajan en la práctica son las proyecciones canónicas y las
“inclusiones”, los polinomios, las funciones racionales y las funciones como seno, coseno y exponencial.
De este modo, se desarrollarán ejemplos de cómo calcular la derivada en un punto arbitrario de algunas
de estas funciones.

z 5.8.1 Funciones constantes.


Se dice que la función c : A ⊂ V → W es constante si c(A) = {v} para algún v ∈ V . Luego,
˚
c(u + h) − c(u) = v − v = 0. Esto es, c es diferenciable para cualquier u ∈ A Û y Dc (u) = 0; esto es, la
función u 7Ï Dc (u) de A a Lin (V , W ) es la función constante igual a cero.

z 5.8.2 Proyecciones.
Sea pri : W1 × . . . × Wm la i-ésima proyección canónica. Se cumple que
pri (u + h) = ui + hi = pri (u) + pri (h).
De este modo, la derivada de pri en u es la trasformación lineal pri ; esto es, Dpri (u) = pri . A con-
tinuación se encuentra una representación matricial para pri : Rn → R. Si se denota por (e1 , . . . , en )
a la base canónica de Rn entonces pri (ej ) = δi,j . Luego, la representación matricial de pri es pri =
[0, . . . , 0, 1, 0, . . . , 0].

157
Capítulo 5. La derivada en varias variables.

z 5.8.3 Inclusiones.
Se dirá que Πi : R → Rn es inclusión si Πi tiene por regla de correspondencia

Πi (t) = (0, . . . , 0, t, 0, . . . , 0).

Observa que Πi “encaja” a R en la i-ésima coordenada de Rn . Claramente Πi es una curva diferenciable.


Observa que
Πi (t + h) = (0, . . . , 0, t + h, 0, . . . , 0) = Πi (t) + Πi (h)
Luego, la derivada de Πi en t es DΠi (t) = Πi . La representación matricial de Πi es

Πi = [0, . . . , 0, 1, 0, . . . , 0]t ,

donde el uno aparece en la i-ésima entrada.

z 5.8.4 Transformaciones lineales.


En los dos casos anteriores se vió que la derivada de la función f era f misma para cualquiera que
fuese el punto en que se derivara. Esto no es una casualidad, sucede que esto es cierto siempre que f
sea lineal. En efecto, si T es lineal, se tiene que

T(P + H) = TP + TH.

Luego, DT (P) = T. En cada caso habría que encontrar una representación matricial explícita de T.
Este resultado es muy importante, por lo que se asociará un número a ello.
˚
( 5.8.1 ) Sea T : A ⊂ V → W una transformación lineal y sea v ∈ A.
Û Entonces T es diferenciable en v y
DT (v) = T.

z 5.8.5 Exponentes.
Considera una función f : A ⊂ V → [0, ∞) entonces tiene sentido construir la función g : A → R
dada por g(v) = (f(v))a = exp(a ln f(v)). Se puede aplicar entonces la regla de la cadena para obtener
la derivada de g. En este caso, se tiene que

Dg (v) = D(exp ◦(a ln ◦f) (v) = D(exp) (a ln f(v)) D(a ln ◦f) (v)
Df (v)
= exp(a ln f(v))aD ln (f(v)) Df (v) = a(f(v))a
f(v)
= a(f(v))a−1 Df (v) .

Por lo tanto, Df a (v) = a(f(v))a−1 Df (v) . En particular, la derivada de prri en P es

Dprri (v) = r(pri (v))r−1 pri .

z 5.8.6 Funciones polinomiales.


Recuerda que una función f : Rn → R es polinomial si
k
X
f(x1 , . . . , xn ) = ai1 ...in x1i1 · · · xnin ,
i1 +···+in =0

158
5.8. Algunas derivadas especiales.

donde ai1 ...in son constantes. Para poder encontrar la derivada de f aprovechando los teoremas ya
demostrados, se debe escribir a f como función de funciones ya conocidas. Escrita como función, se
tiene que
Xk
f= ai1 ...in pri11 · · · prinn .
i1 +···+in =0

Al actuar la derivada como un operador lineal en las funciones, se tiene que


k
X
Df (P) = ai1 ...in D(pri11 · · · prinn ) (P) .
i1 +···+in =0

La derivada D(pri11 · · · prinn ) (P) puede encontrarse utilizando repetidamente (5.7.6).

( 5.8.2 ) Considera la función polinomial f(x, y) = x 2 + 2xy. Calcula la derivada de f en (a, b).

De acuerdo con lo anterior, basta expresar a f como combinación de las funciones de proyección.
Observa que f = pr21 + 2pr1 pr2 . Entonces,

Df (a, b) = D[pr21 + 2pr1 pr2 ] (a, b) = Dpr21 (a, b) + 2Dpr1 pr2 (a, b)
= 2pr1 (a, b)Dpr1 (a, b)
+2[pr1 (a, b)Dpr2 (a, b) + pr2 (a, b)Dpr1 (a, b)]
= 2apr1 + 2apr2 + 2bpr1 = [2a + 2b, 2a].

Por lo tanto, Df (x, y) = [2x + 2y, 2x].

z 5.8.7 Otros ejemplos.


En general, encontrar la derivada de funciones de varias variables puede resultar tedioso y a veces
hasta complicado. Sin embargo, es cuestión de mucha práctica el poder derivar de manera rápida y
eficiente. A continuación se verán algunos ejemplos de cómo calcular la derivada de funciones no tan
especiales como las consideradas hasta ahora.

( 5.8.3 ) Sea F(x, y) = (sin y, cos x). Encuentra DF (a, b) , para (a, b) ∈ R2 arbitrario.

Se consideran las inclusiones Π1 : R → R2 y Π2 : R → R2 . Observa que F = Π1 ◦sin ◦pr2 +Π2 ◦cos ◦pr1
entonces F es diferenciable en todo R2 . Por la linealidad de la derivada, se tiene que DF (a, b) =
D(Π1 ◦ sin ◦pr2 ) (a, b) + D(Π2 ◦ cos ◦pr1 ) (a, b) . Nota que

D(Π1 ◦ sin ◦pr2 ) (a, b) = DΠ1 (sin(b)) D sin (b) Dpr2 (a, b)
ï ò
0 cos(b)
= Π1 cos(b)pr2 = cos(b)[1, 0]t [0, 1] =
0 0
ï ò
0 0
análogamente, D(Π2 ◦ cos ◦pr1 ) (a, b) = Π2 (− sin a)pr1 = . Esto implica que DF (a, b) =
− sin a 0
ï ò
0 cos(b)
.
− sin(a) 0
Zy
2
( 5.8.4 ) Sea f : R → R una función continua. Encuentra la derivada en (a, b) ∈ R de F(x, y) = f(t)dt.
x

159
Capítulo 5. La derivada en varias variables.

Observa que
Zy Zx
F(x, y) = f(t)dt − f(t)dt
0 0
prZ
2 (x,y) prZ
1 (x,y)

= f− f
0 0
= g(pr2 (x, y)) − g(pr1 (x, y))
Zx
en donde g(x) = f. Se sabe del cálculo de una variable que g 0 (x) = f(x), para cualquier x ∈ R. Por lo
0
que F es diferenciable en todo R2 y, además,

DF (a, b) = D(g ◦ pr2 ) (a, b) − D(g ◦ pr1 ) (a, b)


= Dg (b) Dpr2 (a, b) − Dg (a) Dpr1 (a, b)
= f(b)pr2 − f(a)pr1 = [−f(a), f(b)].

Por lo tanto, la derivada buscada es DF (a, b) = [−f(a) f(b)].


Demostrar que F no es diferenciable en cierto punto P puede resultar bastante tedioso debido a que
la negación de la definición pide demostrar que toda trasformación lineal no satisface (5.6.5). Por otro
lado, se sabe que la trasformación lineal (la derivada) es única, sin embargo no todavía no se tiene un
modo de determinar cual es. En caso contrario el problema se simplificaría considerablemente. Por este
motivo es que se utilizan métodos indirectos para demostrar que cierta función no sea diferenciable.
El más común de ellos es utilizar (5.7.2) o bien, utilizar la regla de la cadena (5.7.3).
( 5.8.5 ) La norma estándar de Rn no es diferenciable en el 0.
Supón que kk es diferenciable en 0. Entonces kpr1 k es diferenciable en 0. Pero, para todo X ∈
Rn , X = (x1 , . . . , xn ), se tiene que kpr1 (X)k = |x1 |. Considera Π1 : R → Rn la inclusión de R en la
primera coordenada de Rn . Entonces, kpr1 (Π1 )k : R → R está dada por kpr1 (Π1 )(t)k = |t|, la cual no es
diferenciable en el cero. Esto es una contradicción a la regla de la cadena (5.7.3). Por lo tanto, kk no es
diferenciable en 0.
La gráfica de kk es un cono con su vértice en el origen. Este ejemplo fortalece la idea de que solo
las funciones suaves son diferenciables.
( 5.8.6 ) Sea f : R → R una función continua y
Zxy
Ñ é

F(x, y) = exp f, ln | cos k(x, y)k | .


0

Determine el dominio de F y el subconjunto abierto más grande de este donde F sea diferenciable.
Zxy Zxy
Dado que f es continua, se tiene que f existe para todo (x, y) ∈ R2 , por lo que exp f está definida
0 0
en todo R2 y es diferenciable en todo R . Luego, F es diferenciable donde ln | cos k(x, y)k | lo es. Ahora
2

bien, ln es una función que es diferenciable en donde está definida y esta solo toma argumentos positivos,
por lo que ln | cos k(x, y)k | es diferenciable y está definida solamente para aquellos puntos (x, y) ∈ R2

160
5.9. La derivada, interpretación geométrica.

π
tales que cos k(x, y)k 6= 0. Pero cos θ 6= 0 si y solo si θ 6=
+ kπ, k ∈ Z. Entonces, ln | cos k(x, y)k | está
2
2 π
definida en todo R menos aquellos puntos donde k(x, y)k = + kπ, k ∈ Z. Esto muestra que,
2
[n π o
Dom (F) = R2 \ k(x, y)k = + kπ .
2
k∈Z

Se afirma que Dom (F) es un conjunto abierto de R2 . Sea (x, y) en el dominio de F, existe k ∈ Z tal
π π
que + kπ < k(x, y)k < + (k + 1)π. Se considera r como la mitad de la mínima distancia entre (x, y) y
2 2
π π
los círculos centrados en 0 de radio +kπ y +(k+1)π. Entonces, es claro que B ((x, y); r) ⊂ Dom (F) .
2 2
Con esto F está definida en un abierto de R2 . Así que Dom (F) es el conjunto abierto más grande donde
F es diferenciable. Observa que es de otra índole encontrar la matriz de DF (P) .

§ 5.9. La derivada, interpretación geométrica.


En esta sección se desarrollará una interpretación geométrica de la derivada de Rn . Se verá que,
como en el caso real, la derivada implica que la función cerca de un punto de suavidad puede aproxi-
marse por un plano. Además, al igual que en el capítulo 1, se restringirá el estudio de planos tangentes
a funciones de Rn a R aunque este puede generalizarse para funciones entre dos espacios vectoriales.
Sean n y m dos números naturales. Es importante recordar que un plano n dimensional que pasa
por un punto P ∈ Rn+m es un subespacio vectorial de Rn+m cuya dimensión es n y está trasladado al
vector P. Equivalentemente, es un conjunto de la forma
( n )
X
P= ti Ai + P t1 , . . . , tn ∈ R ,


i=1

donde los A1 , . . . , An ∈ Rn+m son vectores fijos y linealmente independientes.


Supón que f : Rn → Rm es una función diferenciable en P. Entonces, existe r > 0 y ε : B (0; r) →
Lin (Rn , Rm ) tal que para todo H ∈ B (0; r) se tiene que

f(P + H) = f(P) + Df (P) H + ε(H)H,

donde lı́m ε(H) = 0. Intuitivamente, la gráfica de f determina una superficie en Rn+m . Sin embargo, no
H→0
es conveniente trabajar directamente con f, así que se extenderá f de algún modo para que sea más
fácil trabajar con ella.
Sea F : Rn+m → Rm dada por F(X, Y ) = f(X) − Y . Toma 0 ∈ Rm y sea S = F −1 ({0}), la preimagen
por F del 0. Observa que S es la gráfica de f (o, en términos de este texto, S = f). Se afirma que F es
diferenciable en (P, f(P)). En efecto, sea (H1 , H2 ) ∈ B (0; r) ⊂ Rn+m . Entonces

F((P, f(P)) + (H1 , H2 )) = F(P + H1 , f(P) + H2 )


= f(P + H1 ) − f(P) − H2
= f(P) + Df (P) H1 + ε(H1 )H1 − f(P) − H2
= Df (P) H1 − H2 + ε(H1 )H1 .

Define T : Rn+m → Rm dada por T = [Df (P) , −IRm ], esto es


Å ã
(H1 , 0)
T(H1 , H2 ) = [Df (P) , −IRm ] = Df (P) H1 − H2 .
(0, H2 )

161
Capítulo 5. La derivada en varias variables.

Claramente, T es lineal. Ahora bien, si se define ε̃(H1 , H2 ) = ε(H1 ) entonces


lı́m ε̃(H1 , H2 ) = lı́m ε(H1 ) = 0
(H1 ,H2 )→(0,0) H1 →0

y F es diferenciable en (P, f(P)), con derivada [Df (P) , −IRm ].


Considera ahora α : I ⊂ R → S una curva que pasa por (P, f(P)), por ejemplo tal que α(0) = (P, f(P)).
Como α(t) ∈ S para todo t ∈ I, se tiene que F ◦ α es una función constante de valor igual a 0. Como f
es una función diferenciable en P, es razonable suponer que α es diferenciable en 0. De acuerdo a la
regla de la cadena, F ◦ α es diferenciable en 0 y
D(F ◦ α) (0) = DF (α(0)) Dα (0) = DF (P, f(P)) α0 (0).
Recorda que α0 (0) es el vector tangente a la traza de α en 0. Por otro lado, se sabe que si Fi representa
la i-ésima función coordenada de F entonces se tiene que en (P, f(P))
 
DF1 (P, f(P))
DF (P, f(P)) =  ..
,
 
.
DFm (P, f(P))
ve (5.7.4). Luego,
DF1 (P, f(P)) · α0 (0)
 

DF (P, f(P)) α0 (0) =  ..


.
 
.
DFm (P, f(P)) · α0 (0)
Al ser F ◦ α una función constante, esta derivada es cero, por lo que se tiene el sistema de ecuaciones
lineales
DF1 (P, f(P)) · α0 (0) = 0
.. .. ..
. . .
DFm (P, f(P)) · α0 (0) = 0.
Esto da la interpretación geométrica buscada. La derivada de cada función coordenada de F es ortogo-
nal al vector tangente de α. Pero α fue una curva arbitraria, por lo que el vector asociado a la derivada
de Fi en (P, f(P)) es ortogonal a S. Esto indica, que el plano generado por este vector es tangente a
S. Como hay m de tales funciones coordenadas, se tienen m de tales planos. La intersección de todos
estos planos generan el plano tangente buscado. Observa que si en lugar de considerar una función f
y extenderla a F se considera directamente la superficie S = F −1 ({0}) entonces la construcción aplica
igualmente. Esta discusión conduce a la siguiente definición general.
( 5.9.1 ) Sea f : Rn → Rm diferenciable en P. Se define F : Rn+m → Rm dada por F(X, Y ) = f(X) − Y . Se
dirá que el plano tangente a f en P como el espacio solución del sistema lineal
DF1 (P, f(P)) · (X, Y ) = 0
.. .. ..
. . .
DFm (P, f(P)) · (X, Y ) = 0
trasladado al punto (P, f(P)), será denotado por TP f.
Si S es un subconjunto de Rn+m para el cual existe una función diferenciable F : A ⊂ Rn+m → Rm con la
propiedad que S = F −1 ({0}) entonces, para P ∈ S, se define el plano tangente a S en P como el espacio solición
del sistema lineal (de m ecuaciones con n + m incógnitas)
DF (P) · (X, Y ) = 0
trasladado al punto P, será denotado por TP S.

162
5.9. La derivada, interpretación geométrica.

Se tiene que el sistema lineal

DF1 (P, F(P)) · (X, Y ) = 0


.. .. ..
. . .
DFm (P, F(P)) · (X, Y ) = 0

posee m ecuaciones y tiene n + m incógnitas. Este sistema siempre tiene por solución la trivial. Es
importante notar, la dimensión del espacio solución a este sistema es a lo más n. Esto dice que la
superficie S (que es la gráfica de f o bien, f misma) tiene a lo más n grados de libertad para moverse
en Rn+m .
( 5.9.2 ) Sea f : R2 → R dada por f(x, y) = x 2 + xy. Encuentra el plano tangente a f en el punto p = (1, 0).
De acuerdo a la construcción anterior, sea F : R3 → R dada por F(x, y, z) = x 2 + xy − z. Entonces,
se calcula la derivada de F en P = (p, f(p)) = (1, 0, 1). Se tiene que

DF (P) = Dpr21 (P) + Dpr1 pr2 (P) − Dpr3 (P)


= 2pr1 (P)pr1 + pr1 (P)pr2 + pr2 (P)pr1 − pr3 = [2, 1, −1].

De este modo, el plano tangente a F en p es solución al sistema

(2, 1, −1) · (x, y, z) = (2, 1, −1) · P.

Esta ecuación es 2x + y − z = 1, que es una ecuación que representa al plano buscado. Por lo tanto, el
plano es {(x, y, z) ∈ R3 : 2x + y − z = 1}.
2 2
 π) Sea
( 5.9.3  F : R → R dada por F(x, y) = (sin x, 2xy). Encuentra la ecuación del plano tangente a F en
p= ,1 .
2
Se procede como en el ejemplo anterior, sea F : R4 → R2 dada por F(x, y, u, v) = (sin x −u, 2xy −v).
Entonces, F es diferenciable en R4 . Sea P = (x, y, u, v). Entonces

DF (P) = D(Π1 (sin ◦pr1 − pr3 ) + Π2 (2pr1 pr2 − pr4 )) (P)


= DΠ1 (sin x − u) D(sin ◦pr1 − pr3 ) (P) + DΠ2 (2xy − v) D(2pr1 pr2 − pr4 ) (P)
= Π1 (cos xpr1 − pr3 ) + Π2 (2xpr2 + 2ypr1 − pr4 ).

Por lo que, al pasar a forma matricial, se obtiene


ï ò
cos x 0 −1 0
DF (P) = .
2y 2x 0 −1
π 
Tomando P = , 1, 1, π , se ve que
2
ï ò
0 0 −1 0
DF (P) = .
2 π 0 −1

Entonces, el plano tangente a F en P es la intersección de los planos u = 0 y 2x + πy − v = 0 trasladado


a P. Una base del espacio solución está dada por A1 = (1, 0, 0, 2) y A2 = (−π, 2, 0, 0). Por lo tanto, el
plano tangente buscado es TP (F) = {v ∈ R4 : v = tA1 + sA2 + P, s, t ∈ R}.
( 5.9.4 ) Encuentra el plano tangente en (1, 0, 0) de la esfera unitaria S2 definida por S2 = {(x, y, z) ∈ R3 :
k(x, y, z)k = 1}.

163
Capítulo 5. La derivada en varias variables.

Observa que no se tiene una función F que represente a S2 , sin embargo, si se define F : R3 → R
dada por F(X) = kXk − 1 entonces S2 = F −1 ({0}). Entonces, aplica la misma construcción que antes.
Por lo que el plano tangente es solución al sistema de ecuaciones DF (1, 0, 0) · X = DF (1, 0, 0) · (1, 0, 0).
En este caso, se tiene que
» D(pr2 + pr22 + pr23 ) (1, 0, 0)
DF (1, 0, 0) = D pr21 + pr22 + pr23 (1, 0, 0) = » 1
2 pr21 + pr22 + pr23 (1, 0, 0)
1
= (2pr1 (1, 0, 0)Dpr1 (1, 0, 0) + 2pr2 (1, 0, 0)Dpr2 (1, 0, 0) + 2pr3 (1, 0, 0)Dpr3 (1, 0, 0))
2
= pr1 = [1, 0, 0].

Entonces, el plano tangente a la esfera S2 es TP S2 = {(x, y, z) ∈ R3 : x = 1}. Observa que este resultado
es geométricamente claro.

§ 5.10. Funciones inversas.


Al igual que el caso en una variable, en V existen funciones f : V → W tales que existe una función
g : W → V para la cual f ◦ g = IW y g ◦ f = IV . Esta clase de funciones se denominan funciones
invertibles (2.1.19). En ocasiones F no se encuentra definida en todo el espacio, en cuyo caso, en general,
g tampoco. Luego, existen un A y un B tales que f ◦ g = IA y g ◦ f = IB , donde A = Dom (g) = Ran (f) y
B = Ran (f) = Dom (g) .
Se supone que f es una función tal que Dom (f) ⊂ V es un abierto y Ran (f) ⊂ W también es abierto.
Si f es invertible y diferenciable y si posee una inversa g que sea diferenciable, se ve que f ◦ g = IRan(f) ,
es la identidad de W restringida a Ran (F) ; de la regla de la cadena (5.7.3), f ◦ g es diferenciable y
D[f ◦ g] (v) = DIRan (f) (v) = IW . El mismo argumento muestra que D[g ◦ f] (v) = IV ; al ser tanto f como
g diferenciables, la regla de la cadena muestra que Df (g(v)) es invertible y
 −1
Df (g(v)) = Dg (v) .

Por lo tanto, dim V = dim W . Esto conduce al siguiente resultado.

( 5.10.1 ) Sean V y W dos espacios vectoriales para los cuales existe una función f : A ⊂ V → W invertible,
diferenciable y cuya inversa es diferenciable. Entonces dim V = dim W .

Los siguientes teoremas refuerzan este resultado.

( 5.10.2 ) Sea f : A → B con A y B sendos subconjuntos abiertos de V y W . Supón las siguientes hipótesis,

1. f es invertible,

2. la inversa de f es continua,

3. f es diferenciable en un punto v ∈ A.

Sea g la inversa de f. Una condición necesaria y suficiente para que g sea diferenciable en w = f(v) es que Df (v)
 −1
sea invertible; si así sucede, Dg (w) = Df (v) .

Se divide la prueba en varios pasos.

( 5.10.2.1 ) La condición es necesaria.

164
5.10. Funciones inversas.

Pues si g es diferenciable en w entonces f ◦ g y g ◦ f son diferenciables en acuerdo con la regla de


la cadena. Pero
IW = DIB (w) = D[f ◦ g] (w) = Df (v) Dg (w)
y
IV = DIA (v) = D[g ◦ f] (v) = Dg (w) Df (v) ,
mostrando lo afirmado.
El resto de la prueba es para la suficiencia de la condición.
( 5.10.2.2 ) Se puede trasladar el problema a vecindades del origen.
En efecto, sea r > 0 tal que B (v; r) ⊂ A. Define φ : B (0; r) → W por φ(h) = f(v + h) − f(v); se observa
que si φ(h1 ) = φ(h2 ) entonces f(v + h1 ) − f(v) = f(v + h2 ) − f(v), por lo que f(v + h1 ) = f(v + h2 ) y, como
f es invertible, h1 = h2 , por lo que φ es inyectiva. Sea ψ : φ(B (0; r)) → B (0; r) la inversa de φ (2.1.20);
entonces ψ(k) = g(w + k) − g(w), pues

φ(ψ(k)) = f(v + g(w + k) − g(w)) − f(v)


= f(g(w + k) − v + v) − w = k + w − w = k

ψ(φ(h)) = g(w + f(v + h) − f(v)) − g(v)


= g(f(v + h)) − v = v + h − h = v.

Observa que tanto φ como ψ son inversas una de la otra y están definidas en conjuntos que tiene al
origen como elemento. Además, φ es una función continua, pues f lo es. Falta ver que los dominions
de φ y ψ son abiertos.
Que Dom (φ) = B (0; r) sea un abierto es claro, por lo que se probará que Dom (φ) = φ(B (0; r)) es
un abierto. De hecho, como g es invertible, se ve que para cualquier subconjunto abierto T de V existe
un abierto S de W tal que g −1 (T) = A ∩ S, esto es consecuencia de (5.5.4), y como B es abierto, T ∩ B
también y g −1 (T) = g −1 (T ∩ B). Por lo tanto, la preimagen por g de cualquier abierto de V es un abierto
de W . Como g es la inversa de f, resulta de que la preimagen por g de un conjunto es la imagen por
f del mismo conjunto, con lo cual, f es una función abierta. Al ser que φ toma la forma φ = L2 ◦ F ◦ L1 ,
con L2 y L1 traslaciones, se obtiene que φ también es una función abierta y de aquí lo afirmado.
( 5.10.2.3 ) Hay un η > 0 tal que

kψ(k)k
 −1
kkk < η Ñ Df (v) k ≥ .

2
 −1  −1  −1  −1
En virtud de (5.6.2), DF (P) k ≤ DF (P) kHk y c = DF (P) > 0 pues DF (P)

1
no es la transformación lineal cero. Sea 0 < ε < . Existe un δ ∈ (0, r) tal que si h ∈ B (0; δ) entonces
2c
kf(v + h) − f(v) − Df (v) hk < ε khk ,

esto es consecuencia de que f es diferenciable en v y de (5.6.4).


Como 0 ∈ φ(B (0; r)) y este es un conjunto abierto, existe η1 > 0 tal que B (0; η1 ) ⊂ φ(B (0; r)) y al
ser ψ una función continua en 0, y ψ(0) = 0, existe un η2 > 0 tal que ψ(B (0; η2 )) ⊂ B (0; δ) , esto es
consecuencia de (5.5.3). Se define η como el mínimo entre η1 y η2 .
Sea k ∈ B (0; η) cualquiera. Entonces ψ(k) ∈ B (0; δ) . Luego,

k = φ(ψ(k)) = f(v + ψ(k)) − f(v) = Df (v) ψ(k) + o(ψ(k)),

165
Capítulo 5. La derivada en varias variables.

donde o(h) = f(v + h) − f(v) − Df (v) h. Como kkk < η se sigue que kψ(k)k < δ y, por ende, ko(ψ(k))k <
ε kψ(k)k . Por lo tanto,
 −1  −1  −1
Df (v) k = Df (v) Df (v) ψ(k) + Df (v) o(ψ(k))
 −1
= ψ(k) + Df (v) o(ψ(k))

y, por otro lado,


 −1 kψ(k)k
Df (v) o(ψ(k)) ≤ c ko(ψ(k))k ≤ cε kψ(k)k ≤ .

2
Usando la desigualdad triangular,
 −1  −1 kψ(k)k
Df (v) k ≥ kψ(k)k − Df (v) o(ψ(k)) ≥ .

2
Lo que concluye este paso.
 −1
( 5.10.2.4 ) La derivada de g es w existe y vale Dg (w) = Df (v) .

En efecto, con lo ya demostrado se deduce inmediatamente que


 −1
kψ(k)k ≤ 2 Df (v) k ≤ 2c kkk

y, finalmente, 
−1
Df (v) o(ψ(k)) ≤ c ko(ψ(k))k ≤ cε kψ(k)k ≤ 2c2 ε kkk .

Con esto, ha sido demostrado que


−1
k ≤ (2c2 )ε kkk ,

ψ(k) − Df (v)

y como ψ(k) = g(w + k) − g(w), se ha demostrado que


 −1
g(w + k) − g(w) − Df (v) k

≤ (2c2 )ε.
kkk
 −1
Según (5.6.4), Dg (w) existe y Dg (w) = Df (v) .

§ 5.11. El teorema del valor medio.


Dentro de las nociones principales del cálculo se encuentra la de los incrementos, el teorema
del valor medio proporciona una estimación para los incrementos de una curva (4.6.8). Por motivos
de historia, se demostrará el teorema clásico (que no se utilizará en este texto) y luego el teorema
moderno del valor medio.

( 5.11.1 ) Sea f : U ⊂ Rn → R, con U abierto. Se supone que f es diferenciable en todo P ∈ U. Asimismo, se


supone que A, B ∈ U y el segmento de recta que une a A con B es subconjunto de U. Entonces, existe c ∈ (0, 1)
tal que f(B) − f(A) = (B − A) · Df ((1 + c)A + cB) , en donde se toma a Df (P) como el vector en Rn asociado
a la derivada de f en P. Esto se conoce como el «teorema del valor medio clásico».

166
5.11. El teorema del valor medio.

Este teorema es inmediato de su análogo en R, pues se considera la función auxiliar

α(t) = f((1 − t)A + tB),

la cual está definida en [0, 1] y es derivable (de acuerdo con la regla de la cadena). Luego, existe un
t ∈ [0, 1] tal que α(1) − α(0) = α0 (t), que es precisamente la conclusión del teorema.
Se generalizará ahora el teorema del valor medio moderno para funciones de variable vector.

( 5.11.2 ) Si f : A ⊂ V → W es diferenciable y el segmento de extremos w1 y w2 está contenido en A entonces

kf(w1 ) − f(w2 )k ≤ kw1 − w2 k sup kDf ((1 − t)w1 + tw2 )k .


0≤t≤1

Si sup kDf ((1 − t)w1 + tw2 )k = ∞, el resultado es trivial, por lo que se supondrá que este supremo
0≤t≤1
es finito. Se define la curva auxiliar

α(t) = f((1 − t)w1 + tw2 ), t ∈ [0, 1].

Entonces α es diferenciable, de la regla de la cadena y la desigualdad de Cauchy-Schwarz

kα0 (t)k = kDf ((1 − t)w1 + tw2 ) · (w1 − w2 )k


≤ kDf ((1 − t)w1 + tw2 )k kw1 − w2 k
≤ kw1 − w2 k sup kDf ((1 − t)w1 + tw2 )k .
0≤t≤1

El teorema del valor medio (4.6.8) implica entonces que

kα(1) − α(0)k ≤ kw1 − w2 k sup kDf ((1 − t)w1 + tw2 )k .


0≤t≤1

Que es lo que se quería demostrar.

( 5.11.3 ) Se dirá que una función f : A ⊂ V → W es lipchitziana con constante de lipchitzianidad k > 0
(«k-lipschitziana») si para todos v1 , v2 ∈ A se cumple que

kf(v1 ) − f(v2 )k ≤ k kv1 − v2 k .

( 5.11.4 ) Toda función lineal f : V → W es kfk-lipschitziana.

Esto ya fue demostrado en (5.6.2).

( 5.11.5 ) Sea f : [a, b] → V una curva continua la cual admite una derivada por la derecha en cada punto
x ∈ (a, b). Si kfd0 (x)k < k para alguna k constante f es k-lipschitziana.

Lo que se sigue inmediatamente de (4.6.8).

( 5.11.6 ) Sea f : A ⊂ V → W diferenciable, donde A es un conjunto convexo. Si kDf (v)k ≤ k para alguna
k > 0 y todo v ∈ A entonces f es k-lipschitziana.

Este es inmediato de (5.11.2).

167
Capítulo 5. La derivada en varias variables.

§ 5.12. Ejercicios.
( 5.1 ) Una función f : A ⊂ V → W se denomina cerrada si para todo subconjunto cerrado C ⊂ A el conjunto
2
f(A ∩ C) es cerrado en W . Demuestra
ß que pr1 : R ™→ R no es cerrada.
1
Sugerencia: considera el conjunto y = , x > 0 .
x
( 5.2 ) Considera las funciones φ : R → R2 dada por

φ(x) = (exp(x), exp(−x))


x
y f con regla de correspondencia f(x, y) = . Encuentra la imagen de f ◦ φ.
y
( 5.3 ) Para la función f(x, y, z) = k(x, y, z) − (1, 0, −1)k encuentra su imagen y encuentra un conjunto mínimo
A para el cual f(A) = [0, ∞). Esto es, si B ⊂ A satisface que f(B) = [0, ∞) entonces B = A.
( 5.4 ) Sea f : Rn → R dada por f(X) = X · A, para algún vector A ∈ Rn fijo. Determine aquellos A que permiten
a f ser suprayectiva. ¿Existe algún A ∈ Rn tal que f es inyectiva?
( 5.5 ) Considera la función con regla de correspondencia f(x, y) = x 2 + 2xy. Sea g(t) = (t, t −1 ), determine
Dom (f ◦ g) , y encuentra la regla de correspondencia de f ◦ g.
X
( 5.6 ) Encuentra el dominio y rango de la función con regla de correspondencia f(X) = , para X ∈ Rn . ¿Es
kXk
esta función inyectiva?, ¿es suprayectiva?
X
( 5.7 ) Considera ahora la función f(X) = , para X ∈ Rn . Determine si f es suprayectiva e inyectiva.
kXk2
( 5.8 ) Encuentra la imagen de la recta {(x, y, z) ∈ R3 : x = 1} por la función dada en el ejercicio anterior.
( 5.9 ) Sea f : Rn → R dada por f(X) = kXkr y g : R → Rn dada por g(t) = (t, . . . , t). Determine una
antiderivada de f ◦ g como expresión de f y g.
( 5.10 ) Grafique los conjuntos de nivel de la función f(x, y) = x 2 + 2xy.
( 5.11 ) Repita el ejercicio anterior con la función k(x, y, z)k .
( 5.12 ) Grafique las secciones de f con los conjuntos
n » o
C(c) = (x, y, z) ∈ R3 : x 2 + y 2 = c ,

xy
donde f(x, y) = p y c ∈ R es fijo.
x2 + y2
( 5.13 ) Dibuja la gráfica de la función f(x, y) = x + y 2 .

( 5.14 ) Dibuja la gráfica de la función f(x, y) = x + y.
x2 + y
( 5.15 ) Dibuja la gráfica de la función .
|x| + |y| + 1
2
−y 2
( 5.16 ) Dibuja la gráfica de e−x .
( 5.17 ) Encuentra el valor de los siguientes límites, use la definición para demostrarlos.

168
5.12. Ejercicios.

cos x
1. lı́m ;
(x,y)→(π,1) y

2. lı́m (x 2 − 2y, 2xy + y, x + y);


(x,y)→(1,−1)
Å ã
x + 2y
3. lı́m exp ;
(x,y,z)→(0,1,2) z
Å ã
1
4. lı́m exp − + xy;
(x,y)→(1,0) y
Å ã
x
5. lı́m exp .
(x,y)→(0,π) sin y
( 5.18 ) Determine si los siguientes límites existen, en caso que existan determine su valor.
x+y
1. lı́m ;
(x,y,z)→(1,−1,π) sen z
Å ã
1
2. lı́m exp ;
(x,y)→(0,0) k(x, y)k
sin x
3. lı́m ;
(x,y)→(0,0) sin y

1
4. lı́m ;
(x,y,z)→(1,1,−1) x + yz
sin x sin y
5. lı́m .
(x,y,z)→(0,0,0) sin z
( 5.19 ) Dé un ejemplo de una función f : A ⊂ V → W tal que existe v ∈ V para el cual existen dos sucesiones
(un )n∈N , (wn )n∈N definidas en A y un , wn → A pero kf(un ) − f(vn )k 6→ 0.
( 5.20 ) Si f : A ⊂ V → W satisface, para cierto v ∈ A, que

lı́m kf(v + h) − f(h)k = 0,


h→0

entonces
lı́m kf(v + h) − f(v − h)k = 0.
h→0

( 5.21 ) Determine si es cierto o falso el recíproco del ejercicio anterior. Esto es, determine si

lı́m kf(v + h) − f(v − h)k = 0 Ñ lı́m kf(v + h) − f(v)k = 0.


h→0 h→0

( 5.22 ) Sea f : A ⊂ V → W continua en A y B ⊂ A. Entonces f es continua.

V

( 5.23 ) Sean f : A ⊂ V → W y g : f(A) → U funciones continuas. Entonces g ◦ f es continua.


( 5.24 ) Demuestra (5.4.9).
( 5.25 ) Demuestra (5.4.10).
( 5.26 ) Sean V y W dos espacios vectoriales normados con V de dimensión finita. Para que una transfomación
lineal V → W sea continua es necesario y suficiente que sea continua en 0 ∈ V . Más generalmetne, es necesario
y suficiente que sea continua en v ∈ V para algún v.

169
Capítulo 5. La derivada en varias variables.

x+y
( 5.27 ) Sea f(x, y) = . Intenta aplicar (5.4.16). ¿Por qué esto no contradice el teorema?
x−y

( 5.28 ) Sea f : R2 → R la función dada por:


 Å ã
1
x sin si y 6= 0,

f(x, y) = y
 0 si y = 0.

Entonces lı́m f(x, y) = 0, pero aún así, se tiene que


(x,y)→(0,0)

lı́m lı́m f(x, y) 6= lı́m lı́m f(x, y).


x→0 y→0 y→0 x→0

¿Por qué esto no contradice (5.4.16)?

lı́m f(u) = w es necesario y


( 5.29 ) Sean f : A ⊂ V → W y v cualquier punto de acumulación de A. Para que u→v
u∈A
suficiente que cualquier sucesión (un )n∈N , definida en A, con lı́m un = v satisfaga que lı́m f(un ) = w.
n→∞ n→∞

( 5.30 ) Si W es un espacio vectorial real para cualquier conjunto X, el conjunto W X = {f : X → Y } es un


espacio vectorial con las operaciones (f + λg)(x) = f(x) + λg(x).
n 
( 5.31 ) Se denotará por Pk R(R ) el conjunto de funciones polinomiales de grado menor o igual a k en n
variables. Este es un espacio vectorial real de dimensión finita. Encuentra la dimensión y una base de este espacio
vectorial.
Sugerencia: encuentra primero una base para el espacio de polinomios de grado exactamente k.

( 5.32 ) El conjunto de monomios B de RN es un conjunto linealmente independiente que es base.


Sugerencia: ve (1.2.8).
n 
( 5.33 ) El mapeo Φ : R[x1 , . . . , xn ] → P R(R ) tal que a todo polinomio lo manda a su función polinomial
n 
asociada es una biyección lineal entre los espacios vectoriales R[x1 , . . . , xn ] y P R(R ) .

( 5.34 ) Demuestra (5.5.6).

( 5.35 ) Si f : A ⊂ V → W es continua entonces kfk es continua.


Sugerencia: solo debes utilizar que | kf(v1 )k − kf(v2 )k | ≤ kf(v1 ) − f(v2 )k .

( 5.36 ) Una condición necesaria y suficiente para que F : A ⊂ V → W sea continua es que para cada λ ∈ R la
función λF sea continua.

( 5.37 ) Sea f : R → R continua en todo R y es tal que f(Q) = {c} para algún c ∈ R entonces f = c; más
generalmente, si T ⊂ V es denso y f : V → W es continua en V , constante e igual a c sobre T entonces es
constante e igual a c sobre V .

( 5.38 ) Sea f : V → W continua en v = (v1 , . . . , vn ) y sea i ∈ {1, . . . , n}. Entonces

g(u) = f(v1 , . . . , vi−1 , u, vi+1 , . . . , vn )

es continua en el punto ai . El recíproco de este resultado es falso.

( 5.39 ) El conjunto de los ceros de una función continua es un conjunto cerrado. Esto es, C = {v ∈ V : f(v) = 0}
es cerrado siempre que f : V → W sea continua.

170
5.12. Ejercicios.

( 5.40 ) Una condición necesaria y suficiente para que f : A ⊂ V → W sea continua es que para todo subconjunto
˚
  ˚
B de W se tenga que f −1 B Û ⊂ f˙ −1
(B).

( 5.41 ) Una condición necesaria y suficiente para que f : A ⊂ V → W sea continua es que para todo subconjunto

B de A se tenga que f B ⊂ f ( B).
( 5.42 ) Determine si puede existir o no una función continua f : A → B tal que f(A) = B donde:
1. A = (−1, 0) ∪ (0, 1), B = (−1, 1);
2. A = (−1, 1), B = (−1, 0) ∪ (0, 1);
3. A = (−1, 0) ∪ (0, 1), B = {0, 1}.
( 5.43 ) Sea f : A ⊂ V → W k-lipschitziana, ve (5.11.3). Entonces, f es uniformemente continua.
( 5.44 ) Sean V y W dos espacios vectoriales de dimensión finita. Toda función L : V → W lineal es uniformemente
continua.
( 5.45 ) Sean f y g dos funciones continuas de A ⊂ V a W . Supón que T ⊂ A es denso en A. Entonces f(T) es
denso en f(A). Más aún, si f(v) = g(v) para cualquier v ∈ T entonces f = g en A.
( 5.46 ) Supón que f : A ⊂ V → W es uniformemente continua. Entonces, para cada (un )n∈N sucesión de
Cauchy definida en A, se tiene que (f(un ))n∈N es una sucesión de Cauchy. Cabe destacar que este es uno de los
resultados más importantes en todo el análisis matemático.
( 5.47 ) Sea I = [0, 1] ⊂ R, y f : I → I una función continua. Entonces f posee un punto fijo; esto es, demuestre
que existe al menos un x ∈ I tal que f(x) = x.
( 5.48 ) Sea f : A ⊂ V → W y se considera B ⊂ A. Se define la oscilación f en B como

Ω (f; B) = sup{kf(u) − f(v)k : u, v ∈ B}.

El número Ω (f; B) está bien definido; esto es, siempre existe (puede valer +∞) y es único.
( 5.49 ) Sea f : A ⊂ V → W y considera B ⊂ A y v un punto de acumulación de A. Se define la oscilación f en
v a través del conjunto B como

ωB (f; v) = ı́nf{Ω (f; B (v; δ) ∩ B) : δ > 0}.

Entonces, ωB (f; v) = lı́m+ Ω (f; B (v; r) ∩ B) . Asimismo, una condición necesaria y suficiente para que lı́m f(u)
r→0 u→v
exista es que ωA (f; v) = 0.
( 5.50 ) Sea f : A ⊂ V → W tal que f es continua en v ∈ A y es tal que f(V ) 6= 0. Existe r > 0 tal que
0 ∈/ F(B (v; r) ∩ A). Si W = R, tal r puede ser escogido de forma que todos los puntos en B (v; r) ∩ A se mapeen
por f con el mismo signo que se mapea v por f.
( 5.51 ) Si f y g son uniformemente continuas f + g es uniformemente continuas.
( 5.52 ) El producto de funciones uniformemente continuas no es en general uniformemente continua.
( 5.53 ) Si f es uniformemente continua existe una única extensión continua de f a Dom (f). En tal caso, la
extensión es uniformemente continua; el «teorema de extensión de Cauchy».
Sugerencia: al ser
˚ ˚
Dom
¸ (f) ⊂ Dom (f) ⊂ Dom (f) = Dom
¸ (f) ∪ ∂Dom (f)

171
Capítulo 5. La derivada en varias variables.

basta extender f a aquellos v ∈ ∂Dom (f) ∩ {Dom (f) ; es decir, a aquellos v en la frontera del dominio de f que
no están en el dominio de f.
Para v ∈ ∂Dom (f) \ Dom (f) existe una sucesión (vn ) definida en Dom (f) tal que vn → v; en virtud de
(5.46) la sucesión (f(vn ))n∈N es de Cauchy. Luego, existe su límite w. La intención es definir la extensión de f a
v como f(v) = w; para esto se debe ver que w queda determinado únicamente por v y f; esto es, no importa
cuál sucesión (vn ), en el dominio de f, se use para aproximar v, siempre se cumplirá que f(vn ) → w. Sea pues
(un )n∈N cualquier sucesión en Dom (f) tal que un 7Ï x; ya se sabe que (f(un ))n∈N es de Cauchy. Sea w 0 el límite
de esta sucesión, usando la continuidad de la norma observa que

kw − w 0 k = lı́m kf(vn ) − f(un )k .


n→∞

Usa la continuidad uniforme de f para que, dado ε > 0 arbitrario, encontrar un δ > 0 tal que

h, k ∈ A y kh − kk < δ Ñ kf(P) − f(Q)k < ε.


δ δ
Para este δ encuentra un N ∈ N tal que n ≥ N Ñ kun − vk < y kvn − vk < . Concluya usando
2 2
la desigualdad triangular. Entonces, ya ha podido extender f a Dom (f) a una función. Falta demostrar que
tal extensión esäuniformemente
Ä (1) Ä (2) ä continua. Para esto, observa que si v1 , v2 ∈ Dom (f) entonces existen sendas
sucesiones vn y vn en Dom (f) que convergen a v1 y v2 . Luego,
n∈N n∈N
Ä ä Ä ä
kf(v1 ) − f(v2 )k = lı́m f vn(1) − vn(2) .

n→∞

˚
( 5.54 ) Sea f : A ⊂ Rn → R, donde A es un conjunto arbitrario. Supón que v ∈ U
Ù y que existe T : Rn → R
trasformación lineal tal que
|f(v + h) − f(v) − Th|
lı́m = 0.
h→0 khk
Entonces, existe r > 0 y ε(v) : B (0; r) → Lin (Rn , R) tales que si h ∈ B (0; r) entonces

f(v + h) = f(v) + Th + ε(v; h)h,

y ε(v) es tal que lı́m ε(v; h) = 0.


h→0
Sugerencia: como v es punto interior de A existe un r > 0 tal que B (v; r) ⊂ A. Se debe definir a la función
ε(v) : B (0; r) → Lin (Rn , R) . Se propone la función
f(v + h) − f(v) − Th
h 7Ï ε(v; h) = h;
khk2
que esta función posea contradominio Lin (Rn , R) es consecuencia del ejercicio (1.36); de hecho, la imagen de
h ∈ B (0; r) por esta función es la transformación lineal
f(v + h) − f(v) − Th
k 7Ï ε(v; h)k = hh, ki .
khk2
Haciendo k = h se debe encontrar que ε(v; h)h = f(v + h) − f(v) − Th.
( 5.55 ) Completa la demostración de (5.6.4).
Sugerencia: recuerda que con solo debes demostrar el caso general V y W espacios vectoriales. Considera
sendas bases ordenadas P y Q de V y W y construye los isomorfismos de coordenadas asociados a estas bases.
También se considerarán las normas kkP y kkQ en Rdim V y Rdim W , respectivamente, que son generadas por las
coordenadas [ ]P y [ ]Q , respectivamente. Define la función φ = [ ]Q ◦ f ◦ [ ]−1
P , la «transportación» de f.

172
5.12. Ejercicios.

1) Ñ 2) Sea r > 0 tal que B (v; r) ⊂ A. Observa que f = [ ]−1 −1


Q ◦ φ ◦ [ ]P . Entonces, para T̃ = [ ]Q ◦ T ◦ [ ]P se
cumple que
ó
[φ ([v + h]P )]−1 − [φ ([v]P )]−1 − T̃ ([h]P ) −1
î
Q Q
kf(v + h) − f(v) − ThkW Q
W
=
khkV k[h]P kP
î ó
φ ([v + h]P ) − φ ([v]P ) − T̃ ([h]P ) −1

Q
W
=
k[h]P kP

φ ([v]P + [h]P ) − φ ([v]P ) − T̃ ([h]P )

Q
= .
k[h]P kP

Sea Y = [v]P . Entonces, demuestra que, usando (3.6.7) y la observación 5. de (3.6.6), que existe una
constante c > 0 tal que

φ(Y + k) − φ(Y ) − T̃(k)

kf(v + h) − f(v) − ThkW
≥c
khkV kkk

para todo k ∈ B (Y ; r) . Concluye que


 φ satisface el primer punto (5.6.4). Por lo tanto, existe una función
e : B (Y ; r) → Lin Rdim V , Rdim W tal que

φ(Y + k) = φ(Y ) + T̃k + e(Y ; k)k.

Considera la matriz asociada a e(Y ; k) respecto de las bases canónicas de Rdim V y Rdim W . Existe una única
Q
transformación lineal ε(v; h) ∈ Lin (V , W ) tal [ε(v; h)]P es la matriz de e(Y ; k). Se cumple entonces que
Q Q
[ε(v; h)h]Q = [ε(v; h)]P [h]P y como k = [h]P y [ε(v; h)]P = e(Y ; k) se obtiene que [ε(v; h)h]Q = e(Y ; k)k.
Deduce que
f(v + h) = f(v) + Th + ε(v; h)h.

2) Ñ 3) La misma demostración que para el caso Rn y Rm aplica.

3) Ñ 1) La misma demostración que para el caso Rn y Rm aplica.

( 5.56 ) Utiliza la definición (5.6.5) o bien (5.6.4) para encontrar una trasformación lineal que satisfaga la definición
de derivada para los siguientes casos. Toma un punto P arbitrario, por ejemplo P = (a, b) ∈ R2 .

1. f(x, y) = x + xy;

2. f(x, y) = 2xy + y 2 ;

3. f(x, y) = exp(x + y);

4. f(x, y) = 3x + 2y;

5. f(x, y) = sin(x) + cos(y).

( 5.57 ) Sea A ⊂ V un conjunto abierto y convexo. Supón que f : A → W es tal que Df (v) = 0 para todo
v ∈ A. Entonces f es constante.
Sugerencia: utiliza el teorema del valor medio.

173
Capítulo 5. La derivada en varias variables.

( 5.58 ) Sea A ⊂ V un conjunto abierto y conexo. Supón que f : A → W y es tal que Df (v) = 0 para todo
v ∈ U. Entonces f es constante.
Sugerencia: basta demostrar que para cierto v fijo en A se tiene que f(v) = f(u) para todo u ∈ A. Para
esto utiliza que un conjunto abierto y conexo es conexo por trayectorias (ve el ejercicio (4.78)). Por lo que si
u ∈ A, existe una trayectoria continua α : [0, 1] → A tal que α(0) = v y α(1) = u. Como α es continua y
[0, 1] es compacto, su traza es compacto. Como A es abierto y u ∈ U existe r > 0 tal que B (u; r) ⊂ U. Como
Df (w) = 0 para todo w ∈ B (u; r) se tiene que f es constante en B (u; r) ; esto puede repetirse para cada u ∈ U
con su ru > 0 correspondiente. Considera ahora rt > 0 tal que B (α(t); rt ) ⊂ U y define la cubierta abierta de
la traza de α dada por O = (B (α(t); rt ))t∈[0,1] . Utiliza que la traza de α es compacto para encontrar t1 , . . . , tN
tales que (B (α(ti ); rti ))i=1,...,N cubre α([0, 1]).
( 5.59 ) Proporcione un ejemplo de una función f : A ⊂ V → R, con U abierto y dim V ≥ 2, tal que Df (v) = 0
para todo v ∈ U y f no sea constante en U.
( 5.60 ) Sea f : V → W tal que kf(u) − f(v)k ≤ ku − vk2 para todo u y todo v en V . Entonces f es constante.
Sugerencia: demuestra que Df (v) = 0 para todo v ∈ V .
( 5.61 ) Sea fi : (ai , bi ) → W diferenciable para i = 1, . . . , N. Sea
N
X
f(x1 , . . . , xN ) = fi (xi ).
i=1

Entonces F es diferenciable. Expresa a la derivada de f como suma de las derivadas de fi .


( 5.62 ) Sea F : R2 → R3 dada por

F(x, y) = (sin x cos y, cos x sin y, exp(x + y)).

Encuentra DF (P) para P ∈ R2 .


( 5.63 ) Sean f, g : R → R dos funciones diferenciables. La función F : R2 → R2 dada por
Zy
Ñ é

F(x, y) = f(x + g(y)), g(x + y) f(t)dt


x

es diferenciable en todo R2 y encuentra su derivada en un punto P ∈ R2 , arbitrario.


( 5.64 ) Encuentra el plano tangente a F en P = (1, 1, −1) donde F(x, y, z) = (x + yz, x 2 − xz).
( 5.65 ) Sea T : Rn → Rm una trasformación lineal. El plano tangente a T en P es T. Interprete esto cuando T
es una función de R en R (esto es, T representa una lineal recta).
( 5.66 ) Encuentra el plano tangente en (0, 1, 1) a la superficie en R3 definida por la ecuación x 2 + y 2 − z2 = 0.
( 5.67 ) Sea S la superficie definida por la ecuación 3x 2 + 2y 2 − z = 4. Encuentra el plano tangente a S en
(−1, 1, 9).
Ç √ å
1 1 7
( 5.68 ) Sea S2 la esfera unitaria en R3 . Encuentra su plano tangente en √ , , √ .
2 3 3 2
( 5.69 ) Sea f : R2 → R una función diferenciable. Supón que Pc es el plano en R3 descrito por la ecuación
z = c y que f ∩ Pc es una traza descrita por una curva suave. En este caso, demuestre que si α parametriza a la
traza f ∩ Pc entonces Df (P) α0 (t) = 0, donde α(t) = P.

174
5.12. Ejercicios.

( 5.70 ) Una función f : V1 × . . . × Vn → W se denomina multilineal («n-lineal» cuando tiene n argumentos) si


para cualquier vector (v1 , . . . , vn ) ∈ V1 × . . . × Vn y cualquier índice i ∈ {1, . . . , n} se cumple que la función
ui 7Ï f(v1 , . . . , vi−1 , ui , vi+1 , . . . , vn )
es lineal de Vi a W . Demuestra que si f es multilineal entonces es diferenciable. También encuentra su derivada
en un punto arbitrario. Finalmente, encuentra la derivada de la función det : Rn × · · · × Rn → R, que dados los
n vectores A1 , . . . , An ∈ Rn regresa el determinante de la matriz cuyas filas son A1 , . . . , An .
Sugerencia: trata de imitar la demostración de (5.7.6.1). Para esto, deberás probar que existe una constante
c > 0 tal que
kf(v1 , . . . , vn )k ≤ c kv1 k . . . kvn k .
Aplica inducción intentando repetir la idea de (5.7.6.2). Para evitar problemas, define la norma en V1 × . . . × Vn
como k(v1 , . . . , vn )k = máx kvi k .
1≤i≤n

( 5.71 ) Considera V y W dos espacios normados con sendas normas kkV y kkW . Demuestra que la norma en
Lin (V , W ) dada por (5.6.2) puede definirse por
kLkLin(V ,W ) = sup kLvkW = sup kLvkW .
kvkV ≤1 kvkV =1

( 5.72 ) Con las notaciones de (5.7.6.2), demuestra que B 7Ï φ es un isomorfimos entre los espacios vectoriales
Bil(W1 , W2 ; U) y Lin (W1 , Lin (W2 , U)) . Considera la norma en Bil(W1 , W2 ; U) generada por este isomorfismo
y (5.6.2). Sea kk tal norma. Demuestra que
kBk = ı́nf{c > 0|∀(w1 , w2 ) ∈ W1 × W2 , kB(w1 , w2 )kU ≤ c kw1 kW1 kw2 kW2 }.
Salvo que se diga lo contrario, esta será siempre la norma en el espacio de transformaciones bilineales.
( 5.73 ) Con las notaciones de (5.72), demuestra que
kBk = sup kB(w1 , w2 )kU = sup kB(w1 , w2 )kU .
kw1 kW ≤1,kw2 kW ≤1 kw1 k=1,kw2 k=1
1 2

( 5.74 ) Considera tres espacios vectoriales normados de dimensión finita U, V y W , en todos se denotará por kk
a su norma respectiva. Considera la función Φ : Lin (V , W ) × Lin (U, V ) → Lin (U, W ) dada por Φ(T, S) = TS.
Demuestra que kΦk ≤ 1.
Sugerencia: demuestra primero que kSTk ≤ kSk kTk , esto es consecuencia directa de algún teorema del texto,
¿cuál?
( 5.75 ) Más generalemente que en (5.72), considera n + 1 espacios vectoriales normados V1 , . . . , Vn y W . En
todos lados se denotará por kk a la norma correspondiente. Define V = V1 × . . . × Vn y E = Mul(V; W ) como el
conjunto de las transformaciones multilineales de V a W . Entonces
n
X
1. la función k(v1 , . . . , vn )k = kvki define una norma en V; este inciso no influirá en los demás.
i=1

2. Para cada M ∈ E existe un número c > 0 tal que para cualquier vector (v1 , . . . , vn ) ∈ V se cumple que
kM(v1 , . . . , vn )k ≤ c kv1 k . . . kvn k .

3. La función
kMk = ı́nf{c > 0|∀(v1 , . . . , vn ) ∈ V, kM(v1 , . . . , vn )k ≤ c kv1 k . . . kvn k}
define una norma en E. Esta será la norma con la que siempre se trabajará en el espacio de transformaciones
multilineales.

175
Capítulo 5. La derivada en varias variables.

4. La norma se puede caracterizar de las siguientes dos formas

kMk = sup kM(v1 , . . . , vn )k = sup kM(v1 , . . . , vn )k .


kv1 k≤1,...,kvn k≤1 kv1 k=1,...,kvn k=1

176
Capítulo 6

• Las derivadas de una función.

En este capítulo se desarrollará parte de la teoría clásica de derivación. Las demostraciones aquí
expuestas se deducirán de consideraciones sencillas. Se demostrará una condición suficiente de di-
ferenciabilidad y se ilustrará con algunos ejemplos los porqués de la inconveniencia de utilizar a las
derivadas parciales como definición de derivada. También se desarrollarán métodos de derivación par-
cial utilizando ampliamente la regla de la cadena, (5.7.3).

§ 6.1. Derivadas en direcciones.


La noción de derivada en direcciones es simple. Se supone que se está sobre una superficie S y
se quiere encontrar la pendiente de esta cuando se realiza una traslación sobre ella a través de cierta
dirección. Esto es, dada f : A ⊂ V → W y α : I ⊂ R → A una curva tal que α(0) = v, la razón de cambio
en v sobre la superficie definida por f a través de la curva α es la derivada. Esto conduce a la siguiente
definición.
( 6.1.1 ) Sea f : A ⊂ V → W y α : I ⊂ R → A, tal que α(0) = v. Se define la pendiente de f en v a través de
la curva α como
(f ◦ α)(h) − (f ◦ α)(0)
Dα f (v) = lı́m .
h→0 h
A las pendientes Dα f (v) se les denomina de manera genérica como derivadas en direcciones.
En virtud de esto, si se define g(t) = f(α(t)) entonces Dα f (v) = g 0 (0), aún cuando f no sea diferen-
ciable en α(0).
( 6.1.2 ) Si f es diferenciable en v y α es diferenciable en 0 entonces

Dα f (v) = Df (v) α0 (0).

Lo que es inmediato de la regla de la cadena (5.7.3).


Esta igualdad puede no ser muy útil todavía, ya que es relativamente tedioso encontrar Df (v) .
En los ejercicios se dará una interpretación geométrica intuitiva de la derivada de f en v a través
de la curva α.
Å ã
k(x, y, z)k
( 6.1.3 ) Sea f : R3 → R dada por f(x, y, z) = exp . Encuentra la razón de cambio de f es P a
Å ã2
1 1
través de la curva α, Dα f (P) , donde P = √ , 0, − √ y α : R → R3 está dada por α(t) = (sin t, 0, cos t).
2 2

177
Capítulo 6. Las derivadas de una función.

Como α(0) 6= 0, se debe reparametrizar α con algún cambio de parámetro u tal que (α ◦ u)(0) = P.
1 3π 3π 3π
Observa que √ = sin = − cos . Se toma u(t) = t − entonces (α ◦ u)(0) = P. Sea β = α ◦ u
2 4
Çp 4 å 4
(sin u(t))2 + (cos u(t))2 1
entonces (f ◦ β)(t) = exp = e 2 . Por lo tanto, (f ◦ β)0 (0) = 0. Note que α está
2
embebida en S2 por lo que f ◦ α es constante.
1
( 6.1.4 ) Sean f(x, y) = x 2 +2xy y α(t) = (sin 2πt, cos 2πt). Encuentra la razón de cambio de f en P = (0, −2)
t
en la dirección de α.
Å ã
1 1
Observa que α = P. Es fácil ver que si se reparametriza α por u(t) = t − entonces la repa-
2 2
rametrización satisface la definición Å de
ã derivada en direcciones. Sin embargo, de acuerdo al ejercicio
1
(6.4) se tiene que Dα f (P) = (f ◦ α)0 . Observa que
2
1 1
(sin 2πt)2 + 2 sin 2πt cos 2πt = 2 (sin 2πt)2 + sin 4πt .
 
(f ◦ α)(t) = 2
t t
De esta forma,
1 2
(f ◦ α)0 (t) = (4π sin 2πt cos 2πt + 4π cos 4πt) − 3 (sin 2πt)2 + sin 4πt .

t 2 t
Å ã Å ã
1 1
Por lo que, (f ◦ α)0 = 16π. Finalmente, Dα f = 16π.
2 2

§ 6.2. Derivadas parciales en Rn .


Las derivadas parciales que ahora se definen son un caso particular de las derivadas en direcciones.
Será conveniente primero definir las derivadas direccionales para después dar paso a las derivadas
parciales. Las derivadas direccionales se definen como la derivada de f en v en la dirección α en el
caso especial en que α es una recta. Se recuerda que para que una curva represente una recta han
de existir dos vectores constantes v y u, con u 6= 0, tales que α(t) = v + tu. Para el caso en que u es
unitario, se tiene que la curva α está parametrizada por longitud de arco. Luego, la derivada direccional
de f en v a través de α representa la razón de cambio de f en v en dirección u.
( 6.2.1 ) Sean f : A ⊂ V → W y u ∈ V unitario. Sea α(t) = tu + v. Se define la derivada direccional de f en v
en dirección u como
f(v + hu) − f(v)
Du f (v) = lı́m .
h→0 h
Nota el cambio de α por u en el símbolo Du f (v) . Se ha hecho esto pues se prefiere hacer notar la
dependencia de u sobre la de α.
Ya con esta definición es fácil definir las derivadas parciales, las cuales se dan, por lo pronto, para
Rn .
( 6.2.2 ) Se define la derivada parcial de F : U ⊂ Rn → Rm en P respecto del k-ésimo eje coordenado como
Dk F (P) = Dek F (P) .
¿Cómo se calculan las derivadas parciales? Una manera sencilla de pensar a la derivada parcial
k-ésima de F : U ⊂ Rn → Rm en el punto P es la siguiente. Se considera la curva g : prk (U) → R dada
por
g(x) = F(a1 , . . . , ak−1 , x, ak+1 , . . . , an ).

178
6.2. Derivadas parciales en Rn .

Entonces, la derivada parcial k-ésima de F en P = (p1 , . . . , pn ) es la derivada de g en prk (P). En efecto,


por definición, se tiene que

F(P + hek ) − F(P)


Dk F (P) = lı́m
h→0 h
F(p1 , . . . , pk−1 , pk + h, pk+1 , . . . , pn ) − F(P)
= lı́m
h→0 h
g(pk + h) − g(pk )
= lı́m
h→0 h
g(prk (P) + h) − g(prk (P))
= lı́m = g 0 (prk (P)).
h→0 h

Por lo que el modo más fácil de calcular la derivada parcial k-ésima de F en P es tomar la derivada
ordinaria de R pensando que F sólo es función de su k-ésimo argumento. Esto es, pensar que todos los
argumentos, salvo el k-ésimo, son constantes. Por ejemplo, se considera la función f : R2 → R definida
según f(x, y) = x 2 + 2xy entonces D1 f (a, b) se calcula al derivar f como función de x y considerando
todo lo demás constante y después evaluar esta derivada en (a, b). De este modo, D1 f (a, b) = 2a + 2b.
Análogamente, si f(x, y, z) = sin(xy) + z2 entonces D1 f (a, b, c) = b cos(ab) y D3 f (a, b, c) = 2c.
Resulta evidente que las propiedades que satisfacen las derivadas en direcciones las satisfacen por
igual las derivadas parciales. Adicionalmente, se tiene la siguiente propiedad.

( 6.2.3 ) Sea f : A ⊂ V → W diferenciable en v. Sea α(t) = tu + v, donde u ∈ V es un vector arbitrario


entonces Dα f (v) existe y además, Dα f (v) = Df (v) u.

De la regla de la cadena (5.7.3),

Dα f (v) = D[f ◦ α] (0) = Df (α(0)) Dα (0) .

Pero α(0) = v y Dα (0) = α0 (0) = u. De este modo, Dα f (v) = Df (v) u.


Con la propiedad previa ya es posible dar una expresión general para la matriz asociada a una
función A ⊂ Rn → Rm . Para esto es necesario recordar que en el caso de transformaciones lineales
de T : Rn → Rm se cumple que TX = [T]X pues X = [X] en las coordenadas canónicas de Rn .

˚
( 6.2.4 ) Sea F = (f1 , . . . , fm ) : A ⊂ Rn → Rm diferenciable en P ∈ A
Û y se supone que M es la matriz de
DF (P) respecto a las bases canónicas de Rn y Rm . Entonces, si ai,j es la entrada (i, j) de M se cumple que
ai,j = Dj fi (P) .

Sea (e1 , . . . , en ) la base canónica de Rn . Entonces,


 
0
  .  Ö è
a1,1 a1,2 ... a1,n  ..  a1,k
.. .. .. ..   ..
Mek =   1 = .
 
. . . . .
 . 
am,1 am,2 ... am,n  ..  am,k
0

Por otro lado, según (6.10)

DF (P) ek = Dk F (P) = (Dk f1 (P) , . . . , Dk fm (P)).

179
Capítulo 6. Las derivadas de una función.

Por lo tanto, se tiene que la k-ésima columna de M viene dada por


Ö è Ö è
a1,k Dk f1 (P)
.. = .. .
. .
am,k Dk fm (P)

De este modo, la matriz de la derivada de F en P respecto de las bases canónicas de Rn y Rm es


 
D1 f1 (P) ··· Dn f1 (P)
A= .. .. ..
.
 
. . .
D1 fm (P) ··· Dn fm (P)

Que es exactamente lo que se afirmó.


Nota que en particular Di F (P) es la i-ésima columna de la matriz que representa a DF (P) respecto
a las bases canónicas de Rn y Rm .

( 6.2.5 ) Sea F : A ⊂ Rn → Rm diferenciable en P. Entonces, todas las derivadas parciales de F en P existen.

( 6.2.6 ) Sea F : A ⊂ Rn → Rm diferenciable en P. Entonces, para cualquier X = (x1 , . . . , xn ) se cumple que


n
X
DF (P) X = xi Di F (P) .
i=1

La matriz que representa a DF (P) es un elemento de Matm×n (R) . Esta matriz puede existir aún
cuando F no sea diferenciable en P. Esto es, el recíproco de (6.2.5) es falso. Por ejemplo, considera la
función ß
1 si xy 6= 0
f(x, y) =
0 si xy = 0.
Entonces, como f restringida a los ejes coordenados es la función cero, sus derivadas parciales existen
en el origen y valen cero. Obviamente f no es continua en el origen, por lo que tampoco es diferenciable
ahí (5.7.2).
Conviene entonces definir la matriz M cuya entrada (i, j) es Dj fi (P) (observa el intercambio de
índices). Cabe destacar que esta definición solo aplica para el caso de funciones de A ⊂ Rn a Rm .

( 6.2.7 ) Sea F = (f1 , . . . , fm ) : A ⊂ Rn → Rm . Si existen todas las derivadas parciales de F en P ∈ A, se define


la matriz jacobiana de F en P como
 
D1 f1 (P) ··· Dn f1 (P)
JF (P) =  .. .. ..
.
 
. . .
D1 fm (P) ··· Dn fm (P)

z 6.2.1 Ejemplos.
( 6.2.8 ) Calcula todas las derivadas parciales de F : R2 → R2 en P = (π, 0), donde
Å ã
1−x
F(x, y) = sin x cos(x + y), 2 .
y +1

180
6.2. Derivadas parciales en Rn .

Para calcular D1 F (P) se debe pensar a esta como una curva que es función únicamente de su primer
argumento. Se tiene que
Å ã
1
D1 F (x, y) = cos x cos(x + y) − sin x sin(x + y), − 2 .
y +1

Por lo tanto, D1 F (P) = (1, −1). Ahora bien, si se piensa a F como una curva solo definida para su
segundo argumento se ve que
Å ã
2y(x − 1)
D2 F (x, y) = − sin x sin(x + y), 2 .
(y + 1)2

Por lo tanto, D2 F (P) = (0, 0).


( 6.2.9 ) Calcula la matriz Jacobiana de F(x, y, z) = (ex+yz , sin(x − z)) en P = (1, 0, −1).
Se tiene que D1 F (x, y, z) es la derivada de F pensada como una curva definida únicamente para su
primer argumento. De este modo,

D1 F (x, y, z) = (ex+yz , cos(x − z)).

Evaluando en P queda que, D1 F (P) = (e, cos(2)). Análogamente se obtiene que

D2 F (x, y, z) = (zex+yz , 0)

y que
D3 F (x, y, z) = (yex+yz , − cos(x − z))
Luego, D2 F (P) = (−e, 0) y D3 F (P) = (0, − cos(2)). Por lo tanto,
ï ò
e −e 0
JF (P) =
cos(2) 0 − cos(2)

que es lo que se quería.

z 6.2.2 Sobre la definición de derivada.


Ahora se dará otra motivación más para la definición técnica de derivada (5.6.5). Algunos autores
prefieren la siguiente definición de que F sea diferenciable en P.
Definición alternativa de diferenciabilidad: Sea F : U ⊂ Rn → R con U un abierto de Rn . Se
dice que F es diferenciable en P si todas las derivadas parciales de F existen en P y además, la
transformación lineal TH = JF (P) H es la única que satisface

kF(P + H) − F(P) − JF (P) Hk


lı́m = 0.
H→0 kHk

A continuación se hacen varias observaciones ante la anterior definición.


Primero: esta definición siempre acarrea consigo un problema, el cual, por experiencia, es difícil de
eliminar. Si se introduce primero esta definición se piensa que si las derivadas parciales una
función existen en un punto particular entonces la función debe ser diferenciable en este punto.
Sin embargo, se ha visto que existe una función cuyas parciales existen en un punto y, pese a esto,
la función ni siquiera es continua en el punto.

181
Capítulo 6. Las derivadas de una función.

Segundo: si T existe de acuerdo a (5.6.5) entonces JF (P) existe, por lo que es redundante pedir la
existencia de JF (P) .
Tercero: ha sido visto que la derivada, tal como fue definida en este texto, permite demostrar que es
única, por lo que también resulta no razonable solicitar a la definición la unicidad.
Cuarto: todas las propiedades demostradas de la derivada no se pueden alcanzar a apreciar con esta
definición. Esto resulta del hecho que las derivadas parciales y la derivada ordinaria de R son el
mismo concepto, luego no se entiende que existe un profundo cambio conceptual.
Quinto: el pedir que U sea abierto no es necesario, siempre basta trabajar con punto interiores en el
dominio.
Sexto: por último, todas estas propiedades fueron demostradas a partir de (5.6.5). Luego, estas son
razones suficientes como para no definir la derivada de una función F en un punto P, como viene
dada en el arriba. De cualquier forma, se pide al lector que demuestre que la definición del arriba
y la dada en (5.6.5) son equivalentes.

z 6.2.3 Regla de la cadena para las derivadas parciales en Rn .


Ahora hay interés en escribir la regla de la cadena en términos de las derivadas parciales. Se
necesitará un poco de teoría sobre transformaciones lineales. Se recuerda que si V y W son dos
espacios vectoriales reales, se define Lin (V , W ) como el conjunto de las transformaciones lineales
continuas con dominio V y contradominio en W .
( 6.2.10 ) Se sigue directamente de la definición que Lin (U, V ) es un espacio vectorial real y que si U y V son
de dimensión finita entonces dim Lin (U, V ) = dim Udim V .
En efecto, existen en U y V bases ordenadas, por ejemplo BU y BV , toda transformación lineal queda
entonces determinada por su matriz respecto a estas bases. Estas matrices tienen dim Udim V entradas
y de aquí el teorema.
Nota que en el caso en que U = Rn y V = R entonces Lin (U, V ) = (Rn )∗ , definido en el primer
capítulo.
( 6.2.11 ) Sean U, V y W tres espacios vectoriales reales de dimensión finita. Se supone que P = (u1 , . . . , un ),
Q = (v1 , . . . , vm ) y R = (w1 , . . . , wp ) son sendas bases ordenadas de U, V y W . Sean S ∈ Lin (U, V ) y
Q
T ∈ Lin (V , W ) . Entonces [TS]R R
P = [T]Q [S]P .

Sea (e1 , . . . , ep ) la base canónica de Rp . Se recuerda que se recuerda que la matriz [TS]R
P es la única
tal que para todo u ∈ U
[TS]RP [u]P = [TSu]R .

Entonces,
Q
[T]R R
Q [S]P [u]P = [T]Q [Su]Q = [TSu]R ,
Q
por unicidad, [TS]R R
P = [T]Q [S]P .
De esto, se puede derivar la regla de la cadena para derivadas parciales. Asimismo, se puede derivar
la matriz asociada a la derivada de una composición. La demostración del siguiente hecho es inmediata
del teorema anterior.
( 6.2.12 ) Sean f : A ⊂ Rn → Rm y g : B ⊂ Rm → Rp tales que f es diferenciable en P y que g es diferenciable
en Q = f(P). Entonces, la matriz de la transformación lineal D[g ◦ f] (P) con respecto a las bases canónicas de
Rn y de Rp es J[g ◦ f] (P) = Jg (f(P)) Jf (P) .

182
6.3. Las derivadas parciales en general.

( 6.2.13 ) Se supone que f : Rn → Rm y que g = (g1 , . . . , gp ) : Rm → Rn , son diferenciables en P y f(P),


respectivamente. Entonces, para i = 1, . . . , n,
m
X
Di [g ◦ f] (P) = Dk f (g(P)) Dk gi (P) .
k=1

§ 6.3. Las derivadas parciales en general.


En (5.7.4) se consideró el caso de funciones de V a W1 × . . . × Wm . En la sección pasada se consideró
a funciones de Rn a Rm . Ahora se generalizará esto y se considerará funciones de V1 × V2 a W1 × W2 .
Así mismo, se verá una expresión general para la matriz asociada dadas bases fijas. Conviene entonces
trabajar un poco con el espacio vectorial producto V1 × V2 .

( 6.3.1 ) Sean (V1 , kk1 ) y (V2 , kk2 ) dos espacios vectoriales normados reales. Entonces, la función k(v1 , v2 )k =
máx{kv1 k1 , kv2 k2 } es una norma en V = V1 × V2 . Con esta norma se satisface que B ((v1 , v2 ); r) = B1 (v1 ; r) ×
B2 (v2 ; r) , en donde el subíndice denota a qué espacio pertenece la bola. Mientras no se especifique lo contrario,
siempre se supondrá que la norma en el espacio producto es la expuesta aquí.

En efecto, se verificará que kk satisface la definición de norma (1.4.2). Entonces, sea (v1 , v2 ) ∈ V
cualquier elemento. Se cumple que

1. k(v1 , v2 )k ≥ kv1 k1 ≥ 0;

2. kv1 k1 , kv2 k2 ≤ k(v1 , v2 )k . Por lo que si k(v1 , v2 )k = 0 entonces v1 = 0 y v2 = 0, mostrando que


(v1 , v2 ) = (0, 0).

3. Si λ ∈ R,

kλ(v1 , v2 )k = k(λv1 , λv2 )k = máx{kλv1 k1 , kλv2 k2 }


= máx{|λ| kv1 k1 , |λ| kv2 k2 } = |λ| máx{kv1 k1 , kv2 k2 }
= |λ| k(v1 , v2 )k .

4. Sea (u1 , u2 ) ∈ V1 × V2 cualquiera. Entonces,

k(u1 , u2 ) + (v1 , v2 )k = máx{ku1 + v1 k1 , ku2 + v2 k2 } ≤ máx{ku1 k1 + kv1 k1 , ku2 k2 + kv2 k2 }


≤ máx{ku1 k1 , ku2 k2 } + máx{kv1 k1 , kv2 k2 } = k(u1 , u2 )k + k(v1 , v2 )k .

Finalmente, por definición

B ((v1 , v2 ); r) = {(u1 , u2 ) ∈ V1 × V2 | k(u1 , u2 ) − (v1 , v2 )k < r}


= {(u1 , u2 ) ∈ V1 × V2 | k(u1 − v1 , u2 − v2 )k < r}
= {(u1 , u2 ) ∈ V1 × V2 | ku1 − v1 k1 , ku2 − v2 k2 < r}
= B1 (v1 ; r) × B2 (v2 ; r)

Lo que concluye la demostración.

183
Capítulo 6. Las derivadas de una función.

Observación: es inmediato que si V = V1 × V2 y pr1 : V → V1 es la proyección canónica al primer eje


entonces pr1 es una función abierta. Pues si A es abierto entonces para cada v = (v1 , v2 ) ∈ A existe un
radio r > 0 tal que B (v; r) ⊂ A. Como pr1 (B (v; r)) = B1 (v1 ; r) ⊂ pr1 (A), se ve que pr1 es abierta.
Ahora se define el importante concepto de sección.
( 6.3.2 ) Sean A ⊂ V1 × V2 y v = (v1 , v2 ) ∈ A. Se 
define la sección de A respecto al segundo eje en el
punto v como el conjunto A2 (v) = pr2 A ∩ {v1 } × V2 = {u2 ∈ V2 |(v1 , u2 ) ∈ A}. Análogamente se define
A1 (v) = {u1 ∈ V1 |(u1 , v2 ) ∈ A}.
En particular, si v = (v1 , v2 ) ∈ A es un punto interior, entonces v2 es un punto interior de A2 (v) pues,
al ser la función pr2 abierto, pr2 manda el interior de A dentro del interior de pr2 (A). Observa que
puede suceder que v2 sea interior de A2 (v) sin que v sea interior de A.
Ahora se definen las derivadas parciales de una función f : V1 × V2 → W .
˚
( 6.3.3 ) Sean V1 , V2 y W tres espacios vectoriales reales de dimensión finita. Sean A ⊂ V1 ×V2 y v = (v1 , v2 ) ∈ A.
Û
Supón que f : A → W es una función cualquiera. Se definen la derivada parcial respecto del primer factor de f en
v como la derivada de la función f1 : A1 (v) → W , dada por f1 (u1 ) = f(u1 , v2 ), en el punto v1 . Análogamente, se
define la derivada parcial respecto del segundo factor de f en v como la derivada de la función f2 : A2 (v) → W ,
dada por f2 (u2 ) = f(v1 , u2 ), en el punto v2 . Estas derivadas se denotarán por D1 f (v1 , v2 ) ∈ y D2 f (v1 , v2 ) ,
respectivamente.

Observación: esta definición coindice con (6.2.2) cuan V1 = V2 = R y W = Rm . Pues en este caso,
A1 (v) contiene a un intervalo de la forma (v1 − r, v1 + r) y entonces la derivada de la función f1 en el
punto v1 es
f(v1 + h, v2 ) − f(v1 , v2 )
lı́m = D1 f (v1 , v2 ) .
h→0 h
( 6.3.4 ) Sea f : A ⊂ V1 × V2 → W una función diferenciable en v = (v1 , v2 ). Entoces, D1 f (v) y D2 f (v) existen
y satisfacen que
Df (v) (h1 , h2 ) = D1 f (v) h1 + D2 f (v) h2 .
Existe un r > 0 tal
que B (v; r) ⊂ A. En virtud de (6.3.1), B (v; r) = B1 (v1 ; r) × B2 (v2 ; r) . Además, la
derivada de f y de f en v coinciden, por lo que se puede suponer que A = B (v; r) . De este modo,

B(v;r)
 
f1 = f ◦ Π1 + (0, v2 ) y f2 = f ◦ (v1 , 0) + Π2 ,

en donde Π1 y Π2 son sendas funciones de V1 y V2 a V1 × V2 dadas por Π1 (u1 ) = (u1 , 0) y Π2 (u2 ) = (0, u2 ).
Como Π1 y Π2 son transformaciones lineales, se sigue que DΠ1 (u1 ) = Π1 y DΠ2 (u2 ) = Π2 . En virtud
de la regla de la cadena (5.7.3), las funciones f1 y f2 son diferenciables; equivalentemente, las derivadas
parciales de f existen. Además, se demostró que
 
D1 f (v) h1 = Df1 (v1 ) h1 = D f ◦ Π1 + (0, v2 ) (v1 ) h1
= Df (v1 , v2 ) DΠ1 (v1 ) h1 = Df (v) Π1 (h1 )
= Df (v) (h1 , 0)

y, análogamente,
D2 f (v) h2 = Df (v) (0, h2 ).
Sumando estas derivadas parciales, se encuentra que

Df (v) (h1 , h2 ) = Df (v) (h1 , 0) + Df (v) (0, h2 ) = D1 f (v) h1 + D2 f (v) h2 .

184
6.3. Las derivadas parciales en general.

Que es lo que se había afirmado.


Ahora se supone que B1 = (u1 , . . . , un ) y B2 = (v1 , . . . , vm ) son dos bases ordenadas de V1 y V2 ,
respectivamente, y que C es una base ordenada de W . Dada una función f : V1 × V2 → W , ¿quién o
qué forma toma la matriz de f respecto a la «concatenación» B = (u1 , . . . , un , v1 , . . . , vm ) de las bases
ordenadas B1 y B2 y C? Esto es más o menos inmediato de la propiedad previa. Observa que el vector
(h1 , h2 ) posee coordenadas en B dadas por [(h1 , h2 )]B = ([h1 ]B1 , [h2 ]B2 ) y en virtud de (6.3.4)

[Df (v) (h1 , h2 )]C = [D1 f (v) h1 + D2 f (v) h2 ]C = [D1 f (v) h1 ]C + [D2 f (v) h2 ]C
= [D1 f (v)]C C
B1 [h1 ]B1 + [D2 f (v)]B2 [h2 ]B2 .

Resultan entonces tentador reescribir la última expresión como sigue,


Å ã
 [h1 ]B1
[D1 f (v)]C [D2 f (v)]C [D1 f (v)]C [D2 f (v)]C

B1 [h1 ]B1 + B2 [h2 ]B2 = B1 B2 [h2 ]B2
,

en donde los cero que aparecen dentro dela matriz más grande son  matrices. Finalmente, usando que
[(h1 , h2 )]B = ([h1 ]B1 , [h2 ]B2 ) y que la matriz [D1 f (v)]C
B1 [D2 f (v)]C
B2 posee las dimensiones correctas, se
encuentra, por la unicidad de las matrices dadas bases fijas, que la matriz asociada a las bases B y C
de Df (v) es la matriz
[Df (v)]C C
[D2 f (v)]C
 
B = [D1 f (v)]B1 B2 .

Esto se resume en la siguiente propiedad. Para el siguiente teorema se utilizará (5.7.4) y el siguiente
convenio; si N1 y N2 son dos matrices en Matm×n1 (R) y Matm×n2 (R) entonces la «matriz de concatenación
por filas» es la matriz N = [N1 , N2 ] en Matm×n1 +n2 (R) . Por ejemplo, si se desea evaluar a N en el vector
(x, y) ∈ Rn1 +n2 entonces se escribirá
Å ã
x
N = N1 x + N2 y ∈ Rm .
y

Anpalogamente, laï «concatenación


ò por columnas» de las matrices M1 ∈ Matm1 ×n (R) y M2 ∈ Matm2 ×n (R)
M1
es la matriz M = ∈ Matm1 +m2 ×n (R) dada por
M2
Å ã
M1 x
Mx = ;
M2 x

recuerda que todo se piensa siempre como vectores columna. Con este convenio y la construcción
previa, el siguiente resultado es inmediato1 .

( 6.3.5 ) Sean V1 , V2 , W1 y W2 cuatro espacios vectoriales reales de dimensión finita. Supón que f = (f1 , f2 ) :
A ⊂ V1 × V2 → W1 × W2 es diferenciable en v = (v1 , v2 ). Sean B1 , B2 , C1 y C2 sendas bases ordenadas de
V1 , V2 , W1 y W2 . Supón que B es la concatenación de B1 y B2 y que C aquella de C1 y C2 . Entonces, la matriz
asociada a Df (v) respecto de las bases B y C toma la forma general
ñ
[D1 f1 (v)]C [D2 f1 (v)]C
ô
1 1
C B1 B2
[Df (v)]B = .
[D1 f2 (v)]CB1
2
[D2 f2 (v)]C
B2
2

z 6.3.1 Ejemplos.
A continuación se exponen algunos ejemplos, estos con el fin de aliviar al lector de tanta tecnicidad.
1 Queda a cargo del lector notar el porqué de la inmediatez de dicho resultado.

185
Capítulo 6. Las derivadas de una función.

x+y
( 6.3.6 ) Considera la función . Encuentra la matriz asociada a la derivada de esta función en un punto
x2 + 1
(x, y) cualquiera.

Primeramente se recuerda que siempre se considerará, salvo especificación explícita, las bases
canónicas de cada Rn . Entonces, se puede utilizar (6.2.3) o (6.3.5). Por la simplicidad de la función
original, conviene utilizar (6.2.3).
Entonces, se calculan las derivadas parciales. Entonces, sea f la función en cuestión. Se sigue que,
tras un cálculo elemental,

1 − 2xy − x 2 1
D1 f (x, y) = y D2 f (x, y) = .
(1 + x 2 )2 1 + x2

Por lo tanto, ñ ô
1 − 2xy − x 2 1
[Df (x, y)] = ,
(1 + x 2 )2 1 + x2
Lo que concluye este ejemplo.

( 6.3.7 ) Sea f(x, y, u, v) = u sin xy + ex+uv . Encuentra Df (x, y, u, v) .

Aquí se ilustrará el uso de (6.3.5). Sean V1 = R2 y V2 = R2 . Entonces, se definen as funciones


f1 = f ◦ Π1 + (0, 0, u, v) y f2 = f ◦ Π2 + (x, y, 0, 0) . Las derivadas asociadas son,

Df1 (x, y) = (yu cos xy + ex+uv , xu sin xy)

y
Df2 (u, v) = (sin xy + vex+uv , uex+uv ) .
En virtud de (6.3.5), se cumple que

[Df (x, y, u, v)] = yu cos xy + ex+uv sin xy + vex+uv uex+uv ,


 
xu sin xy

que obviamente coincide con la matriz que se obtendría de (6.2.3).

Observación: para evitar sobre notación, se escribirá Df (P) tanto para la matriz como para la trans-
formación lineal.

( 6.3.8 ) Sea F = (f1 , . . . , fm1 , g1 , . . . , gm2 ) : A ⊂ Rn1 × Rn2 → Rm1 × Rm2 una función diferenciable en
P = (p, q). Demuestra que la matriz asociada a la derivada de F en P no cambia, sin importar si se encuentra
con (6.2.3) o con (6.3.5).

En este caso se pondrá V1 = Rn1 , V2 = Rn2 , W1 = Rm1 y W2 = Rm2 . Asimismo, F1 = (f1 , . . . , fm1 ) y
F2 = (g1 , . . . , gm2 ).
Según (6.2.3) se debe cumplir que

D1 f1 (P) ... Dn1 f1 (P) Dn1 +1 f1 (P) ... Dn1 +n2 f1 (P)
 
 .. .. .. .. .. ..
. .


 . . . . 

 D1 fm1 (P) ... Dn1 fm1 (P) Dn1 +1 fm1 (P) ... Dn1 +n2 fm1 (P) 
DF (P) = 
 D1 g1 (P)
.
 ... Dn1 g1 (P) Dn1 +1 g1 (P) ... Dn1 +n2 g1 (P) 
 .. .. .. .. .. .. 
 . . . . . . 
D1 gm2 (P) ... Dn1 gm2 (P) Dn1 +1 gm2 (P) ... Dn1 +n2 gm2 (P)

186
6.3. Las derivadas parciales en general.

Intencionalmente se separó la matriz previa en cuatro bloques, se demostrará que las derivadas
parciales
poseen por matriz asociada el bloque correspondiente. Solo se ilustrará el caso de φ = F2 . Para

A1 (P)
empezar, nota que
φ(x1 , . . . , xn1 ) = F2 (x1 , . . . , xn1 , q) = (g1 (x1 , . . . , xn1 , q), . . . , gm1 (x1 , . . . , xn1 , q)).
Entonces, según (6.2.3) se cumple que
 
D1 g1 (p, q) ... Dn1 g1 (p, q)
D1 F2 (P) = Dφ (p) =  .. .. ..
,
 
. . .
D1 gm1 (p, q) ... Dn1 gm1 (p, q)
que es lo que se quería mostrar.
( 6.3.9 ) Sean V y W dos espacios vectoriales y f : A ⊂ V → W una función diferenciable en v. Supón que P y Q
son bases ordenadas de V y W , respectivamente. Considera los isomorfismos de coordenadas y la transportación
de φ = [ ]Q ◦ f ◦ [ ]−1
P de f. Sea v ∈ V y X = [v]P . Entonces, una condición necesaria y suficiente para que φ sea
diferenciable en X es que f sea diferenciable en v. En este caso, la derivada de φ en X es la transportación de la
derivada de f en v; esto es, Dφ (X) = [ ]Q Df (v) [ ]−1
P .

Los cambios de coordenadas son transformaciones lineales invertibles, todo es consecuencia inme-
diata de la regla de la cadena (5.7.3).
( 6.3.10 ) Sea Vn el espacio de las funciones polinomiales de grado menor o igual que tres. Se denotará por x k
a la función t 7Ï t k para k ∈ N y por 1 a la función t 7Ï 1. Asimismo, define como W = lin h{sin, cos, exp}i .
2
Considera la función f dada por f(a0 + a1 x 1 + a2 x 2 + a3 x 3 ) = (a1 + a2 ) sin − sin a1 cos + » exp .
a02 + 1
Responde y demuestra lo siguiente correctamente.
1. La dimensión de W es tres y la base ordenada (sin, cos, exp) se denominará base natural.
2. ¿Es f diferenciable en todo punto de V3 ? Si f es diferenciable, encuentra su función de derivadas.
3. ¿Cuál es la tranportación de f respecto a las bases naturales de V3 y W ? Encuentra la matriz asociada a la
derivada de la transportación. ¿Qué relación guardan las entradas de la derivada de la transportación con
la derivada de f?
Se reponderá y demostrará cada punto por separado.
1. Se verá que {sin, cos, exp} es base de W . Por definición de W este conjunto ya genera, por
lo que solo se debe demostrar su independencia lineal. Supón entonces que existen constantes
k1 , k2 , k3 ∈ R tales que k1 sin +k2 cos +k3 exp = 0; esto es, para todo t ∈ R se cumple que k1 sin t +
k2 cos t + k3 exp(t) = 0. Se pone t = 0 para encontrar k2 + k3 = 0 y t = π para encontrar que
π
−k2 + eπ k3 = 0, por lo que k2 = k3 = 0. Tomando t = se obtiene que k1 = 0. Esto demuestra
2
la independencia lineal.
2. Se utilizará el teorema (6.3.9). Se transporta f. La transportación de f es
Ñ é
2
φ(a0 , a1 , a2 , a3 ) = a1 + a2 , − sin a1 , » ,
a02 + 1

lo cual puede verificarlo el lector él mismo. Ahora, es claro que φ es diferenciable, lo cual se sigue
de las reglas de diferenciación del capítulo previo. Por lo tanto, f también es diferenciable.

187
Capítulo 6. Las derivadas de una función.

3. La transportación de f es φ. Según (6.2.3) la derivada de φ es


 
0 1 1 0
 0 − cos a1 0 0
Dφ (a0 , a1 , a2 , a3 ) = 
 2a0
.

− 3 0 0 0
(a2 + 1) 2

Por lo tanto,
Ç å
2a0
Dφ (a0 , a1 , a2 , a3 ) (h0 , h1 , h2 , h3 ) = h1 + h2 , − cos a1 h1 , − 3 h0 .
(a2 + 1) 2

Por ende, la derivada de f tiene regla de correspondencia,

Df a0 + a1 x 1 + a2 x 2 + a3 x 3 (h0 + h1 x 1 + h2 x 2 + h3 x 3 )

2a0
= (h1 + h2 ) sin +(− cos a1 h1 ) cos − 3 h0 exp .
2
(a + 1) 2

La relación fundamental que guardan la derivada de la transportación de f y f es que si se piensa


a las bases ordenadas de V y W como bases del tipo canónico de Rn ; esto es, que el i-ésimo
elemento ordenado de la base de V es la posición i-ésima del los vectores del dominio y el j-
ésimo elemento ordenado de la base de W aquella del contradominio entonces se puede pensar
directamente a f como una función de R4 → R3 .

§ 6.4. La función de derivadas.


La idea de esta sección es generalizar el concepto de diferenciabilidad. De acuerdo a la definición
(5.6.5) se tiene que la derivada ha sido definida de manera local. Esto es, la definición de derivada de
f en v solo implica condiciones en v o en alguna bola lo suficientemente pequeña centrada en v. A
continuación se extiende el concepto a una forma global.
Se supone que f : A ⊂ V → W es diferenciable en A. En virtud de (5.6.5), A debe ser un conjunto
abierto. Por ejemplo, toda función polinomial f : Rn → R es diferenciable en todo Rn . Ahora bien,
sobre estas condiciones, es natural querer definir como función a la asociación

v 7Ï Df (v)

como una función de A a Lin (V , W ) . Como la derivada es única (5.7.1), resulta que la asignación
anterior define una función. Se denotará provisionalmente por D a esta nueva función. Entonces, se
está definiendo
D : A → Lin (V , W ) dada por D(v) = Df (v) .

Por notación, resulta irresistible proponer D = Df.

( 6.4.1 ) Sea f : A ⊂ V → W una función diferenciable. Se define la función Df : A → Lin (V , W ) como aquella
que a cada punto v ∈ A asocia la derivada de f en v. A esta función se le llamará función de primera derivada
de f. Asimismo, si V = V1 × V2 , a la asignación v 7Ï Di f (v) , para i = 1, 2, (las cuales existen según (6.3.4)) se
les llamará funciones de primeras derivadas parciales respecto al primer o segundo factor, según sea el caso. Esta
función será denotada por Di f : A → Lin (Vi , W ) .

188
6.4. La función de derivadas.

Observación: cuando V (o Vi ) es R entonces Lin (R, W ) posee dimensión dim W . Así que dada una
base ordenada B en W se obtiene que las coordendas [ ]B inducen un isomorfismo entre Lin (R, W ) y
Matm×1 (R) . Este último espacio se identifica canónicamente con Rm , por lo que se puede pensar que
Lin (R, W ) es esencialemente Rm ; regresando las coordenadas, se puede pensar que Lin (R, W ) = W ;
esto se hará en lo que resta del texto. En el caso de curvas esto es lo que se hacía, dada una curva
f : I ⊂ R → Rm su derivada siempre se escribía como una curva f 0 : I → Rm y no como una función
f 0 : I → Lin (R, Rm ) .

z 6.4.1 Derivadas parciales de orden superior en Rn .


Es claro que las derivadas parciales de orden superior serán las derivadas parciales de las funciones
de derivadas parciales. Para motivar su definición se supone que F : A ⊂ Rn → Rm es diferenciable.
Cuando se considera a la función Di F, según la observación previa, se puede suponer que esta toma
valores en Rm . Resulta natural preguntarse por las derivadas parciales de ella.
( 6.4.2 ) Sea F : A ⊂ Rn → W diferenciable. Se define la derivada parcial de segundo orden Di,j F como la
derivada parcial de la función Dj F : A → W respecto al i-ésimo eje; esto es, Di,j F : A → W es la función dada
por Di,j F (P) = Di [Dj F] (P) .
( 6.4.3 ) Encuentra las derivadas parciales de segundo orden de la función F : R2 → R2 definida según F(x, y) =
(x cos y, sin xy).
Ante todo, hay que estar seguro que F es diferenciable, pero este es el caso al ser que cada coor-
denada de F solo involucra funciones diferenciables. A continuación se debe encontrar las primeras
derivadas parciales de F. Se observa que

D1 F (x, y) = (cos y, y cos xy)

y que
D2 F (x, y) = (−x sin y, x cos xy).
Observa que las derivadas parciales también son diferenciables. Ahora se derivaran estas funciones,
esto es, para i = 1, 2 se encontrará la matriz Jacobiana de Di F (x, y) . Se encuentran las parciales de
estas funciones, esto es, las parciales segundas de F,

D1,1 F (x, y) = D1 [D1 F] (x, y) = (0, −y 2 sin xy)

y
D2,1 F (x, y) = D2 [D1 F] (x, y) = (− sin y, cos xy − xy sin xy).
Por otra parte,
D1,2 F (x, y) = D1 [D2 F] (x, y) = (− sin y, cos xy − xy sin xy)
y
D2,1 F (x, y) = D2 [D2 F] (x, y) = (−x cos y, −x 2 sin xy).
Lo que concluye el ejemplo. Observa que D1,2 F = D2,1 F.
Inductivamente, se puede definir la derivada de orden k-ésimo.
( 6.4.4 ) Sean F : A ⊂ Rn → W y i1 , . . . , ik+1 ∈ {1, . . . , n}, se dirá que F posee la derivada parcial de orden
(k + 1)-ésimo respecto al orden (ik+1 , . . . , i1 ) si la función Dik ,...,i1 F : A → W existe y la derivada parcial de esta
función, respecto del eje ik+1 , existe según (6.4.2), se define entonces
 
Dik+1 Dik ,...,i1 F = Dik+1 ,...,i1 F.

189
Capítulo 6. Las derivadas de una función.

( 6.4.5 ) Calcula D2 F y D3,2 F, donde F(x, y, z) = (x + y, 2x 2 − xyz).

Se observa que D2 F (x, y, z) = (1, −xz), por lo que D3,2 F (x, y, z) = (0, −y).

( 6.4.6 ) Calcula todas las derivadas parciales hasta de segundo orden de


Ñ y é
Z
F(x, y, z) = z g, sin x cos y, exp(z) ,
x

donde g : R → R es una función diferenciable.


Zy Zy Zx
Se procede primero a calcular las derivadas de primer orden. Se observa que g= g− g, y
x 0 0
Zt
como g es continua, la derivada de t 7Ï g existe y es g(t). De este modo, se tiene que
0

D1 F (x, y, z) = (−zg(x), cos x cos y, 0),

D2 F (x, y, z) = (zg(y), − sin x sin y, 0)


y Ñ y é
Z
D3 F (x, y, z) = g, 0, exp(z) .
x

Se procede ahora a calcular las derivadas parciales de segundo orden de F. Entonces,

D1,1 F (x, y, z) = (−zg 0 (x), − sin x sin y, 0),

D2,1 F (x, y, z) = (0, − cos x sin y, 0)


y
D3,1 F (x, y, z) = (−g(x), 0, 0).
Se continúa con las derivas parciales de D2 F, en este caso,

D1,2 F (x, y, z) = (0, − cos x cos y, 0),

D2,2 F (x, y, z) = (zg 0 (y), − sin x cos y, 0)


y
D3,2 F (x, y, z) = (g(y), 0, 0).
Por último, las derivadas parciales de D3 F. Calculándolas se obtiene que

D1,3 F (x, y, z) = (−g(x), 0, 0),

D2,3 F (x, y, z) = (g(y), 0, 0)


y
D3,3 F (x, y, z) = (0, 0, exp(z)).
Note otra vez que para cualesquier i, j ∈ {1, 2, 3} Di,j F = Dj,i F.

190
6.5. Existencia de la derivada.

§ 6.5. Existencia de la derivada.


Hasta ahora se ha podido definir la derivada y encontrar un modo simple de calcularla cuando se
sabe que existe. Lo que se quiere ahora es proceder al revés, esto es, encontrar un método simple
para determinar cuando es que la derivada existe. Aquí es donde jugarán un papel fundamental las
funciones de diferenciación definidas hasta ahora. Antes de exponer el teorema será bueno analizar
los siguientes ejemplos en Rn , los cuales ilustran algunas cuestiones que la derivada en varias variables
posee que la derivada en una variable no. Cabe destacar que los ejemplos también son válidos en
espacios vectoriales, bastaría tomar las coordenadas.

z 6.5.1 Diferenciabilidad de una función no implica continuidad de sus derivadas


parciales.
En términos de funciones reales, lo que se va a demostrar es que si una función es diferenciable
puede suceder que su función de derivadas no sea continua2 . El siguiente ejemplo ilustra este hecho.
( 6.5.1 ) Sea f : R2 → R definida como
 Å ã
1
x 2 y + sin si x 6= 0;

f(x, y) = x
 0 si x = 0.

Entonce f es diferenciable en cualquier punto de R2 y que sus derivadas parciales no son continuas en el origen.
Observa que {{(x, y) ∈ R2 : x = 0} es un conjunto abierto3 de R2 . En este conjunto f está defi-
nida como composición de funciones diferenciables por lo que es diferenciable. Falta demostrar que
f es diferenciable en aquellos puntos donde x = 0. Sea P = (0, y) ∈ R2 entonces para H = (h1 , h2 )
suficientemente pequeño,
 Å ã
 2 1
h1 y + h2 + sin si h1 6= 0
f(P + H) = f(h1 , y + h2 ) = h1 .
 0 si h = 0 1

Para utilizar la definición (5.6.5) se debe escribir la expresión anterior como f(P) + TH + ε(H)H, donde
T es lineal y ε toma valores en Lin R2 , R es tal que lı́m ε(H) = 0. Esto se puede hacer de varias

H→0
formas, por ejemplo
 ï Å ã òÅ ã
1 h1
h1 y + sin , h12 si h1 6= 0

f(P + H) = h1 h2 .
0 si h1 = 0.

Pues f(P) = 0 y se está tomando T = 0. Todavía se debe demostrar que


ï Å ã ò
1
lı́m h1 y + sin , h12 = 0.
H→0 h1
Es claro que cuando H → 0, se consigue h12 → 0. Por otro lado,
Å ã Å ã
h1 y + sin 1 ≤ |h1 | |y| + sin 1 ≤ |h1 |(|y| + 1).

h1 h1
2 En este caso se estará considerando a la función de derivadas con contradominio Rnm .
3 Para demostrar esta afirmación se toma la función f(x, y) = x, la cual es evidentemente continua, luego f −1 ({0}) es un
conjunto cerrado. Equivalentemente, su complemento es abierto.

191
Capítulo 6. Las derivadas de una función.

Luego, el límite requerido se cumple y, por lo tanto, f es diferenciable si x = 0 y su derivada, en este


caso, es cero.
Ha sido demostrado entonces que f es diferenciable en todo R2 . Por lo tanto las derivadas parciales
de f existen en todo R2 (6.2.5). Para la primera derivada parcial, se tiene que considerar por separado
los casos si x = 0 y si x 6= 0. Luego,
 Å ã
1 1
2x y + sin − cos si x 6= 0;

D1 f (x, y) = x x .
 0 si x = 0.

Y, análogamente, D2 f (x,Åy) = x 2 . Enã este caso se tiene que D1 f (x, y) no es continua en x = 0. Esto se
1 1
sigue del hecho que 2x y + sin es continua en el cero y cos no lo es. Por lo tanto, una de las
x x
parciales de f no es continua en el origen.
Este ejemplo demuestra que aún cuando un función sea diferenciable en un punto puede suceder
que sus derivadas parciales no sean funciones continuas en ese punto. La pregunta que resulta ahora
es, ¿el recíproco es cierto?

z 6.5.2 Continuidad de las parciales de una función no implica su diferenciabi-


lidad.
Se ha planteado la pregunta que si una función satisface que sus funciones de derivadas parciales son
continuas en un punto entonces la función es diferenciable en este punto. La respuesta a esta pregunta
es que no, si las funciones Di F son continuas en P no necesariamente se sigue que F sea diferenciable
en P. El siguiente ejemplo ilustra este hecho.
( 6.5.2 ) Sea A = (x, x) ∈ R2 : x ≥ 0 y f : R2 → R dada por


® 2
x3 si (x, y) ∈ A;
f(x, y) =
0 si (x, y) ∈ {A.

Las parciales de f son continuas en cero pero f no es diferenciable en cero.


Se verá primero quienes son las parciales de f. Observa que A es cerrado, por lo que {A es abierto.
En este conjunto f es la función cero, por lo que sus parciales existen y son cero. Si (x, y) ∈ A entonces
2
f(x + h, x) − f(x, y) −x 3
lı́m = lı́m ,
h→0 x h→0 h
h6=0

el cual no existe para x 6= 0. Luego, D1 f (0, y) = 0 para cualquier y ∈ R. Por otro lado,
2
f(x, x + h) − f(x, x) −x 3
lı́m = lı́m ,
h→0 h h→0 h
al igual que antes, este límite no existe a menos que x = 0. De este modo, se puede concluir que
Dom (D1 f) = Dom (D2 f) = {A ∪ {0} y D1 f = D2 f = 0 sobre su dominio. Como las parciales son
constantes en su dominio, se ha demostrado que estas funciones son continuas.
Se demuestra ahora que f no es diferenciable en cero. Se utilizará (5.6.4), la primera equivalencia.
Como las parciales de f en cero son cero, el único candidato para ser derivada de f en cero es la
transformación lineal cero (6.2.3). Para demostrar que esta transformación lineal no es la derivada de
f en cero se debe demostrar que
kf(H) − f(0)k
lı́m 6= 0.
H→0 kHk

192
6.5. Existencia de la derivada.

Luego, basta demostrar que el límite anterior no existe.


√ Tomando la curva, α(t) = (t, t), para t mayor
2
que cero, se ve que kf(α(t)) − f(0)k = t 3 y kα(t)k = 2t. Por lo que,

kf(α(t)) − f(0)k 1
lı́m = √ 1.
t→0 kα(t)k 2t 3
Este límite es infinito (púes t > 0), por lo que f no es derivable en el cero.
Observa que este ejemplo muestra que f puede tener parciales continuas en un punto y aún así no
ser diferenciable en tal punto. En este ejemplo sucedió que no había una vecindad del origen donde las
parciales existieran en todas partes de dicha vecindad. Es conveniente preguntarse entonces, ¿será que
la existencia de las parciales en toda una vecindad alrededor del punto implique la diferenciabilidad?
Para bien o para mal, esta tampoco es una condición suficiente para la diferenciabilidad.

z 6.5.3 Existencia de las parciales en todas partes no implica diferenciabilidad.


( 6.5.3 ) La función f : R2 → R2 definida según
( xy
si (x, y) 6= (0, 0);
f(x, y) = x2 + y2
0 si (x, y) = (0, 0).

posee derivadas parciales en todo R2 , sin embargo, no es diferenciable en el cero.


Para empezar, f es diferenciable en {{(0, 0)} pues es cociente de dos polinomios que no se anulan.
Por otro lado, las derivadas parciales de f son, para (x, y) 6= (0, 0)

y(x 2 + y 2 ) − 2x 2 y y3 − x2y
D1 f (x, y) = 2 2 2
= 2
(x + y ) (x + y 2 )2
y
x(x 2 + y 2 ) − 2xy 2 ) x 3 − xy 2
D2 f (x, y) = = .
(x 2 + y 2 )2 (x 2 + y 2 )2
En cambio, cuando (x, y) = (0, 0), se tiene que

f(h, 0) − f(0, 0)
D1 f (0, 0) = lı́m =0
h→0 h
y
f(0, h) − f(0, 0)
D2 f (0, 0) = lı́m = 0.
h→0 h
Luego, las funciones de derivadas parciales de f están definidas en todo R2 según:
 3
 y − x2y
si (x, y) =
6 (0, 0);
D1 f (x, y) = 2 2 2
 (x + y )
0 si (x, y) = (0, 0).
y  3
 x − xy 2
si (x, y) 6= (0, 0);
D2 f (x, y) = 2 2 2
 (x + y )
0 si (x, y) = (0, 0).
Por lo tanto, dado que la derivada de f es única y esta viene dada por las derivadas parciales, se ve
que el único candidato a ser derivada de f en el origen es la transformación lineal idénticamente cero.

193
Capítulo 6. Las derivadas de una función.

Utilizando (5.6.4) se sigue que una condición necesaria y suficiente para que f sea diferenciable en 0 es
que
f(H)
lı́m = 0.
H→0 kHk

Pero,
f(x, y) xy xy
= 3
= Äp ä3 ;
k(x, y)k k(x, y)k x2 + y2
haciendo x = y, se obtiene que
f(x, x) x2 1
= Ä√ ä3 = √ ,
k(x, x)k 2x 2 2x

el cual no tiende a ningún límite cuando x tiende a cero.


Observa que f es diferenciable en cualquier punto distinto del origen. Este ejemplo muestra que aún
cuando las derivadas parciales de una función existan en todos lados la función no es necesariamente
diferenciable en todos sus puntos. De nueva cuenta, vale la pena preguntarse si el recíproco es cierto.
Como el lector lo habrá de estar esperando la respuesta también es no. Esto es, existe una función
diferenciable en un punto que satisface que en toda bola centrada en ese punto las parciales de la
función no existen en toda la bola.

z 6.5.4 Existencia de la derivada en un punto no implica la existencia de las


parciales salvo ese punto.
( 6.5.4 ) Sea f : R2 → R definida como

x2 + y2 (x, y) ∈ Q2
ß
si
f(x, y) = .
0 si (x, y) ∈/ Q2

Entonces f es diferenciable en el cero y no existe una vecindad de este punto en donde las parciales de f existan
en todas partes de dicha vecindad.

Intuitivamente hablando se ve que f es un paraboloide de revolución con sus “puntos irracionales”


proyectados al cero, luego, f se comporta de manera suave en el cero y solo en ese punto. De esto
resulta natural pensar que f sea diferenciable en el origen. Como kf(x, y)k ≤ k(x, y)k2 , se ve que

kf(x, y) − f(0, 0)k


lı́m ≤ lı́m k(x, y)k = 0
(x,y)→(0,0) k(x, y)k (0,0)

lo cual muestra que la derivada de f en el origen existe y vale cero. Sea r > 0, y y ∈ Q ∩ [0, r), se afirma
que D1 f (0, y) no existe. Nota que si existiera entonces

f(h, y) − f(0, y)
D1 f (0, y) = lı́m .
h→0 h
Å ã
1
En particular, el límite anterior no cambia si se consideran las suciones (an )n∈N = y (bn )n∈N =
Ç√ å n n∈N
2
. Pero
2n n∈N
f(an , y) − f(0, y) a2 + y 2 − y 2
= n = an −Ï 0
an an n→∞

194
6.5. Existencia de la derivada.

y
f(bn , y) − f(0, y) −y 2 √
= = − 2y 2 n −Ï −∞,
bn bn n→∞

por lo que al no coincidir los límites, no puede existir D1 f (0, y) .

z 6.5.5 Una condición suficiente de diferenciabilidad.


Ante estos ejemplos el siguiente teorema se puede apreciar mejor. Si la existencia de las parciales
en todas partes de una bola y la continuidad de ellas en el punto de interés ocurren entonces la función
es diferenciable.

˚
( 6.5.5 ) Sea f : A ⊂ Rn → W una función tal que para cierto P ∈ A Û sus derivadas parciales existen en cierta
bola B (P; r) . Si todas las parciales de f son continuas en P entonces existe Df (P) .

Usando la técnica de transportación, se puede transportar f de tal forma que bastará demostrar el
teorema para una función f : B (P; r) → Rm tal que todas sus derivadas parciales son continuas en P. Se
utilizará el teorema del valor medio (5.11.2). Como las derivadas parciales existen, el único (en virtud
de (5.7.1)) candidato para ser derivada de f en P es la transformación lineal

n
X
(h1 , . . . , hn ) 7Ï Dk f (P) hk ,
k=1

ve (6.2.6). Se define para H = (h1 , . . . , hn ) y k ∈ {1, . . . , n} el vector Hk = (h1 , . . . , hk , 0, . . . , 0) y se pone


H0 = 0. Entonces
n
X n
X 
f(P + H) − f(P) − Dk f (P) hk = f(P + Hk ) − f(P + Hk−1 ) − Dk f (P) hk .
k=1 k=1

Se observa que las diferencias f(P + Hk ) − f(P + Hk−1 ) dependen solamente de una coordenada. Define,
para k ∈ {1, . . . , n} las funciones φk : [0, 1] → Rm dadas por

φk (t) = (h1 , . . . , hk−1 , thk , 0, . . . , 0)

y con estas, se pone gk : [0, 1] → Rm dada según la regla

gk (t) = f(P + φk (t)) − Dk f (P) thk .

Entonces,
n
X n
X 
f(P + H) − f(P) − Dk f (P) hk = gk (1) − gk (0) .
k=1 k=1

Según el teorema del valor medio (5.11.2),


n
n n
X X X
f(P + H) − f(P) − Dk f (P) hk ≤ kgk (1) − gk (0)k ≤ sup kgk0 (t)k .


k=1

k=1 0≤t≤1 k=1

195
Capítulo 6. Las derivadas de una función.

Sea (e1 , . . . , en ) la base canónica de Rn . Por definición de la derivada parcial,

gk (s + h) − gk (s)
gk0 (s) = lı́m
h→0 h
f(P + φk (s + h)) − Dk f (P) (s + h)hk − f(P + φk (s)) + Dk f (P) shk
= lı́m
h→0 h
f(P + Hk−1 + (s + h)hk ek ) − f(P + Hk−1 shk ek )
= lı́m − Dk f (P) hk
h→0 h
f(P + Hk−1 + (s + h)hk ek ) − f(P + Hk−1 shk ek )
= lı́m hk − Dk f (P) hk
h→0 hhk
= Dk f (P + Hk−1 + shk ek ) hk − Dk f (P) = Dk f (P + φk (s)) hk − Dk f (P) hk .

Sustituyendo en la desigualdad previa,


n
n
X X
f(P + H) − f(P) − D f h
k (P) k ≤ |hk | sup kDk f (P + φk (t)) − Dk f (P)k .



k=1
0≤t≤1k=1

Hasta ahora no se ha usado la continuidad de las funciones Di f. Usándola y usando que |hk | ≤ kHk , se
obtiene que para todo ε > 0 existe δ > 0 tal que para k = 1, . . . , n,
ε
kHk < δ Ñ kDk f (P + φk (t)) − Dk f (P)k < .
n
Por lo tanto, dado ε > 0 existe un δ > 0 tal que
n

X
f(P + H) − F(P) − Dk f (P) hk


k=1
kHk < δ Ñ < ε,
kHk

lo cual muestra la diferenciabilidad de F en P.


El teorema anterior es la herramienta fundamental para demostrar si una función es diferenciable
o no en un punto. Calcular las derivadas parciales es simple y verificar si son continuas o no en el
interior de su dominio también es simple.

z 6.5.6 Diferenciales.
Ahora se introduce uno de los conceptos clásicos del cálculo, este es el de diferenciales. Se quiere
destacar que este concepto surge de consideraciones físicas y, sobre todo, geométricas, pero estas no
serán estudiadas aquí a fondo. Las diferenciales se ligan con la derivada de tal forma que son conceptos
equivalentes (en un sentido que se definirá a continuación).
Considera f : R → R diferenciable en un punto, por ejemplo p. Entonces, por definición, existe una
transformación lineal h 7Ï f 0 (p)h tal que para cierto r > 0 se tiene que si |h| < r entonces

f(p + h) = f(p) + f 0 (p)h + φ(h)h,

donde, φ : (−r, r) → R satisface que su límite en cero es cero. Es importante destacar que f 0 (p)h
representa la parte lineal del incremento4 f(p + h) − f(p). A este incremento lineal se le conoce como
diferencial de primer orden de f en p respecto del incremento h. Como bien se sabe, si se denota
4 Por costumbre se suele pensar que un incremento es una cantidad positiva, este no es el caso. Se habla del incremento como

una diferencia de dos números.

196
6.5. Existencia de la derivada.

e(h)
por e(h) = φ(h)h entonces lı́m = 0. Por lo que «el desarrollo limitado» f(p) + f 0 (p)h aproxima a
h
h→0
f(p + h) de manera eficiente (esto será precisado con el teorema de Taylor). Estas nociones se pueden
trabajar en varias variables sin mayor problema.

( 6.5.6 ) Sea f : A ⊂ V → W diferenciable en v. Se define la diferencial de primer orden de f en v respecto del


incremento h como df (v; h) = Df (v) h.

Observaciones:

1. Se ha usado un punto y coma en lugar de simplemente una coma para destacar los diferentes pa-
peles que juegan h y v antes. Mientras v es el punto donde se calculará el diferencial, h representa
el incremento en los argumentos de f.

2. h puede ser un vector arbitrario en V . Esto es contrario a lo que muchos lectores estarían acos-
tumbrados. Típicamente se “define” el diferencial como la parte lineal de un incremento “infinite-
simal” en los argumentos. Entonces siempre surge la duda sobre qué tan pequeño tiene que ser
el incremento como para que sea infinitesimal5 . Esta definición formal evita tales ambigüedades.

3. df (v; h) es un vector en W . Además, la derivada de una función en un punto y el diferencial en


ese punto son equivalentes. Esto es cierto en el siguiente sentido, si se conoce el diferencial de
una función en un punto respecto de todos los incrementos entonces se conoce la derivada de
dicha función en este punto. Recíprocamente, si se conoce la derivada en un punto entonces al
evaluar en un incremento se obtiene el diferencial de esa función en ese punto respecto de ese
incremento.

4. Por cuestiones tradicionalistas es común denotar el incremento h domo dh (y dX o dx según V


sea Rn o R) esto se ilustra en el siguiente ejemplo.

( 6.5.7 ) Encuentra el diferencial de F(x, y) = (xy + y 2 , cos x) en (1, 1), con un incremento dX = (dx, dy).

En este caso, se tiene que el diferencial en P = (x, y) con incremento dX es


ï òÅ ã
y x + 2y dX
dF (P; dX) = DF (P) dX = = (ydx + (x + 2y)dy, cos xdx).
cos x 0 dy

De aquí que, sustituyendo datos, se obtiene dF ((1, 1); dX) = (dX + 3dy, cos 1dX).
El siguiente teorema es inmediato de la definición de diferencial. La demostración se basa en el
hecho que dF (P; dX) = DF (P) dX, por lo que será omitida.

( 6.5.8 ) Las siguientes reglas para diferenciales se verifican. Se considerarán f y g dos funciones diferenciables
en v y dh y dk dos incrementos en V . Entonces,

1. df (v; dh + λdk) = df (v; dh) + λdf (v; dk) ;

2. d(f + λg) (v; dh) = df (v; dh) + λdg (v; dh) ;


ï ò
1 df (v; dh)
3. si f(v) 6= 0 y W = R entonces d (v; dh) = − ;
f f(v)2
4. d hf, gi) (v; dh) = hdf (v; dh) , g(v)i + hf(v), dg (v; dh)i .
5 Por ejemplo, cuando se quiere medir el error cometido al utilizar un termómetro podría parece que un error de un grado
es “infinitesimal” si se está fundiendo un metal a 5000 grados centígrados. En cambio, si se mide la temperatura corporal, un
error de un grado centígrados podría significar estar sano o enfermo.

197
Capítulo 6. Las derivadas de una función.

( 6.5.9 ) Sean f : A ⊂ V → W y g : B ⊂ W → U tales que f es diferenciable en v y g es diferenciable en


w = f(v) entonces para cada incremento dh ∈ V , se tiene que

d(g ◦ f) (v; dh) = dg (w; df (v; dh)) ;

la «regla de Cauchy de la invariancia».

Observación: en el lenguaje clásico del cálculo la regla de Cauchy de la invariancia se expresaba


como sigue. Para un incremento df = df (v; dh) de la variable dependiente f, la variable independiente
g posee un incremento
dg = dg (w; df) .
Esta última notación, la cual es un abuso de notación6 , es ampliamente utilizado en libros de ingeniería
y física.

§ 6.6. Técnicas de derivación parcial.


Dentro de los problemas clásicos del cálculo vectorial se encuentran el de derivar identidades que
satisfacen cierta clase de funciones a partir de sus derivadas parciales. Luego, no siempre están invo-
lucradas todas las derivadas parciales por lo que es innecesario encontrar la derivada de una función
(esto es, encontrar todas las derivadas parciales). Por esta razón se trabaja a las derivadas parciales por
separado.

z 6.6.1 Permutabilidad de las derivadas parciales de segundo orden.


Si el lector ha sido cuidadoso seguro habrá observado que en cada ejemplo en el que se pedía
calcular las derivadas parciales de segundo orden una función F se tenía que Di,j F = Dj,i F para todos
los i y j. ¿Será que esto siempre ocurre? Y si es así, ¿sobre qué condiciones? En los ejercicios se piden
dos ejemplos: uno de una función que sea diferenciable y aún así las parciales mixtas no coincidan y
otro de una función que no sea diferenciable y sus parciales de segundo orden coincidan. De esto se
concluye que la permutabilidad de las parciales mixtas y la existencia de la derivada de una función son
independientes. El siguiente teorema brinda de una condición suficiente para que las parciales mixtas
coincidan.
( 6.6.1 ) Sea f : A ⊂ Rn → W , con A un conjunto abierto, una función tal que Di f y Dj f tienen dominio A. Se
supone que Di,j f existe y tiene dominio A y que es una función continua en P ∈ A. Entonces, Dj,i f (P) existe y,
además, Di,j f (P) = Dj,i f (P) ; el «teorema de Schwarz».
n
Y
Supón que P = (p1 , . . . , pn ), al ser P un punto interior de A existe R = (pk −r, pk +r) un rectángulo
k=1
abierto tal que R ⊂ A. Se define la función Φ : (−r, r)2 → W dada por

Φ(s, t) = F(P + sei + tej ) − F(P + sei ) − F(P + tej ) + F(P),

donde (e1 , . . . , en ) es la base canónica de Rn . Nota que Φ(s, t) = Φ(t, s). Toma s ∈ (−r, r) fijo y define
φ : (−r, r) → W dada por

φ(t) = F(P + sei + tej ) − F(P + tej ) − Di,j F (P) st.


6 Esto es una abuso de notación pues el símbolo g juega el papel de “variable independiente” y de “variable dependiente” en la

misma ecuación.

198
6.6. Técnicas de derivación parcial.

Entonces
φ(t) − φ(0) = Φ(s, t) − Di,j F (P) st.
En virtud del teorema del valor medio (5.11.2),

kφ(t) − φ(0)k ≤ |t| sup kφ0 (ξt)k .


0≤ξ≤1

Es claro, de la definición de derivada parcial, que

φ0 (ξt) = Dj F P + sei + ξtej − Dj F P + sei + ξtej − Di,j F (P) s.


 

Con lo cual,
 
kΦ(s, t) − Dij F (P) stk ≤ |t| sup Dj F P + sei + ξtej − Dj F P + ξtej − Dij F (P) s .
0≤ξ≤1

Define ahora ψ : (−r, r) → W por ψ(s) = Dj F P + sei + tej − Di,j F (P) s para t ∈ (−r, r) fijo. Observa
que ψ es diferenciable pues Di,j F existe en todo A. Por lo que aplica el teorema del valor medio a ψ.
Se obtiene que
kψ(s) − ψ(0)k ≤ |s| sup kψ0 (νs)k
0≤ν≤1
2
Finalmente, se ha demostrado que para (s, t) ∈ (−r, r)

kΦ(s, t) − Di,j F (P) stk ≤ |ts| sup Di,j F P + νsei + ξtej − Di,j F (P) .
0≤ξ,ν≤1

En efecto,
 la propiedad que se utiliza aquí es la siguiente. Si A y B son conjuntos cualesquiera y
t(a,b) (a,b)∈A×B es una familia de elementos en [0, ∞) entonces

sup t(a,b) = sup sup t(a,b) .


(a,b)∈A×B a∈A b∈B

Para demostrar esto, nota que si µ = sup t(a,b) entonces µ acota superiormente a todos los elementos
(a,b)∈A×B
n o
t(a,b) , en particular, para a fijo, µ acota superiormente al conjunto t(a,b) b ∈ B . Por ende, µ ≥ sup t(a,b)

b∈B
y como esto ocurre para cualquier a ∈ A se puede concluir que µ ≥ sup sup t(a,b) . Para demostra la otra
a∈A b∈B
desigualdad considera ν = sup sup t(a,b) . Por definición de supremo, dado ε > 0 existe un (a, b) ∈ A × B
a∈A b∈B
tal que
µ − ε ≤ t(a,b) ≤ sup t(a,b) ≤ ν
b∈B

y como esta desigualdad vale para cada ε > 0 también vale para ε = 0.
Se puede concluir que para (s, t) ∈ (−r, r)2 se cumple que

Φ(s, t) 

st − Di,j F (P) ≤ sup Di,j F P + νsei + ξtej − Di,j F (P) ,

0≤ξ,ν≤1

donde la expresión de la izquierda queda reemplazada por cero en el caso en que st = 0. Usando que
Di,j F es uniformemente continua en R (teorema de Heine-Cantor (5.5.14)) se sigue que

Φ(s, t) 
lı́m − D F
i,j (P) ≤ sup
Di,j F P + ξtej − Di,j F (P) .
s→0 st 0≤ξ≤1

199
Capítulo 6. Las derivadas de una función.

Para poder demostrar la igualdad de las derivadas parciales mixtas se usa ahora la existencia de
Di F. Observa que

Φ(s, t) F(P + sei + tej ) − F(P + sei ) − F(P + tej ) + F(P)


lı́m = lı́m
s→0 st s→0 st

Di F P + tej − Di F (P)
= .
t
Entonces, usando la continuidad de la norma,

D F P + te  − D F (P)
i j i 
− Di,j F (P) ≤ sup Di,j F P + ξtej − Dij F (P) .

t

0≤ξ≤1

Haciendo t → 0 se ve que

Di F P + tej − Di F (P)
Dj,i F (P) = lı́m = Di,j F (P) ,
t→0 t
con lo que se concluye el teorema.
( 6.6.2 ) Sea U ⊂ Rn un conjunto abierto y f : U → Rm tal que Di,j f existe, es continua y Dom Di,j f = U.

Entonces, Dj,i f existe, es continua, tiene dominio U y Di,j f = Dj,i f.
Lo cual es consecuencia del teorema anterior. 

z 6.6.2 Funciones de clase Ck .


A veces es útil trabajar con funciones que satisfagan que sus parciales sean continuas. De hecho, de
acuerdo a (6.5.5) una función definida en un conjunto abierto y cuya función de derivadas sea continua es
diferenciable. Asimismo, el teorema anterior muestra que una función definida en un conjunto abierto
cuyas segundas parciales sean continuas satisface que las parciales mixtas conmutan. Luego, parece
que en general la diferenciabilidad con continuidad muestra agradables características.
( 6.6.3 ) Sea f : A ⊂ Rn → W con A un conjunto abierto. Se dirá que f es de clase C0 si f es continua y que f
es de clase C1 si su función de derivadas es continua. Inductivamente se define que f sea de clase Ck+1 si cada
una de sus funciones de derivadas parciales es de clase Ck . Se denotará por f ∈ Ck (A, W ) cuando f : A → Rm
sea de clase Ck . Si f ∈ Ck (A, Rm ) para todo k ∈ N entonces se dirá que F es indefinidamente diferenciable y se
denotará por f ∈ C∞ (A, W ) .

Observaciones:
1. Para cada k ∈ N, se tiene que Ck+1 (A, W ) ⊂ Ck (A, W ) y C∞ (A, W ) ⊂ Ck (A, W ) .
2. Se puede concluir el siguiente corolario de (6.5.5): una función definida en una abierto de clase C1
es diferenciable. Asimismo, también se puede concluir lo siguiente de (6.6.1): para una función
definida en un abierto que sea de clase C2 sus derivadas parciales mixtas conmutan. Es
importante destacar que esto es falso si la función no está definida en un abierto.
3. Todo polinomio es de clase C∞ . La demostración de este hecho queda de ejercicio al lector.
4. Si se considera a Di como una función entonces Di recibe el nombre de operador de diferencia-
ción parcial respecto del i-ésimo eje. Es importante observar que en virtud del teorema anterior
si se fija un abierto A ⊂ Rn y se restringe el dominio de Di a C2 (A, Rm ) entonces Di conmuta con

200
6.6. Técnicas de derivación parcial.

cualquier Dj . Esto motiva la introducción de la notación multiplicativa para operadores de deri-


vación. Por ejemplo, con el dominio suficientemente restringido, esto es, considerando funciones
CN para algún N > 0, se tiene que Di Dj Di = Di Di Dj = Dj Di Di . La última expresión provoca
escribir Di Di = Di 2 . En virtud de esto, se da la siguiente definición.
n
X
( 6.6.4 ) Sea A un subconjunto abierto de Rn . Para cada n números naturales i1 , . . . , in tales que ij = k, se
j=1
define el operador Di11 · · · Dinn : Ck (A, W ) → C0 (A, W ) , dado por

Di11 · · · Dinn (f) = Di11 · · · Dinn (f) .




A k se le llama el orden del operador.


De acuerdo a (6.6.1) el operador anterior está bien definido. Aún más, el operador anterior es inde-
pendiente del orden en que aparecen los factores. Luego, para encontrar la regla de correspondencia
siempre se puede derivar en el orden que más convenga.

z 6.6.3 Notación clásica.


Antes de continuar con el desarrollo de algunas técnicas de derivación parcial será conveniente
introducir la notación clásica que se utiliza. Aquí se denota a la función de derivación parcial respecto
del primer eje como D1 . Así, cuando se quiera calcular la derivada parcial de f respecto del primer eje
en el punto P se escribe D1 f (P) . Esta notación resulta ser precisa pero algo tediosa, sobre todo por
que a la hora de querer calcular explícitamente ciertas derivadas no es de interés proceder de manera
formal (suponiendo que solo hay interés en el resultado).

Por esto se introduce la notación clásica del cálculo de varias variables. Se “define” el operador
∂u
como aquel que dada una expresión E(u) toma la derivada formal de esta expresión respecto de u.
∂u
Esto es, se define = 1 y se deriva la expresión E utilizando las reglas de derivación ya demostradas.
∂u Å ã
x x x
Por ejemplo, considera la expresión E(x, y) = + sin y u = . Entonces,
y y y
∂E(x, y) ∂(u + sin u) ∂u ∂ sin u ∂u
= = + =1+ cos u = 1 + cos u.
∂u ∂u ∂u ∂u ∂u

Con la nueva notación, la notación clásica, se pueden “definir” = Di . En principio parecería que
∂xi
en realidad se está cambiando un símbolo por otro con más caracteres. La ventaja de esta nueva notación
xy
es que el denominador juega un doble rol. Por ejemplo, si se considera la función f(x, y) = 2 y
x + y2
la función T : R2 → R2 dada por T(r, θ) = (r sin θ, r cos θ) entonces para denotar a la parcial de f ◦ T
∂f
se escribe D1 (f ◦ T) (r, θ) ; en cambio, se escribe para denotar esta composición; aquí ya se nota un
∂r
ahorro.

Ahora se explica con más detalle esto. Al introducir el símbolo se quiere ganar espacio y escribir
∂u
7
menos aunque se pierda formalidad y se gane ambigüedad . Cuando se utiliza la notación clásica
7 Luego, ∂ ∂
cada vez que se utiliza el símbolo anterior se debe tener cuidado extremo con la notación. Los símbolos y
∂u ∂v
pueden tener significados
 diferentes o iguales. Para muestra
 un ejemplo, toma la función
 f(x, y) = x entonces el lector estará de
∂ f(x, y) ∂ f(u, v) ∂ f(u, v)
acuerdo que = 1. Por otro lado, = 1, pero en cambio, = 0.
∂x ∂u ∂x

201
Capítulo 6. Las derivadas de una función.

se considera que la función f ha sido definida a través de ciertos símbolos fijos8 . La idea de estas
expresiones es que al ser f definida por argumentos específicos ya no existe la necesidad de evaluar la
∂f
expresión de diferenciación parcial en tales argumentos, luego, se escribirá en lugar de D1 f (x, y) ,
∂x
por ejemplo. Las ventajas de esta notación surgirán en los ejemplos.
Uno de los inconvenientes principales de la notación clásica es que evaluar las derivadas parciales
es tedioso. Por ejemplo, si se quiere evaluar la derivada parcial de f(x, y) = 2x 2 − xy en (1, 0) respecto
del primer eje habría que escribir
Å ã
∂f
= (4x − y) =4

∂x


(x,y)=(1,0) (x,y)=(1,0)

∂f(1, 0)
y no simplemente . Esto se debe a que la expresión f(1, 0) = 2 que es una constante, por lo que
∂x
su derivada respecto de x es cero.
Antes de continuar cabe destacar que muchos autores prefieren aún otras notaciones. Por ejemplo,
∂F
para denotar a la matriz Jacobiana de F se escribe . De nueva cuenta, esto es en el contexto en
∂X
el que F está definida para argumentos específicos. Coloquialmente hablando, F es función del vector
X. De este modo, la regla de la cadena dada antes toma una forma más “natural”. Para ver esto, se
considera una función F diferenciable tal que ha sido definida en términos del vector Y y a Y como
función diferenciable del vector X 9 . Luego, de acuerdo a la regla de la cadena, la función F definida en
términos del vector X es diferenciable y su derivada viene dada por

∂F ∂F ∂Y
= .
∂X ∂Y ∂X
Con esta expresión es muy fácil recordar la regla de la cadena para derivadas parciales. Por ejemplo,
en este contexto se supone F = (f1 , . . . , fp ) y X = (x1 , . . . , xn ), luego, evaluando la expresión anterior en
ej se obtiene que, para cada i = 1, . . . , p,

∂fi ∂fi ∂Y
= .
∂xj ∂Y ∂xj

§ 6.7. Ejemplos resueltos.


z 6.7.1 Derivadas parciales de primer orden.
A continuación se exponen una serie de ejemplos con la finalidad de aclarar posibles dudas de las
secciones anteriores. Se hace la aclaración de que si no se especifica el contradominio de una función
deberá entenderse que este es un subconjunto de W , un espacio vectorial de dimensión finita.

( 6.7.1 ) Sea A ⊂ R3 abierto y f ∈ C1 (A, w) w. Encuentra las derivadas parciales respecto de x y de y, de


f(x + y, x 2 , sin x) como una expresión en D1 f, D2 f y D3 f.

Observa que f no es función de X = (x, y), sino es función de alguna Y que se debe determinar
y Y es función de X tal que Y (X) = (x + y, x 2 , sin x). Se define entonces, Y : R2 → R3 dada por
8 Dicho de otro modo, se “casa” a la función f con argumentos específicos. A veces, se expresaba (y habrá quien todavía lo

haga) esto como “... sea f función de x y y...”. Ve por ejemplo [7].
9 En un contexto formal, se definen G : U ⊂ Rn → Rm y F : G(U) → Rp tales que F y G son diferenciables.

202
6.7. Ejemplos resueltos.

Y (x, y) = (x + y, x 2 , sin x). Luego, al ser f función de Y se sigue que


∂f ∂f ∂Y ∂Y
= = Df (Y )
∂x ∂Y ∂x ∂x
= (D1 f (Y ) , D2 f (Y ) , D3 f (Y )) · (1, 2x, cos x)
= D1 f (Y ) + 2xD2 f (Y ) + cos xD3 f (Y )
∂Y ∂f
y, como = (1, 0, 0), se ve que = D1 f (Y ) .
∂y ∂y
En ciertas ocasiones es conveniente introducir explícitamente las funciones coordenadas de Y para
aligerar la escritura. Por ejemplo, si se hubiése escrito Y = (a, b, c) entonces en el ejemplo anterior se
hubiése obtenido
∂f ∂f ∂f ∂f
= + 2x + cos x .
∂x ∂a ∂b ∂c
( 6.7.2 ) Sea f ∈ C1 (A, W ) definida en términos de x y y. Se supone que (x, y) están dadas en «coordenadas
∂f ∂f
polares», es decir, (x, y) = (r cos θ, r sin θ). Encuentra y en términos de las primeras parciales de f.
∂r ∂θ
∂Y
En este caso se tiene que manera natural que Y = (x, y) = (r cos θ, r sin θ). Luego, = (cos θ, sin θ)
∂r
∂Y
y = r(− sin θ, cos θ). Entonces,
∂θ
∂f ∂f ∂Y ∂f ∂f
= = cos θ + sin θ
∂r ∂Y ∂r ∂x ∂y
y
∂f ∂f ∂Y ∂f ∂f
= = r cos θ − r sin θ .
∂θ ∂Y ∂θ ∂y ∂y
Que son las parciales buscadas.
( 6.7.3 ) Sea f una función diferenciable en A ⊂ R2 y que toma valores en W . La suma de las derivadas parciales
de primer orden de f(x − y, y − x) siempre es cero.
∂f ∂f ∂T ∂f ∂f ∂T
Sea T(x, y) = (x + y, x − y) entonces f es función de T. De este modo, = y = .
Å ã ∂x ∂T ∂x ∂y ∂T ∂y
∂f ∂f ∂f ∂T ∂T ∂T ∂T
Por lo que, + = + . Observa que = (1, −1) y = (−1, 1). El resultado se sigue
∂x ∂y ∂T ∂x ∂y ∂x ∂y
de esto.
Procediendo de la misma manera que en ejemplo anterior se puede demostrar que cualquier función
n
X ∂f
f de clase C1 (Rn , R) dada por f(x1 − x2 , . . . , xn−1 − xn , xn − x1 ) satisface que = 0.
∂xi
i=1

z 6.7.2 Derivadas parciales de orden superior.


Sea A un subconjunto abierto de Rn y se supone que toda función en C∞ (A, W ) está definida en
términos de X = (x1 , . . . , xn ). Ya se ha definido el significado de expresiones como Di11 · · · Dinn , lo que

se hará ahora será escribir esto en notación clásica. Se pone = Di , luego, por definición, debería
∂xi
tenerse la siguiente igualdad
∂ i1 ∂ in
Å ã Å ã
Di11 · · · Dinn = ··· .
∂x1 ∂xn

203
Capítulo 6. Las derivadas de una función.

Sin embargo, se quiere que la notación clásica sea lo más fácil de escribir posible. Entonces, se reescribe
la expresión anterior y se define10
∂ i1 ∂ in ∂i1 +...+in
Å ã Å ã
··· = .
∂x1 ∂xn ∂x1i1 · · · ∂xnin
Entonces, expresiones como
∂i1 +...+in f
∂x1i1 · · · ∂xnin
deben entenderse como Ä i ä
D11 · · · Dinn (f) .
∂f
Por otro lado, cuando f es una función definida en términos de X se ha mencionado que es la
∂X
∂f
matriz Jacobiana de f. Entonces, si se denota por la función de primeras derivadas parciales de f
∂xi
respecto del primer eje, se ve que la derivada de esta función viene dada por
ñ ô
∂ ∂f ∂2 f ∂2 f
= ··· .
∂X ∂xi ∂x1 ∂xi ∂xn ∂xi
∂f
Más aún, si f : U ⊂ Rn → R y se considera a como función con contradominio Rn entonces su
∂X
función de derivadas es
∂2 f
Å ã ï ò
∂ ∂f ∂ ∂f ∂f
= = ···
∂X 2 ∂X ∂X ∂X ∂x1 ∂xn
 ∂ ∂f   ∂2 f ∂2 f

· · ·
 ∂X ∂x1   ∂x12 ∂xn ∂x1 
.   

=  .. =  .. .. .. .

   . . . 
 ∂ ∂f   2 2
∂ f ∂ f 
···
∂X ∂xn ∂x1 ∂xn ∂xn2
∂2 f
( 6.7.4 ) Sea f ∈ C2 (A, R) . Entonces es una matriz simétrica.
∂X 2
Lo cual es consecuencia directa de (6.6.2).
( 6.7.5 ) Encuentra las parciales de segundo orden respecto de x y y de
Zy
Ñ é

f 2x 2 + x, sin y, g ,
0

donde g es una función real y diferenciable y f ∈ C2 R3 , W .




Zy
Ñ é

Sea T(x, y) = 2x 2 + x, sin y, g entonces


0

∂f ∂f ∂T
= ,
∂x ∂T ∂x
10 Por ij ij
cuestiones tradicionales, se escribe ∂xj en lugar de ∂xj .

204
6.7. Ejemplos resueltos.

y
∂f ∂f ∂T
= .
∂y ∂T ∂y
Utilizando la regla del producto, se ve que
∂2 f ∂f ∂2 T
Å ã Å ã
∂ ∂f ∂T ∂ ∂f ∂T
= = + .
∂x 2 ∂x ∂T ∂x ∂T ∂x 2 ∂x ∂T ∂x
Å ã
∂ ∂f
Todas las expresiones anteriores, salvo , ya se sabe como calcularlas. Hay que notar que
∂x ∂T
∂f
es función definida en términos de T. Para encontrar la derivada parcial respecto de x se debe
∂T
∂f ∂h ∂h ∂T
utilizar la regla de la cadena otra vez. Si se denota por h a , se obtiene que = . Por las
∂T ∂x ∂T ∂x
2
∂h ∂ f
observaciones hechas antes, = es la matriz de segundas derivadas parciales de f.
∂T ∂T 2
Se empiezan a sustituir los valores correspondientes. Es fácil ver que
∂T ∂2 T
= (4x + 1, 0, 0), por lo que = (4, 0, 0).
∂x ∂x 2
Å ã
∂f ∂f ∂f ∂f ∂h
Si se denota T(x, y) = (a, b, c) entonces = , , . Como es la matriz de segundas
∂T ∂a ∂b ∂c ∂x
∂T
derivadas parciales de f evaluada en , se obtiene que
∂x
Ç å
∂h ∂2 f ∂2 f ∂2 f
= (4x + 1) , , .
∂x ∂a2 ∂a∂b ∂a∂c
Sustituyendo términos, se encuentra que
∂2 f ∂f 2
2∂ f
= 4 + (4x + 1) .
∂x 2 ∂a ∂a2
Ha sido tardado el calcular apenas una de las derivas parciales de segundo orden. Algunos de los pasos
∂2 f
antes expuestos suelen omitirse en la práctica. Por ejemplo, para calcular se procede como sigue.
∂y 2
Se advierte al lector que se harán abusos de la notación.
Ç å
∂2 f ∂f ∂2 T ∂f ∂2 T ∂2 f ∂T ∂T
Å ã Å ã
∂ ∂f ∂T ∂ ∂f ∂T
= = + = + .
∂y 2 ∂y ∂T ∂y ∂T ∂y 2 ∂y ∂T ∂y ∂T ∂y 2 ∂T 2 ∂y ∂y

∂T ∂2 T
Pero, = (0, cos y, g(y)), por lo que = (0, − sin y, g 0 (y)) y
∂y ∂y 2
∂2 f ∂T ∂2 f ∂2 f ∂2 f
= (cos ye 2 + g(y)e 3 ) = cos y e 2 + g(y) e3
∂T 2 ∂y ∂T 2 ∂T 2 ∂T 2
Ç å Ç å
∂2 f ∂2 f ∂2 f ∂2 f ∂2 f ∂2 f
= cos y , , + g(y) , , ,
∂a∂b ∂b2 ∂c∂b ∂c∂a ∂c∂b ∂c2

donde (e1 , e2 , e3 ) es la base canónica de R3 . Por lo tanto, recordando que f ∈ C2 R3 , R , se tiene que


∂2 f ∂f 0 ∂f 2
2∂ f ∂2 f 2
2∂ f
= − sin y + g (y) + (cos y) + 2 cos yg(y) + [g(y)] .
∂y 2 ∂b ∂c ∂b2 ∂b∂c ∂c2

205
Capítulo 6. Las derivadas de una función.

De acuerdo al ejercicio (6.19), se tiene que al ser f función de x y y es de clase C2 . Por lo que
∂2 f ∂2 f ∂2 f
= . Para calcular se omitirán más pasos que antes. De este modo,
∂x∂y ∂y∂x ∂x∂y

Zy
Ñ é
∂2 f
Å ã
∂ ∂ ∂ ∂f ∂f
= f 2x 2 + x, sin y, g = cos y + g(y)
∂x∂y ∂x ∂y ∂x ∂b ∂c
0
∂2 f ∂2 f
= cos y(4x + 1) + g(y)(4x + 1) .
∂a∂b ∂a∂c
Cabe destacar que con mucha práctica las derivadas parciales pueden obtenerse de manera simple
como lo anterior.
∂F
( 6.7.6 ) Sea F ∈ C2 R3 , W una función en coordenadas cartesianas11 tal que

= 0. Supón que (x, y, z) =
∂y
∂2 F ∂2 F
(ρ cos φ sin θ, ρ sin φ sin θ, ρ cos θ), son las «coordenadas esféricas». Encuentra y .
∂φ∂ρ ∂ρ∂φ

∂2 F
Como F ∈ C2 R3 , W se tiene que las parciales mixtas conmutas, luego basta calcular

. Tam-
∂φ∂ρ
bién es destacable que el orden en que se deriven las expresiones es inmaterial. Sea T dada por

T(ρ, θ, φ) = (ρ cos φ sin θ, ρ sin φ sin θ, ρ cos θ) = (x, y, z),

por lo que
∂2 F
Å ã
∂ ∂F ∂F
= cos φ sin θ + cos θ
∂φ∂ρ ∂φ ∂x ∂z
Ahora se calcula cada sumando. Se tiene que
Å ã Å ã
∂ ∂F ∂ ∂F ∂F
cos φ sin θ = cos φ sin θ − sin φ sin θ
∂φ ∂x ∂φ ∂x ∂x
ñ ô
2 2
∂ F ∂x ∂ F ∂y ∂2 F ∂z ∂F
= cos φ sin θ + + − sin φ sin θ
∂x 2 ∂φ ∂y∂x ∂φ ∂z∂x ∂φ ∂x
2 ∂2 F ∂F
= −ρ sin φ cos φ sin θ − sin φ sin θ .
∂x 2 ∂x
ñ ô
∂2 F ∂x ∂2 F ∂y ∂2 F ∂z ∂2 F
Å ã
∂ ∂F
Análogamente, cos θ = cos θ + + 2 = −ρ sin φ sin θ cos θ . Su-
∂φ ∂z ∂x∂z ∂φ ∂y∂z ∂φ ∂z ∂φ ∂x∂z
∂2 F
mando todas estas expresiones se obtiene , la cual es
∂φ∂ρ

∂F 2 ∂2 F ∂F ∂2 F
= −ρ sin φ cos φ sin θ − sin φ sin θ − ρ sin φ sin θ cos θ .
∂φ∂ρ ∂x 2 ∂x ∂x∂z

Lo que concluye el ejercicio.

( 6.7.7 ) Considera f : R2 → W de clase C3 tal que D1,2 f = 0. Encuentra la tercera parcial respecto de x de la
función dada por f(x 3 − y, sin yey ).
11 Esto es, F está definida en términos de (x, y, z).

206
6.8. Ejercicios.

∂f ∂f ∂u ∂f ∂v ∂u
Supón que f es función de (u, v) = (x 3 − y, sin yey ) entonces = + . Pero = 3x 2
∂x ∂u ∂x ∂v ∂x ∂x
∂v ∂f ∂f
y = 0, por lo que = 3x 2 . Derivando de nuevo respecto de x, se ve que
∂x ∂x ∂u
Ç å
∂2 f 2 ∂ ∂f ∂f 2 ∂2 f ∂u ∂2 f ∂v ∂f
= 3x + 6x = 3x + + 6x
∂x 2 ∂x ∂u ∂u ∂u2 ∂x ∂v∂u ∂x ∂u
∂2 f ∂f
= 9x 4 2
+ 6x .
∂u ∂u
Donde la última simplificación es debida a que D1,2 f = D2,1 f = 0. Con esto en mente ya no se escribirá
estas parciales. Por lo que,
∂3 f ∂3 f ∂2 f ∂2 f ∂f
= 27x 6 + 36x 3 2 + 18x 3 2 + 6
∂x 3 ∂u 3 ∂u ∂u ∂u
∂3 f ∂2 f ∂f
= 27x 6 3 + 54x 3 2 + 6 .
∂u ∂u ∂u
Que es la derivada parcial buscada.

z 6.7.3 Riesgos de la notación clásica.


A continuación se presenta un caso donde la notación clásica, cuando es usada sin cuidado, ocasiona
inconsistencias. Supón entonces que w = f(x, y, z) y z = g(x, y). Luego, por la regla de la cadena
∂w ∂w ∂x ∂w ∂y ∂w ∂z
= + + ,
∂x ∂x ∂x ∂y ∂x ∂z ∂x
∂x ∂y
como, claramente =1y = 0, después de sustituir esto, se obtiene que
∂x ∂x
∂w ∂z
0= .
∂z ∂x
∂w ∂z
Esto muestra que = 0 o bien, = 0. Esto es falso en general. Por ejemplo, considera las funciones
∂z ∂x
∂w ∂z
f(x, y, z) = 5z y g(x, y) = 3x. Entonces, =5y = 3, por lo que su producto nunca se anula. Luego,
∂z ∂x
¿dónde está el descuido? El descuido aparece que ha sido utilizado el símbolo z para dos sentidos
distintos. El primero de ellos es el de tercer argumento de la función f y el segundo sentido es el
de función. Luego, si se quisiera proceder con notación clásica, se debe poner w = f(a, b, g) donde
a(x, y) = x y b(x, y) = y. Con esto, se obtiene que
∂w ∂w ∂a ∂w ∂b ∂w ∂z ∂w ∂w ∂z
= + + = + ,
∂x ∂a ∂x ∂b ∂x ∂z ∂x ∂a ∂z ∂x
∂w ∂w
en donde ya no es posible “cancelar” con .
∂x ∂a

§ 6.8. Ejercicios.
Se insiste en que el lector resuelva todos los ejercicios de este capítulo. Esto debido a que solo
la práctica forma la experiencia necesaria para que a la hora de derivar los procesos devengan más
simples.

207
Capítulo 6. Las derivadas de una función.

( 6.1 ) Encuentra la derivada de F en P en dirección de α, donde:

1. F(x, y) = (sin x, cos y), P = (2, 4) , α(t) = (t, t 2 );

2. F(x, y) = (sin x cos y, x 2 + xy), P = (0, π) , α(t) = (t + π, |t|);

3. F(x, y) = x 3 y + 2x 2 y − 3xy 2 + xy − 5x − 2y + 1, P = (1, 1), α(t) = (t, 0).

( 6.2 ) La razón de cambio a una función constante c en cualquier punto P y para cualquier curva existe y vale
cero.

( 6.3 ) Supón que α : [a, b] → A y β : [c, d] → A son curvas equivalentes u opuestas, por ejemplo α = β◦u. Supón
que α(0) = v y que u0 (0) existe. Sea f : A ⊂ V → W tal que Dα f (v) existe. Entonces Dα f (v) = Dβ f (u(0)) u0 (0).
En particular, si β recorre α al revés, esto es β(t) = α(a + b − t) entonces Dα f (v) = −Dβ v (P) .

( 6.4 ) Sea f : A ⊂ V → W y α : I ⊂ R → A, tal que α(t) = v, para cierto t fijo. La razón de cambio de f en v
a través de la curva α, si existe, es Dα f (v) = (f ◦ α)0 (t).

( 6.5 ) Supón que α : I ⊂ R → A es una curva que pasa por v ∈ A, por ejemplo α(0) = v. Sean f, g : A → W
tales que Dα f (v) y Dα f (v) existen. Entonces para cualquier λ ∈ R la razón de cambio de f + λg existe en v a
través de la curva α y se tiene que

Dα (f + λg) (v) = Dα f (v) + λDα g (v) .

( 6.6 ) Sean f, g : A ⊂ V → W funciones tal que una de ellas es continua y sea α : I ⊂ R → A tal que α(0) = v.
Si Dα f (v) y Dα g (v) existen, demostrar que la derivada direccional de hF, Gi en v a través de α existe y que

Dα hf, gi (v) = hf(v), Dα g (v)i + hDα f (v) , g(v)i .

( 6.7 ) Sean f : A ⊂ V → R y α continuas tales que α(0) = v y Dα f (v) existe. Supón que f(v) 6= 0 entonces la
1
derivada direccional de en v a través de α existe y
f
ï ò
1 Dα f (v)
Dα (v) = − .
f f(v)2

( 6.8 ) Sea f : R2 → R dada por


( xy
si (x, y) 6= (0, 0)
f(x, y) = x2 + y2 .
0 si (x, y) = (0, 0)

Si α es una recta entonces Dα f (0, 0) existe. Sin embargo, f no es continua en cero (considera x = y y x = y)
y, en particular, f no es diferenciable en cero. Luego, la existencia de la derivada direccional de f en un punto a
través de cualquier recta no garantiza la diferenciabilidad de f.

( 6.9 ) Se dirá que una función f : A ⊂ V → R tiene un máximo relativo local en v ∈ A si existe r > 0 tal
que para todo u ∈ B (v; r) ∩ A se tiene que f(u) ≤ f(v). Si f es diferenciable y tiene un máximo relativo en v
entonces Dα f (v) = 0 para cualquier curva suave (C1 ) α para la cual Dα f (v) exista.

( 6.10 ) Sea F : A ⊂ V → W1 × . . . × Wm , tal que F = (f1 , . . . , fm ). Supón que α : I ⊂ R → A es tal que


α(0) = v. Para que Dα F (v) exista es necesario y suficiente que Dα fi (v) exista para i = 1, . . . , m. En este caso,
Dα F (v) = (Dα f1 (v) , . . . , Dα fm (v)).

208
6.8. Ejercicios.

( 6.11 ) Sea α : I ⊂ R → R2 una curva tal que α(0) = P. Supón que F : R2 → R es una superficie (en R3 )
entonces Dα F (P) es la «pendiente» de la superficie en P cuando se camina sobre ella a través de la curva α.
Esta es una de las interpretaciones geométricas más importantes para Dα F (P) .
( 6.12 ) Calcula todas las derivadas parciales de F, en un punto arbitrario P = (a, b) ∈ R2 , donde:
1. F(x, y) = (sin x + cos y, x 2 + xy);
Ä ä
2. F(x, y, z) = exp k(x, y, z)k2 .

( 6.13 ) La definición alternativa de derivada equivale a la definición dada en el capitulo 5.


( 6.14 ) Encuentra la derivada de las siguientes funciones, supón que g : R → R es continua:
1. f(x, y, z) = x y + z;
2. F(x, y, z) = (x y , z);
3. F(x, y, z) = (x cos y, y sin z);
4. F(x, y, z) = (z, y, x);
Zz
Ñ é
z
5. F(x, y, z) = x y , g ;
0

6. F(x, y, z) = (x · z, y · (x + z));
Zxy
7. f(x, y) = g;
0

Zx
8. f(x, y) = y g;
−x

Zz x+y+z
Ñ é
Z
9. F(x, y, z) = y g, sin(g) cos(g)g 0 , suponiendo la existencia de g 0 ;
x 0

10. F(x, y, z) = x sin(y cos z).


( 6.15 ) Usando inducción en el grado del monomio, concluya que todo monomio en n variables es una función
de clase C∞ . Aplica las propiedad de linealidad de la diferenciación para ver que cada función polinomial de n
variables es una función de clase C∞ (Rn , R) .
1
( 6.16 ) Si F ∈ Ck (A, R) y F 6= 0 entonces ∈ Ck (A, R) donde k ∈ N o bien, k = ∞.
F
( 6.17 ) Toda función racional es C∞ .
x2 − y2 ∂f ∂f
( 6.18 ) La función f(x, y) = xy 2 2
no satisface que = .
x +y ∂x ∂y
( 6.19 ) Sean A y B sendos abiertos de V y Rm . Entonces,

f ∈ Cn (A, B) y g ∈ Cm (B, Rp ) Ñ f ◦ g ∈ Cmı́n{m,n} (U, V ) .

209
Capítulo 6. Las derivadas de una función.

( 6.20 ) Encuentra todas las derivadas parciales de primer orden de f respecto de x y y donde:
1. f(u, v) = exp u + sin v;
2. f(u, v) = sin u sin v;
u+v
3. f(u, v) = ;
1 + v2
4. f(u, v) = 2u3 − 3uv 2 − v 2 + uv + 2u;
5. f(u, v) = u log v.
1
En todo caso toma u = y v = k(x, y)k .
1+y
( 6.21 ) Calcula las derivadas parciales de segundo orden mixtas de f, respecto de x y de y, donde:
v
1. f(u, v) = uu ;
2. f(u, v) = arctan(u + v);
3. f(u, v) = v exp(sin u);
u
4. f(u, v) = ;
u2 + v 2
5. f(u, v) = u + v.
En cada caso a de considerar que (u, v) = (ax, x 2 y + x − y).
∂2 f ∂2 f
( 6.22 ) Sea ∆12 tal que ∆(f) = + . Entonces ∆(f) = 0 si f viene dada por
∂x 2 ∂y 2
Å ã
x y
f(x, y) = g ,
x2 + y2 x2 + y2

y g satisface que ∆(g) = 0.


( 6.23 ) Sea ∆ el operador Laplaciano de R2 . Si f está definida según f(x, y) = log(k(x, y)k) entonces ∆(f) = 0.

( 6.24 ) Define a g por g(x, y, z) = k(x, y, z)k−1 y ∆ como el operador Laplaciano de R3 . Entonces ∆(g) = 0.
1
Más generalmente, si g : Rn \ {0} → R viene dada por g(X) = , su laplaciano vale cero.
kXk
( 6.25 ) Supón que f satisface que ∆(f(x, y)) = 0, para ∆ el operador Laplaciano de R2 . Supón que u(x, y)
∂u ∂v ∂u ∂v
y v(x, y) satisfacen que = y que = − . Entonces, es cierto que g(x, y) = f(u, v) satisface que
∂x ∂y ∂y ∂x
∆(g(x, y)) = 0.
∂z ∂z
( 6.26 ) Encuentra una fórmula para y , donde x = u(r, s, t), y = v(r, s, t) y z = f(x, y).
∂r ∂t
12 A este ∆ se le conoce como el operador laplaciano de R2 . A la expresión ∆(f) se le llama laplaciano de f. En general, puede

definirse el operador laplaciano en Rn como sigue:


n
X
( 6.8.1 ) Se define el operador laplaciano en Rn por ∆n , donde ∆n : C2 (Rn , R) → C0 (Rn , R) está dado por ∆n = Dk 2 .
k=1

210
6.8. Ejercicios.

x+y
( 6.27 ) Calcula las parciales de f respecto de s y t, donde x = sin(2t), y = cos(3t − s) y f(x, y) = .
1 − xy
( 6.28 ) Supón que D1 f (0, 0, 0) = 2, D2 f (0, 0, 0) = D3 f (0, 0, 0) = 3. Sea g(u, v) = f(u − v, u2 − 1, 3v − 3).
Encuentra D1 g (1, 1) .
( 6.29 ) Sea f una función que satisface que f(tx, ty) = t m f(x, y) para todos los números reales x, y y t. Si
f ∈ C2 R2 , R entonces

x 2 D1,1 f (x, y) + 2xyD1,2 f (x, y) + y 2 D2,2 f (x, y) = m(m − 1)f(x, y).

( 6.30 ) Encuentra la regla de correspondencia de Di,j f, para cada i, j ∈ {1, 2}, donde f : R2 → R está dada por
f(x, y) = cos x sin y.
∂g
( 6.31 ) Sea g(t, x, y) = f(t 2 x, 2y + t). Encuentra en términos de las parciales de f.
∂t
( 6.32 ) Sea r : Rn → R, dada por r(X) = kXk . Encuentra la regla de correspondencia de Di r para cada i.
( 6.33 ) Sea g(x, y) = f(x + y, x − y). Entonces

D1,2 g (x, y) = D1,1 f (x + y, x − y) − D2,2 f (x + y, x − y) .

( 6.34 ) Sean x = r cos θ y y = r sin θ, las fórmulas para coordenadas polares. Supón que f(x, y) = g(r, θ)
entonces
1 1
D1,1 g (r, θ) + D1 g (r, θ) + 2 D2,2 g (r, θ) = D1,1 f (x, y) + D2,2 f (x, y) .
r r
Å ã
y x y
( 6.35 ) Encuentra todas las parciales de hasta tercer orden de la función definida por (x, y) 7Ï x , + .
y x
( 6.36 ) Sean f, g : R → R funciones dos veces diferenciables. Entonces u(x, y) = f(x)g(y) satisface la ecuación
∂2 u ∂u ∂u
u + = 0. El recíproco también es cierto.
∂y∂x ∂x ∂y
Sugerencia: utiliza el teorema fundamental del cálculo
Å para ã una variable considerando las restricciones de u a
∂ ∂u
los ejes coordenados. Primero deberás encontrar u .
∂y ∂x
∂2 f ∂2 f ∂2 f
( 6.37 ) Sea f función de x y y, si x = u + v y y = u − v entonces = − . Supón que f es de
∂u∂v ∂x 2 ∂y 2
clase C2 .
( 6.38 ) Supón que f, g ∈ C2 (R, R) y defíne F : R2 → W dada por F(x, y) = f(x − y) + g(x + y). Entonces
∂2 F ∂2 F
= .
∂x 2 ∂y 2
( 6.39 ) Sea f : Rn → Rm definida como f(X) = AX donde A ∈ Matm×n (R) . Supón que g se define de la misma
∂(f + λg) ∂(A + λB)X
manera pero usando B ∈ Matm×n (R) . Entonces = = A + λB. Esta es otra ventaja de
∂X ∂X
la notación clásica.

( 6.40 ) Sea F(X) = X t AX, donde X ∈ Rn , A ∈ Matm×n (R) y X t denota el vector transpuesto de X. Entonces
F es diferenciable y que DF (X) = 2AX. Recuerde que la fórmula Y t Y es equivalente a Y · Y .

211
Capítulo 6. Las derivadas de una función.

212
Capítulo 7

• El teorema de Taylor.

El teorema de Taylor es uno de los teoremas más importantes dentro del cálculo diferencial en
varias variables. Este teorema permite aproximar una función a valores reales mediante polinomios,
conocidos como «desarrollos limitados». Como un polinomio es suave (en el sentido que es clase C∞ ,
ve el ejercicio (6.15)) deberán pedirse hipótesis de suavidad a la función. Por otro lado, para desarrollar
la teoría del polinomio de Taylor será imprescindible definir a las derivadas de orden superior. Para
esto, primero se desarrollará la segunda derivada de tal forma que la teoría expuesta sea partiendo
desde un punto de vista geométrico. Por esta razón se ha empezado definiendo a las formas cuadráticas
en Rn . Una vez que sea estudiada la segunda derivada se introducirán las derivadas de orden superior.

§ 7.1. Formas cuadráticas.


Para empezar, una forma cuadrática, como su nombre lo sugiere, es una función que solo posee
términos de segundo grado. Más específicamente, es una función polinomial tal que todos sus términos
son monomios de segundo orden. Formalmente, se tiene la siguiente definición.

( 7.1.1 ) Se dirá que una función es una forma cuadrática si es una función polinomial homogénea de segundo
grado. Esto es, f es una forma cuadrática en n variables si es una función polinomial tal que para cualesquier
X ∈ Rn y λ ∈ R se tiene que f(λX) = λ 2 f(X).

Observaciones:

1. Dados n y m fijos, el conjunto de las funciones polinomiales de grado menor o igual a m en n


variables ha sido denotado por Pm (Rn ) . Este conjunto resulta ser un espacio vectorial de dimen-
sión finita. Luego, el subconjunto formado por las funciones polinomiales que son homogéneas
de segundo orden resulta ser un subespacio vectorial de dimensión finita. En (7.1.2) se encuentra
una base y la dimensión de tal subespacio.

2. La expresión general de una función polinomial de grado 2 en 2 variables es (x, y) 7Ï ax 2 +


bxy + cy 2 + dx + ey + f, en donde a, b, c, d, e, y f son constantes reales. Por tanto, en R2 se
tiene que las únicas formas cuadráticas existentes en dos variables son de la forma (x, y) 7Ï
ax 2 + bxy + cy 2 . Análogamente, en R3 las únicas formas cuadráticas que existen tienen la forma
(x, y, z) 7Ï ax 2 + by 2 + cz2 + dxy + exz + fyz.

213
Capítulo 7. El teorema de Taylor.

3. Más generalmente, si f es una forma cuadrática en n variables entonces existen constantes ai,j ∈ R
para i = 1, . . . , n y j = 1, . . . , n tales que
n X
X n
f(x1 , . . . , xn ) = ai,j xi xj .
i=1 j=1

4. De la observación previa, en R2 se puede demostrar que las curvas de nivel de una forma cua-
drática tiene por forma secciones cónicas (posiblemente degeneradas). Esto es, toda ecuación de
la forma ax 2 + bxy + cy 2 = k para alguna k ∈ R representa una sección cónica. Por ejemplo,
la forma cuadrática f(x, y) = x 2 + y 2 tiene por curvas de nivel círculos, mientras que la forma
cuadrática f(x, y) = x 2 − 3y 2 tiene por curvas de nivel hipérbolas. En general, la forma cuadrática
f(x, y) = ax 2 + by 2 tiene curvas de nivel círculo si a = b, elipses si ab > 0 e hipérbolas si ab < 0.
Si ab = 0 entonces f(x, y) = ax 2 + by 2 tiene por curvas de nivel rectas paralelas a los ejes, el
conjunto vacío o todo R2 .
Ç å
n n
( 7.1.2 ) El conjunto de las formas cuadrática definidas en R es un espacio vectorial real de dimensión =
2
n(n + 1)
.
2
Sea V el conjunto de las formas cuadráticas definidas en Rn . Claramente V es subconjunto no vacío
n
(pues 0 ∈ V ) del espacio vectorial R(R ) , el espacio vectorial de todas las funciones de Rn en R. Luego,
basta ver que V es cerrado ante combinaciones lineales de sus elementos. Sean f, g ∈ V , λ, µ ∈ R y
X ∈ Rn . Entonces

(f + λg)(µX) = f(µX) + λg(µX) = µ2 f(X) + µ2 λg(X) = µ2 (f + λg)(X).

Por otro lado, como f y g son funciones polinomioales, f + λg también lo es. Al ser f + λg una función
polinomial homogénea de segundo grado se concluye que es una forma cuadrática. Esto demuestra
que f + λg ∈ V . Con lo que se concluye que V es un espacio vectorial real.
n(n + 1)
Se verá ahora que dim V = . Para esto, se exhibirá explícitamente una base de V . Considera
2
las funciones fi,j = pri prj , para i = 1, . . . , n y j = i, . . . , n. Se afirma que B = {fi,j |i = 1, . . . , , j = i, . . . , n}
es una base de V . Como todo f ∈ V puede escribirse de la forma
n X
X n n
X X
f(t1 , . . . , tn ) = ai,j ti tj = ai,j ti2 + (ai,j + aj,i )ti tj ,
i=1 j=1 i=1 i6=j

n X
X n
el conjunto B genera a V . Resta demostrar que es linealmente independiente. Supón que ai,j fi,j =
i=1 j=i
0 entonces para todo (t1 , . . . , tn ) ∈ Rn se tiene que
n X
X n n X
X n n
X n X
X n
ai,j fi,j (t1 , . . . , tn ) = ai,j ti tj = ai,i ti2 + ai,j ti tj = 0.
i=1 j=i i=1 j=i i=1 i=1 j=i+1

Pero entonces, para (e1 , . . . , en ) la base canónica de Rn , se ve que


n X
X n
ai,j fi,j (ek ) = ak,k = 0.
i=1 j=i

214
7.1. Formas cuadráticas.

Esto muestra que,


n X
X n n X
X n
ai,j fi,j (t1 , . . . , tn ) = ai,j ti tj = 0.
i=1 j=i i=1 j=i+1

Sean 1 ≤ s < r ≤ n. Se evalúa ahora en es + er , queda que


n X
X n
ai,j fi,j (er + es ) = as,r = 0.
i=1 j=i

Por lo que, a1,1 = a1,2 = . . . = an,n−1 = an,n = 0, mostrando que {fi,j } es linealmente independiente, con
(n + 1)n
lo cual, dim V = .
2

z 7.1.1 Formas cuadráticas definidas y cambios de variables.


Más adelante las formas cuadráticas se relacionarán con los máximos y mínimos de una función.
Luego, cuando una forma cuadrática en n variables f satisfaga que f(X) > 0 para todo X ∈ Rn , con X 6= 0
se tendrá que f posee un mínimo estricto y absoluto1 en 0. Si la desigualdad anterior no es estricta,
solo se puede afirmar que el mínimo es global, posiblemente no estricto. Luego, conviene definir a tales
formas cuadráticas.
( 7.1.3 ) Para cualquier forma cuadrática f, se tiene que f(0) = 0.
En efecto, como f es homogénea de segundo grado, f(0) = 02 f(0) = 0.
( 7.1.4 ) Sea f : Rn → R una forma cuadrática. Se dirá que f está definida positivamente si f(X) > 0 para todo
X 6= 0. En el caso donde la desigualdad no es estricta, se dice que f está definida semipositivamente. Cuando
f(X) < 0 para todo X 6= 0, se dice que f está definida negativamente; si f(X) ≤ 0 para todo X 6= 0 entonces f es
una forma cuadrática definida seminegativamente. Si f(X) > 0 para algún X 6= 0 y f(X) < 0 para algún X 6= 0,
se dirá que la forma cuadrática f está no definida.
( 7.1.5 ) Clasifique a las siguientes formas cuadráticas de acuerdo con la definición anterior.
1. (x − y)2 + x 2 − 2xy;
2. x 2 + 2xy + 3y 2 ;
3. x 2 − 6xy + 10y 2 .
Intuitivamente, debe ser que la segunda forma cuadrática está definida positivamente pues tiene
mucho peso en su términos positivos. La primera parece estar no definida y la tercera es difícil decidir
a simple vista.
Para la primera se observa lo siguiente
(x − y)2 + x 2 − 2xy = x 2 − 2xy + y 2 + x 2 − 2xy = 2(x − y)2 − y 2 .
De este modo, tomando (x, y) = (0, 1), se ve que alcanza un valor positivo en un vector no cero y
tomando (x, y) = (1, 1) se ve que alcanza un valor negativo en un vector no cero. Por ende, esta forma
está no definida. Para la segunda se harán, de nuevo, algunas manipulaciones algebraicas. Se tiene que,
x 2 + 2xy + 3y 2 = x 2 + 2xy + y 2 + 2y 2 = (x + y)2 + 2y 2 ,
1 Recuerda que un punto P ∈ Dom
(f) se dice que es mínimo estricto local de f si existe una bola abierta centrada en P donde
f(P) < f(Q) para cualquier Q distinto de P en la bola. Si la desigualdad anterior no es estricta, se dice que f tiene un mínimo
relativo local en P. En el caso en donde la bola pueda extenderse a todo Dom (f) se dice que P es mínimo global o absoluto (ya
sea estricto o no). Las definiciones para máximo son análogas.

215
Capítulo 7. El teorema de Taylor.

que es positivo si (x, y) 6= (0, 0). Por lo tanto, esta forma cuadrática está definida positivamente.
Finalmente, en el tercer caso, se completa el cuadrado. Esto es,

x 2 − 6xy + 10y 2 = x 2 + 2x(−3y) + 9y 9 + y 2 = (x − 3y)2 + y 2 ,

que muestra que esta forma cuadrática esta definida positivamente.


El lector apreciará que es, en general, difícil decidir si una forma cuadrática esta definida de algún
modo. Cuando la forma depende de un número grande de variables, por ejemplo n > 4, se encuentran
ya muchos problemas. Sin embargo, existe un caso particularmente fácil de manejar, este es cuando la
forma cuadrática está dispuesta en forma diagonal.

( 7.1.6 ) Sea f una forma cuadrática en n variables. Supón que, de acuerdo con (7.1.2),
n X
X n
f= ai,j pri prj .
i=1 j=i

Se dirá f está dispuesta en forma diagonal si ai,j = 0 para i < j.

Observaciones:

1. Cuando f es una forma cuadrática en R2 la definición anterior implica que f está en forma diagonal
si i1 = i2 = 1 Ñ ai1 i2 = 0. Si se piensa que f(x, y) = ax 2 + bxy + cy 2 entonces f está en forma
diagonal si b = 0. Análogamente, en R3 una forma cuadrática f(x, y, z) = ax 2 + by 2 + cz2 + dxy +
exz + fyz está en forma diagonal si d = e = f = 0.

2. Más generalmente, si una forma cuadrática f en Rn es diagonal, se puede escribir como


n
X
f(x1 , . . . , xn ) = ai xi2 ,
i=1

donde ai = f(ei ).

3. Luego, una forma cuadrática dispuesta en forma diagonal está definida positivamente si ai > 0
para todo i; está definida semipositivamente si ai ≥ 0 para todo i; está definida negativamente si
ai < 0 para todo i; está definida seminegativamente si ai ≤ 0 para todo i y está no definida si
existen ai y aj con ai aj < 0.

( 7.1.7 ) Encuentra un criterio en términos de los coeficientes para determinar si la forma cuadrática ax 2 + bxy +
cy 2 está definida positivamente, semipositivamente, negativamente, seminegativamente o si está no definida.

Para una forma cuadrática en general es difícil decidir si esta esta definida de algún modo. Luego,
se tratará de llevarla a forma diagonal. Para esto, se intentará completar el cuadrado como antes. Para
empezar, si a 6= 0 se puede proceder como sigue,
Å ã
b
ax 2 + bxy + cy 2 = a x 2 + 2x y + cy 2
2a
Ç å
2 b b2 2 2 b2 2
= a x + 2x y + y + cy − y
2a 4a2 4a
ã2 Ç å
b2
Å
b
= a x+ y + c− y2.
2a 4a

216
7.1. Formas cuadráticas.

b
Haciendo u = x + y y v = y, se encuentra que la forma cuadrática original está dada por
2a
Ç å
2 b2
au + c − v2.
4a

b2
En esta forma, es fácil notar que la forma cuadrática está definida positivamente si a > 0 y c − > 0,
4a
equivalentemente, a > 0 y 4ac − b2 > 0. Está definida semipositivamente si a > 0 y 4ac − b2 ≥ 0.
Está definida negativamente si a < 0 y 4ac − b2 > 0, seminegativamente si a < 0 y 4ac − b2 ≥ 0 y no
está definida si a > 0 y 4ac − b2 < 0 o bien, si a < 0 y 4ac − b2 > 0. Para el caso en que a = 0, la
forma cuadrática se reduce a bxy + cy 2 = y(bx + cy). Claramente al hacer x = αy, se ve que la forma
cuadrática toma la forma (αb + c)y 2 , lo que muestra que está no definida si b 6= 0. Si b = 0 entonces
toma la fomra cy 2 , la cual poseerá el signo de c. Como resumen para una forma cuadrática en R2 , se
tiene la siguiente tabla
Tipo Coeficientes
Definida positivamente a > 0, 4ac − b2 > 0 o a = b = 0, c > 0
Definida semipositivamente a > 0, 4ac − b2 ≥ 0 o a = b = 0, c ≥ 0
Definida negativamente a < 0, 4ac − b2 > 0 o a = b = 0, c < 0
Definida seminegativamente a < 0, 4ac − b2 ≥ 0 o a = b = 0, c ≤ 0
No definida En cualquier otro caso
Esto concluye la caracterización.
En el ejemplo anterior, para caracterizar a las formas cuadráticas en R2 se utilizó el método de
completar el cuadrado. En general este método no es el más recomendable (considera por ejemplo, la
forma cuadrática (x, y, z) 7Ï 3x 2 + 6y 2 − 2z2 + 3xy − 18yz + 5xz), pero siempre funciona (ve la prueba de
(7.2.1)). Sin embargo, existe un modo de proceder y es equivalente en R2 al de completar el cuadrado.
Observa que en el ejemplo anterior se introdujeron las variables u y v. Esto se conoce como un cambio
de variables.
( 7.1.8 ) Un campo vectorial T : Rn → Rn es un cambio de variable si es una biyección. Si, además, T es lineal,
se dirá que es un cambio de variable lineal.
En particular, cuando se cambia el parámetro a una curva se está realizando un cambio de variable.
En general, se dirá que se ha hecho un cambio de variable si dada una función esta ha sido precompuesta
con un cambio de variable. Esto es, si en lugar de trabajar con F se trabaja con F ◦ T. En el ejemplo
anterior, se tenía que f(x,Ç y) = ax 2å+ bxy + cy 2 . Luego, para encontrar T se procede como sigue, dado
b2 b
que (f ◦ T)(u, v) = au2 + c − v 2 . En el ejemplo se hizo u = x + y y v = y, luego definiendo
4a 2a
Å ã
b
S(x, y) = x + y, y = (u, v), se encontra que
2a
Å ã
b
(f ◦ T ◦ S)(x, y) = (f ◦ T)(u, v) = (f ◦ T) x + y, y
2a
Å ã2 Ç 2
å
b b
= a x+ y + c− y2
2a 4a
Ç å Ç å
2 b b2 2 b2
= a x + xy + y + c− y2
a 4a2 4a
= ax 2 + bxy + cy 2 .

217
Capítulo 7. El teorema de Taylor.

Å ã
b
De este modo, S es la inversa T. Para encontrar T se invierte S, luego T(x, y) = x − y, y .
2a
Como en el ejemplo pasado, para una forma cuadrática en dos variables a veces es más natural
proceder a completar el cuadrado y dar la inversa de T explícitamente. Si T no es necesaria no se
procede a encontrarla.
( 7.1.9 ) Sea f : Rn → R un polinomio y T : Rn → Rn un cambio de variable lineal. Entonces f ◦ T es un
polinomio.
Como f es una suma finita de monomios se puede suponer que f es un monomio. Se sabe que T
toma la forma !
n
X n
X
T(x1 , . . . , xn ) = t1,i xi , . . . , tn,i xi ,
i=1 i=1

donde cada ti,j es constante. Luego, suponiendo f = cpri11 · · · prinn ,

n
!i1 n
!in
X X
(f ◦ T)(x1 , . . . , xn ) = c t1,i xi ··· tn,i xi ,
i=1 i=1

y al ser cada ij un entero no negativo, se sigue que f ◦ T es un polinomio.


( 7.1.10 ) Sea T : Rn → Rn un cambio de variables lineal y f : Rn → R una forma cuadrática. Entonces f ◦ T
es una forma cuadrática.
En virtud de (7.1.9) f ◦T es un polinomio. Basta verificar que es homogéneo de segundo grado. Pero,

(f ◦ T)(λX) = f(T(λX)) = f(λT(X)) = λ 2 f(T(X)).

Luego, por definición, f ◦ T es una forma cuadrática.


( 7.1.11 ) Sea V ⊂ P (Rn ) el espacio vectorial de las formas cuadráticas en n variables. Entonces,

{(f, g) ∈ V 2 : f = g ◦ T para algún cambio de variable lineal T}

es una relación de equivalencia en el espacio de las formas cuadráticas.


Se denota por ∼ a este conjunto, se debe mostrar que
1. f ∈ V Ñ (f, f) ∈∼ («simetría»);
2. (f, g) ∈∼, (g, h) ∈∼Ñ (f, h) ∈∼ («transitividad»);
3. (f, g) ∈∼Ñ (g, f) ∈∼ («reciprocidad»).
La primera de estas propiedades se obtiene tomando T = IRn . La segunda se obtiene como sigue, al
ser f = g ◦ T y g = h ◦ S, se sigue que f = h ◦ ST. Para la tercera se observa que al ser T invertible,
f = g ◦ T ⇔ g = f ◦ T −1 .
V
Este teorema permite considerar el espacio de clases de equivalencia . Se verá que este espacio

tiene propiedades muy importantes. Cuando dos formas cuadráticas sean equivalentes se denotará por
f ∼
= g. Ahora, dado un elemento f ∈ V se define su clase de equivalencia como [f] = {g ∈ V : f ∼ = g},
luego, se define
V
= {[f] : f ∈ V } .

Ahora se demostrarán algunas propiedades que heredan las clases de equivalencia.

218
7.1. Formas cuadráticas.

( 7.1.12 ) Sean f y g formas cuadráticas en n variables tales que f ∼ = g. Para que f satisfaga alguna de las
siguientes propiedades es necesario y suficiente que g la satisfaga también:
1. f está definida positivamente;
2. f está definida semipositivamente;
3. f está definida negativamente;
4. f está definida seminegativamente;
5. f está no definida.
Por ser ∼
= una relación de equivalencia basta demostrar que si f satisface alguna de las propiedades
anteriores entonces g también.
Se supone que f está definida positivamente y que f = g ◦T. Se verá que g está definida positivamente.
Sea Y ∈ Rn con Y 6= 0, como T es invertible, T −1 Y 6= 0 y entonces

g(Y ) = g(T(T −1 (Y ))) = f(T −1 (Y )) > 0.

Esto muestra que g está definida positivamente. Los casos donde f está definida semipositivamente,
negativamente y seminegativamente son análogos.
Supón ahora que f no está definida. Existe un X 6= 0 tal que f(X) > 0 y existe un Y 6= 0 tal que
f(Y ) < 0. Pero, f(X) = g(TX) > 0 y TX 6= 0 por ser X 6= 0 y T invertible. Análogamente, g(TY ) < 0 y
TY 6= 0. Luego, g está no definida.
De este teorema se sigue inmediatamente que para determinar si una forma cuadrática está definida
de algún modo basta considerar una forma cuadrática más simple. Luego, es deseable que toda forma
cuadrática sea equivalente a una forma diagonal. Esto será discutido en la siguiente sección, al estudiar
la ley de inercia de Sylvester2 .

z 7.1.2 Matriz asociada a una forma cuadrática.


Se considera una forma cuadrática arbitraria f definida en Rn se quiere encontrar una matriz
A ∈ Matn×n (R) tal que f(X) = hAX, Xi ; esto es, abusando ligeramente de la notación, f(X) = AX 2 . Como
f es una función polinomial homogénea de segundo grado, se pueden encontrar ai,j ∈ R tales que
n X
X n
f(x1 , . . . , xn ) = ai,j xi xj .
i=1 j=i

De esta expresión es tentador proceder a factorizar el vector X = (x1 , . . . , xn ). Para esto, se observa lo
siguiente
∞Ñ é ∫
Xn X n n
X n
X n
X n
X
ai,j xi xj = xi ai,j xj = a1,j xj , a2,j xj , . . . , an,n xn , X .
i=1 j=i i=1 j=i j=1 j=2

Toma ahora A = (bi,j ), donde bi,j = 0 si i > j y bi,j = ai,j en otro caso. De la definición de producto
matricial
X n X n
ai,j xi xj = hAX, Xi .
i=1 j=1

2 En honor de James Joseph Sylvester (3 de septiembre 1814 - 15 de marzo 1897) un matemático inglés, quien se especializó

en teoría de matrices y teoría de números.

219
Capítulo 7. El teorema de Taylor.

El problema resulta ahora que f 7Ï A no es una función (muchas A representan la misma f), pues
ai,j ai,j
si B se obtiene de A al cambiar las entradas (supón que i < j) bi,j y bj,i por y bj,i = se
2 2
obtiene que f también está representada por B. Esta falta de unicidad surgen del hecho el espacio de
n(n + 1)
formas cuadráticas en n variables posee dimensión y no n2 . Luego, se tienen una infinidad de
2
diferentes matrices A que representan a f. Sin embargo, dentro de todas estas matrices existe una única
ai,j
matriz símetrica B que la representa. Tal matriz se obtiene al hacer (se supone i < j) bi,j = bj,i = .
2
Equivalentemente, si se encuentra una matriz A tal que f(X) = hAX, Xi entonces la única matriz simétrica
A + AT
asociada a f viene dada por B = . Esto se resume en el siguiente teorema.
2
( 7.1.13 ) Sea V ⊂ P (Rn ) el espacio de formas cuadráticas en n variables y W ⊂ Matn×n (R) el espacio de
matrices simétricas. Se tiene que V y W son isomorfos. De hecho, si f(X) = hAX, Xi para alguna A ∈ Matn×n (R)
A + AT
entonces el único elementos B ∈ W asociado a f viene dado por B = .
2
n(n + 1)
Ya se demostró que V tiene dimensión . Queda de ejercicio para el lector demostrar que
2
W tiene la misma dimensión. Por lo tanto, basta dar una inyección lineal de W en V . Sea Φ : W → V
tal que manda B a la forma cuadrática X 7Ï hBX, Xi , se deja de ejercicio verificar que Φ es lineal. Se
supone entonces que Φ(S) = Φ(T). Evaluando en ei , queda que

si,i = Sei · ei = Tei · ei = ti,i .

Evaluando ahora en ei + ej , se encuentra que

si,i + sj,i + si,j + sj,j = S(ei + ej ) · (ei + ej ) = Tei · ej = ti,i + tj,i + ti,j + tj,j .

De donde, si,j + sj,i = ti,j + tj,i . Al ser S y T simétricas, se concluye que S = T. Se ha mostrado entonces
que V y W son isomorfos.
A + AT
Supón ahora que f(X) = hAX, Xi para alguna A ∈ Matn×n (R) . Claramente B = es simétrica.
2
Se ve ahora que f(X) = hBX, Xi . Se tiene que
Æ ∏
hAX, Xi + AT X, X


AX + AT X
hBX, Xi = ,X = ,
2 2

basta demostrar que AT X, X = hAX, Xi . Pero,



n X
n n X
n

T X X
A X, X = aj,i xi xj = ai,j xi xj = hAX, Xi ,
i=1 j=1 j=1 i=1

en donde he sido usado que xi xj = xj xi . Luego, se concluye que f(X) = hBX, Xi .


Es importante destacar que esta matriz simétrica B está dada respecto a la base canónica de Rn . Si
la base cambia, también la matriz se altera, esto será tratado en la siguiente sección.

( 7.1.14 ) Encuentra la única matriz simétrica que representa a la forma cuadrática

(x1 , x2 , x3 ) 7Ï 3x12 + 2x22 − 7x32 + x1 x2 − 2x2 x3 + 4x1 x3 .

220
7.2. Ley de inercia de Sylvester.

Sea f la forma dada, se encuentra una matriz cuadrada A tal que f(X) = hAX, Xi . Una matriz
A ∈ Mat3×3 (R) que representa a f está dado por
 
3 1 4
A =  0 2 −2  .
0 0 −7

A + AT
Luego, la única matriz simétrica asociada a f viene dada por B = , de este modo, la matriz B
2
buscada es
1
 
3 2 2
B =  21 2 −1  .
2 −1 −7
En general, es más fácil dar A directamente y después encontrar B.

§ 7.2. Ley de inercia de Sylvester.


En esta sección se demostrará la Ley de Inercia de Sylvester. Esta ley da pauta para trabajar más a
fondo con las formas cuadráticas en general. Para empezar, la ley asegura que toda forma cuadrática
es congruente a una forma diagonal g. Más aún, g puede ser escrita de la siguiente forma
p p+n
X X
g(x1 , . . . , xm ) = xk2 − xk2 ,
k=1 k=p+1

donde p y n solo dependen de la clase de equivalencia de g. A estos números se les llama los índices
de inercia positivo y negativo. A la diferencia p − n se le conoce como la signatura de A. A continuación
se enuncia, demuestra y se exhiben algunos ejemplos del teorema.
( 7.2.1 ) Sea f una forma cuadrática definida en Rn . Existe un cambio de variable lineal T que diagonaliza a
f; esto es, f ◦ T es diagonal. Más aún, si S es un cambio de variable lineal donde f ◦ S es diagonal entonces el
número de coeficientes positivos de f ◦ S y los de f ◦ T son iguales; la «ley de inercia de Sylvester». Mismo para
coeficientes negativos.
Se va a realizar la demostración utilizando inducción matemática. Define H el conjunto de los
números naturales n para los cuales toda forma cuadrática definida en Rn es equivalente a una forma
cuadrática en forma diagonal. Se verá que H = N.
Para empezar, 1 ∈ H pues toda forma cuadrática en una variable es de la forma ax 2 , para algún
a ∈ R, luego, ya está dispuesta en forma diagonal. Supón ahora que n ∈ H y toma f : Rn+1 → R una
forma cuadrática cualquiera. Para utilizar inducción lo más natural es tratar de eliminar una de las
variables de f, dicho de otro modo, disponer f como sigue

f(x1 , . . . , xn+1 ) = g(x1 , . . . , xn ) + Ayn+1 ,

donde yn+1 es función lineal de x1 , . . . , xn+1 . Si es posible escribir a f de esta forma, el principio de
inducción asegura que g es equivalente a una forma diagonal, luego existe un Tg : Rn → Rn tal que
g ◦ Tg está en forma diagonal. Así,se podría definir T : Rn+1 → Rn+1 por

T(x1 , . . . , xn+1 ) = (Tg (x1 , . . . , xn ), yn+1 ).

Por ende, todo se reduce a encontrar yn+1 , la cual, como se mencionó, deberá ser una expresión lineal
en (posiblemente todas) las variables x1 , . . . , xn+1 .

221
Capítulo 7. El teorema de Taylor.

Supón que
n+1 X
X n+1
f(x1 , . . . , xn+1 ) = ai,j xi xj .
i=1 j=i

Se hace una reducción del problema, se supone que an+1n+1 6= 0. Ahora se agrupa todos los términos
que involucran a la variable xn+1 . Queda que,
n X
X n n+1
X
f(x1 , . . . , xn+1 ) = ai,j xi xj + ai,n+1 xi xn+1 .
i=1 j=i i=1

n X
X n
Luego, se define h : Rn → R dada por h(x1 , . . . , xn ) = ai,j xi xj . Por lo tanto, para concluir, se debe
i=1 j=i
n+1
X
escribir la expresión ai,n+1 xi xn+1 como una constante por una combinación lineal de todas las xi
i=1
elevada al cuadrado. Como se ha supuesto que an+1,n+1 6= 0, se puede dividir por esta variable, queda
que !
n+1 n
X X ai,n+1 2
ai,n+1 xi xn+1 = an+1,n+1 xi xn+1 + xn+1 .
an+1,n+1
i=1 i=1
ai,n+1
Se define bi = para i = 1, . . . , n entonces la expresión entre paréntesis anterior es
2an+1,n+1
2
2b1 x1 xn+1 + . . . + 2bn xn xn+1 + xn+1 .

Por otro lado, si se considera constantes fijas c1 , . . . , cn ∈ R, se ve que


n
!2
X
2
ci xi + xn+1 = 2c1 x1 xn+1 + . . . + 2cn xn xn+1 + xn+1 + H(x1 , . . . , xn ),
i=1

en donde H(x1 , . . . , xn ) consiste en aquellos términos que no involucran a xn+1 . Haciendo ci = bi para
i = 1, . . . , n se encuentra que
n
X
2 2
bi xi xn+1 + xn+1 = 2b1 x1 xn+1 + . . . + 2bn xn xn+1 + xn+1
i=1
+H(x1 , . . . , xn ) − H(x1 , . . . , xn )
n
!2
X
= ci xi + xn+1 − H(x1 , . . . , xn )
i=1

De donde, !2
n
X
f(x1 , . . . , xn+1 ) = h(x1 , . . . , xn ) − H(x1 , . . . , xn ) + ci xi + xn+1 ,
i=1

de donde, se toma g = h − H y se ve que es una forma cuadrática que solo depende de las primeras n
variables. Luego, ha sido demostrado el teorema para el caso donde an+1,n+1 6= 0.
Se ve ahora el caso donde an+1,n+1 = 0. Supón primero que ai,i 6= 0 para algún i ∈ {1, . . . , n}. Define
T : Rn+1 → Rn+1 dada por

T(x1 , . . . , xn+1 ) = (x1 , . . . , xi−1 , xn+1 , xi+1 , . . . , xn , xi ),

222
7.2. Ley de inercia de Sylvester.

es claro que T es un cambio de variable lineal. De este modo, es inmediato que el coeficiente de xn+1 de
f ◦ T es no nulo, por lo que aplica el caso anterior a f ◦ T. Luego, se puede encontrar S : Rn+1 → Rn+1
tal que f ◦ T ◦ S es diagonal. Por lo tanto, la transformación buscada para este caso es T ◦ S. Finalmente,
supón que ai,i = 0 para i = 1, . . . , n + 1. Entonces, para f la transformación cero no hay nada que
demostrar, por lo que se supondrá que existe aij 6= 0. Pasando por un cambio de variable se puede
suponer que i < j, define T : Rn+1 → Rn+1 dada por T = (T1 , . . . , Tn+1 ), donde Tk (x1 , . . . , xn+1 ) = xk si
k = 1, . . . , i − 1, i + 1, . . . , j − 1, j + 1, . . . , n y
xi + xj xi − xj
Ti (x1 , . . . , xn+1 ) = , Tj (x1 , . . . , xn+1 ) = .
2 2
Observa lo siguiente, e + e 
i j
f(T(ei )) = f = ai,i + ai,j + aj,j = ai,j .
2
Luego, por los casos anteriores, f ◦ T es equivalente a una forma diagonal. Al agotar todos los casos, se
concluye que n + 1 ∈ H y, por lo tanto, H = N. Por ende, toda forma cuadrática real es equivalente a
una forma cuadrática diagonal.
Se ve ahora que si f ◦ T y f ◦ S son formas cuadráticas equivalentes y diagonales entonces el
número de coeficientes positivos, negativos y nulos coinciden. Utilizando cambios de coordenadas, se
puede trabajar en Ran (S) = Rn . Luego, se puede pensar que f está en forma diagonal y que T es una
transformación que manda f a otra forma diagonal. Cambiando el orden de las coordenadas se puede
suponer que, respecto de f ◦ T, los términos positivos empiezan y luego los negativos. Supón entonces
que
p1 p1 +n1
X X
2
f(x1 , . . . , xn ) = αi xi − αi xi2
i=1 i=p1 +1

y
p2 p2 +n2
X X
(f ◦ T)(x1 , . . . , xn ) = βi xi2 − βi xi2 ,
i=1 i=p2 +1

donde todos los αi y los βj son números positivos. Se quiere demostrar que p1 = p2 y que n1 = n2 .
Para esto, observa que f ◦ T ◦ T −1 = f. Escribe T −1 = (t1 , . . . , tn ) entonces, se ha de cumplir que para
cualquier X ∈ Rn
p1 p1 +n1 p2 p2 +n2
X X X X
αi xi2 − αi xi2 = βi (ti X)2 − βi (ti X)2 ,
i=1 i=p1 +1 i=1 i=p2 +1

de donde,
p1 p2 +n2 p2 p1 +n1
X X X X
αi xi2 + βi (ti X)2 = βi (ti X)2 + αi xi2 .
i=1 i=p2 +1 i=1 i=p1 +1

Si p1 6= p2 , por ejemplo p1 < p2 , se puede tomar X 6= 0 tal que

X ∈ {0}p1 × Rn−p1 ∩ T (Rp2 × {0}n−p2 ) .

En efecto, considerando que T es invertible, se concluye que

dim ({0}p1 × Rn−p1 ) = n − p1

y que
dim T (Rp2 × {0}n−p2 ) = p2

223
Capítulo 7. El teorema de Taylor.

se ve que la dimensión de {0}p1 ×Rn−p1 ∩T (Rp2 × {0}n−p2 ) es al menos p2 −p1 , demostrando lo afirmado.
Par tal X se tiene que T −1 X ∈ Rp2 × {0}n−p2 . De donde,
p1 p2 +n2
X X
αi xi2 + βi (ti X)2 = 0,
i=1 i=p2 +1

con lo que,
p2 p1 +n1
X X
2
βi (ti X) + αi xi2 = 0.
i=1 i=p1 +1

−1
Al ser X 6= 0 y T invertible, se concluye que existe un k para el cual tk X 6= 0, luego
p2 p1 +n1
X X
βi (ti X)2 + αi xi2 ≥ βk (tk X)2 > 0,
i=1 i=p1 +1

que es una contradicción. Por lo tanto, p1 6< p2 . Considerando X ∈ Rp1 × {0}n−p1 ∩ T({0}p2 × Rn−p2 )
se puede concluir que p2 6< p1 , con lo que p1 = p2 . Considerando −f y −f ◦ T se ve que n1 = n2 . Se
concluye lo pedido.
La demostración anterior es constructiva, de ella se puede deducir como definir los cambios de
variable en casos particulares.

( 7.2.2 ) Exprese la siguiente forma cuadrática f(x, y, z) = 2x 2 + y 2 − xz + xy − 2yz en forma diagonal.


X
Suponiendo que f(x1 , x2 , x3 ) = aij xi xj entonces, como en la demostración de la ley de inercia
i,j
de Sylvester, se necesita que alguna de las coordenadas ai,i sea no nula. Se toma a1,1 = 2 como la
coordenada no nula. Luego, se debe agrupar todos los términos que contengan a x, queda que

f(x, y, z) = (2x 2 + xy − xz) + (y 2 − 2yz).

Ahora se escribirá 2x 2 + xy − xz como un trinomio al cuadrado menos valores independientes de x.


Observa que  xy xz 
2x 2 + xy − xz = 2 x 2 + + ,
2 2
1 1
se quiere que = 2a, por ende a = . Con esto, se ve que
2 4

(x + ay + az)2 = x 2 + 2axy + 2axz + a2 y 2 + 2a2 yz + a2 z2 .

Tomando ∆ = a2 y 2 + 2a2 yz + a2 z2 , queda que

2x 2 + xy − xz = 2(x + ay + az)2 − 2∆.

De esta forma,
 y z 2
f(x, y, z) = 2 x + + − 2∆ + y 2 − 2yz.
4 4
Ahora se debe completar el cuadrado

y 2 + yz + z2 7 17 1
−2∆ + y 2 − 2yz = − + y 2 − 2yz = y 2 − yz − z2 .
8 8 8 8

224
7.2. Ley de inercia de Sylvester.

Por otro lado,


17 2 17 2
Å ã Å ã Å ã
2 2 289 2 317 2
7y − 17yz − z = − z + y + 7+ y = y − z+ y .
2 4 4 2
Finalmente,
17 2
Å ã
 y z 2 317 2 1
f(x, y, z) = 2 x + + + y − z+ y ,
4 4 32 8 2
que es una expresión diagonal para f.
De la ley de inercia de Sylvester se tiene que si f es una forma cuadrática y f ◦ T es una forma
diagonal equivalente a f entonces p − n está bien definido sin importar T, donde p es el número de
coeficientes positivos de f y n el número de coeficientes negativos. A estos números se les da nombres
especiales.
( 7.2.3 ) Sea f una forma cuadrática y f ◦ T cualquier forma cuadrática diagonal equivalente a f, sea p el número
de coeficientes positivos de f ◦ T y n el número de coeficientes negativos. Se definen el índice de signatura (o de
inercia) positivo de f como p, el índice de signatura negativo de f como n, la signatura de f como sig(f) = p − n
y el rango de f como ran(f) = p + n.
El teorema anterior permite reducir toda forma cuadrática a otra forma cuadrática especialmente
fácil de analizar.
( 7.2.4 ) Sea f una forma diagonal en n variables. Existe un cambio de variable T tal que todos los coeficientes
no nulos de f ◦ T son unitarios. Esto es, existe T tal que
p p+n
X X
(f ◦ T)(x1 , . . . , xn ) = xi2 − xi2 ,
i=1 i=p+1

en donde p y n son, respectivamente, los índices de inercia positivo y negativo.


n
X
Como f está en forma diagonal, se tiene que f = ak pr2k . Toma T : Rn → Rn definida según
k=1

 p 1 pr (X)

k si ak 6= 0
prk (TX) = |ak |
prk (X) si ak = 0.

Es claro que T es lineal, luego basta demostrar que es inyectiva para ver que es cambio de variable.
Supón que TX = 0, tomando la proyección k-ésima, queda que
ck xk = prk (TX) = prk (0) = 0.
donde ck 6= 0, luego xk = 0. Así, Nuc (T) = {0}, mostrando que T es inyectiva y, por ende, invertible.
Se ve ahora que f ◦ T tiene coeficientes no nulos unitarios. Sea 1 ≤ k ≤ n tal que ak 6= 0. Luego, el
coeficiente k-ésimo de f ◦ T tiene norma
n
X a
2 k
|f(Tek )| = ai pri (Tek ) = = 1.

|ak |
i=1

Mostrando que f ◦ T solo tiene coeficientes no nulos unitarios.


De los dos teoremas previos, se concluye que toda forma cuadrática f es congruente a una forma
cuadrática con coeficientes unitarios. Por ende, es natural decir que el representante canónico de una
clase de congruencia en el espacio de formas cuadráticas es cualquier forma cuadrática en la clase de
equivalencia tal que todos sus coeficientes sean unitarios.

225
Capítulo 7. El teorema de Taylor.

( 7.2.5 ) Sea f una forma cuadrática y [f] su clase de equivalencia entonces g ∈ [f] es está dispuesta en forma
canónica si todos los coeficientes no nulos de g son unitarios.

Como corolario de estos teoremas se tiene lo siguiente. Tomando V las formas cuadráticas en n
variables, 0 ≤ h, k ≤ n y ∼ la relación de equivalencia definida por cambios de variable lineales, existe
V
una única clase de equivalencia en tal que sus elementos tienen signatura h y rango k. Para ver

V
esto se supone que existen dos clases [f] y [g] en tales que ambas tienen signatura h y rango k. Sea

pf el numero de coeficientes positivos de un elemento canónico en [f] y nf el número de coeficientes
negativos de un elemento canónico en [f]. Define pg y ng de manera análoga en [g]. Se tiene que
pf − nf = pg − ng = k y pf + nf = pg + ng = h. Sumando y restando, se obtiene que 2pf = h + k = 2pg
y 2nf = h − k = 2ng , con lo que pf = pg y nf = ng . Por lo que, f y g son equivalentes a los forma
cuadrática
pf pf +ng
X X
2
xk − xk2 .
k=1 k=pf +1

Mostrando que [f] = [g], como se afirmó.

(n + 1)(n + 2)
( 7.2.6 ) Sea V el espacio de las formas cuadráticas en Rn ; existen clases de congruencia definidas
2
por elementos de V .

Esto es una consecuencia casi inmediata de la observación anterior. Para empezar, se observa la
siguiente tabla:

Numero de entradas positivas Número de clases


n 1
n−1 2
.. ..
. .
1 n
0 n+1

El nombre de la primera columna es autoexplicativo, la segunda columna da el número de clases que


tienen el índice de inercia positivo dado por la primera columna. Luego, si la tabla es correcta, se tendría
el resultado deseado. Se verificará que se han hecho bien los cálculos.
Para realizar esto se puede suponer que se tienen n casillas que se deben llenar con tres letras
p, q y r, en donde solo importa el número letras que se hayan escrito de cada tipo y no el orden en
como fueron escritas. En este caso, se está entendiendo que p significa el índice de inercia positivo, q el
negativo y r indica el número de entradas nulas. Toma 0 ≤ k ≤ n, y supón que se han tomado k letras
p entonces, las primeras k casillas están ocupadas por la letra p. De este modo, las otras n − k casillas
deben ser ocupadas por las letras q y r. Se puede suponer que se tienen n − k letras q y cero letras r,
o bien, n − k − 1 letras q y una letra r, o bien, en general, n − k − i letras q e i letras r entonces, con k
letras p se tiene un total de n − k + 1 formas de acomodar n − k − i letras q e i letras r 3 Luego, el total
de clases de equivalencia de formas cuadrática con índice de signatura positivo igual a k es n − k + 1,
que es precisamente el número que aparece en la segunda columna de la fila k-ésima.

3 Estas formas corresponden a como varía i desde cero hasta n − k.

226
7.3. Segunda derivada.

§ 7.3. Segunda derivada.


La idea ahora es poder definir derivadas de orden superior. Para esto, se empezará con la segunda
derivada. Por cuestiones didácticas, se separa la construcción de la segunda derivada, que se hará con
todo detalle, del resto de las derivadas de órdenes superiores.
Como motivación principal para definir la segunda derivada se observa lo siguiente.
Å Se toma una
ã
2 2 2
 ∂g ∂g
función g : R → R en el conjunto C R , R y se define la función f(x, y) = , . Entonces,
∂x ∂y
como g ∈ C2 R2 , R , se tiene que las parciales de f existen ambas y son continuas. Por ende, de

acuerdo con (6.5.5), se tiene que f es diferenciable. La derivada de f es este caso viene dada por
∂2 g ∂2 g
 ∂f  
1 ∂f1 
 ∂x ∂y  
Df (x, y) =  ∂f ∂x 2 ∂y∂x 
= 2
.
2 ∂f2  ∂ g ∂2 g 
∂x ∂y ∂x∂y ∂y 2
Como g es un elemento de C2 R2 , R , para cada punto (a, b) ∈ R2 , se tiene que la matriz asociada a la

derivada de la función f en el punto (a, b) es simétrica. Luego, esta matriz es la única matriz simétrica
que representa a la forma cuadrática
(x, y) 7Ï h(Df (a, b) (x, y)) , (x, y)i .
Un acercamiento para definir segunda derivada es pensar que la segunda derivada de g es esta forma
cuadrática.

z 7.3.1 El teorema de identificación Lin (V , Lin (V , W )) = Lin(2) (V , W ) .


El siguiente teorema es pilar para poder definir satisfactoriamente las derivadas de orden supe-
rior. Aquí se regresa a la estructura general del texto; esto es, se estudian los espacios vectoriales de
dimensión finita.
( 7.3.1 ) Sean U, V y W tres espacios vectoriales normados de dimensión finita positiva. Existe un isomorfimo
canónico4 que preserva la norma entre los espacios normados

(Lin (U, Lin (V , W )) , kk)


y
(Bil(U, V ; W ), kk) ,
en donde las normas que se utilizan son las normas de (5.6.2) y del ejercicio (5.72).
Se recuerda que la norma en Lin (E, F) , donde E y F son espacios vectoriales, está dada por
kTk = ı́nf{c > 0|∀v ∈ E, kTvk ≤ c kvk};
del mismo modo, la norma en Bil(U, V ; W ) está dada por
kBk = ı́nf{c > 0|∀(u, v) ∈ U × V , kB(u, v)k ≤ c kuk kvk}.
Se considera la asociación de (5.7.6.2); esto es, dada una forma bilineal B ∈ Bil(U, V ; W ) define, para
u ∈ U la función φB (u) ∈ Lin (V , W ) dada por φB (u)v = B(u, v). Entonces u 7Ï φB (u) es una función
lineal φB : U → Lin (V , W ) . Define Φ : Bil(U, V ; W ) → Lin (U, Lin (V , W )) dada por Φ(B) = φB . Se
demuestra ahora que Φ es un isomorfismo que preserva la norma. Se verá cada punto.
4 Un isomorfismo entre espacios vectoriales recibe el adjetivo de canónico cuando en su definición no intervienen coordenadas.

227
Capítulo 7. El teorema de Taylor.

Linealidad. Sean B1 , B2 ∈ Bil(U, V ; W ) y λ ∈ R. Se debe demostrar que φB1 +λB2 = φB1 + λφB2 . Esto es,
debe demostrarse que para cada u ∈ U las transformaciones lineales φB1 +λB2 (u) y φB1 (u) + λφB2 (u)
coinciden; esto es, que para todo v ∈ V los elementos en W

φB1 +λB2 (u)v = (B1 + λB2 )(u, v)

y
φB1 (u)v + λφB2 (u)v = B1 (u, v) + λB2 (u, v)
son el mismo, lo cual es claro.

Invertibilidad. Se construye la inversa de Φ. Es natural entonces proponer la inversa como sigue.


Dada φ ∈ Lin (U, Lin (V , W )) define Bφ ∈ Bil(U, V ; W ) por

Bφ (u, v) = φ(u)v.

Sea Ψ : Lin (U, Lin (V , W )) → Bil(U, V ; W ) dada por Ψ(φ) = Bφ . Para φ ∈ Lin (U, Lin (V , W )) se
tiene que

(Φ ◦ Ψ)(φ) = φ ⇔ ∀u ∈ U, (Φ ◦ Ψ)(φ)(u) = φ(u)


⇔ ∀u ∈ U, ∀v ∈ V (Φ ◦ Ψ)(φ)(u)v = φ(u)v.

Por definición, (Φ ◦ Ψ)(φ) = Φ(Bφ ) y dado (u, v) ∈ U × V , Φ(Bφ )(u)v = Bφ (u, v) = φ(u)v; lo cual
muestra que
(Φ ◦ Ψ) = ILin(U,Lin(V ,W )) .
Análogamente,
(Ψ ◦ Φ) = IBil(U,V ;W ) ,
−1
lo cual deviene en que Ψ = Φ .

Isometría. Ahora se demostrará que Φ preserva la norma. Sea φ ∈ Lin (U, Lin (V , W )) . Entonces, de
los ejercicios (5.71) y (5.73) se sigue que

kΨ(φ)k = sup kBφ (u, v)k = sup kφ(u)vk


kuk=1,kvk=1 kuk=1,kvk=1

= sup sup kφ(u)vk = sup kφ(u)k = kφk ,


kuk=1 kvk=1 kuk=1

Luego, en virtud del ejercicio (1.34), Φ preserva la norma.

Esto concluye la demostración de (7.3.1).

Observación: a partir de este teorema los dos espacios vectoriales Lin (U, Lin (V , W )) y Bil(U, V ; W ) se
considerarán indistinguibles; esto es, se supondrá que son el mismo conjunto. Entonces, si se habla de
una forma bilineal B, esta se identificará con una función φB : U → Lin (V , W ) y se escribirá, por abuso
de notación, φB (u) = B(u, ·). Además, para facilitar la notación, cuando U = V se pondrá Lin(2) (V , W )
para denotar a cualquiera de estos espacios. Con esto, ya es posible dar una definición estilizada de
derivada.

( 7.3.2 ) Sean f : A ⊂ V → W y v un punto interior de A. Supón que Df existe en una bola B (v; r) . Se dirá
que f es dos veces diferenciable en v si Df : B (v; r) → Lin (V , W ) es diferenciable en v. Se dirá que f es dos
veces diferenciable si A es abierto y su segunda derivada existe en cada punto de A.

228
7.3. Segunda derivada.

Observación: se hace hincapié en que la segunda derivada de una función en un punto es una formal
bilineal que depende del punto. Esto se ha preferido a cualquier otra opción pues así la primera derivada
de una función en un punto es una forma lineal que depende del punto. En general, se definirá la k-ésima
derivada de una función en un punto como una forma k-lineal que depende del punto.
π π 
( 7.3.3 ) Calcula la segunda derivada de f(x, y) = sin x cos y en el punto P = , .
4 4
Se utilizará (6.3.9). Entonces, se encuentra la primera derivada de f. Según (6.2.4), la primera derivada
de f es (después de ser transportada de Lin R2 , R a R2 )


Df (x, y) = (cos x cos y, − sin x sin y).


Luego, la segunda derivada de f en P es la forma bilineal que representa a la derivada de esta función
en el punto P. Por lo que, la deriva de Df en (x, y) es
ï ò
− sin x cos y − cos x sin y
D2 f (x, y) = .
− cos x sin y − sin x cos y
La regla de correspondencia de la segunda derivada queda determinada por
((h1 , k1 ), (h2 , k2 )) 7Ï D2 f (x, y) (h1 , k1 ), (h2 , k2 ) .

Haciendo los cálculos, queda que la segunda derivada es la forma bilineal


(h1 + k1 )(h2 + k2 )
D2 f (x, y) ((h1 , k1 ), (h2 , k2 )) = − .
2
Lo cual concluye el ejemplo.
Se considera a continuación un ejemplo más complicado.
( 7.3.4 ) Encuentra la función de segundas derivadas de F en P donde F(x, y) = (y sin x, x 2 y + 2xy).
Se procede como en el ejemplo anterior, la función de primeras derivadas de F viene dada por
ï ò
y cos x sin x
DF (x, y) = .
2xy + 2y x 2 + x
Sea (E1,1 , E1,2 , E2,1 , E2,2 ) la base canónica de Mat2×2 (R) . Observa que
DF (x, y) = y cos xE1,1 + sin xE1,2 + (2xy + y)E2,1 + (x 2 + 2)E2,2 .
En virtud del ejemplo (6.3.9), se puede pensar que Df (x, y) es la función g(x, y) = (y cos x, sin x, 2xy +
y, x 2 + 2). Luego, la derivada de g es
 
y sin x cos x
 cos x 0 
Dg (x, y) = 
 2y
.
2x + 1 
2x + 1 0
Evaluando esta función en un punto (h1 , k1 ) se obtiene que
Dg (x, y) (h1 , k1 ) = (y sin xh1 + cos xk1 , cos xh1 , 2yh1 + (2x + 1)k1 , (2x + 1)h1 ).
Este último vector pertenece al mismo contradominio de g, por lo que toma la forma
(y sin xh1 + cos xk1 )E1,1 + cos xh1 E1,2 + (2yh1 + (2x + 1)k1 )E2,1 + (2x + 1)h1 E2,2 .
De nueva cuenta, (6.3.9) muestra que este vector es D2 F (x, y) ((h1 , k1 ), ·). Finalmente,
D2 F (x, y) ((h1 , k1 ), (h2 , k2 )) = (y sin xh1 + cos xk1 )h2 + cos xh1 k2 , (2yh1 + (2x + 1)k1 )h2 + (2x + 1)h1 k2 ,


que es la segunda derivada buscada.

229
Capítulo 7. El teorema de Taylor.

§ 7.4. Propiedades de la segunda derivada.


El interés ahora es desarrollar propiedades básicas de la segunda derivada. Algunas de ellas son
consecuencias directas de las propiedades análogas de la primera derivada. Asimismo, se verá que los
teoremas desarrollados en los capítulos pasados facilitarán las demostraciones de los teoremas que
siguen. Al final se anexan varios ejemplos.

z 7.4.1 Forma cuadrática.


Al igual que la primera derivada de una función en un punto representa el plano tangente a la función
en el punto, la segunda derivada representa la forma cuadrática de segundo grado que mejor aproxima
a la función en el punto. Dado que la segunda derivada es una forma 2-lineal queda de inmediato que
para cada punto existe una forma cuadrática asociada a la segunda derivada de una función.
( 7.4.1 ) Sea f : A ⊂ Rn → R dos veces diferenciable. Se define la forma cuadrática de f en P como la función
C : Rn → R dada por C(X) = D2 f (P) (X, X).
Es importante notar que si f es de clase C2 en P (esto es, D2 f es continua en P) entonces C y D2 f (P)
son equivalentes en el sentido que continúa. Para que la forma cuadrática C exista es necesario que la
segunda derivada de la función en el punto exista. Recíprocamente, si se conoce C(X) para todos los
X ∈ Rn , se puede encontrar D2 f (P) (X, Y ) como sigue. Se tiene la siguiente igualdad,

C(X + Y ) − C(X) − C(Y )


D2 f (P) (X, Y ) = .
2
Para verificar esto, basta utilizar la definición de C y el hecho que D2 f (P) es una forma 2-lineal.
Haciendo algunos cálculos, debe encontrarse que

C(X + Y ) − C(X) − C(Y ) D2 f (P) (X, Y ) + D2 f (P) (Y , X)


= .
2 2
Pero al ser f de clase C2 en P, se sigue de (6.6.1) que D2 f (P) (X, Y ) = D2 f (P) (Y , X) para cualesquier X
y Y en Rn .
Luego, para toda función de clase C2 su derivada en un punto es equivalente a la forma cuadrática
que representa. Es precisamente por esta razón que en muchos textos se maneje que una función es
dos veces diferenciable si es de clase C2 y que su derivada es la forma cuadrática asociada a la segunda
derivada. Se enfatiza en que estos conceptos son equivalentes para funciones de clase C2 pero que se
vale un resultado más general. Asimismo, es por esta razón que luego se identifica la segunda derivada
de una función f : A ⊂ Rn → R con una matriz cuadrada y simétrica; la matriz hessiana.
( 7.4.2 ) Encuentra la forma cuadrática asociada a f(x, y) = ax 2 + bxy + cy 2 en P = (x0 , y0 ).
Como f es un polinomio se tiene que f ∈ C∞ R2 , R . Derivando, se ve que


Df (x, y) = (2ax + by, bx + 2cy).

Derivando por segunda ocasión, se encuentra que,


ï ò
2a b
D2 f (x, y) = .
b 2c

Luego,
D2 f (x0 , y0 ) ((h1 , k1 ), (h2 , k2 )) = 2ah1 h2 + bk1 h2 + bh1 k2 + 2ck1 k2 .

230
7.4. Propiedades de la segunda derivada.

Observa que haciendo (h1 k1 ) = (h2 , k2 ) = (h, k), se encuentra que


D2 f (x0 , y0 ) ((h1 , k1 ), (h1 , k1 )) = 2ah2 + 2bhk + 2ck2 = 2f(h, k).
D2 f (P) X (2)
Simbólicamente esto puede ser escrito del modo mucho más sugerente f(X) = , el cual es
2!
un polinomio de Taylor en varias variables.

z 7.4.2 Matriz asociada a la segunda derivada de una función real.


Considera una función f : A ⊂ Rn → R dos veces diferenciable en P. Se quiere encontrar un método
general de encontrar la segunda derivada de f en P.
Lo que se va a hacer aquí es demostrar que dada una forma bilineal B ∈ Lin(2) (Rn , R) existe una
matriz cuadrada M ∈ Matn×n (R) que representa a B5 . Para encontrar explícitamente la matriz M = (mi,j )
se hace lo siguiente. Se empieza suponiendo que M existe. Por ser M representante de B, se debe
cumplir que
B(u, v) = hMu, vi .
Haciendo u = ej y v = ei , se encuentra que
mi,j = M j , ei = hmej , ei i = B(ej , ei ),

donde M j es la j-ésima columna de M. Ha sido demostrado entonces que si la matriz M existe entonces
viene dada por M = (mi,j ) = (B(ej , ei )). Para demostrar que tal M existe, define M tal que su entrada
(i, j) es B(ej , ei ). Se comprueba fácilmente que B(u, v) = hMu, vi para cualesquier u, v ∈ Rn .
Supón ahora que B = D2 f (P) . Entonces,
B(ej , ei ) = (D2 f (P) ej )ei .
Lo que resta es encontrar la expresión en el lado derecho de la ecuación anterior. Para esto, se observa
que la función Df viene dada por
Df (P) = (D1 f (P) , . . . , Dn f (P)) .
Luego, su derivada viene dada por
 
D1,1 f (P) ... Dn,1 f (P)
2
D f (P) =  .. .. ..
.
 
. . .
D1,n f (P) ... Dn,n f (P)
Por ende, B(ej , ei ) = Dj,i f (P) . Finalmente, se ha mostrado que la matriz M asociada a la segunda
derivada de la función f en el punto P viene dada por
 
D1,1 f (P) . . . Dn,1 f (P)
M= .. .. ..
,
 
. . .
D1,n f (P) ... Dn,n f (P)
que era de esperarse. Esta matriz se denomina la matriz Hessiana6 de f.
( 7.4.3 ) Sea f : A ⊂ Rn → R cuyas funciones de segundas derivadas parciales existen en P. Se define la matriz
hessiana de f en P por  
D1,1 f (P) ... Dn,1 f (P)
Hessf (P) =  .. .. ..
.
 
. . .
D1,n f (P) ... Dn,n f (P)
5 Esto es, se va a demostrar que existe una matriz M ∈ Matn×n (R) tal que B(u, v) = hMu, vi .
6 En honor de Ludwig Otto Hesse (22 abril 1811 - 4 agosto 1874), un matemático alemán.

231
Capítulo 7. El teorema de Taylor.

Observaciones:
1. Nota que si Hessf (P) = (mi,j ) entonces el elemento mi,j es Dj,i f (P) y no Di,j f (P) , como es definido
por algunos autores. Sin embargo, cuando f es de clase C2 en un abierto, tales parciales coinciden
y no existe peligro a confusión.
2. Es destacable que se ha definido Hessf (P) siempre que existan todas las segundas parciales de
f en P. Esto es, la matriz anterior puede existir aún sin f ser dos veces diferenciable en P. Para
éste caso especial, ha sido demostrado el siguiente teorema.
( 7.4.4 ) Sea f : A ⊂ Rn → R dos veces diferenciable en P. Entonces, existe un única matriz M ∈ Matn×n (R)
tal que D2 f (P) (u, v) = hMu, vi . Más aún, la matriz M anterior es la matriz Hessf (P) .
( 7.4.5 ) Encuentra la segunda derivada de f(x, y) = sin x cos y.
Para empezar, f ∈ C∞ R2 , R , por lo que es dos veces diferenciable. Luego, se tiene que la segunda

derivada está dada por Hessf (P) . Pero,
ï ò
D1,1 f (P) D2,1 f (P)
Hessf (P) =
D1,2 f (P) D2,2 f (P)
ï ò
− sin x cos y − cos x sin y
= .
− cos x sin y − sin x cos y
Que concluye el ejercicio.

z 7.4.3 Funciones coordenadas y segunda derivada.


Lo que es de intentarés ahora es generalizar las ideas anteriores para una función F = (f1 , . . . , fm )
con dominio en Rn y contradominio en Rm . Como siempre ha ocurrido, se quiere demostrar que una
condición necesaria y suficiente para la existencia de la segunda derivada de F es necesario y suficiente
la existencia de la segunda derivada de cada función coordenada. Además, se buscará una forma de
disponer de manera matricial dicha forma bilineal.
( 7.4.6 ) Sean F = (f1 , . . . , fm ) : A ⊂ Rn → Rm y P un punto interior de A. Para que F sea dos veces
diferenciable en P es conidición necesaria y suficiente que cada fi sea dos veces diferenciable en P. En este caso
D2 F (P) = D2 f1 (P) , . . . , D2 fm (P) ,


en el sentido que
D2 F (P) (u, v) = D2 f1 (P) (u, v), . . . , D2 fm (P) (u, v) .


Observa que en una bola suficientemente pequeña centrada en P se cumple que


n X
X n
DF = Dj fi Ei,j ,
i=1 j=1

en donde (Ei,j ) es la base canónica de las matrices cuadradadas de orden n. En vitud del ejemplo (6.3.9),
D2 f (P) existe si y solo si la derivada de cada función Dj fi existe; esto es equivalente a que cada Dfi
sea diferenciable en P; esto es equivalente a que cada fi sea dos veces diferenciable en P. Ahora se
demostrará
D2 F (P) (u, v) = D2 f1 (P) (u, v), . . . , D2 fm (P) (u, v) .


Según (6.2.6),
n
X n
X
DF (P) u = ui Di F (P) = ui (Di f1 (P) , . . . , Di fm (P)) = (Df1 (P) u, . . . , Dfm (P) u).
i=1 i=1

232
7.4. Propiedades de la segunda derivada.

( 7.4.6.1 ) Sea f : A ⊂ V → W una función dos veces diferenciable en v. Sea h ∈ V cualquier vector y considera
la función g(u) = Df (u) h. Entonces g es diferenciable en v y Dg (v) k = D2 f (v) (h, k).
Considera la función φ : Lin (V , W ) → W dada por φ(T) = Th; obviamente φ es lineal y g = φ ◦ Df.
De la regla de la cadena

Dg (v) = D(φ ◦ Df) (v) = Dφ (Df (v)) D2 f (v) = φ D2 f (v) = D2 f (v) (u, ·) ∈ Lin (V , W ) .


Evaluando en k ∈ V se encuentra que

Dg (v) k = D2 f (v) (h, k).

Finalmente, utilizando esto y (5.7.4),

D2 F (P) (u, ·) = D2 f1 (P) (u, ·), . . . , D2 fm (P) (u, ·) .




Tras evaluar en v se encuentra lo afirmado.


Simbólicamente, se escribirá
 
HessF (P) = Hessf1 (P) , . . . , Hessfm (P) ,

donde al evaluar en (u, v) se estará pensando que esta operación se realiza coordenada a coordenada.
Antes de dar el teorema se necesita de una definición.
( 7.4.7 ) Sea F : A ⊂ Rn → Rm . Supón que para algún P ∈ A existen todas las derivadas de segundo orden de
F. Se define la matriz hessiana de F en P como
 
HessF (P) = Hessf1 (P) , . . . , Hessfm (P) ,

donde la expresión de la derecha se entiende como la concatenación por columnas7 de todas las matrices hessianas.
El teorema que se ha demostrado es el siguiente.
( 7.4.8 ) Sea F : A ⊂ Rn → Rm dos veces diferenciable en P. Entonces su segunda derivada en P tiene matriz
asociada a
HessF (P) = [HessF1 (P) , . . . , HessFm (P)] ,
donde evaluar en (u, v) significa hacerlo en cada coordenada.
( 7.4.9 ) Encuentra la segunda derivada de

F(x, y) = (x 2 + 2yx + exy , log(x 2 + 1) + log(y 2 + 1)).

De acuerdo al teorema anterior, la segunda derivada de F en (x, y) es HessF (x, y) . Pero, HessF (x, y)
es la matriz dada según
1 − x2
  
2 0
2 + y 2 exy 2 + exy + xyexy 
ï ò

, (1 + x 2 )2 
2  ,
 
 2 + exy + xyexy 2 xy
x e  1−y
0 2
(1 + y 2 )2
que es la expresión buscada.
h i h i
7 Por a11 a12 b11 b12
ejemplo, la concatenación por columnas de las matrices A = yB= está dada por la matriz
a21 a22 b21 b22
hh i h ii
a11 a12 b11 b12
[A, B] = , .
a21 a22 b21 b22

233
Capítulo 7. El teorema de Taylor.

z 7.4.4 Segunda derivada de una forma bilineal.


En el ejercicio (5.7.6 se encontró la primera derivada de una forma bilineal. La intención es encontrar
la segunda derivada.
( 7.4.10 ) Sea B : V1 × V2 → W una función bilineal. Para cada (v1 , v2 ) ∈ V1 × V2 la segunda derivada de B
existe; de hecho
D2 B (v1 , v2 ) ((h1 , k1 ), (h2 , k2 )) = B(h1 , k2 ) + B(h2 , k1 ).
Se intentará aplicar la definición de derivada a la función DB. Observa que según (5.7.6),
DB (v1 , v2 ) (h, k) = B(v1 , k) + B(h, v2 ) = B(v1 , pr2 (h, k)) + B(pr1 (h, k), v2 ),
por lo que las dos transformaciones lineales DB (v1 , v2 ) y B(v1 , pr2 ) + B(pr1 , v2 ) coinciden. Dicho de otro
modo, la regla de correspondencia de la DB es
(v1 , v2 ) 7Ï B(v1 , pr2 ) + B(pr1 , v2 ).
Entonces,
DB (v1 + h1 , v2 + k1 ) − DB (v1 , v2 ) = B(v1 + h1 , pr2 ) + B(pr1 , v2 + k1 ) − B(v1 , pr2 ) − B(pr1 , v2 )
= B(h1 , pr2 ) + B(pr1 , k1 )
tras despejar y tomar norma se puede concluir que
kDB (v1 + h1 , v2 + k1 ) − DB (v1 , v2 ) − B(h1 , pr2 ) − B(pr1 , k1 )k
lı́m = 0.
(h1 ,k1 )→(0,0) k(h1 , k1 )k
Por lo tanto, DB es diferenciable. De hecho, se demostró que
D2 B (v1 , v2 ) ((h1 , k1 ), ·) = B(h1 , pr2 ) + B(pr1 , k1 ),
tras evaluar en (h2 , k2 ) se obtiene el resultado deseado.

z 7.4.5 Segunda derivada de funciones f : A ⊂ V → W .


Para encontrar la derivada de una función f : A ⊂ V → W se puede utilizar (7.4.6.1), pues reduce la
función Df a la función g; la ventaja de hacer esto es que Df posee contradominio Lin (V , W ) , mientras
que g posee contradominio W .
En general, se trabajará con la transportación o se fijarán coordenadas, lo cual es equivalente.
Entonces, se considerarán P y Q sendas bases ordendas de V y W . Luego, la función g = [ ]P ◦ f ◦ [ ]−1 Q .
−1
La regla de la cadena muestra que Dg (X) = [ ]P ◦ Df (v) ◦ [ ]Q ; aquí cabe una advertencia, las funciones
de cambio de variable [ ]P y [ ]Q en la segunda fórmula son constantes. Luego, se puede pensar que
Dg = c1 Df ◦ [ ]−1
Q c2 ,

donde c1 y c2 son los elementos lineales [ ]P y [ ]−1


Q , respectivamente. Luego, derivando de nuevo, queda
que
D2 g (X) = c1 D2 f (v) (c2 , c2 ).
Esta es la forma bilineal,
(x, y) 7Ï c1 D2 f (v) (c2 x, c2 y).
Haciendo c2 x = h y c2 y = k se ve que
D2 f (v) (h, k) = D2 g (X) ([h]Q , [k]Q ).
Esto queda ilustrado en el siguiente ejemplo.

234
7.5. Derivadas superiores.

π
Z2
( 7.4.11 ) Sea V = lin h{sin, cos}i . Considera la función f : V → R dada por f(v) = v(t)dt + sin(v(π)). ¿Es
0
f dos veces diferenciable? Encuentra la matriz asociada a su segunda derivada respecto a la base generadora de
V.

Supón que v = a sin +b cos . Luego,


π π
Z2 Z2
f(v) = a sin tdt + b cos tdt + sin(a sin π + b cos π) = a + b + sin(−b).
0 0

Por lo tanto, tomando la transportación g se ve que g(a, b) = a + b + sin(−b). En virtud de (7.4.4), la


segunda derivada de g es
ï ò
0 0
D2 g (a, b) = .
0 sin(−b)

Por lo tanto, la segunda derivada de f tiene regla de correspondencia

D2 f (v) (h1 sin +k1 cos, h2 sin +k2 cos) = D2 g (a, b) ((h1 , k1 ), (h2 , k2 )) = sin(−b)h2 k2 .

Lo cual concluye el ejemplo.

§ 7.5. Derivadas superiores.


Como se ha estado anticipando se definirá que una función sea k-veces diferenciable si existe cierta
forma k-lineal que satisfaga algunas propiedades. Para esto se utilizará el teorema de identificación
(7.3.1). Usando un argumento inductivo puede ser demostrado que

Lin (U1 , Lin (U2 , . . . Lin (Un , W ))) = Mul(U1 , . . . , Un ; W ),

donde Mul(U1 , . . . , Un ; W ) es el conjunto de las transformaciones multilineales de U1 × . . . × Un a W .


Se recuerda que la norma ahí queda determinanda por (ve el ejercicio (5.75))

kMk = sup kM(u1 , . . . , un )k .


ku1 k=1,...,kun k=1

Al igual que antes, cuando U1 = . . . = Un = V se denotará por Lin(n) (V , W ) al conjunto de las trans-
formaciones n-lineales de V a W . Observa que para k < n y v1 , . . . , vk ∈ V cualesquiera, se obtiene
que
M(v1 , . . . , vk , ·, . . . , ·) ∈ Lin(n−k) (V , W ) .

˚
( 7.5.1 ) Sean f : A ⊂ V → W una función y v ∈ A. Û Supón que se ha podido definir la derivada k-ésima de f,
k
denotada por D f, y que esta existe en una bola B (v; r) ⊂ A. Se dirá que f es (k + 1) veces diferenciable en v
si la función Dk f : B (v; r) → Lin(k) (V , W ) es una función diferenciable en v. La derivada (k + 1)-ésima de f se
denotará por Dk+1 f (v) .
Si una función tiene derivada k-ésima para cada k ∈ N, se dirá entonces que es indefinidamente diferenciable.

235
Capítulo 7. El teorema de Taylor.

z 7.5.1 Ejemplos.
( 7.5.2 ) Toda función constante es indefinidamente diferenciable y, además, todas sus derivadas son cero.

Ya se sabe que si c : V → W es constante entonces Dc = 0. Por otro lado, si 0 : V → W es la función


cero, como es constante se sigue que D0 (v) = 0, por lo que D0 = 0. Al ser W arbitrario, se sigue lo
afirmado.

( 7.5.3 ) Una transformación lineal es indefinidamente diferenciable, encuentra cada una de sus derivadas.

Sea L lineal de V a W . Se ha visto antes que DL (v) = L, para cada v ∈ V ; su derivada es una función
constante. De esto se sigue que D2 L = 0 y, como es de esperarse, Dk L = 0 para todo k ≥ 2.
La derivada k-ésima de una función lineal, k ≥ 2, es la forma k-lineal cero; debes tener presente
esto.

( 7.5.4 ) Sea B : V1 × V2 → W , una forma bilineal. Entoncese B es indefinidamente diferenciable y todas sus
derivadas a partir de la tercera son cero.

Esto es consecuencia directa de (5.7.6) y de (7.4.10). La segunda derivada es constante, por lo que las
derivadas sucesivas son cero.

( 7.5.5 ) Calcula todas las derivadas de una función polinomial de tercer grado en dos variables.

Supón que f es la función polinomial dada entonces existen constantes a1 , . . . , a10 ∈ R tales que

f(x, y) = a1 x 3 + a2 x 2 y + a3 xy 2 + a4 y 3 + a5 x 2 + a6 xy + a7 y 2
+a8 x + a9 y + a10 .

Utilizando derivadas parciales, se ve que Df (x, y) = (D1 f (x, y) , D2 f (x, y)) y como

D1 f (x, y) = 3a1 x 2 + 2a2 xy + a3 y 2 + 2a5 x + a6 y + a8

y
D2 f (x, y) = a2 x 2 + 2a3 xy + 3a4 y 2 + a6 x + 2a7 y + a9 ,
se ve que Df es diferenciable en cada punto de R2 . Por ende, la segunda derivada de f es la forma
bilineal dada por la matriz
ï ò
2 6a1 x + 2a2 y + 2a5 2a2 x + 2a3 y + a6
D f (x, y) = .
2a2 x + 2a3 y + a6 2a3 x + 6a4 y + 2a7

Escribiendo esto en un solo renglón, se puede pensar que F = D2 f : R2 → R4 está dada por F =
(F1 , F2 , F3 , F4 ), donde

F1 (x, y) = 6a1 x + 2a2 y + 2a5 , F2 (x, y) = 2a2 x + 2a3 y + a6 ,

F3 (x, y) = 2a2 x + 2a3 y + a6 y F4 (x, y) = 2a3 x + 6a4 y + 2a7 .


Derivando a la función F, se obtiene la tercera derivada de f en (x, y). Esta está dada por,
 
6a1 2a2
2a2 2a3 
D3 f (x, y) = 

.
 2a2 2a3 
2a3 6a4

236
7.5. Derivadas superiores.

Evidentemente, pensada como función de de R2 en R8 , se ve que todas las entradas de D3 f son constan-
tes, por lo que la derivada cuarta de f es la forma 4-lineal cero; más aún, todas las derivadas posteriores
de f existen y valen cero. Para encontrar la regla de correspondencia de la tercera derivada, se evalúa
la expresión en un vector (h1 , k1 ) arbitrario. Se encuentra que

D3 f (x, y) (h1 , k1 ) = (6a1 h1 + 2a2 k1 , 2a2 h1 + 2a3 k1 , 2a2 h1 + a3 k1 , 2a3 h1 + 6a4 k1 ),

la cual se puede retransportar para encontrar que


ï ò
6a1 h1 + 2a2 k1 2a2 h1 + 2a3 k1
D3 f (x, y) (h1 , k1 ) = .
2a2 h1 + a3 k1 2a3 h1 + 6a4 k1

Finalmente, evaluando esta forma cuadrática en ((h2 , k2 ), (h3 , k3 )) se encuentra que

D3 f (x, y) ((h1 , k1 ), (h2 , k2 ), (h3 , k3 )) = 6a1 h1 h2 h3 + 2a2 k1 h2 h3 + 2a2 h1 k2 h3 + 2a3 k1 k2 h3


+ 2a2 h1 h2 k3 + a3 k1 h2 k3 + 2a3 h1 k2 k3 + 6a4 k1 k2 k3 ,

que es la tercera derivada buscada.


De este último ejemplo se puede sacar mucho más provecho. Nota que

D2 f (0, 0) ((x, y), (x, y)) D3 f (0, 0) ((x, y), (x, y), (x, y))
f(x, y) = f(0, 0) + Df (0, 0) (x, y) + + ;
2! 3!

que es una expansión de Taylor de f de tercer orden. Si se escribe X = (x, y), X (k) = (X, . . . , X) y
| {z }
k veces
Dk f = f (k) entonces se obtiene la misma expresión que para el caso real

f 00 (0)X (2) f (3) (0)X (3)


f(X) = f(0) + f 0 (0)X + + .
2! 3!
Para demostrar que esta expansión es válida se deben evaluar las derivadas en (h, k) las veces necesa-
rias. Queda a cargo del lector verificar el cálculo.

( 7.5.6 ) Demuestra que f(x, y) = (sin x, cos y) es una función indefinidamente diferenciable y encuentra todas
sus derivadas.

Ya se sabe que la primera derivada de F está dada por

DF (x, y) (u1 , v1 ) = D1 F (x, y) u1 + D2 F (x, y) v1 = (cos xu1 , − sin yv1 ).

Por ende, se puede pensar que DF es la función de R2 en R2 dada por

DF (x, y) = (cos x, − sin y).

La segunda derivada de F en (x, y) es entonces,

D2 F (x, y) ((u1 , v1 ), (u2 , v2 )) = D1 DF (x, y) u1 u2 + D2 DF (x, y) v1 v2


= (− sin xu1 u2 , − cos yv1 v2 ).

Se puede entonces pensar que

D2 F : R2 → R2 dada por D2 F (x, y) = (− sin x, − cos y).

237
Capítulo 7. El teorema de Taylor.

Análogamente, D3 F : R2 → R2 está dado por D3 F (x, y) = (− cos x, sin y) y D4 F : R2 → R2 por


D4 F (x, y) = (sin x, cos y). Se afirma que la derivada n-ésima de F en (x, y) es la forma n-lineal da-
da por
Dn F (x, y) W = (sin xu1 · · · un , cos yv1 · · · vn ) si n = 4k;
Dn F (x, y) W = (cos xu1 · · · un , − sin yv1 · · · vn ) si n = 4k + 1;
Dn F (x, y) W = (− sin xu1 · · · un , − cos yv1 · · · vn ) si n = 4k + 2;
y
Dn F (x, y) W = (− cos xu1 · · · un , sin yv1 · · · vn ) si n = 4k + 3,
en donde, W ∈ R2n es el vector W = ((u1 , v1 ), . . . , (un , vn )), y k ∈ N ∪ {0}. Con esto se concluye el
ejercicio.
( 7.5.7 ) Demuestra que f(x, y) = sin xy es tres veces diferenciable y encuentra todas sus derivadas hasta la
segunda.
Se observa que la primera derivada viene dada por

Df (x, y) (u1 , v1 ) = D1 f (x, y) u1 + D2 f (x, y) v1 = y cos xyu1 + x cos xyv1 .

Se define entonces g(x, y) = y cos xyu1 + x cos xyv1 . Con esto, la segunda derivada de f está dada por
∂g ∂g
D2 f (x, y) ((u1 , v1 ), (u2 , v2 )) = u2 + v2 .
∂x ∂y
Pero,

∂g ∂ y cos xyu1 + x cos xyv1
=
∂x ∂x
 
∂ cos xy ∂ x cos xy
= yu1 + v1
∂x ∂x
= yu1 (−y sin xy) + xv1 (cos xy − xy sin xy)

y

∂g ∂ y cos xyu1 + x cos xyv1
=
∂y ∂y
 
∂ y cos xy ∂ cos xy
= u1 + xv1
∂y ∂y
= yu1 (cos xy − xy sin xy) + xv1 (−y sin xy),

de donde,

D2 f (x, y) ((u1 , v1 ), (u2 , v2 )) = yu1 u2 (−y sin xy) + xu2 v1 (cos xy − xy sin xy)
+ yu1 v2 (cos xy − xy sin xy) + xv1 v2 (−y sin xy).

Vista como una función de R2 en R4 (toma cada par u1 u2 , u1 v2 , v1 u2 y v1 v2 como una coordenada),
D2 f es una función diferenciable, por ende, f es tres veces diferenciable.
( 7.5.8 ) Si f es k veces diferenciable en P entonces

Dk f (P) (ei1 , . . . , eik ) = Dik ,...,i1 f (P) .

238
7.5. Derivadas superiores.

La demostración puede proceder por inducción, así se hará. Sea H el conjunto de los número
naturales k tales que si f es k veces diferenciable en P entonces Dk f (P) (ei1 , . . . , eik ) = Dik ,...,i1 f (P) . Ya
ha sido demostrado antes que Di f (P) = Df (P) ei ; que muestra 1 ∈ H . Supón que existe k ∈ H , se ve
que k + 1 ∈ H . Se supone entonces que f es k + 1 veces diferenciable en P entonces, por inducción,

Dk+1 f (P) (ei1 , . . . , eik+1 ) = D Dk f (P)(ei1 , . . . , eik )(eik+1 )


 
 
= D Dik ,...,i1 f (P) eik+1
= Dik+1 ,...,i1 f (P) ,

lo que muestra k + 1 ∈ H . 
Este ejemplo dice que la notación utilizada en el capítulo pasado para diferenciación parcial es
consistente con las definiciones de derivación superior.

z 7.5.2 Propiedades de las derivadas superiores.


Se enuncian ahora algunas de las propiedades principales de las derivadas de orden superior. La
mayoría de las demostraciones expuestas se basan en el teorema de inducción matemática, (1.3.12).
˚
( 7.5.9 ) Sean A un subconjunto de V y v ∈ A.
Û Toda función f : A → W que sea k veces diferenciable en v
satisface que su derivada k-ésima es única.
Sea define H como el conjunto de los números naturales k tales que si f : A → W es k veces
diferenciable en v entonces su derivada k-ésima es única. Ha sido demostrado que 1 ∈ H , teorema
(5.7.1); se verá que k ∈ H Ñ k + 1 ∈ H . Supón que k ∈ H y sea f : A → W una función k + 1 veces
diferenciable en v. Se tiene que, por definición,

Dk+1 f (v) = D Dk f (v) ;


 

como la primera derivada de una función es única y, por hipótesis, Dk f es único entonces Dk+1 f (v) es
única. Esto muestra que k + 1 ∈ H ; mostrando que H = N y concluyendo el teorema.
Como en el caso de la segunda derivada, al ser la derivada k-ésima de una función en un punto
única se puede utilizar cualquier método para encontrar la derivada k-ésima de una función en un
punto particular dado.
˚
( 7.5.10 ) Sean A ⊂ V , v ∈ AÛ y h1 , . . . , hk ∈ V . Se supone que f : A → W es k veces diferenciable en v. Sea
B (v; r) ⊂ A y define g(u) = Dk−1 f (u) (h1 , . . . , hk−1 ) para u ∈ B (v; r) . Entonces, g es diferenciable en v y

Dg (v) hk = Dk f (v) (h1 , . . . , hk ).

La idea es exactamente la misma que para (7.4.6.1). Define φ : Lin(k−1) (V , W ) → W dada por φ(M) =
M(h1 , . . . , hk−1 ). Observa que g(u) = φ(Dk−1 f (u)). Según la regla la regla de la cadena, g es diferenciable
en v y su derivada es

Dg (v) hk = Dφ Dk−1 f (v) Dk f (v) hk = Dk f (v) (h1 , . . . , hk−1 , ·)hk = Dk f (v) (h1 , . . . , hk ).


Lo que concluye la prueba.

Observación: este teorema permite (puesto que facilita) encontrar las derivadas superiores de una
función. Solamente se encuentra la primera derivada evaluada en un h1 para definir la función g(u) =
Df (u) h1 la cual habita en los espacios originales; esto es, no se cambian ni el dominio ni el contrado-
minio.

239
Capítulo 7. El teorema de Taylor.

˚
( 7.5.11 ) Sea A ⊂ V y v ∈ A.
Û Para cualesquier dos funciones f y g de A en W que sean k veces diferenciables
en v y para cualquier λ ∈ R, se cumple que f + λg es k veces diferenciable en v y, además, Dk [f + λg] (v) =
Dk f (v) + λDk g (v) .
Al igual que antes, sea H el conjunto de los número naturales k tales que si f y g son dos funciones
de A a W diferenciables en v entonces f + λg es k veces diferenciable en v y Dk [f + λg] (v) = Dk f (v) +
λDk g (v) . El caso k = 1 fue demostrado antes, por ende, supón que k ∈ H . Sean f y g dos funciones
de A a W que sean k + 1 veces diferenciables en v. Entonces, por ser k ∈ H ,

Dk+1 [f + λg] (v) = D Dk [f + λg] (v)


 

= D Dk f + λDk g (v)
 

= D Dk f (v) + λD Dk g (v)
   

= Dk+1 f (v) + λDk+1 g (v) .

Que concluye la inducción, H = N.


˚
( 7.5.12 ) Sean A ⊂ V y v ∈ A. Û Una condición necesaria y suficiente para que F = (f1 , . . . , fm ) : A → W sea k
veces diferenciable en v que cada fi sea k veces diferenciable en v; en este caso,

Dk F (v) = Dk f1 (v) , . . . , Dk fm (v) .




Se omiten algunos pasos. Se tiene que

Dk+1 f (v) = D Dk f (v) = D Dk f1 , . . . , Dk fm (v) = D Dk f1 , . . . , D Dk fm (v)


      

= Dk+1 f1 , . . . , Dk+1 fm (v) = Dk+1 f1 (v) , . . . , Dk+1 fm (v) .


 

Que demuestra lo pedido.


( 7.5.13 ) Sea F ∈ Ck (A, W ) , donde A ⊂ Rn . EntoncesF es k-veces diferenciable.
Observa que si el teorema es cierto para cierto k ∈ N entonces, al ser que Dk+1 F = D Dk F y
 
que las parciales de Dk F son continuas en U que es un abierto (ve (7.5.8)), se concluye que Dk F es
diferenciable.
Nota que han sido omitidos varios pasos en las últimas dos demostraciones pues éste es el estilo
más bien utilizado al emplear inducción, y no el presentado aquí hasta este momento. Sin embargo, se
cree firmemente que definir el conjunto H como el conjunto de los naturales que satisfacen los pedido
es más conveniente para proposiciones más complicadas.
En (7.5.13) es imprescindible que U sea abierto; esto es, si U no es abierto, el teorema anterior no
vale.
( 7.5.14 ) Se dirá que f : A ⊂ V → W es k veces diferenciable con continuidad en v si todas sus funciones de
derivación Df, D2 f, . . . , Dk f existen en una bola B (v; r) y cada una de ellas es continua en v. Se dirá que f es
k veces diferenciable con continuidad si Dk f existe con el mismo dominio que f y es continua.

Observaciones:
1. De hecho, como una función diferenciable es continua, para ver que una función es k veces
diferenciable con continuidad en un punto v basta demostrar que su derivada k-ésima existe en
una bola B (v; r) y es continua en v.
2. Con esta definición y el se tiene que una condición necesaria y suficiente para que una función
sea continuamente k veces diferenciable en P es que pertenezca al conjunto Ck (B (P; r) , Rm ) .

240
7.5. Derivadas superiores.

( 7.5.15 ) Sea f ∈ Ck (A, W ) , en donde A es un conjunto abierto de Rn . Si i1 , . . . , ik son k números enteros


positivos entre 1 y n (posiblemente coincidentes algunos de ellos) y σ ∈ Sk , es una permutación (ve (1.3.4)) de
k elementos entonces Di1 ···ik F = Diσ(1) ···iσ(k) F.
Esto se hace por inducción. Se define H como el conjunto de los números naturales k tales que
si f ∈ Ck (A, W ) , i1 , . . . , ik son k números enteros positivos entre 1 y n, y σ ∈ Sk entonces Di1 ···ik f =
Diσ(1) ···iσ(k) f. Evidentemente, 1 ∈ H , se ve que 2 ∈ H . Se supone que f ∈ C2 (A, W ) entonces, para cada
P ∈ A, Hessf (P) es una matriz simétrica, por ende

Hessf (P) (ei , ej ) = Hessf (P) (ej , ei );

esto es, Di,j f (P) = Dj,i f (P) ; mostrando que 2 ∈ H . Supón ahora que k ∈ H y sean ei1 , . . . , eik+1 ∈ Rn
vectores de la base canónica. Sea f ∈ Ck+1 (A, W ) . Define g : A → Lin(2) (Rn , W ) dada por

g(X)(u, v) = Dk−1 f (X) (u, v, ei3 , . . . , eik+1 ) .

En acuerdo con (7.5.10)la primera derivada de g es Dg (X) v = Dk f (X) (v, ei3 , . . . , eik+1 ) y, su segunda
derivada es,
D2 g (X) (u, v) = Dk+1 f (X) (u, v, ei3 , . . . , eik+1 ) .
Es evidente que se puede identificar a Sk como las permutaciones del conjunto K = {2, . . . , k + 1}, con
esto, tomando una permutación σ : K → K, se tiene, por inducción, que para cada X ∈ U,

Dk F (X) (ei2 , . . . , eik+1 ) = Dk F (X) eiσ(2) , . . . , eiσ(k+1) .




Derivando respecto de X, se obtiene que

D2 g (X) (ei1 , ei2 ) = Dk+1 F (X) (ei1 , . . . , eik+1 )


= Dk F (X) ei1 , eiσ(2) , . . . , eiσ(k+1) .


Como g ∈ C2 (U, Rm ) y el teorema es cierto para el caso k = 2, se ve que

D2 g (X) (ei1 , ei2 ) = D2 g (X) (ei2 , ei1 ).

Esto es,
Dk+1 F (X) (ei2 , ei1 , ei3 , . . . , eik+1 ) = Dk F (X) ei1 , eiσ(2) , . . . , eiσ(k+1) .


Por ende, se puede trasponer el índice i1 con el índice i2 y, por inducción, se pueden permutar cuales-
quier otros índices. Para concluir basta demostrar que todo elemento Sk+1 puede ser factorizado como
producto de elementos que sean permutaciones del conjunto K o la trasposición de 1 con 2. Para este
efecto, basta ver que toda trasposición de Sk+1 se puede factorizar de este modo (pues las trasposiciones
de Sk+1 generan Sk+1 ). Sea τ es una trasposición de S k+1 , por ejemplo τ = (ij); es decir, τ intercambia i
con j. Si tanto i como j son distintos de 1, entonces τ es una biyección de K en K y ya está factorizado

K
del modo requerido. Sin pérdida de generalidad, se supone que i = 1, entonces

τ = (2j)(12)(2j);

de hecho, 

 (2j)(12)(2j)i = i si i 6= 1, 2, j
(2j)(12)(2j)i = j si i=1

τ(i) =

 (2j)(12)(2j)i =2 si i=2
(2j)(12)(2j)i = 1 si i = j,

mostrando que τ = (2j)(12)(2j), que es una factorización requerida. De este modo, Sk+1 se puede facto-
rizar como se afirmó y esto demuestra que k + 1 ∈ H , con lo cual se concluye que H = N.

241
Capítulo 7. El teorema de Taylor.

( 7.5.16 ) Sean hi = (hi,1 , . . . , hi,n ), para i = 1, . . . , k, k vectores en Rn . Sea f : A ⊂ Rn → W k veces


˚
diferenciable en P ∈ A.
Û Entonces
X
Dk f (P) (t1 , . . . , tk ) = Dj1 ···jk f (P) h1,j1 h2,j2 · · · hk,jk .
j1 ,...,jk ∈{1,...,n}

Se procede por inducción, el caso k = 1 ha sido demostrado ya. Supón que el teorema es cierto
para cierto k y sea f : A → W una función k + 1 veces diferenciable en P. Entonces, por el caso k = 1
(ve (6.2.6)),
Dk+1 f (P) (t1 , . . . , tk+1 ) = D Dk f (P) (h1 , . . . , hk+1 )
 

Xn
Djk+1 Dk f (P) (t1 , . . . , tk )hk+1,jk+1 .
 
=
jk+1 =1

Ahora, la hipótesis inductiva es que


X
Dk f = Dj1 ···jk f,
j1 ,...,jk ∈{1,...,n}

sustituyendo en la expresión anterior, se llega a que Dk+1 f (P) (h1 , . . . , hk+1 ) coincide con
n
X X  
Djk+1 Dj1 ···jk f (P)h1,j1 · · · hk+1,jk+1 ,
jk+1 =1 j1 ,...,jk ∈{1,...,n}

Cabe destacar que como todas las sumas son finitas, se pueden reordenar, mostrando que el teorema
es cierto para k + 1 y, por lo tanto, el teorema es cierto para todo k ∈ N.
Este teorema cuando k = 1 se reduce a la muy conocida fórmula
n
X
Df (P) (x1 , . . . , xn ) = Dk f (P) xk = Jf (P) X;
k=1

y, para k = 2, se reduce a la también conocida fórmula (6.2.6)


n X
X n
D2 f (P) (x1 , . . . , xn , y1 , . . . , yn ) = Di,j f (P) xi yj = Hessf (P) (X, X).
i=1 j=1

§ 7.6. El teorema de Taylor.


Ahora se desarrollará el teorema de Taylor en varias variables para funciones a valores reales. Será
necesario recordar el caso de una variable. Se adelanta la idea a trabajar. Se definirá un operador T tal
que si f es una función con k derivadas en un punto P ∈ Rn entonces Tf (P) es un polinomio de grado
k que depende de f y de P. Es importante destacar que T poseerá propiedades análogas a las de los
operadores diferenciales.

z 7.6.1 El polinomio de Taylor en R.


Supón que f : R → R es una función que tiene n derivadas en a ∈ R entonces existe uno y solo un
polinomio centrado8 en a, Tn f (a) : R → R tal que las primeras n derivadas de Tn f (a) en a coinciden
n
8 Se ci (x − a)i .
P
dice que un polinomio p : R → R está centrado en a si p(x) =
i=0

242
7.6. El teorema de Taylor.

con las primeras n derivadas de f en a. Esto es, existe un único polinomio p tal que

p(a) = f(a), p0 (a) = f 0 (a), . . . , p(n) (a) = f (n) (a).

Ahora se va a demostrar la existencia y unicidad. Supón primero que existe un polinomio p que sea
centrado en a y satisfaga las ecuaciones anteriores. Considera una función polinomial centrada en a,
n
X
p(x) = ci (x − a)i ,
i=0

donde las ci son constantes a determinar. Se ve que p(a) = c0 , por lo que

p(a) = f(a) Ñ c0 = f(a).


n
X
Por otro lado, p0 (x) = ici (x − a)i−1 y p0 (a) = c1 , con lo cual
i=1

f 0 (a)
p0 (a) = f 0 (a) Ñ c1 = .
1!

f (i) (a)
Procediendo inductivamente, puede demostrarse que ci = . Se ha mostrado que si existe un tal
i!
polinomio p entonces
n
X f (i) (a)
p(x) = (x − a)i .
i!
i=0

Claramente, definiendo Tn f (a) : R → R de esta forma, se concluye que Tn f (a) posee las propiedades
requeridas.

( 7.6.1 ) Sea f : I → R en donde I ⊂ R y sea a ∈ I, un punto interior. Si f es n veces diferenciable en a, se


n
X f (i) (a)
define el polinomio de Taylor de grado n de f centrado en a como Tn f (a) (x) = (x − a)i .
i!
i=0

( 7.6.2 ) Calcula el polinomio de Taylor de grado n centrado en cero de la función x 7Ï exp(x).

Observa que si f(x) = ex entonces f 0 (x) = f(x), por lo que f (n) (0) = 1 para cada n ∈ N. Luego, el
1
coeficiente n-ésimo del polinomio de Taylor es cn = , de donde,
n!
n
X xi
Tn f (0) (x) = .
i!
i=0

En general, puede mostrarse que el polinomio de Taylor generado por f de grado n centrado en a es
n
X ea (x − a)i
Tn f (a) = . 
i!
i=0

( 7.6.3 ) Calcula el polinomio de Taylor de grado n centrado en cero de la función x 7Ï cos x.

Observa que si f(x) = cos x entonces para cada i ∈ N, f (i) (0) = f (i4 ) (0), en donde i4 es el único
i − i4
numero natural en {0, 1, 2, 3} tal que ∈ N ∪ {0}. Basta calcular las primeras cuatro derivadas
4

243
Capítulo 7. El teorema de Taylor.

(incluyendo la derivada cero) de f en cero, pero f(0) = 1, f 0 (0) = − sin 0 = 0, f 00 (0) = − cos 0 = −1 y
f (3) (0) = sin 0 = 0. De donde, el polinomio de Taylor de f centrado en cero de grado n es
n i
[ 2i ] x ,
X
Tn f (0) (x) = 1{k=0 mód 2} (i)(−1)
i!
i=0

en donde {k = 0 mód 2} es el conjunto de los enteros no negativos que son divisibles por 2, [x] denota
el mayer entero menor o igual que x y para cada A ⊂ R, se define 1A (x) = 1 si x ∈ A y cero si x ∈/ A.
Como los términos impares mueren, conviene escribir el polinomio de Taylor del coseno centrado en
cero de un grado par arbitrario, se tiene que
n
X x 2i
T2n cos (0) (x) = (−1)i .
(2i)!
i=0

Que es el polinomio buscado. 


Lo que procederá ahora es a demostrar algunas propiedades del polinomio de Taylor para funciones
de R.

( 7.6.4 ) El operador Tn es lineal; esto es dadas f y g funciones n veces diferenciables en a, donde a es punto
interior de sus dominios entonces Tn [f + λg] (a) = Tn f (a) + λTn g (a) .

No se demostrará esta propiedad sino hasta el caso general.

( 7.6.5 ) Sea f una función definida


0 en algún subconjunto de R y a un punto interior de su dominio tal que
f (n) (a) existe. Entonces Tn f (a) = Tn−1 f 0 (a) .

Se procede por inducción en el grado del polinomio de Taylor, para n = 1, se tiene que T1 f (a) (x) =
f(a) + f 0 (a)(x − a) y T0 f 0 (a) (x) = f 0 (a). Si el teorema se satisface para cierto n entonces

f (n+1) (a)
Tn+1 f (a) (x) = Tn f (a) (x) + (x − a)n+1 ,
(n + 1)!

de donde,
0 0 f (n+1) (a)
Tn+1 f (a) (x) = Tn f (a) (x) + (x − a)n ,
n!
0
por inducción, Tn f (a) = Tn−1 f 0 (a) , de donde, el teorema es cierto para n + 1.

( 7.6.6 ) Sea f ∈ Cn (I, R) , donde I es un intervalo abierto en R y a es un punto de I. Se define g por


Zx Zx
g(x) = f(t)dt entonces Tn+1 g (a) = Tn f (a) ; escrito de otro modo,
a a

Zx Zx
Tn+1 f (a) = Tn f (a) .
a a

Se procede por inducción en n, si f es continua en a entonces g es diferenciable en a y


Zx Zx
0
T1 g (a) (x) = g(a) + g (a)(x − a) = f(a)(x − a) = f(a) = T0 f (a) .
a a

244
7.6. El teorema de Taylor.

Luego, el teorema es cierto para “la base inductiva”. Supón que hay un n para el cual el teorema es
cierto entonces
g (n+1) (a)
Tn+1 g (a) (x) = Tn g (a) (x) + (x − a)n+1 .
(n + 1)!
Zx
Por inducción, Tn g (a) (x) = Tn−1 f (a) y, como g (n+1) = f (n) , se ve que
a

Zx
g (n+1) (a)
Tn+1 g (a) (x) = Tn−1 f (a) + (x − a)n+1
(n + 1)!
a
Zx Zx
f (n) (a)
= Tn−1 f (a) + (t − a)n dt
n!
a a
Zx
= Tn f (a) ,
a

como se quería.
Otras propiedades de los polinomios de Taylor de funciones en R serán vistas en los ejercicios.

z 7.6.2 El polinomio de Taylor en Rn .


La idea para definir el polinomio de Taylor en Rn es bastante simple: se toma el polinomio de Taylor
de R y se extiende esta definición. Supón entonces que f : Rn → R y f es k veces diferenciable en P.
Si H es otro punto de Rn y α es la recta que une a P con P + H, se puede pensar que α : R → Rn está
dada por α(t) = P + tH, entonces f ◦ α : R → R es k veces diferenciable. En este caso se tiene que el
polinomio de Taylor de f ◦ α de grado k centrado en cero es
1 0 1 (k)
f ◦ α (0)t k .
   
Tk f ◦ α (0) t = f ◦ α (0) + f ◦ α (0)t + . . . +
1! k!
 
Como α(0) = P, se puede definir Tk f (P) = Tk f ◦ α (0) . Nota que el lado izquierdo de esta igualdad
no tiene un significado riguroso, mientras que el lado derecho sí está bien definido. Resta calcular las
derivadas de f ◦ α. Procediendo por inducción, se demostrará que
(p)
f ◦ α (t) = Dp f (P + tH) H (p) ,


donde H (p) = (H, . . . , H) . Esto es consecuencia de la regla de la cadena. La primera derivada es


| {z }
p veces

f ◦ α]0 (0) = f 0 (P) · α0 (0) = f 0 (P) · H.




 (p)
Supón ahora que f es p + 1 veces diferenciable y que la fórmula anterior vale para p. Sea h = f ◦ α ;
por inducción, h(t) = Dp f (P + tH) H (p) . Con lo cual,

h(t + r) − h(t) = Dp f (P + (t + r)H) H (p) − Dp f (P + tH) H (p)


= Dp f (P + (t + r)H) − Dp f (P + tH) H (p)
 

= Dp+1 f (P + tH) rH + φ(rH) H (p) ,


 

245
Capítulo 7. El teorema de Taylor.

kφ(H)k
en donde lı́m = 0. Dividiendo ambos lados por r, se ve que
H→0 kHk
ï ò
h(t + r) − h(t) φ(rH)
= Dp+1 f (P + tH) H + H (p) .
r r

Cuando r → 0, queda que

h0 (t) = Dp+1 f (P + tH) H H (p) = Dp+1 f (P + tH) H (p+1) .


 

De este modo, se obtiene que


f ◦ α](p) (0) = Dp f (P) H (p) .


( 7.6.7 ) Sea f ∈ Ck (U, Rm ) , donde U es un abierto. Se define el polinomio de Taylor de f de grado k centrado
en P ∈ U como
1 1
Tk f (P) H = f(P) + Df (P) H + . . . + Dk f (P) (H)(p) .
1! k!

Observaciones:

1. Es destacable que, de hecho, el polinomio de Taylor en Rn es un polinomio en n variables; si


H = (h1 , . . . , hn ), entones “las variables” son h1 , . . . , hn .

2. Se pide que U sea abierto para evitar problemas de diferenciabilidad y que f sea de clase Ck para
facilitar las expresiones de las derivadas.

( 7.6.8 ) Sean f, g ∈ Ck (U, R), donde U ⊂ Rn es un conjunto abierto. Entonces, para cada λ ∈ R y para cada
P ∈ U, se tiene que Tk f + λg (P) = Tk f (P) + λTk g (P) .

Por definición, se tiene que

1 1
Tk f + λg (P) H = [f + λg](P) + D[f + λg] (P) H + . . . + Dk [f + λg] (P) (H)(p) .
 
1! k!
El resto es consecuencia de la linealidad de la derivada.

( 7.6.9 ) El polinomio de Taylor es único; esto es, dada f ∈ Ck (U, R) , con U ⊂ Rn un abierto, dado P ∈ U,
existe un único polinomio p en n variables de grado k tal que p = Tk f (P) .

Es consecuencia directa de que las derivadas de orden superior son únicas.

( 7.6.10 ) Sea f ∈ Ck+1 (U, Rm ) , donde U ⊂ Rn es abierto. Se supone que P ∈ U y sea r > 0 tal que la bola
cerrada de centro P y radio r está contenida en U, esto es B0 (P; r) ⊂ U. Para cada H ∈ Rn con kHk < r, se
tiene que
f(P + H) = Tk f (P) H + Rk+1 (f; P, H),
donde Rk+1 (f; P, H) es un término residual, al cual se le conoce como residuo del polinomio de Taylor de f de
grado k + 1 centrado en P con incremento H. De hecho, se puede encontrar un ξ ∈ (0, 1) tal que

1
Rk+1 (f; P, H) = Dk+1 f (P + ξH) H (k+1) .
(k + 1)!

Este se conoce como «Teorema de Taylor con resto de Lagrange».

246
7.6. El teorema de Taylor.

Supón primero que n = 1. Se pone p = P e I = [p, p + r] ⊂ U. Para cada t ∈ I se define S(t)


mediante la igualdad

f (k) (t)
f(p + r) = f(t) + f 0 (t)(p + r − t) + . . . + (p + r − t)k + S(t),
k!
Derivando respecto de t, pues f es Ck+1 , se obtiene que
ñ ô
d 0 f (k) (t)
0= f(t) + f (t)(p + r − t) + . . . + (p + r − t) + S 0 (t).
k
dt k!

Pero, para i = 1, . . . , k, se tiene que


ñ ô
d f (i) (t) i f (i+1) (t) f (i) (t)
(p + r − t) = (p + r − t)i − (p + r − t)i−1 ,
dt i! i! (i − 1)!

de donde,

0 = f 0 (t)
+ [f 00 (t)(p + r − t) − f 0 (t)]
ñ ô
f (3) (t) 2 00
+ (p + r − t) − f (t)(p + r − t)
2!
..
. ñ ô
f (k+1) (t) k f (k) (t) k−1
+ (p + r − t) − (p + r − t) + S 0 (t),
k! (k − 1)!

arrojando “suma telescópica”, en la que se cancelan casi todos los términos, quedando que

f (k+1) (t)
S 0 (t) = − (p + r − t)k .
k!
Sea ahora g(t) = (p + r − t)k+1 ; definiendo φ : I → R por φ(t) = S(p)g(t) − g(p)S(t) se ve que φ(p + r) =
0 = φ(p). Debido al teorema de Rolle9 , existe un t en el interior de I para el cual φ0 (t) = 0; esto es,

0 = S(p)g 0 (t) − g(p)S 0 (t).

Sustituyendo la expresión de S 0 (t) encontrada antes, se obtiene que

f (k+1) (t)
g(p)S (t)0 r k+1 (p + r − t)k f (k+1) (t) k+1
S(p) = = k! = r .
g 0 (t) (k + 1)(p + r − t) k (k + 1)!

Como t está en el interior de I, existe un ξ ∈ (0, 1) tal que p + ξr = t, con lo que se ha demostrado que

f (k) (p) k f (k+1) (p + ξr) k+1


f(p + r) = f(p) + f 0 (p)r + . . . + r + r ,
k! (k + 1)!
9 El teorema de Rolle asegura que si φ es continua en [a, b] y diferenciable en (a, b) tal que φ(b) = φ(a) = 0, entonces existe

un t ∈ (a, b) para el cual φ0 (t) = 0. La demostración de esto es sencilla, se verifica por casos. Si φ = 0 es todo (a, b), el resultado
es trivial, por lo que se supone que φ no se anula en todo (a, b); pero entonces, como [a, b] es compacto existe un punto donde
φ se maximiza. Al ser φ diferenciable, en tal punto su derivada se anula.

247
Capítulo 7. El teorema de Taylor.

que concluye el teorema para éste caso especial.


Se continúa con el caso general. Sea α : R → Rn la curva dada por α(t) = P + tH y define g = f ◦ α.
Por el caso n = 1 aplicado a p = 0 y r = 1, se tiene que
g (k) (0) g (k+1) (ξ)
g(1) = g(0) + g 0 (0) + . . . + + ,
k! (k + 1)!
donde ξ ∈ (0, 1). Pero se sabe que para cada i = 0, . . . , k + 1,
g (i) (t) = Di f (P + tH) H (i) ,
sustituyendo en la igualdad anterior, se obtiene el teorema general.
( 7.6.11 ) Calcula el polinomio de Taylor de tercer orden de (x, y) 7Ï ex+y , centrado en cero.
∂f ∂f
Se debe calcular las primeras tres derivadas de f, donde f(x, y) = ex+y . Observa que = = f,
∂x ∂y
por ende,
Din ,...,i1 f (0, 0) = 1.
Utilizando (7.5.16) se encuentra que
1
T3 f (0) (h, k) = f(0) + Df (0, 0) (h, k) + Hessf (0) (h, k)(2)
2!
1 3
+ D f (0, 0) (h, k)(3)
3!
h2 + hk + kh + k2
= 1+h+k+
2
hhh + hhk + hkh + hkk + khh + khk + kkh + kkk
+
6
h2 k2 h3 h2 k hk2 k3
= 1+h+k+ + hk + + + + ,
2 2 6 2 2 6
que es el polinomio buscado. 
( 7.6.12 ) Supón que f : R2 → R es de clase Ck entonces
k
Dk f (P) (u, v)(k) = uD1 + vD2 f(P),
donde esto se entiende que primero se expande el binomio y luego se hacen las operaciones con los operadores de
diferenciación y, por último, se efectúan las evaluaciones correspondientes; esto es, se define
k Ç å
k X k
uD1 + vD2 f(P) = ui v k−i Di1 D2k−i f(P),
i
i=0

donde se ha utilizado la notación multiplicativa para operadores diferenciales.


Para demostrar esta fórmula se procede por inducción, como cabía esperar. El caso k = 1 directo
y ya ha sido demostrado. Se supone entonces que se satisface para cierto k ∈ N entonces
î  ó
Dk+1 f (P) (u, v)(k+1) = D Dk f (P) (u, v)(k) (u, v).


Por hipótesis inductiva,


k Ç å
k (k)
X k
D f (P) (u, v) = ui v k−i Di1 Dk−i
2 f(P),
i
i=0

248
7.6. El teorema de Taylor.

de lo cual, se deduce que,

k Ç å
k+1 (k+1)
X k
D f (P) (u, v) = ui+1 v k−i Di+1 k−i
1 D2 f(P)
i
i=0
k Ç å
X k
+ ui v k+1−i Di1 Dk+1−i
2 f(P),
i
i=0

basta demostrar que


k Ç å k Ç å
k+1
X k i+1 k−i X k i k+1−i
(a + b) = a b + ab .
i i
i=0 i=0

Esta igualdad se satisface para todo a, b reales y todo índice natural o cero k, su demostración queda
de ejercicio.

( 7.6.13 ) Calcula el polinomio de Taylor centrado en cero de cuarto orden de (x, y) 7Ï sin xy.

Por la observación previa, el polinomio buscado es, denotando por f a la función dada,

1
T4 f (0, 0) (h, k) = f(0, 0) + (hD1 + kD2 )f(0, 0) + (hD1 + kD2 )2 f(0, 0)
2!
1 1
+ (hD1 + kD2 )3 f(0, 0) + (hD1 + kD2 )4 f(0, 0).
3! 4!
Se calculan las parciales correspondientes; las de primer orden son

D1 f (x, y) = y cos xy y D2 f (x, y) = x cos xy;

las de segundo orden son

D11 f (x, y) = −y 2 sin xy, D12 f (x, y) = cos xy − xy sin xy

y
D22 f (x, y) = −x 2 sin xy;
las de tercer orden son,

D111 f (x, y) = −y 3 cos xy, D112 f (x, y) = −2y sin xy − xy 2 cos xy,

D122 f (x, y) = −2x sin xy − xy 2 cos xy y D222 f (x, y) = −x 3 cos xy;


es fácil ver que todas las parciales de cuarto orden de f se anulan en el cero, por ende, no serán dadas.
Queda entonces que
T4 f (0, 0) (h, k) = hk,
que es el polinomio buscado. 
En ocasiones conviene estudiar el residuo del polinomio de Taylor y ver qué sucede con el error
cuando crece el número de términos. Si el error se va haciendo cada vez más pequeño de tal forma
que cuando k → ∞ el error Rk → 0 entonces se pasa del polinomio de Taylor a la serie de Taylor. No
se estudiará la serie de Taylor aquí y solo se verán algunos ejemplos clásicos en los ejercicios, todos
del caso real.

249
Capítulo 7. El teorema de Taylor.

§ 7.7. Desarrollos limitados; el teorema de Taylor en espacios vec-


toriales normados.
Aquí se definen lo que se llamará un «desarrollo limitado». Cuando el lector estudie un poco sobre
teoría de funciones diferenciables en Cn notará que estas admiten «desarrollos ilimitados». Aquí el
sentido de limitado se refiere al grado de aproximación que tiene el desarrollo sobre la función. Cabe
destacar que se necesitará más teoría sobre polinomios de la que se ha desarrollado hasta este momento.
De hecho, será necesario definir una generalización de formas cuadráticas a formas p-ésimas y ésto
conducirá al estudio de las funciones polinomiales homogéneas y no homogéneas. En lo que sigue se
seguirá el mismo estilo que se sigue en [4], claro, con una presentación más acorde a la línea que sigue
este texto.

z 7.7.1 Funciones polinomiales homogéneas y no homogéneas.


Hasta este momento solo han sido mencionadas las funciones polinomiales de Rn a R sin embargo,
se quisiera extender el teorema de Taylor a funciones con dominio en V y contradominio en W .
Se considera una función polinomial cualquiera. Se decía que esta es una forma cuadrática si era
homogénea de segundo grado, se podría decir que es una forma lineal si es homogénea de primer
grado, cúbica si es de tercer grado etcétera. Por lo pronto supón que se procede de este modo entonces
una forma lineal toma la forma

x1 , . . . , xn ) 7Ï a1 x1 + . . . + an xn = h(a1 , . . . , an ), (x1 , . . . , xn )i

y ya se sabía que una forma cuadrática toma la forma


n X
X n
X 7Ï B(X, X) = bi,j xi xj
i=1 j=1

en donde B es bilineal. Luego, resulta natural proponer que una forma p-ésima tome la forma

X 7Ï φ(X, . . . , X),

donde φ ∈ Lin(p) (Rn , R) . Observa que procediendo de esta forma ya es posible una generalización a
espacios vectoriales.
( 7.7.1 ) Sea f : V → W una función cualquiera. Se dirá que f es una función polinomial homogénea de
grado p si existe una función φ ∈ Lin(p) (V , W ) tal que f(v) = φ(v, . . . , v). Cuando W = R se llamará a esta
función una forma p-ésima, se usarán también los términos forma lineal, cuadrática y cúbica cuando p = 1, 2, 3,
respectivamente. Se dirá, por convención, que una función constantes c : V → W es una función polinomial
homogénea de grado cero.
( 7.7.2 ) Toda función polinomial homogénea f de grado p satisface que f(λv) = λ p f(v).
Pues existe una función p-lineal φ tal que f(v) = φ(v, . . . , v), por lo que

f(λv) = φ(λv, . . . , λv) = λ p φ(v) = λ p f(v).

Lo cual concluye la demostración.


Recuerda que a toda forma cuadrática f le correspone una única función bilineal simétrica. Esto es
en realidad un resultado particular de otro más general, el cual afirma que a toda función polinomial
homogénea de grado p le corresponde una única forma p-lineal simétrica. A continuación se demuestra
la existencia de tal función multilineal simétrica.

250
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.

( 7.7.3 ) Se dirá que una función p-lineal φ ∈ Lin(p) (V , W ) es simétrica si para cada σ ∈ Sp (ve (1.3.4)) y
v1 , . . . , vp ∈ V se cumple 
φ(v1 , . . . , vp ) = φ vσ(1) , . . . , vσ(p) .
( 7.7.4 ) Sea f una función polinomial homogénea de grado p. Existe una función p-lineal simétrica φ tal que
f(v) = φ(v, . . . , v).
Se sabe que para f existe una función p-lineal ψ tal que f(v) = ψ(v, . . . , v) entonces, se define
1 X 
φ(v1 , . . . , vp ) = ψ vσ(1) , . . . , vσ(p) ,
p!
σ∈Sp

(ve la definición del determinante (1.3.17)). Es evidente que f(v) = φ(v, . . . , v) pues la cardinalidad de Sp
es p! (ve (1.3.5)). Ahora bien, basta demostrar que φ es simétrica. Supón que ρ ∈ Sp es una permutación
de p elementos entonces
 1 X  1 X 
φ vρ(1) , . . . , vρ(p) = ψ vσ(ρ(1)) , . . . , vσ(ρ(p)) = ψ vζ(1) , . . . , vζ(p)
p! p!
σ∈Sp ζ∈Sp

pues al recorrer σ a Sp también lo hace σ ◦ ρ. Por lo tanto,



φ vρ(1) , . . . , vρ(p) = φ(v1 , . . . , vp ),

mostrando la simetría de φ.
Se tiene ahora interés en estudiar el comportamiento de las funciones polinomiales homogéneas
de cierto grado fijo como subconjunto del espacio vectorial de todas las funciones de V a W .
( 7.7.5 ) El conjunto de funciones polinomiales homogéneas de grado p es un subespacio vectorial del espacio de
todas las funciones de V a W .
Evidentemente la función cero es una función polinomial homogénea de grado p (considera la
función p-lineal cero). Basta ver que combinación lineal de estas funciones es otra función polinomial.
Sean pues f y g dos de estas funciones y λ ∈ R. Se sabe que existen φ y ψ tales que f(v) = φ(v, . . . , v)
y g(v) = ψ(v, . . . , v). Entonces,

(f + λg)(v) = f(v) + λg(v) = φ(v, . . . , v) + λψ(v, . . . , v) = (φ + λψ)(v, . . . , v)

y es claro que φ + λψ es p-lineal.


Recuerta que el “productos” entre dos funciones f y g es una composición B(f, g), donde B es
bilineal.
( 7.7.6 ) Sean B : V1 × V2 → W una función bilineal y f : U → V1 y g : U → V2 dos funciones polinomiales
homogéneas de grados s y t, respectivamente. Entonces, su «producto» relativo a B es una función polinomial
homogénea de grado s + t.
Se consideran sendas funciones φ y ψ que sean s-lineal y t-lineal tales que f(u) = φ(u, . . . , u) y
g(u) = ψ(u, . . . , u). Sea h el producto de f y g relativo a B; esto es, h = B(f, g). Como

h(u) = B(f(u), g(u)) = B(φ(u, . . . , u), ψ(u, . . . , u))

solo resta demostrar que B(φ, ψ) es (s + t)-lineal, lo cual es inmediato.


El siguiente resultado reitera la noción de que la “nueva” definición de función polinomial es en
efecto una generalización de aquella que ya se usaba.

251
Capítulo 7. El teorema de Taylor.

( 7.7.7 ) Sea f : Rn → W una función polinomial homogenea de grado p. Existen constantes ci1 ,...,in ∈ Rm tales
que X
f(x1 , . . . , xn ) = ci1 ,...,in x1i1 · · · xnin .
i1 +...+in =p

Esta se conoce como la «forma general» de una función polinomial homogénea en Rn .


Se sabe que existe una función φ que es p-lineal tal que f(X) = φ(X, . . . , X). Luego, si e1 , . . . , en es la
base canónica de Rn se concluye que
n
X
φ(X1 , . . . , Xp ) = φ(X1 , . . . , Xp−1 , ejp )xp,jp ,
jp =1

donde Xi = (xi,1 , . . . , xi,n ) para i = 1, . . . , p. Procediendo de este modo se puede concluir que
n
X n
X
φ(X1 , . . . , Xp ) = ··· φ(ej1 , . . . , ejp )x1,j1 · · · xp,jp .
j1 =1 jp =1

Cuando X1 = . . . = Xp = X = (x1 , . . . , xn ) entonces x1,j1 · · · xp,jp toma la forma x1i1 · · · xnin , donde i1 + . . . +
in = p y entonces ci1 ,...,in es la suma de todas las φ(ej1 , . . . , ejp ) tales que x1,j1 · · · xp,jp = x1i1 · · · xnin , lo que
concluye la demostración.
( 7.7.8 ) Sea f : Rn → R una función polinomial según la definición (5.4.13). Existen funciones polinomiales
homogéneas f0 , . . . , fk tales que f = f0 + . . . + fk .
Sea k el grado de f entonces existen constantes ci1 ,...,in tales que
k
X
f(x1 , . . . , xn ) = ci1 ,...,in x1i1 · · · xnin ;
i1 +...+in =0

tomar fj como el sumando cuando i1 + . . . + in = j. Entonces, fj es una función polinomial homogénea


de grado j.
Esta proposición motiva la siguiente definición.
( 7.7.9 ) Sean f0 , . . . , fk : V → W funciones polinomiales homogéneas de grados 0, . . . , k, respectivamente. Se
Xk
dirá que f = fi es una función polinomial de grado menor o igual a k.
i=0

Observaciones:
1. Toda función polinomial de grado menor o igual que k también es una función polinomial de
grado menor o igual que l para todo l ≥ k.
2. Supón que f : V → W1 es una función polinomial homogénea de grado menor o igual a k y g : V →
W2 de grado menor o igual a l. Existen funciones polinomiales homogéneas f0 , . . . , fk : V → W1
y g0 , . . . , gl : V → W2 de grados 0, . . . , k y 0, . . . , l, respectivamente, tales que f = f0 + . . . + fk y
g = g0 + . . . + gl . Si B es una función bilineal de W1 × W2 → W , y si h = B(f, g) es el producto de
los polinomios f y g entonces, de acuerdo a (7.7.6),
Ñ é
Xk Xl X
h=B fj , gi = B(fi , gj )
j=0 i=0 i,j

es una función polinomial de grado menor o igual que k + l.

252
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.

z 7.7.2 Las funciones de incrementos.


Ya se ha hablado de incrementos con anterioridad; en diferenciales o teorema del valor medio
(5.11.2). Íntimamente ligados con los polinomios se encuentran las funciones de incrementos. Por cues-
tiones tradicionales se definía a la derivada como
∆y dy
lı́m = .
∆x→0 ∆x dx
Ahora se define formalmente esta simbología.

( 7.7.10 ) Sea f : V → W una función cualquiera y sea h ∈ V cualquiera, se define la función de incrementos de
f con incremento de tamaño h por ∆h f : V → W definida como (∆h f)(v) = f(v + h) − f(v). Por notación se
escribirá (∆h f)(v) = ∆h f(v).

( 7.7.11 ) Sea f : V → W cualquiera y h1 , h2 ∈ Rn . Entonces, para cualquier v ∈ V ,

∆h2 (∆h1 f) (v) = ∆h1 (∆h2 f) (v).

Luego, se escribirá ∆h1 ∆h2 f para denotar a cualquiera de estas funciones.

Esto se sigue directamente de la definición, pues

∆h2 (∆h1 f) (v) = ∆h1 f(v + h2 ) − ∆h1 f(v)


= f(v + h1 + h2 ) − f(v + h2 ) − f(v + h1 ) + h(v)

y, análogamente
∆h1 (∆h2 f) (v) = f(v + h1 + h2 ) − f(v + h2 ) − f(v + h1 ) + f(v),
lo cual concluye lo afirmado.
Se definirán ahora las funciones de n-ésimos incrementos y se demostrarán algunas propiedades
sobre ellas.

( 7.7.12 ) Para cualesquier f : V → W , k ∈ N, h1 , . . . , hk ∈ V y σ ∈ Sk se tiene que


  
∆h1 ∆h2 . . . (∆hk f) . . . (v) = ∆hσ(1) ∆hσ(2) . . . ∆hσ(k) f . . . (v).

Entonces, a cualquiera de estas funciones se les llamará función de k-ésimos incrementos de f y será denotada
por ∆h1 · · · ∆hk f.

Se procede por inducción en k, así el teorema es cierto para k = 2 según (7.7.11). Por otro lado, si el
teorema es cierto para k, se puede permutar los índices del 2 al k + 1 sin afectar la función y también
se puede transponer los índices 1 y 2. Luego, para concluir basta ver que todo elemento de Sk+1 se
puede factorizar mediante permutaciones de los conjuntos {2, . . . , k + 1} y {1, 2}. Esto fue demostrado
en (7.5.15).

( 7.7.13 ) Sean f : V → W . Para cualesquier k ∈ N y v, h1 , . . . , hk ∈ V ,


k
! k−1
!
X X X
∆h1 · · · ∆hk f(v) = f v + hi − f v+ hji + . . . + (−1)k f(v);
i=1 1≤j1 <...<jk−1 ≤n i=1

es decir, es la suma de las 2k funciones v 7Ï (−1)k−j F v + hi1 + . . . + hij , en donde 1 ≤ i1 < . . . < ij ≤ k y

j = 0, . . . , k.

253
Capítulo 7. El teorema de Taylor.

Se procede por inducción. En la prueba de (7.7.11) muestra que el resultado es cierto para k = 2.
Supón que es cierto para k − 1 entonces, F = ∆h1 · · · ∆hk f es igual a la suma de las funciones ∆hk fi1 ,...,ij ,
donde fi1 ,...,ij (v) = (−1)k−1−j f v + hi1 + . . . + hij . Como cada ∆hk fi1 ,...,ij puede identificarse con la suma


de dos funciones, se ve que F es la suma de 2k funciones. Pero,


∆hk fi1 ,...,ij (v) = f(v + hi1 + . . . + hij + hk ) − f(v + hi1 + . . . + hij ),
con lo cual se ve que el primer sumando admite j + 1 de las hi y el segundo solo j de ellos, además,
el primer sumando conserva el signo con el que aparece fi1 ,...,ij y el segundo lo cambia. Por lo tanto,
aquellos sumando de F que admiten j +1 de las hi conservan el signo con el que aparecen los sumandos
que admiten j de las hi en la (k − 1)-ésima función de incrementos de f. Por lo tanto, si gi1 ,...,ij es la
función v 7Ï f(v + hi1 + . . . + hij ) para 1 ≤ i1 < . . . < ij ≤ k y j = 0, 1, . . . , k entonces gi1 ,...,ij aparece con
el signo (−1)(k−1)−j+1 = (−1)k−j .

z 7.7.3 El teorema fundamental de polinomios.


Así como ocurrió con formas cuadráticas, sería deseable poder demostrar la existencia de un iso-
morfismo entre el espacio de funciones polinomiales homogéneas en n variables de grado p y el
conjunto de funciones p-lineales simétricas en n varibles.
Cuando f : R → R es una función polinomial de primer grado toma la forma f : t 7Ï a + bt, con a
constante entonces ∆h f : R → R está dada por t 7Ï a + b(t + h) − a − bt = bh, que es constante y para
f una funcón polinomial de segundo grado se tiene que f es de la forma t 7Ï a + bt + ct 2 , así que
∆h f(t) = a + b(t + h) + c(t + h)2 − a − bt − ct 2 = 2cht + ch2 + bh
que es un polinomio de grado uno. Usando el teorema del binomio de Newton es sencillo verificar que
si f : R → R es una función polinomial de grado menor o igual que p entonces ∆h f es una función
polinomial de grado menor o igual que p − 1.
( 7.7.14 ) Sea F : V → W una función polinomial de grado menor o igual que p. Supón que f = f0 + . . . + fp ,
donde cada fi es una función polinomial homogénea de grado p. Entonces, para cualquier h ∈ V , el primer
incremento ∆h f : V → W es una función polinomial de grado menor o igual que p − 1.
Se procede por inducción en p. El resultado vale para p = 1; en efecto,
∆h f(v) = f(v + h) − f(v) = f0 (v + h) + f1 (v + h) − f0 (v) − f1 (v) = f1 (h),
pues f1 es lineal y f0 es constante, ve (7.7.1).
Supón que el resultado vale para algún p − 1 ≥ 0. Entonces
∆h f = ∆h fp + ∆h (f0 + . . . + fp−1 )
y, por induccióm, ∆h (f0 + . . . + fp−1 ) es una función polinomial de grado menor o igual que p − 2.
Por lo que basta ver que ∆fp es de grado menor o igual que p − 1. Sea ψ ∈ Lin(p) (V , W ) tal que
fp (v) = ψ(v, . . . , v). Se puede suponer que ψ es simétrica (7.7.4). Luego,
p Ç å Ä
Ä
(p)
ä Ä
(p)
ä X p ä Ä ä
∆h fp (v) = ψ (v + h) −ψ v = ψ v (p−k) , h(k) − ψ v (p) .
k
k=0
Ç å
p
ψ v (p−k) , h(k) es una función polinomial homogénea de grado p−k ≤ p−1

Si k ≥ 1 entonces v 7Ï ψ
k
y cuando k = 0, Ç å
p Ä ä Ä ä Ä ä Ä ä
ψ v (p−k) , h(k) − ψ v (p) = ψ v (p) − ψ v (p) = 0.
k

254
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.

Mostrando que el resultado es cierto para p.


( 7.7.15 ) Sea f : V → W una función polinomial de grado menor o igual que p. Supón que f = f0 + . . . + fp ,
donde fi : V → W es una función polinomial homogénea de grado i. Entonces, si ψ ∈ Lin(p) (V , W ) es tal que
fp (v) = ψ(v, . . . , v),
se cumple que para cualesquier v, h1 , . . . , hp ∈ V
1
ψ(h1 , . . . , hp ) = ∆h · · · ∆hp f(v).
p! 1
Este se conoce como el «teorema fundamental de polinomios» sobre espacios vectoriales.
Se procede por inducción en p. El resultado es cierto para p = 1 pues en este caso, ∆h1 f(v) = f(h1 ).
Se supone ahora que el resultado vale para cierto p − 1 ≥ 0, en acuerdo con (7.7.14), ∆hn f es un
polinomio de grado a lo más p − 1. Se supone entonces que
∆hn f = g0 + . . . + gp−1 ,
en donde gi es una función polinomial homogénea de grado i. De hecho, (7.7.14) muestra que gp−1 (X) =
pψ(v, . . . , v, vp ). En virtud de la hipótesis de inducción,
∆h1 · · · ∆hn f(v) = (p − 1)!(pψ(h1 , . . . , hp−1 , hp )) = p!ψ(h1 , . . . , hp ).
Lo que concluye el teorema.
( 7.7.16 ) Dada una función polinomial f : V → W de grado menor o igual que p y 2(p+1) funciones polinomiales
homogéneas f0 , . . . , fp , f̃0 , . . . , f̃p : V → W de sendos grados 0, . . . , p y 0, . . . , p, tales que
p p
X X
f= fi = f˜i ,
i=0 i=0

entonces fi = f̃i para cada i = 0, . . . , n; el «teorema de expansión única».


Pues en virtud del teorema fundamental, si φ y ψ son funciones p-lineales tales que
fp (X) = φ(v, . . . , v)
y
f̃p (v) = ψ(v, . . . , v),
entonces en virtud del teorema fundamental
1
φ(v1 , . . . , vp ) = ∆h1 · · · ∆hn f(v) = ψ(v1 , . . . , vp ).
p!
Esto muestra que fp = f̃p . Por inducción se obtiene el resultado.
A partir de ahora se utilizará la convención de llamar a la función polinomial homogénea de grado
p «componente de grado p» de f.
( 7.7.17 ) Dada una función polinomial homogéna f : V → W de grado p existe una única aplicación p-lineal
simétrica φ tal que f(v) = φ(v, . . . , v).
Tal φ existe según (7.7.4). Es única pues, en acuerdo con el teorema fundamental (7.7.15), cualquier
ψ que sea p-lineal y simétrica satisface que
1
ψ(X1 , . . . , Xp ) = ∆X · · · ∆Xp F(X);
p! 1
en particular φ.

255
Capítulo 7. El teorema de Taylor.

z 7.7.4 Funciones tangentes.


La noción de tangencia se entiende de manera clara con la derivada. Ahora bien, lo que es la
tangencia a la derivada debería, en todo caso, ser conocida como tangencia lineal. Ahora se explica
esto. Una función f : R → R continua en a satisface que ε(h) = f(a + h) − f(a) tiende a cero conforme
h tiende a cero, es decir, f admite una expansión de orden cero en a, una expansión constante;

f(a + h) = f(a) + ε(h), lı́m ε(h) = 0.


h→0

Según (5.6.4) cuando f es diferenciable en a admite una expansión de orden uno en a, una expansión
lineal;
ε(h)
f(a + h) = f(a) + f 0 (a)h + ε(h), lı́m = 0.
h→0 h

( 7.7.18 ) Sean f, g : A ⊂ V → R cualesquiera y v un punto de acumulación de A. Se dirá que f es o(g) (léase,


f(u)
“o de ge”) en v a través de A si u→v
lı́m = 0. Eso será escrito como f = o(g) o f ≺ g.
u∈A
g(u)

Observaciones:

1. Para que f sea cotinua en v es necesario y suficiente que f = o(1) en v.

2. Una condición necesaria y suficiente para que una función f sea o(g) en v es que las funciones
f 0 (v) = f(v + h) y g 0 (v) = g(v + h) satisfagan que f 0 es o(g 0 ) en cero.

3. Si f es o(g) y |h| ≥ |g| entonces f es o(h).

4. Si f y g son o(h) entonces f + g es o(h).

5. Si f está acotada en una vecindad de v y g es o(h) en v entonces fg es o(h) en v.


˚
6. De acuerdo con (5.6.4), la definción de derivada de una función f : A ⊂ V → W en v ∈ A Û es
equivalente a que kf(v + h) − f(v) − Df (v) hk sea o(khk). Este punto permite sugiere definir lo
que sería la tangencia de orden p-ésimo.

( 7.7.19 ) Sea f : B (0; r) ⊂ V → W con r > 0. Se dirá que f es tangente a cero en el origen con «orden» de
tangencia p (y para abreviar «p-tangente» a cero en el origen) si kf(h)k es o(khkp ) en cero.

( 7.7.20 ) Sea f : B (0; r) ⊂ V → W una función (p + 1)-tangente a cero en el origen. Entonces también es
p-tangente a cero en el origen.

Pues de hecho para khk ≤ 1, khkp ≥ khkp+1 .


La noción de n-tangencia a cero permite definir una relación entre funciones f, g : B (0; r) ⊂ V → W
mediante f ∼ g si y solo si f − g es n-tangente a cero en el origen. Queda como ejercicio (7.24) verificar
que esta relación es de equivalencia.

( 7.7.21 ) . Sea f : B (0; r) ⊂ V → W una función n-tangente a cero en el origen. La función p-lineal simétrica
ψ(h1 , . . . , hp ) = ∆h1 · · · ∆hp F(0) satisface que

ψ(h1 , . . . , hp ) = o((kh1 k + . . . + khp k)p ).

La demostración queda de ejercicio a cargo del lector.


A continación se demuestran algunas propiedades de n-tangencia y funciones polinomiales.

256
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.

( 7.7.22 ) Toda función polinomial de grado menor o igual que p que sea p-tangente a cero en el origen es
identicamente nula.
Se procede por inducción. Cuando la función tiene grado cero es una constante, por lo que el único
modo que sea o(1) es que sea identicamente nula. Se supone ahora que el resultado es válido para
p − 1 ≥ 0. Sea f = f0 + . . . + fp , donde fi es una función polinomial homogénea de grado i. Entonces,

1
ψ(h1 , . . . , hp ) = ∆h · · · ∆hp F(0)
p! 1

es p-lineal y simétrica. En virtud de (7.7.21), pues f es p-tangente a cero en el origen, se cumple que

kψ(h1 , . . . , hp )k = o((kh1 k + . . . + khp k)p ).

Así que, dado ε > 0 existe un δ > 0 tal que si kh1 k + . . . + khp k ≤ δ entonces

kψ(h1 , . . . , hp )k ≤ ε(kh1 k + . . . + khp k)p .

Pero entonces, se puede sustuir los vectores h1 , . . . , hp ∈ B (0; δ) por cualesquier vectores v1 , . . . , vp ∈ V .
En efecto, al ser ψ una función p-lineal, para todo λ > 0,

kψ(λh1 , . . . , λhp )k = |λ|p kψ(h1 , . . . , hp )k .

Dados los vectores v1 , . . . , vp ∈ V se puede escoger λ > 0 suficientemente pequeño de tal forma que
|λ|(kv1 k + . . . + kvp k) = kλv1 k + . . . + kλvp k ≤ δ. De este modo, si v1 , . . . , vp ∈ V , se cumple que

kψ(v1 , . . . , vp )k ≤ ε(kv1 k + . . . + kvp k)p .

Haciendo ε > 0 tender a cero, se concluye que ψ = 0 y, por lo tanto fp = 0. Hasta ahora ha sido
demostrado que f es una función polinomial de grado menor o igual que p − 1, por lo que la hipótesis
inductiva concluye la demostración.

z 7.7.5 El teorema de Taylor, otra vez.


El teorema de Taylor afirma que la función polinomial de grado menor o igual que p dada por
p
X 1 k
H 7Ï D F (P) H (k) es “suficientemente próxima” a F en P.
p!
k=0

( 7.7.23 ) Sea A ⊂ V y f : A → W una función. Se dirá que f admite un desarrollo limitado φ : V → W de


˚
«orden» p en el punto v ∈ A Û si φ es una función polinomial de grado menor o igual que p que sea p-tangente
en origen a la función h 7Ï f(v + h).
En realidad, el teorema de Taylor, como ha sido formulado antes, no demuestra que la función
p
X 1 k
polinomial H 7Ï D F (P) H (k) sea un desarrollo limitado. Entonces, para que esta definición estilo
p!
k=0
«de existencia» no sea vaga habrá que demostrar que existe un conjunto amplio de funciones que
poseen desarrollos limitados. Lo que se hará será generalizar el teorema de Taylor para funciones de
˚
A ⊂ V → W en puntos v ∈ A Û donde la función sea p-veces diferenciable (también ve el ejercicio (7.34)).
Antes se verán algunas propiedades sencillas de desarrollos limitados.
( 7.7.24 ) Se supone que f : A ⊂ V → W admite dos desarrollos limitados de orden p en el origen. Es condición
necesaria que estos coincidan.

257
Capítulo 7. El teorema de Taylor.

Pues si φ1 , φ2 : V → W son tales desarrollos entonces kφ1 − fk (v) = o(kvkp ) y kφ2 − fk (v) = o(kvkp ).
Se sigue que kφ1 − φ2 k (v) = o(kvkp ) y por (7.7.22) se obtiene el resultado.
¿Qué pasa cuando los dos desarrollos limitados no son en el origen, sino en un punto A? Se deja
a cargo del lector el pensar este caso. Por otro lado, si los desarrollos limitados en el origen de una
función son unicos, ¿qué pasa cuando a un desarrollo se quitan los términos de ordenes altos? ¿Será
que las funciones polinomiales así obtenidas sean desarrollos de ordenes más pequeños?
p1
X
( 7.7.25 ) Sea f una función polinomial de V a W de grado menor o igual que p. Supón que f = fk , donde
i=0
p2
X
fi es la componente homogénea de grado i de f. Se dirá que la función polinomial fk se obtiene de la primera
k=0
mediante un truncamiento al orden p2 (se supone p1 ≥ p2 ).
˚
( 7.7.26 ) Sean f : A ⊂ V → W y v ∈ A Û tal que f admite un desarrollo limitado de orden p en v. El truncamiento
de este desarrollo a cualquier orden q < p corresponde a un desarrollo limitado de f en v de orden q.

Esto no es más que hacer unas cuántas manipulaciones algebraicas,


q
p
p

X X X

f(v) − fk (v) ≤ f(v) − vk (v) + fk (v)


k=0 k=0 k=q+1
= o(kvkn ) + o(kvkp ) = o(kvkp ),

pues toda función polinomial homogénea de grado mayor que p es o(kXkp ), ve (7.26).
Se deja al lector verificar lo siguiente.

( 7.7.27 ) Sea B : V1 × V2 → W una función bilineal y considera dos funciones u : (a, b) ⊂ R → V1 y


v : (a, b) → V2 que sean p veces diferenciables en t0 ∈ (a, b) y define
p Ä ä
X
ψ(t) = (−1)k B u(k) (t), v (p−k) (t) .
k=0

Entonces ψ es diferenciable en t0 y
Ä ä Ä ä
ψ0 (t0 ) = B u(t0 ), v (p+1) (t0 ) + (−1)p B u(p+1) (t0 ), v(t0 ) .

En particular, para α : (a, b) → W que sea p + 1 veces diferenciable en t0


ï ò
d 0 1 p (p) 1
α(t) + (1 − t)α (t) + . . . + (1 − t) α (t) = (1 − t0 )p α(p+1) (t0 ).
dt t=t0 p! p!

Finalmente, si α(p+1) está definida y continua en [0, 1] se cumple que

Z1
1 1 (1 − t)p α(p+1) (t)
α(1) − α(0) − α (0) − α00 (0) − . . . − α(p) (0) =
0
dt.
2 p! p!
0

A continuación se demuestra que las funciones que son de clase Cp+1 en un abierto A ⊂ V a valores
en W satisfacen que poseen desarrollos limitados de orden p en cada punto de su dominio.

258
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.

( 7.7.28 ) Sea f ∈ Cp+1 (A, W ) , donde A ⊂ V es un abierto. Para cualesquier v y h tales que el segmento
cerrado [v, v + h] = {v + th|t ∈ [0, 1]} ⊂ A se tiene que

Z1
(1 − t)p f (p+1) (v + th)h(p+1)
f(v + h) = Tp f (v) + dt.
p!
0

En particular, Tp f (v) es un desarrollo limitado de f de orden p en v; esto se conoce como «el teorema de Taylor
con resto integral».

Se define α : [0, 1] → W por α(t) = f(v + th) entonces α ∈ Cp+1 ([0, 1], W ) . En particular (7.7.27)
muestra que
Z1
0 1 00 1 (p) (1 − t)p α(p+1) (t)
α(1) − α(0) − α (0) − α (0) − . . . − α (0) = dt.
2 p! p!
0

1 (p)
Como α(1) = f(v + h) y α(0) + α0 (0) + . . . +
α (0) = Tp f (v) se obtiene la primera afirmación.
p!
Para obtener la segunda, solo se debe verificar que
1
(1 − t)p f (p+1) (v + th)h(p+1)
Z
p
dt
= o(khk ).

p!
0

Según el ejercicio (5.75), existe una constante c > 0 tal que



(v + th)h(p+1) ≤ c khkp+1 .
(p+1)
f

Por lo tanto, en virtud del ejercicio (4.61)


1
Z1

(1 − t)p f (p+1) (v + th)h(p+1)
Z
1 (p+1)

dt ≤ (v + th)h(p+1) dt

p! p!
f

0 0
c
≤ khkp+1 = o(khkp ),
p!

que concluye la demostración.

z 7.7.6 Propiedades de los desarrollos limitados.


Si f y g son funciones de un conjunto A ⊂ V a W las cuales admiten desarrollos limitados de orden
˚
p en un punto v ∈ A Û y ∗ es una operación para la cual ∗(f, g) está definida, ¿será que el desarrollor
limitado de ∗(f, g) sea la ∗ de los desarrollos limitados de f y g? Para la suma es inmediato verificar;
se nota que la función T(w1 , w2 ) = w1 + w2 , w1 , w2 ∈ W es lineal.

( 7.7.29 ) Sean f y g sendas funciones de A ⊂ V a W1 y W2 las cuales admiten desarrollos limitados, ψ y φ,


respectivamente, de orden p en v. Entonces, para cualquier T : W1 × W2 → W lineal, se cumple que el desarrollo
limitado de T(f, g) : A → W de orden p en v es T(φ, ψ).

259
Capítulo 7. El teorema de Taylor.

p p
X X
Se cumple que φ = φi y ψ = ψi , en donde φ0 , . . . , φp y ψ0 , . . . , ψp son las componentes
i=0 i=0
homogéneas de φ y ψ, así que
n
! n
X X
T(φ, ψ) = T (φi , ψi ) = T(φi , ψi ).
i=0 i=0

Ahora se prueba un lema.

( 7.7.29.1 ) Sean ψ : V → W una función polinomial homogéna de grado p y T : W → U lineal. Entonces T ◦ ψ


es una función polinomial homogéna de grado p.

Pues existe ψ̃ ∈ Lin(p) (V , W ) tal que ψ(v) = ψ̃(v, . . . , v). Basta ver que T ◦ ψ̃ es p-lineal. Pero si
vk0 , v1 , . . . , vp ∈ V , y λ ∈ R entonces
Ä ä Ä ä
T ψ̃(v1 , . . . , vk + λvk0 , . . . , vp ) = T ψ̃(v1 , . . . , vp ) + λ ψ̃(v1 , . . . , vk−1 , vk0 , vk+1 , . . . , vp )

y como T es lineal, T ◦ ψ̃ es lineal en la entrada k-ésima. Luego, T ◦ ψ̃ es p-lineal, concluyendo la


afirmación.
Para concluir (7.7.29) todavía se tiene que ver que T(φ, ψ) es función polinomial de grado menor o
igual que p y que
kT(f(v + h), g(v + h)) − T(φ(h), ψ(h))k = o(khkp ).

En virtud de (7.7.29.1) T(φ, ψ) es una función polinomial homogénea de grado menor o igual que p.
Por otro lado,

T(f(v + h), g(v + h)) − T(φ(h), ψ(h)) = T(f(v + h) − φ(h), g(v + h) − ψ(h))

y según (5.11.4) la norma de la expresión anterior está acotada por

kTk k(f(v + h) − φ(h), g(v + h) − ψ(h))k .

Se concluye con la siguiente afirmación.

˚
( 7.7.29.2 ) Sean f y g funciones de A ⊂ V a W1 y W2 , respectivamente. Supón que en algun punto v ∈ A
Û tanto
f como g admiten desarrollos limitados de orden p, φ y ψ, respectivamente. Entonces (f, g) : A → W1 × W2
admite un desarrollo limitado de orden p en v y esta dado por (φ, ψ).

Aunque parezca obvio que (φ, ψ) sea una función polinomial se deduce del hecho que (w1 , w2 ) 7Ï
(w1 , w2 ) es bilineal y de (7.7.6). Solo resta demostrar que

k(f(v + h) − φ(h), g(v + h) − ψ(h))k = o(khkp ).

Pero para w1 ∈ W1 y w2 ∈ W2 , k(w1 , w2 )k ≤ kw1 k + kw2 k (6.3.1).

( 7.7.30 ) Sean f : A ⊂ V → W1 y g : A → W2 funciones que admiten desarrollos limitados φ : V → W1 y


˚
ψ : V → W2 , respectivamente, de orden p en el punto v ∈ A. Û Sea B : W1 × W2 → W una forma bilineal. El
producto de f con g relativo a B admite un desarrollo limitado Φ de orden p en el punto P. En este caso, Φ es
el producto de los desarrollos limitados de f y g truncado al orden p.

260
7.7. Desarrollos limitados; el teorema de Taylor en espacios vectoriales normados.

p p
X X
Se supone que φ = φk y que ψ = ψk , donde φk y ψk son las componentes homogéneas de φ
k=0 k=0
y ψ, respectivamente. Observa que
p
X
B(φ, ψ) = B(φi , ψj )
i,j=0

es una función polinomial de grado mayor que p. Sea Φ el truncamiento de esta función al orden p.
Entonces, con definir ε1 (h) = f(v + h) − f(v) y ε2 (h) = g(v + h) − g(v), se ve que kε1 (h)k = o(khkp ) y que
kε2 (h)k = o(khkp ). Asimismo,

B(f(v + h), g(v + h)) − B(φ(h), ψ(h)) = B(ε1 (h), ε2 (h)) + B(φ(h), ε2 (h)) + B(ε1 (h), ψ(h)),

de donde, según (5.73)


kB(ε1 (h), ε2 (h))k ≤ kBk kε1 (h)k kε2 (h)k ,
kB(φ(h), ε2 (h))k ≤ kBk kφ(h)k kε2 (h)k
y
kB(ε1 (h), ψ(h))k ≤ kBk kε1 (h)k kψ(h)k)
Como φ y ψ son continuas (¿por qué?), existe una bola cerrada T ⊂ A en donde están acotadas. Por
ende, los tres términos anteriores son o(khkp ). Para concluir, basta ver que

p
X X X
= o(khkp ),


B(φi (h), ψj (h)) − B(φi (h), ψj (h)) =

B(φ i (h), ψj (h))
i,j=0 0≤i+j≤p p+1≤i+j≤2p

lo cual se sigue de (7.7.6) y (7.26).


( 7.7.31 ) Considera dos abiertos A ⊂ V y B ⊂ W , y dos funciones f : A → B y g : B → U. Supón que f admite
un desarrollo limitado φ de orden p en v ∈ A y que g admite un desarrollo limitado ψ de orden p en w = f(v).
Entonces, g ◦ f admite un desarrollo limitado Φ de orden p en v. En este caso,
Ñ é
p
X X 
Φ(h) = g(w) + ψ̃j φi1 (h), . . . , φij (h) ,
j=1 1≤i1 +...+ij ≤n

en donde φ1 , . . . , φp son las componentes homogéneas del desarrollo de f y ψ̃1 , . . . , ψ̃p son las funciones multili-
neales simétricas asociadas a las componentes homogéneas del desarrollo de g.
La demostración queda de ejercicio al lector.
Esta cantidad de propiedades demostradas hasta ahora permiten encontrar polinomios de Taylor
con gran generalidad.
( 7.7.32 ) Encuentra el polinomio de Taylor, centrado en cero, de orden décimo, de la función (x, y) 7Ï exy cos xy.
Se encuentran por separado los polinomios de Taylor, se sabe que los polinomios de Taylor de
décimo orden de coseno y exponencial, son

h2 h4 h6 h8 h10
T10 cos (0) h = 1 − + − + −
2 24 6! 8! 10!
y
h2 h3 h10
T10 exp (0) h = 1 + h + + + ... + .
2 6 10!

261
Capítulo 7. El teorema de Taylor.

Observa que las funciones multilineas asociadas a las componentes homogéneas de la función expo-
nencial son las funciones
t1 · · · tj
ψ̃j : Rj → R dada por ψ̃j (ti , . . . , tj ) = .
j!
Es fácil ver que el polinomio de Taylor de la función (x, y) 7Ï xy es ella misma, por lo que sus
componentes homogéneas son
ß
0 si i 6= 2
φi (x, y) =
xy si i = 2.
Según (7.7.31), el polinomio de Taylor de f(x, y) = exy es
Ä ä
T4 f (0, 0) (x, y) = exp(0) + ψ̃1 (φ2 (x, y)) + . . . + ψ̃5 (φ2 (x, y))(5)
x2y2 x3y3 x4y4 x5y5
= 1 + xy + + + + .
2 6 24 120
Procediendo de manera análoga para el coseno, ahora se encuentra que sus funciones multilineales
asociadas a sus componentes homogéneas son

 0 si j es impar,
τ̃j (t1 , . . . , tj ) = t1 · · · tj
si j es par.
j!

Por lo tanto, el polinomio de Taylor de g(x, y) = cos xy es


Ä ä Ä ä x2y2 x4y4
T4 g (0, 0) (x, y) = cos 0 + τ̃2 (φ2 (x, y))(2) + τ̃4 (φ2 (x, y))(4) = 1 + + .
2 24
Según (7.7.30), el polinomio de Taylor buscado es
Å ã Å ã
1 1 1 1
(x, y) 7Ï 1 + xy + + x2y2 + + x3y3
2 2 6 2
Å ã Å ã
1 1 1 1 1 1
+ + + x4y4 + + + x5y5,
24 4 24 120 12 24
o bien
2 1 2 5 5
(x, y) 7Ï 1 + xy + x 2 y 2 + x 3 y 3 + x 4 y 4 + x y .
3 3 15
Lo cual conluye el ejemplo.

§ 7.8. Ejercicios.
n(n + 1)
( 7.1 ) El espacio vectorial real de las matices simétricas de n ×n con coeficientes en R tiene dimensión .
2
( 7.2 ) El espacio vectorial real de las matrices antisimétricas de n × n con coeficientes reales tiene dimensión
n(n − 1)
.
2
( 7.3 ) Encontrar una base del espacio de las matrices simétricas de n × n con coeficientes en R y una base para
el espacio de las matrices antisimétricas. Con esto, demostrar que el espacio de matrices de n × n con entradas
reales es suma directa10 de los espacios de matrices simétricas y antisimétricas.
10 Se dice que el espacio vectorial V es suma directa de sus subespacios U y W si se satisface la siguiente condición:
(∀v ∈ V )(∃!u ∈ U, ∃!w ∈ W )(v = u + w).

262
7.8. Ejercicios.

( 7.4 ) Encontrar un cambio de variable lineal que transforme las siguientes formas cuadráticas a forma diagonal.
De esto, deducir si la forma cuadrática dada está definida positivamente, semipositivamente, negativamente,
seminegativamente o si está no definida.

1. x 2 − 5xy + y 2 ;

2. 3xy − 5y 2 ;

3. 5xy;

Sugerencia: para el último caso, considera u = x + y y v = x − y.

( 7.5 ) Encuentra todas las matrices simétricas B que satisfagan que f(X) = hBX, Xi .

1. f(x, y) = x 2 − 6xy + 9y 2 ;
n
!2
X
2. f(x1 , . . . , xn ) = ak xk ;
k=1

10
X
3. f(x, y) = (x + ky)2 ;
k=1

n
X n
X
4. f(x, y) = (x + ky)2 − (kx + y)2 .
k=1 k=1

( 7.6 ) En (7.1.13), demostrar que Φ es lineal.

( 7.7 ) Hacer un dibujo donde se represente a todas las clases de equivalencia de las formas cuadráticas en una y
dos variables.

( 7.8 ) Encuentra la segunda derivada de las siguientes funciones. Da explícitamente las reglas de correspondencias
(h, k) 7Ï D2 F (x, y) (h, k) para F dada por:

1. F(x, y) = x 2 + y 2 .

2. F(x, y) = log(x 2 + y 2 + 1).

3. F(x, y) = (y sin x, x cos y).

( 7.9 ) Sea f ∈ Ck (A, W ) donde A ⊂ Rn es un conjunto abierto. Entonces, f tiene a lo más k + 1 derivadas
parciales distintas.

( 7.10 ) Supón que f es m veces diferenciable en v y que Dm f es n veces diferenciable en v. Entonces f es


m + n veces diferenciable en P y Dm+n f (v) = Dn [Dm f] (v) .

( 7.11 ) Una condición necesaria y suficiente para que f ∈ C∞ (A, W ) , en donde A ⊂ Rn es una abierto, es que
exista un k ∈ N tal que Dk f ∈ C∞ (A, Lin (Rn , W )) .

( 7.12 ) Sean f : A → B y g : B → W funciones k veces diferenciables con continuidad, en donde A ⊂ U y


B ⊂ V son abiertos. Entonces h = g ◦ f es k veces diferenciable con continuidad.
Sugerencia: no intentes encontrar una «fórmula general» para la derivada k-ésima. Utiliza inducción en k.
Equivalentemente, si todo elemento en V puede ser escrito de manera única como combinación lineal de un elemento de U con
otro de W .

263
Capítulo 7. El teorema de Taylor.

( 7.13 ) Para cada k ∈ N y para cada A ⊂ Rn abierto, Ck (A, W ) es un espacio vectorial real. ¿Qué dimensión
tiene este espacio?

( 7.14 ) Sea A ⊂ Rn un conjunto abierto. Para cada «multiíndice» ν ∈ (N∪{0})n , por ejemplo ν = (m1 , . . . , mn ),
se define
|ν| = m1 + · · · + mn y Dν = Dm 1 mn
1 · · · Dn .

Supón que C es una familia finita de multiíndices en (N∪{0})n , por ejemplo C = (ν1 , . . . , νp ). Sean a1 , . . . , ap
cualesquiera p números reales. Se define el «operador diferencial» inducido por C como la función
p
X
DC = ai Dνi .
i=1

Sea N = máx{|ν1 |, . . . , |νp |}. Se puede pensar que DC es una función de CN (A, W ) a C0 (A, W ) de la manera
obvia, DC f es la función continua de A a W que está dada por
p
X
DC f(X) = ai Dνi f(X).
i=1

Si DC f = 0 para cada función f en su dominio entonces ! ai = 0 para cada i.


n
X
Sugerencia: considera f(x1 , . . . , xn ) = exp λi xi , donde los número λi son arbitrarios pero fijos.
i=1

( 7.15 ) Sea P : Rn → R una función polinomial de grado k según (5.4.13), por ejemplo
X
P(x1 , . . . , xn ) = bi1 ···in x1i1 · · · xnin ,
0≤i1 +···+in ≤k

se define DP : CN (A, W ) → C0 (A, W ) , donde A ⊂ Rn , como


X
DP = bi1 ···in Di11 · · · Dinn
0≤i1 +···+in ≤N

y a DP se le denomina el operador diferencial lineal inducido por P. El grado de P coincide con el orden de DP .
Si P1 y P2 son dos funciones polinomiales entonces DP1 +P2 = DP1 + DP2 y si el grado de P1 P2 es a lo más N
entonces DP1 P2 = DP1 DP2 .

( 7.16 ) Sean f y g dos funciones en Ck (A, W ) , donde A ⊂ V es una abierto. Entonces hf, gi es un elemento
en Ck (A, R) y para cada v ∈ A, se tiene que, denotando a h(i) = (h, . . . , h),
| {z }
i veces

k Ç å¨
k (k)
X k ∂
D [hf, gi] (v) h = Di f (v) h(i) , Dk−i g (v) h(k−i) .
i
i=0

( 7.17 ) Encuentra el polinomio de Taylor de orden n de la función x 7Ï sin x.


Sugerencia: utiliza la propiedad de integración del polinomio de Taylor y calcula el polinomio de Taylor del seno
a partir del encontrado en el texto para el coseno.

( 7.18 ) Si p : R → R es un polinomio de grado n entonces Tn p (0) = p.

264
7.8. Ejercicios.

( 7.19 ) Si un polinomio es alterado por un error pequeño entonces su polinomio de Taylor es él mismo; esto es,
r(x)
supón que f = p + r, con p un polinomio de grado n y lı́m n = 0 entonces p es el polinomio de Taylor de
x→0 x
grado n centrado en cero de f.
Sugerencia: utiliza que el polinomio de Taylor está determinado de manera única y demuestra que las primeras
n derivadas de f y p coinciden; para esto, observa que r(x) = x n o(x), donde o(x) → 0 cuando x → 0.

( 7.20 ) Si g(x) = f(cx), donde c ∈ R es fijo entonces Tn g (a) (x) = Tn f (ca) (cx).

( 7.21 ) Encuentra el polinomio de Taylor de grado n de cada una de las siguientes funciones:

1. x 7Ï e−x ;
1 1 x n+1
2. x 7Ï , x ∈ (0, 1); utiliza el ejercicio (7.19) y la identidad = 1 + x + x2 + . . . + xn + .
1−x 1−x 1−x
ex + e−x
3. x 7Ï ; esta función se conoce como coseno hiperbólico.
2
ex − e−x
4. x 7Ï ; esta función se conoce como seno hiperbólico; derive el anterior.
2
5. x 7Ï log(1 + x); calcula primero el polinomio de Taylor de − log(1 − x), utiliza un inciso previo.
1
6. x 7Ï ; igual que el segundo inciso.
1 + x2
7. x 7Ï arctan x; integre el anterior.

( 7.22 ) Si a, b ∈ R y k ∈ N entonces
k Ç å k Ç å
k+1
X k i+1 k−i X k i k+1−i
(a + b) = a b + ab .
i i
i=0 i=0

( 7.23 ) El espacio vectorial de funciones polinomiales homogéneas V → W cuyo grado es p es isomorfo al


espacio vectorial de las funciones p-lineales simétricas de V a W . Encuentra la dimensión de tales espacios.

( 7.24 ) Considera el conjunto de funciones H = {f : B (0; r) ⊂ V → W } y define la relación ∼ en H por


f ∼ g ⇔ f y f son n-tangentes a cero en el origen. Verifique que ∼ es de equivalencia.

( 7.25 ) Demuestra (7.7.21).

( 7.26 ) Sea f : V → W una función polinomial homogénea de grado mayor p. Entonces kf(h)k = o(khkp ).

( 7.27 ) Demuestra (7.7.27).

( 7.28 ) Demuestra (7.7.31).


p p
X X
Sugerencia: considera f(v + h) = w + φi (h) + r(h) y g(w + k) = g(w) + ψj (k) + s(k), en donde
i=1 j=1
kr(h)k = o(khkp ) y ks(k)k = o(kkkp ).

( 7.29 ) Considera las funciones F(x, y) = (sin x, x cos y) y G(x, y) = (x 2 + 3xy + y 3 , exy ), encuentra el
polinomio de Taylor de h = hF, Gi en el origen de quinto orden.

( 7.30 ) Encuentra el desarrollo de Taylor de orden n para las funciones

265
Capítulo 7. El teorema de Taylor.

1. cos xy;
2. xy exp(xy).
( 7.31 ) Demuestra que una función multinomial es indefinidamente diferenciable.
Sugerencia: no intentes calcular las derivadas. Nota que la primera derivada de una función (k + 1)-lineal
evaluada en un vector fijo es una suma finita de funciones k-lineales. Aplica inducción.
( 7.32 ) Si F : V → W es una función polinomial entonces F ∈ C∞ (V , W ) .
Sugerencia: reduce al caso cuando F es una función polinomial homogénea e intente dar una demostración
utilizando la regla de la cadena.
˚
( 7.33 ) Si f : A ⊂ Rn → W admite un desarrollo limitado φ de orden p en el punto P ∈ A Û entonces existen
constantes c0,...,0 , . . . , cn,...,n ∈ W tales que
X
φ(x1 , . . . , xn ) = ci1 ,...,in (x1 − p1 )i1 · · · (xn − pn )in .
0≤i1 +...+in ≤p

Esto es lo que se conoce como un polinomio centrado en A = (a1 , . . . , an ).


Sugerencia: define, para h pequeño, la función h 7Ï f(P + h) y observa que esta función es tantas veces
diferenciable en cero como lo es f en P.
( 7.34 ) Sea f : A ⊂ V → W una función k veces diferenciable sobre B (v; r) ⊂ A, cuya derivada k-ésima es
continua en P. Entonces

f(v + h) − f(v) − Df (v) h − . . . − 1 Dk f (v) h(k) = o khkk .
Ä ä
k!

Sugerencia: procede por inducción en k, recuerda que el caso k = 1 es definición. Supón ahora que f es k + 1
veces diferenciable en v y define para h pequeño
1
φ(h) = f(v + h) − f(v) − Df (v) h − . . . − Dk+1 f (v) h(k+1) ,
(k + 1)!

φ es diferenciable para todo h pequeño y


1
Dφ (h) = Df (v + h) − Df (h) − . . . − Dk+1 f (v) h(k) ;
(k + 1)!

para concluir esta última igualdad habrás de usar que Di f (v) es i-lineal y simétrica (ve (7.5.15)). En virtud de la
hipótesis inductiva puedes concluir que Ä ä
kDφ (h)k = o khkk .
Luego, dado ε > 0 existe un δ > 0 tal que

khk < δ Ñ kDφ (h)k ≤ ε khkk .

El teorema del valor medio (5.11.2) muestra entonces que

khk < δ Ñ kφ(h)k ≤ ε khkk+1 ,


Ä ä
es decir, kφ(h)k = o khkk+1 .

266
Capítulo 8

• Optimización libre y restringida, fun-


ciones convexas y teoremas de la fun-
ción inversa e implícita.

Como su nombre lo sugiere la optimización se centra en encontrar los puntos “mejores” de una
función. Cabe destacar que la noción de “mejor” queda definida por el contexto que se trabaja. Así, por
ejemplo, si U(x, y) expresa el bienestar que obtiene un individuo al consumir x unidades de un primer
bien y y unidades de un segundo bien entonces surge naturalmente la pregunta: ¿Cuál es la decisión
óptima de un individo para maximizar su bienestar? Preguntas análogas surgen cuando U representa
dinero gastado, tiempo empleado, etcétera.
Obviamente, para hablar de optimización es necesario comparar números, por lo que solamente es
posible optimizar cuyo contradominio es un subconjunto de R.

§ 8.1. Optimización libre


Existen, en general, dos tipos diferentes de optimización, estas son la optimización libre o sin res-
tricciones y la optimización restringida. Ahora se explica a qué se refiere la expresión con optimización
libre. Una función de I ⊂ R → R posee solo una variable independiente y por ende, no existen rela-
ciones de dependencia entre sus argumentos. En cambio, una función U ⊂ Rn → R posee n variables
independientes entre sí las cuales pueden o no tener relaciones de dependencia entre ellas.
En esta sección se buscará resolver el problema de maximización libre, el cual se explica a continua-
ción. El problema de maximizar libremente una función sobre su dominio se entiende como encontrar
un punto en el dominio en donde la función alzance su mayor valor. Es decir, si f : A ⊂ V → R entonces
el problema de maximización, escrito como
arg máx f(v) s.a. v ∈ U,
en donde arg máx se lee “argumento que maximiza a” y “s.a.” se lee “sujeto a”, es encontrar un v ∈ A
tal que f(v) sea el valor más grande alcanzado por f sobre A.

Problema de maximización libre: dados un subconjunto A ⊂ V y una función f : A → R encontrar


un v ∈ A tal que f(v) sea el mayor valor alcanzado por f. El problema de minimización libre queda
definido de manera análoga.

267
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Es conveniente analizar algunos casos.


( 8.1.1 ) Resuelve el problema de maximización para las siguientes funciones:
1. t 7Ï 1;
2. t 7Ï −1 si t < 0, t 7Ï 1 si t ≥ 0;
3. t 7Ï at 2 + bt + c y a 6= 0.
Se ve cada inciso por separado.
1. El mayor que puede alcanzar la función es 1 pues es, de hecho, el único valor puede alcanzar.
Entonces, cualquier t ∈ R satisface que el valor de la función en t es máximo. Es decir, cualquier
t ∈ R resuelve el problema de maximización. Evidentemente, cualquier t ∈ R también resuelve el
problema de minimización.
2. Al igual que el inciso anterio cualquier t ≥ 0 resuelve el problema de maximización y cualquier
t < 0 resuelve el problema de minimización.
3. Observa lo siguiente

b 2 b2
Å ã Å ã
2 2 b c
at + bt + c = a t + t + =a t+ +c− .
a a 2a 4a

b 2
Å ã
Hay dos casos a tratar. Si a > 0 entonces a t + ≥ 0 y, por lo tanto, la función tiene una
2a
b
solución a su problema de minimización, tal solución es t = − . No existe solución a su problema
2a
de maximización pues
Å ã
2 2 b c
lı́m at + bt + c = lı́m t a + + 2 = ∞,
t→∞ t→∞ t t
es decir, la función puede superar cualquier cota superior impuesta de antemano. El caso a < 0
es análogo, aquí existe una solución al problema de maximización.
Observa que los resultados de este inciso son geométricametne claros pues la gráfica de la función
es una parábola la cual “abre” hacia arriba o hacia abajo según a > 0 o a < 0, respectivamente.
Esto concluye el ejemplo.
De este ejemplo se deriva que existen funciones que tienen una única solución a su problema de
maximización y funciones que tienen ínfinitas soluciones.
( 8.1.2 ) Considera la función f : R → R dada por f(x) = 2x − 3. Resuelve el problema de maximización

arg máx f(t) s.a. t ∈ I,

cuando I = R, I = [a, b] e I = (a, b).


Si I = R entonces lı́m f(x) = ∞. Por lo que no hay solución a su problema de maximización. Si
x→∞
I = [a, b] entonces f(x) ≤ 2b − 3 para calquier x ∈ [a, b]. Y como f(b) = 2b − 3 se ve que el problema de
maximización tiene solución y la solución es b. Se considera finalmente el caso I = (a, b). Si x ∈ (a, b)
es un punto que resuelve el problema de maximización de f entonces para cualquier y ∈ (a, b) se debe
b−x
cumplir que f(y) ≤ f(x). Ahora, sea r = entonces r > 0 y x < x + r < b, con lo cual x + r ∈ (a, b).
2

268
8.1. Optimización libre

Es fácil notar que f(x) < f(x + r), lo cual es una contradicción y no existe solución al problema de
maximización para el caso I = (a, b).
Este ejemplo muestra que puede suceder que una función A → R tenga solución su problema de
maximización sobre algún B más grande que A (o sea, A ⊂ B) pero no sobre A. Entonces, el problema
de maximización habrá que plantearlo de manera local y no global; es decir, para vecindades de puntos
y no para todo el dominio. Surgen naturalmente las siguientes definiciones.
( 8.1.3 ) Sea f : A ⊂ V → R. Se dirá que f tiene un máximo relativo en v ∈ A si existe un r > 0 tal que para
cada u ∈ B (v; r) ∩ A se cumple que f(u) ≤ f(v). Cuando la desigualdad anterior sea estricta siempre que u 6= v
se dirá entonces que f tiene un máximo relativo estricto1 en v. Cuando para cualquier u ∈ A se cumpla que
f(u) ≤ f(v) se dirá que f tiene un máximo relativo global en P y cuando la desigualdad sea estricta se dirá que
f tiene un máximo estricto global en P. Las definiciones para mínimo son análogas.
Esta definición es de existencia pura sin dar un modo de cómo encontrar los puntos óptimos de
una función.
( 8.1.4 ) Cuando f posee un máximo o mínimo de algún tipo en un punto v se dirá que f tiene un óptimo o un
valor extremo en v y a v se le llamará optimizador o punto extremo de f. A un punto v ∈ A que maximize a f
se le llamará maximizador y utilizarán los adjetivos relativo, estrico y global con la misma connotación que antes.
Las definiciones relativas a minimizadores son análogas.
El problema de optimización libre queda entonces resumido a encontrar todos los maximizadores
y minimizadores.
La noción de forma cuadrática definida se puede generalizar a espacios vectoriales. En particular,
la definición (7.1.4) se conserva al cambiar Rn por V y X por v.
( 8.1.5 ) Sea f : V → R una forma cuadrática definida positivamente. Entonces el origen es un punto mínimo
estricto absoluto de f. Si f está definida semipositivamente entonces el origen es un mínimo relativo global.
Resultados análogos para formas cuadráticas definidas negativa y seminegativamente con máximos estrictos y
relativos, ambos globales, respectivamente.
Lo cual es inmediato de las definiciones (7.1.4), (8.1.3) y (8.1.4).
( 8.1.6 ) Para que f : A ⊂ V → R tenga un máximo relativo (respectivamente, estricto, relativo global y estricto
global) en v ∈ A es necesario y suficiente que −f tenga un mínimo relativo (respectivamente, estricto, relativo
global y estricto global) en v ∈ A.
Lo cual es inmediato de que si a < b (o a ≤ b) entonces −a > −b (−a ≥ −b, respectivamente).
El resultado previo muestra que basta estudiar los mínimos de las funciones. Así, los propiedaes
siguientes serán derivadas y escritas en términos de mínimos2 .
( 8.1.7 ) Si f : A ⊂ V → R y v ∈ A es un punto aislado, entoces f posee un mínimo y un máximo relativo en v.
Pues existe un r > 0 tal que B (v; r) ∩ A = {v}, el resto es consecuencia de la definición (8.1.4).
( 8.1.8 ) Para que f : A ⊂ V → R tenga un mínimo relativo en v es necesario y suficiente que exista r > 0 tal
que f(B (v; r)) ⊂ R sea un conjunto acotado inferiormente y f(v) = ı́nf f(u).
u∈B(v;r)

Lo cual es reescribir la definición (8.1.3) en términos de bolas e ínfimos.


( 8.1.9 ) Para que f : A ⊂ V → R tenga un mínimo absoluto en v ∈ A es condición necesaria y suficiente que
f(v) = ı́nf f(u).
u∈A
1 Algunos autores prefieren el adjetivo absoluto en vez de estricto
2 Esto se hace así pues los teoremas de las condiciones necesarias y suficientes de segundo orden son más sencillos de verifica.

269
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Nota que no se pide que f(A) sea acotado inferiormente. De hecho, esto sería una condición redun-
dante pues f(v) ∈ R así que f(A) está acotado inferiormente.
En lo que resta de la sección se derivarán dos condiciones necesarias y una condición suficiente
para la existencia de óptimos.

z 8.1.1 Condiciones necesarias de primer orden.


A manera intuitiva, un punto donde f alcanza un máximo satisface ser un punto de estabilidad. Por
ejemplo, piensa en un péndulo, cuando alcanza un punto de altura máxima su velocidad disminuye
hasta cero.
˚
( 8.1.10 ) Sea f : A ⊂ V → R tal que f es diferenciable en v ∈ A
Û y alcanza un mínimo (relativo o estricto, global
o no) en v. Entoces Df (v) = 0; las «condiciones necesarias de primer orden»3 .
Se demostrará que para cada u ∈ V unitario, Df (v) u = 0. Con esto, Df (v) = 0. Entonces, existe un
r > 0 tal que B (v; r) ⊂ A y f(w) ≥ f(v) para cada w ∈ B (v; r) . Sea u ∈ V unitario. Define α : (−r, r) → V
dada por α(t) = v + tu. Es claro que α(−r, r) ⊂ A, por lo que la función f ◦ α está definida. Según la
regla de la cadena
D(f ◦ α) (0) = Df (v) u.
Por otro lado, de la definición de derivada, se debe cumplir que
(f ◦ α)(h) − (f ◦ α)(0) f(α(h)) − f(v)
D(f ◦ α) (0) = lı́m = lı́m ≥0
h→0 h h→0 h
h>0 h>0
y que
f(α(h)) − f(v)
D(f ◦ α) (0) = lı́m ≤ 0.
h→0 h
h<0
El único modo para que el límite exista es que D(f ◦ α) (0) = 0.

Observación: las condiciones de primer orden no son suficientes, solo necesarias. Para muestra
considera las función t 7Ï t 3 de R a R la cual tiene por derivada la transformación lineal cero en el
cero pero no tiene ningún punto óptimo en el origen.
Las condiciones de primer orden restringen en gran medida el trabajo que hay que realizar. El
conjunto de puntos donde la derivada sea nula son los únicos candidatos a óptimos. Esto conduce a su
estudio.
( 8.1.11 ) Sea f : A ⊂ V → R. Se dirá que un punto v ∈ Rn es punto crítico de f si Df (v) = 0.
Recuerda que la derivada de una función solo se definió en puntos interiores del dominio de esta.
Por ende, un punto crítico debe caer en el interior del dominio de la función.
( 8.1.12 ) Considera la función (x, y) 7Ï x 2 − y 2 . Entonces, el origen es su único punto crítico y no es óptimo.
Å ã
∂f ∂f
Pues si f es tal función entonces Df (x, y) = , = 2(x, −y), y esto es (0, 0) si y solo si (x, y)
∂x ∂y
es el origen. Salvo en el origen, f siempre es positiva sobre el primer eje y restringida al segundo eje
f siempre es negativa, luego f no posee ningún extremo en el origen. Por lo tanto, f no posee ningún
extremo en absoluto.
Si el lector realiza el gráfico de la función anterior notará que esta tiene la forma de una silla de
montar en una vecindad del origen.
3 Se utiliza el plural pues en los textos usuales las condiciones se dan para una "función de las variables x y y"siendo las
∂f ∂f
condiciones = = 0.
∂x ∂y

270
8.1. Optimización libre

˚
( 8.1.13 ) Si f : A ⊂ V → R posee un punto crítico en v ∈ A
Û y v no es óptimo de f entonces se dirá que v es
un punto de ensilladura de f.
¿Cómo garantizar que f : A ⊂ V → R posea un extremo? Para empezar es natural que f esté
1
acotada inferiormente, sin embargo, la función f(t) = siempre es positiva y conforme t → ∞ se ve
t
que f(t) → 0, pero no hay ningún punto t en donde f(t) = 0. El problema aquí es que los valores en
donde f podría alcanzar su óptimo escapan a ∞.
( 8.1.14 ) Una condición suficiente para que una función continua A ⊂ V → R alcance un mínimo es que A sea
un conjunto compacto. Sobre esta misma condición, la función alcanza un máximo.
Sea f la función en cuestión. Según (5.5.7), f(A) es compacto en R. Luego, según (3.5.2), f(A) es
cerrado y acotado. Por ende, existe α = ı́nf f(A). Hay dos casos, el primero es que α ∈ f(A), en cuyo
caso existe un v ∈ A con f(v) = α y esto concluye la prueba, v es minimizador. El segundo caso es que
1 1
α ∈/ f(A). Entonces, para cada existe un yn ∈ f(A) con 0 ≤ α − yn ≤ , por lo que α es un punto
n n
de acumulación de f(A), ve (3.2.8). Como f(A) es cerrado, contiene a todos sus puntos de acumulación
(3.2.17), α ∈ f(A).
Se utilizan los mismos argumentos para sup f(A).

z 8.1.2 Condiciones necesarias de segundo orden.


A veces se conocen condiciones adicionales sobre las funciones que han de ser optimizadas. En
particular, se conoce la existencia de derivadas superiores en algún punto crítico.
˚
( 8.1.15 ) Sea f : A ⊂ V → R dos veces diferenciable con contiuidad en v ∈ A.Û Si f admite un mínimo (relativo
o estricto, global o no) en v entonces D2 f (v) es una forma cuadrática que está definida semipositivamente; las
«condiciones necesarias de segundo orden».
En virtud del ejercicio (7.34) se obtiene que
1 2 Ä ä
f(v + h) − f(v) = D f (v) (h, h) + o khk2 ,
2
cuando h → 0. Se puede escribir entonces, en virtud de que v es un minimizador,

0 ≤ D2 f (v) (h, h) + r(h) khk2 ,

donde r(h) → 0 cuando h → 0. Sea u ∈ V unitario y t ∈ R \ {0} suficientemente pequeño de tal forma
que v + tu ∈ A. Entonces
0 ≤ D2 f (v) (tu, tu) + r (tu) t 2 ,
dividiendo todo entre t 2 y usando que D2 f (v) es bilineal, se concluye que

0 ≤ D2 f (v) (u, u) + r (tu) .

Con hacer t → 0 y usando nuevamente la bilinealidad de D2 f (v) , se concluye que

D2 f (v) (u, u) ≥ 0,

para cualquier u ∈ V unitario. Para pasar de vectores unitarios a cualquier vector h ∈ V se observa
h
que si h = 0 entonces D2 f (v) (h, h) = 0 y si h 6= 0 entonces u = es unitario. Al usar que D2 f (v) es
khk
bilineal, se concluye que D2 f (v) (h, h) ≥ 0 para cualquier h ∈ V .

271
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Observación: no se puede “mejorar” la parte de semipositivamente a positivamente como lo mues-


tran las funciones t 7Ï t 4 y t 7Ï −t 4 .

z 8.1.3 Condiciones suficientes de segundo orden.


Las condiciones (8.1.10) y (8.1.15) son necesarias. Ahora se probará una condición suficiente. Es
necesario establecer el contexto teórico sobre el cual se trabajará. Recuerda que si f : A ⊂ V → R es
˚
dos veces diferenciable en v ∈ A
Û entonces
D2 f (v) ∈ Lin2 (V , R) = Lin (V , Lin (V , R)) .
Entonces, D2 f (v) puede identificarse canónicamente con una transformación lineal V → Lin (V , R) .
Como V se supone siempre de dimensión finita, dim Lin (V , R) = dim V , por lo que D2 f (v) puede o no
ser invertible.
( 8.1.16 ) Se dirá que una forma cuadrática f : V → R es no degenerada si la única forma bilineal simétrica
asociada a ella (ve (7.7.17)) satisface que al ser vista como transformación lineal V → Lin (V , R) es invertible.
En caso contrario, se dirá que f es degenerada.
( 8.1.17 ) Determine cuales de las siguentes formas cuadráticas son no degeneradas:
1. (x, y, z) 7Ï x 2 + y 2 ;
2. (x, y, z) = x 2 + y 2 − z2 ;
3. (x, y, z) = x 2 + 2xy + z2 + 2yz.
En cada caso se debe encontrar la función bilineal simétrica asociada. Se resuelve cada inciso
separadamente.
1. La forma bilineal simétrica asociada es
 
1 0 0
B= 0 1 0 ,
0 0 0
la cual, vista como transformación lineal R3 → R3 es evidentemente no invertible, por lo que la
forma cuadrática es degenerada.
2. En este caso la forma bilineal simétrica es
 
1 0 0
B= 0 1 0 ,
0 0 −1
como el determinante de B es −1, B es invertible (ve (1.41)). Por lo que la forma cuadrática es no
degenerada.
3. En este caso se tiene que  
1 1 0
B= 1 0 1 ,
0 1 1
luego,    
1 1 0 1 1 0
det B = det  0 −1 1  = det  0 −1 1  = −2,
0 1 1 0 0 2
por lo que la forma cuadrática es no degenerada.

272
8.1. Optimización libre

Observa que se han utilizado varias propiedades del determinante.


El siguiente es una generalización de la desigualdad de Cauchy-Schwarz (1.4.4).
( 8.1.18 ) Sea f : V → R una forma cuadrática que está definida positivamente y sea φ la única forma 2-lineal
simétrica asociada a f (ve (7.7.17)). Entones para cualesquier u, v ∈ V

φ(u, v)2 ≤ f(u)f(v);

el «lema de Schwarz». En particular, φ(u, v) = 0 si f(u) o f(v) son nulas.


La demostración es idéntico a la de la desigualdad de Cauchy-Schwarz por lo que se dejan los
detalles al lector. Recuerda que se define λ 7Ï f(λu+v) ≥ 0 y se desarrolla el polinomio en λ, obteniendo
f(λu + v) = λ 2 f(u) + 2λφ(u, v) + f(v) que al ser positivo tiene discriminante negativo.
La siguiente propiedad es un recíproco parcial del lema de Schwarz. Caracteriza a las formas
cuadráticas no degeneradas.
( 8.1.19 ) Sea f : V → R una forma cuadrática. Una condición necesaria y suficiente para que f sea no degenerada
es que si φ es la única forma bilineal simétrica asociada a f entonces se cumpla la siguiente propiedad

si v ∈ V es tal que para cada u ∈ V , φ(u, v) = 0 entonces v = 0.

Se ve primero la necesidad de la aformación, el método de demostración que se empleará es clásico.


Dado v ∈ V define φv : V → R dada por φv (u) = φ(v, u). De acuerdo a la identificación canónica (7.3.1)
v 7Ï φv es precísamente φ. Como φ es invertible de V a Lin (V , R) se ve que Nuc (φ) = {0}, por lo que
si v ∈ V es tal que para cada u ∈ V se cumple que φ(v, u) = φv (u) = 0 entonces v ∈ Nuc (φ) = {0},
mostrando que v = 0.
Recíprocamente, define φv igual que el párrafo anterior. Entonces φ : V → Lin (V , R) dada por
φ(v) = φv tiene núcleo trivial, Nuc (φ) = {0}. Por el ejercicio (1.30) φ es invertible, que es lo que se
quería demostrar.
˚
( 8.1.20 ) Sea f : A → R dos veces diferenciable en v ∈ A. Û Si Df (v) = 0 y D2 f (v) es una forma cuadrática
positiva y no degenerada entonces f admite un mínimo relativo estrico en v; si D2 f (v) está no definida entonces
v es un punto de ensilladura; las «condiciones suficientes de segundo orden».
Supón primero que existe una constante λ > 0 tal que para cualquier h ∈ V se cumple que
D2 f (v) (h, h) ≥ λ khk2 . Por la fórmula de Taylor del ejercicio (7.34) se cumple que

1 2
f(v + h) − f(v) = D f (v) (h, h) + r(h) khk2 ,
2
donde r(h) → 0 cuando h → 0. Como existe λ > 0 constante tal que para cualquier h ∈ V

1 2
D f (v) (h, h) ≥ λ khk2 .
2
Entonces,
f(v + h) − f(v) ≥ (λ + r(h)) khk2
y como r(h) tiende a cero se ve que para todo h suficientemente pequeño λ + r(h) > 0, por lo que
f(v + h) > f(v) siempre que h 6= 0 y sea suficientemente pequeño; esto es, v es un minimizador relativo
estricto de f. Por lo tanto, basta demostrar la existencia de λ. El siguiente resultado resume esto.
( 8.1.20.1 ) Sea f : V → R una forma cuadrática que está definida positivamente y que es no degenerada. Existe
una constante λ > 0 tal que para cualquier v ∈ V , f(v) ≥ λ kvk2 .

273
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Sea φ la única forma bilineal simétrica asociada a f. Según el teorema de identificación (7.3.1),
φ : V → Lin (V , R) . Como φ es invertible y lineal,

∀k ∈ Lin (V , R) , φ−1 (k) ≤ φ−1 kkk .

Con poner k = φ(v) se ve que esta desigualdad es equivalente a



∀v ∈ V , kvk ≤ φ−1 kφ(v)k .

Según el ejercicio (5.71) se cumple que

kφ(v)k = máx |φ(v)h| = máx |φ(v, h)|.


khk=1 khk=1

Luego, existe hv ∈ V con khv k = 1 tal que

1
kφ(v)k ≤ |φ(v, hv )|.
2
Por lo tanto,
kvk ≤ 2 φ−1 |φ(v, hv )|.

De acuerdo al lema de Schwarz (8.1.18) se cumple que


2
kvk2 ≤ 4 φ−1 f(v)f(hv ).

Al ser f continua y el conjunto S1 = {h ∈ V | khk = 1} compacto, existe un M > 0 tal que f(h) ≤ M
siempre que khk = 1. Por lo tanto,
1
kvk2 ≤ f(v),
λ
1
donde λ = .
−1 2

4 φ M

( 8.1.20.2 ) Si D2 f (v) es una forma cuadrática que está no definida entonces v es un punto ensilladura.

En este caso existen dos vectores no nulos v1 y v2 tales que

D2 f (v) (v1 , v1 ) > 0 y D2 f (v) (v2 , v2 ) < 0.

Entonces Å ã
vi vi 1
D2 f (v) , = 2
D2 f (v) (vi , vi ),
kvi k kvi k kvi k
que es positivo o negativo según i = 1 o i = 2. Entonces, se puede suponer que v1 y v2 son unitarios.
Luego, por la expansión de Taylor

t2 2
Å ã
1 2
f(P + tvi ) − f(v) = D f (v) (vi , vi ) + r1 (t)t 2 = t 2 D f (v) (vi , vi ) + r1 (t) ,
2 2

en donde r1 (t) → 0 cuando t → 0. Entonces, para t suficientemente chico, la expresión anterior es


negativa o positiva según i = 1 o i = 2. Luego, v es un punto de ensilladura.

274
8.2. Funciones convexas.

§ 8.2. Funciones convexas.


Se vieron ejemplos de funciones que podían o no tener ningún punto óptimo o tener una infinidad
de ellos. Resulta entonces, ¿qué condiciones imponer para que las condiciones de primer y segundo
orden sean necesarias y suficientes para existencia y unicidad? Aunque tales condiciones existen estas
resultan ser muy restrictivas. Sin embargo, muchos ejemplos existen en donde estas condiciones se
satisfacen. Es por ellos que a continuación se presenta un poco sobre funciones convexas en espacios
vectoriales.

z 8.2.1 Funciones convexas en R.


( 8.2.1 ) Sea I ⊂ R un intervalo y f : I → R. Se dirá que f es una función convexa si para cualesquier x, y ∈ I
y cualquier λ ∈ [0, 1]
f(λx + (1 − λ)y) ≤ λf(x) + (1 − λ)f(y).
Se dirá que f es estrictamente convexa si la desigualdad anterior es estricta.

Observación: geométricamente, la «epigráfica» de f es un conjunto convexo; es decir, el conjunto de


punto (z, x) ∈ R2 tales que z ≥ f(x) y x ∈ I es convexo; esto es, el conjunto de punto que se encuentran
por encima de la gráfica de f es convexo (ve (4.8.4)).
( 8.2.2 ) Sea f : I → R una función convexa (estrictamente convexa). Entonces, para x < y < z cualesquiera
tres puntos de I se cumple que la pendiente de la recta que pasa por los puntos (x, f(x)) y (y, f(y)) es menor o
igual (menor estricto, respectivamente) que aquella correspondiente a la recta que pasa por los puntos (x, f(x))
y (z, f(z)) y esta pendiente es, a su vez, más pequeña (estricamente más pequeñan, respectivamente) que la
pendiente de la recta que pasa por (y, f(y)) y (z, f(z)); el «lema de las tres cuerdas».
El enunciado ha sido dado en su versión geométrica, lo que hay que demostrar es lo siguiente
f(y) − f(x) f(z) − f(x) f(z) − f(y)
≤ ≤ .
y−x z−x z−y
El caso estricto se prueba igual que el presentado a continuación, basta cambiar ≤ por < . Como
y ∈ [x, z] existe un λ ∈ [0, 1] tal que y = λx + (1 − λ)z, de hecho
z−y
λ= .
z−x
De la definición de convexidad,
f(y) = f(λx + (1 − λ)z) ≤ λf(x) + (1 − λ)f(z) = λ(f(x) − f(z)) + f(z).
Sustituyendo λ y despejando se obtiene que
f(z) − f(y) f(z) − f(x)

z−y z−x
y−x
Análogamente, sea µ = ∈ [0, 1] por lo que 1 − λ = µ y así que y = µz + (! − µ)x, por lo que
z−x
f(y) ≤ µf(z) + (1 − µ)f(x) = µ(f(z) − f(x)) + f(x),
de donde,
f(y) − f(x) f(z) − f(x)
≤ ,
y−x z−x
lo cual concluye el lema.
Las funciones convexas en general presentan características muy agradables. Por ejemplo, son
acotadas, continuas cuando su dominio es un intervalo abierto y poseen derivadas laterales.

275
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

z 8.2.2 Acotamiento, continuidad y diferenciabilidad de las fuciones convexas en


R.
( 8.2.3 ) Sea f : [a, b] →
Å R convexa.
ã Entonces f está acotada superiormente por M = máx{f(a), f(b)} e
a+b
inferiormente por m = 2f − M.
2
Esto es consecuencia casi inmediata de la definición, si z ∈ [a, b] entonces hay un λ ∈ [0, 1] tal que
z = λa + (1 − λ)b, por lo que

f(z) ≤ λf(a) + (1 − λ)f(b) ≤ λM + (1 − λ)M = M.


a+b a+b
Por otro lado, como ∈ [a, b] todo z ∈ [a, b] puede escribirse como + t para algún t, dado
2 2
este z, Å ã Å ã Å ã
a+b 1 a+b 1 a+b 1 1
f ≤ f +t + f − t ≤ f(z) + M,
2 2 2 2 2 2 2
de donde f(z) ≥ m.
( 8.2.4 ) Considera la función f : [0, 1] → R dada por f(t) = 1 si t = 0 y f(t) = 0 si t ∈ (0, 1]. Entonces, f no es
continua pero es convexa.
Si x, y ∈ (0, 1] entonces la definición de convexidad es trivialmente satisfecha. Si x = y = 0, también
es trivialmente satisfecha, se supone entonces que 0 = x < y ≤ 1. Entonces, para λ ∈ [0, 1]

f(λx + (1 − λ)y) = f((1 − λy)),

que vale 1 si λ = 1 y 0 si no. Por otro lado λf(x) + (1 − λ)f(y) = λ, mostrando que f es convexa y,
evidentemente, f no es continua en 0.
El lema de las tres cuerdas tiene como implicación que todas las funciones convexas son continuas
en el interior de su dominio. Una manera geométrica de ver esto es considerando un punto t en el
interior de su dominio y dos puntos t + δ y t − δ, cerca de t. Ahora se construyen las rectas que pasan
por los pares de puntos (t − δ, f(t − δ)), (t, f(t)), y (t, f(t)), (t + δ, f(t + δ)). La gráfica de f debe quedar
en la región determinado entre ambas rectas y cuando δ → 0 la gráfica tiende a (t, f(t)), mostrando la
continuidad.
( 8.2.5 ) Si f : [a, b] → R es convexa y t ∈ (a, b) entonces f es continua en t.
Como t es interior existe un δ > 0 tal que [t − δ, t + δ] ⊂ I. Sean
f(t) − f(t − δ) f(t + δ) − f(t)
m1 = y m2 = ;
δ δ
define L1 (x) = m1 (x−t)+f(t) y L2 (x) = m2 (x−t)+f(t), las rectas que pasan por (t, f(t)) con pendientes m1
y m2 , respectivamente. Si x ∈ [t, t +δ] entonces hay un 1−µ ∈ [0, 1] tal que x = (1−µ)t +µ(t +δ) = t +µδ;
luego el lema de las tres cuerdas implica que
f(t + µδ) − f(t)
≤ m2 ,
µδ
de donde,
f(x) ≤ m2 (µδ) + f(t) = L2 (t + µδ) = L2 (x).
Análogamente, f(x) ≥ L1 (x). De este este modo, L1 ≤ f ≤ L2 sobre [t, t + δ]. Procediendo del mismo
modo, L2 ≤ f ≤ L1 sobre [t − δ, t]. Como L1 (t + h) → L1 (t) = f(t) y L2 (t + h) → L2 (t) = f(t) cuando
h → 0, se ve que f es continua en t.

276
8.2. Funciones convexas.

( 8.2.6 ) Sea f : [a, b] → R una función convexa. Entonces, para cada x ∈ (a, b) las derivadas laterales de f en
x existen, ve (4.6.7). Más aún, si x < y con x, y ∈ (a, b) entonces

fg0 (x) ≤ fd0 (x) ≤ fg0 (y) ≤ fd0 (y).

Esto es consecuencia directa del lema de las tres cuerdas (8.2.2). Sean a < p < x < y < q < b.
Entonces
f(x) − f(p) f(y) − f(p) f(y) − f(x) f(q) − f(x) f(q) − f(y)
≤ ≤ ≤ ≤ .
x−p y−p y−x q−x q−y
Sea ahora uy dada por
f(y) − f(t)
uy (t) = .
y−t
f(q) − f(y)
Se sigue que uy (t) ≤ y uy es creciente (pues p y x son arbitrarios). Por lo tanto, el límite
q−y
cuando t ↑ y existe; es decir, fg (y) existe. Análogamente, fd0 (x) existe. En virtud de las desigualdades
0

anteriores, fg0 (x) ≤ fd0 (y). Las otras desigualdades son análogas.

z 8.2.3 Un poco sobre funciones monótonas.


( 8.2.7 ) A una función f : I ⊂ R → R se le dice creciente en el sentido amplio, si para todo x < y con
x, y ∈ I se satisface que f(x) ≤ f(y). Si la desigualdad es estricta, será llamada creciente en el sentido estricto.
Las definiciones para funciones decrecientes son análogas. Una función se llama monónota si es creciente o
decreciente.

Observaciones:

1. El conjunto I anterior es arbitrario, no tiene por qué ser un intervalo.

2. Dada una función f : I → R convexa, existen asociadas a ellas las funciones fd0 y fg0 , las cuales son
crecientes sobre I. Esto es consecuencia directa de (8.2.6). Esto motiva un breve estudio sobre
funciones monótonas.

( 8.2.8 ) Sea f : I → V una curva cualquiera y t ∈ I. Se dirá que f posee un límite derecho f(t+) en t si

lı́m f(t + h)
h→0,h>0

existe. Entonces se define f(t+) como este límite. Análogamente se definen los límites izquierdos f(t−) de f en
t. Esto se conocen como límites laterales. Si f posee límites laterales en cada punto de su dominio se dirá que f
es débilmente regular.

Observación: es casi inmediato de esta definición que una curva es continua si y solo si sus límites
laterales coinciden en cada punto. Se le pide al lector que él mismo intente dar una demostración de
esto. Es destacable que muchos autores prefieren denotar los límites derechos por f + (t) o por f(t + ).
También, en lugar de escribir h → 0, h > 0 escriben h → 0+, h → 0+ o h ↓ 0.

( 8.2.9 ) Sea f : I → R una función monótona con I un intervalo abierto. Entonces f es debilmente regular. Más
aún, para todo x < y con x, y ∈ I se cumple que f(x+) ≤ f(y−).

277
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

En efecto, se demostrará de hecho que si f es creciente y t ∈ I entonces


f(t+) = ı́nf f(x).
x∈I,x>t

Sobre (t, ∞) ∩ I, la función está acotada inferiormente por f(t). Como t ∈ I el cual es abierto, existe un
x ∈ (t, ∞) ∩ I. Por lo tanto, α = ı́nf f(x) existe. Luego, para todo ε > 0 existe un 0 < δ < ε tal que
x∈I,x>t
t + δ ∈ I y satisface que 0 < f(t + δ) − α < ε. Sea ahora x ∈ (t, t + δ). Entonces f(t + δ) > f(x) > α, por lo
que 0 < f(x) − α < ε. Es decir, para todo ε > 0 existe δ > 0 talque si h ∈ (0, δ) entonces |α − f(t + h)| < ε,
lo cual es precisamente lo que se quería demostrar. Para el caso en que f es decreciente se demuestra,
análogamente, que
f(t−) = sup f(x).
x∈I,x<t

La segunda parte es consecuencia de la primera, pues si x < y entonces hay un x < r < y y
f(x+) = ı́nf f(u) ≤ f(r) ≤ sup f(v) = f(v−),
r>u>x r<v<y

que concluye el teorema.


( 8.2.10 ) Sea f : I → R una función monótona con I un intervalo abierto. Existe un conjunto contable4 C ⊂ I
tal que si t ∈ {I C entonces f es continua en t.
Sea D el conjunto de discontinuidades de f sobre I. Entonces, D es el conjunto de los x ∈ I tales que
f(x−) < f(x+). Como Q es denso en R, ve la definición (3.1.8), cada conjunto (f(x−), f(x+)) ∩ Q 6= ∅,
en virtud del axioma de elección (2.2.4) existe una función r : D → Q tal que f(x−) < r(x) < f(x+). Se
afirma que r es inyectiva; es efecto, si x1 6= x2 entonces
f(x1 −) < r(x1 ) < f(x1 )+ ≤ f(x2 −) < r(x2 ) < f(x2 +),
luego r(x1 ) 6= r(x2 ) y r es inyectiva. Por lo tanto, en virtud de (2.1.20), card (D) = card (r(D)) ≤ card (Q) =
card (N) , lo cual concluye el teorema.
Zb
( 8.2.11 ) Sea f : [a, b] → R una función monótona. Entonces f(x)dx existe, ve (4.6.2).
a

Se supondrá que f es creciente, sea P = (ti )i=0,...,n una partición de [a, b] y pon
mi = ı́nf f(t) y Mi = sup f(t).
t∈[ti−1 ,ti ] t∈[ti−1 ,ti ]

Por ser f creciente, mi = f(ti−1 ) y Mi = f(ti ). Entonces,


n
X
U(f, P) − L(f, P) = (Mi − mi )(ti − ti−1 ).
i=1

Esto sugiere qué partición escoger; dado ε > 0 sea Pε cualquier partición tal que
ε
máx (ti − ti−1 ) < .
i=1,...,n f(b) − f(a)
Entonces,
n
ε X ε
U(f, Pε ) − L(f, Pε ) ≤ (Mi − mi ) = (Mn − m1 ) = ε,
f(b) − f(a) f(b) − f(a)
i=1
lo cual concluye la demostración.
4 Recuerda que un conjunto C ⊂ R se llama contable si card
(C) ≤ card (N) ; es decir, o es finito o existe una biyección entre
C y N.

278
8.2. Funciones convexas.

( 8.2.12 ) Sea f : (a, b) → R diferenciable. Una condición necesaria y suficiente para que f sea no decreciente es
que f 0 sea no negativa sobre (a, b); una condición necesaria y suficiente para que f sea no creciente es que f 0 sea
no positiva sobre (a, b).
Sea f no decreciente y diferenciable. Entonces para cualquier x ∈ (a, b),
f(x + h) − f(x)
f 0 (x) = lı́m ≥ 0.
h→0,h>0 h
Recíprocamente, si f 0 ≥ 0 sobre (a, b) entonces el teorema del valor medio (5.11.2)5 , f(y) − f(x) ≥ 0 para
todo a < x < y < b. Los casos para no crecimiento y decrecimiento se prueban al considerar −f.
Zb
Según (8.2.6), si f : [a, b] → R es convexa entonces fd y fg existen y son crecientes. Luego, fg0 (x)dx
0 0

a
Zb
e fd0 (x)dx existen, ¿qué relación tienen estas integrales con f? Recuerda que el teorema fundamental
a
del cálculo establece que
Zx
f(x) − f(a) = f 0 (t)dt.
a
El siguiente resultado responde a esta pregunta.

z 8.2.4 Caracterizaciones de funciones convexas en R.


( 8.2.13 ) Una condición necesaria y suficiente para que f : [a, b] → R sea convexa es que exista una función
creciente g : [a, b] → R tal que
Zx
f(x) − f(a) = g(t)dt.
a
De hecho, g puede ser tomada fg0 o bien fd0 .
Este resultado es consecuencia de la demostración de (8.2.6) pues en ella se vio que si P = (ti )i=0,...,n
es una partición de [a, x] entonces
f(ti ) − f(ti−1 )
fg0 (ti−1 ) ≤ fd0 (ti−1 ) ≤ ≤ fg0 (ti ) ≤ fd0 (ti ).
ti − ti−1
Luego, se considera que
n
X
f(x) − f(a) = [f(ti ) − f(ti−1 )],
i=1
asimismo,
f(ti ) − f(ti−1 )
0≤ − fg0 (ti−1 ) ≤ fg0 (ti ) − fg0 (ti−1 ),
ti − ti−1
por lo que, despejando y sumando sobre i se llega a que
n
X
f(ti ) − f(ti−1 ) − fg0 (ti−1 )(ti − ti−1 )
 
0 ≤
i=1
n
X  0
fg (ti ) − fg0 (ti−1 ) (ti − ti−1 ) = U(fg0 , P) − L(fg0 , P).


i=1
5 Se utiliza el teorema poniendo la f del teorema como la curva cero y la función g como la función f del enunciado.

279
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

En virtud de (8.2.11) y de (4.6.2),


n
X
f(ti ) − f(ti−1 ) − fg0 (ti−1 )(ti − ti−1 ) ≤ lı́m U(fg0 , P) − L(fg0 , P) = 0,
   
0 ≤ lı́m
kPk→0 kPk→0
i=1

y como
n
X Zx
lı́m fg0 (ti−1 )(ti − ti−1 ) = fg0 (t)dt,
kPk→0
i=1 a
Zx
se ve que f(x) − f(a) = fg0 (t)dt. El caso para fd0 es análogo. Por lo tanto, se estableció la necesidad de
a
la afirmación.
Se ve ahora la suficiencia. Sean a < x < y < b y µ ∈ [0, 1] entonces pon z = µx + (1 − µ)y,
Zx Zy Zz
µf(x) + (1 − µ)f(y) − f(z) = µ g(t)dt + (1 − µ) g(t)dt − g(t)dt.
a a a

Usando la linealidad de la integral, se concluye que


Zx Zy Zz Zy Zz
µ g(t)dt + (1 − µ) g(t)dt − g(t)dt = (1 − µ) g(t)dt − µ g(t)dt.
a a a z x

Hasta ahora no ha sido usada la hipótesis de que g es creciente, usándola, y la monotonía de la integral,
se concluye que
Zy Zz
µf(x) + (1 − µ)f(y) − f(z) = (1 − µ) g(t)dt − µ g(t)dt
z x
Zy Zz
≥ (1 − µ) g(z)dt − µ g(z)dt
z x
= (1 − µ)(y − z)g(z) − µ(z − x)g(z) = 0.

Luego, f es convexa.
( 8.2.14 ) Sea f : (a, b) → R convexa. Existe un conjunto contable C ⊂ (a, b) tal que f 0 existe sobre {(a,b) C. En
particular, fd0 = fg0 sobre {(a,b) C.
Este es corolario inmediato de la proposición anterior,
Z x de (8.2.6), de (8.2.10) y del teorema funda-
mental del cálculo, el cual establece que si F(x) = f, para x ∈ (a, b) y si f es continua en c ∈ (a, b)
a
entonces F 0 (c) = f(c).
Para fg0 existe Cg ⊂ (a, b) contable tal que sobre {(a,b) Cg fg0 es continua. La proposición anterior
muestra entonces que sobre {(a,b) Cg f 0 (x) existe y vale fg0 (x). Análogamente, existe Cd ⊂ (a, b) contable
tal que sobre {(a,b) Cd f 0 (x) existe y vale fd0 (x). De la uncididad de la derivada fd0 (x) = fg0 (x) para todo
x ∈ {(a,b) Cg ∩ {(a,b) Cd = {(a,b) (Cd ∪ Cg ) y C = Cd ∪ Cg es contable.
Otro corolario directo de (8.2.13) es que si f es diferenciable entonces, que sea convexa equivale a
que su derivada sea creciente.

280
8.2. Funciones convexas.

( 8.2.15 ) Sea f : (a, b) → R diferenciable. Una condición necesaria y suficiente para que f sea convexa es que
f 0 sea creciente sobre (a, b).
Sea c ∈ (a, b) cualquiera. Del teorema fundamental del cálculo, la única g que satisface que para
cualquier x ∈ (a, b) Z x
f(x) − f(c) = g(t)dt,
c
es f 0 . Luego, (8.2.13) muestra el resultado.
( 8.2.16 ) Sea f : (a, b) → R dos veces diferenciable. Para que f sea convexa es encesario y suficiente que
f 00 (x) ≥ 0 para todo x ∈ (a, b).
Pues según (8.2.15) f es convexa si y solo si f 0 es creciente y esto último equivale a que f 00 ≥ 0 según
(8.2.12).
( 8.2.17 ) Sea I ⊂ R un intervalo. Se dirá que f : I → R tiene una recta de soporte en el punto t ∈ I si existe
una función afín, por ejemplo A : I → R dada según A(x) = f(t) + m(x − t), tal que A(x) ≤ f(x) para cada
x ∈ I. A la gráfica de A se le llama línea de soporte para f en t.
( 8.2.18 ) Para que f : I → R sea convexa es necesario y suficiente que para cada t ∈ I exista una línea de
soporte de f en t.
La necesidad es consecuencia directa del lema de las tres cuerdas (8.2.2). Se pone m ∈ [fg0 (t), fd0 (t)]
cualquiera entonces para h > 0
f(t + h) − f(t)
≥ fd0 (t) ≥ m
h
y para h < 0
f(t + h) − f(t)
≤ fg0 (t) ≤ m.
h
En cualquier caso f(t + h) ≥ f(t) + mh = A(t + h), lo cual muestra que A(x) = f(t) + m(x − t) es recta
de soporte y la necesidad de la afirmación queda concluída.
Recíprocamente, sea A una recta de soporte de f en t; sean x, y ∈ I con x < t < y y λ ∈ [0, 1] tal
que t = λx + (1 − λ). Entonces
f(t) = A(t) = λA(x) + (1 − λ)A(y) ≤ λf(x) + (1 − λ)f(y),
que concluye la demostración por la arbitrariedad de x, y y t.
De la demostración previa se concluye que todo m ∈ [fg0 (t), fd0 (t)] genera una recta de soporte
entonces si en t existe una única recta, se obtiene que fg0 (t) = fd0 (t); esto es, si hay una única recta de
soporte en t entonces f es diferenciable en t. El recíproco también es cierto.
( 8.2.19 ) Sea f : [a, b] → R una función convexa. Para que f sea diferenciable en t ∈ (a, b) es necesario y
suficiente que exista una y solo una recta de soporte de f en t.
La suficiencia ya fue demostrada. Para la necesidad se supone que f es diferenciable en t. En efecto,
si A(x) = f(t) + m(x − t) es recta de soporte entonces
f(x) ≥ f(t) + m(x − t),
de donde, para x > t
f(x) − f(t)
m≤
x−t
y para x < t
f(x) − f(t)
m≥ ,
x−t
con hacer t → 0 se ve que m = f 0 (t), por lo que A debe ser A(x) = f(t) + f 0 (x)(x − t). Resta ver que A
es, en efecto, una recta de soporte, pero esto es directo de (8.2.18).

281
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

z 8.2.5 Operaciones que preservan la convexidad en R.


Es trivial verificar que si f y g son convexas entonces f + λg es convexa para cualquier λ ≥ 0. Esto
queda resumido en la siguiente proposición.

( 8.2.20 ) Sean f, g : I → R funciones convexas y λ > 0. Entonces f + λg : I → R es convexa.

¿Cuando la composición de funciones convexas es convexa? Pues si g y f son convexas entonces,


¿qué relación existe entre las dos siguiente expresiones?

g(f(λx + (1 − λ)y))

y
g(λf(x) + (1 − λ)f(y)) ≤ λg(f(x)) + (1 − λ)g(f(y))
donde la última desigualdad es derivada del hecho de ser g convexa. Es natural pedir que g sea creciente.

( 8.2.21 ) Supón que I y J son intervalos en R y que f : I → J y g : J → R son funciones convexas. Entonces es
suficiente que g sea creciente para que g ◦ f sea convexa.

Pues en este caso

g(f(λx + (1 − λ)y)) ≤ g(λf(x) + (1 − λ)f(y)) ≤ λg(f(x)) + (1 − λ)g(f(y)),

que es lo que se quería demostrar.


¿Qué condiciones pedir a f y g para que fg sea convexa? Supón que f y g son funciones convexas
y no negativas. Nota que
 
f(λx + (1 − λ)y)g(λx + (1 − λ)y) ≤ λf(x) + (1 − λ)f(y) λg(x) + (1 − λ)g(y)
= λ(1 − λ)(f(x)g(y) + f(y)g(x))
+ λ 2 f(x)g(x) + (1 − λ)2 f(y)g(y).

Si se pide que f(x)g(y) + f(y)g(x) ≤ f(x)g(x) + f(y)g(y) entonces

f(λx + (1 − λ)y)g(λx + (1 − λ)y) ≤ λf(x)g(x) + (1 − λ)f(y)g(y),

que es la condición de convexidad. Luego, ¿qué condición implica que f(x)g(y) + f(y)g(x) ≤ f(x)g(x) +
f(y)g(y)? Es cuestión de reordenar las expresiones anteriores para notar que esta desigualdad equivale
a
(f(x) − f(y))(g(y) − g(x)) ≤ 0.
Luego, basta pedir, por ejemplo, que f y g sean ambas crecientes o ambas decrecientes.

( 8.2.22 ) Sean f, g : I → R funciones convexas positivas las cuales son crecientes ambas (respectivamente,
decrecientes ambas). Entonces h = fg es también creciente y convexa (respectivamente, decreciente y convexa).

Que h sea convexa se deriva de las cuentas previas, restaría ver que h es creciente, pero esto es
inmediato de que si a < b y c < d son todos número positivos entonces ac < bd.

( 8.2.23 ) Sea (fα )α∈Λ una familia de funciones convexas


ß de un intervalo I™a R. Entonces, si existe un x ∈ I para

el cual sup fα (x) < ∞ entonces, el conjunto J = x ∈ I sup fα (x) < ∞ es un intervalo y f : J → R dada por

α∈Λ α∈Λ
f(x) = sup fα (x) es convexa.
α∈Λ

282
8.2. Funciones convexas.

Recuerda que J ⊂ R es un intervalo si y solamente si satisface la siguiente propiedad,

(∀x, y ∈ J)(x < y)(x < z < y Ñ z ∈ J).

Entonces, sean x, y ∈ J con x < y y toma z entre x y y, existe un λ ∈ (0, 1) tal que z = λx + (1 − λ)y.
Observa que para cada α ∈ Λ, la convexidad de fα implica que fα (z) ≤ λfα (x) + (1 − λ)fα (y), por lo tanto,

f(z) ≤ sup λfα (x) + (1 − λ)fα (y) ≤ λ sup fα (x) + (1 − λ) sup fα (y);
α∈Λ α∈Λ α∈Λ

esto es,
f(λx + (1 − λ)y) ≤ λf(x) + (1 − λ)f(y) < ∞,
donde la última desigualdad es debido a que x, y ∈ J. Esto ha demostrado simultaneamente que J es un
intervalo y que f es convexa sobre J.
¿Qué otras operaciones son clásicas a la hora de trabajar funciones? Está el cociente, el cual, por
su comportamiento con las desigualdades, no es dificil imaginar que no preserve convexidad. Por otro
lado, también están los límites.
( 8.2.24 ) Sea (fn ) una sucesión de funciones de I ⊂ R un intervalo a R la cual satisface que para cada x ∈ I
existe un número f(x) ∈ R tal que f(x) = lı́m fn (x). Entonces, f es convexa sobre I.
n→∞

Esto es consecuencia directa de la definición pues si x, y ∈ I y λ ∈ [0, 1] entonces

f(λx + (1 − λ)y) = lı́m fn (λx + (1 − λ)y)


n→∞
≤ λ lı́m fn (x) + (1 − λ) lı́m fn (y) = λf(x) + (1 − λ)f(y),
n→∞ n→∞

que es la condición para que f sea convexa.

z 8.2.6 Ejemplos de funciones convexas en R.


( 8.2.25 ) Toda función t 7Ï at + b, con a, b ∈ R constantes, es convexa.
Pues si f es tal función, entoces f(λx + (1 − λy) = λf(x) + (1 − λ)f(y).
( 8.2.26 ) La función x 7Ï x 2n de R a R es convexa.
Se utiliza (8.2.16) pues
2n(2n − 1)x 2n−2 ≥ 0
para cualquier x ∈ R.
( 8.2.27 ) La función x 7Ï |x| de R a R es convexa.
Pues
Zx
|x| = sgn (x) dt,
0

donde sgn (x) vale 1 si x > 0, vale −1 si x < 0 y vale 0 si x = 0. Evidentemente x 7Ï sgn (x) es creciente,
luego el resultado es consecuencia de (8.2.13).
( 8.2.28 ) La función x 7Ï ex de R a R es convexa.
Pues esta función es indefinidamente diferenciable, con segunda derivada x 7Ï ex la cual es no
negativa en todo punto x ∈ R. El resultado es consecuencia de (8.2.16).

283
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

1
( 8.2.29 ) La función x 7Ï es convexa sobre (−∞, 0) y sobre (0, ∞).
x2
1
De nuevo, su segunda derivada es 6 ≥ 0 sobre (−∞, 0) y sobre (0, ∞).
x4
1
En este ejemplo se destaca el hecho que resulta imposible extender a la función x 7Ï 2 de manera
x
convexa sobre toda la recta. Si esto fuera posible, tal extensión debería ser continua en el origen, lo
cual es imposible.

( 8.2.30 ) La función x 7Ï − x es convexa sobre (0, ∞).
1
Pues su segunda derivada es √ ≥ 0 para cualquier x ∈ R.
4 x3
( 8.2.31 ) Si p ≥ 1 entonces x 7Ï x p es convexa sobre [0, ∞).

Pues su segunda derivada es p(p − 1)x p−1 ≥ 0 por ser p ≥ 1.


En general, los teoremas expuestos en esta sección permiten determinar con cierta facilidad cuando
una función en R es convexa o no.

z 8.2.7 Funciones convexas en espacios vectoriales.


Se generalizan ahora las propiedades previas a V . Es de interés definir lo que significa que una
función f : A ⊂ V → R sea convexa. Observa que dados u, v ∈ A y λ ∈ [0, 1] se querrá considerar
λu + (1 − λ)v ∈ A, entonces, A debe ser un conjunto covexo.

( 8.2.32 ) Se dirá que una función f : A ⊂ V → R es convexa si A es un conjunto convexo y si para cada par
u, v ∈ A y cada λ ∈ [0, 1] se satisface que

f(λu + (1 − λ)v) ≤ λf(u) + (1 − λ)f(v).

˚
La demostración de que una función convexa I → R es continua sobre ÛI dependía fuertemente
de R y no puede ser generalizada a varias variables. Existen otras demostraciones que sí pueden ser
generalizadas pero al ser ideas menos obvias se decidió no exponerlas hasta este punto. Se necesitan
algunas definiciones previas.
k
X
( 8.2.33 ) Sean v1 , . . . , vk ∈ V y λ1 , . . . , λk ∈ [0, 1]. Se dirá que v = λi vi es combinación lineal convexa de
i=1
n
X
los v1 , . . . , vk si λi = 1.
i=1

( 8.2.34 ) Sea S ⊂ V y CS el conjunto de todas las combinaciones lineales convexas por elementos de S; esto es
k
X n
X
v ∈ CS si existen v1 , . . . , vk ∈ S y λ1 , . . . , λk ∈ [0, 1] tales que v = λ i vi y λi = 1. Entonces CS es un
i=1 i=1
conjunto convexo el cual será llamado la «envolvente convexa» de S.

Es inmediato de la definición, pues si u, v ∈ S entonces


p q
X X
u= λi ui y v= µ j vj
i=1 j=1

284
8.2. Funciones convexas.

p q
X X
en donde cada ui , vj ∈ S y todos los λi , µj ∈ [0, 1] satisfacen que λi = 1 y µj = 1. Luego, para
i=1 j=1
α ∈ [0, 1]
p q
X X
αu + (1 − α)v = αλi ui + (1 − α)µj vj .
i=1 j=1

Nota que αλi , (1 − α)µj ∈ [0, 1] y que


p q
X X
αλi + (1 − α)µj = α + (1 − α) = 1,
i=1 j=1

por lo que λu + (1 − λ)v es suma convexa por elementos de S, es decir está en CS . Esto prueba que CS
es convexo.
n
Y
( 8.2.35 ) Sean [a1 , b1 ], . . . , [an , bn ] ⊂ R intervalos cerrados. La caja generada por ellos R = [ai , bi ] ⊂ Rn
i=1
es la envolvente convexa del conjunto de vértices VR = {(x1 , . . . , xn )|xi ∈ {ai , bi }}.
Se procede por inducción sobre n; el resultado es evidente para n = 1 pues si t ∈ [a1 , b1 ] entonces
b1 − t
se define λ = ∈ [0, 1] y es claro que t = λa1 + (1 − λ)b1 ; recíprocamente, si t es un elemento
b1 − a1
de la envolvente convexa de {a1 , b1 } entonces existe un λ ∈ [0, 1] tal que t = λa1 + (1 − λ)b1 y entonces
t ∈ [a1 , b1 ]; esto es CVR1 = [a1 , b1 ].
Supón que el resultado vale para un n arbitrario y
n+1
Y
(x1 , . . . , xn+1 ) ∈ Rn+1 = [ai , bi ] = Rn × [an+1 , bn+1 ]
i=1

n n
2
X 2
X
entonces existen constantes λ1 , . . . , λ 2n ∈ [0, 1] con λi = 1 y (x1 , . . . , xn ) = λi vi , en donde VRn =
i=1 i=1
{vi : i = 1, . . . , 2n }. Es claro que

VRn+1 = {(vi , an+1 ), (vi , bn+1 )|vi ∈ VRn },

por lo que
n n ! n n !
2
X 2
X 2
X 2
X
λi (vi , an+1 ) = λi vi , an+1 y λi (vi , bn+1 ) = λi vi , bn+1
i=1 i=1 i=1 i=1

pertenecen a la envolvente convexa de VRn+1 . Como xn+1 ∈ [an+1 , bn+1 ] existe un λ ∈ [0, 1] con xn+1 =
λan+1 + (1 − λ)bn+1 . Luego,
2n 2n 2n
! ! !
X X X
λ λi vi , an+1 + (1 − λ) λi vi , bn+1 = λi vi , λan+1 + (1 − λ)bn+1
i=1 i=1 i=1
= (x1 , . . . , xn+1 );

esto es, (x1 , . . . , xn+1 ) pertenece a la envolvente convexa de VRn+1 .


( 8.2.36 ) Sea f : A ⊂ Rn → R una función convexa. Entonces f es continua en el interior de A.

285
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

˚
Sea X ∈ U.Ù Existe un cubo R centrado en X y de lado 2r tal que R ⊂ U, ve el ejercicio (3.10).
Es claro que B (X; r) ⊂ R, luego, según (8.2.35), si V es el conjunto de vértices de R, entoces para
cualquier Y ∈ B (X; r) se cumple que f(Y ) ≤ M, en donde M = máx f(v). En virtud de (3.1.17), para cada
v∈V
Y ∈ B (X; r) la recta que pasa por X y Y interseca a la frontera de B (X; r) en dos puntos de la forma
X + u y X − u con kuk = r.
kY − Xk
Considera λ = y
r
L1 = {X + tu|t ∈ [0, 1]}
y
L2 = {X − tu|t ∈ [0, 1]}.
Es claro que L1 ∪ L2 es el segmento de recta que une a X − u con X + u. Como Y ∈ L1 ∪ L2 se puede
suponer que Y ∈ L1 , luego existe un t ∈ [0, 1] tal que Y = X + tu. De aquí se deriva que t = λ.
λ
Análogamente, si X = t(X − u) + (1 − t)Y para algún t ∈ [0, 1]. Despejando t se encuentra que t = .
1+λ
Entonces
1 λ
Y = (1 − λ)X + λ(X + u) y X = Y+ (X − u).
1+λ 1+λ
Por la convexidad de f se concluye que

f(Y ) ≤ (1 − λ)f(X) + λf(X + u)

y que
1 λ
f(X) ≤ f(Y ) + f(X − u).
1+λ 1+λ
1 λ
Entonces, f(Y ) ≤ (1 − λ)f(X) + λM y f(X) ≤ f(Y ) + M, de la primera desigualdad se concluye
1+λ 1+λ
que
f(Y ) − f(X) ≤ λ(M − f(X))
y de la segunda, multiplicando todo por 1 + λ,

f(X) − f(Y ) ≤ λ(M − f(X)).

Por lo tanto,
M − f(X)
|f(X) − f(Y )| ≤ λ(M − f(X)) = kX − Y k ,
r
M − f(X)
es decir, f es -lipschitziana en B (X; r) , en particular es uniformemente continua ahí. Por la
r
˚
arbitrariedad de X, f es continua en U.Ù

( 8.2.37 ) Sean f : A ⊂ V → R cualquier función y B una base ordenada de V . Supón que [ ]B son las coordenadas
de V relativas a B. Una condición necesaria y suficiente para que f sea convexa es que f ◦ [ ]−1
B sea convexa. En
˚
particular, si f es convexa entonces es continua en A.
Û

Lo segundo es consecuencia de lo primero y de (8.2.36). Que la caracterización es cierta se sigue


inmediatamente de que [ ]−1
B es una función lineal.

( 8.2.38 ) Sea f : A ⊂ V → R, donde A es un conjunto abierto y convexo. Se supone que f es diferenciable. Una
condición necesaria y suficiente para que f sea convexa es que para cada par de vectores u, v ∈ A

f(v) ≥ f(u) + Df (u) (v − u).

286
8.2. Funciones convexas.

Define g(λ) = f(u + λ(v − u). Entonces g es convexa y diferenciable. El lema de las tres cuerdas
muestra que
g(λ) − g(0)
≤ g(1) − g(0) = f(v) − f(u),
λ
g(λ) − g(0)
y cuando λ ↓ 0 se ve que → g 0 (0). Según la regla de la cadena,
λ

g 0 (λ) = Df (u + λ(v − u)) (v − u).

Esto muestra la necesidad de la afirmación.


Ahora se verá la suficiencia. Sean u, v ∈ A y λ ∈ [0, 1]. Se pone w = λu + (1 − λ)v. Entonces

λ(u − w) + (1 − λ)(v − w) = λu + (1 − λ)v − w = 0,

así que
f(w) = f(w) + Df (w) (λ(u − w) + (1 − λ)(v − w)),
pero por hipótesis Df (w) (u − w) ≤ f(u) y Df (w) (v − w) ≤ f(v), usando esto en la igualdad anterior se
encuetra que
f(w) ≤ λf(u) + (1 − λ)f(v)
y f es convexa.

Observacion: corolario directo de esta propiedad es una condición suficiente de primer orden para
minimización global. Esta es la siguiente. Si f es convexa y diferenciable y si existe un v en su dominio
tal que Df (v) = 0 entonces f posee un mínimo global en v.

( 8.2.39 ) Sea f : A → R una función dos veces diferenciable con continuidad sobre el conjunto abierto y convexo
A. Una condición necesaria y suficiente para que f sea convexa es que D2 f (v) esté definida semipositivamente
para cada v ∈ A.

La suficiencia es inmediata de (8.2.38), según el teorema de Taylor (7.6.10) se cumple que

1
f(v) = f(u) + Df (u) (v − u) + D2 f (u + λ(v − u)) (v − u, v − u),
2
en donde λ ∈ [0, 1], por lo que al estar la segunda derivada definida semipositivamente se concluye que

f(v) ≥ f(u) + Df (u) (v − u),

para cualesquier u, v ∈ A; es decir, f es convexa sobre A.


Se verá ahora la necesidad. Sea f convexa y u ∈ A. Define para h ∈ V cualquiera la función
g(λ) = f(u + λh). Entoces g está definida y es convexa sobre un intervalo de la forma (−r, r). Entonces,
según el ejercicio (6.19) y (8.2.16) se sigue que g 00 (λ) ≥ 0 para todo λ ∈ (−r, r). Ahora bien, según la
regla de la cadena
g 00 (λ) = D2 f (u + λh) (h, h),
con hacer λ = 0 se obtiene que
D2 f (u) (h, h) ≥ 0
para cualesquier u ∈ A y h ∈ V , que era lo que se quería demostrar.

287
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Observación: las condiciones de segundo orden, tanto necesarias y suficientes, dicen que para que
una función posea un mínimo en un punto es necesario y suficiente que la función se comporte como
una función convexa. Una motivación a posteriori6 para estudiar funciones convexas.

z 8.2.8 Ejemplos de funciones convexas en Rn .


( 8.2.40 ) Cada función T : Rn → R afín es convexa.

Pues T(λX + (1 − λ)Y ) = λTX + (1 − λ)TY .

( 8.2.41 ) (x, y) 7Ï − log x − log y es convexa sobre (0, ∞)2 .

Pues si f es la función dada entonces f es dos veces diferenciable y su segunda derivada en (x, y) es

hs kt
D2 f (x, y) ((h, k), (s, t)) = + 2,
x2 y

y al hacer h = s, k = t se ve que D2 f (x, y) ((h, k), (h, k)) ≥ 0 y según (8.2.39) f es convexa.

( 8.2.42 ) La función X 7Ï kXk2 de Rn a R es convexa.


n
X
Esta función puede escribirse como f(x1 , . . . , xn ) = xi2 y su segunda derivada es
i=1
 
2 0 ... 0
 0 2 ... 0 
D2 f (x1 , . . . , xn ) =  ,
 
.. .. .. ..
 . . . . 
0 0 ... 2

la cual define una forma cuadrática definida positivamente. El resto es consecuencia de (8.2.39).
n
X
( 8.2.43 ) (x1 , . . . , xn ) 7Ï ai |xi + bi |p , en donde ai ≥ 0, bi ∈ R y p ≥ 1, es una función convexa sobre Rn .
i=1

En virtud del ejercicio (8.14) basta demostrar que cada función (x1 , . . . , xn ) 7Ï |xi + bi |p es convexa.
El ejemplo (8.2.31) muestra que basta ver que (x1 , . . . , xn ) 7Ï |xi + bi | es convexa. Pero

|λxi + (1 − λ)yi + bi | = |λ(x + bi ) + (1 − λ)(yi + bi )| ≤ λ|xi + bi | + (1 − λ)|yi − bi |,

que muestra la convexidad.

§ 8.3. Ejemplos de optimización libre.


Aunque no existe un algoritmo general para determinar los puntos óptimos de una función siempre
se puede proceder como sigue:

1. Si el problema está planteado implícitamente, asegurarse que la función que plantees para op-
timizarla describa correctamente el problema. Encontrar el dominio de la función. A veces es
necesario cerrar el dominio para que este devenga en un conjunto compacto.
6 Es decir, ya una vez estudiada la teoría, es una razón para estudiarla de nuevo.

288
8.3. Ejemplos de optimización libre.

2. Verificar que la función sea de clase Ck en el interior del dominio para algún k ∈ N conveniente.

3. Verificar si el dominio es compacto para asegurar la existencia de los óptimos. En caso contrario
habrán que utilizarse heurísticas para asegurar que fueron encontrados todos los puntos óptimos.

4. Si la función es diferenciable, encontrar los puntos críticos. Observa que este punto solo permitirá
encontrar puntos óptimos en el interior del dominio de f. La fronterá tendrá que ser analizada
más a detalle.

5. Si la función es dos veces diferenciable, usar las condiciones de segundo orden cuando apliquen y
sea conveniente; a veces es más fácil evitar calcular la segunda derivada y utilizar un argumento
de exitencia y unicidad. En este punto conviene verificar si la función es convexa.

( 8.3.1 ) Dado un pedazo de cartón cuya área es S > 0, si se puede utilizar todo sin que exista desperdicio, ¿cuál
es la caja con tapa de volumen máximo que se puede formar?

Siguiendo las sugerencias iniciales se empieza encontrando la función a maximizar. Sean x, y, z las
dimensiones de la caja entonces su volumen es V (x, y, z) = xyz. El dominio de V es, de acuerdo a
las condiciones iniciales, {(x, y, z) ∈ [0, ∞)3 |2(xy + yz + zx) = S}. Este problema no corresponde a la
optimización libre pues las variables están relacionadas entre sí; sin embargo, se puede despejar alguna
S
de ellas. Por ejemplo z, quedando que, z(x + y) = − xy. Con considerar el caso cuando x + y = 0 se
2
ve que la función a maximizar es

 xy(S − 2xy) S
si 0 ≤ x, y, (x, y) 6= (0, 0) y xy ≤ ;
V (x, y) = 2(x + y) 2
0 si (x, y) = (0, 0).

Se verificarán ahora algunas propieades sobre V .

( 8.3.1.1 ) Dom (V ) es un subconjunto cerrado y no acotado de R2 .

Se verá primero que Dom (V ) es cerrado. Sean


ß ™
2
S
D1 = (x, y) ∈ R 0 < x, y y xy <
2
y
ß ™
2
S
D2 = (x, y) ∈ R xy = 0 o xy = ,
2
entonces Dom (V ) = D1 ∪ D2 y, de hecho, D2 = ∂D1 , así Dom (V ) = D1 , ve la definición (3.2.7). Para
verificar esto basta ver que para cada (x, y) ∈ D2 existe una sucesión (xn , yn ) ∈ D1 tal que (xn , yn ) →
(x, y). Sea pues (x, y) ∈ D2 , hay dos casos a considerar.

1. El primero es que xy = 0 entonces puede suceder que x = 0, y 6= 0, o bien x 6= 0, y = 0 o


S
bien x = y = 0. Si x = 0, y 6= 0 entonces define la sucesión xn = y yn = y entonces
2yn
S S
xn yn = < y como xn , yn > 0 se ve que (xn , yn ) ∈ D1 . Claramente (xn , yn ) → (x, y). Si
2n 2 …
S S
x 6= 0, y = 0, define xn = x y yn = . Si (x, y) = (0, 0), define xn = yn = entonces
2xn 2n
(xn , yn ) ∈ D1 y (xn , yn ) → (0, 0).

289
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

S
2. El segundo caso es cuando xy = entonces tanto x como y son no nulas. Para este caso define
2
Ç å
x y
(xn , yn ) = , ,
1 + n1 1 + n1
entonces (xn , yn ) ∈ D1 y (xn , yn ) → (x, y).
Por lo tanto ∂D1 = D2 . Ver que Dom (V ) no es acotado es sencillo, como todos los puntos x ≥ 0, y ≥ 0
S S
con xy = están en Dom (V ) se ve que para cualquier n ∈ N si se pone xn = n y yn = entonces
2 2n
(xn , yn ) ∈ Dom (V ) y como n = |xn | ≤ k(xn , yn )k → ∞ mostrando que Dom (V ) no es acotado.
( 8.3.1.2 ) V es un función continua sobre su dominio y diferencible sobre D1 .
Que V sea diferenciable sobre D1 se deduce del hecho que es cociente de dos funciones diferen-
ciables en donde el denominador no se anula en ningún punto de D1 . Es claro que V es continua en
donde su denominador no se anula, pero como x ≥ 0 y y ≥ 0, el único punto donde el denominador
de V se anula es el origen, de aquí que basta ver que
lı́m V (x, y) = 0.
(x,y)→(0,0)

Nota que si (x, y) 6= (0, 0) entonces


xy(S − 2xy) (x + y)2 (S − 2xy) (x + y)(S − 2xy)
0 ≤ V (x, y) = ≤ ≤ ,
2(x + y) 2(x + y) 2
el cual tiende a cero cuando (x, y) → (0, 0) y así, V es continua sobre su dominio.
( 8.3.1.3 ) No existe ningún maximizador de V sobre D2 .

Esto es muy claro geométricamente, pues V = 0 y si (x, y) ∈ D1 entonces V (x, y) > 0, como

D2
∂D1 = D2 se sigue que para cada (x, y) ∈ D2 existen punto arbitrariamente cercanos a (x, y), los cuales
están sobre D1 y así V no puede tener ningún maximizador sobre D2 .
( 8.3.1.4 ) Todos los puntos de D2 son minimizadores estrictos de V .

Como ya se mencionó V = 0 y V > 0 por lo que los puntos de D2 son minimizadores de V .

D2 D1

( 8.3.1.5 ) Existe un único punto crítico de V .


La derivada de V es
Ç å
Sy 2 − 4xy 3 − 2x 2 y 2 Sx 2 − 4x 3 y − 2x 2 y 2
DV (x, y) = , .
2(x + y)2 2(x + y)2
Como (x, y) ∈ D1 se cumple que x > 0 y y > 0, por lo que
DV (x, y) = (0, 0) ⇔ (S − 2x 2 − 4xy, S − 2y 2 − 4xy) = (0, 0).
De este sistema se deriva que 2x 2 = 2y 2 , es decir, x 2 = y 2 y como x > 0 y y > 0 debe ser que x = y.
Luego, la solución al sistema es x = y y x satisface la ecuación

2 S
S − 6x = 0 ⇔ x = .
6

S
Observa que de aquí se deriva que z = , es decir, el punto crítico corresponde al cubo que se puede
6
∗ ∗
formar. Se denotará por (x , y ) a este punto crítico.

290
8.3. Ejemplos de optimización libre.

( 8.3.1.6 ) El punto crítico es máximo local de V .

Primeramente se recuerda que si un punto es maximo local de V entonces cae en D1 . Considera


n0 = 2 k(x ∗ , y ∗ )k , y considera las cajas cerradas Cn = [0, n] × [0, n] para n ≥ n0 . Se sabe que Bn =
Dom (V ) ∩ Cn es cerrado y acotado (3.2.5), por lo que es compacto (3.4.10). Luego, existe al menos un
maximizador de V sobre cada Bn (ve (8.1.14)). Se deducen dos casos: que el maximizador pertenezca
˚
a Bın o que a ∂Bn . Se mostrará que el segundo caso es imposible. Entonces se supone ï que hay
ò un
S
maximizador (pn , qn ) de V sobre ∂Bn . Tal maximizador debe satisfacer que pn = n y qn ∈ 0, o que
ï ò 2n
S
qn = n y pn ∈ 0, . Por la simetría de la función, basta ver el primer subcaso. Entonces pn = n, de
2n
ny(S − 2ny)
lo cual se deduce que la función toma la forma y 7Ï . Observa que, al ser y ≥ 0,
2(n + y)

ny(S − 2ny) 1
≤ y(S − 2ny) = h(y).
2(n + y) 2

1 S
Se maximiza ahora h. Entonces, h0 (y) = S − 2ny, por lo que h0 (y) = 0 ⇔ y = . Este punto
2 4n
es máximo sobre el intervalo en cuestión; la función h se anula en los extremos y es positiva en el
interior, al ser que el maximo existe (pues el intervalo es compacto), el maximo es interior, por lo que
la derivada de h se anula en el punto máximo, pero solo hay un punto donde la derivada se anula.
S2
Luego, tras un cálculo elemental, h(y) ≤ . Tomando n suficientemente grande se puede ver que
16n
2
S
V (pn , qn ) ≤ < V (x ∗ , y ∗ ), lo cual deviene en una contradicción. Por lo tanto, (x ∗ , y ∗ ) es máximo de
16n
V . De hecho, se demostró que (x ∗ , y ∗ ) es máximo global de V .

( 8.3.1.7 ) El maximizador global de V es estricto.

Si no fuera así existiría algún punto (x 0 , y 0 ) 6= (x ∗ , y ∗ ) para el cual V (x 0 , y 0 ) = V (x ∗ , y ∗ ). Como los


puntos sobre D2 son minimizadores estrictos se cumple que (x 0 , y 0 ) ∈ D1 y así DV (x 0 , y 0 ) = (0, 0) lo cual
muestra que (x 0 , y 0 ) = (x ∗ , y ∗ ), lo cual es una contradicción.

S
Finalmente, se puede concluir que el cubo de lados es la caja con tapa más grande que se puede
6
formar.

Observaciones:

1. Se siguió, a modo general, lo presentado al inicio de la sección. Se definió la función a maximizar,


aquí, por las condiciones del problema, se pudieron hacer algunas reducciones, quedando al final
una función de dos variables.

2. Es destacable que para haber resuelto “más correctamente” el ejercicio debió haberse planteado
la función como V (x, y, z) = xyz con dominio {(x, y, z) ∈ R3 |x, y, z ≥ 0 y 2(xy + yz + xz) ≤ S},
y este sería un problema de maximización libre. Sin embargo, si el óptimo no utilizara todo el
material, es decir, si hay un punto (x, y, z) óptimo tal que 2(xy + xz + yz) < S entonces se puede
encontrar un ε > 0 tal que 2([x +ε]y +[x +ε]z +yz) ≤ S y (x +ε)yz > xyz. Es decir, a veces es fácil
derivar que el óptimo de una función en n variables se encuentra en su frontera, en la cual hay
una relación de dependencia de las variables. Esto suele llevar a que una de las variables puede
ser despejada, dejando un problema de optimización de n variables a otro de n − 1 variables.

291
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

3. Aunque era claro que V no podía tener máximo cuando xy = 0 se decidió definir a V sobre un
conjunto cerrado. Esto se hizo pues había una motivación de fondo, que puede resultar un poco
opaca a primera vista: todo conjunto cerrado es la unión de una familia creciente y enumerable
de subconjuntos compactos de él; la demostración de esto es sencilla pues si C es cerrado y Bn
es la bola cerrada de centro el origen y radio n ∈ N entonces (C ∩ Bn )n∈N es la familia deseada
(queda a título de ejercicio verificar esto). Luego, con tener esto presente y (8.1.14) se observa
que se puede maximizar a la función en cada uno de los miembros de la familia y así obtener
una sucesión de máximos. Si estos máximos, como ocurrió, son uno solo entonces se obtiene un
máximo global.

4. Es destacable que se pudo haber calculado la segunda derivada de V en (x1 , y1 ) pero DV (x, y) ya
tenía una expresión realmente complicada como para calcular la segunda derivada.

( 8.3.2 ) Dado un número A > 0, ¿cuál es la manera óptima de dividirlo en 3 cantidades a, b, c ≥ 0 tales que
a + b + c = A y abc sea máximo?

La función a maximizar es f(a, b, c) = abc, pero las variables no son independientes. Sin embargo,
por las condiciones iniciales, se puede despejar c entonces, la función a maximizar es f(a, b) = ab(A −
a − b). El dominio de esta función es {(a, b) ∈ R2 |a, b ≥ 0 y 0 ≤ a + b ≤ A}, ahora, si a + b = 0 o
a + b = A entonces f(a, b) = 0, como hay puntos donde f > 0, si el máximo existe entonces el máximo
es un punto interior; que el máximo efectivamente existe se deriva de (8.1.14). Como f es de clase C2
aplican las condiciones de primer orden. El máximo de f debe satisfacer que Df (a, b) = (0, 0), pero

Df (a, b) = (Ab − 2ab − b2 , Aa − a2 − 2ab),

como (a, b) es un punto interior, tanto a como b no son cero, por lo que Df (a, b) = (0, 0) si y solo si
A − 2a − b = 0 y A − a − 2b = 0, restando una ecuación de la otra se obtiene queÅa = b ãy sustituyendo
A A A
esto en cualquiera se concluye que a = b = . Luego, el candidato a máximo es , . Que este es
3 3 3
un punto maximizador se deriva del hecho que el maximo existe y debe ser un punto interior. Luego,
A3
el punto encontrado es maximizador. El valor máximo que puede alcanzar f es .
27

Observación: este es un problema de optimización clásico. Se siguió el método o algoritmo estándar.


No hay ideas oscuras de por medio.

C
( 8.3.3 ) Supón que la función T : R → R dada por T(x, y) = indica la temperatura del punto
x2 + y4 + 1
(x, y) en el plano, ¿en qué punto la temperatura es mínima? ¿Y máxima?

En este caso tanto la función como el dominio están dados, al ser la función de clase C∞ se pueden
utilizar las condiciones de primer y segundo orden. Se empieza encontrando los puntos críticos. Se
tiene que
Ç å
2Cx 4Cy 3
DT (x, y) = − 2 ,− 2 ,
(x + y 4 + 1)2 (x + y 4 + 1)2

por lo que el único punto donde la derivada se anula es el origen. En este punto la función vale C y
como x 2 + y 4 > 0 para (x, y) 6= 0 se ve que si (x, y) 6= (0, 0) entonces T(x, y) < C, por lo que C es un
punto máximo global estricto. No hay puntos mínimos pues por ser todos los puntos interiores el único
candidato a óptimo era el origen.

292
8.3. Ejemplos de optimización libre.

Observación: aunque se podían utilizar las condiciones de segundo orden, resultaba demasiado difícil
calcular la segunda derivada. En muchas ocasiones una inspección a la función deriva en que los puntos
encontrados son extremos.

( 8.3.4 ) Considera un plano no degenerado P = {X · A = λ} ⊂ R3 . Entonces existe un único X ∗ ∈ P tal que


kX ∗ k es el valor más pequeño de kXk para X ∈ P.

Aquí la función a minimizar es f(X) = kXk y su dominio es P. Sin embargo, las variables en P están
relacionadas por la ecuación X · A = λ por lo que no son variables independientes entre sí (hay una
relación funcional entre ellas). Sin embargo, se puede mejorar esto, se supone que A = (a, b, c), como
P es un plano no degenerado A 6= 0, por lo que, por ejemplo c 6= 0 entonces, se puede suponer que
c = 1. Entonces, si X = (x, y, z) ∈ P, se ve que z = λ − ax − by. Luego, la función a minimizar es

f(x, y) = k(x, y, λ − ax − by)k , (x, y) ∈ R2 .

Es claro que f no es de clase C2 , para arreglar esto se considera la función t 7Ï t 2 la cual es creciente
sobre [0, ∞), como f(x, y) ≥ 0 se ve que (x, y) es un mínimo de f si y solo si es mínimo de f(x, y)2 .
Luego, se puede considerar que la función a minimizar es

(x, y) 7Ï x 2 + y 2 + (λ − ax − by)2

Sea f esta función entonces

Df (x, y) = (2x + 2a(ax + by − λ), 2y + 2b(ax + by − λ))

Se resuelve ahora el sistema Df (x, y) = (0, 0). Escribiéndolo en forma matricial, se debe ver si la matriz

1 + a2
ï ò
ab
M=
ab 1 + b2

es invertible, pero det M = 1 + a2 + b2 > 0, por lo que el sistema Df (x, y) = (0, 0) tiene una única
solución. Sea (x ∗ , y ∗ ) dicha solución, se probará ahora que esta solución es minimizador estricto y
global de f. Se calcula la segunda derivada de f en el punto (x, y) arbitrario. Se obtiene que

1 + a2
ï ò
ab
D2 f (x, y) = 2 ,
ab 1 + b2

por lo tanto,

D2 f (x, y) ((h, k), (h, k)) = 2 (1 + a2 )h2 + 2abhk + (1 + b2 )k2 = 2(h2 + k2 ) + 2(ah + bk)2 > 0
 

siempre que (h, k) 6= 0. Luego, en virtud de las condiciones suficientes de segundo orden (8.1.20) se
deriva que (x ∗ , y ∗ ) es un mínimo relativo estricto de f.
Para ver que X ∗ = (x ∗ , y ∗ ) es mínimo global se observa que si Bn = {X ∈ R2 | kXk ≤ n} entonces
Bn es compacto y que Bn ⊂ Bn+1 . Además, para todo n ∈ N grande se cumple que X ∗ ∈ Bn . Se afirma
que X ∗ es el mínimo absoluto de f sobre Bn . En virtud de (8.1.14) existe un punto Xn ∈ Bn tal que
f(Xn ) ≤ f(X) para todo X ∈ Bn . Ahora bien, si X ∗ ∈ Bn entonces kX ∗ k ≤ n < n + 1, por lo que X ∗ es
interior a Bn+1 , luego f alcanza su mínimo en el interior de Bn+1 . Según (8.1.10) el único candidato a
ser mínimo de f es X ∗ y como tal mínimo existe X ∗ es el mínimo de f sobre Bn+1 . Luego, para todo n
grande, X ∗ es el mínimo de f sobre Bn .
Se verá ahora que X ∗ es el mínimo global de f. Sea entonces X ∈ Rn cualquiera entonces X, X ∗ ∈ Bn
para algún n suficientemente grande, de aquí que f(X ∗ ) ≤ f(X), que es lo que se quería demostrar.

293
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Observación: al igual que con un ejemplo previo aquí se utilizó el método de dividir el dominio, el
cual es cerrado, como una sucesión creciente de conjuntos compactos; por existencia y unicidad del
máximo se deriva que el único máximo es global.
( 8.3.5 ) Calcular el volumen del paralelepípedo recto, cuyas caras son paralelas a los planos coordenados, de
mayor volumen que se pueda inscribir en el elipsoide
® 2 ´
3 x y2 z2
E = (x, y, z) ∈ [0, ∞) 2 + 2 + 2 = 1 .

a b c

Es intuitivamente claro que paralelepípedo debe tener los ocho vértices sobre el elipsoide7 . Por
ser las caras paralelas, se tiene que los ocho vértices tienen coordenadas (±x, ±y, ±z). Luego, basta
considerar el caso x ≥ 0, y ≥ 0 y z ≥ 0. Entonces, se debe maximizar la función
V (x, y, z) = 8xyz
® 2 ´
3 x
y2 z2
sobre el conjunto (x, y, z) ∈ [0, ∞) 2 + 2 + 2 = 1 . Con notar que z ≥ 0 sobre este conjunto se
a b c
puede ver que es despejable de la ecuación definitoria, obteniendo que
 
x2 y2
z = c 1− 2 − 2.
a b
Luego, la función a maximizar es
 
x2 y2
V (x, y, z) = 8cxy 1− −
a2 b2
® ´
x2 y2

2
sobre el conjunto (x, y) ∈ R x ≥ 0, y ≥ 0 y 2 + 2 ≤ 1 . Como se observó en un ejemplo previo,
a b
V2
V no es diferenciable en todos los puntos, por lo que conviene mejor maximizar . Por lo tanto, la
64c2
función a maximizar es
Ç å
x2 y2 x4y2 x2y4
V (x, y) = x 2 y 2 1 − 2 − 2 = x 2 y 2 − 2
− 2
a b a b
® ´
x2 y2


sobre el conjunto (x, y) ∈ R2 x ≥ 0, y ≥ 0 y 2 + 2 ≤ 1 .
a b
( 8.3.5.1 ) El dominio de V es un conjunto compacto.
Es claro que Dom (V ) está contenido en el conjunto
® 2 ´
2 x
y2
E = (x, y) ∈ R 2 + 2 ≤ 1
a b

que es imagen de la bola unitaria cerrada por la función T(x, y) = (ax, by), ve el ejercicio (2.5). Como
T es invertible, T −1 existe y es lineal (ejercicio (1.23)), por lo que es continua. En consecuencia
E = T(B0 (0; 1)) = (T −1 )−1 (B0 (0; 1))
7 Si un paralelepípedo maximizador satisface que no todos sus ocho vértices están sobre el elipsoide, entoces existiría al menos
uno que no estaría sobre el elipsoide y así, todas las coordenadas de dicho vértice pueden incrementarse en una cantidad pequeña
y positiva, esto muestra que el volumen crecería estricamente y el paralelepípedo no sería maximizador

294
8.3. Ejemplos de optimización libre.

es la preimagen por T −1 de B0 (0; 1) , en virtud del


Å ejercicio
ß (5.34) se
™ãconcluye que E es cerrado. Que E es
1 1
acotado se obtiene directamente de que E ⊂ B 0; 2 máx , . Finalmente, Dom (V ) = [0, ∞)2 ∩ E,
a2 b2
es la intersección de un conjunto cerrado con un conjunto cerrado y acotado, en consecuencia Dom (V )
es cerrado y acotado, o sea, es compacto.

( 8.3.5.2 ) Cada punto en ∂Dom (V ) es un minimizador estricto de V .



Pues V = 0 y V > 0 en el interior de su dominio.

∂Dom(V )

( 8.3.5.3 ) Existe un único punto crítico de V .

La derivada de V es
Å ã
4 2 4 2
DV (x, y) = 2xy 2 − 2 x 3 y 2 − 2 xy 3 , 2x 2 y − 2 x 2 y 3 − 2 x 3 y ,
a b b a

entonces Ç å
2x 2 y2 x2 2y 2
DV (x, y) = (0, 0) ⇔ + 2 − 1, 2 + 2 − 1 = (0, 0).
a2 b a b

x2 y2 ˚
De estas ecuaciones se deriva que 2 = 2 y, como x > 0 y y > 0 (recuerda que (x, y) ∈ Dom ¸ (V )) se
a b
a a
deriva finalmente que x = y. Sustituyendo esto en cualquiera de las ecuaciones se llega a que x = √
b 3
b c x2 y2 2
y que y = √ ; con estos valores se obtiene que z = √ . Como x > 0, y > 0 y 2 + 2 = < 1 se ve
3 3 a b 3
˚
que (x, y) ∈ Dom
¸ (V ) , luego (x, y) es el único punto crítico de V .

( 8.3.5.4 ) El punto crítico de V es máximo global estricto de V .

Como el máximo global de V existe y tiene que ser un punto interior en donde se satisfacen las
condiciones de primer orden, se tiene que el punto crítico es máximo global. Que el máximo es estricto
se deriva del hecho que si otro punto fuera máximo entonces tendría que ser interior y se tendrían que
satisfacer las condiciones de primer orden.

Observación: como el dominio de V ya era un conjunto compacto puede aplicarse directamente un


argumento de existencia y unicidad; si el máximo existe y está en el interior y en el interior hay un
único punto crítico entonces tal punto crítico es el máximo buscado.

( 8.3.6 ) Sean A1 , . . . , Ak ∈ Rn vectores linealmente independientes, con k < n, y A ∈ Rn cualquiera, define el


plano
( k )
X
k
P= xi Ai + A (x1 , . . . , xk ) ∈ R .

i=1

¿Existe algún punto P cuya distancia al origen sea mínima? Describir tal punto en términos de los vectores
A1 , . . . , Ak y A.

Observa que P es el espacio vectorial generado por {A1 , . . . , Ak } trasladado al punto A. Entonces, se
puede cambiar la base afín de P por otra más conveniente. Aquí, con conveniente se hace referencia

295
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

a una base ortogonal. Entonces, define

B1 = A1
hA2 , B1 i
B2 = A2 − B1
hB1 , B1 i
.. .. ..
. . .
hAk , B1 i hAk , Bk−1 i
Bk = Ak − B1 − . . . − Bk−1 ;
hB1 , B1 i hBk−1 , Bk−1 i

( 8.3.6.1 ) El conjunto {B1 , . . . , Bk } es base ortogonal del espacio generado por {A1 , . . . , Ak }.
En efecto, se probará que los vectores {B1 , . . . , Bk } son ortogonales y no nulos, luego, según (1.4.7) los
k vectores {B1 , . . . , Bk } serán linealmente independientes, con lo cual constituirán una base del espacio
generado por {A1 , . . . , Ak }. Se mostrará primeramente que Bi+1 es ortogonal a B1 , . . . , Bi . Entonces, se
procede por inducción, el caso i = 1 es muy sencillo pues
≠ ∑
hA2 , A1 i hA2 , A1 i
hB2 , B1 i = A2 − B1 , B1 = hA2 , B1 i − hB1 , B1 i = 0
hA1 , B1 i hA1 , B1 i
ya que B1 = A1 .
Se supone ahora que Bi+1 es ortogonal a B1 , . . . , Bi entonces, para j = 1, . . . , i + 1,

hBi+2 , Bj i = hAi+2 − c1 B1 − . . . − ci+1 Bi+1 , Bj i = hAi+2 , Bj i − cj hBj , Bj i

hAi+2 , Bj i
y cj = . Con lo cual Bi+2 es ortogonal a Bj para j = 1, . . . , i + 1. Luego, se ha demostrado que
hBj , Bj i
cada Bi es ortogonal a los anteriores, por lo tanto, B1 , . . . , Bk son ortogonales entre sí.
Observa que P = lin h{B1 , . . . , Bk }i + A, el espacio generado por los vectores B1 , . . . , Bk trasladado
al punto A. Define la función F : Rk → Rn dada por
k
X
F(x1 , . . . , xk ) = x i Bi + A
i=1

n
X ∂F ∂r
y la función r : Rn → R dada por r(y1 , . . . , yn ) = yj2 . Entonces = Bi y = 2yj . Nota que la
∂xi ∂yj
j=1
función a minimizar es r(F(x1 , . . . , xk )). En virtud de las condiciones necesarias de primer orden (8.1.10)
y de la regla de la cadena, debe cumplirse que para un óptimo (x1 , . . . , xk ),
n
∂r X ∂r ∂F
0= = = 2 hF(x1 , . . . , xk ), Bi i .
∂xi ∂yj ∂xi
j=1

Es decir, un punto X es óptimo solo si


∞ ∫
k
X
0 = hF(x1 , . . . , xk ), Bi i = xj Bj + A, Bi = xi hBi , Bi i + hA, Bi i .
j=1

Por lo tanto, el único punto crítico de la función es


Å ã
hA, B1 i hA, Bk i
X=− ,..., .
hB1 , B1 i hBk , Bk i

296
8.4. Optimización restringida.

Se calculan ahora las parciales de segundo orden de F. Primeramente, se encontró que

∂r
= 2xi hBi , Bi i + 2 hA, Bi i .
∂xi

∂2 r ∂2 r
Por lo tanto, = 0 para i 6= j y = 2 hBi , Bi i . Luego, la matriz hessiana de la función a
∂xi ∂xj ∂xi2
maximizar es una matriz diagonal cuyas entradas son 2 hBi , Bi i = 2 kBi k2 > 0 por ser ninguno de los
Bi nulos. Luego, esta forma cuadrática está definida positivamente y el punto en cuestión es mínimo
(8.1.20).

§ 8.4. Optimización restringida.


Hasta ahora ha sido considerado el problema llamado optimización libre. La optimización restringida
surge de manera natural, por ejemplo, al considerar el siguiente problema: dada una superficie S
encontrar el punto en ella que está más cerca al origen. Esto puede ser planteado naturalmente como
sigue
arg máx kPk s.a. P ∈ S.
Ahora es común que S pueda ser escrito como S = {v ∈ V |f(v) = λ} para algunas f : V → W y λ ∈ W .
Entonces las variables están relacionadas ímplicitamente a través de la función f.
Otro ejemplo natural es el siguiente: dado un conjunto factible de pares de bienes, se desea
maximizar la producción de cierto artículo que necesita de estos dos bienes; se sabe que por cada
unidad del primer bien se necesitan dos unidades del segundo bien. ¿Cuál es la cantidad óptima
de cada bien para maximizar la producción del artículo? Esto puede ser planteado como

arg máx f(x, y) s.a. y = 2x, (x, y) ∈ A.

Observa que aquí existe una relación explícita entre x y y.


En resumen, se puede dividir la optimización restringida en dos casos: cuando las variables están re-
lacionadas implícitamente y cuando están relacionadas explícitamente. Se plantean ahora los problemas
que han sido establecidos con ejemplos.

El problema de optimización restringida implícitamente: dadas F : A ⊂ V → W , S = F −1 ({0}) y


f : S → R, resolver el problema
arg máx f(v) s.a. v ∈ S.

El problema de optimización restringida explícitamente: dadas f : A ⊂ V1 × V2 → R, g : A1 ⊂ V1 →


A2 ⊂ V2 tales que A1 × A2 ⊂ A resolver el problema

arg máx f(v, g(v)) s.a. v ∈ A1 .

Observaciones:

1. El problema de optimización restringida explícitamente es un tipo de optimización libre. En efec-


to, si defines F(v) = f(v, g(v)) para v ∈ A1 entonces el problema de optimización restringida
explícitamente se reduce a
arg máx F(v) s.a. v ∈ VA1 .

297
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

2. En consecuencia, lo que se va a buscar son condiciones suficientes para que el problema de


optimización restringida implícitamente se reduzca al problema de optimización restringida ex-
plícitamente. Sin más preámbulo, se empieza el camino hacia dos de los máximos logros en el
cálculo, los teoremas de la función implícita e inversa. Se necesitan varios resultados y definiciones
previas.

z 8.4.1 Homeomorfismos, difeomorfismos y diferenciabilidad fuerte.


La√función t 7Ï t 3 es diferenciable en cada punto de R, además es invertible, sin embargo, si inversa
t 7Ï 3 t no es diferenciable en el origen. Con ver (5.10.2) se obtiene el por qué la inversa no es
diferenciable. La derivada de t 7Ï t 3 en el origen es cero, por lo que no es invertible.
Esto todavía no es satisfactorío. ¿Qué significa que una función invertible y diferenciable no satisfaga
que su inversa sea diferenciable? En este ejemplo, se ve la geometría de la función inversa, la derivada
√ 1
de t 7Ï 3 t es √ 3
la cual tiende a ∞ cuando t → 0. Entonces, la deformación que ejerce t 7Ï t 3 cerca
3 t2
del cero explosiona; es decir, deja de ser suave.
( 8.4.1 ) Sean A ⊂ V y B ⊂ W dos abiertos, y f : A → B una función. Se dirá que f es un homeomorfismo8 si f
es biyectiva, continua y f −1 es continua también. También se utiliza el término de función bicontinua. Al conjunto
de los homeomorfismos de A a B se le denotará por Hom (A, B) .
Observa que (5.10.2) caracteriza a los homeomorfismo que satisfacen que ellos y su inserva son
clase C1 . En particular, como corolario de esta propiedad (5.10.1) se obtuvo que si dos abiertos A ⊂ V
y B ⊂ W son transformados uno en el otro de manera diferenciable entonces dim V = dim W y, por
ende, son isomorfos. En particular, los cambios que deforman suavemente a dos subconjuntos no
pueden darse en espacios esencialmente diferentes.
( 8.4.2 ) Sean V y W dos espacios vectoriales isomorfos. Supón que A y B son sendos abiertos de V y W , y que
f : A → B es una función. Se dirá que f es un difeomorfismo de p-ésimo orden o de clase Cp , para p ∈ N ∪ {∞},
si:
1. f es biyectiva;
2. f es de clase Cp ;
3. f −1 es de clase Cp ;
por simplicidad, estas funciones serán llamadas «Cp -difeomorfismos». El conjunto de los Cp -difeomorfismos de
A a B será denotado por D (p) (A, B) .
Naturalmente puede definirse una función Ψ : D (p) (A, B) → D (p) (B, A) dada por

Ψ(f) = f −1 .

Tal Ψ posee propiedades muy agradables9 . Si está interesado el lector en ver y estudiar cuales son tales
propiedaes refiérase a [4], a [8] o a [13].
( 8.4.3 ) Para cualesquier A ⊂ V y B ⊂ W dos abiertos, se tiene que Hom (A, B) = D (0) (A, B) .
Lo cual es consecuencia directa de que una función es continua si y solo si es de clase C0 , ve la
definición (6.6.3).
8 De las raices griegas homeo y morfo, que significan ‘semejante’ o ‘parecido’ y ‘forma’, respectivamente.
9 Sise definen y demuestran los mismos conceptos para espacios vectoriales de dimensión arbitraria que se comporten como
lo espacios de dimensión finita, los «espacios banachianos», entonces Ψ es un C∞ -difeomorfismo.

298
8.4. Optimización restringida.

( 8.4.4 ) Sean V y W dos espacios vectoriales isomorfos. Para cualesquier p, k, n ∈ N y A ⊂ V , B ⊂ W dos


abiertos se cumple que

D (∞) (A, B) ⊂ D (p+k) (A, B) ⊂ D (p) (A, B) ⊂ Hom (A, B) .

Lo cual se deriva inmediatamente de las observaciones de (6.6.3).

( 8.4.5 ) Sean V y W dos espacios vectoriales isomorfos y L ⊂ Lin (V , W ) el conjunto de las funciones lineales
e invertibles de V a W . Entonces L ⊂ D (∞) (V , W ) .

Esto es consecuencia del ejemplo (7.5.3) y del ejercicio (1.23).

( 8.4.6 ) Sean A ⊂ U, B ⊂ V y C ⊂ W tres abiertos. Si f : A → B y g : B → C son homeomorfismos entonces


g ◦ f : A → C es homeomorfismo.

Para empezar tanto A como C son abiertos, además g ◦ f es invertible cuya inversa es g −1 ◦ f −1 , las
cuales son continuas por serlo f, g y sus inversas.

( 8.4.7 ) Sea f : A → B una función. Una condición necesaria y suficiente para que f sea un homeomorfismo es
que sea invertible, abierta (ve (3.4.1)) y que f −1 sea abierta.

Pues f es continua si y solo si f −1 es abierta (5.5.4), como lo mismo aplica para f −1 , se obtiene la
equivalencia.

( 8.4.8 ) Sean f : A → B un homeomorfismo y sea C ⊂ A un abierto. Entonces f : C → f(C) es un homeomor-


fismo.

Pues según (8.4.7) f(C) es un abierto. Según (2.1.20), f : C → f(C) es invertible, y según (5.22) f es
 −1
continua. Como f = f −1 se obtiene que el mismo argumento muestra que f −1 es continua.

C f(C) f(C)
En particular, f es un homeomorfismo.

( 8.4.9 ) Sean V y W dos espacios vectoriales isomorfos y L ⊂ Lin (V , W ) el conjunto de las transformaciones
lineales invertibles. Sean A ⊂ V y B ⊂ W dos abiertos. Supón que f : A → B es un homeomorfismo de clase C1 .
Una condición necesaria y suficiente para que f ∈ D (1) (A, B) es que Df (v) ∈ L para cada v ∈ A.

Que la condición es necesaria es consecuencia de (5.10.2). Se verá entonces que la condición es


suficiente. Según (5.10.2) para cada w ∈ B existe Df −1 (w) . Resta ver que la función w 7Ï Df −1 (w) es
continua en B. Según (5.10.2), se tiene que
−1
Df −1 (w) = Df f −1 (w) = φ ◦ Df ◦ f −1 (w),
 

donde
φ : L → L −1 = {T −1 |T ∈ L }
está dada por φ(T) = T −1 . Por lo tanto, al ser f −1 y Df funciones continuas, basta ver que φ es continua.
Se demostrará este resultado, el cual es relativamnete complicado pues se necesitarán varios lemas; de
hecho, cada uno es muy importante.

( 8.4.9.1 ) Sean U un espacio vectorial y T ∈ Lin (U, U) . Se define

T 0 = IU y T k = T ◦ T k−1 .

Entonces T k ≤ kTkk .

299
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Según el ejercicio (5.71), para cualquier S ∈ Lin (U, U) , se cumple

kSk = máx kS(u)k .


kuk=1

Además, (5.6.2) muestra que kSuk ≤ kSk kuk para cualesquier S ∈ Lin (U, U) y u ∈ U. Entonces,

k
T u = T(T k−1 )u ≤ kTk T k−1 u ,

inductivamente se demuestra que para cualquier u ∈ U



k k
T u ≤ kTk kuk .

Tomando u tal que kuk = 1 se encuentra que T k ≤ kTkk , que era lo afirmado.

( 8.4.9.2 ) Sean U un espacio vectorial y T ∈ Lin (U, U) tal que kTk < 1. Entonces, la serie (ve (2.4.1)) definida
por la sucesión (T n )n∈N∪{0} es absolutamente convergente (ve (2.4.2)), en consecuencia, existe T ∗ ∈ Lin (U, U)
X∞
tal que T k = T ∗.
k=0

Lo cual es consecuencia directa de que kT n k ≤ kTkn y que si 0 ≤ r < 1 entonces la serie (r n )n∈N∪{0} es
X∞
convergente. Luego, según el ejercicio (2.23) se debe tener que existe un T ∗ ∈ Lin (U, U) con T k = T ∗.
k=0

( 8.4.9.3 ) Sean U un espacio vectorial y T ∈ Lin (U, U) tal que kTk < 1. Sea T la suma de la serie asociada
a (T n )n≥0 . Entonces IU − T ∈ L y, de hecho, T ∗ = (IU − T)−1 .
Simplemente se realiza un cálculo,

X ∞
X
T ∗ (IU − T) = T ∗ − T ∗ T = Tk − T k = T 0 = IU ,
k=0 k=1

del mismo modo,



X ∞
X
(IU − T)T ∗ = T ∗ − TT ∗ = Tk − T k = T 0 = IU ,
k=0 k=1
que demuestra lo pedido.
Ahora se regresa a la prueba del enunciado principal. Se recuerda que este quedará concluido si se
demuestra que φ es continua sobre L .
( 8.4.9.4 ) L es un subconjunto abierto de Lin (V , W ) .
Pues L se identifica con el conjunto de matrices cuyo determinante es no nulo (ejercicio (1.41)) y
como la funcion det es continua, L = det−1 (R \ {0}) es un abierto.
( 8.4.9.5 ) φ es continua sobre L .
Sea T ∈ L , existe un r > 0 tal que B (T; r) ⊂ L . La idea genial de esta demostración es escribir,
para H ∈ B (0; r) ⊂ Lin (V , W ) ,
T − H = T(IV − T −1 H),
por lo que

φ(T − H) − φ(T) = (T − H)−1 − T −1 = (IV − T −1 H)−1 T −1 − T −1


= (IV − T −1 H)−1 − IV T −1 ,
 

300
8.4. Optimización restringida.

−1
para que (IV − T −1 H)−1 exista es suficiente que T −1 H < 1, luego, es suficiente que kHk < T −1 .
¶ −1 ©
Por lo tanto, si kHk < mı́n r, T −1 , se cumple que
 
kφ(T − H) − φ(T)k ≤ (IV − T −1 H)−1 − IV T −1


X
y como (IV − T −1 H)−1 = (T −1 H)k , se ve que
k=0

∞ ∞  −1
 X X  k T kHk
(IV − T −1 H)−1 − IV = (T −1 H)k ≤
 −1
T kHk = .

−1

k=1

k=1 1 − T kHk

Finalmente, se ve que
−1 2

T
kφ(T − H) − φ(T)k ≤ kHk ,
1 − T −1 kHk

que tiende a cero cuando kHk → 0.


Ahora se define lo que se entiende por una función es fuertemente diferenciable en un punto.
Observa que la definición de diferenciabilidad se escribe como

f(v + h) − f(v) = Df (v) h + o (khk) .

¿Qué tan grande puede ser o(khk)? En general no existe ninguna condición salvo que

o(khk)
→0
khk

cuando khk → 0. Luego, cualquier función φ(h) = khkp es o(khk) para p > 1. Nota ahora que

φ(h)
= khkp−1
khk

la cual es una función continua y por lo tanto, para cualquier ε > 0 existe un δ > 0 tal que

khk < δ Ñ khkp−1 < ε.

Sustituyendo esto en la definición de derivada se encuentra que

kf(v + h) − f(v) − Df (v) hk


khk < δ Ñ < ε,
khk

lo cual indica que h 7Ï f(v + h) − f(v) − Df (v) h es ε-lipschitziana sobre la bola B (0; δ) . Esta condición
es más fuerte que f sea diferenciable.
˚
( 8.4.10 ) Se dirá que una función f : A ⊂ V → W es fuertemente diferenciable en v ∈ A Û si existe una
T ∈ Lin (V , W ) tal que para todo ε > 0 existe un δ > 0 tal que la función h 7Ï f(v + h) − f(v) − Th es
ε-lipschitziana sobre la bola B (0; δ) .

Algunas propiedades de las funciones fuertemente diferenciables están descritas en los ejercicios.
Ahora verá una condición suficiente de diferenciabilidad fuerte.

301
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

( 8.4.11 ) Sea f : A ⊂ V → W diferenciable. Si la función Df : A → Lin (V , W ) es continua en v entonces f es


fuertemente diferenciable en v.
Define g(u) = f(u) − f(v) − Df (v) (u − v), la cual existe para todo u cercano a v. Entonces,

Dg (u) = Df (u) − Df (v) ,

por la continuidad de Df en v dado ε > 0 existe δ > 0 tal que si ku − vk < δ entonces kDg (u)k < ε. En
virtud del teorema del valor medio, (5.11.2), si ku − vk < δ entonces kg(u) − g(v)k = kg(u)k < ε ku − vk .
Es decir, f es fuertemente diferenciable en v.

z 8.4.2 El método de aproximaciones sucesivas.


Problemas del estilo encontrar un punto v ∈ A que satisfaga cierta propiedad surgen día a día
en matemáticas. Los problemas de optimización caen dentro de esta categoría. Existen innumerables
ejemplos, como encontrar un v ∈ A tal que f(v) = 0. Pon, por decir algo, f(t) = t 3 − 3t + 1 entonces
f(0) = 1 y f(1) = −1, así que hay un x ∈ [0, 1] tal que f(x) = 0. Se puede definir entonces una sucesión
1
an de manera recursiva como an es un punto tal que an = an−1 si f(an−1 ) = 0, o bien, |an − an−1 | = n y
2
f(an )f(an−1 ) ≤ 0 si f(an−1 ) 6= 0. Se obtiene pues una sucesión (an )n∈N definida en [0, 1] la cual converge
a un cero de f, quedan los detalles para el lector (ve el ejercicio (8.24)).
El llamado «método de aproximaciones sucesivas», clásico en matemáticas, es muy sencillo de em-
plear. Se define una «primera aproximación» a0 ; luego, se define por recurrencia an+1 = f(an ). Resulta
de interés estudiar el comportamiento límite de las subsucesiones de an . Resulta entonces natural im-
poner que an se encuentre siempre dentro de un compacto y que f sea una función suficientemente
agradable.
Este método permite obtener aproximaciones numéricas de las soluciones a los problemas men-
cionados anteriormente debido a la forma explícita de las expresiones involucradas. El método ya ha
sido utilizado anteriormente, por ejemplo, el teorema de Bolzano-Weierstrass (3.5.3) fue demostrado
utilizando este método pues para definir an+1 se necesitaba saber quién era an . A continuación un par
de ejemplos.
˚
( 8.4.12 ) Sea A ⊂ V cualquiera tal que existen u ∈ A
Û y v ∈ ext A. El segmento de recta que una a u con v
intersecta a ∂A en algún punto.
No se sabe nada acerca de qué tan lejos se encuentran u y v de la frontera de A; sin embargo,
se puede definir una sucesión que alterne entre el interior y la frontera de A y cuyos elementos
vayan acercandose muy rápidamente, parece intuitivo que esta sucesión de aproximaciones sucesivas
converja a algún punto en ∂A.
u+v
Define a0 = , el punto medio entre u y v. Hay tres casos a tratar:
2
1. si a0 ∈ ∂A, no hay más que hacer;
˚ a0 + v ˚
2. si a0 ∈ A,
Û define a1 = , el punto medio entre a0 y v; puede suceder que a1 ∈ A, Û que
2
a1 ∈ ext A o que a1 ∈ ∂A. En el último caso, el problema queda concluido por lo que se omite.
a1 + v
En el primer caso define a2 = , y en el segundo caso se aguarda al siguiente párrafo.
2
En general, lo que se hace es definir inductivamente an como el punto medio entre an−1 y v
˚ ˚
hasta que an ya no esté en el interior. Luego, se ha definido a1 , . . . , an−1 ∈ A
Û y an ∈/ A,
Û además
ku − vk
kai − ai−1 k = . De nuevo, si an ∈ ∂A no hay más que hacer, por lo que se supone que
2i
cada an ∈ ext A.

302
8.4. Optimización restringida.

3. Si a0 ∈ ext A, procede como en el caso previo, definie an como el punto medio entre u y an−1
hasta que an ∈/ ext A. Aquí también es lo mismo que en el caso previo, si an ∈ ∂A no hay más que
˚
hacer, por lo que se supone que siempre an ∈ A.Û

Los términos así formados satisfacen que los últimos dos an y an−1 cumplen con las condiciones
iniciales del problema; es decir, uno está en el interior y el otro en el exterior. Sin embargo, aquí
ku − vk
kan − an−1 k = , los puntos ahora están mucho más cerca.
2n
Se repite el algoritmo anterior para los puntos an y an−1 . De este modo, se obtiene una sucesión de
infinitos términos10 tales que ninguno de ellos está en la frontera. Sea (an )n∈N esta sucesión. Ahora se
verán algunas propiedades de ella.
˚
( 8.4.12.1 ) Hay una infinidad de términos de la sucesión en A
Û y una infinidad en ext A.
˚
Si no fuera así, supón que hay un número finito de términos en A Û entonces existe el N más grande
˚
tal que aN ∈ A. Por la definición de (an ) se debe cumplir que aN+p es el punto medio entre aN y
Û
aN+p−1 para cualquier p ∈ N. Entonces, la sucesión (aN+p )p∈N converge a aN pues por las construcción
kaN − aN+1 k
kaN+p − aN k = (ve el caso dos original). Por lo tanto, cuando p → ∞ se concluye que
2p
˚ ˚
aN+p → aN . Como aN ∈ A Û existe un p0 ∈ N tal que si p ≥ p0 entonces aN+p ∈ AÛ (ve el ejercicio (2.11)),
˚
lo cual es una contradicción al ser aN el último teŕmino en A. Û Por lo tanto, existen una infinidad de
˚
términos de la sucesión en A. Del mimso modo se prueba lo análogo para ext A.
Û

( 8.4.12.2 ) La sucesión (an )n∈N converge.


Pues si m > n, por ejemplo m = n + p entonces

p−1
p p
X
X X 1 1
kan − am k = an + (an+k − an+k ) − an+p = (an+k − an+k−1 ) ≤ = n+1 ,

2 n+k 2
k=1 k=1
k=1

con hacer n suficientemente grande se ve que (an ) es una sucesión de Cauchy (ve (2.3.11)). En virtud
de (2.3.14) existe un a ∈ V tal que an → a.
( 8.4.12.3 ) El punto a está en el segmento.
Pues el segmento es imagen de la función φ : [0, 1] → V dada por φ(t) = tu + (1 − t)v, y en virtud de
(5.5.7) tal segmento es compacto. Como a es un punto límite de una sucesión definida en el segmento,
a debe estar en el segmento (ve (3.5.1) y (3.2.17)).
( 8.4.12.4 ) El punto límite a está en ∂A.
˚
Pues se vió que hay infinitos términos de la sucesión tanto en A Û como en ext A. Por lo que hay
 ˚ 
subsucesiones de (an )n∈N , por ejemplo aσ(n) n∈N definida en A y aψ(n) n∈N definida en ext A. Como
Û
toda la sucesión converge, las subsucesiones también (ejercicio (2.14)) y así, se concluye que aψ(n) → a
y aσ(n) → a. Por lo tanto, a ∈ ∂A (ve (3.1.13)), que es lo que se quería demostrar.
( 8.4.13 ) Sea f : C ⊂ V → C, en donde C es compacto, una función tal que kf(u) − f(v)k ≥ ku − uk para
cualesquier u, v ∈ C. Entonces, kf(u) − f(v)k = ku − vk .
10 Recuerda que por como ha sido definida la sucesión, si en algún momento algún términos a ∈ ∂A ya se habría acabado,
n
por lo que se omite este caso.

303
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

En principio, podria parecer que el método de aproximaciones sucesivas no tiene nada que ver aquí.
Sin embargo, se mostrará que no es así, que el método da una demostración elegante de este resultado.
Sean u, v ∈ C cualesquiera y define las aproximaciones sucesivas (un )n≥0 y (vn )n∈N por u0 = u y
un = F(un−1 ) para n ∈ N, análogamente (vn )n≥0 . Por definición de f, ambas sucesiones están en C. Se
afirma que para todo ε > 0 existe un k ∈ N tal que

kuk − uk ≤ ε y kvk − vk ≤ ε.

Se procederá por contradicción, la hipótesis de contradicción es que existe un número ε > 0 tal que
para todo k ∈ N o bien kuk − uk > ε o bien kvk − vk > ε. Considera los siguientes conjuntos A = {k ∈
N| kuk − uk > ε} y B = {k ∈ N| kvk − vk > ε}, como A ∪ B = N debe cumplirse que card (A) = card (N)
o card (B) = card (N) . Por simetría, se supondrá que card (A) = card (N) . Observa que

ku1 − uk+1 k = kf(u0 ) − f(uk )k ≥ ku0 − uk k = ku − uk k > ε

para cualquier k ∈ A. Por inducción,


kup − uk+p k > ε
para cualquier k ∈ A y cualquier p ∈ N. La subfamilia (uk )k∈A puede verse como una subsucesión de
(un )n∈N , basta ordenar a A. Luego, en virtud del teorema
 de Bolzano-Weierstrass (3.5.3), la sucesión
(uk )k∈A posee una subsucesión convergente. Sea uψ(k) k∈A una subsucesión convergente de (uk )k∈A .
Entonces,
lı́m uψ(k) − uψ(k+1) = 0,
k→∞

pero ψ(k + 1) = ψ(k) + (ψ(k + 1) − ψ(k)) = ψ(k) + p y p ∈ N, por lo que la desigualdad previa muestra
que
uψ(k) − uψ(k+1) > ε.

Como k fue arbitrario, no puede suceder que uψ(k) − uψ(k+1) converja a cero, esto es una contradicción.
De este modo, la afirmación hecha es cierta.
Finalmente, sean ε > 0 cualquiera y k ∈ N tal que
ε ε
kuk − uk ≤ y kvk − vk ≤ ,
2 2
la desigualdad triangular muestra que

ku − vk ≤ ku1 − v1 k ≤ kuk − vk k ≤ kuk − uk + ku − vk + kvk − vk ≤ ku − vk + ε.

Por ser ε > 0 arbitrario, se concluye que

ku − vk = ku1 − v1 k = kF(u) − F(v)k ,

que era lo que se quería demostrar.


Estos ejemplos y el teorema de Bolzano-Weierstrass muestran que las demostraciones que utilizan el
método de aproximaciones sucesivas suelen ser difíciles de escribir. En general es cierto pues hay que
demostrar propiedades sobre la sucesión definida. Con un buen arsenal de teoremas sobre sucesiones
no deberían causar demasiadas complicaciones, conviene que el lector vuelva a revisar las propiedades
ya vistas sobre sucesiones. Se retoma ahora el camino hacia el teorema de las función implícita.

( 8.4.14 ) Una función f : A ⊂ V → W se llama una contracción si es k-lipschitziana para algún k ∈ (0, 1). A k
se le llama una constante de contracción.

304
8.4. Optimización restringida.

( 8.4.15 ) Sean A ⊂ V un abierto y f : A → V una función tal que

φ:A→V dada por φ(v) = v − f(v)

es una contracción con constante de contracción k. Entonces, para cada v ∈ A existe un r > 0 tal que B (v; r) ⊂ A
1
y f restringida ahí es un homeomorfismo. De hecho, f(B (v; r)) = B (f(v); (1 − k)r) y f −1 es -lipschitziana.
1−k
La existencia de tal r es consecuencia de la definición de abierto. Se verá ahora que f es biyectiva
sobre B (v; r) y que f(B (v; r)) = B (f(v); (1 − k)r) . Sean u y u0 dos vectores en B (v; r) . Entonces

kf(u) − f(u0 )k = ku − u0 − φ(u) + φ(u0 )k


≥ ku − u0 k − kφ(u) − φ(u0 )k ≥ (1 − k) ku − u0 k .

Por lo que si f(u) = f(u0 ) entonces ku − u0 k = 0 y u = u0 . Así que f es inyectiva. Ahora se demostrará
que f(B (v; r)) = B (f(v); (1 − k)r) . Se afirma que para cada w ∈ B (f(v); (1 − k)r) existe un u y solo uno
en B (v; r) tal que f(u) = w. La unicidad de tal u es consecuencia directa de la inyectividad de f, por lo
que se demostrará la existencia. Para este efecto se utilizará el método de aproximaciones sucesivas.
Define a0 = v, ¿cómo se deberían definir los an ? Observa que, en el caso en que exista tal u,

f(u) = w ⇔ φ(u) = u − w,

y si la sucesión (an )n∈N ya está definida y es tal que lı́m an = u entonces


n→∞

f(u) = w ⇔ lı́m φ(an ) = lı́m an − w,


n→∞ n→∞

entonces, al quitar límite, resulta natural querer proponer

an = w + φ(an−1 ).

Ahora se demostrará que si an−1 ∈ B (v; r) entonces an ∈ B (v; r) . Primeramente, se demostrará


que
1 − kn
kan − vk ≤ kw − f(v)k .
1−k
Se procederá inductivamente. Por la definición de a0 y a1 , se tiene que

1−k
ka1 − vk = kw + φ(a0 ) − vk = kw − f(v)k = kw − f(v)k .
1−k
Supón que an satisface esta desigualdad. Entonces

kan+1 − vk ≤ kan+1 − an k + kan − vk = kφ(an ) − φ(an−1 )k + kan − vk


1 − kn
≤ k kan − an−1 k + kw − f(v)k
1−k
1 − kn
≤ . . . ≤ kn ka1 − a0 k + kw − f(v)k
1−k
kn − kn+1 1 − kn 1 − kn+1
= kw − f(v)k + kw − f(v)k = kw − f(v)k .
1−k 1−k 1−k
Luego, la desigualdad es válida para cualquier n ∈ N. Finalmente, como kw − f(v)k ≤ (1 − k)r, por la
definición de w, se ve que an ∈ B (v; r) , lo cual muestra lo afirmado.

305
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Recuerda que por la definición de (an )n∈N y la continuidad de φ la existencia de u quedará demos-
trada si se muestra que (an )n∈N es convergente. Se parte de la desigualdad

kan+1 − an k ≤ kn kw − f(v)k ,

entonces si m = n + p, se ve que
p p
X X
kam − an k ≤ kan+i − an+i−1 k ≤ kn+i−1 kw − f(v)k
i=1 i=1

X kw − f(v)k
≤ kn kw − f(v)k ki = kn ,
1−k
i=0

y en virtud de que k ∈ (0, 1), con escoger n suficientemente grande, se ve que kan − am k es pequeño
sin importar m ≥ n; esto es, la sucesión (an )n∈N es de Cauchy (2.3.11). Luego, existe un u ∈ V tal que
an → u. Todavía no ha sido concluida la afirmación pues falta verificar que u ∈ B (v; r) . Se demostró
que
1 − kn
kan − vk ≤ kw − f(v)k
1−k
y con hacer n → ∞, y utilizando la continuidad de la norma, se puede concluir que

1 1
ku − vk ≤ kw − f(v)k < (1 − k)r = r,
1−k 1−k
con lo cual u ∈ B (v; r) . Con esto ha sido concluída la afirmación.
Se verá ahora que f restringida a B (v; r) es un homeomorfismo. Sea

g : B (f(v); (1 − k)r) → B (v; r)

la inversa de f. Ya se sabe que f es continua por ser k-lipschitziana (ve (5.43)). Resta ver que g también
es continua. La desigualdad
kf(u) − f(u0 )k ≥ (1 − k) ku − u0 k
es equivalente a

−1
1
f (w) − f −1 (w 0 ) ≤ kw − w 0 k ,

1−k
1
es decir, g −1 es -lipschitziana, en particular es continua, como se había dicho.
1−k

z 8.4.3 El teorema de la función inversa.


Supón que f : A → W , con A ⊂ V un abierto y en donde V y W son isomorfos. Si para cierto v ∈ A la
transformación lineal Df (v) es invertible, ¿es razonable suponer que f es invertible? En principio podría
parecer que sí, sin embargo, hay contraejemplo a esto. Ahora, en el caso en donde f ∈ C1 (A, W ) , se
ve de la definición de derivada y de (8.4.11) que dado ε > 0 existe un δ > 0 tal que si khk < δ entonces

kf(v + h) − f(v) − Df (v) hk ≤ ε khk .

Luego, para δ muy pequeño se ve que h 7Ï f(v + h) − f(v) se comporta prácticamente igual que Df (v) .
¿Es esto suficiente para que f sea invertible cerca de v?

306
8.4. Optimización restringida.

( 8.4.16 ) Sean V y W dos espacios vectoriales isomorfos. Supón que A ⊂ V es un abierto y que f : A → W
es continua y fuertemente diferenciable en v ∈ A. Asimismo, se impone la hipótesis de que Df (v) sea invertible.
Entonces existen dos abierto S ⊂ A y T ⊂ W con v ∈ S y w = f(v) ∈ T tales que f : S → T es homeomorfismo;
el «teorema del homeomorfismo».
Sea f1 = [Df (v)]−1 ◦ f : A → V . Entonces f1 es estricamente diferenciable en v. En efecto, sea ε > 0.
Existe δ > 0 tal que h 7Ï f(v + h) − f(v) − Df (v) h es ε-lipschitziana sobre B (0; δ) , así que

f1 (v + h) − f1 (v) = [Df (v)]−1 f(v + h) − f(v)


 

= [Df (v)]−1 Df (v) h + o(khk)


 

= h + [Df (v)]−1 o(khk),

en donde ko(khk)k ≤ ε khk . Por lo tanto,



kf1 (v + h) − f1 (v) − hk ≤ ε [Df (v)]−1 khk ,

 
es decir, h 7Ï f1 (v + h) − f1 (v) − h es ε [Df (v)]−1 -lipschitziana sobre B (0; δ) . Por la arbitrariedad


de ε y el hecho que [Df (v)]−1 es una constante independiente de h, se ve que f1 es fuertemente

diferenciable en f. Luego, se obtuvo que Df1 (v) = IV .
Se demostrará ahora que existe una bola B (v; r) tal que la función φ(u) = u−f1 (u) es una contracción
ahí. En efecto, sean u = v + h y u0 = v + h0 , luego

kφ(u) − φ(u0 )k = u − f1 (u) + f1 (v) − u0 − f1 (u0 ) + f1 (v)


   

= f1 (v + h) − f1 (v) − v − h − f1 (v + h0 ) − f1 (v) − v − h0
   

= f1 (v + h) − f1 (v) − h − f1 (v + h0 ) − f1 (v) − h0
   
 
≤ ε [Df (v)]−1 kh − h0 k .


Resta escoger ε > 0 de tal forma que ε [Df (v)]−1 < 1. Se escoge cualquier ε > 0 que cumpla la

desigualdad anterior y sea k la constante de contracción.
En virtud de (8.4.15), f1 es un homeomorfismo de B (v; δ) a B (f1 (v); (1 − k)δ) . Según (8.4.5) Df (v)
es un homeomorfismo, por lo que f = Df (v) ◦ f1 es un homeomorfismo de S = B (v; δ) a T =
Df (v) B (f1 (v); (1 − k)δ) , lo cual es consecuencia de (8.4.6).
A continuación dos corolarios de este teorema.
( 8.4.17 ) Sean V y W dos espacios vectoriales isomorfos y A ⊂ V un abierto. Supón que f : A → W es de
clase C1 y que v ∈ A. Una condición suficiente para que exista un abierto S ⊂ A tal que v ∈ S y que exista un
abierto T de W que contenga a w = f(v) para los cuales F sea un C1 -difeomorfismo de S a T es que Df (v) sea
invertible; el «teorema de la función inversa».
Este resultado es consecuencia de los teoremas previos y unas sencillas observaciones.
1. Como Df (v) está en el conjunto de las transformaciones lineales invertibles, hay un abierto C ahí
tal que Df (v) ∈ C (8.4.9.4); por la continuidad de Df,

A2 = Df −1 (C)

es un abierto (5.5.4) de V .
2. Existe A1 sobre el cual f es un homeomorfismos según (8.4.16). Define A = A1 ∩ A2 y B = f(A).

307
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

3. Como A ⊂ A1 es abierto, se conluye que f : A → B es homeomorfismo (8.4.8).

4. Finalmente, f es un homeomorfismo sobre A y para cada u ∈ A se cumple que Df (u) es invertible.


Luego, según (8.4.9) se concluye que f es un C1 -difeomorfismo.

Esto concluye el teorema.


Naturalmente uno se pregunta, ¿cuál es la regla de correspondencia de la función inversa? En
general no se puede obtener la regla de correspondencia de la función inversa. Por ejemplo, la fución
x 7Ï x x = ex log x satiface que su derivada sobre (0, ∞) es x 7Ï x x + x x log x; esta derivada es continua
en todo R y, además, no se anula para x > 1. De hecho, para x = 1, su valor es 1. El teorema de la
función inversa muestra que la ecuación y = x x puede ser teoricamente “despejada” en un intervalo
(1 − ε, 1 + ε). En la práctica, es imposible encontrar explícitamente la inversa.
Las hipótesis del teorema de la función inversa no se pueden eliminar o debilitar. Se podría pensar
que si solamente se pide que la derivada sea invertible en el punto v entonces f ya habría de ser
invertible pues se comporta como la derivada. Sin embargo, la continuidad de la derivada demostró
que si es invertible en v entonces es invertible en todo un radio alrededor de v. La invertibilidad no
permite concluir esto. De hecho, hay contraejemplo y en los ejercicios se da uno.
El otro corolario que se dará del teorema del homeomorfismo.

( 8.4.18 ) Sean V y W dos espacios vectoriales isomorfos y A, B sendos subconjuntos abiertos de V y W . Se


supone que f ∈ C1 (A, B) . Una condición suficiente para que f sea abierta (ve (3.4.1)) es que para cualquier
v ∈ A la transformación lineal Df (v) sea invertible; el «teorema de la función abierta».

En virtud de (8.4.11) las hipótesis del teorema del homeomorfismo (8.4.16) se satisfacen para cada
punto del dominio de la función. Por lo que si S ⊂ A es un abierto y v ∈ S, existe un abierto[
Tv ⊂ S en
donde f es homeomorfismo. En particular, f(Tv ) es un abierto (8.4.7) de W . Luego, f(S) = f(Tv ) es
v∈S
abierto.
Como corolario de los teoremas de la función inversa y de la función abierta se obtiene una carac-
terización de D (1) (U, V ) .

( 8.4.19 ) Sean V y W dos espacios vectoriales isomorfos, A ⊂ V un abierto y f : A → W . Una condición


necesaria y suficiente para que f sea un C1 -difeomorfismo sobre A es que satisfaga las siguientes tres propiedades:

1. f sea de clase C1 sobre V ;

2. f sea inyectiva;

3. Df (v) sea invertible para cada v ∈ U.

Las condiciones son evidentemente necesarias por definición de C1 -difeomorfismo. Se verá que las
condiciones son suficientes. Como f es inyectiva existe f −1 : f(A) → A. Observa que f ∈ Hom (A, f(A)) ;
en efecto, f es biyectiva ahí, y como f es continua f −1 es una aplicación abierta (5.5.4), luego, basta ver
que f es abierta (8.4.7), lo cual es consecuencia del teorema de la función abierta (8.4.18). El resto es
consecuencia de (8.4.9).

z 8.4.4 El teorema de la función implícita.


El resultado que se presenta en esta sección pertenece a la rama de las matemáticas conocida como
geometría diferencial. Existen muchas versiones de este teorema y hay varios caminos para derivar
su demostración. El que se utilizará aquí será aplicar el teorema de la función inversa; sin embargo,
es posible demostrar el teorema de la función implícita de manera independiente del teorema de la

308
8.4. Optimización restringida.

función inversa y derivar el teorema de la función inversa como corolario del teorema de la función
implícita. Esto es, los teoremas son equivalentes.
Antes de dar la demostración se considerá un ejemplo. El círculo unitario en el plano euclidiano
puede describirse mediante la ecuación x 2 + y 2 = 1; es decir, si S1 es el círculo entonces

S1 = {(x, y) ∈ R2 |x 2 + y 2 = 1}.

Ya se ha mencionado antes, S1 puede ser descrita de la forma S1 = f −1 ({λ}). En efecto, basta poner
f(x, y) = x 2 + y 2 y λ = 1. Es fácil ver que para S1 puede despejarse explícitamente una de las variables
en términos de la otra siempre que se imponga alguna restricción del estilo y > 0, etcétera. Es fácil dar
ejemplos11 en donde una variable no puede despejarse en términos de la otra, por ejemplo, se había
mencionado antes, y = x x .
Conviene entender geométricamente el caso f(x, y) = 0; entonces, si en el espacio euclidiano se
pone z = f(x, y), se quiere estudiar la intersección12 de esta ecuación con la ecuación z = 0. Observa
que si Df (x, y) = (0, 0) entonces no se puede afirmar nada. Considera un paraboloide z = x 2 + y 2 ,
una silla de montar z = 2xy y la suma de ambas z = x 2 + 2xy + y 2 = (x + y)2 . Todas estas funciones
tienen por derivada en el origen un plano horizontal y la primera de ellas intersecta a la ecuación z = 0
únicamente en el origen, la segunda la intersecta en x = 0 o y = 0 y la tercera en x = −y. Por lo que
si se quiere estudiar el despeje de y en la ecuación f(x, y) = 0 se debe pedir Df (x, y) 6= 0.
( 8.4.20 ) Sean V1 , V2 y W tres espacios vectoriales tales que V2 y W son isomorfos. Sea A ⊂ V1 × V2 un
abierto y f : A → W . Supón que para (v1 , v2 ) ∈ A se cumple que f(v1 , v2 ) = 0. Define la función f1 mediante
u1 7Ï f(u1 , v2 ), la cual existe sobre la sección (ve (6.3.2)) A1 (v1 , v2 ). Analogamente define f2 para todo u2 cerca
de v2 ; esto es, f2 (u2 ) = f(v1 , u2 ), cuyo dominio es A2 (v1 , v2 ). Una condición suficiente para que existan sendos
abiertos S y T de A y A1 (v1 , v2 ), con (v1 , v2 ) ∈ S y v1 ∈ T, y que exista una función g : T → W de clase C1
para los cuales la relación
(u1 , u2 ) ∈ S y f(u1 , u2 ) = 0
equivalga a la relación
u1 ∈ T y g(u1 ) = u2
1
es que f sea de clase C y Df2 (v2 ) sea invertible; el «teorema de la función implícita».
Primeramente, en virtud de (6.3.3), se observa que para cada u1 ∈ A(v1 , v2 ) se cumple que Df1 (u1 ) =
D1 f (u1 , v2 ) y, análogamente, Df2 (u2 ) = D2 f2 (u1 , u2 ) .
Ahora, la idea de la prueba agrandar la función f a una función A → V1 × W de tal forma que sea
posible aplicar el teorema de la función inversa. Para este efecto es necesario que la extensión F : A →
V1 × W sea de clase C1 y que DF (v1 , v2 ) sea invertible. Lo más natural es poner F(v1 , v2 ) = (v1 , f(v1 , v2 ));
en otras palabras, se define F = (pr1 , f) : A → V1 × W . La motivación de definir F de este modo surge
de (5.7.4) pues entonces F es de clase C1 y, de hecho,

DF (u1 , u2 ) = (pr1 , Df (u1 , u2 )).

De donde para (h1 , h2 ) ∈ V1 × V2 ,

DF (u1 , u2 ) (h1 , h2 ) = (h1 , Df (u1 , u2 ) (h1 , h2 )).

En virtud de (6.3.4), se cumple que

DF (u1 , u2 ) (h1 , h2 ) = (h1 , D1 f (u1 , u2 ) h1 + D2 f (u1 , u2 ) h2 ).


11 En realidad es todo un reto demostrar que tales ejemplos no pueden ser despejados como función de funciones elementales;

es decir, como suma, composición, producto de las funciones identidad, trigonométricas, exponenciales, etcétera.
12 Aquí se está haciendo intencionalemnte un abuso del lenguaje. Entienda que cuando se habla de una ecuación se está haciendo

refeerencia al conjunto de puntos que satisfacen dicha ecuación.

309
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Sustituyendo D1 f (u1 , u2 ) por Df1 (u1 ) y lo mismo para D2 f (u1 , u2 ) con Df2 (u2 ) se encuentra que

DF (u1 , u2 ) (h1 , h2 ) = (h1 , Df1 (u1 ) h1 + Df2 (u2 ) h2 ).

Se quiere que esta transformación lineal sea invertible cuando (u1 , u2 ) = (v1 , v2 ); es decir, en la ecuación

DF (v1 , v2 ) (h1 , h2 ) = (x, y)

se quiere desepejar (h1 , h2 ) en términos de (x, y). Es inmediato de la primera ecuación que h1 = x.
Sustituyendo en la segunda ecuación se llega a que Df2 (v2 ) h2 = y − Df1 (u1 ) x. De la suposición de
invertibilidad de Df2 (v2 ) se obtiene que

h2 = [Df2 (v2 )]−1 (y − Df1 (u1 ) x) .

Por lo tanto, DF (v1 , v2 ) es invertible y se está en condiciones de aplicar el teorema de la función inversa
(8.4.17) a la función F en el punto (v1 , v2 ).
El teorema de la función inversa muestra que existen dos abiertos S y P tales que (v1 , v2 ) ∈ S ⊂ A y
P ⊂ V1 × W tales que F(v1 , v2 ) = (v1 , 0) ∈ P y F es un C1 -difeomorfismo de S en P.
Sea G : P → S la inversa de F. Entonces G = (pr1 , g) para alguna g. En efecto, pues debe cumplirse
que
(F ◦ G)(u1 , w) = (u1 , w)

y que
(G ◦ F)(u1 , u2 ) = (u1 , u2 ).

De aquí se deriva la expresión para G. Por lo tanto, de la equivalencia

(u1 , u2 ) ∈ S y F(u1 , u2 ) = (u1 , w) ⇔ (u1 , u2 ) ∈ A y G(u1 , w) = (u1 , u2 )

se deriva la equivalencia entre


(u1 , u2 ) ∈ A y f(u1 , u2 ) = w

y
(u1 , w) ∈ P y g(u1 , w) = u2 .

Con hacer w = 0 se obtiene que si T = pr1 P ∩ V1 × {0} , el cual es un abierto, entonces las
condiciones anterior son
(u1 , u2 ) ∈ S y f(u1 , u2 ) = 0

y
u1 ∈ T y g(u1 ) = g(u1 , 0) = u2 ,

son equivalentes13 . Así se ve que g es de clase C1 por ser composición de funciones C1 . Esto concluye
el teorema.
Al igual que con el teorema de la función inversa este teorema no brinda información sobre la
inversa.
13 Se utilizó la misma letra g para denotar a dos funciones.

310
8.4. Optimización restringida.

z 8.4.5 Algunos ejemplos de invertibilidad.


Se verán ahora algunos ejemplos del tipo clásico.

( 8.4.21 ) Sea A ⊂ V un abierto y conexo. Supón que L es lineal de V a W y que g : A → W es una función
tal que Dg = 0. Si L es invertible entonces L + g es un C1 -difeomorfismo.

En virtud de (8.4.19) basta ver que L + g es de clase C1 , es inyectiva y D(L + g) (u) = L es invertible
para cada u ∈ A. Ahora bien, la función g es constante, ve el ejercicio (5.58). Luego, L + g es inyectiva,
de clase C1 y cuya derivada es invertible (por hipótesis).

( 8.4.22 ) Es posible «resolver la ecuación» f(x, y) = 0 para y como función de x en una vecindad del punto
(p, q) para los siguientes casos:
p
1. f(x, y) = log(x + y), (p, q) = (2, −1);

2. f(x, y) = x 2 − y 2 , (p, q) = (1, 1).

Se puede apelar al teorema de la función implícita. Sin embargo, conviene antes examinar más a
fondo cada caso.
p
1. Observa que la ecuación log(x + y) = 0 puede resolverse explícitamente; en efecto, elevando al
cuadrado se obtiene que log(x + y) = 0. Tomando funcion exponencial se concluye que x + y = 1,
de donde y = 1 − x. Ahora bien, ¿cuál es el dominio de x? Observa que x + y > 0 por lo que
y > −x, luego, si y = 1 − x, entonce y > −x y el dominio es todo R.

2. Aquí la ecuación x 2 − y 2 = 0 no puede resolverse explícitamente sin un mínimo de cuidado. Pues


despejando y tomando raíz se debe cuidar el signo de la raíz. Observando que x = y = 1 entonces
la solución es x = y, de nuevo, con dominio R.

Esto concluye el ejemplo.

( 8.4.23 ) Es posible despejar a y como función de x en la siguiente ecuación: x 5 + y 5 + xy = 3 cerca del punto
(1, 1).

Un poco de álgebra convencerá al lector que no es posible despejar explícitamente a y como función
de x. Luego, se apela al teorema de la función implícita. Define la función F(x, y) = x 5 + y 5 + xy − 3
entonces F(1, 1) = 0, y la función f(y) = F(1, x) = y 5 + y − 2 posee derivada f 0 (1) = 3 6= 0, que es
invertible. Luego, según el teorema de la función implicita existe un abierto V que contiene a (1, 1), un
abierto (1 − δ, 1 + δ) y una función g : (1 − δ, 1 + δ) → R de clase C1 tal que la relación F(x, y) = 0
para (x, y) ∈ V equivale a la relación F(x, g(x)) = 0 para x ∈ (1 − δ, 1 + δ), es decir y = g(x) para
x ∈ (1 − δ, 1 + δ), que es lo que se quería demostrar.

( 8.4.24 ) Es posible despejar a y como función de x en la siguiente ecuación xy + log xy = 1 cerca del punto
(1, 1). En caso de ser posible, encuentra y 0 (x).

Sea F(x, y) = xy + log xy − 1 entonces F(1, 1) = 0 y la función y 7Ï F(1, y) = y + log y − 1 posee


derivada igual a 1 cuando y = 1, por lo que su derivada es invertible. Evidentemente F es de clase C1 ,
el teorema de la función implícita muestra entonces que y se puede despejar como función de x en un
intervalo de la forma (1 − δ, 1 + δ). En virtud del ejercicio (8.31) y es función de clase C1 de x. Luego,
la regla de la cadena muestra que si f(x) = F(x, y(x)) entonces
Å ã
1 1
f 0 (x) = DF (x, y) · (1, y 0 (x)) = y + + y 0 (x) x + .
x y

311
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Por otro lado, F(x, y(x)) = 0, es decir, f 0 (x) = 0, de donde,

1
y(x) +
y 0 (x) = − x = −y ,
1 x
x+
y

que es lo que se pedía calcular.

( 8.4.25 ) Demostrar que x + y + z + xyz = 0 define a z de manera implícita como función de x y y en una
vecindad del punto (0, 1, −1). Encontrar un desarrollo limitado de z de cuarto orden centrado en (0, 1).

Define F(x, y, z) = x + y + z + xyz. Entonces F es de clase C∞ y la función z 7Ï F(0, 1, z) = 1 + z


posee derivada 1 la cual es invertible para cualquier z ∈ R. En virtud del teorema de la función implícita
z se puede expresar como función de x y y. Entonces,

F(x, y, z(x, y)) = 0;

aquí, aunque se puede tomar la derivada usando la regla de la cadena, resulta más cómodo derivar
parcialmente de manera directa. Entonces se calculan las derivadas parciales

∂F(x, y, z(x, y)) ∂(x + y + z + xyz) ∂z ∂z


0= = =1+ + yz + xy ;
∂x ∂x ∂x ∂x
derivando nuevamente respecto de x,

∂2 z ∂2 z ∂2 z ∂2 z
Å ã
∂ ∂z ∂z ∂z ∂z ∂z
0= 1+ + yz + xy = + y + y + xy = + 2y + xy ;
∂x ∂x ∂x ∂x 2 ∂x ∂x ∂x 2 ∂x 2 ∂x ∂x 2

las parciales tercera y cuarta respecto de x,

∂3 z ∂z2 ∂2 z ∂3 z ∂3 z ∂z2 ∂3 z
0= + 2y + y + xy = + 3y + xy
∂x 3 ∂x 2 ∂x 2 ∂x 3 ∂x 3 ∂x 2 ∂x 3
y, análogamente,
∂4 z ∂z3 ∂4 z
0= + 4y + xy .
∂x 4 ∂x 3 ∂x 4
Las parciales respecto de y se obtienen al cambiar los símbolos x y y por la simetría que tiene F en
las variables x y y. Finalmente, se calculan las parciales mixtas. Recuerda que por ser F de clase C∞ y
simétrica, bastará calcular solo algunas de las parciales mixtas. Basta tener las siguientes

∂2 z ∂z ∂z ∂2 z
0= +z+y +x + xy ,
∂x∂y ∂y ∂x ∂x∂y

∂3 z ∂z ∂2 z ∂2 z
0= (1 + xy) + 2 + x + 2x
∂x 2 ∂y ∂x ∂x 2 ∂x∂y
∂4 z ∂3 z ∂3 z ∂2 z
0= (1 + xy) + 2y + 2x + 4 .
∂x 2 ∂y 2 ∂x∂y 2 ∂x 2 ∂y ∂x∂y
y
∂4 z ∂3 z ∂3 z ∂2 z ∂2 z
0= (1 + xy) + (2x + y) + x + 3 + 2 .
∂x 3 ∂y ∂x 2 ∂y ∂x 3 ∂x 2 ∂x∂y

312
8.4. Optimización restringida.

∂z
Lo que sigue es poner x = 0, y = 1 y z = −1, luego hacer los despejes. Se encuentra que = 0
∂x
∂z
y = −1. Se sustituyen estos valores en las ecuaciones subsecuentes. Con esto, se encuentra que
∂y
2
∂ z ∂2 z ∂2 z ∂3 z ∂3 z
= 0, = 0 y = 2. Repitiendo con las parciales de tercer orden, = 0, = 0,
∂x 2 ∂y 2 ∂x∂y ∂x 3 ∂x 2 ∂y
∂3 z ∂3 z ∂4 z ∂4 z ∂4 z ∂4 z
2
= −2 y 3
= 0. Finalmente las de cuarto orden, 4
= 0, 3
= −4, 2 2
= −4, =0
∂x∂y ∂y ∂x ∂x ∂y ∂x ∂y ∂x∂y 3
∂4 z
y = 0.
∂y 4
En virtud del ejercicio (7.34) y del ejemplo (7.6.12) se obtiene que el desarrollo limitado está dado
por
4
∂ i
Å ã
X 1 ∂
T4 z (0, 1) (h, k) = z(0, 1) + h +k z(0, 1).
i! ∂x ∂y
i=1

Conviene calcular cada sumando por separado. Entonces, en el caso i = 1 se obtiene el sumando −k;
en el caso i = 2,

∂ 2
Ç å
2
∂2 z 2
Å ã
1 ∂ 1 2∂ z 2∂ z
h +k z(0, 1) = h + 2hk +k = 2hk;
2! ∂x ∂y 2 ∂x 2 ∂x∂y ∂y 2 (x,y)=(0,1)

si k = 3 entonces
∂ 3
Å ã
1 ∂ 1
h +k z(0, 1) = (−2hk2 ) = −hk2 ;
3! ∂x ∂y 2
si k = 4 entonces
∂ 4 2h3 k
Å ã
1 ∂ 1
h +k z(0, 1) = (−16h3 k − 24h2 k2 ) = − − h2 k2 .
4! ∂x ∂y 24 3
Por lo tanto, el desarrollo limitado de z de orden cuarto centrado en el punto (0, 1) está dada por

2h3 k
T4 z (0, 1) (h, k) = −1 − k + 2hk − hk2 − − h2 k2 ,
3
lo cual concluye el ejercicio.
( 8.4.26 ) ¿Es posible despejar a u y v de las ecuaciones 3xu + 2yx − zxy − 4u + 6v 2 = 2 y x 2 + y 2 + uvz = 1
en una vecindad del punto x = y = 0, z = 1, v = 1 y u = 1?
Define la función

F(x, y, z, u, v) = (3xu + 2yx − xyz − 4u + 6v 2 − 2, x 2 + y 2 + uvz).

Se definirá la función f2 del teorema de la función implícita (8.4.20). En este caso se define la función

F2 (u, v) = F(0, 0, 1, u, v) = (−4u + 6v 2 − 2, uv),

la cual posee derivada ï ò


−4 12v
DF2 (u, v) = ,
v u
el determinante de esta transformación lineal cuando u = v = 1 es −16 que al no ser cero muestra que
DF2 (1, 1) es invertible (ve el ejercicio (1.41)). El teorema de la función implícita muestra entonces que
es posible despejar a u y v en términos de x, y y z.

313
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Aunque se puede utilizar la regla de la cadena para encontrar las derivadas es más conveniente
derivar una fórmula general utilizando el método empleado en la demostración del teorema de la
función implícita.
( 8.4.27 ) Con las hipótesis y notaciones del teorema de la función implícita se cumple que
 −1  
Dg (v1 ) = − Df2 (v2 ) Df1 (v1 ) .

Recuerda que si se pone φ(u1 ) = f(u1 , g(u1 )) para u1 ∈ T entonces φ es la función constante
idénticamente cero. Luego, su derivada es nula. Por otro lado, de la regla de la cadena, para cualquier
h ∈ V1 ,

0 = Dφ (v1 ) h = Df (v1 , g(v1 )) D(IV1 , g) (v1 ) h


 
= Df (v1 , v2 ) IV1 , Dg (v1 ) h = Df (v1 , v2 ) h, Dg (v1 ) h .

Se usa ahora la propiedad (6.3.4), lo cual nos permite concluir que

0 = Df1 (v1 ) h + Df2 (v2 ) Dg (v1 ) h.

Al ser esto válido para cualquier h ∈ V1 , se obtiene la igualdad entre transformaciones lineales. Con
esto, se llega a
0 = Df1 (v1 ) + Df2 (v2 ) Dg (v1 ) ,
con despejar Dg (v1 ) y usando que Df2 (v2 ) es invertible se concluye el resultado deseado.
( 8.4.28 ) Con las hipótesis y notaciones del teorema de la función implícita, T puede ser tomado de tal forma
que Df2 (g(u1 )) sea invertible para todo u1 ∈ T.
Pues se demostró que f2 es continuamente diferenciable (ve la prueba de (6.3.4)), por lo que la
función u2 7Ï Df2 (u2 ) es continua del abierto A1 (v1 , v2 ) a Lin (V2 , W ) . Al ser que Df2 (v2 ) ∈ L , el espacio
de transformaciones lineales invertibles, se observa que existe un abierto B tal que Df2 (v2 ) ∈ B ⊂ L
pues L es abierto (8.4.9.4). La imagen inversa de B por la función Df2 es un conjunto abierto (5.5.4)
que tiene a v2 como elemento. Basta considerar la intersección T ∩ Df2−1 (B) como el nuevo T.
( 8.4.29 ) Con las hipótesis y notaciones del teorema de la función implícita, se puede suponer que para todo
u1 ∈ T se cumple que
 −1  
Dg (u1 ) = − Df2 (g(u1 )) Df1 (u1 ) .
Observa que en la demostración de (6.3.4) el punto v2 solo se utilizó para concluir que Df2 (v2 ) fuese
invertible. Por lo tanto, esta misma expresión vale al sustituir v1 por u1 y v2 por g(u1 ) si Df2 (g(u1 )) es
invertible. Para conluir bastará ver entonces que Df2 (g(u1 )) es invertible para todo u1 suficientemente
cerca de v1 . Observa que, según (6.3.4), para cualesquier u2 ∈ A2 (v1 , v2 ) y h2 ∈ V2 ,

Df2 (v2 ) h2 − Df2 (u2 ) h2 = Df (v1 , v2 ) (0, h2 ) − Df (v1 , u2 ) (0, h2 ),

de donde, en virtud del ejercicio (5.71),

kDf2 (v2 ) − Df2 (u2 )k = máx kDf2 (v2 ) h2 − Df2 (u2 ) h2 k


kh2 k=1

= máx kDf (v1 , v2 ) (0, h2 ) − Df (v1 , u2 ) (0, h2 )k


kh2 k=1

≤ máx kDf (v1 , v2 ) − Df (v1 , u2 )k k(0, h2 )k ve (5.11.4)


kh2 k=1

≤ kDf (v1 , v2 ) − Df (v1 , u2 )k ve (6.3.1)

314
8.4. Optimización restringida.

y esta última tiende a cero cuando u2 → v2 pues f es de clase C1 . Luego, como Df2 (v2 ) ∈ L , el conjunto
de las funciones lineales invertibles de V2 a W , y este es un conjunto abierto (8.4.9.4), existe un abierto
B ⊂ L tal que Df2 (v2 ) ∈ B. La continuidad de Df2 muestra que T̃ = [Df2 ]−1 B es un conjunto abierto


de V2 . Luego, bastará considerar que T es el conjunto T ∩ T̃.

( 8.4.30 ) En el ejemplo (8.4.26) encuentra la primera derivada de (u, v) cerca de (0, 0, 1) y evalúe en el punto
(0, 0, 1).

Ya se sabe que (u, v) es una función de clase C1 cerca del punto (0, 0, 1). Se apela ahora a (8.4.29)
para encontrar la primera derivada. Se tiene que

F(x, y, z, u, v) = (3xu + 2yx − xyz − 4u + 6v 2 − 2, x 2 + y 2 + uvz)

entonces ï ò
3x − 4 12v
DF2 (u, v) =
vz uz
y ï ò
1 3x + 2y − yz 2x − xz −xy
DF (x, y, z) = .
2x 2y uv
En virtud del ejercicio (1.42) se tiene que
ï ò
 −1 1 uv −12v
DF2 (u, v) = .
(3x − 4)uz − 12v 2 z −vz 3x − 4

De donde,
ï òï ò
1 uv −12v 3x + 2y − yz 2x − xz −xy
D(u, v) (x, y, z) = .
(3x − 4)uz − 12v 2 z −vz 3x − 4 2x 2y uv

Finalmente, se evalúa, es decir, se pone x = y = 0 y z = u = v = 1. Se obtiene que

0 0 43
ï òï ò ï ò
1 1 −12 0 0 0
D(u, v) (0, 0, 1) = − = ,
16 −1 −4 0 0 1 0 0 41

que es la derivada buscada.

Observación: en el ejemplo previo se pudo haber empezado a derivar parcialmente la expresión

F(x, y, z, u, v) = (0, 0).

En este caso se hubieran obtenido seis ecuaciones, a saber


∂F ∂F ∂F
= (0, 0), = (0, 0) y = (0, 0),
∂x ∂y ∂z

las cuales tendrían seis incógnitas, a saber

∂u ∂u ∂u ∂v ∂v ∂v
, , , , y .
∂x ∂y ∂z ∂x ∂y ∂z

El lector decidirá en cada caso si es más fácil resolver el sistema de ecuaciones o invertir las matrices
apelando a (8.4.29).

315
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

z 8.4.6 El método de los multiplicadores de Lagrange.


Se regresa ahora al problema de optimización restringida. Recuerda que este había sido planteado
como
arg máx f(u1 , u2 ) s.a. F(u1 , u2 ) = 0.
Se había observado que si v podía despejarse en términos de u entonces el problema de optimización
restrignida se reducía al de optimización libre.
( 8.4.31 ) Sean V1 , V2 y W tres espacios vectoriales tales que V2 y W son isomorfos. Sean A ⊂ V1 × V2 un
abierto, F : A → W y f : A → R dos funciones. Además, se supondrá que f y F son diferenciables, con F de
clase C1 . Sea (v1 , v2 ) ∈ F −1 ({0}) un punto mínimo relativo local del problema
arg máx f(u1 , u2 ) s.a. F(u1 , u2 ) = 0.
Sea F2 como en (8.4.20). Si DF2 (v2 ) es invertible, existe un λ ∈ Lin (W , R) tal que
Df (v1 , v2 ) = λDF (v1 , v2 ) ;
el «método de los multiplicadores de Lagrange». A la ecuación Df (v1 , v2 ) = λDF (v1 , v2 ) se le conoce como las
«condiciones lagrangianas necesarias de primer orden».
En virtud del teorema de la función implícita (8.4.20), existen dos abiertos S ⊂ A con (v1 , v2 ) ∈ S y
T ⊂ A1 (v1 , v2 ) con v1 ∈ T y una función g : T → W , de clase C1 , tales que
(u1 , u2 ) ∈ S y F(u1 , u2 ) = 0
equivale a
u1 ∈ T y u2 = g(u1 ).
Se puede suponer que (u1 , u2 ) ∈ S Ñ f(u1 , u2 ) ≥ f(v1 , v2 ). De aquí se deriva que si u1 ∈ T entonces
f(v1 , v2 ) = f(v1 , v2 ) ≤ f(u1 , g(u1 )),
en particular, por ser f y g diferenciables, se sigue de las condiciones necesarias de primer orden
(8.1.10) que la derivada de la función φ : T → R dada por φ(u1 ) = f(u1 , g(u1 )) en el vector v1 debe ser
nula. Por la regla de la cadena

0 = Dφ (v1 ) = Df (v1 , g(v1 )) D(IV1 , g) (v1 ) = Df (v1 , v2 ) IV1 , Dg (v1 ) .
En virtud de (6.3.4), se llega a que para cualquier h ∈ V1 ,
0 = Dφ (v1 ) h = D1 f (v1 , v2 ) h + D2 f (v1 , v2 ) Dg (v1 ) h = Df1 (v1 ) h + Df2 (v2 ) Dg (v1 ) h.
En (8.4.27) se encontró el valor de Dg (v1 ) en términos de las derivadas parciales de F. Sustituyendo se
ve que
0 = Df1 (v1 ) − Df2 (v2 ) [DF2 (v2 )]−1 DF1 (v1 ) .
Define λ = Df2 (v2 ) [DF2 (v2 )]−1 . Es claro que λ ∈ Lin (W , R) puesto que [DF2 (v2 )]−1 ∈ Lin (W , V2 ) y que
Df2 (v2 ) ∈ Lin (V2 , R) . Luego, despejando Df1 (v1 ) se encuentra que
Df1 (v1 ) = λDF1 (v1 ) .
Asimismo, nota que Df2 (v2 ) = λDF2 (v2 ) . Finalmente, para cualquier (h, k) ∈ V1 × V2 ,
Df (v1 , v2 ) (h, k) = D1 f (v1 , v2 ) h + D2 f (v1 , v2 ) k = Df1 (v1 ) h + Df2 (v2 ) k
 
= λDF1 (v1 ) h + λDF2 (v2 ) k = λ DF1 (v1 ) h + DF2 (v2 ) k

= λ DF (v1 , v2 ) (h, k) .

316
8.4. Optimización restringida.

Esto permite concluir la igualdad


Df (v1 , v2 ) = λDF (v1 , v2 ) ,
que es lo que se quería demostrar.

Observación: el teorema se puede especializar al caso V1 = Rn y V2 = W = Rm . En este caso se


obtiene que Lin (W , R) se identifica con Mat1×m (R) . Escribe v1 = X y v2 = Y , por lo que las condiciones
lagrangianas necesarias de primer orden toman la forma más común

Df (X, Y ) = λDF (X, Y ) = λD1 F (X, Y ) , . . . , λDn+m F (X, Y ) ;
esto se suele escribir como un sistema de ecuaciones
D1 f (X, Y ) = λ1 D1 F1 (X, Y ) + . . . + λm Dm Fm (X, Y )
.. .. ..
. . .
D1 f (X, Y ) = λ1 D1 F1 (X, Y ) + . . . + λm Dm Fm (X, Y )
Cuando m = 1 se reduce al «método clásico de Lagrange»
Di f (x, y) = λDi F (x, y) , i = 1, . . . , n + m.
En los ejemplos se verá la conveniencia de la escritura de (8.4.20), por lo que estos dos resultados
previos no se utilizarán.

Interpretación: considera f : R2 → R y S = F −1 ({0}) con F : R2 → R. Observa que S será una curva


y cruzará muchas curvas de nivel, Nc = {(x, y) ∈ R2 : f(x, y) = c}, de f. Entonces, conforme se mueva
un punto sobre la curva S este incrementará o decrementará el valor de c, esto será posible siempre
que las tangentes de S y Nc no sean paralelas y solo cuando estas tangentes coinciden puede darse
un valor extremo. Considera el caso en que S = {(t, t 3 ) ∈ R2 |t ∈ R} y los conjuntos de nivel Nc son
líneas de la forma {(x, y) ∈ R2 |y = c}. Entonces, cuando t = 0, la tangente a S tiene por dirección el
vector (1, 0) misma que la curva de nivel N0 . Sin embargo, con hacer t crecer un poco más se empizan
a cruzar curvas Nc para c > 0 y no hay ningún óptimo.
El caso general puede plantearse de igual manera, pero en este los conjuntos de nivel son super-
ficies con cierta dimensión que intersectarán a S de cierto modo. Solo en el caso en que los planos
tangentes coinciden puede darse un óptimo. Se puede pensar en el mismo ejemplo de antes, aquí
S = {(x, y, x 3 )|(x, y) ∈ R2 } y Nc = {(x, y, z)|z = c}. Entonces, el plano tangente a S en el punto (0, 0, 0)
coincide con el de N0 , pero no existe óptimo.
Ahora un ejemplo clásico de aplicación.
( 8.4.32 ) Sea f(x, y) = x 2 − y 2 y S1 el círculo unitario. Resuelve el problema
arg máx f(x, y) s.a. (x, y) ∈ S1 .
Observa que S = F −1 ({0}), en donde F = kk2 . Luego, si (p, q) es un punto crítico entonces existe
λ ∈ R tal que Df (p, q) = 2λ(p, q). Pero Df (p, q) = 2(p, −q). Entonces se resuelven las ecuaciones

 p = λp
q = −λq
 2
p + q 2 = 1.
De la tercera ecuación (p, q) 6= (0, 0). Si p = 0, se deriva que q = ±1 y λ = ∓1. Los puntos críticos son
entonces (0, ±1). Si p 6= 0 entonces λ = 1 y q = 0, por lo que p = ±1. Los puntos críticos son cuatro,
los valores de f en ellos son
f(0, ±1) = −1 y f(±1, 0) = 1.
Como S1 es compacto, f alcanza sus extremos. Por lo tanto, (0, ±1) son minimizadores y (±1, 0) son
maximizadores.

317
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Observación: el método de los multiplicadores de Lagrange es una condición necesaria para que un
punto (v1 , v2 ) en la restricción implicita F(u1 , u2 ) = 0 sea óptimo. Esta no es una condición suficiente,
tal como lo se mostrará a continuación.

( 8.4.33 ) Considera la función f(x, y) = x 2 +y 2 y F(x, y) = 3x +2y +20, ¿existe algún punto (p, q) ∈ F −1 ({0})
tal que (p, q) resuelve el siguiente problema de maximización?

arg máx f(x, y) s.a. F(x, y) = 0.

Observa que DF (p, q) = (3, 2), por lo que para cada Fp es invertible para cualesquier p y q. De
acuerdo al método de multiplicadores de Lagrange, si (p, q) es un óptimo, existe un λ ∈ R tal que

Df (p, q) = λDF (p, q) .

Es decir,
2(x, y) = (3, 2),
3 13
en consecuencia, el único candidato a resolver el problema es x = y y = 1. Pero f( 32 , 1) = . Sea
2 4
ε > 0 entonces
13 13ε2
Å ã Å ã
3 ε ε 3
f − ,1 + = + −ε >f ,1 .
2 3 2 4 36 2
Esto muestra que el problema no tiene solución, aún cuando hay un punto candidato.
Este ejemplo mostró que aún cuando haya puntos candidatos, los cuales serán llamados «puntos crí-
ticos», no es obligatorio que tales puntos críticos resuelvan el problema de maximización. Sin embargo,
en el ejemplo previo el punto es un mínimo, por lo que sí es un óptimo. A continuación un ejemplo en
donde existe un punto crítico que no es óptimo.

( 8.4.34 ) Sea S la superficie definida por los (x, y, x 3 ) ∈ R3 tales que (x, y) ∈ R2 . Considera la función
f(x, y, z) = z. Demuestra que ningún punto crítico de f es óptimo en la reestricción f .

S

3
Aquí S queda determinada por la función F(x, y, z) = z − x ; es decir

S = F −1 ({0}),

lo cual es inmediato de verificar. Ahora, de acuerdo al método de los multiplicadores de Lagrange, si


(p, q, r) es un punto óptimo, entoces existe un λ ∈ R tal que

(0, 0, 1) = Df (p, q, r) = λDF (p, q, r) = λ(−3p2 , 0, 1).

Inmediatamente se deriva que λ = 1 y que p = 0; es decir, cualquier punto de la forma (0, y, 0) es punto
crítico. Sea y ∈ R cualquiera, se verá que (0, y, 0) no es maximizador ni minimizador
√ de f. Sea ε > 0, los
punto (ε, y, ε3 ) y (−ε, y, −ε3 ) están en S y distan de (0, y, 0) la cantidad ε 1 + ε4 . La función f en estos
puntos alcanza los valores ε3 > 0 y −ε3 < 0. Por lo tanto, (0, y, 0) ni es maximizador ni es minimizador,
tal como se afirmó.

( 8.4.35 ) Sean a1 , . . . , an ≥ 0 entonces


√ a1 + . . . + an
n
a1 · · · an ≤ ;
n
la «desigualdad entre la media geométrica y aritmética».

318
8.4. Optimización restringida.

Considera la función f(x1 , . . . , xn ) = x12 · · · xn2 , la cual será maximizada sobre

Sn−1 = {X ∈ Rn | kXk2 = r 2 }.
Entonces, de acuerdo al método de los multiplicadores de Lagrange, si (x1 , . . . , xn ) ∈ Sn−1 es un óptimo
de f entonces existe un λ ∈ R tal que
2x1 · · · xn (x2 · · · xn , x1 x3 · · · xn , . . . , x1 · · · xn−1 ) = Df (x1 , . . . , xn ) = λ2(x1 , . . . , xn ).
Como f ≥ 0 y f(x1 , . . . , xn ) = 0 si alguno de los xi = 0, se puede ver que los mínimos de f son aquellos
puntos de Sn−1 en los que alguna coordenada se anula. Como se busca un máximo y Sn−1 es compacto,
tal máximo existe. Luego, se supondrá que x1 · · · xn > 0. Por lo tanto, se derivan las ecuaciones
(1) x22 x32 · · · xn2 = λ
(2) x12 x32 · · · xn2 = λ
.. .. ..
. . .
(n) x12 x22 · · · xn−1
2
= λ.
Como x1 · · · xn > 0, λ > 0, por lo tanto, diviendo la ecuación (i) por la ecuación (j) se encuentra que
xi2 = xj2 . De donde, como (x1 , . . . , xn ) ∈ Sn−1 se llega a que

r 2 = x12 + . . . + xn2 = nx12


r r
y, en consecuencia, x1 = ± √ . Análogamente, xi = ± √ . Para cualquiera de los 2n puntos críticos
n Ç ån n
r2
encontrados, se llega a que f(x1 , . . . , xn ) = , que por existencia, debe ser el máximo buscado.
n
Luego, se puede concluir que para cualesquier x12 , . . . , xn2 con x12 + . . . + xn2 = r 2
» r2 x 2 + . . . + xn2
n
x12 · · · xn2 ≤ = 1 .
n n
Finalmente, basta poner r 2 = a1 + . . . + an y xi2 = ai .
1 1
( 8.4.36 ) Sean u, v ≥ 0 y α > 0, β > 0 tales que + = 1. Entonces
α β
uα vβ
uv ≤ + .
α β
En consecuencia, si u1 , . . . , un y v1 , . . . , vn son números no negativos arbitrarios en los que al menos un ui y un
vj son positivos entonces
n n
! α1 n
! β1
β
X X X
α
ui vi ≤ ui vi ;
i=1 i=1 i=1
la «desigualdad de Hölder». Finalmente, concluir que la función
Ã
Xn
(x1 , . . . , xn ) 7Ï k(x1 , . . . , xn )kp = p
|xi |p
i=1

es una norma en Rn siempre que p ≥ 1. A la desigualdad triangular


kX + Y kp ≤ kXkp + kY kp
se le llama «desigualdad de Minkowski».

319
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Observa primeramente que si uv = 0 entonces la desigualdad es trivial. Luego, basta dar el resultado
en el caso uv > 0. Por otro lado, si la desigualdad es válida para todos los uv = 1 entonces para t > 0
Ä 1 äα Ä 1 äβ
ut α vt β
Ç å
Ä 1äÄ 1ä uα vβ
ut α vt β = tuv ≤ t + = + .
α β α β

Por lo tanto, basta demostrar la desigualdad en el caso en que uv = 1. Se va a resolver el problema

uα vβ
arg mı́n + s.a. uv = 1, u > 0.
α β

De acuerdo al método de los multiplicadores de Lagrange (8.4.31), si existe un punto (u, v) que resuelve
el problema entonces existe un λ ∈ R tal que

uα−1 , v β−1 = λ(v, u).




Como uv 6= 0 se ve que λ 6= 0, por lo tanto, diviendo una ecuación por la otra, se llega a que

uα−1 v
β−1
=
v u
β
y, por lo tanto, uα = v β , o bien, u = v α . De esto, se deriva que v = 1 y, por tanto, u = 1. Luego, el punto
(1, 1) es el único candidato a mínimo.
( 8.4.36.1 ) Existe una solución al problema de minimización.
uα v β
Se utilizará un método denominado «de sucesiones minimizadoras». Sea f(u, v) = + entonces
α β
f ≥ 0, por lo que si S = {(u, v)|uv = 1} entonces se ve que f(S) ⊂ [0, ∞). Por lo tanto, existe m = ı́nf f(S).
Luego, hay una sucesión (Yn )n∈N definida en f(S) tal que Yn → m. Cada conjunto {X ∈ S|f(X) = Yn } es no
vacío, según el axioma de elección (2.2.4) existe una sucesión r : N → S tal que r(n) ∈ {X ∈ S|f(X) = YN }.
La sucesión r está definida en S y es acotada. Pues si r(n) = (un , vn ) y un → ∞, por ser vn ≥ 0 se
observa que
β
uα vn uα
f(r(n)) = n + ≥ n → ∞.
α β α
Sucede lo mismo si vn → ∞. En cualquiera de estos dos casos Yn = f(r(n)) → ∞, que contradice
la definición de la sucesión (Yn )n∈N . Ahora bien, en virtud del teorema de Bolzano-Weierstrass (3.5.3)
existe una subsucesión r ◦ φ de r tal que r ◦ φ converge a cierto P. Es claro que P ∈ S pues S es cerrado
ya que coincide con g −1 ({1}) para g(u, v) = uv (ve (5.5.6)). Por la continuidad de f,
 
f(P) = f lı́m r(φ(n)) = lı́m f(Yφ(n) ) = m,
n→∞ n→∞

en donde la última igualdad se deriva del ejercicio (2.14).


( 8.4.36.2 ) Se cumple la desigualdad

uα vβ
1≤ + , ∀u, v ≥ 0, uv = 1.
α β
Pues como existe el mínimo y hay un solo candidato a mínimo, tal candidato es minimizador.
( 8.4.36.3 ) Vale la desigualdad de Hölder.

320
8.4. Optimización restringida.

Se aplica la primera desigualdad a cada uno de los pares de números


ui vi
n
! α1 y n
! α1 ,
X X
uiα viα
i=1 i=1

obteniendo que
β
u i vi uiα vi
Ñ é α1 Ñ é β1 ≤ n + n .
n n β
X X
X X β α ujα β vj
ujα vj j=1 j=1
j=1 j=1

Con sumar todos los términos correspondientes a i = 1, . . . , n, se obtiene que


n n n
β
X X X
u i vi uiα vi
i=1 i=1 i=1 1 1
Ñ é α1 Ñ é β1 ≤ n + n = + = 1.
α β
n n β
X X
X X β α ujα β vj
ujα vj j=1 j=1
j=1 j=1

Que es la desigualdad de Hölder.


( 8.4.36.4 ) Vale la desigualdad de Minkowski.
Pues el caso p = 1 ya fue demostrado en el ejercicio (1.1). Ahora, supón que p > 1 y sea q tal que
1 1
+ = 1. Sean X = (x1 , . . . , xn ) y Y = (y1 , . . . , yn ) en Rn . Entonces
p q
n
X n
X
kX + Y kpp = |xi + yi |p = |xi + yi ||xi + yi |p−1
i=1 i=1
n
X n
X
p−1
= |xi ||xi + yi | + |yi ||xi + yi |p−1
i=1 i=1
n
! p1 n
! q1 n
! p1 n
! q1
X X X X
p q(p−1) p q(p−1)
≤ |xi | |xi + yi | + |yi | |xi + yi | ,
i=1 i=1 i=1 i=1

p
en donde la última desigualdad es la de Hölder poniendo α = p y β = q. Observa que q = , por
p−1
lo que (p − 1)q = p. Luego, sustituyendo, se ve que
p p Ä ä p

kX + Y kpp ≤ kXkp kX + Y kpq + kY kp kX + Y kpq = kXkp + kY kp kX + Y kpq .


p
p
Dividiendo ambas expresiones por kX + Y kpq y usando que p − = 1, se concluye que
q
kX + Y kp ≤ kXkp + kY kp ,

que es la desigualdad de Minkowski.


El teorema de Lagrange da condiciones necesarias de primer orden para la existencia de un extremo.
Ahora se dará una condición suficiente de segundo orden.

321
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

( 8.4.37 ) Sean V1 , V2 y W tres espacios vectoriales normados tales que V2 y W son isomorfos. Se supondrá que
A ⊂ V1 × V2 es un abierto, que f : A → R y F : A → W son dos funciones dos veces diferencibales, con F de
clase C2 . Asimismo, se partirá de la hipótesis de que (v1 , v2 ) ∈ F −1 ({0}) es mínimo relativo local del problema
de maximización restringida. Define la función F2 : A2 (v1 , v2 ) → W dada por F2 (u2 ) = F(v1 , u2 ) y supón que
DF2 (v2 ) es invertible. Sea λ ∈ Lin (W , R) tal que

Df (v1 , v2 ) = λDF (v1 , v2 )

el cual existe según (8.4.31). Sea g como en el teorema de la función implícita; es decir, existe un S ⊂ A y un
T ⊂ A1 (v1 , v2 ) tales que las (u1 , u2 ) ∈ S, F(u1 , u2 ) = 0 ⇔ u1 ∈ T, g(u1 ) = u2 . Define L : T → R, la «función
de Lagrange» por
L(u1 ) = f(u1 , g(u1 )) − λF(u1 , g(u1 )).
Entonces,

1. si HessL (v1 ) es una forma cuadrática definida positivamente, el punto (v1 , v2 ) es mínimo local estricto del
problema restringido;

2. si HessL (v1 ) es una forma cuadrática definida negativamente, el punto (v1 , v2 ) es máximo local estricto
del problema restringido;

3. si HessL (v1 ) es una forma cuadrática que está no definida entonces (v1 , v2 ) es un punto de ensilladura;

las «condiciones lagrangianas suficientes de segundo orden».

En efecto, se calcula la primera derivada de L. Se utilizará la regla de Leibniz (5.7.6) y la regla de la


cadena (5.7.3). Entonces,

DL (u1 ) = Df (u1 , g(u1 )) (IV1 , Dg (u1 )) − λDF (u1 , g(u1 )) (IV1 , Dg (u1 )) .

Por ende,

DL (v1 ) = Df (v1 , g(v1 )) − λDF (v1 , g(v1 )) (IV1 , Dg (v1 )) = 0
pues g(v1 ) = v2 y Df (v1 , v2 ) = λDF (v1 , v2 ) . Luego, v1 es punto crítico de L. En acuerdo con las hipótesis
hechas sobre HessL (v1 ) , se concluye que v1 es minimizador estricto local, maximizador estricto local
o punto de ensilladura según HessL (v1 ) esté definida positivamente, negativamente o esté no definida
(ve (8.1.20)). Si u1 ∈ T entonces g(u1 ) = u2 y F(u1 , u2 ) = 0, por lo que L(u1 ) = f(u1 , u2 ). Luego, la
optimalidad de L en v1 se preserva para la optimalidad de f en (v1 , v2 ). Esto concluye el teorema.

Observación: aún con todos los teoremas y ejemplos desarrollados aún no se pueden determinar
condiciones para que una función Rn → R con primera y segunda derivada nula en un punto tenga
óptimo. En los ejercicios se dan condiciones suficientes para una función de clase Cp cuya p-ésima
derivada es la primera en no ser nula.

§ 8.5. Ejercicios.
( 8.1 ) Se dice que una función f : A ⊂ V → W es localmente constante en v ∈ A si existe un r > 0 tal que para
todo u ∈ B (v; r) ∩ A se cumple que f(u) = f(v). Si f es localmente constante en v entonces v es un maximizador
y minimizador de f. El recíproco también es cierto.

322
8.5. Ejercicios.

˚
( 8.2 ) Sea f : I → R convexa. Para cada [a, b] ⊂ ÛI, f es k-lipschitziana para alguna k adecuada, ve (5.11.3).
M −m
Sugerencia: existe ε > 0 tal que [a − ε, b + ε] ⊂ I. Sea k = , en donde M es cota superior de f
ε
y−x
sobre [a − ε, b + ε] y m es cota inferior. Dados a ≤ x < y ≤ b pon z = y + ε y λ = , deduce que
ε+y−x
λz + (1 − λ)x = y. Concluye usando la propiedad de convexidad.
( 8.3 ) Sea f : I → R en donde I ⊂ R es un intervalo. Una condición necesaria y suficiente para que f sea convexa
es que su epigráfica Ep(f) = {(x, z) ∈ R2 |z ≥ f(x)} sea un conjunto convexo.
( 8.4 ) Considera f : A ⊂ V → R una función convexa. Para cualesquier v1 , . . . , vk ∈ A y λ1 , . . . , λk ∈ [0, 1] tales
Xk
que λi = 1 se satisface que
i=1

f(λ1 v1 + . . . + λk vk ) ≤ λ1 f(v1 ) + . . . + λk f(vk );

la «desigualdad de Jensen».
( 8.5 ) X 7Ï kXk de V a R es una función convexa; esto es, cualquier norma es una función convexa.
Sugerencia: recuerda las desigualdades del triángulo.
( 8.6 ) La envolvente convexa de Sn−1 = {X ∈ Rn | kXk ≤ 1} es B0 (0; 1) .
( 8.7 ) Si A ⊂ V es un conjunto convexo y T : V → W es afín entonces T(A) es convexo.
( 8.8 ) Si A ⊂ W es un conjunto convexo y T : V → W es afín entonces T −1 (A) es convexo.
( 8.9 ) Si C es convexo entonces su envolente convexa coincide consigo mismo.
( 8.10 ) Si S ⊂ C con C un conjunto convexo, la envolvente convexa de S está contenida en C.
( 8.11 ) La intersección de cualquier familia de subconjuntos convexos de V es un subconjunto convexo de V .
( 8.12 ) Sean A ⊂ V y B ⊂ W convexos. Entonces A × B ⊂ V × W es convexo.
( 8.13 ) Se dirá que una función f : A ⊂ V → Lin (V , R) , donde A es un abierto en V , es una función creciente
si para cualesquier u, v ∈ A se cumple que

(f(u) − f(v))(u − v) ≥ 0.

Entoces, esta noción es la misma que (8.2.7) cuando V = R y Lin (R, R) se identifica con R. Asimismo, con esta
definición más general, una condición necesaria y suficiente para que una función diferenciable f : A ⊂ V → R,
con A un abierto y convexo, sea convexa es que Df sea creciente.
Sugerencia: para la necesidad utiliza (8.2.38). Para la suficiencia considera la función φ(λ) = f(λu + (1 − λ)v),
para λ ∈ [0, 1]. Demuestra que φ0 es creciente y concluye.
( 8.14 ) Sean f, g : A ⊂ V → R funciones convexas y λ > 0. Las siguientes son funciones convexas f + λg, y
λ máx{f, g}. Si f(A) es un intervalo y φ : f(A) → R es convexa y creciente entonces φ(f) es convexa. Si A = V
entonces u 7Ï f(Lu + b), en donde L ∈ Lin (U, V ) y b ∈ U es convexa sobre U.
( 8.15 ) Encuentra las medidas de los ángulos de todos los triángulos tales que el producto de los senos de sus
ángulos sea máximo.
Sugerencia: recuerda que los ángulos se miden en radianes y que sin(π − t) = sin t para cualquier t ∈ R.
( 8.16 ) Calcula la distancia del plano P al origen en cada uno de los siguientes casos:

323
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

1. P = {y = mx + b};
2. P = {tA + B}, A, B ∈ Rn ;
3. P = {(x, y, z) · (a, b, c) = 5};
4. P = {λ(1, 1, 0, −1) + µ(0, 0, 1, 1) + (2, −1, −1, 0)|(λ, µ) ∈ R2 }.
n
X
( 8.17 ) Dados n puntos A1 , . . . , An ∈ Rk encontrar todos los puntos X ∈ Rk tales que kX − Ai k2 sea
i=1
mínimo; el «método de mínimos cuadrados».
Sugerencia: la función a miminizar es convexa. Escribe kX − Ai k2 = hX − Ai , X − Ai i y utiliza la forma que
tiene la derivada de un producto, la regla de Leibniz.
( 8.18 ) La función (x1 , . . . , xn ) → (x13 , . . . , xn3 ) es un homeomorfismo de Rn a Rn .
( 8.19 ) La función (x, y) 7Ï (x 2 +y 2 , x 2 −y 2 ) es un C1 -difeomorfismo sobre algunos conjuntos abiertos A, B ⊂ R2 .
Encuentra dos subcojuntos maximales A y B donde dicha función sea C1 -difeomorfismo; esto es, si F tal función,
encontrar dos subconjuntos A y B tales que F : A → B sea difeomorfismo y si A ⊂ C es un subconjunto para el
cual F restringida a C es difeomorfismo entonces C ⊂ A.
Sugerencia: observa que dado A, B queda determinado por B = F(A). Además, F es de clase C∞ , por lo que
esto no brinda mucha información acerca de cómo escgoer a A. Intenta calcular la inversa de F, encontrar B y
poner A = F −1 (B).
( 8.20 ) Repita el ejercicio anterior con (x, y) 7Ï (ex , ey ) y con (x, y) 7Ï (ex + ey , ex − ey ).
( 8.21 ) Toda función que sea fuertemente diferenciable en un punto, es también diferenciable en ese punto. En
este caso, las derivadas coinciden.
( 8.22 ) Una condición necesaria y suficiente para que F = (f1 , . . . , fm ) : A ⊂ V → W sea fuertemente
˚
diferenciable en v ∈ A
Û es que cada fi lo sea.
˚
( 8.23 ) Una condicion necesaria y suficiente para que f : A ⊂ V → W sea fuertemente diferenciable en v ∈ A
Û
es que exista un ψ tal que para todo h y k cercano a v,

f(h) − f(k) = Df (v) (h − k) + kh − kk ψ(h, k)

y
lı́m ψ(h, k) = 0.
(h,k)→(v,v)

( 8.24 ) Sea f : [0, 1] → R continua tal que f(0)f(1) < 0. Entonces, la sucesión definida recursivamente mediante
1 1
a1 = y an = an−1 si f(an−1 ) = 0 o bien, |an − an−1 | = n con f(an )f(an−1 ) ≤ 0 si f(an−1 ) 6= 0 constituyen
2 2
unas aproximaciones sucesivas a una raiz de f. Esto es, (an )n∈N converge a cierto punto a ∈ [0, 1] y f(a) = 0; el
«método de bisección».
Sugerencia: para encontrar el punto a verifique la sucesión (an )n∈N es de Cauchy, concluya con (2.3.14). Una
vez que tenga el punto a utiliza que f es uniformemente continua para verificar que para cualquier ε > 0 dado,
|f(a)| < ε.
( 8.25 ) Sea f : C → C con C ⊂ V compacto y f una contracción. Existe un punto v ∈ C y solo uno que
satisface f(v) = v; el «teorema de contracción de Banach». A un v que satisfaga esto se le denomina punto fijo.
Sugerencia: escoge cualquier v0 ∈ C y define las aproximaciones sucesivas vn = f(vn−1 ). Verifica que vn es de
Cauchy, por lo que converge. El límite es un punto fijo, esto demuestra la existencia. La unicidad es muy fácil,
supón que hay dos puntos fijos y utiliza la condición lipschitziana.

324
8.5. Ejercicios.

1 x
( 8.26 ) Considera la función f(x) = x 2 sin + si x 6= 0 y f(0) = 0. Entonces, f es diferenciable en el origen
x 2
y su derivada es invertible ahí pero no existe ninguna vecindad del origen en donde f sea inyectiva.
Sugerencia: procede a demostrar que para todo ε > 0 la ecuación f 0 (x) = 0 posee solución sobre (0, ε].
Demuestra que si f 0 (ξ) = 0 entonces f 00 (ξ) 6= 0. Utiliza (8.1.20) para concluir que f no puede ser inyectiva en
cualquier bola centrada en ξ.

( 8.27 ) Sean V y W dos espacios vectoriales isomorfos. Sea L ⊂ Lin (V , W ) el conjunto de las transformaciones
lineales invertibles y L −1 = {T −1 |T ∈ L }. La función φ : L → L −1 dada por φ(T) = T −1 es diferenciable. De
hecho, su derivada está dada por
Dφ (T) H = −T −1 HT −1 .
d −1  1
Esta es la fórmula clásica t = − 2 cuando V = W = R y Lin (R, R) se identifíca con R. Observa que el
dt t
producto de transformaciones lineales no es conmutativo.
Sugerencia: ya sabes que

φ(T − H) − φ(T) + T −1 HT −1 = (IRn − T −1 H)−1 − IRn + T −1 H T −1 ,


 

lo cual es consecuencia de la demostración de (8.4.9.5). También ya sabes que



X
(IV − T −1 H)−1 = IV + T −1 H + (T −1 H)k ;
k=2

concluya que
−1 3

2
T kHk
−1 −1
φ(T − H) − φ(T) + T HT ≤ = o(kHk).

1 − T −1 kHk

( 8.28 ) Sea L ⊂ Lin (V , W ) el conjunto de las transformaciones lineales invertibles y L −1 = {T −1 |T ∈ L }.


La función φ : L → L −1 dada por φ(T) = T −1 es indefinidamente diferenciable.
Sugerencia: define
ψ : Lin (W , V ) × Lin (W , V ) → Lin (Lin (V , W ) , Lin (W , V ))
por ψ(S, T) es la transformacion lineal de Lin (V , W ) a Lin (W , V ) dada por, para R ∈ Lin (V , W )

ψ(S, T)R = −SRT.

Entonces, ψ es bilineal, por lo que es indefinidamente diferenciable y, además Dφ = ψ(φ, φ), luego, si φ es p
veces diferenciable, también Dφ.

( 8.29 ) Sea L y φ como en el ejercicio (8.27); la derivada p-ésima de φ está dada por
X
φ(T)(H1 , . . . , Hp ) = (−1)p T −1 ◦ Hσ(1) ◦ T −1 ◦ . . . ◦ T −1 ◦ Hσ(p) ◦ T −1 .
σ∈Sp

Sugerencia: aplique inducción.

( 8.30 ) Sea φ : L → L como en el ejercicio (8.27), un desarrollo limitado de φ en T está dado por
n
X
H 7Ï (−1)k (T −1 H)k T −1 .
k=0

325
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

Ñ é
1
Tal desarrollo converge absolutamente cuando n → ∞ para H en la bola B 1;
−1 . De hecho, en ese
T

X 1
caso, φ coincide con la serie (1−)k (T −1 H)T −1 ; esto es, si kHk <
−1 entonces

k=0 T
" n
#
X
lı́m φ(T + H) − (−1)k (T −1 H)k T −1 = 0.
n→∞
k=0

Este es un primer ejemplo no trivial de una función real y de varias variables la cual posee un «desarrollo ilimitado»
en cualquier punto de su dominio. Es importante destacar que tal desarrollo ilimitado depende del punto T de
expansión.

( 8.31 ) Sean V y W dos espacios vectoriales isomorfos. Se supondrá que f : A ⊂ V → W es de clase Cp . Si


˚
Df (v) es invertible para algún v ∈ A
Û entonces existe un abierto S ⊂ A con v ∈ S y f es un Cp -difeomorfismo
sobre S.
Sugerencia: aplica inducción y utiliza el hecho que

Df −1 = φ ◦ Df ◦ f,

donde φ está definida en (8.28).

( 8.32 ) En el teorema de la función implícita (8.4.20), si f es de clase Cp entonces g también.

( 8.33 ) Sean A ⊂ V1 × V2 un abierto y S ⊂ A una superficie (o sea, cualquier contjunto) para la cual existe
una función f : A ⊂ V1 × V2 → W tal que S = f −1 ({0}). Supón que para cierto (v1 , v2 ) ∈ S se cumple
que Df2 (v2 ) es invertible, donde f2 : A2 (v1 , v2 ) → W está dada por f2 (u2 ) = f(v1 , u2 ). Entonces de acuerdo al
teorema de la función implícita hay dos abiertos S ⊂ A con (v1 , v2 ) ∈ S y T ⊂ A1 (v1 , v2 ) con v1 ∈ T tales que
u1 ∈ T, g(u1 ) = u2 ⇔ (u1 , u2 ) ∈ S, (u1 , u2 ) ∈ S . Entonces, g = S ∩ S (ve la definición general de función
(2.1.1)). Más aún, TP g = T(v1 ,v2 ) S , ve (5.9.1). En particular, este resultado afirma que, suponiendo cierta
regularidad en S , localmente la superficie S es la gráfica de una función; en terminos más técnicos, cerca del
punto (v1 , v2 ) ∈ S existe una «carta» ((v1 , v2 ), T, g), donde g es el «sistema de coordenadas» locales de la
carta.

( 8.34 ) Aquí se da otra demostración del teorema de Lagrange en el caso en que V1 = Rn y V2 = W = Rm .


Supón que A ⊂ Rn+m es un abierto, F : A → Rm , S = F −1 ({0}) y f : A → R. Además, se supondrá que
(v1 , v2 ) ∈ S es tal que DF2 (v2 ) es invertible, donde F2 : A2 (v1 , v2 ) → Rm está dada por F2 (u2 ) = F(v1 , u2 ), y
es solución del problema
arg máx f(u1 , u2 ) s.a. (u1 , u2 ) ∈ S
Entonces existen números λ1 , . . . , λm ∈ Rm tales que
m
X
Df (v1 , v2 ) = λi DFi (v1 , v2 ) .
i=1

Sugerencia: observa que


DF2 (v2 ) k = DF (v1 , v2 ) (0, k),
por lo que dim Ran (DF (v1 , v2 )) ≥ m, y en consecuencia, dim Ran (DF (v1 , v2 )) = m. Por lo tanto, los vectores
DF1 (v1 , v2 ) , . . . , DFm (v1 , v2 ) son linealmente independientes. Observa ahora que el plano tangente a S sobre el

326
8.5. Ejercicios.

punto (v1 , v3 ) es, por definición, Nuc (DF (v1 , v2 )) trasladado a (v1 , v2 ), por lo que la dimensión de T(v1 ,v2 ) S es
n, ve (1.4.13). Considera entonces el espacio ortogonal del núcleo de la derivada de F en (v1 , v2 ),

Nuc (DF (v1 , v2 ))⊥ = {X ∈ Rn | hX, Y i = 0, ∀Y ∈ Nuc (DF (v1 , v2 ))}.

En virtud del ejercicio (1.45), tal espacio tiene dimensión m. Todos los vectores DFi (v1 , v2 ) pertenecen a este
espacio ortogonal, en consecuencia, son una base de él. Finalmente, Df (v1 , v2 ) pertenece a Nuc (DF (v1 , v2 ))⊥ ,
por lo que Df (v1 , v2 ) se puede escribir como combinación lineal de cualquier base.
( 8.35 ) Considera una función V → R p veces diferencibale en v y tal que sus primeras p − 1 derivadas son cero
en v. Sea T la p-ésima derivada de esta función en v. Si T h(p) > 0 para cualquier h ∈ V \ {0} entonces la
función tieneÄun mínimo en Äv. Elämismo resultado para > y máximo. Si hay dos vectores h1 y h2 no nulos para
(p) (p)
ä
los cuales T h1 > 0 y T h2 < 0 entonces la función tiene un punto de ensilladura en v.

327
Capítulo 8. Optimización libre y restringida, funciones convexas y teoremas de la función
inversa e implícita.

328
Parte II

Desarrollo del cálculo integral.

329
Capítulo 9

• Área de conjuntos.

En este corto capítulo se estudiará el cómo medir el volumen de ciertos conjuntos. Se buscará
motivar la definición a partir de la noción de áreas y extender esta idea a dimensiones superiores.
Estas definiciones conducirán naturalmente a la medida de Jordán (ve [7]). Se estudiarán propiedades
de los conjuntos que pueden medirse en el sentido de Jordán y esto será un primer paso hacia la teoría
de integración que se empezará a generalizar. Cabe destacar que la construcción siguiente solo se hará
en Rn por la naturaleza en la estructura que poseen los intervalos.

§ 9.1. ¿Qué es el área?


El término área es un concepto intrínseco que solo puede aprenderse a manera inuituiva durante
el desarrollo humano. Es dificil encontrar una definición de área en términos de otras palabras que
describan su significado. Luego, más que interesarnos en llegar a una definición la palabra área se
buscará definir qué conjuntos tienen área o mejor dicho, a qué conjuntos se les puede medir el área.
Intuitivamente, el área de una región es el número de cuadrados, de cierta longitud unitaria dada,
que pueden ser admitidos dentro de dicha región. Evidentemente tomar esto como definición tiene
complicaciones naturales; piensa, por ejemplo, ¿qué significan admitir π cuadrados unitarios dentro de
un círculo?. Entonces, se seguirá un poco la línea que se utilizó al definir longitud de arco. Conviene
volver a leer esa sección.

( 9.1.1 ) Un intervalo cerrado en n dimensiones («n-dimensional») es un producto de n intervalos [ak , bk ] ⊂ R


Yn
con ak ≤ bk , para k = 1, . . . , n. Se define la medida del volumen según Jordán de R = [ak , bk ] por
k=1
n
Y
vol (R) = (bk − ak ). Al intervalo [ak , bk ] se le llamará k-ésimo subintervalo generador de R. Cualquiera de los
k=1
2n puntos (x1 , . . . , xn ) con xk ∈ {ak , bk } recibirá el nombre de vértice de R.

˚
Observación: para que RÛ 6= ∅ es necesario y suficiente que para cualquier k = 1, . . . , n se satisfaga
˚
que ak < bk . Otra caracterización es R
Û 6= ∅ ⇔ vol (R) > 0. Cuando vol (R) = 0 se dirá que R es un
intervalo degenerado.

331
Capítulo 9. Área de conjuntos.

( 9.1.2 ) Sea R un intervalo cerrado con k-ésimo intervalo generador [ak , bk ]. Sea Pk = (sk,i )i∈{1,...,nk } una
partición de [ak , bk ], ve (4.5.2). Se dirá que la familia1

P = P1 ⊗ . . . ⊗ Pn = ((s1,i1 , . . . , sn,in )) n
Q
(i1 ,...,in )∈ {0,1,...,pk }
k=1

es una partición de R. Asimismo, se dirá que la partición

Q = Q1 ⊗ . . . ⊗ Qn = ((t1,j1 , . . . , tn,jn )) n
Q
(j1 ,...,jn )∈ {0,1,...,qk }
k=1

es un refinamiento de P si cualquier Qk es un refinamiento de Pk . Al conjunto de todas las particiones de R será


n
Y
denotado por P(R). Para cada (i1 , . . . , in ) ∈ {1, . . . , pk } se puede definir un subintervalo
k=1

n
Y
Pi1 ,...,in = [sk,ik −1 , sk,ik ] ⊂ Rn .
k=1

A Pi1 ,...,in se le llamará subintervalo componente de P generado por (i1 , . . . , in ).


( 9.1.3 ) Sea R un intervalo en Rn y P1 ⊗ . . . ⊗ Pn una partición de R. Entonces
p1 pn
[ [
R= ··· Pj1 ,...,jn ;
i1 =1 in =1

˚ ˚
más aún, si (i1 , . . . , in ) 6= (i10 , . . . , in0 ), P
˙ i1 ,...,in ∩ Pi10 ,...,in0 = ∅.
˙

Queda a cargo del lector a título de ejercicio. En particular, este teorema afirma que toda parti-
ción genera una familia de intervalos componentes y recíprocamente. En consecuencia, una partición
también puede ser pensada como una familia de subintervalos componentes.
Lo que continuaría ahora sería definir la aproximación de la medida del área de un conjunto C ⊂ Rn .
Se aplicará el «método de agotamiento»; es decir, se aproximará la medida del área por áreas internas
y externas. Esto conduce a la definición de la medida interior y exterior del volumen.
( 9.1.4 ) Sea C ⊂ Rn un subconjunto acotado de Rn y sea R un intervalo cerrado que lo contiene. Entonces para
P = ((s1,i1 , . . . , sn,in )) n
Q , una partición de R, se define la medida según Jordán de la aproximación
(i1 ,...,in )∈ {0,1,...,pk }
k=1
interior de C respecto de la partición P por
˚ X
vol P (C) = vol (Pi1 ,...,in ) .
ˆ
(i1 ,...,in )|Pi1 ,...,in ⊂C

Análogamente, se define la medida según Jordán de la aproximación exterior de C respecto de la partición P por
X
volP (C) = vol (Pi1 ,...,in ) .
(i1 ,...,in )|Pi1 ,...,in ∩C6=∅

( 9.1.5 ) Sea R un intervalo cerrado en Rn y P, Q dos particiones de él. Existe T ∈ P(R) que es refinamiento
común de P y Q.
1 Aquí se empleará el símbolo ⊗ con el único proposito de denotar que P depende de los P y que P no es el producto
k
cartesiano de los Pk .

332
9.1. ¿Qué es el área?

Se supone que P = P1 ⊗ . . . ⊗ Pn y Q = Q1 ⊗ . . . ⊗ Qn , en virtud del ejercicio (4.63) existen particiones


T1 , . . . , Tn tales que Ti es refinamiento de Pi y Qi , luego, T = T1 ⊗ . . . ⊗ Tn es un refinamiento común
de P y Q (ve (9.1.2)).
( 9.1.6 ) Sean R un intervalo cerrado de Rn y P, Q dos particiones de él tales que Q es un refinamiento de P.
Entonces
˚ ˚
vol P (R) ≤ volQ (R) ≤ volQ (R) ≤ volP (R) .
ˆ ˆ
Es decir, las aproximaciones a los volumenes interior y extererior se van haciendo más finos conforme las particiones
se refinan.
Supón que
P = ((s1,i1 , . . . , sn,in )) n
Q
(i1 ,...,in )∈ {0,1,...,pk }
k=1

y que
Q = ((t1,j1 , . . . , tn,jn )) n
Q .
(j1 ,...,jn )∈ {0,1,...,qk }
k=1

De la definción de refinamiento, para cada k = 1, . . . , n, existen dos índices α(k) ≤ β(k) tales que
   
[sk,ik −1 , sk,ik ] = tk,jα(k) −1 , tk,jα(k) ∪ . . . ∪ tk,jβ(k) −1 , tk,jβ(k) .
Por lo tanto, cada Pi1 ,...,in se descompone como una unión de algunos Qj1 ,...,jn . De aquí se puede deducir
˚ ˚
que si Pi1 ,...,in ⊂ R entonces cada Qj1 ,...,jn ⊂ Pi1 ,...,in también está contenido en R. Luego, vol
ˆ P (R) ≤ volQ (R) ,
ˆ
que es la primera desigualdad. Para ver la tercera desigualdad se nota que aún cuando Qj1 ,...,jn ⊂
Pi1 ,...,in ∩ R 6= ∅ podría suceder que Qj1 ,...,jn ∩ R = ∅. De donde, volQ (R) ≤ volP (R) , que es la tercera
desigualdad.
Para ver la segunda desigualdad observa que Qj1 ,...,jn ⊂ C Ñ Qj1 ,...,jn ∩ C 6= ∅, por lo que
˚
vol Q (R) ≤ volQ (C)
ˆ

Lo que concluye el teorema.


Este teorema da la pauta de cómo definir el área. Esto se deriva de que para cualesquier particiones
P y Q se cumple que
˚
vol P (C) ≤ volQ (C) .
ˆ
Lo cual puede ser demostrado al considerar un refinamiento común T de ambas particiones y aplicar
la propiedad previa. En particular, se cumple que
˚
sup vol
ˆ P (C) ≤ ı́nf volP (C) .
P∈P(R) P∈P(R)

( 9.1.7 ) Se define el área interior de C por


˚ ˚
vol
ˆ (C) = sup vol
ˆ P (C)
P∈P(R)

y el área exterior de C por


vol (C) = ı́nf volP (C) .
P∈P(R)

Cuando el área interior y el área exterior de C coincidan se dirá que C es medible en el sentido de Jordán («Jordán
medible») y se define la medida del volumen según Jordán de C como
˚
vol (C) = vol (C) = vol
ˆ (C) .

333
Capítulo 9. Área de conjuntos.

Observación: sea R un intervalo cerrado, entonces vol (R) ha sido definido de dos maneras diferentes;
sin embargo, las definiciones son consistentes. Para verificar esto primero nota que basta ver que si P
es una partición de R entonces
p1 pn
X X
vol (R) = ··· vol (Pi1 ,...,in ) .
i1 =1 in =1

Se demuestra usando inducción. El caso n = 1 es obvio y si se supone que el resultado es verdadero


para n − 1 entonces
p1 pn p1 pn n
X X X X Y
··· vol (Pi1 ,...,in ) = ··· (sk,ik − sk,ik −1 )
i1 =1 in =1 i1 =1 in =1 k=1
Ñ é
p1 pn−1 n−1 pn
!
X X Y X
= ··· (sk,ik − sk,ik −1 ) (sn,in − sn,jn −1 )
i1 =1 in−1 =1 k=1 in =1
n−1
!
Y
= vol [ak , bk ] × (bn − an ) = vol (R) .
k=1

( 9.1.8 ) Sea R un intervalo cerrado en Rn con intervalos generadores [ak , bk ] para k = 1, . . . , n. Se supondrá
Yn
que S = [ci , di ] ⊂ R es un subintervalo de R. Entonces existe una partición PS ∈ P(R) de tal forma que los
i=1
vértices de S y de R son elementos de la familia PS .
Define sk,0 = ak , entonces
1. si ak = ck , define sk,1 = dk y entonces; si dk = bk pon Pk = (sk,i )i∈{0,1} ; si dk < bk define sk,2 = bk
y pon Pk = (sk,i )i∈{0,1,2} ;
2. si ak < ck , define sk,1 = ck y sk,2 = dk , entonces si dk = bk pon Pk = (sk,i )i∈{0,1,2} y en caso
contrario define sk,3 = bk y pon Pk = (sk,i )i∈{0,1,2,3} .
Define PS = P1 ⊗ . . . ⊗ Pn , cualquier vector (x1 , . . . , xn ) con xk ∈ {ck , dk } y cualquier vector (x1 , . . . , xn )
con xk ∈ {ak , bk } es un elemento de PS .
( 9.1.9 ) Sea R un intervalo cerrado en Rn y S un subintervalo de R. Cada P ∈ P(S) se extiende a un Q ∈ P(R).
Supón que
P = ((s1,i1 , . . . , sn,in )) n
Q ,
(i1 ,...,in )∈ {0,1,...,pk }
k=1

y considera los subintervalos Pi1 ,...,ii . Existe una partición Qj1 ,...,jn de R tal que los vértices de Pi1 ,...,in son
elementos de Qj1 ,...,jn (ve (9.1.8)). Se considera finalmente Q como un refinamiento común de todos los
Qj1 ,...,jn , el cual existe según (9.1.5).
( 9.1.10 ) Sea C acotado y R1 , R2 ⊂ Rn intervalos cerrados que lo contienen. Entonces
˚ ˚
sup vol
ˆ P (C) = sup volQ (C)
ˆ
P∈P(R1 ) Q∈P(R2 )

e
ı́nf volP (C) = ı́nf volQ (C) .
P∈P(R1 ) Q∈P(R2 )

˚
En consecuencia, vol
ˆ (C) y vol (C) están bien definidos (es decir, no depende del R que se escoja en (9.1.4)).

334
9.2. ¿Qué conjuntos son Jordán medibles?

Sea R = R1 ∩ R2 . Entonces C ⊂ R y para cada partición P ∈ P(R) existe una partición asociadas
QP ∈ P(R1 ). Se observa que si Pi1 ,...,in es un subintervalo componente de la partición P, entonces P es
unión de algunos subintervalos componentes de la partición QP . En consecuencia, si P ⊂ C entonces
todos los Qi1 ,...,in contenidos en P también están contenidos en C, de donde
˚ ˚
vol P (C) ≤ volQP (C) ,
ˆ ˆ

por lo que
˚ ˚
sup vol
ˆ P (C) ≤ sup volQ (C) .
ˆ
P∈P(R) Q∈P(R1 )

La otra desigualdad es más trabajosa, se considera una partición Q ∈ P(R1 ), y se refina a una partición
QR tal que los vértices de R son elementos de QR . Supón que
(1) (n)
QR = QR ⊗ . . . ⊗ QR ,
(k)
en donde QR = (tk,j )j=0,...,qk y, por construcción, existen índices α(k) y β(k) tales que tk,jα(k) = ck , tk,jβ(k) = dk
(k)  (1)
y [ck , dk ] es el k-ésimo intervalo generador de R. Define PQ = tk,jα(k)+l l=0,...,β(k)−α(k) y pon PQ = PQ ⊗
(n)
. . . ⊗ PQ . Luego,
˚ ˚ ˚
vol PQ (C) = volQR (C) ≥ volQ (C) ,
ˆ ˆ ˆ
así que
˚ ˚ ˚
sup vol
ˆ P (C) ≥ sup volPQ (C) ≥ sup volQ (C) ,
ˆ ˆ
P∈P(R) Q∈P(R1 ) Q∈P(R1 )

que, con la otra desigualdad, dan la igualdad buscada. El caso para las medidas de los volúmenes
exteriores queda de ejercicio al lector.
˚
( 9.1.11 ) Sea C ⊂ Rn acotado. Entonces 0 ≤ vol
ˆ (C) ≤ vol (C) < ∞.
˚
Sea R cualquier intervalo cerrado en Rn que contenga a C, entonces, por la definición de vol
ˆ P (C) y
volP (C) se concluye que
˚
0 ≤ vol
ˆ Q (C) ≤ volQ (C) ≤ vol (R) .

Tomando primeramente el ínfimo sobre el lado derecho, se concluye que


˚
0 ≤ vol
ˆ Q (C) ≤ vol (C) ≤ vol (R) ,

˚
con tomar el supremo el en lado izquierdo se concluye que 0 ≤ vol
ˆ (C) ≤ vol (C) < vol (R) < ∞.

§ 9.2. ¿Qué conjuntos son Jordán medibles?


La definición previa junto con su observación mostraron que todos los intervalos cerrados en Rn son
conjuntos con medida en el sentido de Jordán. Surge naturalmente la pregunta, ¿qué otros conjuntos
también tienen medida de Jordán? A continuación se presentan algunos criterios útiles al momento de
querer determinar si cierto conjunto dado tiene o no tiene medida en el sentido de Jordán.
( 9.2.1 ) Una condición necesaria y suficiente para que un conjunto C ⊂ R sea medible según Jordán es que para
todo ε > 0 exista una partición P ∈ P(R), en donde R es un intervalo que contiene a C, para la cual
˚
volP (C) − vol
ˆ P (C) < ε.

335
Capítulo 9. Área de conjuntos.

˚
La necesidad es evidente de que vol ˆ (C) = vol (C) , pues si ε > 0 entonces existe un P tal que
ε ˚ ˚ ε
volP (C) − vol (C) < y existe una partición Q tal que vol ˆ (C) − vol
ˆ Q (C) < . Considera entonces una
2 2
partición T que sea refinamiento común de P y Q (ve (9.1.5)), en virtud de (9.1.6) se concluye que
ε ˚ ˚ ε
volT (C) − vol (C) < y que vol
ˆ (C) − vol
ˆ T (C) < . Por lo tanto, al sumar, se obtiene la necesidad.
2 2
˚
La suficiencia tambiés es sencilla, pues por definición de vol (C) y volˆ (C) se obtiene que

˚ ˚
vol (C) − vol
ˆ (C) ≤ volP (C) − vol
ˆ P (C) < ε.

Como ε > 0 fue arbitrario, se concluye lo deseado.

( 9.2.2 ) Una condición necesaria y suficiente para que un conjunto C ⊂ R sea medible según Jordán es que ∂C
sea medible según Jordán y vol (∂C) = 0.

Se ve primero la necesidad. Sea R un intervalo cerrado con C ⊂ R, entonces ∂C ⊂ R pues al ser R


cerrado ∂C ⊂ C ⊂ R. Sea P una partición de R, entonces
[ [
∂C ⊂ Pi1 ,...,in \ Pi1 ,...,in .
(i1 ,...,in )|Pi1 ,...,in ∩C6=∅ (i1 ,...,in )|Pi1 ,...,in ⊂C

De donde,
˚
vol (∂C) ≤ volP (C) − vol
ˆ P (C) ;

dado ε > 0 se puede encontrar P tal que

˚
0 ≤ vol
ˆ (∂C) ≤ vol (∂C) < ε.

La arbitrariedad de ε muestra que ∂C es Jordán medible y vol (∂C) = 0.


Se verá ahora la suficiencia. Entonces, para P una partición de R se considera la resta

˚
volP (C) − vol
ˆ P (C) = volP (∂C) .

˚
Entonces, dado ε > 0 existe una partición P talque volP (C) < ε. Por lo tanto, vol (C) − vol
ˆ (C) = 0.
˚
( 9.2.3 ) Sea C ⊂ Rn un conjunto Jordán medible. Entonces C
Ù y C son Jordán medibles y

˚
  
vol C
Ù = vol (C) = vol C .

En efecto, sea R un intervalo cerrado que contiene a C y P una partición de R, entonces

˚ ˚ ˚
 
vol P C = volP (C)
ˆ Ù ˆ

y 
volP (C) = volP C .
Con tomar el supremo o el ínfimo, según corresponda, y utilizando que C es Jordán medible se concluye
el resultado deseado.

( 9.2.4 ) Sea C ⊂ Rn un conjunto Jordán medible y D ⊂ C, entonces vol (C) = 0 implica que D es Jordán
medible y que vol (D) = 0.

336
9.3. Propiedades básicas.


Se cumple que D ⊂ C y vol C = 0 (ve (9.2.3)). De aquí que,

˚  
0 ≤ vol
ˆ (D) ≤ vol (D) ≤ vol C = vol C = 0.

Lo cual demuestra lo pedido.

( 9.2.5 ) Sean A y B dos subconjuntos de Rn que tienen medida de Jordán cero, etnonces A ∪ B tiene medida
de Jordán y vale cero.

Es inmediato de las definiciones que para cualquier partición P de un rectángulo R que contenga a
A ∪ B se cumple que
volP (A ∪ B) ≤ volP (A) + volP (B) .
Considera el ínfimo sobre todos los P, se puede concluir que

vol (A ∪ B) ≤ ı́nf volP (A) + volP (B) = vol (A) + vol (B) ,
P∈P(R)

en donde la última igualdad es consecuencia de que si X y Y son subconjuntos de número positivos,


entonces

ı́nf{x + y|x ∈ X, y ∈ Y } = ı́nf ı́nf{x + y|x ∈ X} = ı́nf ı́nf X + y = ı́nf X + ı́nf Y .
y∈Y y∈Y

Esto conluye lo afirmado.

( 9.2.6 ) Sea C ⊂ Rn un conjunto. Para que C sea medible según Jordán y vol (C) = 0 es necesario y suficiente que
p p
[ X
para todo ε > 0 exista una familia finita de intervalos R1 , . . . , Rp ⊂ Rn tales que C ⊂ Ri y vol (Ri ) < ε.
i=1 i=1

La necesidad es evidente pues según (9.2.1) para cada ε > 0 existe una partición P tal que

˚
volP (C) − vol
ˆ P (C) = volP (C) < ε.

Por lo tanto, se considera la familia de rectángulos definidos por P tales que intersectan a C.
La suficiencia es consecuencia que se considera un intervalo R que contenga a todos los Ri y una
partición Pi que extienda a Ri (ve (9.1.8)). Se considera ahora una partición P que refine a todas las Pi
(ve (9.1.5)). Luego, de las definición se obtiene que
p
X
vol (C) ≤ volP (C) ≤ vol (Ri ) < ε.
i=1

Como ε fue arbitrario, se concluye que vol (C) = 0 y entonces, C es Jorán medible con vol (C) = 0.

§ 9.3. Propiedades básicas.


Si se considera natural la definición dada para la medida de Jordán del área de un conjunto, entonces
las propiedades que se demuestran a continuación deberían ser intuitivas.

( 9.3.1 ) Sean A y B subconjuntos acotados de R con volumen en el sentido de Jordán. Entonces A ⊂ B Ñ


vol (A) ≤ vol (B) ; la «monotonía» de la medida según Jordán del volumen.

337
Capítulo 9. Área de conjuntos.

Sea R un intervalo que contiene a B. Entonces R también contiene a A. Luego, si P ∈ P(R) y Pi1 ,...,in
es un subintervalo componente de P se ve que

Pi1 ,...,in ⊂ A Ñ Pi1 ,...,in ⊂ B,

en consecuencia
˚ ˚
vol P (A) ≤ volP (B) .
ˆ ˆ

Tomando el supremo sobre todos los P, se ve que


˚ ˚
vol (A) = vol
ˆ (A) ≤ vol
ˆ (B) = vol (B) ,

en donde las desigualdades son válidas por existir los volúmenes de A y B.


( 9.3.2 ) Sean A y B dos subconjuntos de Rn medibles en el sentido de Jordán tales que A ∩ B = ∅. Entonces
A ∪ B es medible en el sentido de Jordán y vol (A ∪ B) = vol (A) + vol (B) ; la «aditividad» de la medida según
Jordán del volmen.
Sea R un intervalo que contiene a A ∪ B, y sea P ∈ P(R). Entonces para cualquier subintervalo
Pi1 ,...,in de P se cumple que

Pi1 ,...,in ⊂ A o bien Pi1 ,...,in ⊂ B Ñ Pi1 ,...,in ⊂ A ∪ B.

Asimismo,  
Pi1 ,...,in ⊂ A Ñ Pi1 ,...,in ∩ B = ∅ y Pi1 ,...,in ⊂ B Ñ Pi1 ,...,in ∩ A = ∅ .
De estas dos observaciones se deriva que
X X X
vol (Pi1 ,...,in ) + vol (Pi1 ,...,in ) ≤ vol (Pi1 ,...,in ) ;
(i1 ,...,in )|P⊂A (i1 ,...,in )|P⊂B (i1 ,...,in )|P⊂A∪B

esto es,
˚ ˚ ˚
vol P (A) + volP (B) ≤ volP (A ∪ B) .
ˆ ˆ ˆ

Del mismo modo, se observa que

Pi1 ,...,in ∩ (A ∪ B) 6= ∅ Ñ Pi1 ,...,in ∩ A 6= ∅ o bien Pi1 ,...,in ∩ B 6= ∅.

De donde, se concluye que


volP (A ∪ B) ≤ volP (A) + volP (B) .
Por lo tanto, como P fue arbitrario, se sigue de (9.1.11) y de (9.1.6) que

˚ ˚ ˚
vol P (A) + volP (B) ≤ volP (A ∪ B) ≤ volQ (A ∪ B) ≤ volQ (A) + volQ (B) .
ˆ ˆ ˆ

para cualesquier P y Q particiones de R.


Tomando el supremo sobre P y después el ínfimo sobre Q se concluye que
˚ ˚ ˚
  
sup volˆ P (A) + volP (B) ≤ vol (A ∪ B) ≤ vol (A ∪ B) ≤ ı́nf
ˆ ˆ volQ (A) + volQ (B) .
P∈P(R) Q∈P(R)

Basta ver que


˚ ˚ ˚ ˚
 
sup vol
ˆ P (A) + volP (B) = vol (A) + vol (B)
ˆ ˆ ˆ
P∈P(R)

338
9.3. Propiedades básicas.

y que

ı́nf volQ (A) + volQ (B) = vol (A) + vol (B) .
Q∈P(R)

La segunda de estas igualdades ya fue demostrada en (9.2.5). La primera es análoga, sean X y Y


subconjuntos de números reales positivos, entonces

sup{x + y|x ∈ X, y ∈ Y } = sup sup(x + y) = sup sup X + y = sup X + sup Y .
y∈Y x∈X y∈Y

Esto concluye la propiedad de aditividad.

( 9.3.3 ) Sean A y B subconjunto de Rn cuyo volumen tiene medida en el sentido de Jordán tales que A ⊂ B.
Entonces B \ A también tiene volumen en el sentido de Jordán y vol (B \ A) = vol (B) − vol (A) .

Se observa que B \ A = B ∩ {A, por lo que ∂(B \ A) ⊂ ∂B ∩ ∂ {A y según (9.2.4) ∂(B \ A) es Jordán
medible con medida de Jordán cero. En consecuencia (9.2.2) B \ A es Jordá medible. Con notar que
B = (B \ A) ∪ A y que (B \ A) ∩ A = ∅, y utilizando la propiedad aditiva de la medida de Jordán se concluye
que
vol (B) = vol (B \ A) + vol (A) ,
que es exactamente lo que se quería demostrar.

( 9.3.4 ) Sean A y B subconjunto de Rn cuyos volúmenes son medibles en el sentido de Jordán. Entonces los
volúmenes de A ∩ B, A \ B, B \ A y A ∪ B tienen medida en el sentido de Jordan. Estas medidas están relacionadas
por
vol (A ∪ B) = vol (A) + vol (B) − vol (A ∩ B) .

Se usará (9.2.2) para cada caso. Primero hay que recordar que ∂X = ∂ {X para cada X ⊂ Rn ,

entonces se verifica que la frontera de cada conjunto está contenida en ∂A∪∂B. Según (9.2.5) el conjunto
∂A ∪ ∂B tiene medida de Jordán cero y según (9.2.4) todas las fronteras de los conjuntos también tienen
medida de Jordán cero, en consecuencia, los conjuntos son medibles en el sentido de Jordán.
Para verificar la fórmula se observa que

A ∪ B = (A \ B) ∪ (B \ A) ∪ (A ∩ B),

y las uniones son de conjuntos ajenos a pares. La propiedad aditiva de la medida de Jordán (9.3.2)
muestra entonces que
vol (A ∪ B) = vol (A \ B) + vol (B \ A) + vol (A ∩ B) .
Con notar que
A = (A \ B) ∪ (A ∩ B)
y que la unión es ajena, se concluye que

vol (A) = vol (A \ B) + vol (A ∩ B) .

Luego, se puede ver que


vol (A ∪ B) = vol (A) + vol (B \ A) .
Al restar y sumar vol (A ∩ B) se concluye la fórmula requerida.

( 9.3.5 ) Sean A ⊂ Rn y B ⊂ Rm dos subconjuntos medibles en el sentido de Jordán. Entonces A × B ⊂ Rn+m


es medible en el sentido de Jordán y vol (A × B) = vol (A) vol (B) .

339
Capítulo 9. Área de conjuntos.

Sea R1 un intervalo en Rn que contiene A y R2 un intervalo en Rm que contiene B. Sean

P1 = P1,1 ⊗ . . . ⊗ P1,n

y
P2 = P2,1 ⊗ . . . ⊗ P2,m
particiones de R1 y R2 , respectivamente. Entonces, R = R1 × R2 es un intervalo que contiene a A × B y

P = P1 ⊗ P2 = P1,1 ⊗ . . . ⊗ P1,n ⊗ P2,1 ⊗ . . . ⊗ P2,m

(1) (2)
es una partición de R. Nota que si Pj1 ,...,jn y Pi1 ,...,im son sendos subintervalos componentes de R1 y R2
(1) (2)
formados por sendos puntos de las particiones P1 y P2 entonces Pj1 ,...,jn × Pi1 ,...,im es un subintervalo de
R formado por puntos de la partición P. Además
(1) (2) (1) (2)
Pj1 ,...,jn ⊂ A y Pi1 ,...,im ⊂ B Ñ Pj1 ,...,jn × Pi1 ,...,im ⊂ A × B,

por lo que
˚ ˚ ˚
vol P1 (A) volP2 (B) ≤ volP (A × B) .
ˆ ˆ ˆ

También se cumple que


(1) (2) (1) (2)
Pj1 ,...,jn ∩ A = ∅ y Pi1 ,...,im ∩ B = ∅ Ñ Pj1 ,...,jn × Pi1 ,...,im ∩ A × B = ∅,

de donde
(1) (2) (1) (2)
Pj1 ,...,jn × Pi1 ,...,im ∩ A × B 6= ∅ Ñ Pj1 ,...,jn ∩ A 6= ∅ o bien Pi1 ,...,im ∩ B 6= ∅.
Por lo tanto
volP (A × B) ≤ volP1 (A) volP2 (B) ,
usando (9.1.11), se ve que

˚ ˚ ˚
vol P1 (A) volP2 (B) ≤ volP (A × B) ≤ volP (A × B) ≤ volP1 (A) volP2 (B) .
ˆ ˆ ˆ

Tomando los ínfimos y supremos correspondientes en un orden conveniente se concluye que

˚ ˚ ˚
vol (A) vol (B) = vol
ˆ (A) vol
ˆ (B) ≤ vol
ˆ (A × B)
≤ vol (A × B) ≤ vol (A) vol (B) = vol (A) vol (B) .

Lo cual muestra que A × B tiene volumen de Jordán y que este coincide con vol (A) vol (B) .

§ 9.4. Cambios lineales de variables.


A veces no es fácil trabajar con un sistema coordenado dado, entonces conviene trabajar en otro sis-
tema coordenado. Aunque existen fórmulas generales para el cambio de sistemas coordenados a partir
de difeomorfismos aquí será de interés exclusivo el caso de cambios de variables lineales. Conviene
entonces repasar un poco de propiedades de los cambios de variables y los cambios de variables elemen-
tales. Dado que las siguientes propiedades pueden ser demostradas en sucesión sin mucho esfuerzo,
quedarán todas ellas a cargo del lector.

340
9.4. Cambios lineales de variables.

( 9.4.1 ) Sean E1,1 , . . . , En,n la base canónica de Matn×n (R) , se dirá que las matrices

ERi →λRi = E1,1 + . . . + Ei−1,i−1 + λEi,i + Ei+1,i+1 + . . . + En,n ,


n
X
ERi ↔Rj = Ek,k − Ei,i − Ej,j + Ei,j + Ej,i
k=1
y
ERi →Ri +Rj = IRn + Ei,j
son matrices elementales. Para cualquier A ∈ Matn×n (R) , ERi →λRi A se obtiene de A al multiplicar su i-ésima fila
por λ. Análogamente, ERi →Ri +Rj A se obtiene de A al suma a su i-ésima fila λ veces su j-ésima fila. Finalmente,
ERi ↔Rj A se obtiene de A al intercambiar las filas i-ésima y j-ésima. En particular,

1. ERi →λRi ERi →µRi = ERi →λµRi ;

2. IRn = ERi →Ri = ERi ↔Ri .

A las transformaciones lineales asociadas a estas matrices se les llamará cambios de variable elementales.

Los cambios de variable elementales tienen intepretaciones geométricas muy interesantes. Por ejem-
plo, el cambio ERi →λRi se entiende como un alargamiento o estiramiento por un factor constante λ del
i-ésimo eje. Es evidente que si λ = 0, entonces ERi →0 es la matriz correspondiente a la proyección a
todos los ejes excepto el i-ésimo.
El tipo de cambio de variable ERi ↔Rj es interpretado como intercambiar los ejes i-ésimo y j-ésimo.
π
Asimismo, el cambio ERi →Ri +Rj es una rotación por hecha por el eje i-ésimo sobre el plano generado
4
por les ejes i-ésimo y j-ésimo y en dirección del eje j-ésimo.
Lo más interesante de los cambios de variables elementales es que toda transformación lineal se
puede descomponer como un número finito de cambios elementales.

( 9.4.2 ) Sea E una matriz elemental en Matn×n (R) , entonces para cualquier A ∈ Matn×n (R) se cumple que
AE se obtiene de A al intercambiar dos columnas, multiplicar una de ellas por un escalar o a una de ellas sumar
otra de ellas, según EA haga lo mismo para las filas.

( 9.4.3 ) Sean ERi →λRi , ERi ↔Rj y ERi →Ri +Rj como en (9.4.1), entonces

1. si λ 6= 0, la inversa de ERi →λRi es ERi → λ1 Ri ;

2. la inversa de ERi ↔Rj es ella misma;

3. la inversa de ERi →Ri +Rj es ERi →Ri −Rj .

( 9.4.4 ) Sea M ∈ Matn×n (R) , entonces existe una sucesión S1 , . . . , Sk de matrices elementales (ve (9.4.1))
tales que M = Sk · · · S1 . Más aún, una condición necesaria y suficiete para que M sea invertible es que cada Sj
sea invertible.

Ahora sí se empezarán a demostrar las propiedes referentes a la medida del volumen de la imagen
de una caja a través de una transformación lineal.

( 9.4.5 ) Sean S, T : Rn → Rn dos transformaciones lineales tales que para todo C ⊂ Rn que sea medible
según Jordán se cumple que T(C) y S(C) son medibles según Jordán, y que vol (T(C)) = | det(T)|vol (C) y
vol (S(C)) = | det(S)|vol (C) . Entonces

vol (S(T(C))) = | det(ST)|vol (C) .

341
Capítulo 9. Área de conjuntos.

De la hipótesis se sigue que

vol (S(T(C))) = | det(S)|vol (T(C)) = | det(S)|| det(T)|vol (C)


= | det(S) det(T)|vol (C) = | det(ST)|vol (C) ,

que es lo que se quería demostrar.

( 9.4.6 ) Sea C ⊂ Rn un subconjunto medible según Jordán y T : Rn → Rn una trasformación lineal elemental.
Entonces T(C) es medible según Jordán y vol (T(C)) = | det(T)|vol (C) .

La demostración constará de varios pasos.

( 9.4.6.1 ) Para cualquier S que sea una transformación elemental del tipo Ri → λRi y cualquier R ⊂ Rn un
intervalo se cumple que vol (S(R)) = | det(S)|vol (R) .

Se supone que R posee como k-ésimo intervalo generador a [ak , bk ]. Entonces, S(R) es un rectángulo
cuyo i-ésimo intervalo generador es [λak , λbk ] si λ ≥ 0 o [λbk , λak ] si λ < 0, y cuyos otros intervalos
componentes son [ak , bk ], k 6= i. Luego,
n
Y
vol (S(R)) = (b1 − a1 ) · · · |λbi − λai | · · · (bn − an ) = |λ| (bk − ak ) = |λ|vol (R) .
k=1

Es claro de la representación matricial de S que det(S) = |λ|.

( 9.4.6.2 ) Para cualquier S que sea una transformación elemental del tipo Ri → 0 y cualquier C ⊂ Rn un
subconjunto medible según Jordán entonces S(C) es medible según Jordán y vol (S(C)) = 0.

Sea R un intervalo que contiene a C, entonces S(C) ⊂ S(R). Por la parte previa, se ve que

vol (S(C)) ≤ vol (S(R)) = | det(S)|vol (R) = 0,

de donde se sigue lo afirmado.

( 9.4.6.3 ) Sea S una transformación elemental del tipo Ri → λRi y λ 6= 0. Para cada C ⊂ Rn que sea Jordán
medible se sigue que S(C) es Jordán medible y que vol (S(C)) = | det(S)|vol (C) .

Sea R un intervalo que contiene a C y P una partición de R. Entonces


[
S(C) ⊂ S(Pi1 ,...,in ),
(i1 ,...,in )|Pi1 ,...,in ∩C6=∅

por lo que
X
volP (S(C)) ≤ vol (S(Pi1 ,...,in ))
(i1 ,...,in )|Pi1 ,...,in ∩C6=∅
X
= | det(S)|vol (Pi1 ,...,in ) = | det(S)|volP (C)
(i1 ,...,in )|Pi1 ,...,in ∩C6=∅

Análogamente
[
S(Pi1 ,...,in ) ⊂ S(C).
(i1 ,...,in )|Pi1 ,...,in ⊂C

342
9.4. Cambios lineales de variables.

Å Å ãã
˚
Se usa ahora (9.2.3) para ver2 que vol (S(Pi1 ,...,in )) = vol S P˙i1 ,...,in , y como (ve (9.1.3))

˚ ˚
(j1 , . . . , jn ) 6= (i1 , . . . , in ) Ñ P
˚ j1 ,...,jn ) ∩ Pi1 ,...,in = ∅,
˙

se concluye que
˚ X
| det(S)|vol
ˆ P (C) = | det(S)| vol (Pi1 ,...,in )
(i1 ,...,in )|Pi1 ,...,in ⊂C
X
= vol (S(Pi1 ,...,in ))
(i1 ,...,in )|Pi1 ,...,in ⊂C
Å Å ãã
X ˚ ˚
= vol S Pi1 ,...,in
˙ ≤ vol
ˆ P (S(C)) .
(i1 ,...,in )|Pi1 ,...,in ⊂C

Finalmente, ha sido demostrado que


˚ ˚
| det(S)|vol
ˆ P (C) ≤ volP (S(C)) ≤ volP (S(C)) ≤ | det(S)|volP (C) .
ˆ

Con tomar los supremos e ínfimos en donde corresponda se ve que


vol (S(C)) = | det(S)|vol (C) ,
que es lo que se quería demostrar.
( 9.4.6.4 ) Sean S una transformación lineal del tipo Ri ↔ Rj y R ⊂ Rn un intervalo. Entonces vol (S(R)) =
| det(S)|vol (R) .
n
Y n
Y  
Pues si R = [ak , bk ] entonces S(R) = aτ(k) , bτ(k) , en donde τ ∈ Sn es la transposición de i
k=1 k=1
n
Y n
 Y
con j, ve (1.3.7). Luego, vol (S(R)) = bτ(k) − aτ(k) = (bk − ak ) = vol (R) . Es claro que det(S) = −1,
k=1 k=1
por lo que la fórmula vale también para este caso.
( 9.4.6.5 ) Sea S una transformación elemental del tipo Ri ↔ Rj . Entonces, para cualquier C ⊂ Rn que sea
Jordán medible se sigue que S(C) es Jordán medible y que vol (S(C)) = | det(S)|vol (C) .
Aplica exactamente la misma demostración que para las transformaciones del tipo Ri → λRi con
λ 6= 0.
( 9.4.6.6 ) Sean S una transformación lineal del tipo Ri → Ri + Rj con i 6= j y R un intervalo. Entonces
vol (S(R)) = | det(S)|vol (R) .
En este caso det(S) = 1, además,
S(R) = {(x1 , . . . , xi−1 , xi + xj , xi+1 , . . . , xn )|x1 , . . . , xn ∈ R}.
En virtud de (9.4.5), se pueden aplicar cambios de variables Ri ↔ Rj de tal forma que
S(R) = {(x1 , x1 + x2 , x3 , . . . , xn )|(x1 , . . . , xn ) ∈ [0, 1]n }
= {(x1 , x1 + x2 )|(x1 , x2 ) ∈ [0, 1]2 } × {(x3 , . . . , xn )|(x3 , . . . , xn ) ∈ [0, 1]n−2 }
= {(x1 , x1 + x2 )|(x1 , x2 ) ∈ [0, 1]2 } × [0, 1]n−2
˚  
˚

2 Observa que S es invertible, por lo que S Pi1 ,...,in = S P˘i1 ,...,in .
˝

343
Capítulo 9. Área de conjuntos.

Según (9.3.5) resta ver que C = {(x1 , x1 + x2 )|(x1 , x2 ) ∈ [0, 1]2 } es medible y que

vol (C) = 1.

i j
Sea Pn = (sn,i )i=0,...,n y Qn = (tn,j )j=0,...,2n particiones de [0, 1] y de [0, 2] dadas por sn,i = y tn,j = .
n n
Sea Rn = Pn ⊗ Qn partición del intervalo [0, 1] × [0, 2]. Supón que

˚ 1 3 2
vol Rn (C) = 1 − y volRn (C) = 1 + − 2.
ˆ
n n n
˚ 1 3 2
Entonces, se seguiría que vol
ˆ (C) ≥ 1 − y vol (C) ≤ 1 + − 2 para cualquier n ∈ N. Luego, se podría
n n n
˚
concluir que vol
ˆ (C) = vol (C) = 1, lo cual terminaría la prueba del lema. Por lo tanto, todavía se deben
n
demostrar las dos igualdades supuestas. Sea Pi,j = [sn,i−1 , sn,i ] × [tn,j−1 , tn,j ]. Entonces

Pi,j n ⊂ C ⇔ i ∈ {1, . . . , n}, j ∈ {i + 1, . . . , i + n − 1};


ï ò
n i−1 i
en efecto, si i ∈ {1, . . . , n} y j ∈ {i + 1, . . . , i + n − 1}, entonces para (x, y) ∈ Pi,j se ve que x ∈ ,
ï ò n n
j −1 j
y que y ∈ , , por lo que 0 ≤ y − x ≤ 1, y de la definición de C se puede concluir que (x, y) ∈ C;
n n
n
recíprocamente, se supone que Pi,j ⊂ C cualquiera. Entonces, los cuatro puntos
Å ã Å ã Å ã Å ã
i−1 j −1 i−1 j i j −1 i j
, , , , , y ,
n n n n n n n n
n
pertenecen a Pi,j . Usando la definición de C se concluyen las siguientes deigualdades, cada una de estas
se obtiene al notar que (x, y) ∈ C ⇔ (x, y − x) ∈ [0, 1]2 ,

1≤i ≤n+1 i ≤j ≤n+i


1≤i ≤n+1 i−1≤j ≤n+i−1
1≤i≤n i ≤j ≤n+i
1≤i≤n i−1≤j ≤n+i−1

Por lo tanto, estas 8 desigualdades valen únicamente cuando i ≤ i ≤ n e i ≤ j ≤ n + i − 1. Como todos


n 1
los Pi,j tienen volumen 2 y hay n(n − 1) contenidos en C se obtiene la igualdad para la aproximación
n
del volumen interior a C respecto de Rn . La otra igualdad se resuelve análogamente, simplemente se
n
verifica que Pi,j ∩ C si y solo si i ∈ {2, . . . , n − 1}, j ∈ {i − 1, . . . , i + n + 1} o bien i = 1, j = 1, . . . , n + 2
n
o bien i = n, j = n − 1, . . . , 2n. De donde, hay (n − 2)(n + 3) + 2(n + 2) = n2 + 3n − 2 subintervalos Pi,j
cuya intersección con C es no vacía. Esto concluye la demostación del lema.

( 9.4.6.7 ) Sea S una transformación elemental del tipo Ri → Ri +Rj . Para cada C ⊂ Rn que sea Jordán medible
se sigue que S(C) es Jordán medible y que vol (S(C)) = | det(S)|vol (C) .

Aplica exactamente la misma demostración que para los otros dos tipos de transformaciones ele-
mentales. Esto concluye la demostración del teorema.

( 9.4.7 ) Sea T : Rn → Rn una transformación lineal cualquiera y C ⊂ Rn un conjunto Jordán medible, entonces
T(C) es Jordán medible y vol (T(C)) = | det(T)|vol (C) .

344
9.5. Ejercicios.

Se sabe que para T existe una sucesión S1 , . . . , Sk de transformaciones lineales elementales, para las
cuales vale el teorema, y tales que T = S1 · · · Sk , entonces

vol (T(C)) = | det(S1 ) · · · det(Sk )|vol (C) = | det(T)|vol (C) ,

en donde la última igualdad es válida según el ejercicio (1.41).


( 9.4.8 ) Sea T : Rn → Rn una transformación ortogonal (ve (5.2.3)). Para cualquier C ⊂ Rn que sea Jordán
medible, T(C) es Jordán medible y vol (T(C)) = vol (C) .
Lo que hay que demostrar es que si T es ortogonal, entonces | det(T)| = 1. Se afirma que si T
es ortogonal y [T] es la representación matricial de T, entonces [T]| , la matriz transpuesta de [T],
representa a la inversa de T. Se sabe que Tei es la columna i-ésima de [T] y, por tanto, es la fila i-ésima
de [T]| . Usando ahora (5.2.4), se ve que {Te1 , . . . , Ten } son una base ortogonal de vectores unitarios,
por lo tanto, [T][T]| = [T]| [T] = [IRn ] , que demuestra lo afirmado.
Finalmente, en virtud del ejercicio (1.41) se ve que

1 = det ([IRn ]) = det([T]) det([T]| ) = det([T])2 ,

por lo que | det([T])| = 1.


( 9.4.9 ) Sea T : Rn → Rn una transformación rígida (ve (5.2.3)). Para cualquier C ⊂ Rn que sea Jordán
medible, T(C) es Jordán medible y vol (T(C)) = vol (C) .
En virtud de (5.2.7), se puede suponer que T = O + P, en donde P ∈ Rn es fijo y O es una
transformación ortgonal. Observa que si para cualquier traslación L : X Ï 7 X + P se cumple que
vol (L(C)) = vol (C) , entonces, en virtud de (9.4.8) se habrá concluido.
( 9.4.9.1 ) Si L : Rn → Rn es una traslación entonces para cualquier conjunto C ⊂ Rn que sea medible en el
sentido de Jordán se sigue que L(C) es medible en el sentido de Jordán y que vol (L(C)) = vol (C) .
El caso en que C es un rectángulo se obviará por ser trivial. Ahora bien, se considera R un intervalo
que contiene a C, entonces
Pi1 ,...,in ⊂ C ⇔ L(Pi1 ,...,in ) ⊂ L(C)
y
Pi1 ,...,in ∩ C 6= ∅ ⇔ L(Pi1 ,...,in ) ∩ L(C) 6= ∅,
de donde se sigue lo afirmado.

§ 9.5. Ejercicios.
( 9.1 ) Verifica (9.1.3).
( 9.2 ) Complete la demostración de (9.1.10).
( 9.3 ) El disco unitario B (0; 1) ⊂ R2 tiene volumen de Jordán. Se define el número π como su volumen.
( 9.4 ) Cualquier disco tiene área. Encuentra el área de un disco de radio r como función de π y r.
( 9.5 ) Un cilindro tiene área, encuentra el área de un cilindro de radio r y altura h.
( 9.5.1 ) Un paralelogramo tiene área, calcula el área de un paralelogramo de lados a, b y alturas h1 y h2 .
( 9.6 ) Todo trapecio tiene área, encuentra el área de un trapecio de base mayor a, base menor b y altura h.
Sugerencia: recuerda (9.3.2) y (9.4.9)

345
Capítulo 9. Área de conjuntos.

( 9.7 ) Existen dos conjuntos C1 y C2 que no son medibles en el sentido de Jordán pero tales que C1 ∪ C2 sí lo
es.

( 9.8 ) Considera la región C = {(x, y) ∈ R2 |x ∈ [a, b], 0 ≤ y ≤ f(x)}, en donde f : [a, b] → R es integrable
en el sentido de Riemann (4.6.2). Entonces, C tiene volumen de Jordán y

Zb
f(t)dt = vol (C) .
a
Å ã
k
( 9.9 ) Considera f : [0, 1]n → [0, ∞) continua y sea C = {(X, z)|0 ≤ z ≤ f(X)}. Define Pm = y
m k=0,...,m
m
O
pon P (m) = Pm . Define
i=1
(m)
mi1 ,...,in = ı́nf f(X)
(m)
X∈Pi
1 ,...,in

(m)
e igualmente Mj1 ,...,jn pero tomando el supremo. Verifica que

(m)
X Ä (m) ä
L(m) = mi1 ,...,in vol Pi1 ,...,in ≤ vol (C)
(i1 ,...,in )

y que
(m)
X Ä (m) ä
vol (C) ≤ Mi1 ,...,in vol Pi1 ,...,in = U (m) .
(i1 ,...,in )

Finalmente, muestra que U (m) − L(m) → 0 cuando m → ∞. Concluye que

vol (C) = lı́m L(m) .


m→∞

Entonces, la medida de Jordán puede usarse para definir


Z
f(X)dX = vol (C) .
[0,1]n

( 9.10 ) Sea C ⊂ [0, 1] el conjunto de Cantor, ejercicio (3.44). Entonces, C posee medida de Jordán y esta vale
cero.

( 9.11 ) Sean C ⊂ Rn un conjunto y R un intervalo cerrado n-dimensional tal que C ⊂ R. Se supondrá que
P ∈ P(R) es una partición de R. Entonces, una condición necesaria y suficiente para que C sea Jordán medible
es que C ∩ Pi1 ,...,in es Jordan medible para cada subintervalo componente Pi1 ,...,in de P. En este caso,
X
vol (C) = vol (C) ∩ Pi1 ,...,in .
(i1 ,...,in )

˚ ˚
( 9.12 ) Sea C ⊂ Rn . Una condición necesaria y suficiente para que C
Ù 6= ∅ es que vol
ˆ (C) > 0.
( 9.13 ) Sea P ∈ Rn cualquier punto. Entonces, {P} posee medida de Jordán igual a cero. Luego, usando
inducción, demuestra que cualquier cantidad finita de puntos posee medida de Jordán cero; esto es, si C ⊂ Rn
es finito, vol (C) = 0.

346
9.5. Ejercicios.

( 9.14 ) Sean C1 , C2 ⊂ Rn dos subconjuntos medibles según Jordán tales que

C1 M C2 = (C1 \ C2 ) ∪ (C2 \ C1 ) ⊂ ∂C1 ∪ ∂C2 .

Entonces, vol (C1 ) = vol (C2 ) .

( 9.15 ) Sea C ⊂ Rn un conjunto Jordán medible. Para cualquier ε > 0 existe un conjunto compacto K ⊂ C tal
que vol (C \ K) < ε.
( 9.16 ) Si R1 y R2 son dos intervalos cerrados n-dimensionales entonces R1 ∩ R2 es un intervalo cerrado también.
( 9.17 ) Sea R ⊂ Rn un intervalo cerrado y define a A ⊂ P (Rn ) como el conjunto de las uniones finitas de
subintervalos cerrados de R; esto es, C ∈ A si existe una familia finita (R1 , . . . , Rk ) de subintervalos cerrados de
R tales que C = R1 ∪ . . . ∪ Rn . Entonces, A es un «álgebra de conjuntos»; esto es, A satisface las siguientes
tres propiedades
1. R ∈ A ;

2. A, B ∈ A Ñ A ∪ B ∈ A ;
3. A ∈ A Ñ {R A ∈ A .
Observa que la tercera propiedad previa no puede ser reemplazada por la siguiente propiedad más fuerte:

[
4. si (An )n∈N es una familia de elementos de A entonces An ∈ A .
n=1
ï ò
1
Sugerencia: trata de construir el ejemplo en [0, 1]. Define An = 0, 1 − . Entonces, An pertenece a la
n
álgebra A correspondiente pero su unión no.

( 9.18 ) Demuestra que el conjunto A ⊂ P (Rn ) de los subconjuntos medibles según Jordán conforma una
álgebra, tal como se definió en (9.17).

347
Capítulo 9. Área de conjuntos.

348
• Bibliografía

[1] Apostol, Tom M. Análisis matemático. Segunda edición, Reverté, 1974.


[2] Apostol, Tom M. CALCULUS II. Reverté, México
[3] Apostol, Tom M. CALCULUS II. Reverté, México
[4] Cartan, Henri. Cálculo Diferencial. Ediciones Omega, Barcelona, 1978.
[5] Coddington, Earl A., Levinson, Norman. Theory of Ordinary Differential Equations. McGraw-Hill,
1955.
[6] Courant, Richard. John, Fritz. Introduccion al cálculo y al análisis matemático. Volumen 1, Limusa,
México, 1999.
[7] Courant, Richard. John, Fritz. Introduccion al cálculo y al análisis matemático. Volumen 2, Limusa,
México, 1999.
[8] Dieudonné, Jean. Fundamentos de análisis moderno. Segunda Edición, Reverté, España, 1979.
[9] Enderton, Herbet. Elements of set theory. Academic Press, 1977.
[10] Haaser, Norman B., LaSalle, Joseph P., Sullivan, Joseph A.Análisis Matemático. Curso de introduc-
ción. Segunda edición, Trillas, México, 1970.
[11] Haaser, Norman B., LaSalle, Joseph P., Sullivan, Joseph A.Análisis Matemático. Curso intermedio.
Segunda edición, Trillas, México, 1990.
[12] Lang, Serge. Linear Algebra. Third edition, Springer, New Haven.
[13] Lang, Serge. Introduccion al analisis matemático. Priemra edición, Addison-Wesley Iberoamérica,
México, 1990.
[14] Lipschutz, Seymour. Algebra lineal. Segunda edición, McGraw-Hill.
[15] Magnus, Jan R., Neudecker, Heinz, Matrix Differential Calculus. Third edition, Wiley, 2007.
[16] Munkres, James R. Topology A first course. Prentice-Hall, New Jersey.
[17] Prieto, Carlos. Topología básica. Fondo de Cultura Económica, México, 2003.
[18] Robert, A. Wayne, Varberg, Dayle E., Convex functions. Academic Press, 1973.
[19] Rudin, Walter. Principios de Análisis Matemático. Tercera edición, McGraw-Hill, Winsconsin.
[20] Shilov, Georgi. Linear algebra. Prentice-Hall, New Jersey.

349
Bibliografía

[21] Spivak, Michael. Calculus. Segunda edición, Reverté, México, 1996.


[22] Spivak, Michael. Cálculo en variedades. Reverté, Nueva York.
[23] Sundaram, Rangarajan. A first course in optimization theory. Cambridge University Press, 1996.

[24] Suppes, Patrick. Teoría Axiomática de Conjuntos. Norma, Colombia, 1968.


[25] Zorich, Vladimir. Mathematical Analysis I. Springer, 2004.
[26] Zorich, Vladimir. Mathematical Analysis II. Springer, 2004.

350

Anda mungkin juga menyukai