Anda di halaman 1dari 24

1

Unidad 5 Sistema de archivos. 2 may Introduccin Todas las aplicaciones computarizadas necesitan almacenar y recuperar la informacin: Superando las limitaciones del almacenamiento real. Trascendiendo a la duracin de los procesos que los utilizan o generan. Independizando a la informacin de los procesos permitiendo el acceso a la misma a travs de varios procesos. Las condiciones esenciales para el almacenamiento de la informacin a largo plazo son: Debe ser posible almacenar una cantidad muy grande de informacin. La informacin debe sobrevivir a la conclusin del proceso que la utiliza. Debe ser posible que varios procesos tengan acceso concurrente a la informacin. La solucin es el almacenamiento de la informacin en discos y otros medios externos en unidades llamadas archivos: Los archivos deben ser persistentes, es decir que no deben verse afectados por la creacin o terminacin de un proceso. Los archivos son una coleccin de datos con nombre. Pueden ser manipulados como una unidad por operaciones como: open, close, create, destroy, copy, rename, list. Los elementos de datos individuales dentro del archivo pueden ser manipulados por operaciones como: read, write, update, insert, delete. El Sistema de Archivos es la parte del sistema de administracin del almacenamiento responsable, principalmente, de la administracin de los archivos del almacenamiento secundario. Es la parte del S. O. que permite compartir controladamente la informacin de los archivos. 5.1 Concepto. Un Archivo es un conjunto de registros relacionados . El Sistema de Archivos es un componente importante de un S. O. y suele contener : Mtodos de acceso relacionados con la manera de acceder a los datos almacenados en archivos. Administracin de archivos referida a la provisin de mecanismos para que los archivos sean almacenados, referenciados, compartidos y asegurados. Administracin del almacenamiento auxiliar para la asignacin de espacio a los archivos en los dispositivos de almacenamiento secundario. Integridad del archivo para garantizar la integridad de la informacin del archivo. El sistema de archivos est relacionado especialmente con la administracin del espacio de almacenamiento secundario, fundamentalmente con el almacenamiento de disco. Una forma de organizacin de un sistema de archivos puede ser la siguiente: Se utiliza una raz para indicar en qu parte del disco comienza el directorio raz. El directorio raz apunta a los directorios de usuarios. Un directorio de usuario contiene una entrada para cada uno de los archivos del usuario. Cada entrada de archivo apunta al lugar del disco donde est almacenado el archivo referenciado. Los nombres de archivos solo necesitan ser nicos dentro de un directorio de usuario dado. El nombre del sistema para un archivo dado debe ser nico para el sistema de archivos. En sistemas de archivo jerrquicos el nombre del sistema para un archivo suele estar formado como el nombre de la trayectoria del directorio raz al archivo. 5.2 Nocin de archivo real y virtual. La mayora de usuarios de computadoras comprendern con mucha facilidad el trmino archivo relacionndolo directamente con ejemplos tales como los archivos de texto que se pueden generar con cualquier procesador de texto. Una caracterstica de este tipo de archivos es que a mayor texto que almacena el archivo, mayor es el espacio en disco que consume dicho archivo. Por ejemplo, una lnea corta de texto

ocupa menos espacio en disco que esa misma lnea copiada cien veces. Sin embargo al hablar de archivos virtuales las cosas son diferentes, pues este tipo de archivos no consumen espacio en el disco duro, sino que se almacenan en la memoria voltil, es decir aquel tipo de memoria cuya informacin se pierde al interrumpirse el flujo de corriente elctrica, esto es, la memoria RAM. 5.3 Componentes de un sistema de archivos. Los componentes del sistema de archivos y de programacin permiten interactuar con los recursos del sistema de archivos y de directorio y provocar eventos en intervalos programados. Las instancias del componente File System Watcher permiten inspeccionar cambios en los directorios y archivos y reaccionar cuando se producen. El componente Timer permite configurar programaciones simples de produccin de eventos y ejecutar el procesamiento asociado. 5.4 Organizacin lgica y fsica. Un sistema de archivos garantiza la organizacin lgica de los datos en los discos duros y proporciona al sistema operativo las rutinas necesarias para que puedan ser accedidos, modificados y eliminados. Cualquier sistema operativo suele tener soporte para varios sistemas de archivos, aunque slo sea en modo lectura. Los sistemas de archivos de la familia Microsoft que podemos encontrarnos son: FAT (FAT16 y FAT32) y NTFS (NTFS4, NTFS5). NTFS (New Technology File System) fue diseado para NT e incorporaba un sistema de seguridad integrado que nos permita asignar permisos a archivos y directorios a nivel de usuarios y grupos. Definiciones relacionadas con un sistema de archivo: Unidad fsica: El propio disco duro, sin ms. Unidad lgica: Fragmento que se comporta como una particin y que est dentro de una particin extendida. Particin: Puede ser el total del tamao del disco o una parte. Particin primaria: Particin que el sistema marca como bootable o arrancable. Particin extendida: particin que no es de inicio y que a su vez puede contener unidades lgicas. Slo puede haber una por disco. RAID (matriz redundante de discos independientes): Utilizar varias unidades fsicas en una matriz para ofrecer mayor tamao, tolerancia a fallos y mayor rendimiento. Hay varios niveles, RAID-0, RAID-1, RAID-5, etc. La numeracin no indica mejor rendimiento o tolerancia a fallos, tan solo diferencias de mtodos. En esta parte vamos a usar el trmino organizacin de archivos para referirnos a la estructura lgica de los registros determinada por la manera en que se accede a ellos. La organizacin fsica del archivo en almacenamiento secundario depende de la estrategia de agrupacin y de la estrategia de asignacin de archivos. Para seleccionar una organizacin de archivos hay diversos criterios que son importantes: Acceso Rpido para recuperar la informacin Fcil actualizacin Economa de almacenamiento Mantenimiento simple Fiabilidad para asegurar la confianza de los datos La prioridad relativa de estos criterios va a depender de las aplicaciones que va a usar el archivo. La mayor parte de las estructuras empleadas en los sistemas reales se encuadran en una de estas categoras o puede implementarse como una combinacin de estas.

3 may Directorios Generalmente son utilizados por los S. O. para llevar un registro de los archivos. En muchos sistemas son a su vez tambin archivos. Sistemas Jerrquicos de Directorios El directorio contiene un conjunto de datos por cada archivo referenciado: Nombre, atributos, direcciones en disco donde se almacenan los datos. Otra posibilidad es que cada entrada del directorio contenga: El nombre del archivo, Un apuntador a otra estructura de datos donde se encuentran los atributos y las direcciones en disco. Al abrir un archivo el S. O.: Busca en su directorio el nombre del archivo. Extrae los atributos y direcciones en disco. Graba esta informacin en una tabla de memoria real. Todas las referencias subsecuentes al archivo utilizarn la informacin de la memoria principal. El nmero y organizacin de directorios vara de sistema en sistema: Directorio nico: el sistema tiene un solo directorio con todos los archivos de todos los usuarios:

Un

directorio

por

usuario:

el

sistema

habilita

un

solo

directorio

por

cada

usuario.

Un rbol de directorios por usuario: el sistema permite que cada usuario tenga tantos directorios como necesite, respetando una jerarqua general.

Acceso fsico Discos La Unidad de Disco Duro o Disco Rgido ("Hard Disc Drive" o HDD) es llamada simplemente "disco duro" o "disco rgido", aunque en su interior contenga uno o varios discos magnticos apilados. Un disco duro es un dispositivo de almacenamiento no voltil, que conserva la informacin aun con la prdida de energa, que emplea un sistema de grabacin magntica digital; es donde en la mayora de los casos se encuentra almacenado el sistema operativo de la computadora. Dentro de la carcasa hay una serie de platos metlicos apilados girando a gran velocidad. Sobre los platos se sitan los cabezales encargados de leer o escribir los impulsos magnticos. Hay distintos estndares para comunicar un disco duro con la computadora; las interfaces ms comunes son Integrated Drive Electronics (IDE, tambin llamado ATA), SCSI generalmente usado en servidores, SATA, este ltimo estandarizado en el ao 2004 y FC exclusivo para servidores. SAN (Storage Area Network) red de rea de almacenamiento, es una red concebida para conectar servidores, matrices (arrays) de discos y libreras de soporte. Principalmente, est basada en tecnologa fibre channel y ms recientemente en iSCSI. Su funcin es la de conectar de manera rpida, segura y fiable los distintos elementos que la conforman. Tal y como sale de fbrica, el disco duro no puede ser utilizado por un sistema operativo. Antes se deben definir en l un formato de bajo nivel, una o ms particiones y luego hemos de darles un formato que pueda ser entendido por nuestro sistema. Tambin existe otro tipo de discos denominados de estado slido que utilizan cierto tipo de memorias construidas con semiconductores para almacenar la informacin. El uso de esta clase de discos generalmente se limitaba a las supercomputadoras, por su elevado precio, aunque hoy en da ya se puede encontrar en el mercado unidades mucho ms econmicas de baja capacidad (hasta 128 GB) para el uso en computadoras personales (sobre todo porttiles). Las siguientes son las principales ventajas con respecto del uso de la memoria principal como almacenamiento : Mucha mayor capacidad de espacio de almacenamiento. Menor precio por bit. La informacin no se pierde al apagar la computadora. Un uso inapropiado de los discos puede generar ineficiencia, en especial en sistemas con multiprogramacin.

4 may 5.4.2. Hardware de Discos

Los discos estn organizados en cilindros, pistas y sectores. Pistas = Tracks Una pista es un anillo circular sobre un lado del disco. Cada pista tiene un nmero. El diagrama muestra 3 pistas. Sectores Se llama sector de un disco a una parte en forma de cua del mismo. Cada sector est numerado.

Un sector de pista es el rea de interseccin entre una pista Y un sector. (rea amarilla)

Clusters Un cluster es un conjunto de sectores de pista, desde 2 a 32 o ms, dependiendo del esquema de formateo que se use. El esquema ms comn para PC determina la cantidad de sectores de pista por cada cluster sobre la base de la capacidad del disco. Un disco rgido de 120 gigabytes tendr el doble de clusters que un disco rgido de 50 GB. 1 cluster es el mnimo espacio usado para cualquier lectura o escritura. Por esta causa es frecuente que quede mucho espacio perdido (slack space), no usado a continuacin del cluster de datos almacenado all. La nica manera de reducir la cantidad de espacio perdido es reduciendo el tamao de cada cluster cambiando el mtodo de formateo. Usted podra tener ms pistas en el disco o adems ms sectores por pista, o podra reducir el nmero de pistas y sectores por cluster.

Cilindros Un cilindro es un juego de pistas similares en todos los platos Sobre un disco rgido, un cilindro est integrado por todas las pistas del mismo y de todos los discos metlicos que componen al disco rgido. Si se coloca uno encima de otro obtiene un cuerpo que semeja la forma de una lata sin tapa ni fondo - un cilindro. El nmero tpico de sectores por pista vara entre 8 y 32 (o ms). Todos los sectores tienen igual nmero de bytes. Los sectores cercanos a la orilla del disco sern mayores fsicamente que los cercanos al centro. Apareci la tecnologa ZBR (grabacin de bits por zonas) que aumenta el nmero de sectores en las pistas exteriores, y usa ms eficientemente el disco duro. ZBR es la sigla de Zone Bit Recording, que es un mtodo de formatear las pistas del disco duro, de tal manera que las pistas exteriores puedan contener ms sectores que las interiores. Antiguamente, las pistas se dividan en un nmero igual de sectores, pero considerando que las pistas de un disco duro son circunferencias concntricas, stas tienen mayor longitud mientras ms nos alejemos del centro y obviamente se desaprovecha el espacio sobre todo en las pistas exteriores del plato. As, esta tecnologa agrupa las pistas en zonas segn su distancia hasta el centro del disco, asignndole a cada zona un nmero de sectores por pista. Si nos movemos desde el centro hacia fuera, cada zona tendr ms sectores por pista que la anterior. Conseguimos as un uso ms eficiente de la superficie del disco duro y adems, como ventaja colateral, aumentar la tasa de transferencia mientras ms nos alejemos del centro, ya que el cabezal del disco duro leer ms cantidad de datos por giro del plato. El primer sistema de direccionamiento que se us fue el CHS (cilindro-cabeza-sector), ya que con estos tres valores se puede situar un dato cualquiera del disco. Ms adelante se cre otro sistema ms sencillo: LBA (direccionamiento lgico de bloques), que consiste en dividir el disco entero en sectores y asignar a cada uno un nico nmero. Este es el que actualmente se usa. LBA es un mtodo de direccionamiento particularmente simple. Los bloques son numerados segn un ndice, siendo el primer bloque LBA=0, el segundo LBA=1, y as sucesivamente. Este mtodo sucede a otros sistemas anteriores que exponan los detalles fsicos de las unidades de almacenamiento al software directamente, con los riesgos que ello conlleva. El pionero de estos sistemas fue CHS (cylinder-head-sector), donde se les asignaba una direccin a cada bloque mediante una tupla que defina el cilindro, el cabezal y el sector en que se encontraba. Este sistema no funcionaba bien en dispositivos que no fueran discos duros, como las cintas de datos, por lo que no era muy usado en esos casos. Tipos de Conexin Si hablamos de disco rgido podemos citar a los distintos tipos de conexin que poseen los mismos con la tarjeta madre, es decir pueden ser SATA, IDE o SCSI: IDE: Integrated Device Electronics ("Dispositivo con electrnica integrada") o ATA (Advanced Technology Attachment), controla los dispositivos de almacenamiento masivo de datos, como los discos duros y ATAPI (Advanced Technology Attachment Packet Interface) Hasta hace poco, el estndar principal por su versatilidad y relacin calidad/precio. SCSI: Small Computer System Interface. Son discos duros de gran capacidad de almacenamiento (desde 5 GB hasta 23 GB). Se presentan bajo tres especificaciones: SCSI Estndar (Standard SCSI), SCSI Rpido (Fast SCSI) y SCSI Ancho-Rpido (Fast-Wide SCSI). Su tiempo medio de acceso puede llegar a 7 mseg y su velocidad de transmisin secuencial de informacin puede alcanzar tericamente los 5 Mbps en los discos SCSI Estndares, los 10 Mbps en los discos SCSI Rpidos y los 20 Mbps en los discos SCSI Anchos-Rpidos (SCSI-2). Un controlador SCSI puede manejar hasta 7 discos duros SCSI (o 7 perifricos SCSI). A diferencia de los discos IDE, pueden trabajar asncronicamente con relacin al microprocesador, lo que los vuelve ms rpidos. SATA (Serial ATA): Nuevo estndar de conexin que utiliza un bus serie para la transmisin de datos. Notablemente ms rpido y eficiente que IDE. En la actualidad hay dos versiones, SATA 1 de hasta 1,5 Gigabits por segundo (150 MB/s) y SATA 2 de hasta 3,0 Gb/s (300 MB/s) de velocidad de transferencia.

Un disco duro suele tener: Platos en donde se graban los datos, Cabezal de lectura/escritura, Motor que hace girar los platos, Electroimn que mueve el cabezal, Circuito electrnico de control, que incluye: interfaz con la computadora, memoria cach, Bolsita desecante (gel de slice) para evitar la humedad, Caja, que ha de proteger de la suciedad. Tornillos, a menudo tipo Torx. Un controlador puede realizar bsquedas en una o ms unidades al mismo tiempo: Son las bsquedas traslapadas. Mientras el controlador y el software esperan el fin de una bsqueda en una unidad, el controlador puede iniciar una bsqueda en otra. Muchos controladores pueden: Leer o escribir en una unidad. Buscar en otra. Los controladores no pueden leer o escribir en dos unidades al mismo tiempo. La capacidad de bsquedas traslapadas puede reducir considerablemente el tiempo promedio de acceso. Estructura lgica Dentro del disco se encuentran: El Master Boot Record (en el sector de arranque), que contiene la tabla de particiones. Las particiones, necesarias para poder colocar los sistemas de archivos.

9 may 5.5 Mecanismos de acceso a los archivos. Diseo de un sistema de archivos Se consideran aspectos como: La forma de almacenamiento de archivos y directorios. La administracin del espacio en disco. La forma de hacerlo de manera eficiente y confiable. Se deben tener presentes problemas como la fragmentacin del espacio en disco: Ocasiona problemas de desempeo al hacer que los archivos se desperdiguen a travs de bloques muy dispersos. Una tcnica para aliviar este problema consiste en realizar peridicamente: o Compactacin: reorganizar los archivos expresa o automticamente. o Recoleccin de basura o residuos. Implantacin de Archivos El aspecto clave de la implantacin del almacenamiento de archivos es el registro de los bloques asociados a cada archivo. Algunos de los mtodos utilizados son los siguientes: Asignacin contigua o adyacente: o Los archivos son asignados a reas contiguas de almacenamiento secundario. o Las principales ventajas son: Facilidad de implantacin, ya que slo se precisa el nmero del bloque de inicio para localizar un archivo. Rendimiento excelente respecto de la e / s. o Los principales defectos son: Se debe conocer el tamao mximo del archivo al crearlo. Produce una gran fragmentacin de los discos. Asignacin no contigua: Son esquemas de almacenamiento ms dinmicos: o Asignacin encadenada orientada hacia el sector: El disco se considera compuesto de sectores individuales. Los archivos constan de varios sectores que pueden estar dispersos por todo el disco. Los sectores que pertenecen a un archivo comn contienen apuntadores de uno a otro formando una lista encadenada. Una lista de espacio libre contiene entradas para todos los sectores libres del disco. Las ampliaciones o reducciones en el tamao de los archivos se resuelven actualizando la lista de espacio libre y no hay necesidad de compactacin. desventajas: Por la dispersin en el disco, la recuperacin de registros lgicamente contiguos puede significar largas bsquedas. El mantenimiento de la estructura de listas encadenadas significa una sobrecarga en tiempo de ejecucin. Los apuntadores de la lista consumen espacio en disco. o Asignacin por bloques: Es ms eficiente y reduce la sobrecarga en ejecucin. Es una mezcla de los mtodos de asignacin contigua y no contigua. Se asignan bloques de sectores contiguos y no sectores individuales. El sistema trata de asignar nuevos bloques a un archivo eligiendo bloques libres lo ms prximos a los bloques del archivo existentes. Las formas ms comunes son: Encadenamiento de bloques. Encadenamiento de bloques de ndice. o Encadenamiento de bloques o lista ligada: Las entradas en el directorio de usuarios apuntan al primer bloque de cada archivo.

Cada bloque de longitud fija que forman un archivo contiene dos partes: Un bloque de datos y un apuntador al bloque siguiente. Cada bloque contiene varios sectores. Localizar un registro determinado requiere: Buscar en la cadena de bloques hasta encontrar el bloque apropiado. Buscar en el bloque hasta encontrar el registro. El examen de la cadena desde el principio puede ser lento ya que debe realizarse de bloque en bloque, y pueden estar dispersos por todo el disco. La insercin y el retiro son inmediatos, dado que se deben modificar los apuntadores del bloque precedente. Se pueden usar listas de encadenamiento doble, hacia adelante y hacia atrs, con lo que se facilita la bsqueda (ver Figura 4.4).

Encadenamiento de bloques de ndices: Los apuntadores son colocados en varios bloques de ndices separados: Cada bloque de ndices contiene un nmero fijo de elementos. Cada entrada contiene un identificador de registros y un apuntador a ese registro. Si es necesario utilizar ms de un bloque de ndices para describir un archivo, se encadena una serie de bloques de ndices. La gran ventaja es que la bsqueda puede realizarse en los propios bloques de ndices. Los bloques de ndices pueden mantenerse juntos en el almacenamiento secundario para acortar la bsqueda, pero para mejor desempeo podran mantenerse en el almacenamiento primario. La principal desventaja es que las inserciones pueden requerir la reconstruccin completa de los bloques de ndices: Una posibilidad es dejar vaca una parte de los bloques de ndices para facilitar inserciones futuras y retardar las reconstrucciones. Es suficiente que el dato del directorio contenga el nmero de bloque inicial para localizar todos los bloques restantes, sin importar el tamao del archivo (ver Figura 4.5).

10

11

10 may Implantacin de Directorios La principal funcin del sistema de directorios es asociar el nombre del archivo con la informacin necesaria para localizar los datos. La posicin de almacenamiento de los atributos puede ser en forma directa dentro del dato del directorio. Tipos de mtodos de acceso: Mtodo de Acceso Secuencial: El acceso secuencial significa que un grupo de elementos es accedido en un predeterminado orden secuencial. El acceso secuencial es a veces la nica forma de acceder a los datos, por ejemplo en una cinta de casete. Tambin puede ser el mtodo de acceso elegido, para simplemente procesar una secuencia de datos en orden. Mtodo de Acceso Secuencial Indexado: Mtodo comn de acceso a disco que almacena datos en forma secuencial, al tiempo que mantiene un ndice de campos claves para todos los registros en el archivo para acceso directo. El orden secuencial sera el ms comnmente usado para el procesamiento por lotes y la impresin (nmero de cuenta, nombre, etc.). Mtodo de Acceso Indexado: Pendiente la definicin. Mtodo de Acceso Hashed: Pendiente la definicin. Otras Definiciones. Archivos Secuenciales La forma ms comn de estructura de archivo es el archivo secuencial. En este tipo de archivo, un formato fijo es usado para los registros. Todos los registros tienen el mismo tamao, constan del mismo nmero de campos de tamao fijo en un orden particular. Como se conocen la longitud y la posicin de cada campo, solamente los valores de los campos necesitan almacenarse; el nombre del campo y longitud de cada campo son atributos de la estructura de archivos. Un campo particular, generalmente el primero de cada registro se conoce como el campo clave. El campo clave identifica unvocamente al registro. As, los valores de la clave para registros diferentes son siempre diferentes. Los archivos secuenciales son tpicamente utilizados en aplicaciones de proceso de lotes Y son ptimos para dichas aplicaciones si se procesan todos los registros. La organizacin secuencial de archivos es la nica que es fcil de usar tanto en disco como en cinta. Para las aplicaciones interactivas que incluyen peticiones o actualizaciones de registros individuales, los archivos secuenciales ofrecen un rendimiento pobre. Normalmente un archivo secuencial se almacena en bloques, en un orden secuencial simple de los registros. La organizacin fsica del archivo en una cinta o disco se corresponde exactamente con la ubicacin lgica del archivo. En este caso, el procedimiento para ubicar los nuevos registros es un archivo de pila separado, llamado archivo de registro (log file) o archivo de transacciones. Peridicamente, se realiza una actualizacin por lotes que mezcla el archivo de registro con el archivo maestro para producir un nuevo archivo en secuencia correcta de claves. Archivos Secuenciales indexados Un mtodo popular para superar las desventajas de los archivos secuenciales es el del archivo secuencial indexado. El archivo secuencial indexado mantiene las caractersticas bsicas de los archivos secuenciales: los registros estn organizados en una secuencia basada en un campo. Dos caractersticas se aaden: un ndice del archivo para soportar los accesos aleatorios y un archivo de desbordamiento (overflow). El ndice provee una capacidad de bsqueda para llegar rpidamente a las proximidades de un registro deseado. El archivo de desbordamiento (overflow) es similar al archivo de registro usado en un archivo secuencial, pero est integrado de forma que los registros del archivo de desbordamiento se ubican en la direccin de un puntero desde su registro precedente. En la estructura secuencial indexada ms simple, se usa un solo nivel de indexacin. El ndice, en este caso, es un archivo secuencial simple. Cada registro del archivo ndice tiene dos campos: un campo clave, que es el mismo que el campo clave del archivo principal y un puntero al archivo principal. Para encontrar un campo especfico se busca en el ndice hasta encontrar el valor mayor de la clave que es igual o precede al valor deseado de la clave. La bsqueda contina en el archivo principal a partir de la posicin indicada por el puntero. Archivos Indexados Los archivos secuenciales indexados retienen la limitacin del archivo secuencial: la eficacia en el procesamiento se limita al basado en un nico campo del archivo. Cuando es necesario buscar un registro

12

basndose en algn otro atributo distinto del campo clave ambas formas de archivo secuencial no son adecuadas. En algunas aplicaciones esta flexibilidad es deseable. Para alcanzar esta flexibilidad, se necesita una estructura que utilice mltiples ndices, uno para cada tipo de campo que pueda ser objeto de la bsqueda. Se suelen utilizar dos tipos de ndices. Un ndice exhaustivo contiene una entrada para cada registro del archivo principal. Otro ndice parcial contendr entradas a los registros donde est el campo de inters. Con registros de longitud variable, algunos registros no contendrn todos los campos. Los archivos indexados son muy utilizados en aplicaciones donde es crtica la oportunidad de la informacin y donde los datos son rara vez procesados de forma exhaustiva. Archivos Directos o de Dispersin (Hashed) Los archivos directos explotan la capacidad de los discos para acceder directamente a cualquier bloque de direccin conocida. Como en los archivos secuenciales y secuenciales indexados, se requiere un campo clave en cada registro. Sin embargo, aqu no hay concepto de ordenamiento secuencial.

13

11 may 5.6 Manejo de espacio en memoria secundaria. Administracin del Espacio en Disco Existen dos estrategias generales para almacenar un archivo de n bytes: Asignar n bytes consecutivos de espacio en el disco: o Tiene el problema de que si un archivo crece ser muy probable que deba desplazarse en el disco, lo que puede afectar seriamente al rendimiento. Dividir el archivo en cierto nmero de bloques (no necesariamente) adyacentes: o Generalmente los sistemas de archivos utilizan esta estrategia con bloques de tamao fijo. Tamao del bloque: Dada la forma en que estn organizados los bloques, el sector, la pista y el cilindro son los candidatos obvios como unidades de asignacin. Si se tiene una unidad de asignacin grande, como un cilindro, esto significa que cada archivo, inclusive uno pequeo, ocupar todo un cilindro; con esto se desperdicia espacio de almacenamiento en disco. Si se utiliza una unidad de asignacin pequea, como un sector, implica que cada archivo constar de muchos sectores; con esto su lectura generar muchas operaciones de e / s afectando el desempeo. Lo anterior indica que la eficiencia en tiempo y espacio tienen un conflicto inherente. Generalmente se utilizan como solucin bloques de 1/2 k, 1k, 2k o 4k. (ver Figura 4.8).

Hay que recordar que el tiempo de lectura de un bloque de disco es la suma de los tiempos de: Bsqueda, rotacional y Transferencia. Disk quotas: Para evitar que los usuarios se apropien de un espacio excesivo en disco, los S. O. multiusuario proporcionan un mecanismo para establecer las cuotas en el disco. Un administrador del sistema asigna a cada usuario una proporcin mxima de archivos y bloques. El S. O. garantiza que los usuarios no excedan sus cuotas. Operacin de Almacenamiento de Disco de Cabeza Mvil Los datos se graban en una serie de discos magnticos o platos. El eje comn de los discos gira a una velocidad del orden de las 4,000 o ms revoluciones por minuto.

14

Se lee o escribe mediante una serie de cabezas de lectura - escritura (ver Figura 5.4]): Se dispone de una por cada superficie de disco. Solo puede acceder a datos inmediatamente adyacentes a ella: o La parte de la superficie del disco de donde se leer (o sobre la que se grabar) debe rotar hasta situarse inmediatamente debajo (o arriba) de la cabeza de lectura - escritura. o El tiempo de rotacin desde la posicin actual hasta la adyacente al cabezal se llama tiempo de latencia. Todas las cabezas de lectura - escritura estn montadas sobre una barra o conjunto de brazo mvil: Puede moverse hacia adentro o hacia afuera, en lo que se denomina operacin de bsqueda. Para una posicin dada, la serie de pistas accesibles forman un cilindro vertical. A los tiempos de bsqueda y de latencia se debe agregar el tiempo de transmisin propiamente dicha (ver Figura 5.5).

15

El tiempo total de acceso a un registro particular: Involucra movimientos mecnicos. Generalmente es del orden de centsimas de segundo, aunque el tiempo de latencia sea de algunas milsimas de segundo (7 a 12 aproximadamente).

16

16 may Por qu es Necesaria la Planificacin de Discos En los sistemas de multiprogramacin muchos procesos pueden estar generando peticiones de e / s sobre discos: La generacin de peticiones puede ser mucho ms rpida que la atencin de las mismas: o Se construyen lneas de espera para cada dispositivo. o Para reducir el tiempo de bsqueda de registros se ordena la lista de peticiones: esto se denomina planificacin de disco. La planificacin de disco implica: Un examen cuidadoso de las peticiones pendientes para determinar la forma ms eficiente de servirlas. Un anlisis de las relaciones posicionales entre las peticiones en espera. Un reordenamiento de la cola de peticiones para servirlas minimizando los movimientos mecnicos. Los tipos ms comunes de planificacin son: Optimizacin de la bsqueda. Optimizacin rotacional (latencia). Generalmente los tiempos de bsqueda superan a los de latencia, aunque la diferencia tiende a disminuir. Bajo condiciones de carga ligera (promedio bajo de longitud de la cola), es aceptable el desempeo del mtodo FCFS (primero en llegar, primero en ser servido). Bajo condiciones de carga media o pesada, es recomendable un algoritmo de planificacin de las colas de requerimientos. Caractersticas Deseables de las Polticas de Planificacin de Discos Criterios: Capacidad de ejecucin. Media del tiempo de respuesta. Varianza de los tiempos de respuesta (predecibilidad). Objetivos: maximizar la capacidad de ejecucin Maximizar el nmero de peticiones servidas por unidad de tiempo. Minimizar la media del tiempo de respuesta. Mejorar el rendimiento global, quizs a costa de las peticiones individuales. La planificacin suele mejorar la imagen total al tiempo que reduce los niveles de servicio de ciertas peticiones: Se mide utilizando la varianza de los tiempos de respuesta. La varianza es un trmino estadstico que indica hasta qu punto tienden a desviarse del promedio de todos los elementos los elementos individuales. A menor varianza mayor predecibilidad. Se desea una poltica de planificacin que minimice la varianza, es decir que maximice la predecibilidad. No debe haber peticiones que puedan experimentar niveles de servicio errticos. Justicia Estrategias de bsqueda en disco (algoritmos de planificacin) En la mayora de los discos, el tiempo de bsqueda supera al de retraso rotacional y al de transferencia, debido a ello, la reduccin del tiempo promedio de bsqueda puede mejorar en gran medida el rendimiento del sistema. En los sistemas multiprogramados son varios los procesos activos en un momento dado, y pueden producirse peticiones simultneas de acceso a disco. Si mientras se hace un acceso llegan ms peticiones, el sistema deber mantenerlas en una lista de espera. Al terminar la peticin que se atenda, el disco estar libre y el sistema determinar el orden de atencin de las peticiones pendientes, minimizando el desplazamiento del brazo y el tiempo de servicio.

17

FCFS (First come first served) El criterio ms simple, sirve las peticiones segn su hora de llegada, de programacin sencilla y sin sobrecarga, pero su eficiencia es relativa:

SSTF (Shortest seek time first) Se atiende primero la peticin ms cercana a la ltima servida, la que quede ms cerca. Reduce a la mitad el nmero de movimientos del brazo en comparacin con FCFS. No respeta el orden de llegada de las peticiones a la cola. Tiende a favorecer a las pistas del centro del disco

El desplazamiento total es de 232 cilindros, mucho menor que FCFS. Es ms eficaz pero se pueden postergar indefinidamente algunas peticiones. Supongamos que hay 2 peticiones pendientes, cilindros 25 y 110, si mientras se atiende la 25 llegan ms peticiones cercanas a ella (o menos lejanas a la 110), se atendern las nuevas peticiones aplazando la 110. Problemas: El ingreso de nuevas solicitudes puede demorar la atencin de las ms antiguas. Con un disco muy cargado, el brazo tender a permanecer a la mitad del disco la mayora del tiempo, como consecuencia de ello las solicitudes lejanas a la mitad del disco tendrn un mal servicio. Entran en conflicto los objetivos de Tiempo mnimo de respuesta y Justicia.

18

La velocidad de servicio variar segn que las peticiones posteriores provoquen postergacin o no. Esta falta de prediccin lo hace poco adecuado para sistemas interactivos y til en batch

19

18 may Algoritmo del elevador o exploracin (scan) Es la solucin a la postergacin de SSTF Se mantiene el movimiento del brazo en la misma direccin, hasta que no tiene ms solicitudes pendientes en esa direccin; entonces cambia de direccin.

Ocasionalmente es mejor que el algoritmo SSTF pero sin sus inconvenientes. SCAN de N - Pasos El movimiento del brazo es como en SCAN; pero solo da servicio a las peticiones que se encuentran en espera cuando comienza un recorrido particular. Las peticiones que llegan durante un recorrido son agrupadas y ordenadas y sern atendidas durante el recorrido de regreso. C-Scan (Exploracin circular) Variante de scan. Atiende peticiones slo en un sentido, al llegar al ltimo cilindro, regresar al primero sin atender peticiones. El brazo se mueve del cilindro exterior al interior, sirviendo a las peticiones sobre una base de bsqueda ms corta. Finalizado el recorrido hacia el interior, salta a la peticin ms cercana al cilindro exterior y reanuda su desplazamiento hacia el interior. En la prctica, tanto Scan como C-scan no llevarn el brazo hasta los extremos del disco, sino que cambiar de sentido al servir la ltima peticin. Son los ms adecuados para discos con mucha carga.

Conclusiones Mediante trabajos de simulacin y de laboratorio se demostr lo siguiente: La estrategia SCAN es la mejor con carga baja. La estrategia C - SCAN es la mejor con cargas medias y pesadas. La decisin de qu algoritmo aplicar, depende de los objetivos del sistema y la carga del disco. Generalmente, las mejoras tecnolgicas de los discos: Acortan los tiempos de bsqueda (seek). No acortan los tiempos de demora rotacional (search).

20

En algunos discos, el tiempo promedio de bsqueda ya es menor que el retraso rotacional. El factor dominante ser el retraso rotacional, por lo tanto, los algoritmos que optimizan los tiempos de bsqueda (como el algoritmo del elevador) perdern importancia frente a los algoritmos que optimicen el retraso rotacional. Una tecnologa importante es la que permite el trabajo conjunto de varios discos. Este diseo se conoce como RAID (Redundant Array of Independent Disks); mtodo de combinacin de varios discos duros para formar una nica unidad lgica en la que se almacenan los datos de forma redundante. Ofrece mayor tolerancia a fallos y ms altos niveles de rendimiento que un slo disco duro o un grupo de discos duros independientes. Protege los datos contra el fallo de una unidad de disco duro. Si se produce un fallo, RAID mantiene el servidor activo y en funcionamiento hasta que se sustituya la unidad defectuosa. 5.7 Modelo jerrquico. Jerarqua de datos Son niveles de abstraccin de cmo organizamos los datos: Bit: elemento de informacin que permite almacenar 0 o 1. Byte: 8 bits. Representan nmeros en binario (de 0 a 28 - 1) y caracteres de texto usando cdigos (ASCII), es decir, convenios para representar datos alfanumricos con 8 bits. Campo: secuencia de datos iguales. Registro: compuesto por campos (no necesariamente todos iguales). Fichero o archivo: permite guardar conjuntos de registros. Bases de datos: conjunto de registros a los que se puede acceder usando ciertas claves.

21

19 may 5.8 Mecanismos de recuperacin en caso de falla. Confiabilidad del Sistema de Archivos Es necesario proteger la informacin alojada en el sistema de archivos, efectuando los resguardos correspondientes. De esta manera se evitan las consecuencias generalmente catastrficas de la prdida de los sistemas de archivos. Las prdidas se pueden deber a problemas de hardware, software, hechos externos, etc. Manejo de un bloque defectuoso: Se utilizan soluciones por hardware y por software. La solucin en hardware: Consiste en dedicar un sector del disco a la lista de bloques defectuosos. Al inicializar el controlador por primera vez: o Lee la lista de bloques defectuosos. o Elige un bloque (o pista) de reserva para reemplazar los defectuosos. o Registra la asociacin en la lista de bloques defectuosos. o En lo sucesivo, las solicitudes del bloque defectuoso utilizarn el de repuesto. La solucin en software: Requiere que el usuario o el sistema de archivos construyan un archivo con todos los bloques defectuosos. Se les elimina de la lista de bloques libres. Se crea un archivo de bloques defectuosos: o Est constituido por los bloques defectuosos. o No debe ser ledo ni escrito. o No se debe intentar obtener copias de respaldo de este archivo. Respaldos (copias de seguridad o de back-up): Es muy importante respaldar los archivos con frecuencia. Los respaldos pueden consistir en efectuar copias completas del contenido de los discos (flexibles o rgidos). Una estrategia de respaldo consiste en dividir los discos en reas de datos y reas de respaldo, utilizndolas de a pares: Se desperdicia la mitad del almacenamiento de datos en disco para respaldo. Cada noche (o en el momento que se establezca), la parte de datos de la unidad 0 se copia a la parte de respaldo de la unidad 1 y viceversa. Otra estrategia es el vaciado por incrementos o respaldo incremental: Se obtiene una copia de respaldo peridicamente (por ej.: una vez por mes o por semana), llamada copia total. Se obtiene una copia diaria solo de aquellos archivos modificados desde la ltima copia total; en estrategias mejoradas, se copian solo aquellos archivos modificados desde la ltima vez que dichos archivos fueron copiados. Se debe mantener en el disco informacin de control como una lista de los tiempos de copiado de cada archivo, la que debe ser actualizada cada vez que se obtienen copias de los archivos y cada vez que los archivos son modificados. Puede requerir una gran cantidad de cintas de respaldo dedicadas a los respaldos diarios entre respaldos completos. Consistencia del sistema de archivos: Muchos sistemas de archivos leen bloques, los modifican y escriben en ellos despus. Si el sistema falla antes de escribir en los bloques modificados, el sistema de archivos puede quedar en un estado inconsistente. La inconsistencia es particularmente crtica si algunos de los bloques afectados son: Bloques de directorios. Bloques de la lista de bloques libres.

22

La mayora de los sistemas dispone de un programa utilitario que verifica la consistencia del sistema de archivos: Se pueden ejecutar al arrancar el sistema o por solicitud expresa. Pueden actuar sobre todos o algunos de los discos. Pueden efectuar verificaciones a nivel de bloques y a nivel de archivos. La consistencia del sistema de archivos no asegura la consistencia interna de cada archivo, respecto de su contenido. Generalmente pueden verificar tambin el sistema de directorios y / o de bibliotecas. Generalmente los utilitarios utilizan dos tablas: Tabla de bloques en uso. Tabla de bloques libres. Cada bloque debe estar referenciado en una de ellas. Si un bloque no aparece en ninguna de las tablas se trata de una falla llamada bloque faltante: No produce daos pero desperdicia espacio en disco. Se soluciona aadiendo el bloque a la tabla de bloques libres. Tambin podra detectarse la situacin de falla debida a un bloque referenciado dos veces en la tabla de bloques libres: La solucin consiste en depurar la tabla de bloques libres. Una falla muy grave es que el mismo bloque de datos aparezca referenciado dos o ms veces en la tabla de bloques en uso: Como parte del mismo o de distintos archivos. Si uno de los archivos se borra, el bloque aparecera en la tabla de bloques libres y tambin en la de bloques en uso. Una solucin es que el verificador del sistema de archivos: o Asigne un bloque libre. o Copie en el bloque libre el contenido del bloque conflictivo. o Actualice las tablas afectando el bloque copia a alguno de los archivos. o Agregue el bloque conflictivo a la tabla de bloques libres. o Informe al usuario para que verifique el dao detectado y la solucin dada. Otro error posible es que un bloque est en la tabla de bloques en uso y en la tabla de bloques libres: Se soluciona eliminndolo de la tabla de bloques libres. Una posible falla en los directorios es que el contador de enlaces sea mayor que el nmero de entradas del directorio: No se trata de un error serio pero produce desperdicio de espacio en disco con archivos que no se encuentran en ningn directorio. Se soluciona haciendo que el contador de enlaces tome el valor correcto; si el valor correcto es 0, el archivo debe eliminarse. Tambin se pueden hacer verificaciones heursticas, por ej.: Se debera informar como sospechosos aquellos directorios con excesivas entradas, por ej., ms de mil. Manejo de Errores en Discos Algunos de los errores ms comunes en discos son: Error de programacin: Ej.: Solicitar un sector no existente. Error temporal en la suma de verificacin: Ej.: Provocado por polvo en la cabeza. Error permanente en la suma de verificacin: Ej.: Un bloque del disco daado fsicamente. Error de bsqueda: Ej.: El brazo se enva al cilindro 6 pero va al 7. Error del controlador: Ej.: El controlador no acepta los comandos. El manejador del disco debe controlar los errores de la mejor manera posible. La mayora de los controladores: Verifican los parmetros que se les proporcionan. Informan si no son vlidos.

23

Respecto de los errores temporales en la suma de verificacin: Generalmente se eliminan al repetir la operacin. Si persisten, el bloque debe ser marcado como un bloque defectuoso, para que el software lo evite.

SAN Una red SAN se distingue de otros modos de almacenamiento en red por el modo de acceso a bajo nivel. El tipo de trfico en una SAN es muy similar al de los discos duros como ATA,SATA y SCSI. En otros mtodos de almacenamiento, (como SMB o NFS), el servidor solicita un determinado fichero, p.ej."/home/usuario/rocks". En una SAN el servidor solicita "el bloque 6000 del disco 4". La mayora de las SAN actuales usan el protocolo SCSI para acceder a los datos de la SAN, aunque no usen interfaces fsicas SCSI. Este tipo de redes de datos se han utilizado y se utilizan tradicionalmente en grandes main frames como en IBM, SUN o HP. Aunque recientemente con la incorporacin de Microsoft se ha empezado a utilizar en mquinas con sistemas operativos Microsoft.

Una SAN es una red de almacenamiento dedicada que proporciona acceso de nivel de bloque a LUNs. Un LUN, o nmero de unidad lgica, es un disco virtual proporcionado por la SAN. El administrador del sistema tiene el mismo acceso y los derechos a la LUN como si fuera un disco directamente conectado a la misma. El administrador puede particionar y formatear el disco en cualquier medio que l elija.

Dos protocolos de red utilizados en una SAN son Fibre Channel e iSCSI. Una red de canal de fibra es muy rpida y no est agobiada por el trfico de la red LAN de la empresa. Sin embargo, es muy cara. Las tarjetas de canal de fibra ptica cuestan alrededor de $ 1000.00 USD cada una. Tambin requieren conmutadores especiales de canal de fibra. iSCSI es una nueva tecnologa que enva comandos SCSI sobre una red TCP / IP. Este mtodo no es tan rpido como una red Fibre Channel, pero ahorra costes, ya que utiliza un hardware de red menos costoso.

A partir de desastres como lo fue el "martes negro" en el ao 2001 la gente de TI, han tomado acciones al respecto, con servicios de cmo recuperarse ante un desastre, cmo recuperar miles de datos y lograr la continuidad del negocio, una de las opciones es contar con la Red de rea de almacenamiento, sin embargo las compaas se pueden enfrentar a cientos de ataques, por lo que es necesario contar con un plan en caso de contingencia; es de vital importancia que el sitio dnde se encuentre la Red de almacenamiento, se encuentre en un rea geogrfica distinta a dnde se ubican los servidores que contienen la informacin crtica; adems se trata de un modelo centralizado fcil de administrar, puede tener un bajo costo de expansin y administracin, lo que

24

la hace una red fcilmente escalable; fiabilidad, debido a que se hace ms sencillo aplicar ciertas polticas para proteger a la red.

Anda mungkin juga menyukai