lunes, 5 de septiembre de 2011

(1.1.3) Archivos

Los ficheros o archivos son la herramienta fundamental de trabajo en una computadora todavía a día de hoy. Las computadoras siguen almacenando la información en ficheros, eso sí de estructura cada vez más compleja.
Los datos deben de ser almacenados en componentes de almacenamiento permanente, lo que se conoce como memoria secundaria (discos duros u otras unidades de disco). En esas memorias, los datos se estructuran en archivos (también llamados ficheros).
Un fichero es una secuencia de números binarios que organiza información relacionada a un mismo aspecto.
En general sobre los archivos se pueden realizar las siguientes operaciones:



  • Abrir (open). Prepara el fichero para su proceso.
  • Cerrar (close). Cierra el fichero impidiendo su proceso inmediato.
  • Leer (read). Obtiene información del fichero.
  • Escribir (write). Graba información en el fichero.
  • Posicionarse (seek). Coloca el puntero de lectura en una posición concreta del mismo (no se puede realizar en todos los tipos de ficheros).
  • Fin de fichero (eof). Indica si hemos llegado al final del fichero.
Cuando los ficheros almacenan datos, se dice que constan de registros. Cada registro contiene datos relativos a un mismo elemento u objeto. Por ejemplo en un fichero de personas, cada registro contiene datos de una persona. Si el archivo contiene datos de 1000 personas, constará de 1000 registros.
A continuación se explican los tipos más habituales de ficheros.

Ficheros Secuenciales

En estos ficheros, los datos se organizan secuencialmente en el orden en el que fueron grabados. Para leer los últimos datos hay que leer los anteriores. Es decir leer el registro número nueve, implica leer previamente los ocho anteriores.



Ventajas
  • Rápidos para obtener registros contiguos de una base de datos
  • No hay huecos en el archivo al grabarse los datos seguidos, datos más compactos.
  • Consultas muy lentas al tener que leer todos los datos anteriores al dato que queremos leer
  • Algoritmos de lectura y escritura más complejos
  • No se pueden eliminar registros del fichero (se pueden marcar de manera especial para que no sean tenidos en cuenta, pero no se pueden borrar)
  • El borrado provoca archivos que no son compactos
  • La ordenación de los datos requiere volver a crearle de nuevo

Ficheros de Acceso Directo o Aleatorio

Se puede leer una posición concreta del fichero, con saber la posición (normalmente en bytes) del dato a leer. Cuando se almacenan registros, posicionarnos en el quinto registro se haría de golpe, lo único necesitamos saber el tamaño del registro, que en este tipo de ficheros debe de ser el mismo. Suponiendo que cada registro ocupa 100 bytes, el quinto registro comienza en la posición 400. Lo que se hace es colocar el llamado puntero de archivo en esa posición y después leer.


ventajas
  • Acceso rápido al no tener que leer los datos anteriores
  • La modificación de datos es más sencilla
  • Permiten acceso secuencial
  • Permiten leer y escribir a la vez
  • Aptos para organizaciones relativas directas, en las que la clave del registro se relaciona con su posición en el archivo
desventajas

Salvo en archivos relativos directos, no es apto por sí mismo para usar en bases de datos, ya que los datos se organizan en base a una clave
No se pueden borrar datos (sí marcar para borrado, pero generarán huecos)
Las consultas sobre multitud de registros son más lentas que en el caso anterior.

Ficheros Secuenciales Encadenados



Son ficheros secuenciales gestionados mediante punteros, datos especiales que contienen la dirección de cada registro del fichero. Cada registro posee ese puntero que indica la dirección del siguiente registro y que se puede modificar en cualquier momento. El puntero permite recorrer los datos en un orden concreto.
Cuando aparece un nuevo registro, se añade al final del archivo, pero los punteros se reordenan para que se mantenga el orden.

ventajas

El fichero mantiene el orden en el que se añadieron los registros y un segundo orden en base a una clave
La ordenación no requiere reorganizar todo el fichero, sino sólo modificar los punteros
Las mismas ventajas que el acceso secuencial
En esta caso sí se borran los registros y al reorganizar, se perderán definitivamente.

desventajas

No se borran los registros, sino que se marcan para ser ignorados. Por lo que se malgasta espacio
Añadir registros o modificar las claves son operaciones que requieren re calcular los punteros.

Ficheros Secuenciales Indexados

Se utilizan dos ficheros para los datos, uno posee los registros almacenados de forma secuencial, pero que permite su acceso aleatorio. El otro posee una tabla con punteros a la posición ordenada de los registros. Ese segundo fichero es el índice, una tabla con la ordenación deseada para los registros y la posición que ocupan en el archivo.
El archivo de índices posee unas cuantas entradas sólo en las que se indica la posición de ciertos valores claves en el archivo (cada 10, 15 ,20,... registros del archivo principal se añade una entrada en el de índices).
El archivo principal tiene que estar siempre ordenado y así cuando se busca un registro, se busca su valor clave en la tabla de índices, la cual poseerá la posición del registro buscado. Desde esa posición se busca secuencialmente el registro hasta encontrarlo.
Existe un archivo llamado de desbordamiento u overflow en el que se colocan los nuevos registros que se van añadiendo (para no tener que ordenar el archivo principal cada vez que se añade un nuevo registro) este archivo está desordenado. Se utiliza sólo si se busca un registro y no se encuentra en el archivo principal. En ese caso se recorre todo el archivo de overflow hasta encontrarlo.
Para no tener demasiados archivos en overflow (lo que restaría velocidad), cada cierto tiempo se reorganiza el archivo principal. Ejemplo:


ventajas
  • El archivo está siempre ordenado en base a una clave
  • La búsqueda de datos es rapidísima
  • Permite la lectura secuencial (que además será en el orden de la clave)
  • El borrado de registros es posible (aunque más problemático que en el caso anterior)
desventajas

  • Para un uso óptimo hay que reorganizar el archivo principal y esta operación es muy costosa ya que hay que reescribir de nuevo y de forma ordenada todo el archivo.
  • La adición de registros requiere más tiempo que en los casos anteriores al tener que re ordenar los índices.

Ficheros Indexados Encadenados

Utiliza punteros e índices, es una variante encadenada del caso anterior. Hay un fichero de índices equivalente al comentado en el caso anterior y otro fichero de tipo encadenado con punteros a los siguientes registros. Cuando se añaden registros se añaden en un tercer registro llamado de desbordamiento u overflow. En ese archivo los datos se almacenan secuencialmente, se accede a ellos si se busca un dato y no se encuentra en la tabla de índices.



ventajas

Posee las mismas ventajas que los archivos secuenciales indexados, además de una mayor rapidez al reorganizar el fichero (sólo se modifican los punteros)

desventajas

Requieren compactar los datos a menudo para reorganizar índices y quitar el fichero de desbordamiento.