You are on page 1of 8

Archivos Secuenciales

Los archivos secuenciales son un tipo de archivo en los que la informacin puede leerse y escribirse
empezando desde el principio del archivo.
El archivo secuencial es la forma ms comn de estructura de archivo. En este tipo de archivo, un
formato fijo es usado para los registros. Todos los registros tienen el mismo tamao, constan del
mismo nmero de campos de tamao fijo en un orden particular. Como se conocen la longitud y la
posicin de cada campo, solamente los valores de los campos se necesitan almacenarse; el nombre
del campo y longitud de cada campo son atributos de la estructura de archivos.
Un campo particular, generalmente el primero de cada registro se conoce como el campo clave. El
campo clave identifica unvocamente al registro. As, los valores de la clave para registros diferentes
son siempre diferentes.
Los archivos secuenciales son tpicamente utilizados en aplicaciones de proceso de lotes Y son
ptimos para dichas aplicaciones si se procesan todos los registros. La organizacin secuencias de
archivos es la nica que es fcil de usar tanto en disco como en cinta.
Las caractersticas que deben tener los archivos secuenciales son:
1. La escritura de nuevos datos siempre se hace al final del archivo.
2. Para leer una zona concreta del archivo hay que avanzar siempre, si la zona est antes de la zona
actual de lectura, ser necesario "rebobinar" el archivo.
3. Los ficheros slo se pueden abrir para lectura o para escritura, nunca de los dos modos a la vez.

Desventajas de trabajar con archivos secuenciales:


Trabajar con archivos secuenciales tiene algunos inconvenientes. Por ejemplo, imagina que tienes un
archivo de este tipo en una cinta magntica. Por las caractersticas fsicas de este soporte, es evidente
que slo podemos tener un fichero abierto en cada unidad de cinta. Cada fichero puede ser ledo, y
tambin sobrescrito, pero en general, los archivos que haya a continuacin del que escribimos se
perdern, o bien sern sobrescritos al crecer el archivo, o quedar un espacio vaco entre el final del
archivo y el principio del siguiente.
Lo normal cuando se quera actualizar el contenido de un archivo de cinta aadiendo o modificando
datos, era abrir el archivo en modo lectura en una unidad de cinta, y crear un nuevo fichero de
escritura en una unidad de cinta distinta. Los datos ledos de una cinta se editan o modifican, y se
copian en la otra secuencialmente.

Ventajas de trabajar con archivos secuenciales:


En cuanto a las ventajas, los archivos secuenciales son ms sencillos de manejar, ya que requieren
menos funciones, adems son ms rpidos, ya que no permiten moverse a lo largo del archivo, el
punto de lectura y escritura est siempre determinado.
En ocasiones pueden ser tiles, por ejemplo, cuando slo se quiere almacenar cierta informacin a
medida que se recibe, y no interesa analizarla en el momento. Posteriormente, otro programa puede
leer esa informacin desde el principio y analizarla. Este es el caso de archivos "log" o "diarios" por
ejemplo, los servidores de las pginas WEB pueden generar una lnea de texto cada vez que alguien
accede al una de las pginas y las guardan en un fichero secuencial.

Acceso a los registros de archivo


Segn las caractersticas del soporte empleado y el modo en que se han organizado los registros, se
consideran dos tipos de acceso a los registros de un archivo:
Acceso Secuencial: Implica el acceso a un archivo segn el orden de almacenamiento de sus
registros, uno tras otro.
Acceso Directo: Implica el acceso a un registro determinado, sin que ello implique la consulta
de los registros precedentes. Este tipo de acceso solo es posible con soportes direccionables.

Tipo de organizacin de los registros


La organizacin de un archivo define la forma en la que los registros se disponen sobre el
soporte al almacenamiento, o tambin se define la organizacin como la forma en que se estructuran
los datos en un archivo. En general, se consideran tres organizaciones fundamentales:
Organizacin Secuencial: Un archivo con organizacin secuencial es una sucesin de registros
almacenados consecutivamente sobre el soporte externo, de tal modo que para acceder a un registro
n dado es obligatorio pasar por todos los n-1 registros que le preceden.
Los registros se graban consecutivamente cuando el archivo se crea y se debe acceder cuando se leen
registros.
El orden fsico en que fueron grabados (escritos) los registros es el orden de lectura de los mismos.
Todos los tipos de dispositivos de memoria auxiliar soportan la organizacin secuencial.
Los archivos organizados secuencialmente contienen un registro particular, el ltimo, que contiene
una marca fin de archivo (EOF o bien FF). Esta marca fin de archivo suele ser un carcter especial
como '*'.

Organizacin Directa o Aleatoria: Un archivo esta organizado en modo directo cuando el orden
fsico no se corresponde con el orden lgico. Los datos se sitan en el archivo y se accede a ellos
directa, aleatoriamente, mediante su posicin, es decir, el lugar relativo que ocupan.
Esta organizacin tiene la ventaja de que se pueden leer y escribir registros en cualquier orden y
posicin. Son muy rpidos de acceso a la informacin que contienen.
La organizacin directa tiene el inconveniente de que se necesita programarla relacin existente entre
el contenido de un registro y la posicin que ocupa. El acceso a los registros en modo directo implica
la posible existencia de huecos libres dentro del soporte y por consecuencia pueden existir huecos
libres entre los registros.
Las condiciones para que un archivo sea de organizacin directa son:
* Almacenado en soporte direccionable.
* Los registros deben contener un campo especifico denominado clave que identifica cada
registro de modo nico; es decir, dos registros distintos no pueden tener un mismo valor de clave.
* Existencia de una correspondencia entre los posibles valores de la clave y
las
direcciones disponibles sobre el soporte.
Un soporte direccionables, normalmente, un disco o paquete de discos. Cada posicin se localiza por
su direccin absoluta, que en el caso del disco suele venir definida por dos parmetros, numero de
pista y numero de sector, o bien por tres parmetros, pista, sector y numero de cilindro; un cilindro i
es el conjunto de pistas de numero i de cada superficie de almacenamiento de la pila.
En la prctica el programador no gestiona directamente direcciones absolutas, sino direcciones
relativas respecto al principio del archivo. La manipulacin de direcciones relativas permite disear
el programa con independencia de la posicin absoluta del archivo en el soporte.
El programador crea una relacin perfectamente definida entre la clave indicativa de cada registro y
su posicin fsica dentro del dispositivo de almacenamiento.

Archivos Secuenciales indexados


Un mtodo popular para superar las desventajas de los archivos secuenciales es el del archivo
secuencias indexado. El archivo secuencial indexado mantiene las caractersticas bsicas de los
archivos secuenciales: los registros estn organizados en una secuencia basada en un campo. Dos
caractersticas se aaden: un ndice del archivo para soportar los accesos aleatorios y un archivo de
desbordamiento (overflow). El ndice provee una capacidad de bsqueda para llegar rpidamente a
las proximidades de un registro deseado. El archivo de desbordamiento (overflow) es similar al
archivo de registro usado en un archivo secuencial, pero esta integrado de forma que los registros del
archivo de desbordamiento se ubican en la direccin de un puntero desde si registro precedente. En
la estructura secuencial indexada ms simple, se usa un solo nivel de indexacin. El ndice, en este
caso, es un archivo secuencial simple. Cada registro del archivo ndice tiene dos campos: un campo
clave, que es el mismo que el campo clave del archivo principal y un puntero al archivo principal.
Para encontrar un campo especfico se busca en el ndice hasta encontrar el valor mayor de la clave
que es igual o precede al valor deseado de la clave. La bsqueda contina en el archivo principal a
partir de la posicin indicada por el puntero.

Organizacin Secuencial Indexada ("Indexa")


El diccionario es un ejemplo tpico de archivo secuencial indexado con dos niveles de ndices, el
nivel superior para las letras iniciales y el nivel menor para las cabeceras de pagina. En una
organizacin de computadora, las letras y las cabeceras de paginas se guardaran en un archivo de
ndice independiente de las entradas del diccionario (archivo de datos). Por consiguiente, cada
archivo secuencial indexado consta de un archivo ndice y un archivo de datos.

Condiciones para que un archivo secuencial sea indexado


Un archivo esta organizado en forma secuencial indexada si:
* El tipo de sus registros contiene un campo clave identificador.
* Los registros estn situados en un soporte direccionable por el orden de la posicin y el valor
de la clave; En esencia, el ndice contiene la clave del ultimo registro y la direccin de acceso al
primer registro del bloque.
Un archivo en organizacin secuencial indexada consta de las siguientes partes:
rea de datos o primaria: contiene los registros en forma secuencial y esta organizada en
secuencia de claves sin dejar huecos intercalados.
rea de ndices: es una tabla que contiene los niveles de ndices, la existencia de varios
ndices enlazados se denomina nivel de indexacin.
rea de desbordamiento: utilizada, si fuese necesario, para las actualizaciones.
El rea de ndices es equivalente, en su funcin, al ndice de un libro. En ella se refleja el valor de la
clave identificadora ms alta de cada grupo de registros del archivo y la direccin de
almacenamiento del grupo.

Ventajas de los archivos secuenciales indexados


* Rpido acceso.
* El sistema de gestin de archivos se encarga de relacionar la posicin de cada registro con su
contenido mediante la tabla de ndices.

Desventajas de los archivos secuenciales indexados


* Desaprovechamiento del espacio por quedar huecos intermedio cada vez que se actualiza el
archivo.
* Se necesita espacio adicional para el rea de ndices.
Los soportes que se utilizan para esta organizacin son los que permiten el acceso directo, los discos
magnticos. Los soportes de acceso secuencial no pueden utilizarse, ya que no dispone de
direcciones para sus posiciones de almacenamiento.

Operaciones bsicas de archivo secuenciales indexados


* Crear zonas de ndice y datos como archivos vacos originales.
* Cargar el archivo ndice en memoria antes de utilizarlo.
* Rescribir el archivo ndice desde memoria despus de utilizarlo.
* Actualizar registros al archivo de datos y al ndice.
* Borrar registros de archivos de datos.
* Actualizar registros en el archivo de datos.
Las operaciones bsicas que realizan los archivos secuenciales indexados son crear zonas de ndice y
datos de los archivos vacos originalmente, se encarga de cargar el archivo ndice antes de utilizarlo,
tiene la opcin o la funcin de rescribir nuevamente el archivo ndice en la memoria despus de
haber sido utilizado por el usuario.
Actualiza los archivos de datos y al ndice de los mismos, tambin puede borrar los registros que ya
no sirvan en los archivos de datos, la ultima funcin que tiene es el de actualizar registros en el
archivo de datos que utiliza el usuario.

Archivos Indexados
Los archivos secuenciales indexados retienen la limitacin del archivo secuencial: la eficacia en el
procesamiento se limita al basado en un nico campo del archivo. Cuando es necesario buscar un
registro basndose en algn otro atributo distinto del campo clave ambas formas de archivo
secuencial no son adecuadas. En algunas aplicaciones esta flexibilidad es deseable.
Para alcanzar esta flexibilidad, se necesita una estructura que utilice mltiples ndices, uno para cada
tipo
de
campo
que
pueda
ser
objeto
de
la
bsqueda.
Se suelen utilizar dos tipos de ndices. Uno ndice exhaustivo contiene una entrada par cada registro
del archivo principal. Otro ndice parcial contendr entradas a los registros donde este el campo de
inters. Con registros de longitud variable, algunos registros no contendrn todos los campos.
Los archivos indexados son muy utilizados en aplicaciones donde es critica la oportunidad de la
informacin y donde los datos son rara vez procesados de forma exhaustiva.

Operaciones bsicas sobre archivos


Creacin: Es la primera operacin que sufrir el archivo de datos. Implica la eleccin de un entorno
descriptivo que permita un gil, rpido y eficaz tratamiento del archivo.
Para utilizar un archivo, este tiene que existir, es decir, los datos de este archivo tienen que haber
sido almacenados sobre un soporte y ser utilizables. La creacin exige organizacin, estructura,
localizar o reservar espacio en el soporte de almacenamiento, transferencia del archivo del soporte
antiguo al nuevo.
Un archivo puede ser creado por primera vez en un soporte, proceder de otro previamente existente
en el mismo o diferente soporte, ser el resultado de un clculo o ambas cosas a la vez.

Consulta: Es la operacin que permite al usuario acceder al archivo de datos para conocer el
contenido de uno, varios o todos los requisitos.
Actualizacin: Es la operacin que permite tener actualizado (puesto al da) el archivo, de tal modo
que sea posible realizar las siguientes operaciones con sus registros:
*Consulta del contenido de un registro.
*Insercin de un registro nuevo en el archivo.
*Supresin de un registro existente.
*Modificacin de un registro.
Clasificacin: Una operacin muy importante en un archivo es la clasificacin u ordenacin (sort,
en ingles). Esta clasificacin se realizara de acuerdo con el valor de un campo especifico, pudiendo
ser ascendente (creciente) o descendente (decreciente): Alfabticamente o numrica.
Reorganizacin de un archivo: Las operaciones sobre archivos modifican la estructura inicial
o la optima de un archivo. Los ndices, enlaces (punteros), zonas de sinnimos, zonas de
desbordamiento, etc., se modifican con el paso del tiempo, lo que hace a la operacin de acceso
al registro cada vez ms lenta.
La reorganizacin suele consistir en la copia de un nuevo archivo a partir del archivo
modificado, a fin de obtener una nueva estructura lo mas optima posible.
Borra: Es la operacin inversa de un archivo (kill, en ingles). Cuando se destruye (anula o
borra) un archivo, este ya no se puede utilizar y por consiguiente no se podr acceder a ninguno de
sus registros.
Fusin de un archivo: Reunin. Esta operacin permite obtener un archivo a partir de otros
varios.
Rotura: Es la operacin de obtener varios archivos a partir de un mismo archivo inicial.

rboles B y rboles B+
Los rboles B y los rboles B+ son casos especiales de rboles de bsqueda. Un rbol de bsqueda
es un tipo de rbol que sirve para guiar la bsqueda de un registro, dado el valor de uno de sus
campos.

Archivos B en el Archivo ndice o Bn-m


En un rbol, un nodo (registro), es una pgina. Por cuestiones operativas en memoria principal, se
almacenan ms de una pgina (lo que evita en algunos casos, accesos al disco en los procesos de
bsqueda), se crea as un buffer de pginas en donde la raz siempre se encuentra ya que toda
bsqueda se inicia desde la raz.
Si necesitamos una pgina la buscamos en el buffer, si no existe, debe ser trasferida desde memoria
secundaria.

Indexado Bn-m con archivos de datos por bloques


K1
10
5
13
26

1
2
3
4

DRM
R1
R2
R3
R4
R5
R6
R7
R8

K
10
25
5
18
13
20
26
30

K2
25
8
20
30

PH1
2
*
*
*

PH2
3
*
*
*

PH3
4
*
*
*

PK1
R1
R3
R5
R7

PK2
R2
R4
R6
R8

B1
B2
B3
B4

ndices estructurados como rboles


ndices estructurados en forma de rboles, particularmente cuando se necesita flexibilidad para
permitir accesos por llaves, acceso ordenado o bien acceso secuenciales
Utilizacin de rboles AVL en archivos de ndice
Cada registro del ndice equivale a un nodo del rbol cuyo formato como mnimo es el
siguiente: campo informacin, puntero hijo izquierdo, puntero hijo derecho, puntero archivo de
datos. El campo info almacena el valor de la clave K,los campos punteros PHI, PHD, PAD
contienen direcciones relativas de memoria(DRM).
rboles B+ en el archivo de ndice
Los rboles B+ se desarrollaron con la idea de mejorar la eficiencia en el uso de la memoria
presentada por los rboles B.
En los rboles B, la operacin de insercin no requiere de redistribucin de clave, ya que la
divisin de nodos se encarga de los posibles desbordes que pudieran aparecer. La redistribucin
durante la insercin es una manera de evitar la creacin de nuevas pginas. Por ejemplo, en lugar de
dividir una pgina llena o que haya llegado al factor de llenado previamente establecido para su
divisin y crear 2 pginas nuevas, la redistribucin permite acomodar dentro de otra pgina las llaves
que provocan el desborde, tendiendo de este modo a un uso ms eficiente de la memoria.

Propiedades de los rboles B+


Esta nueva estructura, particularmente por su eficiente uso de memoria es apta para utilizarse como
ndice en un archivo indexado,. Para ello, y con otra idea posible, como la de acceder al archivo en
forma directa a travs del rbol B+ y en forma secuencial, es que restringimos el contenido de los
nodos no terminales del rbol B+ solamente a las llaves, sin ninguna otra informacin adicional,
dejando que los nodos terminales contengan realmente los registros del archivo tal como muestra la
siguiente figura:

Acceso
aleatorio

INDICE
ARBOL B+

Acceso
secuencial

REGISTROS

Utilizacin del rbol B+ como ndice

rboles B+ como ndice


El problema es encontrar un esquema estructural valido cuando el archivo ndice tiene un
tamao lo suficientemente grande como para que no pueda ser trado a memoria principal en forma
completa. Entonces vamos a recurrir a resultados provenientes de rboles B: Podemos dividir el
archivo ndice en paginas(similares a los bloques) de un tamao tal que pueden ser colocadas en
memoria primaria.
De manera mas especifica, veremos que los rboles B representan una estructura sumamente
apta para el manejo de archivos ndices de gran tamao. El uso de un rbol B es el archivo ndice
conjuntamente con la organizacin secuencial en bloque conforma a una estructura poderosa, y se le
conoce como rbol B, ya que es un conjunto de secuencias que almacena los registros reales.

ARCHIVO INVERTIDO
Aunque un registro del archivo maestro puede ser recuperado directamente por su nmero de MFN,
a travs del archivo de referencias cruzadas, se necesitan formas de acceso adicionales. Por ejemplo,
en la recuperacin de registros bibliogrficos, es necesario tener acceso a los registros por autor, por
materia o por cualquier otro dato que ocurra en el registro. El sistema CDS/ISIS permite tener
virtualmente un nmero ilimitado de puntos de acceso a cada registro con la creacin de un archivo
especial denominado archivo invertido.
El archivo invertido contiene todos los trminos que pueden usarse como puntos de acceso durante
la recuperacin de registros en una base de datos, y para cada trmino, la lista de referencias a los
registros del archivo maestro de donde se extrajo el trmino. Al conjunto de todos los puntos de
acceso para una base de datos determinada se le denomina diccionario. Se puede considerar el
archivo invertido como un ndice del contenido del archivo maestro.

UNIVERSIDAD NACIONAL DE CATAMARCA

FACULTAD DE TECNOLOGA Y CIENCIAS APLICADAS

MONOGRAFIA:

INTEGRANTES:
GOMEZ, GUSTAVO FEDERICO

M U 0847

TOLEDO, PABLO ESTEBAN

M U 0822

AO:

2008

You might also like