Sistemas de Archivos Distribuidos Cap17 Resumen

Sistemas Operativos de Redes
 Resumen Capitulo #17
Presentado Por:
30721427 DELMI MARINA CRUZ CERRATO

30911231 NANCY CAROLINA MARTINEZ
30711431 ROGER SAMUEL MADRID
30951023 DANIEL IVAN CARBAJAL
Lic. Allan Roberto Chang Durón

07 de Marzo de 2011
Centro Universitario Tecnológico
-CEUTEC-
Sistemas de Archivos Distribuidos (DFS)
Definición:
 Es una implementación distribuida del modelo clásico de compartición de

tiempo de un sistema de archivos, en el que múltiples usuarios comparten
archivos y recursos de almacenamiento.
 Colección de computadoras débilmente acopladas interconectadas por una
red de comunicaciones
Propósito:
 Emplear el mismo tipo de compartición cuando los archivos están físicamente

dispersos entre los sitios que componen un sistema distribuido.
Términos Importantes:
1. Servicio  Es una entidad software que se ejecuta en una o más maquinas y que
proporciona un tipo particular de función a los clientes.
2. Servidor Es el software de servicio que se ejecuta en una única maquina
3. Cliente Es un proceso que puede invocar a un servicio utilizando un conjunto de
operaciones que forman su INTERFAZ DE CLIENTE
Interfaz intermaquinas:
 Interfaz de menor nivel para la propia interacción entre unas maquinas y

otras.
Interfaz de Cliente:
 Para un servicio de archivos está formada por un conjunto de operaciones

primitivas de archivos:
 Creación de un archivo
 Borrado de un archivo
 Lectura de un archivo
 Escritura de un archivo
El componente de Hardware principal que un servidor de archivo controla es

un conjunto de dispositivos de almacenamiento secundario locales
(usualmente discos magnéticos) en los que se almacenan y de los que se
extraen los archivos a solicitud del cliente.
Algunas configuraciones de SDA:
 El servidor se ejecuta sobre maquinas dedicadas

 Maquinas que pueden actuar como servidores y como clientes al mismo tiempo.
 Se puede implementar como un sistema distribuido o alternativamente mediante un
nivel de software cuya tarea consiste en gestionar la comunicación entre sistemas
operativos convencionales y sistemas de archivos.
Características distintivas:
 Multiplicidad
 Autonomía de los clientes y servidores del sistema.
 Gestiona un conjunto de dispositivos dispersos de almacenamiento
 El espacio de almacenamiento total gestionado por un SDA está compuesto de
espacios más pequeños separados y ubicados en forma remota
Responsabilidad del SDA:
 Localizar los archivos solicitados

 Organizar el transporte de los datos
La medida más importante de rendimiento de un DFS es la cantidad de tiempo necesario para

satisfacer las solicitudes de servicio:
 Sistemas convencionales:
 Tiempo de acceso al disco
 Pequeña cantidad de tiempo de procesamiento invertido por la CPU
 Sistemas Distribuidos:
 Tiempo para entregar la solicitud a un servidor
 Tiempo para que el cliente obtenga la respuesta
 Coste del CPU requerido para ejecutar el software del protocolo
comunicaciones
Unidad Componente:
Conjunto de archivos más pequeños que pueden almacenarse en una sola maquina
independiente de otras unidades.
Nombrado y Transparencia
Nombrados  Correspondencia entre los objetos lógicos y físicos.
 Usualmente los usuarios hacen referencia a los archivos mediante un

nombre textual. El nombre textual se hace corresponder con un identificador
numérico de menor nivel que a su vez se hace corresponder con los bloques de
disco.
Transparente Se añade una nueva dimensión a esta abstracción la de ocultar en qué lugar
de la red reside el archivo.
Replicación de Archivos Dado un nombre de archivo la correspondencia de nombrado

devuelve un conjunto de ubicaciones correspondientes a las replicas del
archivo
Estructuras de Nombrado
Diferencias en la correspondencia de Nombre
1. Transparencia de ubicación No se revela ninguna información sobre la ubicación

física del archivo.
2. Independencia de ubicaciónNo es necesario modificar el nombre de un archivo
cuando varía la ubicación física de almacenamiento del archivo.
Existen nombres diferentes en los distintos niveles:
 Nombres textuales a nivel de usuario

 Identificadores numéricos a nivel de sistema
En los SDA no soportan migración de archivos resulta imposible cambiar automáticamente la

ubicación de un archivo. Los archivos están asociados permanentemente con un conjunto
específico de bloques de discos.
Aspectos que nos permiten diferenciar los conceptos de independencia de ubicación y de

transparencia estática de ubicación:
 La separación entre datos y ubicación, tal como se implementa mediante la

independencia de ubicación proporciona una mejor abstracción para los archivos.
Cada nombre de archivo debe denotar los atributos más significativos del archivo que
son sus contenidos y no su ubicación.
 La transparencia estática de ubicación proporciona a los usuarios una forma cómoda
de compartir datos.
 La independencia de ubicación separa la jerarquía de nombres de la jerarquía de
dispositivos de almacenamiento y de la estructura de interconexión de las
computadoras.
Esquemas de Nombrado
Existen 3 técnicas principales para construir esquemas de nombrado en un SDA:
 Primera Técnica: Identificar cada archivo mediante una combinación de su nombre de

host y de su nombre local lo que garantiza un nombre único en todo el sistema. Este
esquema no es ni transparente con respecto a la ubicación ni independiente con
respecto a la ubicación. Las unidades componentes permanecen aisladas, aunque
proporcionan mecanismos para hacer referencia a los archivos remotos.
 Segunda Técnica: (NFS) popularizada por SUN.NFS es el componente del sistema de
archivos de ONC+ un paquete de interconexión por red soportado por UNIX.
Proporciona un medio para asociar directorios remotos a los directorios locales
proporcionando así una apariencia de árbol de directorios coherente.
 Tercera Técnica: Una única estructura global de nombres que abarca a todos los
archivos del sistema. La estructura de sistemas de archivos compuesta es isomorfa a la
estructura de un sistema de archivos convencional. Sin embargo en la práctica los
numerosos archivos especiales hacen que este objetivo sea difícil de alcanzar.
Técnicas de Implementación
Para establecer la correspondencia entre el nombre de un archivo y la ubicación asociada hay
que establecer un mecanismo de correspondencia manejable, debemos agregar conjuntos de
archivos que en unidades componente y realizar la correspondencia basándonos en las
unidades componentes y realizar la correspondencia basándonos en las unidades
componentes en lugar de realizarlas por separado para cada archivo.
Para mejorar la disponibilidad de información crucial de correspondencia podemos utilizar

mecanismos de replicación, de cache local o ambos.
Técnica para eliminar el proceso de actualización de una forma simple y coherente es la

IDENTIFICACION DE ARCHIVOS INDEPENDIENTES DE LA UBICACIÓN de bajo nivel.
El precio que hay que pagar es la necesidad de un segundo nivel de correspondencia que haga
corresponder a cada unidad componente una ubicación determinada y que necesita un
mecanismo de actualización simple y coherente.
Una Forma común de implementar identificadores de bajo nivel consiste en utilizar nombres
estructurados. Estos nombres son cadenas de bits que están formadas, usualmente por dos
partes:
 Identificar la unidad componente a la que pertenece el archivo

 Identifica el archivo concreto dentro de la unidad
Todos los nombres son univocas en todo momento solo dentro del contexto de las partes.
ACCESO REMOTO A ARCHIVOS
Una forma a cabo esta transferencia es mediante un mecanismo de servicio remoto, mediante
el cual las solicitudes de acceso se entregan al servidor, la máquina servidora realiza los
accesos y los resultados se devuelven al usuario.
Para garantizar un rendimiento razonable del mecanismo de servicio remoto, podemos utilizar
algún tipo de caché.
ESQUEMA BÁSICO DE CACHÉ
Los archivos pueden seguir identificándose con una copia maestra que reside en la
máquina servidora, pero una serie de copias de archivo estarán dispersas en las
diferentes cachés.
El problema de mantener las copias de caché coherentes con el archivo maestro se

denomina problema de la coherencia del caché.
Los mecanismos de caché de un DFS podrían denominarse memoria virtual de red, ya

que actúan de forma similar a la forma virtual de paginación bajo demanda, salvo
porque el almacenamiento de respaldo no es, usualmente, un disco local sino un
servidor remoto.
La granularidad de los datos almacenados en caché en un DFS puede variar, pudiendo
definirse esa granularidad en el nivel de bloque de archivo o en el de un archivo
completo.
Para seleccionar la unidad de almacenamiento en caché, debemos tener en cuenta

parámetros tales como la unidad de transferencia de red y la unidad de servicio del
protocolo RPC.
UBICACIÓN DE LA CACHÉ.
Las cachés de disco tienen una clara ventaja sobre las cachés de memoria principal:
son bastante más fiables.
Las cachés de memoria principal tienen, de todos modos, varias ventajas:
 permiten que las estaciones de trabajo no utilicen disco

 resulta más rápido acceder a los datos almacenados
 la tecnología está avanzando para dar memorias de mayor tamaño y menor
coste
POLITICA DE ACTUALIZACIÓN DE LA CACHÉ.
La política que se utilice para escribir los bloques de datos modificados en la copia
maestra del servidor tiene un efecto crítico sobre la fiabilidad y las prestaciones del
sistema. La política más simple consiste en escribir los datos en disco en cuanto se los
coloca en cualquier caché.
La ventaja de esta política de escritura directa es la fiabilidad sin embargo esta política
se escritura requiere que cada acceso de escritura espere hasta que se envíe la
información al servidor por lo que la velocidad de escritura es muy baja.
Una alternativa es la política de escritura diferida, esta tiene dos ventajas sobre la
escritura directa. En primer lugar, puesto que las escrituras se realizan en la caché los
accesos de escrituran se completan más rápidamente; en segundo lugar, los datos
pueden ser sobrescritos antes de enviarlos al servidor, en cuyo caso sólo será
necesario escribir en el servidor la última actualización.
Coherencia
Es cuando una maquina cliente se enfrenta al problema de decidir si una copia d los datos
almacenados en la cache local es coherente con la copia maestra en el sentido de si esos datos
están actualizados ya que de lo contrario no se puede dar servicio a las solicitudes con
información vieja.
Hay 2 técnicas de validez:
 Inicio por parte cliente: el cliente inicia una comprobación en la que verifica con el
servidor si los datos necesarios son coherentes con la copia maestra, su frecuencia
varia si se accesa una vez o varias veces al archivo lo que significa una gran carga para
la red haciendo el proceso de consultas más lento.
 Inicio por parte servidor: el servidor registra para cada cliente los archivos que estos
tiene almacenados en cache, cuando el servidor detecta incoherencia potencial
reacciona a la misma eso sucede cuando dos clientes almacenan en cache el mismo
archivo entonces se recurre a un método en el cual se le informa al servidor cada vez
que se abra un archivo y de esta manera actuar.
Comparación entre cache y servicios remotos
Esta comparación tiene que ver con un incremento potencial en el desempeño y disminución
de simplicidad en los caches y servicio remotos:
 Un número considerable de accesos remotos pueden ser manejados por la cache local
 El trabajo total adicional de la red en a trasmisión de grandes porciones de datos es
menor cuando se trasmiten series de respuestas a solicitudes especificas
 para que el uso de caches de beneficios en su ejecución debe realizarse en maquias
con grandes discos locales o memorias muy grandes
Servicio con y sin memoria de estado
Hay 2 técnicas para almacenar información del lado del servidor cuando un cliente accede a
archivos remotos.
 Con memoria de estado: es cuando se establece una conexión entre el cliente y el

servido mientras este accesando a la información
 Sin memoria de estado: cada operación de archivo se realiza autónomamente sin
necesidad de sesiones de enlace ya que cada solicitud es auto contenida o sea, que
identifica al archivo sin necesidad de tener una tabla de lectura abierta
El Network File System (Sistema de archivos de red), o NFS, es un protocolo de nivel de

aplicación, según el Modelo OSI. Es utilizado para sistemas de archivos distribuido en un
entorno de red de computadoras de área local. Posibilita que distintos sistemas conectados a
una misma red accedan a ficheros remotos como si se tratara de locales
 El sistema NFS está dividido al menos en dos partes principales: un servidor y uno o
más clientes. Los clientes acceden de forma remota a los datos que se encuentran
almacenados en el servidor.
 Las estaciones de trabajo locales utilizan menos espacio de disco debido a que los
datos se encuentran centralizados en un único lugar pero pueden ser accedidos y
modificados por varios usuarios, de tal forma que no es necesario replicar la
información.
También se pueden compartir a través de la red dispositivos de almacenamiento como

disqueteras, CD-ROM y unidades ZIP. Esto puede reducir la inversión en dichos dispositivos y
mejorar el aprovechamiento del hardware existente en la organización.
NFS v4
Mejoras de esta versión:
Mejora carga transacciones utilizando protocolos tcp
Mejora la coherencia de cache notablemente
Mejora l capacidad de los clientes para almacenar archivos en cache local
El cambio más significativo es memoria del estado: desde que se abre una sesión el servidor
mantiene el estado de esa conexión
Replicación de archivos
Es un útil mecanismo de redundancia para mejorar la disponibilidad. La replicación Multi

máquina puede aumentar también las prestaciones.
El requisito básico de un esquema de replicación que los diferentes archivos de replicación, es

decir que la disponibilidad de una réplica no se vea afectada por la disponibilidad del resto de
las réplicas.
La existencias de las réplicas debe ser invisible para los clientes o niveles superiores, pero para
los niveles inferiores debe es necesario distinguir cada replica utilizando nombres.
Los mecanismo de control incluyen poder determinar el grado de replicación y colocación de

las replicas.
El problema principal de las réplicas es la actualización, cualquier actualización en una réplica

debe reflejarse en todas las demás réplicas. Es necesario preservar la semántica de coherencia
relevante de los acceso a las réplicas se contemplen como acceso virtuales a los archivos en
aras disponibilidad y prestaciones.
Pero esto de mantener la coherencia a toda costa puede producir errores, como bloques
indefinidos, se pude bajar la coherencia pero esto puede producir también errores
catastróficos.
Lotus. Emplea mecanismo de replicación y sacrificar la coherencia en caso se produzca un

partición de red.
Ibis utiliza una variante en un dominio de correspondencia de nombres <identificador-replica-
principal, identificador-replica-local>. Si no existe una réplica local se utiliza de uno de valor
especial.
Son parecidos a los almacenamientos automáticos de la cache, con una réplica de bajo
demanda donde se hacen las lecturas las actualizaciones se hacen sola mente en la principal,
esto puede producir que las replicas locales quede obsoletas pero aun validas, y lo que se hace
es que se manda una copia de la principal a la maquina solicitante.
Un ejemplo: AFS
El sistema de archivo de Andrew AFS(Andrew file system), constituye un mecanismo de

compartición de archivos.
Transarc Corparation asumió la creación de AFS después de ser adquirida por IBM, y desde
entonces ha producido varias implementaciones comerciales para el AFS.
Posterior mente fue utilizada por Sistema de archivos distribuido DFS (Distributed File System),
para crear transar DFS que forma parte de entorno distribuido.
En el 2000 IBM pasó el AFS como código abierto denominado como open AFS y el transar DSF
fue cancelado.
El open AFS está disponible para UNIX, así como sistemas Linux y Microsoft Windows y muchos
soportan de UNIX como Windows soportan DCE y su sistema de archivos DFS que están basado
en AFS.
AFS trata de resolver los problemas más simples de DFS dando unos centenares de
implementaciones de estos sistemas.
AFS: introducción
AFS distingue cliente y servidores los clientes y servidores se interconecta entre red LAN o
WAN, a los clientes se le presentante un espacio de nombre local y un espacio de nombre
compartido. En los servidores dedicados se le dominan Vice por el nombre software.
El espacio nombre local es el sistema de archivos de raíz dé cada servidor de donde desciende
el espacio nombres compartidos, los servidores ejecutan el protocolo de virtue para
comunicarse con Vice y cada una de ella tiene un espacio en disco.
Contemplados con granularidad más fina, clientes y servidores están estructurados para
interconectados mediante una WAN, también utilizan clúster para ello.
La arquitecturas están basadas en consideraciones de escala donde consiste en descargar el

trabajo de los servidores a los clientes donde la experiencia indica que la velocidad del CPU de
los servidores es un cuello de botella.
Una características de sistema AFS

 Movilidad de los clientes los clientes pueden acceder a cualquier archivo del espacio
de nombre compartido desde cualquier estación de trabajo.
 Seguridad. La interfaz Vice se considera la frontera de confianza, porque ningún
programa cliente se ejecuta en las maquinas Vice.
 Protección. AFS proporciona lista de acceso para proteger los directorios, además de
los bits normales de UNIX para protección de archivos.
 Heterogeneidad. La definición de una interfaz clara con Vice resulta clave para la
integración de diversos sistemas operativos y estaciones de trabajos con distintos
hardware.
Espacio de nombres compartidos.
En el sistema AFS esta formado por unidades componentes denominada volúmenes,

típicamente asociados con los archivos de un único cliente. En cada partición de disco residen
unos cuantos volúmenes y estos puede crecer (deponte la cuota) y reducirse de tamaño.
Aun que se parece al sistema que utiliza UNIX la diferencia de granularidad es significativa en
UNIX solo puede montar una partición de disco completa.
Un archivo Vice está identificado por identificador de bajo nivel denominado fid. AFS establece
la correspondencia entre un componente de nombre de ruta fid y un identificador fid.
Un fid tiene 96 bits de longitud y tres componentes de igual longitud: un numero de volumen,
un numero de vnodo u unificador.
El número de vnodo se utiliza como índice de una matriz que contiene los inodos de los
archivos de un único volumen, el unificador que permite reutilizar los números de vnodo.
Básicamente AFS implementa una semántica de sesión. Las únicas excepciones son las
operaciones de archivos distintas de las lecturas y escritura primitivas, que son visibles en
todos los puntos de la red inmediatamente después de completarse la operación.
Implementación
Básicamente Venus almacena las rutas de los archivos remotos en una cache para utilizar en lo
mínimo el servidor y así aumentar la eficiencia y la carga de este.
En el sistema UNIX se utiliza unp de bajo nivel para los clientes de servidores AFS. La cache del
cliente es el directorio local en el disco de la estación de trabajo. UNIX utiliza los inodos para
guardar las direcciones de los archivos y así gestionarlos.
Venus gestiona dos cache separadas: una para información y otra para los datos que emplea
un sencillo algoritmo LRU(least-recently-used) (traduc. Menos-reciente-usado).
Un único proceso de nivel de cliente en cada servidor de archivo se encarga de dar servicios a
todas las solicitudes de archivo de los clientes.

Sistemas de Archivos Distribuidos Cap17 Resumen

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sistemas de Archivos Distribuidos Cap17 Resumen

Uploaded by

Copyright:

Available Formats

Sistemas Operativos de Redes

 Resumen Capitulo #17

30721427 DELMI MARINA CRUZ CERRATO

Lic. Allan Roberto Chang Durón

 Es una implementación distribuida del modelo clásico de compartición de

 Emplear el mismo tipo de compartición cuando los archivos están físicamente

 Interfaz de menor nivel para la propia interacción entre unas maquinas y

 Para un servicio de archivos está formada por un conjunto de operaciones

El componente de Hardware principal que un servidor de archivo controla es

Algunas configuraciones de SDA:

 El servidor se ejecuta sobre maquinas dedicadas

Responsabilidad del SDA:

 Localizar los archivos solicitados

La medida más importante de rendimiento de un DFS es la cantidad de tiempo necesario para

Nombrados  Correspondencia entre los objetos lógicos y físicos.

 Usualmente los usuarios hacen referencia a los archivos mediante un

Replicación de Archivos Dado un nombre de archivo la correspondencia de nombrado

1. Transparencia de ubicación No se revela ninguna información sobre la ubicación

Existen nombres diferentes en los distintos niveles:

 Nombres textuales a nivel de usuario

En los SDA no soportan migración de archivos resulta imposible cambiar automáticamente la

Aspectos que nos permiten diferenciar los conceptos de independencia de ubicación y de

 La separación entre datos y ubicación, tal como se implementa mediante la

Existen 3 técnicas principales para construir esquemas de nombrado en un SDA:

 Primera Técnica: Identificar cada archivo mediante una combinación de su nombre de

Para mejorar la disponibilidad de información crucial de correspondencia podemos utilizar

Técnica para eliminar el proceso de actualización de una forma simple y coherente es la

 Identificar la unidad componente a la que pertenece el archivo

ACCESO REMOTO A ARCHIVOS

ESQUEMA BÁSICO DE CACHÉ

El problema de mantener las copias de caché coherentes con el archivo maestro se

Los mecanismos de caché de un DFS podrían denominarse memoria virtual de red, ya

Para seleccionar la unidad de almacenamiento en caché, debemos tener en cuenta

Las cachés de memoria principal tienen, de todos modos, varias ventajas:

 permiten que las estaciones de trabajo no utilicen disco

POLITICA DE ACTUALIZACIÓN DE LA CACHÉ.

Hay 2 técnicas de validez:

Comparación entre cache y servicios remotos

Servicio con y sin memoria de estado

 Con memoria de estado: es cuando se establece una conexión entre el cliente y el

El Network File System (Sistema de archivos de red), o NFS, es un protocolo de nivel de

También se pueden compartir a través de la red dispositivos de almacenamiento como

Mejoras de esta versión:

Mejora carga transacciones utilizando protocolos tcp

Mejora la coherencia de cache notablemente

Mejora l capacidad de los clientes para almacenar archivos en cache local

Es un útil mecanismo de redundancia para mejorar la disponibilidad. La replicación Multi

El requisito básico de un esquema de replicación que los diferentes archivos de replicación, es

Los mecanismo de control incluyen poder determinar el grado de replicación y colocación de

El problema principal de las réplicas es la actualización, cualquier actualización en una réplica

Lotus. Emplea mecanismo de replicación y sacrificar la coherencia en caso se produzca un

El sistema de archivo de Andrew AFS(Andrew file system), constituye un mecanismo de

La arquitecturas están basadas en consideraciones de escala donde consiste en descargar el

Una características de sistema AFS

Espacio de nombres compartidos.

En el sistema AFS esta formado por unidades componentes denominada volúmenes,

You might also like