You are on page 1of 26

1.

Diseo conceptual de los centros de datos


1.1 Disposiciones generales
En el capitulo presente, se presentan las definiciones y conceptos, acerca de que es un
Centro de datos y cuales son las facilidades necesarias tanto elctricas, como
mecnicas. Para que este mismo cumpla con lo estipulado en las normas ANSI/TIA942, IEEE-Std-446-1995, ICREA-Std-131-2009 y IEEE-Std-493-1997.
Este conjunto de definiciones y requerimientos sern enfocados en un caso de estudio
ficticio denominado Diseo del Data Center de Regional Electronics . El cual servir
como base y aplicacin de las normas y las metodologas de diseo, propuestas a travs
de todo el proyecto en general. Siendo esto una herramienta ilustrativa para este
proyecto.

1.2 Definiciones
Centro de datos: Un centro de datos o Data Center en su traduccin al ingls, es el
espacio fsico destinado para el alojamiento de cierta cantidad de servidores, los cuales
estn destinados al trfico y procesamiento de datos. Este mismo aloja todas las
facilidades y estructura necesaria para su ptimo funcionamiento. Esta misma
infraestructura con sus facilidades, depender en complejidad del mercado meta y los
requerimientos de la empresa o cliente al cual pertenece el centro de datos.
Facilidades de un centro de datos: Es toda aquella infraestructura ya sea elctrica,
mecnica o de software, que es necesaria para llevar a cabo las operaciones regulares en
un centro de datos. La consideracin de los lmites y alcances de las facilidades de un
centro de datos estn estrechamente ligadas a las operaciones del mismo. Dichas
facilidades pueden ser normadas cuando esto sea requerido por cuestiones de mercado y
competitividad del sitio.
Tier: Esta palabra corresponde a la clasificacin de infraestructura de centros de datos
propuestas en 1994 por Ken Bill en el UP-Time Institute e incluidas en la norma
ANSI/TIA-942 . Estas clasificaciones se dividen en cuatro niveles principales y los
mismos se basan en la capacidad, funcionalidad y la confiabilidad esperada de las
infraestructuras particulares representadas por cada uno de los niveles Tier.
Niveles de confiabilidad ICREA: Son la clasificacin de una infraestructura de centro
de datos, y sus facilidades, en cinco diferentes niveles. El nivel de ICREA que alcanza
un centro de datos depende de la disponibilidad y confiabilidad de su infraestructura,
con las disposiciones reunidas en la norma ICREA-Std-131-2009
Pentgono de Goyo: Forma de evaluar la confiabilidad de un centro de datos segn
ICREA El pentgono de Goyo es la forma precisa que permite en forma confiable
evaluar el Perfonrmance de la infraestructura de un centro de datos
Capacidad de un centro de datos: La capacidad de un centro de datos generalmente se
define en trminos de la capacidad de servidores que se pueden alojar dentro de l, esto
definido por la capacidad energtica del lugar adems del espacio fsico en metros
cuadrados del lugar. Otro criterio importante es el trfico de informacin que este puede
manejar y procesar en el centro de datos, este se puede cuantificar en GB/s.
Disponibilidad elctrica: Trmino aplicado al rendimiento de componentes
individuales de un sistema o de un sistema en general. Es un promedio de la fraccin de
tiempo en el cual un componente o sistema se encuentra en servicio y con rendimiento
satisfactorio. Otra posible definicin es la posibilidad en estado estable, de que un
componente o sistema se encuentre en servicio. (IEEE-Std-493-1997-Pgina 4)

Confiabilidad de sistemas: Criterio de que tan confiable es un sistema tomando en


cuenta su disponibilidad y la capacidad de enfrentar eventos de falla fortuitos.
Tomando en cuenta el tiempo de reparo de una falla en el sistema. Existen varios
ndices y criterios para calcular la confiabilidad de un sistema elctrico, propuestos por
diferentes entidades. Como por ejemplo los propuestos en la norma IEEE-Std-493-1997
(captulo 2)
Redundancia: Por redundancia se entiende la existencia de uno o ms equipos o
componentes extra en paralelo al equipo estelar. Dichos componentes adicionales
debern estar en la capacidad individual o conjunta, de suplir de manera total las
necesidades y funciones que cumple el equipo estelar, en la ausencia o falla de este
mismo. Existen entonces redundancias tipo N+1,N+2, etc., dependiendo de la cantidad
de equipos o conjuntos de ellos que suplen en mltiples ocasiones las funciones del
equipo estelar.

1.3 Cunto y por qu invertir en confiabilidad, disponibilidad


y capacidad de un centro de datos?
La respuesta a la pregunta de Por qu y cunto invertir en confiabilidad,
disponibilidad y capacidad de un centro de datos?, con lleva respuestas particulares
para situaciones especficas. Es posible clasificar la inversin posible en un centro de
datos en tres clasificaciones generales. Las cuales son infraestructura y software,
certificaciones y material humano, en este documento se har estudio especfico de las
dos primeras.
El por que invertir en infraestructura y software, esta ligado a la capacidad, disponibilidad y
confiabilidad del negocio particular en cuestin. Ya que las necesidades son particulares ligadas
al mercado en el cual una empresa especfica se encuentra inmersa. Es importante delimitar
entonces los clientes meta y los servicios a brindar con sus respectivos requerimientos. As como
el dinero que se puede perder a partir de la falta de capacidad, disponibilidad y confiabilidad del
sitio en especfico.
Existen varias propuestas para aproximar la prdida de capital por falta de confiabilidad
y disponibilidad. En otras palabras la cantidad de dinero que se pierde en una industria o
negocio, por causa de una falla que ocasione un paro no programado en el sitio. Esto
mismo esta ligado la cantidad de dinero que se requiere invertir en mejorar la
confiabilidad, disponibilidad y capacidad en un centro de datos especfico. En los Color Book
de IEEE, se proponen ciertas metodologas para aproximar esta cuantificacin.
Algunos de los mtodos de anlisis econmico aceptados por IEEE son:
- Mtodo de los ingresos requeridos (RR)
- Mtodo de la inversin de retorno (ROI)
- Mtodo del costo del ciclo de vida (LCC) (IEEE-Std-493-1997, captulo 2, pag. 23 )
Aunado a estos mtodos, se hace referencia al Mtodo de costo por tiempo de interrupcin,
propuesto en la norma IEEE-Std-446-1995.
Ests metodologas matemticas sirven de base para dar una idea de la necesidad de
inversin en disponibilidad y capacidad de un centro de datos. Las mismas toman en
cuenta los aspectos y variables tangibles del sistema. Las metodologas propuestas
toman en cuenta o relacionan la prdida econmica de un negocio particular, o la
posible prdida que tendran los clientes a los cuales se les brinda el servicio.

En el presente documento se har referencia especfica al Mtodo de los ingresos


requeridos (RR), y al Mtodo de costo por tiempo de interrupcin.

1.3.1 Mtodo de los ingresos requeridos


Este mtodo es propuestos en el capitulo segundo de la norma IEEE-Std-493-1997. El
mismo tiene como resultado directo el ndice de los ingresos mnimos requeridos
(MRR). En cuestin la cantidad de servicios o productos que se necesitan vender, para
obtener una ganancia mnima aceptable con respecto a la inversin especfica. Una vez
que se tenga el ndice de MRR es posible tomar una decisin en cuanto a la inversin
econmica aceptable que se debe hacer para mejorar la confiabilidad, disponibilidad y
capacidad en un centro de datos.
El MRR toma en cuenta aspectos econmicos como los gastos de operacin variable,
Los mnimos ingresos requeridos, la depreciacin, los impuestos al ingreso y los gastos
fijos de operacin. Esto hace que sea una herramienta muy completa, por los aspectos
econmicos y contables que toma en cuenta. Mas su principal desventaja es el amplio
estudio previo que se debe realizar para determinar las variables del mismo, en un caso
de estudio particular. Sumado a esto, el mtodo no es una respuesta directa a la
interrogante de cuanto se debe invertir en la infraestructura de un centro de datos. Ms
esta respuesta se encuentra inmersa en el MMR. Sin ms prembulos a continuacin las
ecuaciones que definen el mtodo de los ingresos requeridos y sus aclaraciones
respectivas:

Donde:
X es el factor acosijado a los gastos de operacin variables.
C es el factor asociado al capital de inversin.
F es el factor asociado a los gastos fijos de produccin
A continuacin se define el clculo de los factores anteriores:
Gastos de operacin variables (X): Este factor esta ntimamente asociado a la falla de
un componente y a las malas prcticas de ingeniera en el sistema en estudio. Estos
anteriores aspectos generales, aumentaran o disminuirn el peso de este factor. Que
tanto este factor vare depender del componente especfico que presente la falla en el
sistema y de la infraestructura de facilidades elctricas que este implementada en el
sistema. Este factor aumentar con el tiempo que se necesite para atender y solucionar
la falla o problema que cause el cese de operaciones de un sistema. Otros factores que
adems de las fallas incrementan este factor son: Daos en equipos del sistema,
componentes fuera de especificacin, costos extra por mantenimiento y costos de
reparacin de la falla. A continuacin las ecuacin matemticas que definen X y sus
respectivas anotaciones.

Donde
son las fallas por ao o el ndice de probabilidad de falla.

xi son los gastos incurridos por falla, en unidades econmicas.


gp son las ganancias perdidas por hora mientras el sistema esta fuera de servicio. En
unidades econmicas.
xp es el ahorro econmico por hora, de los costos de produccin mientras el sistema
esta fuera de servicio. En unidades econmicas por hora.
r es el tiempo asociado a la reparacin de una falla o el tiempo transcurrido mientras
se realiza la trasferencia del sistema a otro alimentador. Este esta asociado a la topologa
especfica de una infraestructura elctrica del sistema. Se cuantifica en horas.
s es el tiempo de inicio de operaciones una vez solucionada la falla en horas.
Inversin (C): Cada topologa de distribucin de potencia industrial, tiene consigo una
inversin particular. La topologa que usualmente lleva consigo la menor inversin es la
topologa radial. Al variar la calidad de los componentes y la construccin de un
sistema, la inversin asociada variar ampliamente. (IEEE-Std-493-1997, captulo 2,
pag. 28 )
Factor de carga a la inversin (F): Este factor es propuesto por Dickinson y su
desarrollo se puede encontrar en su obra literaria Fundamentals of reliability
techniques as applied to industrial power systems. Este factor es una relacin constante
entre la tasa de retorno mnima aceptable de la inversin, los impuestos a cancelar, la
depreciacin y los gastos fijos de la industria particular. Una manera simple de
cuantificar el factor F, a partir de factores normalizados se expone a continuacin:

Donde:
r es el retorno sobre la inversin normalizada por dlar de C.
d es la depreciacin sobre la inversin normalizada por dlar de C.
t son los impuestos normalizados por dlar de C.
e son los gastos fijos por dlar de C
Es posible entonces con esta informacin calcular el MRR en el caso de estudio.

1.3.2 Mtodo de costo por tiempo de interrupcin (CPIT)


La segunda metodologa a tratar en este escrito se trata denomina Costo por tiempo de
interrupcin y es una serie de ecuaciones contables que se extraen de la norma IEEEStd446-1995, en su pgina nmero cuarenta y dos. Este mtodo tiene la ventaja de
calcular directamente el costo econmico que tiene una interrupcin en una industria
determinada. Ms las ecuaciones contables solo consideran el entorno de la industria en
el momento puntual de la falla, sin tomar en cuenta impuestos, depreciacin, entre otros.
Costo total de la falla

Donde:
E es el costo en dlares por la mano de obra

H es el costo en dlares por el material desperdiciado por causa de la falla.


I es el costo en dlares de reinicio por causa de la falla.
A es el nmero de empleados efectivos afectados por la falla.
B es el salario base de los empleados en dlares por hora.
C son los gastos generales por hora y por empleado en dlares.
D duracin de la interrupcin de la planta.
F unidades del material desperdiciado por causa de la falla
G costo por unidad de material desperdiciado en dlares por causa de la falla.
J tiempo de reinicio de operaciones.
K nmero de empleados involucrados en el reinicio de operaciones.
L unidades de material desperdiciado por causa del reinicio de operaciones.

2.4.1 Anlisis de riesgos


Es importante a la hora de realizar una inversin en un centro de datos, garantizar que
los aspectos geogrficos y geolgicos del lugar sitio donde se ubicar el centro de datos,
adems de la obra civil en cuestin. En estos factores se deben tomar en cuenta, de
manera que no influirn negativamente en la seguridad y por consiguiente, en la
confiabilidad y disponibilidad del mismo. Por ello es importante realizar las
recomendaciones de acuerdo a las normas de centros de datos, ICREA-Std-131-2009 y
ANSI/TIA-942. La norma ANSI/TIA-942, hace principal referencia a la arquitectura
interna de la obra civil, mientras que en la norma ICREA-Std-131-2009, adems de la
obra civil interna, toma en cuenta aspectos de ubicacin geogrfica. . Tomando en
cuenta aspectos de riesgos geolgicos, aspectos energticos, aspectos de logstica, entre
otros. Esto para mejorar el desempeo y la confiabilidad del centro de datos en cuestin.
Como se ha mencionado con anterioridad.
En el documento presente se toman estos aspectos contemplados en las normas y se
proyectan desde la problemtica y realidad de Costa Rica. La metodologa propuesta
para llevar a cabo este aspecto, consiste en analizar las 138 cartas geogrficas de
planeamiento y riesgos naturales elaboradas por la Comisin Nacional de Emergencia
(CNE). Estas registran de manera detallada las zonas con riesgos geogrficos como
deslizamientos, inundacin, sismos y fenmenos ocenicos, en todo el territorio
nacional. Como lo muestra la ilustracin nmero uno. De estas cartas geogrficas se
obtendr la informacin para alimentar la matriz de riesgos con la cual se podr
determinar que tan seguro ser el terreno en estudio, para alojar un centro de datos.
Es importante mencionar que por cuestiones de facilidad, no es posible adjuntar en su
totalidad estas cartas al presente documento. Se tomarn en cuenta las que estn
asociadas con el caso de estudio Diseo de Data Center de Regional Electronics . y
algunas otras con motivos ilustrativos. Como se muestra en la ilustracin nmero dos Se
menciona adems, que las cartas de planeamiento y riesgo geogrfico pueden ser
adquiridas sin costo alguno en las oficinas centrales de la Comisin Nacional de
Emergencia.
En la siguiente tabla se muestran los tipos de riesgos generales que afectan la
produccin he inversin en un centro de datos:

Tipos de riesgos que afectaran a un centro de datos con fines comerciales (Data Center
Consultores Inc. Ao 2009)

Todo riesgo tiene una causa, en el anlisis de riesgos es importante entonces tener en
cuenta las causas o fuentes de dichos riesgos. Esto con el fin de tener la conciencia
necesaria para poder administrar los riesgos. En la tabla nmero 2 se clasifican las
diferentes fuentes de riesgos. Fuentes que produciran eventualmente eventos
desafortunados que afectara la produccin o fiabilidad de un centro de datos.
Una vez identificados las fuentes de riesgo de la zona y los riesgos propiamente, es
posible realizar valoraciones de tipo cuantitativo y cualitativo de los mismos y sus
consecuencias. Estos anlisis tiene el fin de arrojar a la luz variables como:
a) Inversin posible en seguridad contra riesgos
b) Perdidas posibles por motivo de paros en produccin
c) Perdidas posibles en equipo e infraestructura
d) Perdidas posibles por falta de credibilidad (Circusntacias polticas, aspectos
tcnicos, etc.)
Fuetes de los riesgos que afectaran la fiabilidad o productividad de un centro de datos
(Data Center Consultores Inc. Ao 2009)

1.4.1.1 Clasificacin y tratamiento cualitativo de riesgos


Para clasificar los riesgos y sus consecuencias de manera cuantitativa, es necesario tener
un amplio conocimiento de la regin en al cual se ubicara el futuro centro de datos. Ya
que es necesario determinar de manera objetiva clasificaciones y niveles de riesgo, por
cada fuente de riesgo. En la tabla nmero cuatro se describe una forma objetiva de tratar
los riesgos y sus respectivas fuentes de manera cualitativa. De esta manera es posible
tener entendimiento de cuales riesgos se pueden administrar de una manera oportuna, o
si existen riesgos de tal magnitud que de ser tratados implicara una inversin relevante
al proyecto, con lo cual el terreno en evaluacin seria descartado.
Estos factores son de principal importancia a la hora de que el centro de datos va a ser
certificado. Son aspectos evaluables por lo cual se podra perder la oportunidad de
obtener una certificacin de clase mundial, o peor an realizar un proyecto de tal
envergadura en un terreno con serios riesgos de toda ndole, y por lo cul la inversin
llegara a ser en vano.
Es posible agrupar las consideraciones de riesgo y la probabilidad de ocurrencia del
mismo en una matriz de riesgos cualitativos. Tal y como se muestra en la tabla nmero
4. En la misma se clasifican los riesgos en bajos con valores discretos de 0a 4, estos
pueden ser tratados con una inversin minina. Medios con valores discretos de 5 a 10,
en estos es necesario realizar una inversin considerable para evitar catstrofes. Y altos
con valores discretos de 11 a 25, en estos casos se considera fuertemente la opcin de
dejar la opcin en estudio de lado por su alto nivel de riesgo.

Anlisis cualitativo de riesgos (Data Center Consultores, 2009)

Impacto probable de las fuentes de riesgo en evaluacin (Data Center Consultores, 2009)

1.4.1.1 Clasificacin y tratamiento cuantitativo de riesgos


En esta seccin se detalla el anlisis cuantitativo de riesgos por medio de valores de
contingencia. El cual es un mtodo que estudia las perdidas he inversiones futuras que
se deberan hacer por causa de las fuentes de riesgo predominantes. La continencia total
del proyecto ser la sumatoria del costo de las consecuencias de cada falla, por la
multiplicacin de la probabilidad de ocurrencia de la misma. Un tabla de contingencia
posible se describe en la tabla nmero 5. Aunque se aclara que esta no es la nica
metodologa existente para analizar este tipo de problemas. Mas los resultados arrojados
por esta filosofa de tratamiento, pueden alimentar herramientas financieras estudiadas
en este escrito como los son el MRR y el CPIT.
En el anlisis de nuestra realidad es necesario implementar conocimiento sobre los
riesgos locales. Con lo cul las cartas geogrficas de riesgo del CNE, aportan una ayuda
inmediata y til para las fuentes por riesgos naturales. La probabilidad de ocurrencia de

estos fenmenos naturales debe ser fundamentada en estudios especficos para cada
regin. Pese a que las cartas aportan cierta informacin sobre los eventos ocurridos por
cada fuente de riesgo, muchas veces esta informacin es un poco escueta y se remite a
tan solo las fechas de los eventos.
El estudio de los riesgos geogrficos debe de ir acompaado tambin con un
conocimiento de la dinmica de la economa y la poltica de la regin. Ms para nuestra
realidad se podra tomar en cuenta tan solo la dinmica de la economa de nuestro pas,
por que para nuestra suerte nuestro pas goza de una estabilidad poltica sin igual en el
resto del mundo. De igual forma siempre es necesario para poder certificar el centro de
datos a construir, tomar en cuenta prcticas de diseo y recomendaciones de seguridad
que son parte de los estndares mundiales propuestos por Up Time Institute y por ICREA.
Tabla de contingencia

El anlisis de costos por contingencia, es una de las claves para poder determinar
decisiones y administracin de los riesgos, con una conciencia y un panorama mas claro
de las implicaciones de cada una de las fuentes de riesgo a la cul se encontrara
expuesta el futuro centro de datos.

1.4.2 Administracin de riesgos


Posterior al tema de anlisis de riesgos es necesario idear metodologas para administrar
y estar en prevencin ante los riesgos a los cuales va a estar expuesto un centro de datos
de manera inevitable.
El nivel de riesgo es el resultado de la evaluacin de amenazas y vulnerabilidades de
una localizacin y sus ambientes de datos y hardware, menos las medidas de control
adoptadas para su mitigacin( ICREA-Std-131-2009,art. 410.4.2)
La administracin de riesgos debe contemplar los siguientes aspectos: El personal de
operacin, su entrenamiento, las normas de seguridad y construccin que se utilizan, los
procedimientos conservados para la conservacin de equipos, las especificaciones de
fabricante, los procedimientos de recuperacin en caso de daos de infraestructura y la
redundancia deseada ( ICREA-Std-131-2009,art. 410.4.2)
Los riesgos deben ser controlados, transferidos y asumidos y para cada una de las
decisiones deber contarse con documentacin formal que asocie cada riesgo con la
decisin adoptada y por los fundamentos aprobados por la alta direccin de cada
organizacin. (ICREA-Std-131-2009,art. 410.4.2)

2. Confiabilidad en los centros de datos


La confiabilidad y la calidad de un sistema elctrico, puede abordarse a partir de
parmetros de continuidad de servicio y parmetros de calidad de la energa. El tema de
calidad de la energa es un tema muy amplio y cualitativo. Por lo tanto es natural tratar y
estudiar el tema de confiabilidad de un sistema elctrico a partir de la disponibilidad del
sistema elctrico.
Siendo la confiabilidad del sistema elctrico, el tiempo continuo real o esperado del
mismo. Es posible hablar entonces de la continuidad tanto de los eventos pasados, como
de los eventos futuros (prediccin de la confiabilidad). Este captulo se centra en tratar
el tema de confiabilidad del sistema elctrico a partir de la continuidad del mismo.
Tratndose del caso especfico de la prediccin de la confiabilidad futura de un sistema.
Cabe mencionar que esta tcnica a su vez, se apoya en informacin de la confiabilidad
pasada de sistemas elctricos anlogos. En este captulo se establece una metodologa
para determinar la confiabilidad del sistema elctrico de manera puntual. Esto a partir de
la confiabilidad de sus componentes individuales. Como el ltimo aspecto de este
captulo se evala los criterios de disponibilidad segn las normas ICREA-Std-1312009 y Up Time Institute.

2.1 ndice de "Frecuencia y Duracin de la Interrupcin


La prediccin de la confiabilidad de un centro de datos segn IEEE-Std-493-1997, se
puede realizar por medio del ndice denominado Frecuencia y duracin de la
interrupcin. Esta toma en cuenta elementos estadsticos como la tasa de falla de los
elementos elctricos que componen la red, la frecuencia de falla en el servicio elctrico
que alimenta al sistema, la frecuencia de las fallas tomando en cuenta probabilidades de
falla combinada y la duracin de puesta en marcha del sistema posterior a algn modo
de falla.
Con esta informacin probabilstica es posible entonces encontrar un ndice de
disponibilidad general del sistema. Dicho ndice a su vez genera informacin sobre el
tiempo en alto (Up Time) del sistema. El termino de tiempo en alto del sistema, que
en si es el tiempo de operacin del mismo. Esta variable es importante ya que las
principales normas internacionales (ICREA-Std-131-2009 y Up Time Institute), definen
la disponibilidad del sistema en trminos de la variable Tiempo en Alto. El mtodo
de Frecuencia y duracin de la interrupcin, es til para determinar la confiabilidad de
sistemas que fueron diseados bajo la filosofa de las normas antes mencionadas. Ya
que como se mostrara en un futuro el diseo de un centro de datos bajo la filosofa de
ICREA y de Up Time Institute, genera tiempos rangos del tiempo en alto discretos
y muy en general. En este caso el mtodo de Frecuencia y duracin de la
interrupcin, es til a la hora de conocer la disponibilidad futura real de un centro de
datos, ya que este es un resultado continuo y no segmentado, como si lo es en el caso de
las normas.
Es oportuno entonces describir el mtodo de una manera ms profunda y matemtica.
Realizando apartados especficos para cada una de las entradas del mismo. Dichos
apartados se desarrollan a continuacin.

3.1.1 Interrupciones causadas por la compaa de servicio


elctrico
Segn la norma IEEE STD 493-1997 la definicin de interrupcin es: Una

interrupcin elctrica ocurre cuando existe un voltaje inferior al requerido, con un


periodo de duracin tal que existe una degradacin parcial o prdida total, de los
procesos que lleva a cabo la carga a la cul se le brinda el servicio energtico. (IEEE
STD 493-1999: seccin 2.1.7)
Las interrupciones causadas por la compaas de servicio, ya sean programadas o no,
influyen fuertemente sobre las infraestructuras elctricas que no cuentan con sistemas
de potencia ininterrumpida (UPS), generadores elctricos de emergencia o generadores
elctricos de trabajo continuo. Ya que existen configuraciones probadas, con ambos
equipos, que minimizan enormemente el problema de interrupciones elctricas por
causa de las compaas de distribucin. Algunas de estas configuraciones son
propuestas tanto por Up Time Institute, como por ICREA, las mismas en muchas
ocasiones significan una alta inversin. La inversin mxima que se debera realizar en
estos equipos se encuentra intrnseca en el MMR, mtodo plasmado en el captulo
nmero dos.
En Costa Rica adems, el ICE y la CNFL, almacenan un historial de la calidad de
servicio y las interrupciones del mismo de al menos unos 30 aos. Con estos datos de
eventos pasados es posible predecir la frecuencia y la duracin de la falta de servicio
elctrico en una zona especfica. Dicha informacin es manejada por los departamentos
planeamiento y proyecciones en el caso del CNFL y el ICE.

2.1.2 Probabilidad de falla, frecuencia de falla y tiempo de


puesta en marcha pos falla, de los componentes de la
infraestructura electromecnica de un centro de datos
En el capitulo nmero dos de la norma IEEE STD 493-1997, se establecen las
frmulas y procedimientos matemticos para determinar las probabilidades de falla,
frecuencias de falla y tiempo de puesta en marcha de los componentes principales de la
infraestructura electromecnica de un centro de datos. Dichas formulas por lo general
necesitan datos de entrada especficos para cada componente. Entradas tales como
tiempos esperados de reparacin o reposicin de un componente, tiempo promedio de
corte total de energa, frecuencia esperada de un corte total de energa, probabilidad de
falla de un componente, entre otros. La desventaja de trabajar con estos datos reside en
que los mismos no son proporcionados por los fabricantes, la determinacin de los
mismos requiere de un estudio arduo. El mismo implica un trabajo y estudio de varios
aos. Mas es posible encontrar algunos de estos datos de entrada, en el captulo nmero
tres de la norma IEEE STD 493-1997 y en los apndices A, B, C, D, E ,F ,G ,H ,I, K,
L, M, N, P Y Q de la misma norma.
A continuacin se exponen entonces las formulas que conforman el mtodo de
"Frecuencia y Duracin de la Interrupcin. El cul brinda el parmetro puntual de la frecuencia
de falla de un componente, adems de la duracin y reparacin de la falla.
Dicho anlisis es aplicable para los componentes de la infraestructura elctrica de un
centro de datos.

elementos individuales de un sistema, se pueden representar por medio de funciones


estadsticas continuas o tambin por medio de distribuciones de probabilidad discretas.
Todo depende de la informacin con que se cuente. Cuando existe una cantidad
considerable de datos sobre eventos y fallas ocurridas para un componente, es posible
entonces pensar en un polgono de frecuencias. Ms si se cuenta con poca informacin o
con informacin puntual referente a distribuciones de frecuencia discreta, es posible
realizar una prediccin de los parmetros anteriores a partir de distribuciones discretas.
Ms la norma IEEE IEEE STD 493-1997, propone un mtodo abreviado para
diferentes tipos de falla. Este mtodo clasifica el clculo en fallas de circuitos
portadores de corriente, paros programados, y como ultimo apartado, falla de
protecciones y componentes conmutadores.
La metodologa de clculo y las formulas propuestas, se alimentan de datos estadsticos
de los diferentes componentes. Algunos de estos datos estadsticos se pueden encontrar
en el capitulo tres de la norma IEEE STD 493-1997, adems de en los apndices A,
B, C, D, E ,F ,G ,H ,I, K, L, M, N, P y Q, de dicha norma. Los dos datos estadsticos
principales que alimentaran de manera comn estas frmulas son:
Valor estimado de fallo permanente (): Esta constante esta ligada al tiempo esperado
de fallo de un componente que no se puede reparar. Ms este componente no puede ser
reemplazado por uno igual o homologo de manera instantnea.
Valor estimado de fallo transitorio (): Esta constante esta ligada al tiempo esperado
de fallo de un componente que es posible reparar o puede ser sustituido por un
homlogo instantneamente.
Se muestra entonces en la ilustracin numero cuatro, se muestra el tiempo de puesta en
marcha pos falla y la frecuencia de falla para mltiples tipos de desconectadotes
elctricos. Los cuales son utilizados para ya sea desconectar elementos elctricos por
motivos de mantenimiento. A esta accin pasada se le conoce tambin como Bypass.
Vale destacar que por lo general estos desconectadotes elctricos por lo general tienen
protecciones tipo disyuntor.

Frecuencia de falla y tiempo e puesta en marcha pos falla, para desconectarores


elctricos. (IEEE STD-493, Capitulo 3, pagina 42)

2.1.2.1 Paros forzado por la falla de elementos portadores de corriente


Dentro de esta clasificacin entran todos los elementos de un sistema elctrico que sean
portadores de corriente, con excepcin de las protecciones elctricas y los elementos
conmutadores. En el caso de los componentes nicos, se tiene la siguiente formula:

Donde el parmetro t, es el tiempo necesario para realizar una operacin de


conmutacin estilo by pass.
En el caso de componentes en paralelo o redundantes entre si, para la misma situacin,
se describe su comportamiento matemtico en las ecuaciones : cinco y seis.

Si existe la posibilidad de reemplazar de manera inmediata el o los componentes en caso


de falla, las ecuaciones que definen la frecuencia de fallo y el tiempo de puesta en

marcha por cada componente son las siguientes:

En el caso de componentes en paralelo o redundantes entre si, para la misma situacin:

2.1.2.1 Paros por falla de componentes conmutadores o protecciones


En los componentes conmutadores o protecciones elctricas, las fallas se ocasionan
cuando estos mismos sometidos a comandos de conmutacin. Comandos ya sea de
apertura o de cierre. Los fallos en estos componentes se dan ya sea por desgastes
mecnicos o en el caso de las protecciones es comn que fallen en situaciones de por
cortocircuito, o en otros modos de funcionamiento de la proteccin. El caso de fallo por
cortocircuito es tambin un caso particular, de un comando de conmutacin a apertura
del circuito, en protecciones elctricas. En estos componentes las ecuaciones para
determinar la frecuencia de falla y el tiempo de puesta en marcha por falla vara con
respecto al comando. En las ecuaciones se puede observar que las variables principales
son proporcionales a la probabilidad de falla del componente al ser sometidos a un
comando de apertura o de cierre. Se contempla tambin el caso de falla por comulacin
incorrecta, esto, esto ocurre principalmente cuando existen ms de dos posibles
comandos de conmutacin en el elemento. A continuacin entonces se describen las
ecuaciones que predicen la frecuencia de fallo y tiempo de puesta en marcha pos fallo
de estos componentes.
Las ecuaciones 11 y 12 describen el caso por fallo en comando de cierre del
componente conmutador. Las ecuaciones 13 y 14, describen la misma situacin para el
caso de comandos apertura y las ecuaciones 15 y 16 describen los eventos de falla por
conmutacin errnea. Donde pc es la probabilidad de fallo en el comando de cierre, ps
es la probabilidad de fallo en el comando de apertura y po es la probabilidad de fallo por
una conmutacin errnea.

2.1.2.1 Paros programados y probabilidad de falla del sistema en


situaciones de mantenimiento
La disponibilidad del sistema y el tiempo en alto de la misma se ve afectada por causa
de paros programados. IEEE define un paro programad como: Es el paro que ocurre
cuando se retira un componente o varios de manera deliberada, con propsitos de
mantenimiento, construccin o reparacin (IEEE STD 493-1999: seccin 2.1.11,3).
Tambin se considera la posibilidad de que en una rutina de mantenimiento exista un
paro por falla y que este sea no programado. Esto puede ocurrir debido a que a la hora
de dar mantenimiento a componentes no redundantes, es necesario que estos salgan del
sistema por medio de una accin de by pass. En el caso de protecciones elctricas,
UPSs, supresores de tensin, entre otras, Es posible que se origine una situacin de
fallo en el momento que estos componentes no redundantes se encuentren en
mantenimiento. El evento descrito podra dar por consecuencia paros no programados y
perdidas serias en el sistema. Es importante mencionar que las constantes y el
resultado r, varan para esta situacin en particular, por lo cual se denominan como r`
y .
A continuacin se describen las ecuaciones que describen la frecuencia de falla de un
componente y el tiempo de puesta en marcha pos falla, dada alguna de las
circunstancias antes mencionadas.

(17)

(18)
Las ecuaciones 17 y 18 describen la situacin para un componente singular. Mientras
que las ecuaciones 18 y 20 describen el caso de un componente con redundancia.

(19)

(20)

2.2 ndices de confiabilidad segn ICREA y Up Time Institute


En cuanto a ndices de confiabilidad se refiere, en este documento se consideraran los
propuestos en las normas ICREA-Std-131-2009 y ANSI/TIA-942, Ambas normas sobre
centros de datos y sus facilidades especficas. Las mismas y sus respectivas
certificaciones son reconocidas de manera global, siendo tambin utilizadas como
referencia de diseo en los pases de Amrica Latina. Costa Rica en particular es el pas
que cuenta con ms ingenieros certificados en ATD por Uptime Institute, en Amrica

Latina. Siendo ocho ingenieros ticos los que cuentan con estas credenciales de diseo he
inspeccin.

2.2.1 ndice de confiabilidad segn Up Time Institute


Este ndice fue desarrollado entre 1960 y 1994, por el Up Time Institute el cual
propuso el primer modelo de confiabilidad denominado Tier. En 1994 Ken Brill,
public una clasificacin discreta en cuatro diferentes topologas de referencia,
clasificadas de manera ascendentes en cuanto a confiabilidad se refiere. Estas mismas
fueron denominadas Tier I, Tier II, Tier III y Tier IV. Estas topologas son
descritas de manera especfica en la norma ANSI/TIA-942.
Las topologas Tier, son una base objetiva para comparar la funcionalidad, la
capacidad y el rendimiento de una infraestructuras particulares de centros de datos
contra otras infraestructuras especficas (Uptime Institute, Data Center Site
Infrastructure Tier Standard: Topology, 2009). Esta filosofa dicta el nivel de
disponibilidad del sistema a partir del nivel de disponibilidad del eslabn ms dbil del
mismo.
La base de la clasificacin, toma en cuenta la capacidad de redundancia de los
componentes crticos y los patrones de distribucin de un centro de datos (Uptime
Institute, Data Center Site Infrastructure Tier Standard: Topology, 2009).
Los criterios que se toman en cuenta para la clasificacin de un centro de datos en los
diferentes niveles Tier son:
a) Infraestructura de telecomunicaciones
b) Infraestructura arquitectnica
c) Monitoreo y control de acceso
d) Infraestructura Elctrica
e) Infraestructura Mecnica
Un mtodo de evaluacin para determinar el nivel Tier de un centro de datos se
expone en el apndice G de la norma TIA-942. Este es por medio de una tabla estilo
cuestionario, el cual indica con que requisitos debe cumplir un centro de datos, para
encontrarse en cada uno de los diferentes niveles de Tier. En la ilustracin nmero 5
se expone un extracto de esta tabla ocho del la norma TIA-942. En la misma se evala
la temtica de UPS.

TIA-942

En las ilustraciones seis, siente, ocho y nueve, se muestran los unifilares generales de
la infraestructura elctrica y mecnica necesaria, para los diferentes niveles de
disponibilidad Tier segn el Up Time Institute.
El al tiempo en bajo de estos sistemas esta asociado a las diferentes configuraciones,

propuestas en cada nivel Tier. La principal razn del crecimiento en la disponibilidad


entre un nivel Tier y otro, es el crecimiento en los elementos redundantes del sistema.
Redundancia que se refuerza con forme se avanza en estos niveles, en elementos como
acometidas, UPS`s, A/C de precisin, entre otros. Esta redundancia puede ser N+1 o
redundancia 2N dependiendo del nivel Tier. El tiempo en bajo esperado para cada
nivel de disponibilidad Tier se muestra en la imagen nmero diez, en la misma se
detallan los porcentajes de disponibilidad y los tiempos en bajo anuales para cada nivel
Tier.

Unifilar general de la configuracin propuesta "Tier" 1 (Uptime Institute, Data


Center Site Infrastructure Tier Standard: Topology, 2009).

En el nivel Tier 1, es el nivel de disponibilidad mas bajo contemplado por UPTIME


Institute. Existe en este diseo, un nico camino de distribucin para la energa desde
acometidas hasta los PDU`s. En este diseo solo existe un generador elctrico, el cul
no necesariamente se encuentra a una distancia corta del centro de cmputo, el mismo
con un tiempo de respaldo de ocho horas a plena carga. La UPS en este sistema no es un
sistema redundante, no se encuentra cercana al centro de datos, la misma esta
compuesta por bateras de vlvula regulada y no contiene un sistema de monitoreo de
las mismas bateras centralizado.
El sistema de aire acondicionado de preedicin de igual manera no es redundante. El
mismo puede por enfriamiento por agua y adems puede no haber una presin positiva

en la sala de equipos de computo.

Unifilar general de la configuracin propuesta "Tier" 2 (Uptime Institute, Data


Center Site Infrastructure Tier Standard: Topology, 2009).

El nivel de Tier 2 marca diferencia del nivel Tier 1 al existir en este redundancia en
los sistemas tanto de UPS como de generador de N+1. Siendo el tiempo de respaldo del
sistema de generadores de 24 Horas.
En el sistema mecnico existe como variacin al nivel anterior, la existencia de
presiones positivas en los interiores de los cuartos de equipo de cmputo. Adems de
que APRA cumplir este nivel, el aire acondicionado de preedicin contar con sistemas
de extraccin de calor redundantes por cada equipo instalado.

Configuracin Propuesta "Tier 3" (Uptime Institute, Data Center Site Infrastructure
Tier Standard: Topology, 2009).

El Nivel Tier 3 cuenta con una distribucin de energa redundante de N+1. El sistema
de generadores debe tener entonces una capacidad de 72 horas para este nivel. Tambin
se debe tener monitoreo remoto de los sistemas elctricos y mecnicos para cumplir en
el nivel Tier 3. Se deben implementar tambin rutinas mensuales de mantenimiento y
capacitaciones al personal interno del centro de datos.
El sistema de aire acondicionado de precisin para este nivel debe contar con
redundancia de tipo N+1. Adems el sistema de supresin de incendios debe trabajar
por medio de agentes gaseosos, acorde con lo estipulado en el NFPA-2001.

Configuracin Propuesta "Tier 4" (Uptime Institute, Data Center Site Infrastructure
Tier Standard: Topology, 2009).

En el nivel Tier 4 se suman a las especificaciones elctricas encasaras del sistema,


redundancia de caminos de distribucin, pero a diferencia del nivel anterior, en este los
dos caminos deben de encontrarse activos. Cada camino con capacidad de N en
generadores, sistema de UPS y aire acondicionado de preedicin. Estos sistemas de
distribucin independientes se encuentran interconectados por transferencias
automticas independientes y redundantes. Para conformar un sistema con redundancia
2N. Los generadores deben tener una capacidad de respaldo de 72 horas y el sistema
UPS debe contar con un sistema de monitoreo de bateras remoto Este mismo no debe
sacar de operacin las bateras cuando el sistema realice a las mimas las pruebas de
rutina.

Porcentajes de disponibilidad u tiempos en bajo anuales para cada nivel "Tier"

2.2.2 ndice de confiabilidad segn ICREA-Std-131-2009


La norma ICREA-std-131-2009 es publicada por ICREA (International Computer
Room Experts Asociation), la misma establece un ndice con cinco clasificaciones
puntuales para las infraestructuras y facilidades de telecomunicaciones e informacin.
Estos niveles establecen la forma de habilitar infraestructura, confiabilidad y
disponibilidad en un centro de datos. Este ndice al contrario de lo establecido por la
norma ANSI/TIA-942 no opera de manera comparativa. Se utiliza entonces la
metodologa de El pentgono de Goyo, la cual contempla instalaciones elctricas, aire
acondicionado, seguridad, entorno del centro de datos y comunicaciones, cada una con
sus diferentes tpicos especficos. Esta metodologa asigna controles especficos para
cada tema principal del pentgono de Goyo, con un respectivo puntaje por control. En
realidad el nivel de confiabilidad esta conformado por un ponderado de cada uno de los
tpicos principales de la norma. El promedio de la suma de cada categora en base a
100%, establece el ndice de ICREA y con el mismo la certificacin de acuerdo a las
cinco clasificaciones de ICREA.
En la ilustracin nmero once se pueden apreciar los ndices de tiempo en bajo y
porcentaje de disponibilidad, asociados a cada nivel de disponibilidad de ICREA. En el
mismo se puede apreciar que en una topologa que rena sea certificable como ICREA
V, se tiene un tiempo en bajo esperado anual de 10 minutos. El cual es mucho mas bajo
que el tiempo en bajo esperado para la topologa Tier 4. De la ilustracin nmero
diez se puede apreciar que este tiempo es de 26.28 minutos anuales.
En las ilustraciones doce, trece, catorce, quince y diecisis, se muestran los diagramas
unifilares de los sistemas Electromecnicos propuestos por ICREA.

Indicies de disponibilidad y tiempo en bajo para cada nivel de ICREA (Data Center
Consultores, 2009)

Unifilar propuesto para el nivel de disponibilidad de ICREA I (Data Center


Consultores, 2009)

Este es el nivel de disponibilidad bsico de ICREA (ICREA I). No cuenta con planta de
energa elctrica, existe un nico camino de distribucin- Tanto el aire acondicionado
como el sistema UPS no tienen redundancias, adems de contar con una sola acometida
elctrica- Como se muestra en la ilustracin nmero once el tiempo en bajo esperado
para este sistema es cercano a las 44 horas.

Unifilar propuesto para el nivel de disponibilidad de ICREA II (Data Center


Consultores, 2009)

En el nivel ICREA II, se implementa un doble camino de distribucin con sistemas


redundantes desde el tablero principal de la edificacin. Entre los elementos
redundantes se encuentra el aire acondicionado de precisin, el sistema de UPS y los
gabinetes de distribucin de la carga. Cuenta con una acometida y con un nico
generador de emergencia.

Unifilar propuesto para el nivel de disponibilidad de ICREA III (Data Center Consultores, 2009)

En el nivel ICREA III, existe adems de un doble camino de distribucin a partir del
tablero principal, redundancias N+1 en generadores elctricos y redundancias N+2 en
el sistema de UPS y en los sistemas de aire acondicionado de precisin.

Unifilar propuesto para el nivel de disponibilidad de ICREA IV (Data Center


Consultores, 2009)

En el nivel ICREA IV, existe doble acometida, la cules deben porvenir de diferentes
proveedores de servicios de energa elctrica. Adems de esto existe un doble camino de
distribucin interno independientes entre si, con elementos de respaldo, aire
acondicionado de precisin y gabinetes de distribucin. De tal manera que ambos
caminos conformen una redundancia en estos elementos de 2N. Esta cantidad de
elementos redundantes desemboca en un aumento considerable en la disponibilidad del
sistema. Esto se aprecia en la ilustracin numero once, donde el tiempo en bajo del nivel
ICREA III es de 8.76 horas y el del nivel ICREA IV de 0.87 horas.

Unifilar propuesto para el nivel de disponibilidad de ICREA V (Data Center


Consultores, 2009)

El nivel ICREA V al igual que el nivel ICREA IV, cuenta con doble acometida
elctrica y doble sistema de distribucin. Uno por cada acometida. Mas en este nivel se
mejora la especificacin de redundancia de el sistema de UPS y le sistema de aire
acondicionado de precisin. Ya que para este nivel la redundancia en estos componentes
debe ser de 2N+2. Esta medida es la principal causa por la cul el tiempo en bajo de el
nivel ICREA V es menos de la cuarta parte del ICREA IV.

You might also like