You are on page 1of 3

32-34- Autopsias-P20.

qxd 5/5/05 11:34 AM Page 34

FALLAS ANALIZADAS
CON OJO CLINICO

+ LA AUTOPSIA DEL MES:


SERVER CAIDO
i decimos que las computadoras
cumplen un papel cada vez ms
comprometido con nuestra vida
cotidiana, nadie se va a sorprender, porque eso es algo ya asumido por la mayora de los usuarios de PC. Pero no todos
los equipos cargan con la misma responsabilidad dentro de este mundo informatizado. Una PC de escritorio responde
slo a uno o, a lo sumo, a un grupo
reducido de usuarios, mientras que los
servidores deben manejar los datos de
varias decenas, cientos o miles de clientes. Pero adentrmonos ms en el servidor como equipo; pasemos a ver sus
componentes, sus partes ms nfimas.

Quin pensara que en el funcionamiento de una resistencia, que apenas cuesta


algunos centavos, se deposita la responsabilidad de que miles de usuarios tengan acceso a su e-mail a tiempo? Por
supuesto que servicios a gran escala,
como MSN, no se van a dar el lujo de
dejar todo parado hasta tanto se cambie
una resistencia. En esos casos, directamente se cambia la placa completa,
mientras el problema especfico se
resuelve con ms tiempo.
Pero no todos somos MSN y, hoy por
hoy, existen muchos servicios menores
en los que, quiz, s todo dependa de un
solo servidor, que hay que reparar indefectiblemente ante una avera. Foros,
sitios, servicios de mail empresariales,
hosting y muchos otros a veces dependen de ese pequeo componente, y de la
rapidez del tcnico de turno para encontrarlo y repararlo.
Este es el caso que planteamos en esta
ocasin: un conocido foro dedicado a
temas generales de un momento a otro
desaparece, y deja a sus usuarios
incomunicados.

HISTORIA CLINICA
Aunque parezca tonto, un foro es un
canal de comunicaciones muy importante
en la actualidad. En muchos casos, es el
nico medio de contacto que tienen algunos usuarios entre s, y su ausencia
puede significar una prdida de tiempo
considerable en la resolucin de algn
problema. Varias empresas y universidades usan foros privados para interconectar a sus participantes, y no son pocos
34

ANALISIS PRELIMINAR

ESTA ES UNA PARTE DEL RACK DONDE SE ENCONTRABA EL SERVIDOR


ANALIZADO EN ESTA AUTOPSIA. EN ESTE TIPO DE EQUIPAMIENTO, LAS
MEDIDAS DE SEGURIDAD CON RESPECTO A LA ALIMENTACION DEBEN SER
MUY RIGUROSAS.

los casos en los que las actividades


son planteadas y coordinadas en
base a lo que en ellos se postea.
Imagnense que si un espacio de
estas caractersticas se cae de un
momento a otro, todos aquellos que
no copiaron la informacin y confiaron en que todo estaba ah guardado quedarn a la deriva hasta
tanto no puedan volver a acceder.
Eran las 21 horas de un mircoles
bastante rutinario en el laboratorio
de anlisis de hardware de MP.
Cuando estbamos dispuestos a apagar todo e irnos, son el telfono, y
una voz temblorosa nos hizo predecir que sa iba a ser una larga noche.
El servidor del foro de una importante universidad se acababa de desconectar, justo en la semana en la que
se tenan que coordinar los trabajos
finales para la mayora de las carreras. Miles de alumnos acostumbrados
a entrar en ese sitio a diario veran
imposibilitadas sus tareas, ya que la
URL devolva tan slo un No se
puede mostrar la pgina.
Luego de comprobar, en forma remota, que el equipo no responda a ninguna de las demandas, decidimos
mandar a retirar el servidor del rack
en donde estaba instalado. Una vez

en el laboratorio, pudimos corroborar


que ni siquiera encenda, lo que haca
suponer que la falla se deba, estrictamente, a un problema de hardware.

PRIMEROS PASOS
Tal como lo indica la rutina, siempre que un equipo no enciende, hay
que empezar por analizar el elemento encargado de brindar la corriente
necesaria, o sea, la fuente de alimentacin. Bastaron un par de
mediciones al azar para darnos
cuenta de que la fuente no estaba
entregando corriente en ninguna de
sus salidas. Procedimos entonces a
desarmarla y a revisar su interior. A
primera vista encontramos una serie
de componentes daados en la
etapa secundaria. Varias resistencias
y diodos mostraban claros signos de
haber sufrido un exceso de calor, y
haba abundante holln esparcido a
su alrededor. Aparentemente, el cortocircuito de alguno de ellos haba
provocado una sobretensin importante en la zona. En casi todos estos
casos, se piensa en una falla interna
de la unidad, ya que la alimentacin
proveniente del exterior se encuentra protegida y filtrada por equipos
UPS de gran capacidad. Sin perder
POWERUSR

32-34- Autopsias-P20.qxd 5/5/05 11:35 AM Page 35

SI LA AVERIA EN CUALQUIER PC DE ESCRITORIO RESULTA


PROBLEMATICA PARA EL USUARIO PROMEDIO, IMAGINENSE
LO QUE PUEDE ACARREAR LA FALLA TOTAL EN UN
SERVIDOR. EN LA AUTOPSIA DE ESTE MES, VAMOS A
TRATAR EL CASO DE LA DRAMATICA CAIDA DE UN EQUIPO
DE ESTAS CARACTERISTICAS, Y SUS CONSECUENCIAS.

demasiado tiempo, procedimos al reemplazo de la fuente


completa, dado que la urgencia no nos permita detenernos a
cambiar cada uno de sus componentes. Al reconectar todo
otra vez, el equipo volvi a encender, pero el BIOS
marcaba ahora una falla en la alimentacin de los
microprocesadores. Habamos avanzado un paso, pero
todava quedaba mucho por delante.

ANALISIS DEL MOTHERBOARD

LA PRESENCIA DE HOLLIN DEBAJO DE ESTAS


RESISTENCIAS EVIDENCIABA UN FUERTE
GOLPE DE TENSION EN ESE SECTOR.

POWERUSR

El motherboard era un Intel LG440GX+, con dos procesadores


Pentium III de formato Slot 1, 4 GB de memoria RAM, cuatro
discos SCSI conectados a una controladora dual-channel incorporada y una controladora de red Intel PRO/100+ integrada. Se
trataba de un equipo que, si bien hoy en da puede considerarse un poco desactualizado, tiene excelentes prestaciones para
las demandas de un foro.
Lo primero que verificamos fue que la fuente nueva estuviera
entregando efectivamente todos sus valores correspondientes.
No sera la primera vez que una fuente de alimentacin fallara
en su primer arranque, aunque ste no era el caso: todas las
tensiones estaban presentes y entrando correctamente al
motherboard. Procedimos a retirar la placa del gabinete para
analizarla con ms detenimiento. Fue entonces cuando nos
encontramos con una serie de pistas cortadas en su cara inferior, que mostraban claros signos de un corte por exceso de
tensin. Esto se pone de manifiesto por las marcas negras que
quedan en la zona del corte. Se procedi entonces a la reconstruccin de las pistas, utilizando finos alambres de cobre aislados con un spaghetti plstico. Una vez reestablecidas las unio-

ESTE ES EL MOTHERBOARD ANALIZADO, UN INTEL LG440GX+,


CON SOPORTE PARA DOS PROCESADORES PENTIUM III DE
FORMATO SLOT 1.

nes, se efectu un control de


rutina de todos los componentes que podran haber
sido afectados por la avera.
Este es un procedimiento
muy importante que debe
realizarse antes de encender
la unidad, ya que si existi
un golpe de tensin capaz de
cortar las pistas del circuito,
es ms que probable que
algn sector haya sufrido
tambin las consecuencias. El
riesgo ms grande se presenta ante la posibilidad de que
alguno de los elementos
encargados de manejar la
corriente est todava en cortocircuito, y entonces genere
otra fuga importante, quiz,
con males mayores. El BIOS
haba delatado una falla en
la alimentacin del microprocesador, por lo que nos dirigimos en forma inmediata al
sector encargado de regular
la tensin de entrada. Este se
ubica prximo a los dos
zcalos que contienen los
cartuchos con los procesadores. All se destacan una serie
de bobinas, capacitores y transistores que forman una minifuente conmutada, dedicada,
casi exclusivamente, a proveer
de tensin a cada uno de los
cartuchos. La mayor parte de
este sector estaba sana, salvo
los dos transistores reguladores, que mostraban un cortocircuito entre dos de sus patas.
Ahora s, tenamos a la segunda vctima de esta fuga repentina de tensin.

Afortunadamente, el laboratorio contaba con repuestos


para estos reguladores, si no,
hubiramos tenido que esperar varios das hasta conseguir los componentes adecuados. En estos casos, se trata
de proceder con un plan de
emergencia que permita
reemplazar el servidor completo momentneamente. Una
vez reemplazados ambos
reguladores, se hizo otra revisin de rutina a todas las
partes involucradas, y no se
detect ninguna anormalidad.
Entonces s, con ms tranquilidad, procedimos a encender
el equipo y comprobamos,
para nuestra tranquilidad y la
de la gente de la universidad,
que todo volva a operar con
normalidad. Para entonces, el
reloj indicaba las 4 a.m. Sin
dudas, una situacin por
dems estresante, pero con
buenos resultados para los
alumnos que, al otro da,
ingresaron en el foro para
realizar sus actividades diarias, sin siquiera enterarse de
que una pequea resistencia
casi los haba dejado sin el
contacto tan necesario.

CAUSAS
Como ya mencionamos en el
transcurso de esta autopsia,
es difcil encontrar factores
externos que puedan causar
esta falla. Los racks dedicados
a contener servidores son cuidados al extremo en lo que a
la alimentacin se refiere:
35

32-34- Autopsias-P20.qxd 5/5/05 11:35 AM Page 36

EN UN CASO QUE SE PODRIA CONSIDERAR NORMAL, UN ELEMENTO COMO UNA


RESISTENCIA O UN TRANSISTOR DEBERA ABRIRSE Y CORTAR LA CORRIENTE.
EL PROBLEMA SURGE CUANDO EL ELEMENTO SE PONE EN CORTOCIRCUITO.

potentes UPS y filtros se encargan de asegurar una alimentacin permanente sin


sobresaltos. El nico enemigo mortal e
imparable es la descarga atmosfrica o
rayo, pero ste no haba sido el caso.
Entonces, no quedaba ms que suponer una
fatiga propia de los componentes de la
fuente. Esto es algo muy comn en cualquier equipo que se somete a un trabajo
constante, ms an, teniendo en cuenta la
cantidad de elementos que se arman con
partes de bajsimo costo de produccin. En
un caso que se podra considerar normal,
un elemento como una resistencia o un

ESTE ES EL SECTOR ENCARGADO DE LA


ALIMENTACION DE LOS PROCESADORES. EN ESTA
LINEA DE INTEL, SE ENCUENTRA JUSTO ENTRE
MEDIO DE LOS ZOCALOS CORRESPONDIENTES
A LOS MICROPROCESADORES.

EN CASOS EN LOS QUE LAS PISTAS DEL CIRCUITO SON DEMASIADO


FINAS Y ABULTADAS, DEBEMOS UTILIZAR HILOS AISLADOS
EN SPAGHETTI, PARA EVITAR EL CONTACTO CON OTROS SECTORES.
UNA GOTA DE SILICONA DERRETIDA ES UNA EXCELENTE AYUDA
PARA FIJAR EL CONDUCTOR A LA PLACA.

transistor debera abrirse y


cortar el paso de la corriente.
El problema surge cuando
aparece ese pequeo porcentaje de casos en los que el
elemento se pone en cortocircuito. Entonces, la corriente
fluye sin control y provoca
picos de tensin que son
capaces de generar cualquier
tipo de fallas, hasta tanto no
se corte el suministro de
energa. En esta situacin
particular, el corto se produjo

COMPONENTES DE SUPERFICIE
Quienes posean alguna experiencia en el
armado de circuitos electrnicos caseros,
tendrn un concepto formado en relacin al
aspecto que suele identificar a la mayora de
los componentes bsicos. Ahora bien, por
ms pequeos que stos parezcan, para las
necesidades de la electrnica actual, nunca
se es lo suficientemente pequeo. Es por eso
que, en muchos de los equipos modernos,
encontramos lo que se denomina componente de superficie: resistencias, diodos,
capacitores y una gran variedad de dispositivos que son comprimidos varias veces en su
tamao y soldados sobre la superficie misma

36

de la pista conductora, sin necesidad de perforaciones en la placa; de ah el porqu de su


nombre. Las caractersticas generales son
idnticas a las de los componentes estndar,
la diferencia est al momento de efectuar
reemplazos. Este proceso puede ser un tanto
ms complicado y demandar el uso de
herramientas especficas para manipular
este tipo de elementos.
En algunos casos, de ser estrictamente
necesario, es posible usar como recambio un
repuesto estndar, siempre y cuando podamos adaptar sus conexiones y respetemos
las caractersticas al detalle.

en un transistor de la etapa secundaria,


comprometido con la regulacin de
corriente de salida. Esto provoc la avera general de varias de las partes involucradas a este sector; incluso, se extendi al propio motherboard. Si tenemos
que definir un responsable, no hay otra
alternativa ms que volcarnos a una
simple cuestin fortuita. Si la falla se
hubiera generado en la etapa primaria,
difcilmente habra existido algn traslado hacia la salida de la fuente, ya que
las protecciones actan antes que cualquier exceso supere este sector. La etapa
secundaria tambin cuenta con protecciones, pero hay factores que escapan a
cualquier previsin y, si bien llegado un
punto, el suministro de energa se corta,
para entonces es imposible determinar el
dao de las partes comprometidas.
Por fortuna, en este caso todo se detuvo
en los transistores reguladores. En otras
oportunidades, nos encontramos con
situaciones en las que la cadena sigui
ms all, y lleg a afectar, incluso, a los
propios microprocesadores o unidades
de disco. Para concluir, la prxima vez
que vean una resistencia, transistor,
capacitor o cualquier elemento encargado del manejo de corriente, trtenlo con
ms respeto; quizs de ellos dependa su
trabajo de maana.
POWERUSR

You might also like