Professional Documents
Culture Documents
n
c
i
a
s
Figura 5. Anel ptico, alarmes com maior freqncia
C. Avalanche de alarmes
O efeito avalanche, como explicado na introduo,
devido interdependncia entre os elementos de rede
(NE), a ocorrncia de alarmes primrios gerando
mltiplos alarmes secundrios. A tela do centro de
gerncia sobrecarregada de alarmes dificultando ao
operador a anlise da correlao entre os alarmes para
chegar causa-raiz. Essa anlise geralmente manual,
sendo o objeto final desse trabalho a automatizao dessa
anlise. A figura 6 mostra que no dia 8 de maio
ocorreram cerca de 1400 alarmes. O que aconteceu nesse
dia?
Perfil de alarmes no perodo
0
200
400
600
800
1000
1200
1400
1600
29 30 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
abril maio
2007
Perodo
Q
u
a
n
t
i
d
a
d
e
Total
Count Of NE
Year Month Day
Figura 6. Perfil de alarmes no perodo estudado
Vamos usar OLAP para fazer uma pesquisa de
profundidade. Filtramos ento o dia 8 de maio e
detalhamos as ocorrncias por hora, como mostrado na
figura 7.
Vemos que a maioria das ocorrncias ocorre s 13h.
Continuando o aprofundamento, chegamos que 249
alarmes ocorreram s 13:47:59 e permaneceram cerca de
10min.
Perfil de alarmes-Dia 8 de maio
0
50
100
150
200
250
300
350
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
8
maio
2007
Perodo
Q
u
a
n
t
i
d
a
d
e
Total
Count Of NE
Year Month Day Hour
Figura 7. Detalhamento do dia 8 de maio
Novo aprofundamento nos leva s causas e local das
ocorrncias, que mostrado na figura 8.
Dia 8 de maio s 13:47:59
0
20
40
60
80
100
120
140
160
180
200
Loss of All Incoming Timing References for
T0
Loss of Signal (LOS) Unequipped
GRA2-01
59
47
13
8
maio
2007
Data/Hora
Q
u
a
n
t
id
a
d
e
Total
Count Of NE
Year Month Day Hour Minute Second Loc Cause
Figura 8. Localidade: Gravata e Causas, dia 8/5 s
13:47:59
Nesse cenrio consideramos:
Alarmes primrios: Loss of Signal (LOS) e
Unequipped
Alarme secundrio: Loss of All Incoming Timing
References for T0,
O mesmo procedimento aplicado ao dia 7 de maio,
figura 9, mostra o mesmo local porm com um alarme
primrio adicional: Loss of Timing Source T3.
Dia 7 de maio s 16:25:13
0
50
100
150
200
250
Loss of All Incoming Timing
References for T0
Loss of Signal (LOS) Loss of Timing Source T3 Server Signal Fail (SSF)
GRA-05
13
25
16
7
maio
2007
Data/Hora
Q
u
a
n
t
id
a
d
e
Total
Count Of NE
Year Month Day Hour Minute Second Loc Cause
Figura 9. Localidade: Gravata e Causas, dia 7/5 s
16:25:13
Esse tipo de procedimento est sendo aplicado em
dados histricos coletados desde Dezembro de 2006. A
seguir mostramos alguns dos cenrios encontrados.
D. Exemplos de cenrios de alarme
Cenrio 1
Data: dia 18 de Dezembro de 2007 (11, 12, 14 e 16
horas)
Enlace: BLU-02 e ITA-02
NE2: SMA
Evento Cause: LOS, SSF, RDI e Unequipped
Seqncia de eventos: Unequipped->SSF->LOS->RDI;
SSF->LOS; SSF->Unequipped->RDI
Durao: at 3 horas.
Causa provvel: Causa: ativao de feixe. Nesse caso os
alarmes RDI Remote Defect Indication, SSF Server
Signal Fail e Unequipped so alarmes temporrios. O
LOS fica presente at a conexo do equipamento no
feixe.
Cenrio 2
Data: 25 de J an de 2007
Enlace: ITJ -01 e FLO-01 (link ptico)
NE1: ITJ -01 e FLO-01
NE2: SLD
Evento Cause: LOS (ptico)
Seqncia de eventos: LOS as 11 e 20 Horas.
Durao: at 3 minutos
Causa provvel: Falha do Link ptico entre ITJ e FLO.
a causa do problema de SMA nos outros sites do link
PAL,FLO,CBA,BLU. Na verdade o problema foi entre
Sede e Florianpolis, e como conseqncia houve perda
de relgio em ITJ (Loss of Time Source)
Cenrio 3
Data: dia 2 de J an 2007
Enlace: VNI-02_RVE-01
Evento Cause: CARD FAIL
Seqncia de eventos: CARD Fail ODU, seguido de TX
ODU Failure.
Durao: ~6000 s =100 min
Causa provvel: Instabilidade ou falha intermitente na
TX ODU de VNI-02. O lado RVE-01 no detecta
problema.
E. Minerao usando a durao do alarme
Essa minerao parte da observao que, devido
interdependncia entre os elementos de rede, um alarme
primrio gera mltiplos alarmes secundrios. Notamos
que os alarmes secundrios podem ser divididos em
funo da sua correlao com o primrio em:
alarmes com baixa correlao: so geralmente
transitrios e sua durao ( tempo entre a ativao e
desativao) menor que a durao do primrio,
alarmes com alta correlao: nesse caso a
extino do alarme secundrio est correlacionada
com a extino do primrio.
Aplicando essa minerao ao anel ptico no perodo
estudado, detectamos um conjunto de alarmes com
durao aproximada de 30 min no dia 23 de maio. A
tabela I mostra o resultado da minerao.
TABELA I
Minerao usando a durao Anel ptico
Time (Local) Cause Loc
23/05/2007 10:16:56 Server Signal Fail (SSF) MCL-02
23/05/2007 10:16:56 Alarm Indication Signal (AIS) MCL-02
23/05/2007 10:16:56 Server Signal Fail (SSF) GRA-03
23/05/2007 10:16:56 Server Signal Fail (SSF) IVP-02
23/05/2007 10:16:57 Alarm Indication Signal (AIS) SED-04
23/05/2007 10:16:57 Alarm Indication Signal (AIS) J LB-02
23/05/2007 10:16:57 Server Signal Fail (SSF) SED-02
23/05/2007 10:16:57 Server Signal Fail (SSF) SED-02
23/05/2007 10:16:57 Server Signal Fail (SSF) SED-02
23/05/2007 10:16:57 Server Signal Fail (SSF) SED-02
23/05/2007 10:16:57 Server Signal Fail (SSF) SOS-02
23/05/2007 10:16:58 Loss of Timing Source T1 #1 GPE-01
23/05/2007 10:16:58 Server Signal Fail (SSF) GPE-01
23/05/2007 10:16:58 Loss of Signal (LOS) GPE-01
23/05/2007 10:17:05 Threshold Crossed: UAT GPE-01
23/05/2007 10:17:23 Server Signal Fail (SSF) NSR-01
Identificamos uma falha de sincronismo Loss of
Timing Source T1 #1 na regeneradora de Guapor,
causada pela perda de sinal. Nesse minuto foram gerados
60 alarmes mas apenas os 16 da Tabela I tm durao
prxima do alarme primrio.
Outro exemplo analisando a Rota 6 de rdio permite
minerar o cenrio da Tabela II. que durou cerca de 40
min. O problema na transmisso em CHA causando
alarmes AIS em MPO.
TABELA II
Minerao usando a durao Rota 6
Time (Local) Cause Loc
21/05/2007 10:29:22 Loss of Protection Signal CHA-01
21/05/2007 10:29:23 AIS Prot Side MPO-01
21/05/2007 10:29:23 AIS MPO-01
21/05/2007 10:29:23 Tx On Line Channel Failure CHA-01
21/05/2007 10:29:24 Loss of Signal CHA-01
F. Minerao usando Grfico de Controle
Para entender o conceito do Grfico de Controle (
Control Chart) de uma maneira bem simples, primeiro
precisamos entender o conceito de variao.
Considere a ao de ir para o trabalho um processo,
que leva em mdia 30 minutos. Um intervalo entre 25 a
35 minutos um intervalo esperado para a execuo
desse processo. Medindo esse processo se o tempo
esperado est dentro desse intervalo dizemos que est
dentro da variao esperada. Caso o pneu fure, esse
tempo mdio ser elevado para cerca de 50 minutos, ser
um caso excepcional, um ponto fora da curva. Se
colocarmos essas informaes num grfico, esse grfico
ser um control chart, onde o limite inferior (25
minutos) e superior (35 minutos) definem o intervalo
normal e os pontos fora desses intervalos so os pontos
fora da curva ou fora de controle. No caso o pneu
furado um caso de exceo que justificou o ponto fora
de controle.
Num processo, os pontos fora da curva, ou tipos de
variao, precisam ser investigados e diagnosticados
como causas especiais ou causas comuns. Se existirem
causas comuns, o processo precisa ser reavaliado para
que seja reduzido o nmero de causas comuns. Isto ,
aes podem ser tomadas tais como: redefinir os limites,
justificar o acontecido ou identificar algo que pode ser
melhorado no processo.
Portanto a variao pode ser entendida como algo que
acontece dentro de um intervalo esperado. Utilizando
esse conceito, o Grfico de Controle poder ser aplicado
na minerao de alarmes com ocorrncia fora de
controle podendo identificar situaes de anormalidade.
O mtodo do grfico de controle supe que um
processo (fabricao, medio, alarmes, etc.) exibe
variaes ao longo do tempo ou entre itens de um
conjunto com as mesmas caractersticas. O grfico de
controle usa trs parmetros para anlise da
variabilidade:
CL - Central Line - Linha Central de Controle
UCL - Upper Control Limit - Limite Superior
de Controle
LCL - Lower Control Limit - Limite Inferior
de Controle.
Grfico decontrole - XMR
41.06451613
0
50
100
150
200
250
300
350
1
/1
/2
0
0
7
2
/1
/2
0
0
7
3
/1
/2
0
0
7
4
/1
/2
0
0
7
5
/1
/2
0
0
7
6
/1
/2
0
0
7
7
/1
/2
0
0
7
8
/1
/2
0
0
7
9
/1
/2
0
0
7
1
0
/1
/2
0
0
7
1
1
/1
/2
0
0
7
1
2
/1
/2
0
0
7
1
3
/1
/2
0
0
7
1
4
/1
/2
0
0
7
1
5
/1
/2
0
0
7
1
6
/1
/2
0
0
7
1
7
/1
/2
0
0
7
1
8
/1
/2
0
0
7
1
9
/1
/2
0
0
7
2
0
/1
/2
0
0
7
2
1
/1
/2
0
0
7
2
2
/1
/2
0
0
7
2
3
/1
/2
0
0
7
2
4
/1
/2
0
0
7
2
5
/1
/2
0
0
7
2
6
/1
/2
0
0
7
2
7
/1
/2
0
0
7
2
8
/1
/2
0
0
7
2
9
/1
/2
0
0
7
3
0
/1
/2
0
0
7
3
1
/1
/2
0
0
7
Data
E
v
e
n
t
o
s
p
o
r
p
e
r
o
d
o
UCL Nodeeventos Centerline LCL
Anel ptico
Figura 10. Exemplo de Control Chart - XmR
Nessa anlise vamos usar um tipo de grfico de
controle que permitam uma anlise diria como o caso
dos grficos XmR e Moving Range (mR). Para uma
explicao detalhada desse tipo de grfico consulte [1].
Os grficos das figuras 10 e 11, referem-se a uma
anlise do ms de janeiro de 2007 nos alarmes do Anel
ptico.
Em [1] ressaltado que a variao mvel, mR, no
consegue indicar precisamente mudanas na variao do
processo. Ou seja, se o processo muda de patamar mas
em cada patamar mantm uma variao controlada, a
variao mvel apenas indicar um pico no momento da
mudana. Isso pode ser til para a indicao dos
momentos das variaes mas no no estudo das
variaes.
Grfico decontrole- MdiaMvel
43.10
0
50
100
150
200
250
300
1
/1
/2
0
0
7
2
/1
/2
0
0
7
3
/1
/2
0
0
7
4
/1
/2
0
0
7
5
/1
/2
0
0
7
6
/1
/2
0
0
7
7
/1
/2
0
0
7
8
/1
/2
0
0
7
9
/1
/2
0
0
7
1
0
/1
/2
0
0
7
1
1
/1
/2
0
0
7
1
2
/1
/2
0
0
7
1
3
/1
/2
0
0
7
1
4
/1
/2
0
0
7
1
5
/1
/2
0
0
7
1
6
/1
/2
0
0
7
1
7
/1
/2
0
0
7
1
8
/1
/2
0
0
7
1
9
/1
/2
0
0
7
2
0
/1
/2
0
0
7
2
1
/1
/2
0
0
7
2
2
/1
/2
0
0
7
2
3
/1
/2
0
0
7
2
4
/1
/2
0
0
7
2
5
/1
/2
0
0
7
2
6
/1
/2
0
0
7
2
7
/1
/2
0
0
7
2
8
/1
/2
0
0
7
2
9
/1
/2
0
0
7
3
0
/1
/2
0
0
7
3
1
/1
/2
0
0
7
Data
E
v
e
n
t
o
s
p
o
r
p
e
r
o
d
o
UCL Nodeeventos Centerline Series4
Anel ptico
Figura 11. Exemplo de Control Chart -
Moving Range
A figura 10 mostra no ms de janeiro, trs pontos
fora de controle nos dias 9,10 e 16 que causam a
variao da figura 11.
O grfico mR da figura 11 mostra trs variaes fora
de controle que correspondem aos saltos para cima no dia
9, o salto para baixo no dia 11 e o salto para cima no dia
16.
Para prosseguir na anlise, explicado os eventos do dia
9, 10 e 16 devemos retirar da anlise os dias com eventos
fora de controle mostrados na figura 10 que provocam os
saltos na variao. Fazendo esse procedimento teramos
os grficos da figura 12 e 13.
TABELA III
Minerao usando Grfico de Controle
Data
Dia da
semana No eventos
09/01/07 3a 287
10/01/07 4a 274
16/01/07 3a 182
17/01/07 4a 115
18/01/07 5a 50
19/01/07 6a 56
25/01/07 5a 102
31/01/07 4a 48
Como existem variaes fora de controle no grfico
mR, figura 13, o processo de anlise e retirada dos pontos
prosseguiria. Se continussemos esse processo
deveramos analisar os dias mostrados na Tabela III.
Grfico decontrole- XMR
18.92857143
0
20
40
60
80
100
120
140
1
/1
/2
0
0
7
2
/1
/2
0
0
7
3
/1
/2
0
0
7
4
/1
/2
0
0
7
5
/1
/2
0
0
7
6
/1
/2
0
0
7
7
/1
/2
0
0
7
8
/1
/2
0
0
7
9
/1
/2
0
0
7
1
0
/1
/2
0
0
7
1
1
/1
/2
0
0
7
1
2
/1
/2
0
0
7
1
3
/1
/2
0
0
7
1
4
/1
/2
0
0
7
1
5
/1
/2
0
0
7
1
6
/1
/2
0
0
7
1
7
/1
/2
0
0
7
1
8
/1
/2
0
0
7
1
9
/1
/2
0
0
7
2
0
/1
/2
0
0
7
2
1
/1
/2
0
0
7
2
2
/1
/2
0
0
7
2
3
/1
/2
0
0
7
2
4
/1
/2
0
0
7
2
5
/1
/2
0
0
7
2
6
/1
/2
0
0
7
2
7
/1
/2
0
0
7
2
8
/1
/2
0
0
7
2
9
/1
/2
0
0
7
3
0
/1
/2
0
0
7
3
1
/1
/2
0
0
7
Data
E
v
e
n
t
o
s
p
o
r
p
e
r
o
d
o
UCL Nodeeventos Centerline LCL
Anel ptico
Figura 12. Grfico XmR retirados os dias 9, 10
e 16
Grfico de controle - Mdia Mvel
22.85
0
20
40
60
80
100
120
1
/1
/2
0
0
7
2
/1
/2
0
0
7
3
/1
/2
0
0
7
4
/1
/2
0
0
7
5
/1
/2
0
0
7
6
/1
/2
0
0
7
7
/1
/2
0
0
7
8
/1
/2
0
0
7
9
/1
/2
0
0
7
1
0
/1
/2
0
0
7
1
1
/1
/2
0
0
7
1
2
/1
/2
0
0
7
1
3
/1
/2
0
0
7
1
4
/1
/2
0
0
7
1
5
/1
/2
0
0
7
1
6
/1
/2
0
0
7
1
7
/1
/2
0
0
7
1
8
/1
/2
0
0
7
1
9
/1
/2
0
0
7
2
0
/1
/2
0
0
7
2
1
/1
/2
0
0
7
2
2
/1
/2
0
0
7
2
3
/1
/2
0
0
7
2
4
/1
/2
0
0
7
2
5
/1
/2
0
0
7
2
6
/1
/2
0
0
7
2
7
/1
/2
0
0
7
2
8
/1
/2
0
0
7
2
9
/1
/2
0
0
7
3
0
/1
/2
0
0
7
3
1
/1
/2
0
0
7
Data
E
v
e
n
t
o
s
p
o
r
p
e
r
o
d
o
UCL Nodeeventos Center line Series4
Anel ptico
Figura 13 - Grfico mR retirados os dias 9, 10
e 16
Note que medida que prossegue o processo de
retirada de dias fora de controle, a taxa mdia de eventos
diminui (variou de 41 para 19 por dia). Outro critrio de
parada pode ser a taxa mdia abaixo de um determinado
valor. O grfico indica pontos a serem analisados.
O processo neste caso requer a anlise ponto a ponto
dos itens fora de controle, remoo dos pontos analisados
e explicados tecnicamente, com novos ciclos de anlise
dos dados remanescentes at o fim do processo ou
estabilizao dos dados.
Essa minerao mostrou-se menos eficiente que as
anteriores para construo de cenrios. A sua maior
contribuio, a nosso ver, na anlise preventiva visando
a otimizao de sistemas, ou seja, ajudar a evidenciar
potenciais problemas ocorridos que podem ser
controlados, facilmente reconhecidos ou evitados no
futuro.
VI. CONCLUSO
O presente artigo mostra os mtodos utilizados na
etapa inicial do projeto de pesquisa entre a FITec e a
Eletrosul que visa a construo de uma ferramenta de
Gerncia de Alarmes visando a identificao da causa-
raiz para a rede de telecomunicaes da Eletrosul.
As etapas do trabalho esto representadas de forma
resumida na figura 11.
Figura 11. Etapas do projeto
A etapa inicial consiste na anlise da base de dados de
alarmes e seus atributos, da topologia da rede e sua
organizao em sub-redes, da identificao de cenrios
significativos de alarmes que representem o dia-a-dia do
centro de operao.
Dado o alto volume de alarmes por ms, cerca de
10000/ms, precisvamos automatizar o processo de
procura e anlise. Nesse sentido escolhemos o uso de
OLAP e tcnicas estatsticas como Pareto e Grfico de
Controle.
No artigo mostramos, por meio de casos reais
coletados da base histrica de alarmes, o uso das
ferramentas citadas acima.
Principais concluses:
A ferramenta OLAP mostrou-se de fcil
implantao, os cubos sendo gerados a partir dos
alarmes coletados,
A combinao Excel/OLAP permite a anlise
rpida de cenrios. A gerao do cubo pode ser no
Excel ou no servidor da base de dados. No primeiro
caso a pesquisa fica lenta para mais de 20000
registros. Para maiores volumes de dados aconselha-
se que o cubo fique no servidor da Base de Dados,
A gerao de cenrios com dados reais e recentes
facilita a interao com a equipe de operao na
identificao de cenrios significativos, seus
ofensores e eventos causadores.
VII. AGRADECIMENTOS
Os autores agradecem a colaborao de Arthur J os
Pierozzi e Alessandro Povero da Silva no entendimento e
nas implantaes da ferramenta OLAP, pea fundamental
nessa etapa do projeto.
VIII. REFERNCIAS
[1] D. C. Montgomery, Introduction to Statistical
Quality Control, J . Wiley, 1997.
[2] W. Florac, A Carleton, Statistical Process Control
for Software Process Improvement, Addison-Wesley,
1999.
[3] D. Levy, R. Chillarege, Early Warning of Failures
through Alarm Analysis - A Case Study in Telecom
Voice Mail System, IEEE Int. Symp. On SW Reliability
Engineering (ISSRE) Nov 2003.
[4] N. Garofalakis, R. Rastogi, Data Mining Meets
Network Management: The Nemesis Project, Bell Labs,
2002.
[5] A. Arnaud; R. Cunha; G. Vasconcelos; P. Adeodato;
J . Genu e B. Regueira, Abordagem Inteligente para
Tratamento de Alarmes e Diagnstico de Falhas em
Sistemas Eltricos, III Citenel, 5/6 de dezembro 2005,
Florianpolis.
[6] R. J . Roiger, M. W. Geatz, Data Mining A
Tutorial Primer, Addison Wesley, 2003.
De
Tcnicas
estatsticas
de
-
Deteco
De
Minerao
De
Dados
Correlao
de
eventos
Extrao
do
conhecimento
Regras
e
padres
Registros
De
Alarmes
OLAP, Tcnicas
estatsticas
Criao
de
Cenrios
-
De
Ofensores
Minerao
De
Dados
Correlao
de
eventos
Extrao
do
conhecimento
Regras
e
padres
De
Tcnicas
estatsticas
de
-
Deteco
De
Minerao
De
Dados
Correlao
de
eventos
Extrao
do
conhecimento
Regras
e
padres
Registros
De
Alarmes
OLAP, Tcnicas
estatsticas
Criao
de
Cenrios
-
De
Ofensores
Minerao
De
Dados
Correlao
de
eventos
Extrao
do
conhecimento
Regras
e
padres