You are on page 1of 8

Utilizao de sistemas inteligentes para o

processamento de alarmes Minerao de


dados usando OLAP

L. Scheunemann, Ernani A. da Silva Neto, Alexandre C. Maciel, Eletrosul e
J . M. de Souza, M. Sanches, FITec


Resumo -O presente artigo mostra os mtodos
utilizados na etapa inicial do projeto de pesquisa entre
a FITec e a Eletrosul que visa a construo de uma
ferramenta de Gerncia de Alarmes visando a
identificao da causa-raiz para a rede de
telecomunicaes da Eletrosul. A etapa inicial consiste
na anlise da base de dados de alarmes e seus
atributos, da topologia da rede e sua organizao em
sub-redes, da identificao de cenrios significativos
de alarmes que representem o dia-a-dia do centro de
operao. Discutimos a tcnica OLAP (On-Line
Analytical Processing) e tcnicas estatsticas como
Pareto e Grfico de Controle, na identificao e
construo dos cenrios de alarmes.

Palavras-chave: Gerncia de alarmes, OLAP, Redes
SDH,.Grfico de Controle, Pareto.

I. INTRODUO
As redes de comunicao esto cada vez mais
complexas abrangendo um grande nmero de diferentes
equipamentos que funcionam juntos para oferecimento
do servio fim-a-fim aos usurios. A esse aumento de
complexidade corresponde um aumento no nmero de
falhas permanentes/transientes e um aumento substancial
no nmero de alarmes no centro de gerncia da rede
devido interdependncia entre os elementos de rede
(ER), a ocorrncia primria gerando mltiplas
ocorrncias secundrias. Isso implica que um alarme
gerado por um ER se propague rapidamente causando um
efeito avalanche de alarmes que chegam at o sistema de
gerncia.
No contexto de Gerncia de Redes, a gerncia de
alarmes uma facilidade importante no sentido de
permitir ao operador uma anlise e ao rpidas sobre as
causas da ocorrncia evitando um possvel colapso da
rede.
O presente trabalho de pesquisa entre a FITec e a
Eletrosul visa a construo de uma ferramenta de
Gerncia de Alarmes para a rede de telecomunicaes da
Eletrosul visando a rpida identificao da causa-raiz na
ocorrncia de alarmes que sinalizam indisponibilidade
parcial ou total de enlaces do sistema.
A rede de telecomunies da Eletrosul composta das
sub-redes:
o anel SDH (Synchronous Digital Hierarchy),
cerca de 35 ns,
as rotas rdio necessrias comunicao de
algumas subestaes (SE), so cinco rotas rdio, 1 e 3
a 6. A rota 2 ainda no est disponvel.
a rede de superviso com quatro servidores.

Os alarmes gerados pelas sub-redes tem caractersticas
diferentes e devem ser analisados separadamente.
A rede SDH o conjunto de equipamentos e meios
fsicos de transmisso que compem um sistema digital
sncrono de transporte de informaes. Um elemento de
rede SDH quando percebe um problema na recepo
sinal ou se no h recepo gera os alarmes LOF (Loss
Of Frame) e LOS (Loss Of Signal). Para localizao do
enlace com problema, gera mais dois alarmes: o alarme
AIS (Alarm Indication Signal) enviado na direo do
terminal de destino, que chamaremos para frente, e o
sinal RDI (Remote Defect Indication) enviado na
direo contrria, na direo do terminal de origem, que
chamaremos para trs. Esses so repetidos pelos ns
intermedirios entre origem e destino e permitem
rastrear, baseado na topologia, em que ponto do enlace
entre os terminais houve o problema. A forma de gerao
dos alarmes AIS e RDI pode no entanto variar entre
fornecedores o que requer a anlise de cenrios reais para
entendimento desse procedimento. Existem outros
alarmes associados degradao do sinal e perda de
sincronismo.
A rotas rdio no tem um padro comum de alarmes e
dependem das definies dos equipamentos rdio de cada
fornecedor. Nesse cenrio devemos levantar os alarmes
rdio presentes na rede, as respectivas funes e a que
tipo de equipamento rdio se referem.
Finalmente rede de superviso composta de
servidores que monitoram o anel ptico e as rotas rdio.
A falta de comunicao com um n gera o alarme CLF
(Communication Link Failure with NE, Network
Equipment) para cada n isolado.
Os alarmes gerados pelo sistema vo para a tela de
operao permanecendo na tela enquanto ativados. Na
desativao saem da tela e so gravados em uma base de
histrico. So gravados na base histrica de alarmes
(BHA) diversos atributos do alarme que sero mostrados
posteriormente.
Como explicado anteriormente, necessrio o
levantamento dos alarmes nas diversas sub-redes e como
se correlacionam. Nos casos de avalanche de alarmes.
precisamos ter regras de identificao dos alarmes
primrios que serviro para a identificao da causa-raiz.
Para esse levantamento e o estabelecimento de regras
precisamos minerar a base de dados de ocorrncia
procura de cenrios significativos e nesses cenrios
levantar a cronologia de ocorrncias dos alarmes. A base
contm de 5000 a 10000 ocorrncias por ms. Para
efetuar a procura de cenrios recorremos a uma
ferramenta, OLAP (On Line Analytical Processing).
Nesse artigo tratamos da etapa de procura e criao de
cenrios desse projeto. Queremos mostrar que o uso de
OLAP facilita:
a anlise de cenrios diretamente na base de
produo, sem bases intermedirias,
a interao entre as equipes usando cenrios que
esto ocorrendo e portanto ainda bem presente na
memria dos operadores,
a avaliao da eficincia de regras e mtodos
estatsticos na precisa identificao e localizao do
problema.

Na seo seguinte discutimos brevemente algumas
linhas de pesquisa na rea de gerncia de alarmes. Na
seo III apresentamos o conceito de minerao de dados
e a ferramenta para anlise e criao de cenrios que
estamos utilizando, OLAP. A base de dados de alarmes e
seus atributos apresentada na seo IV. Os mtodos que
esto sendo usados para anlise e criao de cenrios so
apresentados na seo V.

II. PESQUISAS EM GERNCIA DE ALARMES

Podemos identificar as seguintes vertentes de pesquisa
na gerncia de falhas:
1. monitorao estatstico dos alarmes e
identificao dos pontos crticos [3],
2. reduo do nmero de alarmes filtrando os
alarmes secundrios [4],
3. uso de sistemas inteligentes [4, 5],

A. Monitorao estatstica de Alarmes (vertente 1)

Redes e equipamentos mal ajustados ou perto do limiar
de falha tendem a gerar mais alarmes, seja em relao a
um limite esperado ou comparando-se com seus
equivalentes. A deteo desses pontos fora da curva
contribui para a confiabilidade da rede e para o aumento
de confiabilidade de equipamentos quando submetidos a
ajustes automticos desnecessrios.
Medidas como a freqncia de alarmes, tempo de
soluo de ocorrncia, etc podem ser derivadas dos
alarmes e analisadas quantitativamente. Tcnicas de
Controle Estatstico de Processos [1, 2] podem ser usadas
para detectar as medidas fora de controle e que portanto
devem ser explicadas pela operao o que muitas vezes
leva a um ajuste ou reparao.
A vantagem desse tipo de monitorao que ele
seleciona os pontos a serem analisados agindo como um
filtro de ocorrncias permitindo operao focar nas
reas crticas.

B. Anlise da correlao entre alarmes (vertentes 2 e 3)

Nas redes de telecomunicaes existe geralmente uma
grande interdependncia entre os Elementos de Rede
(ER) que cooperam para a prestao de um determinado
servio.
O principal objetivo dessa vertente determinar a(s)
causa(s) com preciso, filtrando alarmes secundrios (que
so causados pelos alarmes primrios) para em seguida
iniciar a anlise de causa-raiz, resultando nas provveis
causas com um certo nvel de confiana (probabilidade
de acerto).
Basicamente dois elementos funcionais so
necessrios: Analisador de Correlao de Eventos, para
filtragem, e Analisador de Causa-Raiz, para identificao
das causas.
Podemos considerar que essa ainda uma rea de
pesquisa, onde as solues atuais apresentam
complexidade crescente em funo da complexidade da
rede, causando um esforo de implantao importante e
constante, devido s rpidas mudanas na rede em funo
da introduo de novos servios [4].
Nossa abordagem combina as vertentes 1 e 3, ou seja,
usamos mtodos estatsticos para anlise de mudanas de
tendncia e mtodos de minerao de dados para
estabelecimento de regras para filtro e localizao dos
problemas.

III. MINERAO DE DADOS

A minerao de dados uma estratgia que procura em
uma base de dados, criando modelos para identificao
de padres escondidos. O modelo criado pelo algoritmo
de minerao de dados uma generalizao conceitual
dos dados. A generalizao pode ser na forma de uma
rvore, uma rede, uma equao ou um conjunto de regras.
Um processo de pesquisa (data query) pode ajudar a
encontrar respostas s questes sobre informaes
armazenadas nos dados, mas a minerao de dados difere
de um processo de pesquisa nos dados ao dar a habilidade
de encontrar respostas s questes que no haviam sido
pensadas. Os sistemas especialistas, por sua vez, usam o
conhecimento humano ao invs de construir modelos
para tomada de deciso. Quando no existem dados
suficientes, a abordagem de sistemas especialistas pode
ser uma alternativa vivel.
A minerao de dados um processo que compreende
acessar e preparar os dados para o algoritmo de
minerao de dados, minerar os dados, analisar os
resultados, e agir de forma apropriada. Os dados a serem
acessados podem estar armazenados em uma ou mais
bases de dados operacionais, data warehouse, ou
arquivo.
No desenvolvimento da. ferramenta de Gerncia de
Alarmes vamos usar tcnicas de minerao para gerao
de regras visando a rpida identificao dos alarmes
primrios. Para chegar nesse ponto precisamos identificar
cenrios significativos de alarmes do dia-a-dia da
gerncia, identificando para cada cenrio os atributos
importantes e separando os alarmes primrios do
secundrios.
Usamos uma tcnica que permite a minerao
manual dos dados, On-Line Analytical Processing,
OLAP. Chamamos de manual [6] porque o operador
que dirige a procura indicando os atributos que quer
analisar e a apresentao dos resultados (quantidade,
mdia, etc.).

A. OLAP (On-line Analytical Processing)

O OLAP [6] uma metodologia baseada em pesquisa
(query-based) que suporta anlise de dados em um
ambiente multidimensional. OLAP uma ferramenta
muito til para verificar ou rebater alguma hiptese e
para executar, conduzida pelo operador, uma minerao
de dados.
Um processamento OLAP estrutura logicamente dados
multidimensionais na forma de um cubo. O cubo pode
apresentar vrias dimenses que so subconjuntos de
atributos.
Como um cubo projetado para um propsito
especfico, no usual ter vrios cubos estruturados a
partir de um nico warehouse. O projeto dos dados do
cubo inclui a deciso sobre quais atributos sero
includos no cubo, bem como a granularidade de cada
atributo. Um cubo bem projetado configurado de forma
a conter somente informao til.
Cada atributo em um cubo OLAP pode ter uma ou
mais hierarquias conceituais associadas. Uma hierarquia
conceitual define um mapeamento que permite que o
atributo possa ser visualizado em diversos nveis de
detalhe. Por exemplo: atributo de localidade, poderia ter a
regio como o nvel mais alto, depois as cidades que
compe aquela regio, e depois os endereos contidos
naquela cidade.

Operaes suportadas no OLAP:
1. Operao fatiar (slice) - seleciona dados de
uma nica dimenso de um cubo OLAP.
2. Operao cortar um subcubo (dice) - extrai um
subcubo do cubo original executando um
operao de seleo em duas ou mais dimenses.
3. Operao de agregao (roll-up) - a
combinao de clulas de uma ou mais
dimenses definidas num cubo. Uma forma de
agregao usa o conceito de associao
hierrquica com uma dimenso para atingir um
nvel maior de generalizao.
4. Operao de drill-down - o reverso da
agregao (roll-up), implica em examinar
dados com algum nvel maior de detalhe.
5. Operao de rotao (rotation) - permite
visualizar dados de uma nova perspectiva.

As ferramentas de OLAP possuem uma interface ao
usurio amigvel e so capazes de mostrar os dados de
diversas perspectivas, executar anlises estatsticas e
fazer pesquisas sucessivas para menor e/ou maior nvel
de detalhe. Para pequena quantidade de dados, o MS
Excel pivot table pode ser utilizado oferecendo algumas
das funcionalidades disponveis em ferramentas de
OLAP complexas. As funcionalidades do Pivot Table
incluem a habilidade de sumarizar e agrupar dados e
mostrar dados em diversos formatos.

IV. A BASE HISTRICA DE ALARMES (BHA)

A base histrica de alarmes (BHA) foi usada para o
levantamento de alarmes nas trs sub-redes, a criao de
cenrios e a identificao de regras.

A BHA possui os seguintes atributos:
(Time) Data/hora da ativao do alarme,
(NE) Elemento de Rede: identificao do
elemento,
(Object Type) Objeto (enlace, tributrio, camada
SDH, etc.),
(Location) Localizao no equipamento,
(Cause) Causa: identificao do alarme,
(Severity) Severidade do alarme,
(Alarm Class) Classe do alarme,
(Cleared Time) Data/hora de desativao.

Time (Local) NE Object Type Location
23/05/200710:49:09DUALQ-GRA,,Dual Q-Adapter GFL NE
23/05/200710:45:05DUALQ-GRA,,Dual Q-Adapter GFL NE
23/05/200710:43:27PFU-01,B25/S4,SLD16B 2.5 MS4-TTP 405
23/05/200710:44:59PFU-02,B25/S4,SMA1/4C 2.3M VC4-TTP 411.01
23/05/200710:44:57PFU-02,B25/S4,SMA1/4C 2.3M VC4-TTP 407.01
23/05/200710:43:19PFU-01,B25/S4,SLD16B 2.5 MS4-TTP 405
23/05/200710:44:55PFU-02,B25/S4,SMA1/4C 2.3M VC12-TTP 403.17
23/05/200710:44:55PFU-02,B25/S4,SMA1/4C 2.3M VC12-TTP 403.16

(a)

Cause Severity AlarmClass ClearedTime(Local)
CommunicationLinkFailurewithNE Critical Communication 23/05/200710:55:54
EquipmentProblem IndeterminaEquipment 23/05/200710:55:54
ThresholdCrossed: UAT Far End(UAT far) Minor Quality 23/05/200710:46:04
RemoteDefectIndication(RDI) Warning Communication 23/05/200710:47:33
RemoteDefectIndication(RDI) Warning Communication 23/05/200710:47:32
RemoteDefectIndication(RDI) Warning Communication 23/05/200710:46:04
RemoteDefectIndication(RDI) Warning Communication 23/05/200710:47:32
RemoteDefectIndication(RDI) Warning Communication 23/05/200710:47:32

(b)
Figura 1. Instncias da BHA

A figura 1 (a)/(b) (diviso necessria para format-las
em uma coluna) mostra 8 instncias da BHA. Com
exceo da data/hora de desativao, os demais atributos
so gerados em tempo real no momento da ativao.
Um primeiro procedimento referente topologia a
organizao dos ERs por sub-rede e identificao da rota
rdio a que pertence. Tambm calculada a durao do
alarme conhecendo-se na BHA a data/hora de
ativao/desativao.

V. ANLISE DE CENRIOS

Para a construo e anlise de cenrios por meio da
colaborao entre a FITec e a Eletrosul, foi instalada na
Eletrosul a ferramenta OLAP com tela de rosto (front-
end) Excel. A BHA para gerao do cubo OLAP coleta
em tempo real todos os alarmes gerados atualizando o
cubo de 10 em 10 minutos ou no momento que o Excel
ativado. Isso permite a colaborao usando a mesma base
e o mesmo processo de anlise.

A. Alarmes mais freqentes: Rotas rdio

Total
0
200
400
600
800
1000
1200
A
I
S
L
o
c
a
l
l
y
I
n
s
e
r
t
e
d
C
a
r
d
F
a
i
l
C
a
r
d
F
a
i
l
A
I
S
L
o
c
a
l
l
y
I
n
s
e
r
t
e
d
D
e
m
C
a
r
d
F
a
i
l
C
a
r
d
F
a
i
l
D
e
m
C
a
r
d
F
a
i
l
A
I
S
L
o
c
a
l
l
y
I
n
s
e
r
t
e
d
C
a
r
d
F
a
i
l
D
e
m
C
a
r
d
F
a
i
l
A
I
S
L
o
c
a
l
l
y
I
n
s
e
r
t
e
d
A
I
S
L
o
c
a
l
l
y
I
n
s
e
r
t
e
d
C
a
r
d
F
a
i
l
D
e
m
C
a
r
d
F
a
i
l
Rota 1 Rota 3 Rota 4 Rota 5 Rota 6
Time (Local) All
Count Of NE
Rota Cause

Figura 2. Alarmes mais freqentes nas rotas rdio

A BHA usado no artigo foi coletada entre 29/04/2007
e 23/05/2007. A primeira anlise feita foi sobre os
alarmes mais freqentes nas rotas rdio e no anel ptico.

A figura 2 exemplifica o uso do Excel como tela de
rosto para anlise do cubo. Na anlise usamos apenas a
operao fatiar onde selecionamos os dados em uma
nica dimenso. No caso fatiamos Rota/Causa pela
quantidade de ocorrncias. Usamos o diagrama de Pareto
mostrando as trs causas mais freqentes por rota. Vemos
que em todas as rotas aparece a causa card fail, AIS
locally inserted e Dem (Demodulator) Card Fail.
Observe a coluna do lado esquerdo. Ela contm todos os
atributos considerados importantes para essa etapa inicial
de entendimento e criao de cenrios. Para fatiar
usando outro atributo, basta arrast-lo para o eixo X, que
indica o atributo. O eixo Y contm a quantidade de
ocorrncias do(s) atributo(s) escolhido(s). Os demais
grficos so gerados pelo Excel.
Para analisar o comportamento desses trs alarmes no
perodo estudado arrastamos para o eixo X os atributos
data/hora de ativao e rotas, selecionando apenas as
rotas rdio. No atributo cause selecionamos apenas os
alarmes em questo. O resultado mostrado na figura 3.


0
20
40
60
80
100
120
140
160
180
200
2
9
3
0123789
1
2
1
3
1
6
1
7
2
1
2
9
3
0356789
1
0
1
1
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
2
9
3
0123456789
1
0
1
1
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
2
9
3
0123456789
1
0
1
1
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
2
9
3
0
1
0
1
1
1
2
1
3
1
4
1
5
1
6
1
7
1
8
2
0
2
1
2
2
abril maio abril maio abril maio abril maio abril maio
2007 2007 2007 2007 2007
Rota 1 Rota 3 Rota 4 Rota 5 Rota 6
Card Fail AIS Locally Inserted DemCard Fail
Count Of NE
Rota Year Month Day
Cause
Card Fail
DemCardFail
AISLocallyInserted

Figura 3. Rotas rdio, anlise dos trs alarmes com maior
nmero de ocorrncias.

A figura 3 sugere forte correlao entre os alarmes
DemCardFail e AISLocally Inserted nas rotas 3 a 6
que pode ser verificado usando o teste de tendncia
linear, como mostrado na figura 4 para as rotas 3 e 6 que
tm maior nmero de ocorrncias.

Anlise de Correlao - Rotas Rdio
y =0.6033x - 0.0499
R
2
=0.9465
y =0.9843x - 1.1689
R
2
=0.9976
-20
0
20
40
60
80
100
120
140
160
180
0 20 40 60 80 100 120 140 160 180
AIS Local l y Inserted
D
e
m

C
a
r
d

F
a
i
l
Rota 3
Rota 6

Figura 4. Anlise de correlao, Rotas rdio 3 e 6
A anlise anterior mostra a flexibilidade da ferramenta
OLAP na ajuda compreenso do problema.

B. Alarmes mais freqentes: Anel ptico

A figura 5 mostra os alarmes com maior nmero de
ocorrncias. A rede SDH organizada em camadas de
transmisso (physical e section) e via (path) e os
alarmes indicam a camada em que foi gerada. A figura 5
no mostra essa diviso em camadas. Essa diviso
possvel pois o atributo object type indica a camada.
No vamos entrar nesse detalhe pois nosso objetivo nesse
artigo mostrar o uso de OLAP para anlise e criao de
cenrios.
Anel ptico
0
100
200
300
400
500
600
700
Server Signal
Fail (SSF)
Unequipped Loss of Signal
(LOS)
Signal
Degraded (SD
/ DEG)
Remote
Defect
Indication
(RDI)
Alarm
Indication
Signal (AIS)
Al arme
N
o
.

d
e

O
c
o
r
r

n
c
i
a
s

Figura 5. Anel ptico, alarmes com maior freqncia

C. Avalanche de alarmes

O efeito avalanche, como explicado na introduo,
devido interdependncia entre os elementos de rede
(NE), a ocorrncia de alarmes primrios gerando
mltiplos alarmes secundrios. A tela do centro de
gerncia sobrecarregada de alarmes dificultando ao
operador a anlise da correlao entre os alarmes para
chegar causa-raiz. Essa anlise geralmente manual,
sendo o objeto final desse trabalho a automatizao dessa
anlise. A figura 6 mostra que no dia 8 de maio
ocorreram cerca de 1400 alarmes. O que aconteceu nesse
dia?

Perfil de alarmes no perodo
0
200
400
600
800
1000
1200
1400
1600
29 30 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
abril maio
2007
Perodo
Q
u
a
n
t
i
d
a
d
e
Total
Count Of NE
Year Month Day

Figura 6. Perfil de alarmes no perodo estudado

Vamos usar OLAP para fazer uma pesquisa de
profundidade. Filtramos ento o dia 8 de maio e
detalhamos as ocorrncias por hora, como mostrado na
figura 7.

Vemos que a maioria das ocorrncias ocorre s 13h.
Continuando o aprofundamento, chegamos que 249
alarmes ocorreram s 13:47:59 e permaneceram cerca de
10min.

Perfil de alarmes-Dia 8 de maio
0
50
100
150
200
250
300
350
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
8
maio
2007
Perodo
Q
u
a
n
t
i
d
a
d
e
Total
Count Of NE
Year Month Day Hour

Figura 7. Detalhamento do dia 8 de maio

Novo aprofundamento nos leva s causas e local das
ocorrncias, que mostrado na figura 8.

Dia 8 de maio s 13:47:59
0
20
40
60
80
100
120
140
160
180
200
Loss of All Incoming Timing References for
T0
Loss of Signal (LOS) Unequipped
GRA2-01
59
47
13
8
maio
2007
Data/Hora
Q
u
a
n
t
id
a
d
e
Total
Count Of NE
Year Month Day Hour Minute Second Loc Cause

Figura 8. Localidade: Gravata e Causas, dia 8/5 s
13:47:59

Nesse cenrio consideramos:

Alarmes primrios: Loss of Signal (LOS) e
Unequipped

Alarme secundrio: Loss of All Incoming Timing
References for T0,

O mesmo procedimento aplicado ao dia 7 de maio,
figura 9, mostra o mesmo local porm com um alarme
primrio adicional: Loss of Timing Source T3.

Dia 7 de maio s 16:25:13
0
50
100
150
200
250
Loss of All Incoming Timing
References for T0
Loss of Signal (LOS) Loss of Timing Source T3 Server Signal Fail (SSF)
GRA-05
13
25
16
7
maio
2007
Data/Hora
Q
u
a
n
t
id
a
d
e
Total
Count Of NE
Year Month Day Hour Minute Second Loc Cause

Figura 9. Localidade: Gravata e Causas, dia 7/5 s
16:25:13

Esse tipo de procedimento est sendo aplicado em
dados histricos coletados desde Dezembro de 2006. A
seguir mostramos alguns dos cenrios encontrados.

D. Exemplos de cenrios de alarme

Cenrio 1
Data: dia 18 de Dezembro de 2007 (11, 12, 14 e 16
horas)
Enlace: BLU-02 e ITA-02
NE2: SMA
Evento Cause: LOS, SSF, RDI e Unequipped
Seqncia de eventos: Unequipped->SSF->LOS->RDI;
SSF->LOS; SSF->Unequipped->RDI
Durao: at 3 horas.
Causa provvel: Causa: ativao de feixe. Nesse caso os
alarmes RDI Remote Defect Indication, SSF Server
Signal Fail e Unequipped so alarmes temporrios. O
LOS fica presente at a conexo do equipamento no
feixe.

Cenrio 2
Data: 25 de J an de 2007
Enlace: ITJ -01 e FLO-01 (link ptico)
NE1: ITJ -01 e FLO-01
NE2: SLD
Evento Cause: LOS (ptico)
Seqncia de eventos: LOS as 11 e 20 Horas.
Durao: at 3 minutos
Causa provvel: Falha do Link ptico entre ITJ e FLO.
a causa do problema de SMA nos outros sites do link
PAL,FLO,CBA,BLU. Na verdade o problema foi entre
Sede e Florianpolis, e como conseqncia houve perda
de relgio em ITJ (Loss of Time Source)

Cenrio 3
Data: dia 2 de J an 2007
Enlace: VNI-02_RVE-01
Evento Cause: CARD FAIL
Seqncia de eventos: CARD Fail ODU, seguido de TX
ODU Failure.
Durao: ~6000 s =100 min
Causa provvel: Instabilidade ou falha intermitente na
TX ODU de VNI-02. O lado RVE-01 no detecta
problema.

E. Minerao usando a durao do alarme

Essa minerao parte da observao que, devido
interdependncia entre os elementos de rede, um alarme
primrio gera mltiplos alarmes secundrios. Notamos
que os alarmes secundrios podem ser divididos em
funo da sua correlao com o primrio em:
alarmes com baixa correlao: so geralmente
transitrios e sua durao ( tempo entre a ativao e
desativao) menor que a durao do primrio,
alarmes com alta correlao: nesse caso a
extino do alarme secundrio est correlacionada
com a extino do primrio.

Aplicando essa minerao ao anel ptico no perodo
estudado, detectamos um conjunto de alarmes com
durao aproximada de 30 min no dia 23 de maio. A
tabela I mostra o resultado da minerao.

TABELA I
Minerao usando a durao Anel ptico

Time (Local) Cause Loc
23/05/2007 10:16:56 Server Signal Fail (SSF) MCL-02
23/05/2007 10:16:56 Alarm Indication Signal (AIS) MCL-02
23/05/2007 10:16:56 Server Signal Fail (SSF) GRA-03
23/05/2007 10:16:56 Server Signal Fail (SSF) IVP-02
23/05/2007 10:16:57 Alarm Indication Signal (AIS) SED-04
23/05/2007 10:16:57 Alarm Indication Signal (AIS) J LB-02
23/05/2007 10:16:57 Server Signal Fail (SSF) SED-02
23/05/2007 10:16:57 Server Signal Fail (SSF) SED-02
23/05/2007 10:16:57 Server Signal Fail (SSF) SED-02
23/05/2007 10:16:57 Server Signal Fail (SSF) SED-02
23/05/2007 10:16:57 Server Signal Fail (SSF) SOS-02
23/05/2007 10:16:58 Loss of Timing Source T1 #1 GPE-01
23/05/2007 10:16:58 Server Signal Fail (SSF) GPE-01
23/05/2007 10:16:58 Loss of Signal (LOS) GPE-01
23/05/2007 10:17:05 Threshold Crossed: UAT GPE-01
23/05/2007 10:17:23 Server Signal Fail (SSF) NSR-01

Identificamos uma falha de sincronismo Loss of
Timing Source T1 #1 na regeneradora de Guapor,
causada pela perda de sinal. Nesse minuto foram gerados
60 alarmes mas apenas os 16 da Tabela I tm durao
prxima do alarme primrio.

Outro exemplo analisando a Rota 6 de rdio permite
minerar o cenrio da Tabela II. que durou cerca de 40
min. O problema na transmisso em CHA causando
alarmes AIS em MPO.

TABELA II
Minerao usando a durao Rota 6

Time (Local) Cause Loc
21/05/2007 10:29:22 Loss of Protection Signal CHA-01
21/05/2007 10:29:23 AIS Prot Side MPO-01
21/05/2007 10:29:23 AIS MPO-01
21/05/2007 10:29:23 Tx On Line Channel Failure CHA-01
21/05/2007 10:29:24 Loss of Signal CHA-01
F. Minerao usando Grfico de Controle

Para entender o conceito do Grfico de Controle (
Control Chart) de uma maneira bem simples, primeiro
precisamos entender o conceito de variao.
Considere a ao de ir para o trabalho um processo,
que leva em mdia 30 minutos. Um intervalo entre 25 a
35 minutos um intervalo esperado para a execuo
desse processo. Medindo esse processo se o tempo
esperado est dentro desse intervalo dizemos que est
dentro da variao esperada. Caso o pneu fure, esse
tempo mdio ser elevado para cerca de 50 minutos, ser
um caso excepcional, um ponto fora da curva. Se
colocarmos essas informaes num grfico, esse grfico
ser um control chart, onde o limite inferior (25
minutos) e superior (35 minutos) definem o intervalo
normal e os pontos fora desses intervalos so os pontos
fora da curva ou fora de controle. No caso o pneu
furado um caso de exceo que justificou o ponto fora
de controle.
Num processo, os pontos fora da curva, ou tipos de
variao, precisam ser investigados e diagnosticados
como causas especiais ou causas comuns. Se existirem
causas comuns, o processo precisa ser reavaliado para
que seja reduzido o nmero de causas comuns. Isto ,
aes podem ser tomadas tais como: redefinir os limites,
justificar o acontecido ou identificar algo que pode ser
melhorado no processo.
Portanto a variao pode ser entendida como algo que
acontece dentro de um intervalo esperado. Utilizando
esse conceito, o Grfico de Controle poder ser aplicado
na minerao de alarmes com ocorrncia fora de
controle podendo identificar situaes de anormalidade.
O mtodo do grfico de controle supe que um
processo (fabricao, medio, alarmes, etc.) exibe
variaes ao longo do tempo ou entre itens de um
conjunto com as mesmas caractersticas. O grfico de
controle usa trs parmetros para anlise da
variabilidade:

CL - Central Line - Linha Central de Controle
UCL - Upper Control Limit - Limite Superior
de Controle
LCL - Lower Control Limit - Limite Inferior
de Controle.

Grfico decontrole - XMR
41.06451613
0
50
100
150
200
250
300
350
1
/1
/2
0
0
7
2
/1
/2
0
0
7
3
/1
/2
0
0
7
4
/1
/2
0
0
7
5
/1
/2
0
0
7
6
/1
/2
0
0
7
7
/1
/2
0
0
7
8
/1
/2
0
0
7
9
/1
/2
0
0
7
1
0
/1
/2
0
0
7
1
1
/1
/2
0
0
7
1
2
/1
/2
0
0
7
1
3
/1
/2
0
0
7
1
4
/1
/2
0
0
7
1
5
/1
/2
0
0
7
1
6
/1
/2
0
0
7
1
7
/1
/2
0
0
7
1
8
/1
/2
0
0
7
1
9
/1
/2
0
0
7
2
0
/1
/2
0
0
7
2
1
/1
/2
0
0
7
2
2
/1
/2
0
0
7
2
3
/1
/2
0
0
7
2
4
/1
/2
0
0
7
2
5
/1
/2
0
0
7
2
6
/1
/2
0
0
7
2
7
/1
/2
0
0
7
2
8
/1
/2
0
0
7
2
9
/1
/2
0
0
7
3
0
/1
/2
0
0
7
3
1
/1
/2
0
0
7
Data
E
v
e
n
t
o
s

p
o
r

p
e
r

o
d
o
UCL Nodeeventos Centerline LCL
Anel ptico

Figura 10. Exemplo de Control Chart - XmR

Nessa anlise vamos usar um tipo de grfico de
controle que permitam uma anlise diria como o caso
dos grficos XmR e Moving Range (mR). Para uma
explicao detalhada desse tipo de grfico consulte [1].
Os grficos das figuras 10 e 11, referem-se a uma
anlise do ms de janeiro de 2007 nos alarmes do Anel
ptico.

Em [1] ressaltado que a variao mvel, mR, no
consegue indicar precisamente mudanas na variao do
processo. Ou seja, se o processo muda de patamar mas
em cada patamar mantm uma variao controlada, a
variao mvel apenas indicar um pico no momento da
mudana. Isso pode ser til para a indicao dos
momentos das variaes mas no no estudo das
variaes.

Grfico decontrole- MdiaMvel
43.10
0
50
100
150
200
250
300
1
/1
/2
0
0
7
2
/1
/2
0
0
7
3
/1
/2
0
0
7
4
/1
/2
0
0
7
5
/1
/2
0
0
7
6
/1
/2
0
0
7
7
/1
/2
0
0
7
8
/1
/2
0
0
7
9
/1
/2
0
0
7
1
0
/1
/2
0
0
7
1
1
/1
/2
0
0
7
1
2
/1
/2
0
0
7
1
3
/1
/2
0
0
7
1
4
/1
/2
0
0
7
1
5
/1
/2
0
0
7
1
6
/1
/2
0
0
7
1
7
/1
/2
0
0
7
1
8
/1
/2
0
0
7
1
9
/1
/2
0
0
7
2
0
/1
/2
0
0
7
2
1
/1
/2
0
0
7
2
2
/1
/2
0
0
7
2
3
/1
/2
0
0
7
2
4
/1
/2
0
0
7
2
5
/1
/2
0
0
7
2
6
/1
/2
0
0
7
2
7
/1
/2
0
0
7
2
8
/1
/2
0
0
7
2
9
/1
/2
0
0
7
3
0
/1
/2
0
0
7
3
1
/1
/2
0
0
7
Data
E
v
e
n
t
o
s

p
o
r

p
e
r

o
d
o
UCL Nodeeventos Centerline Series4
Anel ptico

Figura 11. Exemplo de Control Chart -
Moving Range

A figura 10 mostra no ms de janeiro, trs pontos
fora de controle nos dias 9,10 e 16 que causam a
variao da figura 11.
O grfico mR da figura 11 mostra trs variaes fora
de controle que correspondem aos saltos para cima no dia
9, o salto para baixo no dia 11 e o salto para cima no dia
16.
Para prosseguir na anlise, explicado os eventos do dia
9, 10 e 16 devemos retirar da anlise os dias com eventos
fora de controle mostrados na figura 10 que provocam os
saltos na variao. Fazendo esse procedimento teramos
os grficos da figura 12 e 13.

TABELA III
Minerao usando Grfico de Controle

Data
Dia da
semana No eventos
09/01/07 3a 287
10/01/07 4a 274
16/01/07 3a 182
17/01/07 4a 115
18/01/07 5a 50
19/01/07 6a 56
25/01/07 5a 102
31/01/07 4a 48
Como existem variaes fora de controle no grfico
mR, figura 13, o processo de anlise e retirada dos pontos
prosseguiria. Se continussemos esse processo
deveramos analisar os dias mostrados na Tabela III.

Grfico decontrole- XMR
18.92857143
0
20
40
60
80
100
120
140
1
/1
/2
0
0
7
2
/1
/2
0
0
7
3
/1
/2
0
0
7
4
/1
/2
0
0
7
5
/1
/2
0
0
7
6
/1
/2
0
0
7
7
/1
/2
0
0
7
8
/1
/2
0
0
7
9
/1
/2
0
0
7
1
0
/1
/2
0
0
7
1
1
/1
/2
0
0
7
1
2
/1
/2
0
0
7
1
3
/1
/2
0
0
7
1
4
/1
/2
0
0
7
1
5
/1
/2
0
0
7
1
6
/1
/2
0
0
7
1
7
/1
/2
0
0
7
1
8
/1
/2
0
0
7
1
9
/1
/2
0
0
7
2
0
/1
/2
0
0
7
2
1
/1
/2
0
0
7
2
2
/1
/2
0
0
7
2
3
/1
/2
0
0
7
2
4
/1
/2
0
0
7
2
5
/1
/2
0
0
7
2
6
/1
/2
0
0
7
2
7
/1
/2
0
0
7
2
8
/1
/2
0
0
7
2
9
/1
/2
0
0
7
3
0
/1
/2
0
0
7
3
1
/1
/2
0
0
7
Data
E
v
e
n
t
o
s

p
o
r

p
e
r

o
d
o
UCL Nodeeventos Centerline LCL
Anel ptico

Figura 12. Grfico XmR retirados os dias 9, 10
e 16

Grfico de controle - Mdia Mvel
22.85
0
20
40
60
80
100
120
1
/1
/2
0
0
7
2
/1
/2
0
0
7
3
/1
/2
0
0
7
4
/1
/2
0
0
7
5
/1
/2
0
0
7
6
/1
/2
0
0
7
7
/1
/2
0
0
7
8
/1
/2
0
0
7
9
/1
/2
0
0
7
1
0
/1
/2
0
0
7
1
1
/1
/2
0
0
7
1
2
/1
/2
0
0
7
1
3
/1
/2
0
0
7
1
4
/1
/2
0
0
7
1
5
/1
/2
0
0
7
1
6
/1
/2
0
0
7
1
7
/1
/2
0
0
7
1
8
/1
/2
0
0
7
1
9
/1
/2
0
0
7
2
0
/1
/2
0
0
7
2
1
/1
/2
0
0
7
2
2
/1
/2
0
0
7
2
3
/1
/2
0
0
7
2
4
/1
/2
0
0
7
2
5
/1
/2
0
0
7
2
6
/1
/2
0
0
7
2
7
/1
/2
0
0
7
2
8
/1
/2
0
0
7
2
9
/1
/2
0
0
7
3
0
/1
/2
0
0
7
3
1
/1
/2
0
0
7
Data
E
v
e
n
t
o
s
p
o
r

p
e
r
o
d
o
UCL Nodeeventos Center line Series4
Anel ptico


Figura 13 - Grfico mR retirados os dias 9, 10
e 16

Note que medida que prossegue o processo de
retirada de dias fora de controle, a taxa mdia de eventos
diminui (variou de 41 para 19 por dia). Outro critrio de
parada pode ser a taxa mdia abaixo de um determinado
valor. O grfico indica pontos a serem analisados.
O processo neste caso requer a anlise ponto a ponto
dos itens fora de controle, remoo dos pontos analisados
e explicados tecnicamente, com novos ciclos de anlise
dos dados remanescentes at o fim do processo ou
estabilizao dos dados.
Essa minerao mostrou-se menos eficiente que as
anteriores para construo de cenrios. A sua maior
contribuio, a nosso ver, na anlise preventiva visando
a otimizao de sistemas, ou seja, ajudar a evidenciar
potenciais problemas ocorridos que podem ser
controlados, facilmente reconhecidos ou evitados no
futuro.

VI. CONCLUSO

O presente artigo mostra os mtodos utilizados na
etapa inicial do projeto de pesquisa entre a FITec e a
Eletrosul que visa a construo de uma ferramenta de
Gerncia de Alarmes visando a identificao da causa-
raiz para a rede de telecomunicaes da Eletrosul.
As etapas do trabalho esto representadas de forma
resumida na figura 11.






Figura 11. Etapas do projeto

A etapa inicial consiste na anlise da base de dados de
alarmes e seus atributos, da topologia da rede e sua
organizao em sub-redes, da identificao de cenrios
significativos de alarmes que representem o dia-a-dia do
centro de operao.
Dado o alto volume de alarmes por ms, cerca de
10000/ms, precisvamos automatizar o processo de
procura e anlise. Nesse sentido escolhemos o uso de
OLAP e tcnicas estatsticas como Pareto e Grfico de
Controle.
No artigo mostramos, por meio de casos reais
coletados da base histrica de alarmes, o uso das
ferramentas citadas acima.

Principais concluses:
A ferramenta OLAP mostrou-se de fcil
implantao, os cubos sendo gerados a partir dos
alarmes coletados,
A combinao Excel/OLAP permite a anlise
rpida de cenrios. A gerao do cubo pode ser no
Excel ou no servidor da base de dados. No primeiro
caso a pesquisa fica lenta para mais de 20000
registros. Para maiores volumes de dados aconselha-
se que o cubo fique no servidor da Base de Dados,
A gerao de cenrios com dados reais e recentes
facilita a interao com a equipe de operao na
identificao de cenrios significativos, seus
ofensores e eventos causadores.

VII. AGRADECIMENTOS

Os autores agradecem a colaborao de Arthur J os
Pierozzi e Alessandro Povero da Silva no entendimento e
nas implantaes da ferramenta OLAP, pea fundamental
nessa etapa do projeto.

VIII. REFERNCIAS

[1] D. C. Montgomery, Introduction to Statistical
Quality Control, J . Wiley, 1997.
[2] W. Florac, A Carleton, Statistical Process Control
for Software Process Improvement, Addison-Wesley,
1999.
[3] D. Levy, R. Chillarege, Early Warning of Failures
through Alarm Analysis - A Case Study in Telecom
Voice Mail System, IEEE Int. Symp. On SW Reliability
Engineering (ISSRE) Nov 2003.
[4] N. Garofalakis, R. Rastogi, Data Mining Meets
Network Management: The Nemesis Project, Bell Labs,
2002.
[5] A. Arnaud; R. Cunha; G. Vasconcelos; P. Adeodato;
J . Genu e B. Regueira, Abordagem Inteligente para
Tratamento de Alarmes e Diagnstico de Falhas em
Sistemas Eltricos, III Citenel, 5/6 de dezembro 2005,
Florianpolis.
[6] R. J . Roiger, M. W. Geatz, Data Mining A
Tutorial Primer, Addison Wesley, 2003.

De
Tcnicas
estatsticas
de
-
Deteco
De
Minerao
De
Dados
Correlao
de
eventos
Extrao
do
conhecimento
Regras
e
padres
Registros
De
Alarmes
OLAP, Tcnicas
estatsticas
Criao
de
Cenrios
-
De
Ofensores
Minerao
De
Dados
Correlao
de
eventos
Extrao
do
conhecimento
Regras
e
padres
De
Tcnicas
estatsticas
de
-
Deteco
De
Minerao
De
Dados
Correlao
de
eventos
Extrao
do
conhecimento
Regras
e
padres
Registros
De
Alarmes
OLAP, Tcnicas
estatsticas
Criao
de
Cenrios
-
De
Ofensores
Minerao
De
Dados
Correlao
de
eventos
Extrao
do
conhecimento
Regras
e
padres

You might also like