Professional Documents
Culture Documents
Junio 8, 2016
Network/Clusterware/RAC
Troubleshooting Without ADDM
César Sáez León
– Clusterware
– Network
– RAC (Base de Datos)
RAC YES
Num CPUs 24
Caso 1 RAC
STATSPACK
Instancia 1
Instancia 2
Caso 1 RAC
Instance Efficiency Percentages
• Instancia 1
• Instancia 2
Caso 1 RAC
Top 5 Timed Events
Instancia 1
Caso 1 RAC
Top 5 Timed Events
Instancia 2
Caso 1 RAC
Time Model System Stats
• Instancia 1
Statistic Time (s) % of DB time
----------------------------------- -------------------- ------------
sql execute elapsed time 5,668.7 91.7
DB CPU 4,198.4 67.9
parse time elapsed 427.6 6.9
hard parse elapsed time 238.3 3.9
PL/SQL execution elapsed time 144.6 2.3
failed parse elapsed time 116.9 1.9
• Instancia 2
Indica que la fase de ejecución de sentencias SQL es lo que más consume tiempo
En esta fase se realiza el acceso a los datos (bloques)
Caso 1 RAC
Global Cache Efficiency
Percentages
• Instancia 1
• Instancia 2
Caso 1 RAC
Global Cache Load Profile
• Instancia 1
Global Cache Load Profile
~~~~~~~~~~~~~~~~~~~~~~~~~ Per Second Per Transaction
--------------- ---------------
Global Cache blocks received: 60.26 5.63
Global Cache blocks served: 5,779.27 540.19
GCS/GES messages received: 11,659.76 1,089.83
GCS/GES messages sent: 279.52 26.13
DBWR Fusion writes: 1.74 0.16
Estd Interconnect traffic (KB): 49,048.19
• Instancia 2
Global Cache Load Profile
~~~~~~~~~~~~~~~~~~~~~~~~~ Per Second Per Transaction
--------------- ---------------
Global Cache blocks received: 5,779.04 282.22
Global Cache blocks served: 60.26 2.94
GCS/GES messages received: 279.57 13.65
GCS/GES messages sent: 11,660.55 569.44
DBWR Fusion writes: 1.95 0.10
Estd Interconnect traffic (KB): 49,046.51
Caso 1 RAC
Global Cache Services -
Workload Characteristics
• Instancia 1
Caso 1 RAC
Global Cache Services -
Workload Characteristics
• Instancia 2
Caso 1 RAC
SQL
• Instancia 2
DB/Inst: instancia/instancia2
Caso 1 RAC
SQL
b) SQL ordered by Elapsed DB/Inst: instancia/instancia2
Caso 1 RAC
Información Adicional de la
Sentencia
SQL_ID |SQL_FULLTEXT |HASH_VALUE |OLD_HASH_VALUE
---------------------- |------------------------------------------------------------------------------------------------------------------------------------- |-------------------- |-----------------
Gpzfhxtdgzzmx |SELECT IMAGEN.IMAG_CODIGO, IMAG_EXPEDICION, IMAG_ORIGEN, IMAG_DESTINO, IMAG_REME |1526726269 |4280002066
SQL_ID gpzfhxtdgzzmx
--------------------
Caso 1 RAC
Información Adicional de la
Sentencia
id Operation Name Rows Bytes Cost (%CPU) Time
Caso 1 RAC
Reads vs Changes
CONCLUSIONES Y
RECOMENDACIONES
El problema se produce en el módulo w3wp.exe, con la consulta de
SQL_ID=gpzfhxtdgzzmx:
Caso 1 RAC
Lentitud – 10gR2 - STATSPACK
Caso 2 Network
STATSPACK
• Instancia 1
• Instancia 2
Caso 2 Network
Instance Efficiency
Percentages
• Instancia 1
• Instancia 2
Caso 2 Network
Top 5 Timed Events
• Instancia 1
• Instancia 2
Caso 2 Network
Time Model System Stats
• Instancia 1
• Instancia 2
Caso 2 Network
Global Cache Load Profile
• Instancia 1
• Instancia 2
Global Cache Load Profile
~~~~~~~~~~~~~~~~~~~~~~~~~ Per Second Per Transaction
--------------- ---------------
Global Cache blocks received: 152.83 6.45
Global Cache blocks served: 841.05 35.50
GCS/GES messages received: 2,047.36 86.42
GCS/GES messages sent: 725.80 30.64
DBWR Fusion writes: 5.08 0.21
Estd Interconnect traffic (KB): 8,492.64
Caso 2 Network
Global Cache Efficiency
Percentages
• Instancia 1
• Instancia 2
Caso 2 Network
Global Cache Services -
Workload Characteristics
• Instancia 1
Caso 2 Network
Global Cache Services -
Workload Characteristics
• Instancia 2
Caso 2 Network
Typical Latencies for RAC
Operations
gc blocks lost
Statistic Total per Second per Trans
--------------------------------- ------------------ -------------- ------------
gc blocks lost 7,525 1.0 0.1
gc blocks lost 0 0.0 0.0
"Any block loss indicates a problem in network packet processing and should
be investigated"
Caso 2 Network
Global Cache Block Loss
Diagnostic Guide
• Poorly sized UDP receive (rx) buffer sizes / UDP buffer socket overflows
(RAC01)
• Se encuentran pérdidas de paquetes UDP en el nodo 1, lo cual se traduce en aumento en latencias de transferencia y por
ende, demoras en el procesamiento y trabajo de Oracle.
Caso 2 Network
Global Cache Block Loss
Diagnostic Guide
• Interconnect LAN non-dedicated
(RAC01)
eth3 inet addr:10.180.23.26 Bcast:10.180.23.255 Mask:255.255.255.0
RX bytes:52287574010569 (47.5 TiB) TX bytes:65881057016247 (59.9 TiB)
(RAC02)
eth3 inet addr:10.180.23.27 Bcast:10.180.23.255 Mask:255.255.255.0
RX bytes:580766305300 (540.8 GiB) TX bytes:2772380340803 (2.5 TiB)
Caso 2 Network
Global Cache Block Loss
Diagnostic Guide
• Limited capacity and over-saturated bandwidth
(Rac 1)
(Rac2)
[root@rac2 ~]# ethtool eth3
Settings for eth3:
Speed: 100Mb/s
Duplex: Full
Auto-negotiation: on
Caso 2 Network
CONCLUSIONES Y
RECOMENDACIONES
CONCLUSIONES
RECOMENDACIONES
Caso 2 Network
No sube Grid en nodo 2 – 11gR2
– Logs, CVU
"No levanta el clusterware en nodo 2"
[root@server2 ~]# crsctl start crs
CRS-4640: Oracle High Availability Services is already active
CRS-4000: Command Start failed, or completed with errors.
Caso 3 Clusterware
Log OS
Caso 3 Clusterware
Logs Oracle Grid
Infrastructure
• 11gR2 Clusterware and Grid Home - What You Need to Know
(Doc ID 1053147.1)
Caso 3 Clusterware
alertnode.log
• /u01/app/11.2.0/grid_1/log/server2/alertserver2.log
• Lo primero fue la revisión del archivo de alerta del nodo, donde llama la
atención la siguiente entrada:
2015-12-14 17:27:44.559:
[cssd(20301)]CRS-1656:The CSS daemon is terminating due to a fatal error;
Details at (:CSSSC00012:) in
/u01/app/11.2.0/grid_1/log/server2/cssd/ocssd.log
Caso 3 Clusterware
ocssd.log
• En la revisión del log del Cluster Syncronization Service Deamon se encuentran las siguientes
entradas que apuntan a un problema con el archivo Voting Disk en el ASM:
2015-12-14 18:07:54.474: [ CSSD][3058187552]clssnmReadDiscoveryProfile: voting file discovery string(ORCL:*,/voting_file)
2015-12-14 18:07:54.525: [ CSSD][1101998400]clssnmvDiskVerify: Successful discovery for disk /voting_file/voting_file3, UID 883ff2bf-f1a94f85-bfcfd521-
c908cb0b, Pending CIN 0:1425783924:0, Committed CIN 0:1425783924:0
2015-12-14 18:07:54.526: [ SKGFD][1101998400]Lib :UFS:: closing handle 0x120368a0 for disk :/voting_file/voting_file3:
• El log indica que no reconoce ningún Voting Disk dentro del ASM, pero si uno afuera de él.
Caso 3 Clusterware
Voting Disk
• Desde el nodo que si funciona correctamente, se realiza una revisión de los Voting Disks
definidos en la configuración del cluster:
• Esto comprueba que hay un problema con el ASM, ya que el sistema no puede leer la copia
del Voting Disk almacenada ahí.
Caso 3 Clusterware
CVU
• Para detectar problemas adicionales a los del ASM, se ejecutó un análisis completo de las dos
máquinas del cluster, desde el punto de vista que cumplan con lo necesario para albergar una
instalación de Oracle Grid Infrastructure:
ERROR:
PRVF-10109 : ASMLib is not configured correctly on the nodes:
Check failed on nodes:
server2,server1
Check for ASMLib configuration failed.
Caso 3 Clusterware
ASM
• Para la revision de ASM se utilizó la nota “ASMLib Devices Not Discovered with Diskstring as
'ORCL:*' (Doc ID 1444115.1)”
• El problema se descubre a continuación:
[root@server2 sbin]# ./oracleasm configure
ORACLEASM_ENABLED=true
ORACLEASM_UID=oraacle
ORACLEASM_GID=oinstall
ORACLEASM_SCANBOOT=true
ORACLEASM_SCANORDER="dm-"
ORACLEASM_SCANEXCLUDE="sd"
Caso 3 Clusterware
SOLUCIÓN
• Se reconfiguran las ASMlibs en el nodo 2:
This will configure the on-boot properties of the Oracle ASM library
driver. The following questions will determine whether the driver is
loaded on boot and what permissions it will have. The current values
will be shown in brackets ('[]'). Hitting <ENTER> without typing an
answer will keep that current value. Ctrl-C will abort.
Caso 3 Clusterware
REVISIÓN FINAL
• Se realiza un reboot de server2 y se comprueba que todo sube correctamente de forma
automática:
[root@server2 server2]# crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4537: Cluster Ready Services is online
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online
STATUS
------------
OPEN
OPEN
Caso 3 Clusterware
CONCLUSIONES Y
RECOMENDACIONES
• Es altamente inusual que haya una copia del Voting Disk fuera de ASM,
sólo deben usarse sistema de archivos compatibles con una solución de
Oracle RAC, los cuales son:
Caso 3 Clusterware
References
• Oracle® Database Performance Tuning Guide
11g Release 2 (11.2)
Part Number E16638-05