=====Oracle Real Application Cluster 11g/12g Umgebung überwachen - Was muss regelmäßig geprüft werden===== Um den Betrieb einer RAC Umgebung sicherzustellen, ist das wichtig regelmäßig den Zustand des Clusters zu überwachen. Ist der Oracle Enterprise Manager im Einsatz, kann das sehr einfach umgesetzt werden. Steht der OEM nicht zur Verfügung, muss ein entsprechendes Monitorring aufgesetzt werden. Überwacht werden muss neben dem typischen relevanten Parameter eines produktiven Servers wie Disk etc. : Aktiv Fehler propagieren * ONS - Oracle Notification Service - für die Alarmierung einbinden Min all 5 Minute: * Zeitabweichung zwischen den einzelnen Datenbank Knoten > 1s = Fehler * Sind alle Cluster Diensts online * Sind alle ASM Platten online * Interconnect ohne Packet Fehler Min täglich * Integrität OCR ---- ====ONS für das Monitoring einbinden ==== Einfachste Lösung Script unter $GRID_HOME/racg/usrco anlegen um alle Events abzufangen: /opt/12.1.0.2/grid/racg/usrco #!/bin/bash echo "`date` : $@" >> /tmp/callout_log.log Auf den Spool Out von diesem Script das Überwachungstool ansetzen. Schneller: Alle Nachrichten via Mail an die Überwachung versenden, bzw. SOA Request absetzen. Siehe auch => http://www.oracle.com/technetwork/database/options/clustering/overview/fastapplicationnotification12c-2538999.pdf ---- ==== OCR ==== ==== Konfiguration und Inhalt der der Cluster Registry ==== Datei /etc/oracle/ocr.loc überprüfen ocrconfig_loc=+DATA local_only=FALSE Integrität mit ocrcheck prüfen rac01$ ocrcheck Status of Oracle Cluster Registry is as follows : Version : 3 Total space (kbytes) : 262120 Used space (kbytes) : 3336 Available space (kbytes) : 258784 ID : 1830903728 Device/File Name : +DATA Device/File integrity check succeeded Device/File not configured Device/File not configured Device/File not configured Device/File not configured Cluster registry integrity check succeeded Logical corruption check bypassed due to non-privileged user Wo sind die Backups der OCR Platte und wieviele gibt es (default alle 4 Stunden drei stück , eins pro Tag, eins pro Woche)\\ ocrconfig -showbackup [oracle@c7000rac2 crs]$ ocrconfig -showbackup myrac1 2010/09/16 13:12:56 /u01/app/11.2.0/grid/cdata/myraccluster/backup00.ocr myrac1 2010/09/16 09:12:56 /u01/app/11.2.0/grid/cdata/myraccluster/backup01.ocr myrac1 2010/09/16 05:12:55 /u01/app/11.2.0/grid/cdata/myraccluster/backup02.ocr myrac1 2010/09/15 05:12:53 /u01/app/11.2.0/grid/cdata/myraccluster/day.ocr myrac1 2010/09/10 01:49:46 /u01/app/11.2.0/grid/cdata/myraccluster/week.ocr PROT-25: Manual backups for the Oracle Cluster Registry are not available Inhalt der OCR Registry ocrdump -stdout > ocr_dump.txt Wo liegen die Voting Disks myrac2$ crsctl query css votedisk ## STATE File Universal Id File Name Disk group -- ----- ----------------- --------- --------- 1. ONLINE 200ee9ba16614f0cbf6b134a10fcb28e (/dev/oracleasm/disks/DATAX) [DATA] Located 1 voting disk(s). Mit clufy testen ob alles ok ist rac2 $ cluvfy comp ocr ---- ==== Name des Clusters ==== ${ORACLE_HOME}/bin/cemutlo -n ---- ==== Interconnect ==== Welches Interface wird wie verwendet?\\ oifcfg getif Wie ist der Oracle Clusterware Heartbeats eingestellt? $ crsctl get css misscount 30 ---- ==== Netzwerk ==== Netzwerk allgemein prüfen: #Interfaces ifconfig #Routen ip route route #Namensauflösung host host #Ping ping # Check Bonding: grep IP /etc/sysconfig/network-scripts/ifcfg-bond* grep MASTER /etc/sysconfig/network-scripts/ifcfg-eth* cat /proc/net/bonding/bond0 | grep -E "Slave Interface|Permanent" #Vlans? grep VLAN /etc/sysconfig/network-scripts/ifcfg-eth* Cluster: #Clufy test cluvfy comp nodecon -n all -verbose # Konfiguration: oifcfg getif srvctl config network srvctl config vip -n srvctl config nodeapps # aktueller Status im Cluster abfragen: srvctl status nodeapps crsctl stat res -t |grep -E -C 2 'net|vip'