Exadata Troubleshooting
Last updated – Jun 26, 2014
GTPLUS 김 종 인
 문제 정의
 문제 진단툴
어디를 살펴볼것 인가?
 문제 정의
– 성능
– 에러
– Crash
– Hang
중요한 MOS Notes
 888828.1
– Exadata 환경의 패치와 최신이슈의 가장 중요한 참고문서
– 다른 연관 MOS 문서들의 참조도 포함
 1070954.1 - exachk
– Best Practices 를 만족시키기 위한 DB에서 IB switch 까지 이르는 모든것을
체크해 준다.
– Asrexachk (1450112.1)
 Snmp 가 올바르게 설정되었는지 체크해 준다.
변경된 것이 있는가?
 최근에 변경된 것의 여부
– 새로운 패치
– 셀 또는 DB 노드의 업그레이드
– 네트워크 변경
IORM or DBRM 의 사용
 시스템에서 최근에 환경에 변경된 히스토리를 찾아볼것
 /opt/oracle.SupportTools/sundiag.sh 은 DB 노드와 셀노드의
 The sundiag tool 은 cellcli 명령을 통해 ILOM snapshots
& Megacli raid card logs 을 포함한 많은 정보들을 수집해준다.
 failure or reboot로 인한 DB 노드,셀노드 단절시 sundiag 를
수행하여야 한다.
 Sundiag 로 수집되는 추가정보
– oswatcher
– dmesg
– /var/log/messages
ILOM (Integrated Light Out Manager)
 콘솔 History
– ipmitool sunoem cli "show /SP/console/history”
– ipmitool -I lanplus -H celadm01-ilom -U root -P welcome1 sunoem cli
"show /SP/console/history"
 ILOM 이벤트
– ipmitool -c sunoem cli "show -script /SP/logs/event/list”
– ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli
"show -script /SP/logs/event/list”
 ipmitool -I lanplus –H celadm01-ilom -U root -P
welcome1 sunoem cli "show faulty”
– 하드웨어 이슈가 있다면 정보를 보여준다
 하드웨어가 다운되어 있고 sundiag를 수행하지 못하는 상황이라면
ILOM snapshot 을 뜨거나 remote snapshot 을 수행
ILOM 스냅샷
 ILOM 에서 스냅샷을 수집하여 호스트로 입력
– ILOM=cell01-ilom HOST=db01
– ipmitool sunoem cli "set /SP/diag/snapshot dataset=normal" -H $ILOM
-U root –P welcome1
– ipmitool sunoem cli "set /SP/diag/snapshot dump_uri=sftp://
root:welcome1@$HOST/tmp" -H $ILOM -U root -P welcome1
– ipmitool sunoem cli "show /SP/diag/snapshot" -H $ILOM -U root -P
ILOM 스냅샷
 스냅샷 명령을 수행했으면 아래와 같이 진행되는 것을 확인가능
set /SP/diag/snapshot dataset=normal
set /SP/diag/snapshot dump_uri=sftp://root:welcome1@
cd /SP/diag/snapshot
dataset = normal
dump_uri = (Cannot show property)
encrypt_output = false
** result = Running **
 지정한 위치에 파일이 있음을 확인가능
– cel07-c_10.245.20.169_2013-09-20T16-51-21.zip
ILOM 스냅샷
 ILOM snapshots 은 콘솔 히스토리,이벤트 리스트, 하드웨어
Fault 등을 포함
 ILOM 스냅샷은 또한 하드웨어 Fault 와 노드 리부팅을
발생시킨 원인의 분석정보로서 중요한 데이터이다.
DB노드 성능
 OSWatcher 체크
– 메모리 사용은 어떠한가?
– CPU 사용은 어떠한가?
– IO 는 어떠한가?
 ExaWatcher/OSWatcher & 성능보고서를 통해 성능
저하를 가져오는 범위를 좁힐수 있다.
RAC 인스턴스 또는 노드 축출
 $GI_HOME/bin/diagcollect.pl
– 로그와 코어파일 수집
 --crs 옵션,압축화일의 크기를 줄일수 있음 (default –all)
 --aftertime –beforetime 옵션으로 압축화일의 크기를 줄일수 있음
 OCR & vote disks 접근가능여부
– ocrcheck
– crsctl query css votedisk
RAC 인스턴스 또는 노드 축출
 Exa/OSWatcher 수집은 축출의 경우에 아주 중요한
분석자료로 이용될수 있다.
 전체 디스크의 사용률 모니터링
 다음과 같은 Exadata Diagnostic collection 툴들도 로그와 트레이스
파일 수집에 도움이 될수 있다.
– Diagnostic Assistant (201804.1)
– Trace File Analyzer (1513912.1)
DB 노드 Hung
 노드 리부팅전에 ILOM 스냅샵 수집을 강력히 권고함
– 리부팅은 ILOM 콘솔 히스토리를 overwrite 할수도 있다.
 MOS 1352805.1 을 참고하여 hung된 노드를 리부팅하거나 SysRq
Attempting to gracefully reboot hung Exadata cell or database node (문서 ID
DB Hang 또는 성능이슈
 항상 Alertlog화일을 확인해보고 ORA-600/7445 에러가 있는지
살펴보고 I/O 에러 또는 기타 이슈원인에 대해 검토해 본다.
DB Hang 또는 성능이슈
 Hung 또는 성능이슈 관련 성능리포트를 수집할 필요가 있다.
– EXA/OSWatcher
DB Hang 또는 성능이슈
 DB가 Hung 이라면?
SQL> oradebug –g all hanganalyze 1
SQL> oradebug –g all systemstate 258
 Hang 분석,성능과 로그수집을 위해 RDA를 사용할 수도
 DB 성능이 저하된다면 ASM Disk 쪽을 살펴볼 필요도 있다.
ASM 디스크
 v$asm_disk 조회시 offline disk 가 있는지
 v$asm_operation 조회시 리밸런싱 작업이 있는지
 셀이 offline 상태라면 v$asm_operation 조회시 resync 가
일어나고 있는지 (list griddisk checks asm)
 디스크 들이 보이는지 확인 (kernel files OSM disk)
– kfod asm_diskstring='o/*/*' disks=all op=disk
ASM 디스크
 /etc/oracle/cell/network-config/cellip.ora
– 셀에서 디스크는 보이는데 ASM에서 소실
cellip.ora 편집 (with caution)
엑사데이타에서 성능 메트릭
 메트릭은 다음의 객체들과 연관이 있다. (cell, cell disk, etc.).
 모든 이용가능한 메트릭은 METRICDEFINITION에 사전정의.
METRICDEFINITION objects describe the metrics.
 METRICCURRENT 는 현재 값의 Set 이다.
 METRICHISTORY 는 과거 메트릭값의 모음이다.
 THRESHOLD 는 특정한 메트릭에 기초한 alert을 발생시키는 rule 이다.
성능 메트릭
메트릭의 분류:
- Cell metrics – CPU 사용률, 네트워크 같은 Cell에 대한 정보
- Cell disk metrics – 셀디스크로 부터 읽은 large block 정보와 같은 셀디스크에
대한 정보
- Grid disk metrics - 그리드디스크로 부터 읽은 large block 정보와 같은 그리드
디스크에 대한 정보
Host interconnection metrics – 셀에 엑세스 하는 호스트에 대한 I/O 전송정보
IORM metrics – Category, Database and Consumer Group metrics. IORM에 대한
셀 디스크 메트릭 예)
Number of requests
IO req
to Read Small Blocks
Number of requests
IO req
to Write Small Blocks
Number of [Mega]bytes
written in Large Blocks
IO latency for Read
us/req small Blocks
IORM: DB 레벨 메트릭 예)
Number of requests
IO req
for Small Blocks
Number of requests
IO req
for Large Blocks
IORM wait time for
read/write Small Blocks
IORM wait time for
read/write Small Blocks
셀 메트릭 데이터
 셀 메트릭 정보 수집 명령어
– cellcli -e list flashcachecontent attributes all|sed -e 's/^[ \t]*//' -e 's/\t/,/g'
-e 's/ //g' -e 's/$/,$(date '+%Y%m%d%H%M')/' -e 's/^/${celliphost},/'”
– list metriccurrent CD_IO_TM_W_SM_RQ where metricObjectName
like 'FD.*'
– dcli 로 여러셀 수행가능
셀 트러블슈팅
 Imageinfo
– 어떤 버전으로 운영되고 있는 확인가능
 List alerthistory
– 셀 에러 또는 에러 이력
– alert history에 없는 추가적인 에러
– alert.log
– ms-odl.trc
셀 로그
 $CELLTRACE/alert.log file 에서 ora-600/7445 or
크리티컬 로그 확인
 cellcli list alerthistory
– $CELLTRACE/alert.log 에서도 내역확인 가능
셀 로그
 LIST ALERTHISTORY WHERE begintime > ’Sep 1,
2013 11:37:00 AM PDT‘
– 39 2013-09-09T12:26:53-07:00 "ORA-07445: exception encountered:
core dump “
– adrci 는 셀로그로도 작동
– adrci 의 위치는 $OSS_BIN/bin
Cellcli 로그
 Incident package information 은 아래와 같이 확인가능
– celldiag.pl -adr /tmp/adrci -aftertime 201105300000 -beforetime
201106200000 -level all
셀 로그
 /var/log/oracle/deploy/cellcli.lst.0
– Lists 명령어는 셀환경의 변경 또는 수정 확인 가능.
– 최근 셀에 변경이 있었다면 유용할수 있음
 모든 Cell 에서 크리티컬 로그 수집을 위해 sundiag 수행
– 배터리, RAID 카드, 하드디스크, 플래쉬디스크 또는 I/O 이슈
– cell cli 명령이ㅣ 여전히 health dis로 나타난다면 추가적인 정보수집 가능
Cellcli 명령어
 list griddisk attributes name,status
 list celldisk attributes name, status
– Proactive failure
– Not present
– Confine inactive
 list physicaldisk
– warning – poor performance
Cell 진단
 /opt/oracle.cellos/iso/lastGoodConfig/cell/cellsrv/deploy/
– 셀업그레이드 후 또는 네트워크 변경, 셀 서비스가 기동되지 않을때
해당 파일에서 정확한 IP 정보가 들어가 있는지 체크할것.
– 네트워크 변경작업은 ‘ipconf’ 를 이용하여야 하며, 그렇지 않은 경우
네트워크 변경내역이 업그레이드 작업시에 반영되지 않을 수 있다.
 /opt/oracle.cellos/cell.conf
– 셀 업그레이드 후에 셀 IP 정보가 저장되는 파일
Cell 진단
 lsof 를 이용하는 것도 trobleshooting에 도움이 될수 있다.
– lsof –a +L1 /u01 or lsof +L1
 unlinked open files의 사이즈 문제해결해 도움.
ex) df 100% but du –sk does not match
– lsof –i :161, lsof –i tcp/udp, netstat –an, -a or -lnp
 누가 어떤 Network port 를 사용하고 있는지 확인가능
셀 부팅 이슈
 셀 부팅시 grub 화면이 나타나지 않고 커서만 반짝일 경우
USB의 손상등 일수 있다.
 엑사데이타의 부팅은 기본으로 USB 이다.
 디스크로 부터 부팅을 시도해 볼수 있다.
– ipmitool chassis bootdev disk
– ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli
”set /HOST boot_device=disk”
네트워크 변경
 잘못된 서브넷마스크는 통신장애를 유발할수 있다.
 IP tables 변경은 issue 을 일으킬수 있다.
 GI/DB/Cell 은 RDS 을 이용하지만 여전히 TCP 통신을 수행
인피니밴드 스위치
 소프트웨어 & 펌웨어 버전
– “Version” on ibswitch shows current rev
 rpm –qa|grep ofa 현재 ofa stack
인피니밴드 스위치 Troubleshooting
 물리 & 링크 레이어 health check
– Listlinkup
– Ibdiagnet
– Ibnetdiscover
– Iblinkinfo.pl
 서브넷 매니저 상태
– Sminfo
– Ibdiagnet –r (look for SM section)
인피니밴드 스위치 Troubleshooting
 토폴로지 확인
– Verifytopology, infinicheck
– 스위치간 링크
– Fat Tree connection compliance
 Layer 3 연결 검증
– IP over IB
– Subnet Masks
– Multicast (saquery)
네트워크 모니터링 툴
 ibdiagnet
– Options: -ls, -lw, -r, -pc, -p
 iblinkinfo.pl
– Options: -S, -P
 perfquery
– Options: -r, -R, -x
 Some options apply to switches only
네트워크 모니터링 툴
 smpquery
– Options: nodeinfo <lid>, NodeDesc <lid>, NodeInfo <lid>
 ibswitches
– 현재 연결된 IB 스위치 보기
 ibhosts
– IB환경에 연결된 모든 호스트 보기
Ping 이 안될시
 subnets 확인 (ifconfig)
– IP 주소가 셋업이 잘 되어있는지
 local port 확인 (ibstat)
 routing table 확인 (netstat)
 link health 확인(ibdiagnet)
 OpenSM 상태확인
 Remote 에서 확인 반복수행
NM2 스위치가 네트웍이 안될시
 NM2 management 에서 호스트로 ping 여부
 Host 로 ssh 가 되는지
 USB 시리얼 콘솔에서
 외부포트 링크가 UP 인가?
 내부포트 링크가 UP 인가?
– Ethtool eth0
 이전 부팅환경의 정보를 가지고 있는지
IB 환경 검증
 적어도 1개의 마스터 또는 활성화된 서브넷 매니저가
 IB 호스트에 구동되어야 하는 서버넷 매니저의 유무
 링크 health state (ibdiagnet, ibstat)
 IP 주소와 서브넷 마스크
IB 환경 검증
 정확한 토폴로지와 케이블링
 중요 서비스가 구동중인지
 정확한 펌웨어 버전
다른 검증요소
 ping 작동여부
 ARP 작동여부working
 default gateway 와 통신여부reachable
 링크의 UP 여부
 IP 주소가 올바르게 할당 되었는지
 서버가 listening 상태인지
 패킷이 얼마나 멀리가고 그후에 소멸되는지
 현재 패치버전을 정확히 확인한다.
 Exachk 을 자주 수행하는 것은 환경을 유효화하고 이전수행
환경과 비교하는것도 도움이 될수 있다.
 sundiag, TFA, DA or diagget 등과 같은 툴들은 복잡한 환경하
에서 접속수집을 원할히 할수 있게 해준다.
 하드웨어 장애시 메시지가 전송되도록 셀 alerting 이
제대로 구성되었는지 확인
 간단히 확인가능한 요소부터 제거하여 장애유발 원인
파악을 위한 범위축소
 로그확인 재확인
 여러 개의 노드에 걸쳐 로그를 수집하는데 도움이 된다.
– TFA (Trace File Analyzer)
/u01/app/ ./tfactl diagcollect
– DA
