Exadata. Разблокировка IB порта AutomaticHighErrorRate
На коммутаторе exasw-ibb01 порт 8 (14B) заблокирован вследствие накопленных ошибок. Давайте сбросим счетчик ошибок, разблокируем порт и помониторим сервер пару недель на предмет появления ошибок вновь.
ibqueryerrors.out:
Errors for "exa2dbadm01 S 192.168.11.110,192.168.11.111 HCA-1"
GUID 0x10e0000192ab51 port 1: [VL15Dropped == 232] [PortXmitWait == 4294967295]
@conf@disabledports.conf:
Switch 8 AutomaticHighErrorRate
@usr@local@diag@listlinkup.out:
Connector 14B Present <-> Switch Port 08 is down (AutomaticHighErrorRate)
Для того чтобы снова включить его проделайте следующее:
Команды выполняются на свитче exasw-ibb01 под пользователем root:
1. Удалите порт из листа автоблокировки:
# autodisable del 14B H
# autodisable del 14B L
2. Проверьте что порт 14B удален:
# autodisable list
3. Очистка ошибок в фабрике
# ibdiagnet -pc
4. Добавление порта в список автоблокировки
# autodisable add 14B H
# autodisable add 14B L
5. Проверьте что порт 14B добавлен:
# autodisable list
6. Включение порта обратно
# enableswitchport --automatic 14B
7. Проверка статуса порта (AdminState и LinkState должны быть "Active", а PhysLinkState должен быть "LinkUp".)
# getportstatus 14B
Команды выполняются на сервере exadbadm01:
8. Зайдите на сервер exadbadm01 и проверьте стутус обоих портов (оба должны быть "Active" и "LinkUp").
# ibstat
- Related Links:
Compute Node/Storage Nodes IB Ports State Shown as “Down” Along with Infiniband Switch Ports Status Showing “Switch Port <X> down (AutomaticHighErrorRate)” Message (Doc ID 2399231.1)
Data Collection For Troubleshooting Symbol Errors, Cabling, Switch Port Issues On Infiniband Switches (Doc ID 2413588.1)