Opened 7 years ago

Closed 7 years ago

#351 closed incident (fixed)

Hosts down

Reported by: marc Owned by:
Keywords: Cc:
Location: Generiek

Description

Bij mijn (eerste) poging om het netwerk te checken met Nagios kwam ik zoveel down hosts tegen dat ik er tegenop zie om voor elk een ticket te maken. Maar ik zie ook geen eerder aangemaakte tickets hiervoor?
Dit is het lijstje:

HybridAJSoft1 
HybridAJSoft1-vr1 
HybridAJSoft1-vr2 
HybridAJSoft2 
HybridAJSoft2-vr2 
HybridHeineken? 
HybridHeineken?-vr0 
HybridHofwijck?-vr2 
HybridKaag2 
HybridKaag2-ue0 
HybridKaag2-vr0 
HybridKaag2-vr1 
HybridKaag2-vr2 
HybridKempers? 
HybridKempers?-vr0 
HybridKempers?-vr1 
HybridKudelstaart? 
HybridKudelstaart?-vr1 
HybridLangevoort? 
HybridLijtweg1-vr1 
HybridRecpark? 
HybridRecPark?-vr1 
HybridRoomburgh2-ue0 
HybridRustdam?-vr1 
HybridRustenborch? 
HybridRustenborch?-vr2 
HybridStenhuis1 
HybridStenhuis1-vr0 
HybridStenhuis1-vr2 
HybridStenhuis2 
HybridStenhuis2-vr1 
HybridUniGorN-vr1 
HybridWatertoren1 
HybridWatertoren1-vr1 
HybridWatertoren1-vr2 
HybridWatertoren2 
HybridWatertoren2-ue0 
HybridWatertoren2-vr1 
HybridWatertoren2-vr2 
HybridWatertoren3 
HybridWatertoren3-vr1 
HybridWatertoren3-vr2 
HybridWebster? 
HybridWP 
HybridWP-sis1 
HybridZijloever?-vr1 
HybridZTWGemeentehuis-vr2 
HybridZTWRijneke 

Change History (2)

comment:1 Changed 7 years ago by huub

Ik zal dit lijstje van commentaar voorzien, dat is wel instructief denk ik ;-)
Er zijn nodes en nanostations (herkenbaar aan de toevoeging -vr of -ue).

AJSoft1 en 2: zie ticket #345

Heineken is niet down: de nagios check geeft af en toe een timeout. Er is een groen 'knipperend' veld bij de node te zien. Dit soort nodes zijn gewoon up, maar nagios slaat vals alarm. Als je toegang hebt tot wleiden.net (rechtstreeks of via een achterdeurtje) kun je checken door te pingen:

HybridHuub?# ping heineken

PING hybridheineken.wleiden.net (172.17.78.1): 56 data bytes
64 bytes from 172.17.78.1: icmp_seq=0 ttl=56 time=21.082 ms
etc.

Kaag2 heeft een probleem, zie ticket #344

Omdat Kaag2 down is, kan nagios de daarachter-liggende nodes niet bereiken en rapporteert deze als 'down'. Dat zijn dus alle nodes en nanostations aan de Westeinder: Watertoren1,-2,-3, Kudelstaart, Kempers, Recpark, Drijfhuis, Stenhuis1,-2.

Hofwijck-vr2: 'flappert' dus waarschijnlijk vals alarm. nanostation is inderdaag 'up':

HybridHuub?# ping 172.16.3.107

PING 172.16.3.107 (172.16.3.107): 56 data bytes
64 bytes from 172.16.3.107: icmp_seq=0 ttl=58 time=10.204 ms

Lijtweg1-vr1: dit is inderdaad een nanostation dat 'geen gehoor' geeft. Ik heb op de node gekeken: probleem was dat er een verkeerd ip-adres op de node-interface stond (i.v.m. genesis yaml-bestand)! Je hebt dus een echt probleem gevonden ;-) Hierdoor werkte ook de link Lijtweg1-Kaag1 niet meer.

Roomburgh2-ue0 : ook dit is een 'echt probleem', bij inloggen zie ik:

HybridRoomburgh2# ping 172.16.4.234

PING 172.16.4.234 (172.16.4.234): 56 data bytes
ping: sendto: No buffer space available

Rustdam-vr1 staat inmiddels als 'up' in nagios, flappert wel (dus was vals alarm)

Rustenborch is down? Probleem is link naar UniGorN, die interface (vr1, staat ook in deze lijst als storing) wordt bij UniGorN ook gebruikt voor de link naar LIACS/Sunny (de reguliere nagios server). Die is uitgezet om sunny automatisch te laten rebooten. Dat heeft niet geholpen. Ik heb de interface bij UniGorN nu weer aangezet.
Rustenborch-vr1 zie ticket #244

Webster: is up, 'flappert'

WP: dit is een 'moeilijk geval', namelijk nog een oude Soekris-node. Die wil nog weleens onbereikbaar zijn. Node staat op de lijst om vervangen te worden.

Zijloever-vr1: dit is de andere kant van Roomburgh-ue0 (zie boven); deze link doet het weer.

ZTWGemeentehuis-vr2 is up (dus vals alarm):

HybridZTWGemeentehuis# ping 172.17.59.2

PING 172.17.59.2 (172.17.59.2): 56 data bytes
64 bytes from 172.17.59.2: icmp_seq=0 ttl=64 time=1.427 ms

ZTWRijneke idem:

HybridHuub?# ping ztwrijneke

PING hybridztwrijneke.wleiden.net (172.17.58.1): 56 data bytes
64 bytes from 172.17.58.1: icmp_seq=0 ttl=57 time=16.041 ms

comment:2 Changed 7 years ago by huub

Resolution: fixed
Status: newclosed

opgelost of afzonderlijke tickets gemaakt

Note: See TracTickets for help on using tickets.