wiki:WikiStart

Version 33 (modified by rick, 12 years ago) ( diff )

--

BEHEER

Results (1 - 10 of 116)

1 2 3 4 5 6 7 8 9 10 11
Ticket Summary Owner Reporter
#1083 Watertoren1 Nieuwe nanostation M5 niet goed aangesloten huub
#1079 StJan: repeater Veldhoeve geen ping huub
#1077 Wulp en Tulpenzee geen internet huub
#1075 Langevoort geen (stabiele) internetverbinding huub
#1074 Leythenrode switch vervangen huub
#1061 WiFI Rijneke Boulevard - werkt niet rick rick
#1060 UniGor webcam down? huub
#1056 StVictor storing internetverbinding huub
#1055 Rekpark303 repeater niet bereikbaar huub
#1054 NieuweEnergie down huub
1 2 3 4 5 6 7 8 9 10 11

Eerstelijnsbeheer

Organisatie

Eerstelijnsbeheer wordt gedaan door een aantal nog-niet-zo-ervaren vrijwilligers. Deze vrijwilligers kijken ieder een (vaste) dag in de week naar Nagios en voeren kleine reparaties uit op de nodes, zoals het starten van de node-webserver als die er mee gestopt is. Ze besteden hieraan ongeveer 20 minuten per week (meer mag natuurlijk ook).

De voordelen van deze opzet zijn:

  • vrijwilligers die nog niet zo ervaren / niet zo deskundig zijn kunnen toch een heel nuttige bijdrage leveren
  • vrijwilligers kunnen wat leren m.b.t. freebsd en ook over hoe het netwerk in elkaar zit en ze kunnen mogelijk doorgroeien
  • er wordt regelmatig naar Nagios gekeken, zodat storingen die eenvoudig zijn op te lossen ook relatief *snel* worden opgelost en in ieder geval snel gesignaleerd
  • de 2e-lijnsbeheerders krijgen meer tijd voor de lastiger problemen.

Informatiebronnen

De configuratie van de nodes is te vinden in de 'genesis' database.

De node-specifieke configuratiebestanden, gegenereerd uit genesis, staan hier.

Monitoring met behulp van Nagios, Smokeping en Cacti is toegankelijk via de sunfire servicespagina.

Werkwijze

  1. Maak via ssh vanaf internet een verbinding met wleiden.net via een van de proxies. Bijvoorbeeld (in terminal) via proxy1:

ssh -A root@83.162.36.91

Je ssh-key moet bekend zijn op deze proxy. Een tweedelijnsbeheerder kan hierbij helpen.

  1. Check 'services' in Nagios

Check als eerste of er rode vakjes zijn in de lijst van nodes, prioriteit hebben 'hosts down'.

Node down

Let op: 'down' betekent: niet bereikbaar voor de nagios server (sunny, verbonden met node UniGorN). Het kan dus ook een routeringsprobleem zijn, of de bereikbaarheid van de node/proxy is afhankelijk van een andere node die down is. Bij een proxy die 'down' is: check eerst of de bijbehorende node ook down is en los dat eerst op. Sommige nodes (WP, Cam, Drijfhuis, Recpark, Spoortje,...) hebben maar een interlink en zijn dus afhankelijk van de betreffende buurnode. Ook foutmeldingen over services kunnen veroorzaakt worden door een (tijdelijke) storing in de routering, waardoor een nagios check eventjes niet werkt.

Zoek in genesis op welke buren deze node heeft en log in bij een van deze buurnodes. Check of je de node kunt pingen op het interlink-ip-adres (zie genesis). Lukt dit niet, probeer dan een van de ander buurnodes. Als geen van de interlinks werkt, check dan of je de nano's wel kunt pingen.

nanostations pingen

Interlinks hebben een /29 subnet voor de node-interfaces en voor de nanostations. De conventie is dat de ip-adressen zijn toegekend in de volgorde: node-interface - nanostation in ap-modus - nanostation in station modus - node-interface. Als alle nano's down zijn wijst dit op een stroomstoring: maak een ticket aan, dat wordt fietsen!

Bij een werkende interlink: inloggen op de node met ssh. Als inloggen met ssh niet lukt biedt alleen een harde reboot uitkomst, fietsen dus. Maak een ticket aan.

Na inloggen check dmesg voor 'vreemde boodschappen'. Paardenmiddel is een soft reboot. Als het probleem de routering is dan kan eleganter en met minder verstoring van het netwerk geprobeerd worden:

  • lvrouted interface info opnieuw laten lezen kill -HUP <lvrouted pid>; lvrouted pid vind je via ps -ax|grep lvrouted
  • lvrouted opnieuw starten: /usr/local/etc/rc.d/lvrouted restart

Uitloggen en vanaf de buurnode kijken of het pingen van de nodenaam werkt.

Bekende oorzaken van routeringsproblemen zijn het vollopen van /var (dat geeft een foutmelding bij de 'services' in Nagios) of een verkeerde tijd op de node (geeft ook een foutmelding in Nagios). Vollopen van /var wordt verholpen door een reboot. Maak wel een ticket aan (waarschijnlijk is de /etc/newsyslog.conf file niet de laatste versie). Verkeerde tijd komt op een aantal nodes voor na een stroomstoring (op sommige alix-bordjes zit geen bios-batterijtje).

HTTP Connection refused

Waarschijnlijke oorzaak: thttpd is gestopt. Inloggen op de betreffende node. Een van de recente boodschappen van 'dmesg' zal bijvoorbeeld zijn: pid 1675 (thttpd), uid 0: exited on signal 6. Start thttpd op: /usr/local/etc/rc.d/thttpd start.

NTP CRITICAL: Offset unknown

Waarschijnlijke oorzaak: ntpd is gestopt of niet gestart. Inloggen op de betreffende node. Controleer of nptd draait: ps ax | grep ntpd. Start ntpd door middel van: /etc/rc.d/ntpd start

Rapporteren storingen

Vul een ticket in om een incident/storing te melden (hiervoor moet u wel ingelogd zijn met uw WL-vrijwilligersgegevens)

Kijk in rapport 1 voor alle openstaande gerapporteerde storingen.

Tools

Om een check te draaien op het voorkomen van dubbele ip-adressen, zie tools in genesis:

.../genesis/nodes$ ../tools/batch-cmd  
grep 'inet ' *  | awk '{print $3}' | sort | uniq -c | sort -n

Voor trac hulp

For a complete list of local wiki pages, see TitleIndex.

Attachments (1)

Download all attachments as: .zip

Note: See TracWiki for help on using the wiki.