wiki:WikiStart

BEHEER


Note: Per 1 januari 2016 maken we gebruik van: Request Tracker voor het registreren van storingen. De oude tickets die zijn gemaakt in Trac zijn nog te vinden op https://www.wirelessleiden.nl/projects/beheer/wiki/WikiStart#OpenstaandeTicketsinTrac.[[BR]]


Verandering SSID

We gaan de ssids voor de gebruikerstoegang veranderen, zie SSIDChange.

Eerstelijnsbeheer

Organisatie

Eerstelijnsbeheer wordt gedaan door een aantal nog-niet-zo-ervaren vrijwilligers. Deze vrijwilligers kijken ieder een (vaste) dag in de week naar Nagios en voeren kleine reparaties uit op de nodes, zoals het starten van de node-webserver als die er mee gestopt is. Ze besteden hieraan ongeveer 20 minuten per week (meer mag natuurlijk ook).

De voordelen van deze opzet zijn:

  • vrijwilligers die nog niet zo ervaren / niet zo deskundig zijn kunnen toch een heel nuttige bijdrage leveren
  • vrijwilligers kunnen wat leren m.b.t. freebsd en ook over hoe het netwerk in elkaar zit en ze kunnen mogelijk doorgroeien
  • er wordt regelmatig naar Nagios gekeken, zodat storingen die eenvoudig zijn op te lossen ook relatief *snel* worden opgelost en in ieder geval snel gesignaleerd
  • de 2e-lijnsbeheerders krijgen meer tijd voor de lastiger problemen.

Informatiebronnen en Monitoring

Node configuratie files welke worden gebruikt door Genesis zijn in Subversion te vinden.

De node-specifieke configuratiebestanden, gegenereerd uit Genesis.

Monitoring met behulp van Nagios is toegankelijk via

Experimenteel: Smokeping latencies bij NodeRick.

Werkwijze

  1. Maak via ssh vanaf internet een verbinding met wleiden.net via een van de proxies. Bijvoorbeeld (in terminal) via proxy1:

ssh -A root@213.124.17.164

Je ssh-key moet bekend zijn op deze proxy. Een tweedelijnsbeheerder kan hierbij helpen.

  1. Check 'services' in Nagios

Check als eerste of er rode vakjes zijn in de lijst van nodes, prioriteit hebben 'hosts down'. Kijk ook hoe vaak deze service gecheckt is, een foutmelding kan veroorzaakt zijn door het tijdelijk niet bereikbaar zijn van de node.

Node down

Let op: 'down' betekent: niet bereikbaar voor de nagios server (sunny, verbonden met node UniGorN). Het kan dus ook een routeringsprobleem zijn, of de bereikbaarheid van de node/proxy is afhankelijk van een andere node die down is. Bij een proxy die 'down' is: check eerst of de bijbehorende node ook down is en los dat eerst op. Sommige nodes (WP, Cam, Drijfhuis, Recpark, Spoortje,...) hebben maar een interlink en zijn dus afhankelijk van de betreffende buurnode. Ook foutmeldingen over services kunnen veroorzaakt worden door een (tijdelijke) storing in de routering, waardoor een nagios check eventjes niet werkt.

Zoek in genesis op welke buren deze node heeft en log in bij een van deze buurnodes. Check of je de node kunt pingen op het interlink-ip-adres (zie genesis). Lukt dit niet, probeer dan een van de ander buurnodes. Als geen van de interlinks werkt, check dan of je de nano's wel kunt pingen.

nanostations pingen

Interlinks hebben een /29 subnet voor de node-interfaces en voor de nanostations. De conventie is dat de ip-adressen zijn toegekend in de volgorde: node-interface - nanostation in ap-modus - nanostation in station modus - node-interface. Als alle nano's down zijn wijst dit op een stroomstoring: maak een ticket aan, dat wordt fietsen!

Bij een werkende interlink: inloggen op de node met ssh. Als inloggen met ssh niet lukt dan ligt dat aan het ontbreken van je ssh-key op de node. Als sshd gestopt zou zijn gaat de node automatisch rebooten (watchdog op de node). Maak eventueel een ticket aan.

Na inloggen check dmesg voor 'vreemde boodschappen'. Paardenmiddel is een soft reboot. Als het probleem de routering is dan kan eleganter en met minder verstoring van het netwerk geprobeerd worden:

  • lvrouted interface info opnieuw laten lezen kill -HUP <lvrouted pid>; lvrouted pid vind je via ps -ax|grep lvrouted
  • lvrouted opnieuw starten: /usr/local/etc/rc.d/lvrouted restart

Uitloggen en vanaf de buurnode kijken of het pingen van de nodenaam werkt.

Bekende oorzaken van routeringsproblemen zijn het vollopen van /var (dat geeft een foutmelding bij de 'services' in Nagios) of een verkeerde tijd op de node (geeft ook een foutmelding in Nagios). Vollopen van /var wordt verholpen door een reboot. Maak wel een ticket aan (waarschijnlijk is de /etc/newsyslog.conf file niet de laatste versie). Verkeerde tijd komt op een aantal nodes voor na een stroomstoring (op sommige alix-bordjes zit geen bios-batterijtje).

HTTP Connection refused

Waarschijnlijke oorzaak: thttpd is gestopt. Inloggen op de betreffende node. Een van de recente boodschappen van 'dmesg' zal bijvoorbeeld zijn: pid 1675 (thttpd), uid 0: exited on signal 6. Start thttpd op: service thttpd start.

Note: op de 11.2 nodes wordt een gestopte service automatisch herstart door monit.

NTP CRITICAL: Offset unknown

Waarschijnlijke oorzaak: ntpd is gestopt of niet gestart. Inloggen op de betreffende node. Controleer of nptd draait: ps ax | grep ntpd. Start ntpd door middel van: service ntpd start

wlan0 no carrier Inloggen op node en (bij link via wlan interfaces aan beiden kanten, eerst AP en dan STA):

$ ifconfig wlan0 destroy
$ /etc/rc.d/netif restart ath0

en waarschijnlijk lvrouted opnieuw starten nodig.

Note: op de 11.2 nodes wordt een gestopte service automatisch herstart door monit.

Rapporteren storingen

We gebruiken Request Tracker. Maak een ticket aan om een incident/storing te melden (hiervoor moet u wel [Aanmelden met uw WL-vrijwilligersgegevens])
Voor het gebruik van Request Tracker is een handleiding geschreven.

Vemeld hierbij de volledige nodenaam (Cetim1, Huub etc....) en de volledige "Host State Information". Bijvoorbeeld:

Host Status: 	
  DOWN  
 (for 3d 3h 28m 15s)
Status Information: 	PING CRITICAL - Packet loss = 100%
Performance Data: 	rta=5000.000000ms;3000.000000;5000.000000;0.000000 pl=100%;80;100;0
Current Attempt: 	1/10  (HARD state)
Last Check Time: 	01-24-2015 14:44:50
Check Type: 	ACTIVE
Check Latency / Duration: 	0.135 / 15.085 seconds
Next Scheduled Active Check:   	01-24-2015 22:45:10
Last State Change: 	01-21-2015 14:43:10
Last Notification: 	N/A (notification 0)
Is This Host Flapping? 	
  NO  
 (3.88% state change)
In Scheduled Downtime? 	
  NO  
Last Update: 	01-24-2015 18:11:20  ( 0d 0h 0m 5s ago)

Het laatste veld "Last Update" is namelijk het enige veld waaruit je achteraf kunt bepalen wanneer een storing gestart is. Dit kan erg nuttige informatie zijn op het moment dat contact moet worden opgenomen met een gebouwbeheerder.

Kijk in rapport 1 voor alle openstaande gerapporteerde storingen.

Hulpmiddelen

Check op dubbele ips

Om een check te draaien op het voorkomen van dubbele ip-adressen, zie tools in genesis:

.../genesis/nodes$ ../tools/batch-cmd  
grep 'inet ' *  | awk '{print $3}' | sort | uniq -c | sort -n

Controle werking proxy-server

Je kunt controleren of de pen_wrapper op de node (die de snelste proxy selecteert) naar behoren werkt.

env HTTP_PROXY=http://proxy.wleiden.net:3128 fetch -o - http://tinyproxy.stats

Het leuke van de file is dat je ook kunt zien op de proxy welke nodes op dat moment de desbetreffende proxy als primair hebben staan.

Workaround Ziggo modem MAC cache

Issue waarbij verkeer tussen de node met static IP adress en Ziggo modem met firmware 9.9.6004 lijkt te stoppen na een variabele tijd. Die MAC cache van die Ubee modem op firmware 9.9.6004 is echt niet lekker meer. Na 30 seconden lijkt het een MAC te vergeten en dan gaat de modem niet zelf actief pollen om het MAC opnieuw te achterhalen. Door de MAC cache erg kort te zetten op de node, zal er regelmatig een ARP request/reply komen en is de modem weer gelukkig.

Voor statische IP addressen: sysctl net.link.ether.inet.max_age=30

Regel net.link.ether.inet.max_age=30 in /conf/base/etc/sysctl.conf toevoegen om het permanent te maken.

Power cycle van interface via RB PoE-switch

Procedure:

Use with care! disabling the wrong one will lock you out without possibility to recover except for replacing the device.

Bouw tunnel op naar de node:
client$ ssh -L 1234:192.168.88.1:80 <node>

Stop diensten en bereid interfaces voor:

  • node# service pf stop
  • node# ifconfig re0 alias 192.168.88.10/24

Verander de link:

Zet de boel weer terug zoals het was:
node# ifconfig re0 -alias 192.168.88.10 node# service pf start

DNS voor wleiden.net

Lokale wleiden.net-zonefiles worden automatisch gegenereerd uit genesis met /usr/local/tools/named_update.sh script op de dns-server (Sunny). Checken op foutjes in de config file dmv

root@sunny:~ # env FORCE=1 sh -x /usr/local/tools/named_update.sh

Nanostation firmware opnieuw flashen

Als een nanostation 'dood' is kan opnieuw flashen van de firmware helpen.

Zoals op TFTP-firmware-recovery staat: Generic Linux distributions have an integrated command line TFTP client. From a PC running Linux, you can upload via TFTP by typing into Terminal the following commands:

root@ubuntu:tftp 192.168.1.20
tftp> bin
tftp> trace
tftp> put XS2.ar2316.v3.4-rc.4351.090504.2146.bin
Sent 1965199 bytes in 35.2 seconds 
tftp> exit

Onderhoud oude en nieuwere nanostations

Inloggen via HTTPS gaat niet meer op de oude NS5 en NS2 devices, omdat de gebruikte SSL protocollen niet langer als veilig worden beschouwd en uitgezet zijn. Je kunt HTTPS uitzetten via SSH om alnog de mogelijkheid te krijgen om via HTTP in te loggen:

   # Lees het configuratie bestand
   $ cfgmtd -r
   # Bekijk de huidige waarde
   $ grep https /tmp/system.cfg
   # Zet HTTPS uit
   $ sed -i 's/httpd.https.status=enabled/httpd.https.status=disabled/g' /tmp/system.cfg
   # Schrijf configuratie bestand
   $ cfgmtd -w
   # Reboot om veranderingen actief te zetten
   $ reboot

Als je een NS5 met een NS5M probeert te verbinden zorg er dan voor dat de NSM5 de kanalen gebruikt die door de NS5 ondersteund worden. Dit is niet voor alle kanalen het geval! De NS5 heeft ondersteuning (in 20MHz) voor kanalen:

    36 40 44 48 52 56 60 64 100 104 106 108 112 114 116 120 122 124 128 130 132 136 140

    36 - 5180 MHz    40 - 5200 MHz    44 - 5220 MHz    48 - 5240 MHz    52 - 5260 MHz
    56 - 5280 MHz    60 - 5300 MHz    64 - 5320 MHz    100 - 5500 MHz    104 - 5520 MHz
    108 - 5540 MHz    112 - 5560 MHz    116 - 5580 MHz    120 - 5600 MHz    124 - 5620 MHz
    128 - 5640 MHz    132 - 5660 MHz    136 - 5680 MHz    140 - 5700 MHz

Als je auto-channel gebruikt, kun je het filter in de lijst van de NS5M gebruiken:
    5180,5200,5220,5240,5260,5280,5300,5320,5500,5520,5540,5560,5580,5600,5620,5640,5660,5680,5700

Als je dit bericht krijgt bij inloggen op oude devices:

   Unable to negotiate with 172.19.8.130 port 22: no matching key exchange method found. Their offer: diffie-hellman-group1-sha1

Dan het volgende gebruiken om in te loggen:

    ssh -oKexAlgorithms=+diffie-hellman-group1-sha1 root@172.19.8.130

Openstaande Tickets in Trac

Er kunnen in Trac geen nieuwe tickets meer worden aangemaakt.
Hiervoor gebruiken we per 1 januari 2016 Request Tracker voor in de plaats.


Voor trac hulp

For a complete list of local wiki pages, see TitleIndex.

Last modified 3 weeks ago Last modified on Nov 28, 2018, 9:01:17 AM

Attachments (1)

Download all attachments as: .zip