Opened 15 years ago

Closed 15 years ago

Last modified 12 years ago

#2 closed defect (fixed)

kern.maxfiles exceeded

Reported by: huub Owned by: somebody
Priority: major Milestone:
Keywords: Cc:
Resource needed to fix:

Description

NodeHuub was vandaag op hol geslagen: geen ssh inlog mogelijk en op
serieele monitor een lawine van boodschappen (ongeveer 1 per sec.):
"kern.maxfiles limit exceeded by uid 0, please see tuning(7)"
ook een enkele boodschap er tussen met uid 53.

uid 0 is root (no surprise here)
uid 53 is bind

Ik lees dat je die parameter kunt ophogen in sysctl.conf
Het handboek zegt:

The kern.maxfiles sysctl determines how many open files the system sup-
ports. The default is typically a few thousand but you may need to bump
this up to ten or twenty thousand if you are running databases or large
descriptor-heavy daemons. The read-only kern.openfiles sysctl may be
interrogated to determine the current number of open files on the system.

maar ik lees ook op het web dat er teveel processen open kunnen zijn
("it turned out to be an issue caused by too many processes being called
with the default of 4,000. Bumped it up to 25k and it seemed to take
care of it").

Na reboot heb ik niet meer dan 135 open files:

root@CNodeHuub /etc]# sysctl kern.openfiles
kern.openfiles: 135

Nu had ik dit probleem ook al met de 6.0 versie, dus is hier mogelijk
iets anders aan de hand? Een virus dat op het netwerk rondzwerft?
We hadden ook een probleem bij Unigor en Lijtweg (daar staan nu
schakelklokken), maar het is niet duidelijk of daar dezelfde foutmelding
kwam (als we een loghost hebben zouden we het na kunnen kijken).

Change History (6)

comment:1 by huub, 15 years ago

versie 0.9.2 problemen lijken veroorzaakt te worden door vollopen van /var (too many open files), zie log op loghost:

2009 Mar 8 04:25:00 <kern.err> kernel: pid 1341 (syslogd), uid 0 inumber 858 on /var: filesystem full
2009 Mar 8 04:27:09 <kern.crit> kernel: kern.maxfiles limit exceeded by uid 53, please see tuning(7).
2009 Mar 8 04:27:09 <kern.err> kernel: pid 1341 (syslogd), uid 0 inumber 824 on /var: filesystem full
2009 Mar 8 04:27:09 <daemon.err> named[904]: socket: Too many open files in system
2009 Mar 8 04:27:51 <kern.crit> kernel: kern.maxfiles limit exceeded by uid 53, please see tuning(7).

comment:2 by rick, 15 years ago

Caused by full /var To be fixed by setting rotate on snmpd log or trim it a bit. See ticket:3

comment:3 by tim, 15 years ago

Toen ik vanavond de logs bekeek was de kern.maxfiles limiet weer overschreden. Daar de meldingen over het vollopen van /var wel wegblijven, lijken dit toch twee verschillende problemen.
Het lijkt erop dat named/bind steeds nieuwe sockets probeert te openenen, of ze blijven hangen ?
kan iemand eventueel kijken met sockstat of fstat naar het gebruik van sockets / files door named

Wellicht heeft het toch ook iets te maken met de melding bij het starten van bind?

named[967]: max open files (3520) is smaller than max sockets (4096)

in reply to:  3 comment:4 by huub, 15 years ago

Replying to tim:

Toen ik vanavond de logs bekeek was de kern.maxfiles limiet weer overschreden. Daar de meldingen over het vollopen van /var wel wegblijven, lijken dit toch twee verschillende problemen.
Het lijkt erop dat named/bind steeds nieuwe sockets probeert te openenen, of ze blijven hangen ?
kan iemand eventueel kijken met sockstat of fstat naar het gebruik van sockets / files door named

Op nodehuub versie 0.9.3 met uptime 11 uur:

sockstat geeft:

USER COMMAND PID FD PROTO LOCAL ADDRESS FOREIGN ADDRESS
...
bind named 905 3 dgram -> /var/run/logpriv
bind named 905 20 tcp4 172.16.0.214:53 *:*
bind named 905 21 tcp4 172.17.16.65:53 *:*
bind named 905 22 tcp4 172.16.3.21:53 *:*
bind named 905 23 tcp4 127.0.0.1:53 *:*
bind named 905 24 tcp4 172.31.255.1:53 *:*
bind named 905 25 tcp4 172.16.0.14:53 *:*
bind named 905 26 tcp4 172.17.16.1:53 *:*
bind named 905 27 tcp4 127.0.0.1:953 *:*
bind named 905 28 tcp6 ::1:953 *:*
bind named 905 512udp4 172.16.0.214:53 *:*
bind named 905 513udp4 172.17.16.65:53 *:*
bind named 905 514udp4 172.16.3.21:53 *:*
bind named 905 515udp4 127.0.0.1:53 *:*
bind named 905 516udp4 172.31.255.1:53 *:*
bind named 905 517udp4 172.16.0.14:53 *:*
bind named 905 518udp4 172.17.16.1:53 *:*
....

en fstat:
.....
bind named 905 root /var 785 drwxr-xr-x 512 r
bind named 905 wd /var 788 drwxr-xr-x 512 r
bind named 905 jail /var 785 drwxr-xr-x 512 r
bind named 905 text / 105 -r-xr-xr-x 1816140 r
bind named 905 0 /dev 6 crw-rw-rw- null rw
bind named 905 1 /dev 6 crw-rw-rw- null rw
bind named 905 2 /dev 6 crw-rw-rw- null rw
bind named 905 3* local dgram c1604738 <-> c16049d8
bind named 905 4 /dev 6 crw-rw-rw- null rw
bind named 905 8 /var/named/dev 19 crw-rw-rw- random r
bind named 905 20* internet stream tcp c16d0910
bind named 905 21* internet stream tcp c16d0740
bind named 905 22* internet stream tcp c16d0570
bind named 905 23* internet stream tcp c16d03a0
bind named 905 24* internet stream tcp c16d01d0
bind named 905 25* internet stream tcp c16d0000
bind named 905 26* internet stream tcp c16d0ae0
bind named 905 27* internet stream tcp c16d0cb0
bind named 905 28* internet6 stream tcp c16d1000
bind named 905 512* internet dgram udp c1611168
bind named 905 513* internet dgram udp c16110b4
bind named 905 514* internet dgram udp c1611000
bind named 905 515* internet dgram udp c161121c
bind named 905 516* internet dgram udp c16112d0
bind named 905 517* internet dgram udp c1611384
bind named 905 518* internet dgram udp c1611438
bind named 905 519* internet dgram udp c171fbf4
........

comment:5 by rick, 15 years ago

component: component1general
Milestone: 0.1
Resolution: fixed
Status: newclosed

Fixed in r6976

comment:6 by rick, 12 years ago

Milestone: 0.1

Milestone 0.1 deleted

Note: See TracTickets for help on using tickets.