UCS hängt sich auf

german

#1

moin,

ich habe seit einiger Zeit das Problem, dass sich ein UCS Server bei sehr vielen gleichzeitigen DHCP-Anfragen aufhängt.
Daraufhin habe ich den Kernel auf die aktuellste Version(von 2.6.26-ucs30-amd64 auf 2.6.30-ucs25-amd64) hochgezogen. Jetzt sind die Freezes/Abstürze nachvollziehbar im syslog(war vorher nicht der Fall). Doch fehlt mir hier ein Ansatz das Problem zu beheben. Eventuell irgendwo ein Speicherleck oder defekte Hardware sind meine Ideen hierzu. Speicher lass ich sobald es geht per memtest86+ checken.

Die einzige Änderung am System war der wechsel von Samba auf NFS für Client-Mounts die direkt beim booten ausgefüht werden. Kurze Zeit später fingen die Probleme an… vielleicht ist das ein Hinweis.

Hier der Auszug aus dem Syslog, vorher kamen massig dhcp-Anfragen, danach würde das System per hardreset neugestartet.

syslog im Anhang

noch was vergessen:
Hier wird irgendwo sehr viel Speicher gezogen( Bezug oom-killer). Die Maschine hat 4GB RAM und 2GB Swap. Im Leerlauf werden 1,2 GB vom System verwendet.
Ich kann mir schwerlich vorstellen, dass 25 DHCP und nfs-mount Requests + LDAP-Arbeit mal eben 6GB Ram verschlucken.
Ist aber irgendwie so…ich vergrößer jetzt erstmal den swap-Speicher als workaround.
syslog.txt (47.5 KB)


#2

Hallo,

die einzige Auffälligkeit im Syslog sind die oom-killer Aufrufe von unterschiedlichen Diensten (slapd, runsv, nfsd, smbd …). Es sollte geprüft werden wie viel Speicher die Dienste verbrauchen und welche den größten Teil ausmachen. Außerdem sollten Sie prüfen ob der NSCD stabil läuft und entsprechend Ihrer Umgebung konfiguriert ist, ob die LDAP-Indizes aktuell sind und ob ggf. allgemeine Probleme existieren die z.B. über “dmesG” oder in der kernel.log angezeigt werden.

Mit freundlichen Grüßen
Janis Meybohm


#3

hallo,

zufälligerweise gab es eben wieder einen Absturz, diesmal ohne Auffälligkeiten im syslog oder dmesg/dmesg.0
LDAP und NSCD prüfe ich gleich nocheinmal gesondert. Hier sind schonmal die Logeinträge von heute( grep ‘26.05.10’ var/log/univention/* ). Also irgendwie hat der LDAP-Daemon Probleme und zieht das System dann hinterher.
univention-log.txt (20.2 KB)


#4

Hallo,

da es sich hierbei eher um ein allgemeines Problem handelt sich die Univention Logdateien vermutlich weniger relevant. Woran machen Sie fest dass der LDAP-Server hier die Probleme verursacht? Können Sie uns bitte außerdem mitteilen welche UCS-Version auf dem betroffenen System im Einsatz ist (“ucr search version”)?

Mit freundlichen Grüßen
Janis Meybohm


#5

hi,

es sollte jetzt nicht so wirken, als dass ich den LDAP-Daemon verantwortlich mache. Er ist laut den Logs nicht zu erreichen und kurz danach hängt das System, freie Interpretation eben :wink: Die univention Logdateien habe ich gepostet um etwas vom Status während des Absturzes hier zu hinterlegen, da ich in den “standard” Logs keine relevanten Informationen gefunden habe. Dort hört das Logging einfach zum Absturzzeitpunkt auf.

Dies sind leider die einzigen Hinweise die ich grad habe.
LDAP-Indizes habe ich heute morgen per slapindex aktualisiert. Ging alles ziemlich fix mit einem abschliessenden “check ok”.

Ich stochere hier grad ziemlich im Dunkeln. Falls sie eine Idee haben, wie man dieses allgemeine Problem näher eingrenzen/einkreisen kann, wäre ich echt dankbar.

Die genauen Versionsstände kann ich grad nicht auslesen, da das Gerät ein paar Runden memtest fährt. Morgen früh sollte ich mich wieder raufschalten können und den genauen Stand durchgeben. Bis jetzt kann ich nur sagen, dass das System als 2.2 installiert wurde und per Update auf 2.3 hochgezogen. Aktuellen Securitypatchstand leg ich dann morgen früh nach.


#6

moin,

das System hat mitlerweile neun Stunden memtest und neun Stunden stress mit folgenden Parametern überlebt:

stress -c 4 -i 4 -m 16 -d 8 -t 32400

[code]mail/cyrus/version: 2.2

update/umc/nextversion: true
The release update via UMC will stop after the update to the next version
Categories: service-software-management

version/patchlevel: 1
Patchlevel of the UCS version
Categories: system-base

version/releasename: hornbeam
Codename for UCS releases
Categories: system-base

version/security-patchlevel: 2
Security patchlevel of the UCS version
Categories: system-base

version/version: 2.3
Major version of UCS
Categories: system-base
[/code]

Kernelversion:

2.6.30-ucs25-amd64

#7

Hallo,

können Sie noch ein paar ausführlichere Informationen zu dem System und der Umgebung geben? Um was für eine Serverrolle handelt es sich(ucr search role), wieviel Ram ist verbaut, welche Dienste werden auf dem Server angeboten und wieviele Benutzer verbinden sich in der Regel?

Ist es evtl. möglich remote-logging auf ein anderes System zu aktivieren um im Fehlerfall mehr Informationen zu bekommen?

Wie genau ist die Freigabe eingebunden und konfiguriert, von lokalen Platten oder einem externen Storage?

Mit freundlichen Grüssen
Tobias Scherer


#8

Hi,

das System ist ein Domain Controller Master, auf einem Thinkcentre A58 mit 4GB verbautem RAM und einer 128GB SSD Festplatte als System und Datenspeicher.
Aktive Dienste sind der nfs-kernel-server, ein squid, dansguardian, slapd. Das System habe ich zum größten Teil seinen defaults überlassen.
Es ist so, dass ca. 25 Notebooks sich über zwei WLAN-Accesspoints zum System verbinden. Die Laptops sind mit Kubuntu Karmic Koala austgestattet und befinden sich alle in der UCS Domäne. Beim Hochfahren wird ein NFS Share eingebunden und beim Anmelden wird ein weiteres Benutzerspezifisches share per pam_mount gemountet.
NFSv3 läuft über TCP mit den optionen soft,rw,timeo=2.

Die Hänger kommen hin und wieder vor, wenn alle Books ca. zeitgleich eingeschaltet werden und die User sich anmelden.
NUR in dieser Situation kommen die Hänger vor.

Remotelogging ist momentan ohne weiteres nicht möglich. Ich könnte aber, falls es nötig ist eines der Kubuntu Books dazu missbrauchen und es mit nem Kabel ans Netz klemmen.


#9

Das hört sich für mich nach Hardware Problemen an. Könnte das an der Netzwerkkarte oder ähnlichem liegen? Tritt das Problem vielleicht immer dann auf, wenn viel Netzwerklast vorhanden ist?

Vielleicht einfach mal ein kleines Skript schreiben, welches alle paar Sekunden ein paar Informationen in eine Datei speichert, bspw.:

log=/var/log/server-debug.log
while [ true ]; do
   date >> $log
   ps aux >> $log
   free >> $log
   uptime >> $log
   sleep 3
done

Ansonsten wird UCS 2.4 wohl mit einem Kernel 2.6.32 veröffentlicht. Vorabversionen sollten hier verfügbar sein, aber ACHTUNG, die Pakete sind nicht für den produktiven Einsatz gedacht.

Viele Grüße
Stefan Gohmann