Hallo,
wir haben bei einem Server seit einer Woche alle 2-3 Tage unerklärliche Systemabstürze. Bisher konnte ich keine Ursache finden.
Auch wenn ich nicht glaube, dass die Abstürze in Zusammenhang damit stehen, bin ich im Zuge der Fehlersuche auf Logeinträge in /var/log/univention/notifier.log gestoßen, die dort wohl nicht hingehören:
...
28.03.10 16:27:19 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener
28.03.10 16:29:19 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener
28.03.10 16:31:19 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener
28.03.10 16:33:19 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener
28.03.10 16:35:19 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener
...
Nach einem System-Neustart setzen diese Fehlermeldungen für 20 Minuten aus, bis sie wieder auftreten.
In dem Zusammenhang ist mir aufgefallen, dass in /var/log/samba/log.wb-#DOMAINNAME# folgende Fehlermeldung erscheint:
[2010/03/28 16:31:54, 0] libsmb/clientgen.c:cli_receive_smb(165)
Receiving SMB: Server stopped responding
worauf ich (sdb.univention.de/1124) einen Samba-Join durchgeführt habe:
net rpc join -U Administrator
Das erzeugt in /var/log/univention/notifier.log folgenden Eintrag
...
28.03.10 16:39:26 TRANSFILE ( PROCESS ) : Added to cache pos 2, id 1615
und in /var/log/samba/log.smbd diese Meldungen
[2010/03/28 16:39:20, 0] rpc_server/srv_netlog_nt.c:_netr_ServerAuthenticate2(555)
_netr_ServerAuthenticate2: netlogon_creds_server_check failed. Rejecting auth request from client SERVER machine account SERVER$
[2010/03/28 16:39:20, 0] rpc_server/srv_netlog_nt.c:_netr_ServerAuthenticate2(555)
_netr_ServerAuthenticate2: netlogon_creds_server_check failed. Rejecting auth request from client SERVER machine account SERVER$
Gleichzeitig setzen die Fehlermeldungen in notifier.log für 20 Minuten aus. Danch werden sie allerdings wieder in nach /var/log/univention/notifier.log geschrieben:
...
28.03.10 17:01:07 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener
28.03.10 17:03:07 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener
28.03.10 17:05:07 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener
28.03.10 17:07:07 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener
...
Gibt das Intervall von 20 Minuten einen Hinweis?
Das stimmt insofern exakt, als 8 failed pro 2 Minten gemeldet werden.
Zwischen TRANSFILE ( PROCESS ) und TRANSFILE ( WARN ) liegen genau 20 plus diese 2 Minuten.
Einen Aufruf von “univention-run-join-scripts” habe ich auch schon versucht.
Der erzeugt (exitcode 1) für alle, Join-Skripte außer für:
Running 80univention-printquota.inst done
Running 81univention-printquotadb.inst done
Printquota werden im betreffenden System allerdings nicht verwendet.
Woran kann das Problem mit dem notifier liegen?
Vielen Dank im Voraus,
Jürgen Kurzmann.