Notifier.log: TRANSFILE ( WARN ) Fehlermeldungen

klee500 · March 28, 2010, 3:23pm

Hallo,

wir haben bei einem Server seit einer Woche alle 2-3 Tage unerklärliche Systemabstürze. Bisher konnte ich keine Ursache finden.

Auch wenn ich nicht glaube, dass die Abstürze in Zusammenhang damit stehen, bin ich im Zuge der Fehlersuche auf Logeinträge in /var/log/univention/notifier.log gestoßen, die dort wohl nicht hingehören:

... 28.03.10 16:27:19 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener 28.03.10 16:29:19 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener 28.03.10 16:31:19 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener 28.03.10 16:33:19 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener 28.03.10 16:35:19 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener ...

Nach einem System-Neustart setzen diese Fehlermeldungen für 20 Minuten aus, bis sie wieder auftreten.

In dem Zusammenhang ist mir aufgefallen, dass in /var/log/samba/log.wb-#DOMAINNAME# folgende Fehlermeldung erscheint:

[2010/03/28 16:31:54, 0] libsmb/clientgen.c:cli_receive_smb(165) Receiving SMB: Server stopped responding

worauf ich (sdb.univention.de/1124) einen Samba-Join durchgeführt habe:

net rpc join -U Administrator

Das erzeugt in /var/log/univention/notifier.log folgenden Eintrag

... 28.03.10 16:39:26 TRANSFILE ( PROCESS ) : Added to cache pos 2, id 1615
und in /var/log/samba/log.smbd diese Meldungen

[2010/03/28 16:39:20, 0] rpc_server/srv_netlog_nt.c:_netr_ServerAuthenticate2(555) _netr_ServerAuthenticate2: netlogon_creds_server_check failed. Rejecting auth request from client SERVER machine account SERVER$ [2010/03/28 16:39:20, 0] rpc_server/srv_netlog_nt.c:_netr_ServerAuthenticate2(555) _netr_ServerAuthenticate2: netlogon_creds_server_check failed. Rejecting auth request from client SERVER machine account SERVER$

Gleichzeitig setzen die Fehlermeldungen in notifier.log für 20 Minuten aus. Danch werden sie allerdings wieder in nach /var/log/univention/notifier.log geschrieben:

... 28.03.10 17:01:07 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener 28.03.10 17:03:07 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener 28.03.10 17:05:07 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener 28.03.10 17:07:07 TRANSFILE ( WARN ) : 8 failed, got 0 close connection to listener ...

Gibt das Intervall von 20 Minuten einen Hinweis?
Das stimmt insofern exakt, als 8 failed pro 2 Minten gemeldet werden.
Zwischen TRANSFILE ( PROCESS ) und TRANSFILE ( WARN ) liegen genau 20 plus diese 2 Minuten.

Einen Aufruf von “univention-run-join-scripts” habe ich auch schon versucht.
Der erzeugt (exitcode 1) für alle, Join-Skripte außer für:

Running 80univention-printquota.inst done Running 81univention-printquotadb.inst done

Printquota werden im betreffenden System allerdings nicht verwendet.

Woran kann das Problem mit dem notifier liegen?

Vielen Dank im Voraus,
Jürgen Kurzmann.

klee500 · March 30, 2010, 5:06am

eventuell noch Wichtig:

Univention Corporate Server 2.2-2-4 + Scalix 11.4.6
als alleinstehender UCS-Master (ohne Replikation)

Meybohm · April 8, 2010, 12:49pm

Hallo,

die Meldungen in den Logdateien sind unkritisch aus und stehen mit ziemlicher Sicherheit in keinerlei Zusammenhang zu einem Systemabsturz. Die “N failed, got 0 close connection to listener” Meldungen geben an das die Verbindung vom Listener beenfet wurde. Die erste Zahl bezeichnet dabei nur den file descriptor welcher nach der Meldung geschlossen wird.
Bzgl. der Anstürze sollten Sie die Meldungen in syslog und kernel.log überprüfen.

Mit freundlichen Grüßen
Janis Meybohm

klee500 · April 12, 2010, 10:18pm

danke für die Informationen!

Die Meldungen sind also unkritisch und können ignoriert werden.
Ich war nur deswegen verunsichert, weil ich bei UCS Systemen anderer Kunden mit vergleichbarem Setup keine solche Meldungen in den Logfiles kenne bzw. finde.

Danke auch für die Tipps bzgl. der Abstürze. syslog und kernel.log hatte ich mir natürlich schon angesehen. Die haben aber leider keine zielführenden Auskünfte geben können.
Der Vollständigkeit halber: Das Problem dürfte in Zusammenhang mit rsync und acls-Option gestanden sein. Ein fsck findet in diesem Fall Fehlermeldungen alias “Extended attribute in inode xxxxxxx has a value size (xx) which is invalid. CLEARED”. Seit ich rsync ohne acls-Option laufen lassen, ist das System wieder stabil.

Mit freundlichen Grüßen,
Jürgen Kurzmann.