UDN replication issues, broken notifier/listened


#1

Edit: Univention UCS 4.4 errata 90

Started one day ago with UDN replication issues. Attempted to fix samba database, attempted to fix other issues and I think I broke the server. Cannot SSO into domain controller web ui. Will try to keep it short:

# /usr/lib/nagios/plugins/check_univention_replication
CRITICAL: no change of listener transaction id for last 0 checks (nid=Error: [Errno 111] Connection refused lid=1071743)

sudo sv status univention-directory-listener | sed -n ‘s/:.*//p’
shows “run” so it is running
ps aux | grep notifier
and
ps aux | grep listener
both show processes are running

tail -f /var/log/univention/listener.log
was showing it could not connect to itself
errno 111

tail -f /var/log/univention/notifier.log
was spamming with a lot of
ERROR:ldap_add(Transaction(tid=1036769,… Already exists

there also was s4 connector reject file which I cannot see now as server sudo stopped working, SSO stopped working.

/usr/share/univention-directory-notifier/univention-translog check --fix
does not fix anything:

/var/lib/univention-ldap/notify/transaction needs fixing:
- missing transactions in sequence
2019-05-14 12:22:36,630:ERROR:/var/lib/univention-ldap/notify/transaction:1070695:'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\
x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\
x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\
x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\
x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x001070702 uid=name.surname,cn=users,dc=office,dc=com m\n': Binary zeros

#2

I restarted the controller, I can now sudo and SSO seems to be back. I can continue checking for errors.


#3

I just have been doing this since morning, no articles and documentation match my case. I tried commands from various similar articles and only to break the system more.
Below errors are what I found this morning before started troubleshooting.

UCS rejected

    1:   UCS DN: <NORESYNC=broken file:1557763029.104383>;unknown
          S4 DN: <not found>
         Filename: /var/lib/univention-connector/s4/1557763029.104383
$ sudo /usr/lib/nagios/plugins/check_univention_replication 
CRITICAL: no change of listener transaction id for last 0 checks (nid=Error: [Errno 111] Connection refused lid=1071743)

I know the affected user and it is one of the recently disabled accounts.


#4

Univention UCS 4.4 errata 90

# univention-directory-listener-ctrl status
Listener status:
 run: univention-directory-listener: (pid 1257) 520s, normally down

Error: [Errno 111] Connection refused
Current Notifier ID on "controller.office.com"
 

/usr/sbin/univention-directory-listener-ctrl: line 100: [: : integer expression expected
Last Notifier ID processed by local Listener:
 1071743

Last transaction processed:
 1071743 uid=recently.disabled,cn=users,dc=office,dc=com m

I think it all narrows down to this transaction with broken encoding or bad symbols. Can this transaction be removed and maybe it will fix everything?


#5

I expect it. You have checked this article I assume?


#6

/usr/share/univention-directory-notifier/univention-translog check --fix did not fix the error.
Article does not mention my missing transactions in sequence error message.
It is mentioned in this bug report though https://forge.univention.org/bugzilla/show_bug.cgi?id=49201


#7

I think “Result 4 unparseable lines” might be similar to my error.

Fix: Automated fix is not available. Remove the line as it does not contain valid information.

Would be good to know how to remove the line, should I just stop services and remove the line 1070695 in /var/lib/univention-ldap/notify/transaction file?


#8

Yes. Use an editor of your choice.
Afterwards, re-run the check.


#9

That worked, thank you. Suggest you add this advice on that thread, took me long to understand that myself.


#10

For the UCS rejected error

UCS DN: <NORESYNC=broken file:1557763029.104383>;unknown
S4 DN: <not found>
         Filename: /var/lib/univention-connector/s4/1557763029.104383

Removing the /var/lib/univention-connector/s4/1557763029.104383 file would fix this ?

EDIT: No, removed file and restarted univention-s4-connector and that error did not go away.
EDIT2: I used <NORESYNC=broken file:1557763029.104383>;unknown as dn when running script /usr/share/univention-s4-connector/remove_ucs_rejected.py and it worked.