Drbd.ko stürzt ab

ucs-4-1
german

#1

Liebe Gemeinde,

für eine HA-Setup mit Kopano liegt das Dateisystem, in dem (u.a.) die Attachments liegen (/var/lib/kopano) auf einem DRBD-Device, das auf ein zweites System repliziert wird. Die MySQL-DB von Kopano wird dann per MySQL-Replikation auf das Ersatzsystem übertragen, aber das ist hier nicht Thema.

Da es dabei auch um eine Migration von einem bestehenden (Zarafa-)System geht, habe ich die Inhalte von /var/lib/zarafa/attachments (auf dem zu migrierenden System) per rsync auf dem neuen Kopano-System in das Verzeichnis /var/lib/kopano/attachments kopiert, insgesamt ca. 125 GB. Dabei stürzt das DRBD-Kernel-Modul regelmäßig ab, was dann zur Folge hat, dass Zugriffe auf /var/lib/kopano nicht mehr möglich sind, der rsync-Prozess, der dorthin schreiben will steht, nicht mehr zu beenden ist (auch nicht mit kill -9) und die ganze Maschine (es handelt sich um eine VM) nur noch hart mit virsh destroy “herunterzufahren” ist. Nach einem Neustart fängt das DRBD sofort wieder an zu synchronisieren und nach einem e2fsck kann auch das Dateisystem auf dem DRBD wieder benutzt werden und ich kann per rsync fortsetzen. Bei so einem Absturz ist im Syslog folgendes zu sehen:

Jun 29 07:51:27 server13 kernel: [73672.432083] drbd kopano: PingAck did not arrive in time.
Jun 29 07:51:27 server13 kernel: [73672.432123] drbd kopano: peer( Secondary -> Unknown ) conn( Connected -> NetworkFailure ) pdsk( UpToDate -> DUnknown )
Jun 29 07:51:27 server13 kernel: [73672.434028] drbd kopano: asender terminated
Jun 29 07:51:27 server13 kernel: [73672.434037] drbd kopano: Terminating drbd_a_kopano
Jun 29 07:51:28 server13 kernel: [73673.484147] BUG: unable to handle kernel NULL pointer dereference at           (null)
Jun 29 07:51:28 server13 kernel: [73673.484450] IP: [<ffffffff81300102>] __memcpy+0x12/0x20
Jun 29 07:51:28 server13 kernel: [73673.484545] PGD da9e1067 PUD d9e0c067 PMD 0
Jun 29 07:51:28 server13 kernel: [73673.484597] Oops: 0000 [#1] SMP
Jun 29 07:51:28 server13 kernel: [73673.484644] Modules linked in: xt_addrtype xt_conntrack ipt_MASQUERADE nf_nat_masquerade_ipv4 bridge stp llc overlay hmac drbd lru_cache crc32c_generic libcrc32c ip6t_REJECT nf_reject_ipv6 ipt_REJECT n
f_reject_ipv4 xt_tcpudp nf_conntrack_ipv6 nf_defrag_ipv6 ip6table_mangle ip6table_filter ip6_tables xt_state iptable_mangle iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 nf_nat nf_conntrack iptable_filter ip_tables x_tables rp
csec_gss_krb5 nfsd auth_rpcgss nfs_acl nfs lockd grace fscache sunrpc quota_v2 quota_tree acpi_cpufreq processor psmouse parport_pc parport i2c_piix4 8250_fintek serio_raw thermal_sys joydev pcspkr virtio_balloon evdev ext4 crc16 mbcache
 jbd2 dm_snapshot dm_bufio dm_mirror dm_region_hash dm_log dm_mod hid_generic usbhid hid sg sr_mod cdrom ata_generic virtio_net virtio_blk ttm uhci_hcd ehci_hcd drm_kms_helper floppy drm usbcore virtio_pci ata_piix usb_common libata virt
io_ring virtio scsi_mod button
Jun 29 07:51:28 server13 kernel: [73673.485695] CPU: 0 PID: 3311 Comm: drbd_w_kopano Not tainted 4.1.0-ucs222-amd64 #1 Debian 4.1.6-1.222.201701250821
Jun 29 07:51:28 server13 kernel: [73673.485796] Hardware name: Bochs Bochs, BIOS Bochs 01/01/2007
Jun 29 07:51:28 server13 kernel: [73673.485853] task: ffff8800d6fb0c20 ti: ffff8800d9e9c000 task.ti: ffff8800d9e9c000
Jun 29 07:51:28 server13 kernel: [73673.485924] RIP: 0010:[<ffffffff81300102>]  [<ffffffff81300102>] __memcpy+0x12/0x20
Jun 29 07:51:28 server13 kernel: [73673.486003] RSP: 0018:ffff8800d9e9fb30  EFLAGS: 00010246
Jun 29 07:51:28 server13 kernel: [73673.486054] RAX: ffff88010008fc20 RBX: ffff8800d9e9fc70 RCX: 000000000000007c
Jun 29 07:51:28 server13 kernel: [73673.486122] RDX: 0000000000000000 RSI: 0000000000000000 RDI: ffff88010008fc20
Jun 29 07:51:28 server13 kernel: [73673.486191] RBP: 00000000000008c4 R08: ffff880100090000 R09: ffff8800d6fb14e0
Jun 29 07:51:28 server13 kernel: [73673.486259] R10: 0000000000000000 R11: 00000000000008c4 R12: 00000000000003e0
Jun 29 07:51:28 server13 kernel: [73673.488052] R13: ffff8800d9e9fc60 R14: 0000000000000000 R15: 00000000000003e0
Jun 29 07:51:28 server13 kernel: [73673.488052] FS:  0000000000000000(0000) GS:ffff88011fc00000(0000) knlGS:0000000000000000
Jun 29 07:51:28 server13 kernel: [73673.488052] CS:  0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Jun 29 07:51:28 server13 kernel: [73673.488052] CR2: 0000000000000000 CR3: 000000007e08f000 CR4: 00000000000006f0
Jun 29 07:51:28 server13 kernel: [73673.488052] Stack:
Jun 29 07:51:28 server13 kernel: [73673.488052]  ffffffff81305800 ffff8800d9e9fc50 ffff880100090000 0000000000000590
Jun 29 07:51:28 server13 kernel: [73673.488052]  ffff88007e092040 0000000000000000 ffff88007e092040 ffff8800d8b93200
Jun 29 07:51:28 server13 kernel: [73673.497916]  000000000000fc48 00000000000008c4 000000000000c000 ffff8800d9e9fc60
Jun 29 07:51:28 server13 kernel: [73673.497916] Call Trace:
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffff81305800>] ? copy_from_iter+0x1f0/0x2c0
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffff814ebd35>] ? tcp_sendmsg+0x9a5/0xb10
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffff8148396c>] ? sock_sendmsg+0x4c/0x60
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffffa0524c50>] ? drbd_send+0x90/0x1c0 [drbd]
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffffa0524e6e>] ? __send_command.isra.36+0xbe/0x1c0 [drbd]
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffffa0524d8e>] ? drbd_send_all+0xe/0x30 [drbd]
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffffa05272ac>] ? drbd_send_dblock+0x35c/0x660 [drbd]
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffffa050b342>] ? w_send_dblock+0x82/0x130 [drbd]
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffffa050c748>] ? drbd_worker+0xe8/0x360 [drbd]
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffffa0522f10>] ? drbd_destroy_connection+0x170/0x170 [drbd]
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffffa0522f68>] ? drbd_thread_setup+0x58/0x150 [drbd]
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffffa0522f10>] ? drbd_destroy_connection+0x170/0x170 [drbd]
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffff81096ea1>] ? kthread+0xc1/0xe0
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffff81096de0>] ? flush_kthread_worker+0x70/0x70
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffff815a4472>] ? ret_from_fork+0x42/0x70
Jun 29 07:51:28 server13 kernel: [73673.497916]  [<ffffffff81096de0>] ? flush_kthread_worker+0x70/0x70
Jun 29 07:51:28 server13 kernel: [73673.497916] Code: 00 e8 73 fc ff ff 48 8b 43 60 48 2b 43 50 88 43 4e eb e6 90 90 90 90 90 90 0f 1f 44 00 00 48 89 f8 48 89 d1 48 c1 e9 03 83 e2 07 <f3> 48 a5 89 d1 f3 a4 c3 66 0f 1f 44 00 00 48 89 f8 48 89 d1 f3
Jun 29 07:51:28 server13 kernel: [73673.497916] RIP  [<ffffffff81300102>] __memcpy+0x12/0x20
Jun 29 07:51:28 server13 kernel: [73673.497916]  RSP <ffff8800d9e9fb30>
Jun 29 07:51:28 server13 kernel: [73673.497916] CR2: 0000000000000000
Jun 29 07:51:28 server13 kernel: [73673.497916] ---[ end trace a63b872e5b591cf6 ]---

Hat jemand eine Idee, was das Problem ist?

NB: Dabei ist mir aufgefallen, das die Versionen von Kernel-Treiber und Userland nicht übereinstimmen, ich kann mir aber nicht vorstellen, dass darin der Hund begraben liegt. Das war wohl auch früher schon mal der Fall: https://help.univention.com/t/drbd-kernel-userland-versions/2840. Da es sich um UCS 4.1-4 handelt, ist dort drbd.ko von der Version 8.4.5, das Userland aber Version 8.4.4.

Gruß, V. Mayer


#2

Ist die DRBD App https://www.univention.de/produkte/univention-app-center/app-katalog/drbd/ installiert?


#3

Lieber Herr Gohmann,

nein, ist nicht installiert. Was bekomme ich dadurch mehr, was hier vllt. noch fehlt? An sich reicht doch der Kernel-Treiber und das DRBD-Userland, jedenfalls kenne ich das so von Debian.

Freundliche Grüße
V. Mayer


#4

Bei der App hat der Hersteller, in dem Fall Linbit, alles zusammengepackt und getestet und bietet dafür auch Support an. Also Kernel Modul und Userland Tools.

Ich finde in den Debian Archiven (snapshot.debian.net) die Userland Tools nicht in der Version 8.4.5. Von daher würde ich als nächstes die App testen.


#5

Ok, das war mir nicht klar, dass da verschiedene Versionen kommen, je nachdem, ob man die “App” installiert oder nicht. Ich war einfach davon ausgegangen, dass es (wie bei Debian) einfach funktioniert. Und im Appcenter wird das leider auch nicht klarer. Aber das wird sich dann ja mit UCS 4.2 erledigt haben, wenn die “unmaintained”-Pakete direkt aus dem Debian-Repo kommen.

Vielen Dank für die Hilfe!

Freundliche Grüße
V. Mayer