paedML Linux 6.0 Kernel Probleme

german

#1

Hallo zusammen

wir sind ein Händler der schon einige Schulen mit der paedML Linux ausgestattet hat. Seit einiger Zeit beobachte ich immer wieder das bei Kunden der Servr hängt er hat dann 100% CPU Auslastung und reagiert nicht mehr.
Wir habe das bis jetzt gelöst in dem wir auf die Kernerlversion 175 zurück gegangen sind, wobei das ja keine Lösung ist.
Grade eben hatte ich wieder so ein Problem bei einem Kunden.
Ich hänge hier mal die kern.log an damit sich das einer anschauen kann.

Habe da immer solche Meldungen drin

Dec 5 09:25:39 server kernel: [239810.218793] INFO: rcu_sched self-detected stall on CPU { 1} (t=5250 jiffies g=2388832 c=2388831 q=124421)
Dec 5 09:25:39 server kernel: [239810.218802] sending NMI to all CPUs:
Dec 5 09:25:39 server kernel: [239810.218815] NMI backtrace for cpu 1
Dec 5 09:25:39 server kernel: [239810.218820] CPU: 1 PID: 26269 Comm: smbd Not tainted 3.10.0-ucs215-amd64 #1 Debian 3.10.104-0.1.215.201611190157
Dec 5 09:25:39 server kernel: [239810.218822] Hardware name: VMware, Inc. VMware Virtual Platform/440BX Desktop Reference Platform, BIOS 6.00 09/21/2015
Dec 5 09:25:39 server kernel: [239810.218825] task: ffff8802dbfbe0c0 ti: ffff8802b1556000 task.ti: ffff8802b1556000
Dec 5 09:25:39 server kernel: [239810.218827] RIP: 0010:[] [] _flat_send_IPI_mask+0x72/0x80
Dec 5 09:25:39 server kernel: [239810.218841] RSP: 0018:ffff88033fd03dd8 EFLAGS: 00000046
Dec 5 09:25:39 server kernel: [239810.218843] RAX: 0000000000000c00 RBX: 0000000003000000 RCX: 0000000000000007
Dec 5 09:25:39 server kernel: [239810.218845] RDX: 0000000000000006 RSI: 0000000000000002 RDI: 0000000000000086
Dec 5 09:25:39 server kernel: [239810.218846] RBP: 0000000000000002 R08: 0000000000000002 R09: 0000000000000000
Dec 5 09:25:39 server kernel: [239810.218848] R10: 000000000001e605 R11: ffffffff817db652 R12: 0000000000000c00
Dec 5 09:25:39 server kernel: [239810.218850] R13: ffffffff8163cec8 R14: ffff8802b1556010 R15: 0000000000000001
Dec 5 09:25:39 server kernel: [239810.218853] FS: 00007f2e8dd40720(0000) GS:ffff88033fd00000(0000) knlGS:0000000000000000
Dec 5 09:25:39 server kernel: [239810.218855] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec 5 09:25:39 server kernel: [239810.218857] CR2: 00007f2e8f654fe0 CR3: 00000002e50ac000 CR4: 00000000000407e0
Dec 5 09:25:39 server kernel: [239810.218917] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Dec 5 09:25:39 server kernel: [239810.218942] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Dec 5 09:25:39 server kernel: [239810.218943] Stack:
Dec 5 09:25:39 server kernel: [239810.218945] ffff88033fd0e980 0000000000000086 0000000000000000 ffff88033fd0d640
Dec 5 09:25:39 server kernel: [239810.218948] ffffffff8163b5c0 ffffffff8102be27 ffffffff8163b5c0 ffffffff810ad5ee
Dec 5 09:25:39 server kernel: [239810.218951] 00000000091c9c00 000000000001e605 ffffffff81616ec0 ffffffff81695a00
Dec 5 09:25:39 server kernel: [239810.218955] Call Trace:
Dec 5 09:25:39 server kernel: [239810.218957]
Dec 5 09:25:39 server kernel: [239810.218963] [] ? arch_trigger_all_cpu_backtrace+0x4a/0x7f
Dec 5 09:25:39 server kernel: [239810.218973] [] ? rcu_check_callbacks+0x1e3/0x581
Dec 5 09:25:39 server kernel: [239810.218978] [] ? tick_nohz_handler+0xa9/0xa9
Dec 5 09:25:39 server kernel: [239810.218984] [] ? update_process_times+0x31/0x5e
Dec 5 09:25:39 server kernel: [239810.218987] [] ? tick_sched_handle+0x42/0x4f
Dec 5 09:25:39 server kernel: [239810.218990] [] ? tick_sched_timer+0x4f/0x6b
Dec 5 09:25:39 server kernel: [239810.218994] [] ? __run_hrtimer+0xca/0x16c
Dec 5 09:25:39 server kernel: [239810.218997] [] ? hrtimer_interrupt+0xde/0x1c9
Dec 5 09:25:39 server kernel: [239810.219001] [] ? smp_apic_timer_interrupt+0x80/0x92
Dec 5 09:25:39 server kernel: [239810.219005] [] ? apic_timer_interrupt+0x6d/0x80
Dec 5 09:25:39 server kernel: [239810.219007]
Dec 5 09:25:39 server kernel: [239810.219008] [] ? touch_atime+0x6d/0x120
Dec 5 09:25:39 server kernel: [239810.219017] [] ? _raw_spin_lock+0x15/0x1b
Dec 5 09:25:39 server kernel: [239810.219023] [] ? unix_state_double_lock+0x3e/0x49
Dec 5 09:25:39 server kernel: [239810.219027] [] ? unix_dgram_connect+0xaa/0x1fe
Dec 5 09:25:39 server kernel: [239810.219032] [] ? SYSC_connect+0x85/0xc1
Dec 5 09:25:39 server kernel: [239810.219037] [] ? system_call_fastpath+0x16/0x1b
Dec 5 09:25:39 server kernel: [239810.219038] Code: 5f ff f6 c4 10 75 f2 c1 e3 18 89 1c 25 10 33 5f ff 89 e8 44 09 e0 41 81 cc 00 04 00 00 83 fd 02 41 0f 44 c4 89 04 25 00 33 5f ff <57> 9d 0f 1f 44 00 00 59 5b 5b 5d 41 5c c3 41 54 41 89 fc 55 53
Dec 5 09:25:39 server kernel: [239810.219770] NMI backtrace for cpu 0
Dec 5 09:25:39 server kernel: [239810.219777] CPU: 0 PID: 26511 Comm: univention-moun Not tainted 3.10.0-ucs215-amd64 #1 Debian 3.10.104-0.1.215.201611190157
Dec 5 09:25:39 server kernel: [239810.219779] Hardware name: VMware, Inc. VMware Virtual Platform/440BX Desktop Reference Platform, BIOS 6.00 09/21/2015
Dec 5 09:25:39 server kernel: [239810.219782] task: ffff8801b99787b0 ti: ffff88026629e000 task.ti: ffff88026629e000
Dec 5 09:25:39 server kernel: [239810.219784] RIP: 0033:[<0000000000520e26>] [<0000000000520e26>] 0x520e25
Dec 5 09:25:39 server kernel: [239810.219848] RSP: 002b:00007ffc7134f7c0 EFLAGS: 00010246
Dec 5 09:25:39 server kernel: [239810.219850] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000000063
Dec 5 09:25:39 server kernel: [239810.219852] RDX: 00007ffc7134fec8 RSI: 00007ffc7134feb8 RDI: 00007ffc7134fba0
Dec 5 09:25:39 server kernel: [239810.219854] RBP: 00007f468d19f030 R08: 0000000000000000 R09: 0000000000000200
Dec 5 09:25:39 server kernel: [239810.219855] R10: 0000000000000002 R11: 0000000000000002 R12: 00007ffc7134f800
Dec 5 09:25:39 server kernel: [239810.219857] R13: 0000000000000000 R14: 00000000ffffffff R15: 00000000ffffffff
Dec 5 09:25:39 server kernel: [239810.219860] FS: 00007f468d1a5700(0000) GS:ffff88033fc00000(0000) knlGS:0000000000000000
Dec 5 09:25:39 server kernel: [239810.219862] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec 5 09:25:39 server kernel: [239810.219864] CR2: ffffffffff600400 CR3: 0000000242676000 CR4: 00000000000407f0
Dec 5 09:25:39 server kernel: [239810.219897] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Dec 5 09:25:39 server kernel: [239810.219922] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Dec 5 09:25:39 server kernel: [239810.219923]
Dec 5 09:26:06 server kernel: [239837.403904] BUG: soft lockup - CPU#1 stuck for 22s! [smbd:26269]
Dec 5 09:26:06 server kernel: [239837.404000] Modules linked in: nfsv4 ppdev lp ip6t_REJECT ipt_REJECT xt_tcpudp nf_conntrack_ipv6 nf_defrag_ipv6 ip6table_mangle ip6table_filter ip6_tables xt_state iptable_mangle iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 nf_nat nf_conntrack iptable_filter ip_tables x_tables rpcsec_gss_krb5 nfsd nfs_acl auth_rpcgss oid_registry nfs fscache dns_resolver lockd sunrpc quota_v2 quota_tree vmwgfx coretemp ttm crc32c_intel drm processor aesni_intel i2c_piix4 snd_pcm ablk_helper cryptd thermal_sys i2c_core lrw gf128mul glue_helper aes_x86_64 snd_timer snd soundcore snd_page_alloc parport_pc vmw_vmci psmouse serio_raw parport pcspkr vmw_balloon shpchp tpm_tis tpm tpm_bios microcode evdev ac ext4 jbd2 crc16 dm_snapshot dm_mirror dm_region_hash dm_log dm_mod sg sr_mod cdrom sd_mod crc_t10dif ata_generic floppy vmw_pvscsi e1000 ata_piix button libata
Dec 5 09:26:06 server kernel: [239837.404067] CPU: 1 PID: 26269 Comm: smbd Not tainted 3.10.0-ucs215-amd64 #1 Debian 3.10.104-0.1.215.201611190157
Dec 5 09:26:06 server kernel: [239837.404069] Hardware name: VMware, Inc. VMware Virtual Platform/440BX Desktop Reference Platform, BIOS 6.00 09/21/2015
Dec 5 09:26:06 server kernel: [239837.404072] task: ffff8802dbfbe0c0 ti: ffff8802b1556000 task.ti: ffff8802b1556000
Dec 5 09:26:06 server kernel: [239837.404074] RIP: 0010:[] [] _raw_spin_lock+0x15/0x1b
Dec 5 09:26:06 server kernel: [239837.404083] RSP: 0018:ffff8802b1557e30 EFLAGS: 00000202
Dec 5 09:26:06 server kernel: [239837.404085] RAX: 0000000000000040 RBX: ffffffff8113150a RCX: 0000000019a319a3
Dec 5 09:26:06 server kernel: [239837.404087] RDX: 0000000000400041 RSI: ffff8802060d1bc0 RDI: ffff8802060d1e98
Dec 5 09:26:06 server kernel: [239837.404089] RBP: ffff8802060d1e98 R08: ffff8802dbb493b8 R09: ffff8802b1557bf4
Dec 5 09:26:06 server kernel: [239837.404090] R10: ffff8802b1557e70 R11: 000000005845246e R12: ffffffff812f87ab
Dec 5 09:26:06 server kernel: [239837.404092] R13: ffff8802b1557f28 R14: ffff8802b9826080 R15: ffff8802b1557f28
Dec 5 09:26:06 server kernel: [239837.404095] FS: 00007f2e8dd40720(0000) GS:ffff88033fd00000(0000) knlGS:0000000000000000
Dec 5 09:26:06 server kernel: [239837.404097] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec 5 09:26:06 server kernel: [239837.404099] CR2: 00007f2e8f654fe0 CR3: 00000002e50ac000 CR4: 00000000000407e0
Dec 5 09:26:06 server kernel: [239837.404158] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Dec 5 09:26:06 server kernel: [239837.404180] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Dec 5 09:26:06 server kernel: [239837.404182] Stack:
Dec 5 09:26:06 server kernel: [239837.404183] ffffffff8137d7fc ffff880331444ad8 ffff880331444800 ffff880331444ad8
Dec 5 09:26:06 server kernel: [239837.404187] ffffffff8137e6e5 00000000000080d0 ffff8802060d1bc0 00007ffe1cd204a0
Dec 5 09:26:06 server kernel: [239837.404190] 0000000000000028 00007ffe1cd204a0 ffff880283ce3800 ffff8802b1557ec8
Dec 5 09:26:06 server kernel: [239837.404193] Call Trace:
Dec 5 09:26:06 server kernel: [239837.404200] [] ? unix_state_double_lock+0x3e/0x49
Dec 5 09:26:06 server kernel: [239837.404204] [] ? unix_dgram_connect+0xaa/0x1fe
Dec 5 09:26:06 server kernel: [239837.404209] [] ? SYSC_connect+0x85/0xc1
Dec 5 09:26:06 server kernel: [239837.404214] [] ? system_call_fastpath+0x16/0x1b
Dec 5 09:26:06 server kernel: [239837.404216] Code: 0f c1 03 89 c2 c1 e8 10 66 39 c2 74 07 f3 90 66 8b 13 eb f4 5b c3 b8 00 00 01 00 f0 0f c1 07 89 c2 c1 e8 10 66 39 c2 74 07 f3 90 <66> 8b 17 eb f4 c3 9c 58 0f 1f 44 00 00 48 89 c2 fa 66 0f 1f 44
Dec 5 09:26:34 server kernel: [239865.409185] BUG: soft lockup - CPU#1 stuck for 23s! [smbd:26269]
Dec 5 09:26:34 server kernel: [239865.409226] Modules linked in: nfsv4 ppdev lp ip6t_REJECT ipt_REJECT xt_tcpudp nf_conntrack_ipv6 nf_defrag_ipv6 ip6table_mangle ip6table_filter ip6_tables xt_state iptable_mangle iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 nf_nat nf_conntrack iptable_filter ip_tables x_tables rpcsec_gss_krb5 nfsd nfs_acl auth_rpcgss oid_registry nfs fscache dns_resolver lockd sunrpc quota_v2 quota_tree vmwgfx coretemp ttm crc32c_intel drm processor aesni_intel i2c_piix4 snd_pcm ablk_helper cryptd thermal_sys i2c_core lrw gf128mul glue_helper aes_x86_64 snd_timer snd soundcore snd_page_alloc parport_pc vmw_vmci psmouse serio_raw parport pcspkr vmw_balloon shpchp tpm_tis tpm tpm_bios microcode evdev ac ext4 jbd2 crc16 dm_snapshot dm_mirror dm_region_hash dm_log dm_mod sg sr_mod cdrom sd_mod crc_t10dif ata_generic floppy vmw_pvscsi e1000 ata_piix button libata
Dec 5 09:26:34 server kernel: [239865.409292] CPU: 1 PID: 26269 Comm: smbd Not tainted 3.10.0-ucs215-amd64 #1 Debian 3.10.104-0.1.215.201611190157
Dec 5 09:26:34 server kernel: [239865.409294] Hardware name: VMware, Inc. VMware Virtual Platform/440BX Desktop Reference Platform, BIOS 6.00 09/21/2015
Dec 5 09:26:34 server kernel: [239865.409297] task: ffff8802dbfbe0c0 ti: ffff8802b1556000 task.ti: ffff8802b1556000
Dec 5 09:26:34 server kernel: [239865.409299] RIP: 0010:[] [] _raw_spin_lock+0x15/0x1b
Dec 5 09:26:34 server kernel: [239865.409308] RSP: 0018:ffff8802b1557e30 EFLAGS: 00000206
Dec 5 09:26:34 server kernel: [239865.409310] RAX: 0000000000000040 RBX: ffffffff8113150a RCX: 0000000019a319a3
Dec 5 09:26:34 server kernel: [239865.409312] RDX: 0000000000400049 RSI: ffff8802060d1bc0 RDI: ffff8802060d1e98
Dec 5 09:26:34 server kernel: [239865.409314] RBP: ffff8802060d1e98 R08: ffff8802dbb493b8 R09: ffff8802b1557bf4
Dec 5 09:26:34 server kernel: [239865.409316] R10: ffff8802b1557e70 R11: 000000005845246e R12: ffffffff812f87ab
Dec 5 09:26:34 server kernel: [239865.409317] R13: ffff8802b1557f28 R14: ffff8802b9826080 R15: ffff8802b1557f28
Dec 5 09:26:34 server kernel: [239865.409320] FS: 00007f2e8dd40720(0000) GS:ffff88033fd00000(0000) knlGS:0000000000000000
Dec 5 09:26:34 server kernel: [239865.409322] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec 5 09:26:34 server kernel: [239865.409324] CR2: 00007f2e8f654fe0 CR3: 00000002e50ac000 CR4: 00000000000407e0
Dec 5 09:26:34 server kernel: [239865.409397] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Dec 5 09:26:34 server kernel: [239865.409417] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Dec 5 09:26:34 server kernel: [239865.409419] Stack:
Dec 5 09:26:34 server kernel: [239865.409420] ffffffff8137d7fc ffff880331444ad8 ffff880331444800 ffff880331444ad8
Dec 5 09:26:34 server kernel: [239865.409424] ffffffff8137e6e5 00000000000080d0 ffff8802060d1bc0 00007ffe1cd204a0
Dec 5 09:26:34 server kernel: [239865.409427] 0000000000000028 00007ffe1cd204a0 ffff880283ce3800 ffff8802b1557ec8

Gruß Markus


#2

Welche UCS Version setzen Sie ein? Ggf. erleben Sie ein ähnliches Verhalten wie hier beschrieben: https://forge.univention.org/bugzilla/show_bug.cgi?id=42983
Wir haben für dieses Verhalten Lösungen in 4.x und 3.x in Form von Kernel Errata die aber alle noch eine manuelle Aktivierung bedürfen. Es betrifft Probleme mit dem “mbcache”.

[quote] The cache can be disabled by re-mounting the file system using
mount -o remount,no_mbcache “$fs”
or by adding the option “no_mbcache” in ‘/etc/fstab’ and rebooting the
system.[/quote]

Für 3.2 ist das entsprechende Errata: http://errata.software-univention.de/ucs/3.2/452.html
Für 4.1 ist das Errata: http://errata.software-univention.de/ucs/4.1/166.html

Geben Sie uns bitte Bescheid ob das bereits zum Erfolg geführt hat.


#3

Hallo,

das LMZ Baden Würtemberg setzt im Moment die Version 3.2-8 errata455 ein.

Wenn ich die Einstellung in der fstab ändere funktionieren aber schon noch alles Dienste?
Auf diesem Server läuft Samba.

Gruß Markus


#4

Ja. Sie sollten die Änderungen an allen EXT4 Mounts ausführen, die Netlogon und Sysvol beinhalten (üblicherweise in /var) und sicherheitshalber dem EXT4 /root ebenfalls.


#5

Hallo,

wollte kurz zwischenmelden, dass selbst mit 3.2-8 errata 455, Kernel 215 und Änderung der mountoptions die Server nach kurzer Zeit mit CPU-Stuck Errors freezen.

Zusammenfassend kann man sagen, dass alles nach dem 175er Kernel durch den “Field Test” fällt. Hoffe, dass sich mit UCS 3.3 und dem 3.16er etwas signifikant ändert :slight_smile:


#6

Hallo,

das hört sich ja gar nicht gut an. Könnten Sie eventuell noch einmal genauer beschreiben wo Sie wie die Mount-Optionen gesetzt haben?
Außerdem die neuen Kernel-Logs zur Verfügung stellen?
Wir arbeiten gerade an einer automatisierten Lösung zusammen mit dem Landesmedienzentrum und Feedback ist hier sehr willkommen. Was genau führt zu den “CPU-Stuck Errors freezen”? Können Sie das mit einem bestimmten Testaufbau reproduzieren oder tritt das Problem schon direkt beim starten auf?

Vielen Dank im Voraus
Michel Smidt