Donald
April 23, 2019, 7:56am
1
Hi!
Hier auf unserem UCS-Slave (4.3-3 errata479) verbraucht irgendwas den ganzen Speicher, vermutlich Systemd oder der Kernel.
Hier die Wochenübersicht:
Die Jahresübersicht:
Der Speicher-Commit lag stabil für 1 Jahr bei 1,5 GB, stieg aber vor ein paar Wochen nach einem UCS-Upgrade an. Nach einem Neustart ist der Verbrauch erst mal niedrig.
Gestern habe ich dann, als der Speicher wieder fast voll war, alle Dienste gestoppt, dann auch ein “Init 1” gemacht. Der Speicher-Commit ist zwar gefallen (dunkelgrüne Linie), der Speicher war aber immernoch belegt (grün). Nach einem Neustart dann bei 400MB.
Der Primary DC zeigt dieses Problem nicht (700 MB), er lauft auf echter Hardware, der Slave als HVM Xen.
crbble
April 23, 2019, 9:22am
2
Kannst du direkt auf dem Server mit top oder htop o.Ä. nachsehen?
Schau halt nach, welche Prozesse viel Speicher verbrauchen:
ps auxw --sort=rss | tail -n 10
ps auxw --sort=vsz | tail -n 10
RSS ist in diesem Fall potenziell der sinnvollere Wert.
Donald
April 23, 2019, 10:55am
4
Nichts zu sehen. Alle RSS waren auch recht klein, daher meine Annahme, dass Systemd oder der Kernel den Speicher verbrauchen.
systemd
ist auch nur ein normaler Prozess und würde in der Liste unten auftauchen, wenn sein Speicherverbrauch ungewöhnlich hoch wäre.
Dass der Kernel viel Speicher verbraucht und der in der Auswertung unter apps
auftaucht, halte ich für mehr als unwahrscheinlich.
Wenn es nicht einzelne Prozesse sind, die exorbitant viel Speicher belegen, dann vielleicht einfach viele einzelne Prozesse, die jeweils nur moderaten Verbrauch haben. Poste doch mal die komplette Ausgabe von ps auxw --sort=rss
, wenn die Auslastung so hoch ist.
Donald
April 23, 2019, 11:44am
6
Das ist nicht korrekt. Systemd hat einen Bug, wo durch es SLAB-Cache verbraucht. Den Verbrauch findest du mir ps und top nicht.
Dieser Bug scheint hier aber nicht die Ursache zu sein.
Ich hatte aber bereits erwähnt, dass immer noch 2 GB RAM belegt waren, als ich mit init 1 das Runlevel gewechselt habe. Da liefen wirklich noch der Kernel und systemd.
Donald
April 30, 2019, 8:11am
7
Moritz_Bunkus:
ps auxw --sort=rss
root@dc-backup:~# ps auxw --sort=rss
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 2 0.0 0.0 0 0 ? S Apr22 0:00 [kthreadd]
root 3 0.0 0.0 0 0 ? S Apr22 0:52 [ksoftirqd/0]
root 5 0.0 0.0 0 0 ? S< Apr22 0:00 [kworker/0:0H]
root 7 0.0 0.0 0 0 ? S Apr22 1:03 [rcu_sched]
root 8 0.0 0.0 0 0 ? S Apr22 0:00 [rcu_bh]
root 9 0.0 0.0 0 0 ? S Apr22 0:00 [migration/0]
root 10 0.0 0.0 0 0 ? S< Apr22 0:00 [lru-add-drain]
root 11 0.0 0.0 0 0 ? S Apr22 0:02 [watchdog/0]
root 12 0.0 0.0 0 0 ? S Apr22 0:00 [cpuhp/0]
root 13 0.0 0.0 0 0 ? S Apr22 0:00 [kdevtmpfs]
root 14 0.0 0.0 0 0 ? S< Apr22 0:00 [netns]
root 15 0.0 0.0 0 0 ? S Apr22 0:00 [xenwatch]
root 16 0.0 0.0 0 0 ? S Apr22 0:00 [xenbus]
root 18 0.0 0.0 0 0 ? S Apr22 0:00 [khungtaskd]
root 19 0.0 0.0 0 0 ? S Apr22 0:00 [oom_reaper]
root 20 0.0 0.0 0 0 ? S< Apr22 0:00 [writeback]
root 21 0.0 0.0 0 0 ? S Apr22 0:00 [kcompactd0]
root 22 0.0 0.0 0 0 ? SN Apr22 0:00 [ksmd]
root 23 0.0 0.0 0 0 ? SN Apr22 0:12 [khugepaged]
root 24 0.0 0.0 0 0 ? S< Apr22 0:00 [crypto]
root 25 0.0 0.0 0 0 ? S< Apr22 0:00 [kintegrityd]
root 26 0.0 0.0 0 0 ? S< Apr22 0:00 [bioset]
root 27 0.0 0.0 0 0 ? S< Apr22 0:00 [kblockd]
root 28 0.0 0.0 0 0 ? S< Apr22 0:00 [devfreq_wq]
root 29 0.0 0.0 0 0 ? S< Apr22 0:00 [watchdogd]
root 30 0.0 0.0 0 0 ? R Apr22 0:32 [kswapd0]
root 31 0.0 0.0 0 0 ? S< Apr22 0:00 [vmstat]
root 43 0.0 0.0 0 0 ? S< Apr22 0:00 [kthrotld]
root 44 0.0 0.0 0 0 ? S Apr22 0:00 [khvcd]
root 45 0.0 0.0 0 0 ? S< Apr22 0:00 [ipv6_addrconf]
root 77 0.0 0.0 0 0 ? S< Apr22 0:00 [ata_sff]
root 78 0.0 0.0 0 0 ? S Apr22 0:00 [scsi_eh_0]
root 79 0.0 0.0 0 0 ? S< Apr22 0:00 [bioset]
root 80 0.0 0.0 0 0 ? S< Apr22 0:00 [scsi_tmf_0]
root 82 0.0 0.0 0 0 ? S< Apr22 0:00 [bioset]
root 83 0.0 0.0 0 0 ? S Apr22 0:00 [scsi_eh_1]
root 84 0.0 0.0 0 0 ? S< Apr22 0:00 [bioset]
root 85 0.0 0.0 0 0 ? S< Apr22 0:00 [scsi_tmf_1]
root 86 0.0 0.0 0 0 ? S< Apr22 0:00 [bioset]
root 88 0.0 0.0 0 0 ? S< Apr22 0:00 [ttm_swap]
root 89 0.0 0.0 0 0 ? S< Apr22 0:00 [bioset]
root 91 0.0 0.0 0 0 ? S< Apr22 0:00 [bioset]
root 92 0.0 0.0 0 0 ? S< Apr22 0:00 [bioset]
root 94 0.0 0.0 0 0 ? S< Apr22 0:00 [bioset]
root 102 0.0 0.0 0 0 ? S< Apr22 0:00 [bioset]
root 137 0.0 0.0 0 0 ? S< Apr22 0:00 [dm_bufio_cache]
root 175 0.0 0.0 0 0 ? S< Apr22 0:00 [kworker/u257:0]
root 182 0.0 0.0 0 0 ? S< Apr22 0:11 [kworker/0:1H]
root 184 0.0 0.0 0 0 ? S Apr22 0:07 [jbd2/xvda1-8]
root 185 0.0 0.0 0 0 ? S< Apr22 0:00 [ext4-rsv-conver]
root 235 0.0 0.0 0 0 ? S Apr22 0:00 [kauditd]
root 251 0.0 0.0 0 0 ? S< Apr22 0:00 [rpciod]
root 252 0.0 0.0 0 0 ? S< Apr22 0:00 [xprtiod]
root 265 0.0 0.0 107196 0 ? Ss Apr22 0:00 /sbin/lvmetad -f
root 266 0.0 0.0 20824 0 ? Ss Apr22 0:00 /usr/sbin/blkmapd
root 475 0.0 0.0 4204 0 ? Ss Apr22 0:00 /usr/sbin/acpid
root 488 0.0 0.0 4048 0 ? Ss Apr22 0:00 runsv univention-directory-listener
root 489 0.0 0.0 4048 0 ? Ss Apr22 0:00 runsv univention-directory-notifier
postgres 625 0.0 0.0 261544 0 ? Ss Apr22 0:00 postgres: checkpointer process
postgres 627 0.0 0.0 261544 0 ? Ss Apr22 0:06 postgres: wal writer process
postgres 628 0.0 0.0 261856 0 ? Ss Apr22 0:10 postgres: autovacuum launcher process
samlcgi 937 0.0 0.0 328264 0 ? Ssl Apr22 2:41 /usr/bin/memcached -m 64 -s /var/run/univention-saml/memcached.socket -u samlcgi
root 1317 0.0 0.0 593448 0 ? Ssl Apr22 1:04 /usr/sbin/named -c /etc/bind/named.conf.samba4 -f -d 0
root 3843 0.0 0.0 0 0 ? S 07:45 0:00 [kworker/u256:0]
root 4766 0.0 0.0 7360 0 ? S Apr22 0:00 hexdump -n 96 /dev/input/event0
root 4767 0.0 0.0 15836 0 hvc0 Ss+ Apr22 0:00 /sbin/agetty --keep-baud 115200,38400,9600 hvc0 vt220
root 4768 0.0 0.0 16060 0 tty1 Ss+ Apr22 0:00 /sbin/agetty --noclear tty1 linux
root 37115 0.0 0.0 0 0 ? S 09:36 0:01 [kworker/0:4]
root 40298 0.1 0.0 0 0 ? S 09:52 0:01 [kworker/0:3]
root 42052 0.0 0.0 0 0 ? S 10:01 0:00 [kworker/0:0]
root 42642 0.0 0.0 0 0 ? S 10:02 0:00 [kworker/0:1]
root 43284 0.0 0.0 4276 0 ? Ss 10:05 0:00 /bin/sh -c [ -x /usr/share/univention-updater/univention-updater-check ] && /usr/sbin/jitter 600 /usr/share/univention-upd
root 44178 0.0 0.0 4276 0 ? Ss 10:10 0:00 /bin/sh -c /usr/sbin/jitter 60 /usr/share/univention-samba4/scripts/sysvol-sync.sh >>/var/log/univention/sysvol-sync.log 2>&
postfix 55180 0.0 0.0 85488 0 ? S Apr26 0:00 qmgr -l -t unix -u
postfix 56908 0.0 0.0 89548 0 ? S Apr26 0:00 tlsmgr -l -t unix -u
root 73653 0.0 0.0 0 0 ? S< Apr23 0:00 [bioset]
root 73654 0.0 0.0 0 0 ? S< Apr23 0:00 [xfsalloc]
root 73655 0.0 0.0 0 0 ? S< Apr23 0:00 [xfs_mru_cache]
root 73659 0.0 0.0 0 0 ? S Apr23 0:00 [jfsIO]
root 73660 0.0 0.0 0 0 ? S Apr23 0:00 [jfsCommit]
root 73661 0.0 0.0 0 0 ? S Apr23 0:00 [jfsSync]
root 73692 0.0 0.0 0 0 ? S< Apr23 0:00 [bioset]
root 87471 0.0 0.0 45492 0 ? Ss Apr23 0:00 /lib/systemd/systemd-udevd
listener 95137 0.0 0.0 2777128 0 ? S Apr29 0:01 /usr/sbin/univention-directory-listener -F -d 2 -b dc=tri-sinus,dc=zz -m /usr/lib/univention-directory-listener/system -c /v
root 127325 0.0 0.0 0 0 ? S 07:09 0:00 [kworker/u256:1]
root 321 0.0 0.0 512028 4 ? S Apr29 0:00 /usr/sbin/smbd -D --option=server role check:inhibit=yes --foreground
root 4763 0.0 0.0 13308 4 ? S Apr22 0:00 /bin/bash /usr/bin/univention-welcome-screen
root 43295 0.0 0.0 4184 8 ? S 10:05 0:00 sleep 367
root 305 0.0 0.0 33180 12 ? Ss Apr22 0:00 /usr/sbin/rpc.gssd
root 413 0.0 0.0 49868 16 ? Ss Apr22 0:01 /sbin/rpcbind -f -w
root 928 0.0 0.0 205024 16 ? Ssl Apr22 9:05 /usr/sbin/bacula-fd -f -c /etc/bacula/bacula-fd.conf
postfix 23610 0.0 0.0 85316 20 ? S 08:55 0:00 pickup -l -t unix -u
root 326 0.0 0.0 522220 24 ? S Apr29 0:00 /usr/sbin/smbd -D --option=server role check:inhibit=yes --foreground
root 487 0.0 0.0 4200 28 ? S Apr22 0:08 runsvdir -P /etc/service log: ..............................................................................................
root 131069 0.0 0.0 521804 32 ? Ss Apr29 0:00 /usr/sbin/samba -D
www-data 43429 0.0 0.0 366788 44 ? S 10:07 0:00 /usr/sbin/apache2 -k start
root 301 0.0 0.0 521804 48 ? S Apr29 0:00 /usr/sbin/samba -D
root 438 0.0 0.0 36196 48 ? Ss Apr22 0:26 /usr/sbin/inetd
root 325 0.0 0.0 481432 52 ? S Apr29 0:00 /usr/sbin/winbindd -D --option=server role check:inhibit=yes --foreground
www-data 113756 0.0 0.0 367272 52 ? S 06:25 0:00 /usr/sbin/apache2 -k start
nobody 810 0.0 0.0 327240 56 ? Ssl Apr22 2:40 /usr/bin/memcached -m 64 -p 11211 -u nobody -l 127.0.0.1
root 56776 0.0 0.0 364484 68 ? Ss Apr26 0:10 /usr/sbin/apache2 -k start
ntp 1461 0.0 0.0 99960 76 ? Ssl Apr22 0:43 /usr/sbin/ntpd -p /var/run/ntpd.pid -g -u 110:115
www-data 43910 0.0 0.0 366584 80 ? S 10:08 0:00 /usr/sbin/apache2 -k start
root 324 0.0 0.0 475076 84 ? S Apr29 0:00 /usr/sbin/winbindd -D --option=server role check:inhibit=yes --foreground
daemon 433 0.0 0.0 27964 84 ? Ss Apr22 0:00 /usr/sbin/atd -f
root 41103 0.0 0.0 289848 84 ? S 09:56 0:00 (sd-pam)
root 131071 0.0 0.0 521804 84 ? S Apr29 0:00 /usr/sbin/samba -D
root 309 0.0 0.0 521804 88 ? S Apr29 0:00 /usr/sbin/samba -D
root 304 0.0 0.0 521808 92 ? S Apr29 0:00 /usr/sbin/samba -D
root 312 0.0 0.0 521808 92 ? S Apr29 0:00 /usr/sbin/samba -D
root 55176 0.0 0.0 81180 92 ? Ss Apr26 0:00 /usr/lib/postfix/sbin/master -w
nagios 1554 0.0 0.0 23908 108 ? Ss Apr22 0:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -f
www-data 43897 0.0 0.0 366788 112 ? S 10:08 0:00 /usr/sbin/apache2 -k start
root 428 0.0 0.0 31200 120 ? Ss Apr22 0:03 /usr/sbin/cron -f
root 302 0.0 0.0 521804 132 ? S Apr29 0:02 /usr/sbin/samba -D
root 314 0.0 0.0 475076 148 ? Ss Apr29 0:01 /usr/sbin/winbindd -D --option=server role check:inhibit=yes --foreground
root 130938 0.0 0.0 702792 172 ? Ssl Apr29 0:15 /usr/sbin/nscd
postgres 626 0.0 0.0 261544 180 ? Ss Apr22 0:06 postgres: writer process
root 95141 0.0 0.0 143980 184 ? S Apr29 0:00 /usr/sbin/univention-directory-notifier -o -d 1 -v 2 -F
root 476 0.0 0.0 38060 188 ? Ss Apr22 1:33 /lib/systemd/systemd-logind
root 54685 0.0 0.0 250500 188 ? Ssl Apr26 0:09 /usr/sbin/rsyslogd -n
root 131038 0.0 0.0 243624 188 ? Ss Apr29 0:02 /usr/sbin/nmbd -D
root 949 0.0 0.0 63656 208 ? Ss Apr22 0:03 /usr/sbin/sshd -D
root 310 0.0 0.0 521804 212 ? S Apr29 0:00 /usr/sbin/samba -D
postgres 619 0.0 0.0 261412 212 ? S Apr22 0:20 /usr/lib/postgresql/9.4/bin/postgres -D /var/lib/postgresql/9.4/main -c config_file=/etc/postgresql/9.4/main/postgresql.conf
mysql 1059 0.0 0.0 645588 228 ? Ssl Apr22 5:26 /usr/sbin/mysqld
root 95054 0.0 0.0 522236 276 ? S Apr29 0:00 /usr/sbin/smbd -D --option=server role check:inhibit=yes --foreground
root 311 0.0 0.0 526112 280 ? S Apr29 0:01 /usr/sbin/samba -D
postgres 629 0.0 0.0 116688 280 ? Ss Apr22 0:10 postgres: stats collector process
root 323 0.0 0.0 481432 312 ? S Apr29 0:00 /usr/sbin/winbindd -D --option=server role check:inhibit=yes --foreground
message+ 441 0.0 0.0 47312 320 ? Ss Apr22 1:35 /usr/bin/dbus-daemon --system --address=systemd: --nofork --nopidfile --systemd-activation
samlcgi 936 0.0 0.0 113368 324 ? Ss Apr22 0:00 /usr/bin/stunnel4 /etc/stunnel/univention_saml.conf
www-data 41703 0.0 0.0 367208 332 ? S 09:57 0:00 /usr/sbin/apache2 -k start
root 43258 0.0 0.0 105920 356 ? S 10:05 0:00 /usr/sbin/CRON -f
root 307 0.0 0.0 525960 384 ? S Apr29 0:07 /usr/sbin/samba -D
www-data 43909 0.0 0.0 366640 400 ? S 10:08 0:00 /usr/sbin/apache2 -k start
root 306 0.0 0.0 522236 412 ? Ss Apr29 0:00 /usr/sbin/smbd -D --option=server role check:inhibit=yes --foreground
root 43288 0.0 0.0 9496 420 ? S 10:05 0:00 /bin/bash /usr/sbin/jitter 600 /usr/share/univention-updater/univention-updater-check
www-data 43428 0.0 0.0 367192 468 ? S 10:07 0:00 /usr/sbin/apache2 -k start
www-data 43425 0.0 0.0 367200 480 ? S 10:07 0:00 /usr/sbin/apache2 -k start
www-data 41702 0.0 0.0 367220 508 ? S 09:57 0:00 /usr/sbin/apache2 -k start
root 303 0.0 0.0 521804 632 ? S Apr29 0:03 /usr/sbin/samba -D
www-data 43904 0.0 0.0 366764 696 ? S 10:08 0:00 /usr/sbin/apache2 -k start
root 41100 0.0 0.0 142152 952 ? Ss 09:56 0:00 sshd: root@pts/0
root 491 0.0 0.0 53344 1196 ? Ss Apr22 0:34 /usr/bin/perl -wT /usr/sbin/munin-node
root 44182 0.0 0.0 9536 1268 ? S 10:10 0:00 /bin/bash /usr/share/univention-samba4/scripts/sysvol-sync.sh
root 56380 0.1 0.0 1406304 1284 ? Sl Apr26 7:48 /usr/bin/python2.7 /usr/sbin/univention-management-console-web-server start
root 41102 0.0 0.0 56396 1328 ? Ss 09:56 0:00 /lib/systemd/systemd --user
root 44161 0.0 0.0 105920 1596 ? S 10:10 0:00 /usr/sbin/CRON -f
root 41112 0.0 0.0 14308 1668 pts/0 Ss 09:56 0:00 -bash
root 308 0.0 0.0 528500 1992 ? S Apr29 0:43 /usr/sbin/samba -D
root 1308 0.0 0.0 4946968 1996 ? Ssl Apr22 2:11 /usr/sbin/slapd -h ldapi:/// ldap://:7389/ ldaps://:7636/
root 313 0.0 0.0 521804 2260 ? D Apr29 0:02 /usr/sbin/samba -D
agur$ 44197 0.0 0.0 393068 2436 ? S 10:10 0:00 (sd-pam)
root 1 0.0 0.1 204924 2604 ? Ss Apr22 3:07 /lib/systemd/systemd --system --deserialize 16
root 44196 0.0 0.1 31540 2672 pts/0 R+ 10:10 0:00 ps auxw --sort=rss
root 55698 0.0 0.1 655688 3060 ? S Apr26 0:08 /usr/bin/python2.7 /usr/sbin/univention-management-console-server start
root 44191 0.2 0.1 142152 3668 ? Ss 10:10 0:00 sshd: agur$ [priv]
root 234 0.0 0.1 320684 3780 ? Ds Apr22 2:45 /lib/systemd/systemd-journald
agur$ 44194 1.6 0.1 56272 4692 ? Ds 10:10 0:00 /lib/systemd/systemd --user
root 300 0.0 0.2 526544 6372 ? S Apr29 0:23 /usr/sbin/samba -D
root 44195 4.0 0.4 34584 10836 ? R 10:10 0:00 /usr/bin/python2.7 /usr/sbin/univention-config-registry shell hostname samba4/sysvol/sync/host domainname
Das Problem besteht auch noch mit 4.3-4 errata481.
Der Speicherverbrauch steigt langsam um einige 100MB über Stunden an, um dann für viele Stunden konstand zu bleiben. Dann geht das Spiel von vorne los.
Jetzt gerade war der Speicher wieder fast ganz voll (2GB). Ich habe fast alle Programme und Dienste angehalten:
root 1 0.0 0.2 205156 5116 ? Ss Apr30 3:14 /sbin/init splash
root 229 0.0 1.2 279728 32044 ? Ss Apr30 3:03 /lib/systemd/systemd-journald
root 264 0.0 0.0 99000 0 ? Ss Apr30 0:00 /sbin/lvmetad -f
root 272 0.0 0.0 20824 0 ? Ss Apr30 0:00 /usr/sbin/blkmapd
root 280 0.0 0.0 47340 212 ? Ss Apr30 0:00 /lib/systemd/systemd-udevd
root 306 0.0 0.0 33180 200 ? Ss Apr30 0:00 /usr/sbin/rpc.gssd
root 456 0.0 0.0 4204 0 ? Ss Apr30 0:00 /usr/sbin/acpid
message+ 457 0.0 0.0 47308 1124 ? Ss Apr30 1:50 /usr/bin/dbus-daemon --system --address=systemd: --nofork --nopidfile --systemd-activation
root 494 0.0 0.1 46492 3500 ? Ss Apr30 1:44 /lib/systemd/systemd-logind
root 529 0.0 0.0 53332 2480 ? Ss Apr30 0:35 /usr/bin/perl -wT /usr/sbin/munin-node
root 1075 0.0 0.0 63656 1056 ? Ss Apr30 0:03 /usr/sbin/sshd -D
root 35407 0.0 0.0 142152 636 ? Ss 09:27 0:00 \_ sshd: root@pts/0
root 35419 0.0 0.1 14340 3884 pts/0 Ss 09:27 0:00 \_ -bash
root 57893 0.0 0.1 39988 3292 pts/0 R+ 10:21 0:00 \_ ps afxu
nagios 1727 0.0 0.0 23908 248 ? Ss Apr30 0:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -f
root 2339 0.0 0.0 13308 4 ? S Apr30 0:00 /bin/bash /usr/bin/univention-welcome-screen
root 2345 0.0 0.0 7360 0 ? S Apr30 0:00 \_ hexdump -n 96 /dev/input/event0
root 2343 0.0 0.0 15836 116 hvc0 Ss+ Apr30 0:00 /sbin/agetty --keep-baud 115200,38400,9600 hvc0 vt220
root 2344 0.0 0.0 16060 0 tty1 Ss+ Apr30 0:00 /sbin/agetty --noclear tty1 linux
root 35409 0.0 0.0 56396 2316 ? Ss 09:27 0:00 /lib/systemd/systemd --user
root 35410 0.0 0.0 290080 64 ? S 09:27 0:00 \_ (sd-pam)
root 57183 0.0 0.1 250112 2884 ? Ssl 10:19 0:00 /usr/sbin/rsyslogd -n
total used free shared buff/cache available
Mem: 2471 2076 201 0 194 252
Swap: 720 24 696
Trotzdem ist der Speicher blockiert.
Eine Neukompilierung von Linux 4.9.174 hat das Problem gehoben. Der Speicherverbrauch liegt seit Donnerstag weit unter 1 GB.
Im Errata vom 15.5.2019 haben wir Kernel 4.9.168 heraus gegeben - ist bekannt, ob das Problem damit auftritt?
pmhahn
June 7, 2019, 12:57pm
11
Yes, we have one production system ourselves, which is leaking memory and needs to be rebooted once a week to fix it:
# uname -rv
4.9.0-9-amd64 #1 SMP Debian 4.9.168-1 (2019-04-12)
# uptime
14:39:09 up 6 days, 11:27, 1 user, load average: 1,06, 0,76, 0,3
# free -h
total used free shared buff/cache available
Mem: 1,9G 1,5G 92M 33M 330M 248M
Swap: 2,0G 477M 1,5G
I suspect git:056066d8a769aa87f280f00c6c2d802ecc2c7a6b to fix it, but I’m unable to reproduce it in my test setup.
Donald
June 12, 2019, 2:42pm
12
Falls ich gemeint bin, müsste ich mal ohne Custom-Kernel booten.
pmhahn
June 24, 2019, 11:29am
13
Mein Problem bisher ist, dass ich das Leck nicht 100% reproduzieren kann: Ich konnte bisher nicht herausfinden, was das Problem genau auslöst, was die Fehlersuche extrem schwierig gestaltet.
Falls jemand sachdienliche Hinweise hat, wie man das Problem leicht reproduzieren kann, bin ich daran brennend interessiert.
Donald
June 25, 2019, 11:09am
14
Dazu kann ich auch nicht viel sagen, des Slave lief ja nur so neben her.
Für den Kernel gibt es noch ein extra Memoryleak-Debug-Modul…
Donald
June 26, 2019, 9:18am
15
Ich habe heute wieder etwas erhöhren Speicherverbrauch bemerkt. Scheinbar hat Samba vor 2 Tagen Probleme bekommen. Ab dem Zeitpunkt steigt I/O und IOwait.
Ein Restart von samba-ad-dc hat die o.g. Symtome erstmal beseitigt.
Im Samba-Log finde ich einige Einträge dieser Art:
[2019/06/24 07:48:17.598825, 1, pid=8693] …/…/source3/smbd/smb2_server.c:1999(smbd_smb2_request_verify_creditcharge)
smbd_smb2_request_verify_creditcharge: CreditCharge too low, given 1, needed 2
SirTux
June 26, 2019, 12:45pm
16
Daß der Speicherverbrauch von Samba hochgeht, beobachte ich auch immer wieder auf einem virtualisierten DC Slave.
SirTux
June 26, 2019, 4:06pm
18
Nein, das ist mir zumindest nicht aufgefallen.
Kurzes Statusupdate: wir konnten das Problem bzgl. dem Speicherverbrauch weiter eingrenzen und sind uns recht sicher, das es kein Problem des Kernels ist, sondern im PAM Stack entsteht - sehr wahrscheinlich seitdem wir mit Errata 8 pam_systemd.so aufgenommen haben.
Donald
July 12, 2019, 1:57pm
20
Ich kenne das Problem mit pam_systemd.so und hab das als erstes geprüft: negativ
Das Aufblähen der Session wird durch einen Anstieg vom SLAB-Cache sichtbar, das war hier nicht.