Memoryleak auf Slave-Contoller

Hi!

Hier auf unserem UCS-Slave (4.3-3 errata479) verbraucht irgendwas den ganzen Speicher, vermutlich Systemd oder der Kernel.
Hier die Wochenübersicht:

Die Jahresübersicht:

Der Speicher-Commit lag stabil für 1 Jahr bei 1,5 GB, stieg aber vor ein paar Wochen nach einem UCS-Upgrade an. Nach einem Neustart ist der Verbrauch erst mal niedrig.
Gestern habe ich dann, als der Speicher wieder fast voll war, alle Dienste gestoppt, dann auch ein “Init 1” gemacht. Der Speicher-Commit ist zwar gefallen (dunkelgrüne Linie), der Speicher war aber immernoch belegt (grün). Nach einem Neustart dann bei 400MB.

Der Primary DC zeigt dieses Problem nicht (700 MB), er lauft auf echter Hardware, der Slave als HVM Xen.

Kannst du direkt auf dem Server mit top oder htop o.Ä. nachsehen?

Schau halt nach, welche Prozesse viel Speicher verbrauchen:

ps auxw --sort=rss | tail -n 10
ps auxw --sort=vsz | tail -n 10

RSS ist in diesem Fall potenziell der sinnvollere Wert.

Nichts zu sehen. Alle RSS waren auch recht klein, daher meine Annahme, dass Systemd oder der Kernel den Speicher verbrauchen.

systemd ist auch nur ein normaler Prozess und würde in der Liste unten auftauchen, wenn sein Speicherverbrauch ungewöhnlich hoch wäre.

Dass der Kernel viel Speicher verbraucht und der in der Auswertung unter apps auftaucht, halte ich für mehr als unwahrscheinlich.

Wenn es nicht einzelne Prozesse sind, die exorbitant viel Speicher belegen, dann vielleicht einfach viele einzelne Prozesse, die jeweils nur moderaten Verbrauch haben. Poste doch mal die komplette Ausgabe von ps auxw --sort=rss, wenn die Auslastung so hoch ist.

Das ist nicht korrekt. Systemd hat einen Bug, wo durch es SLAB-Cache verbraucht. Den Verbrauch findest du mir ps und top nicht.
Dieser Bug scheint hier aber nicht die Ursache zu sein.

Ich hatte aber bereits erwähnt, dass immer noch 2 GB RAM belegt waren, als ich mit init 1 das Runlevel gewechselt habe. Da liefen wirklich noch der Kernel und systemd.

root@dc-backup:~# ps auxw --sort=rss
USER        PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root          2  0.0  0.0      0     0 ?        S    Apr22   0:00 [kthreadd]
root          3  0.0  0.0      0     0 ?        S    Apr22   0:52 [ksoftirqd/0]
root          5  0.0  0.0      0     0 ?        S<   Apr22   0:00 [kworker/0:0H]
root          7  0.0  0.0      0     0 ?        S    Apr22   1:03 [rcu_sched]
root          8  0.0  0.0      0     0 ?        S    Apr22   0:00 [rcu_bh]
root          9  0.0  0.0      0     0 ?        S    Apr22   0:00 [migration/0]
root         10  0.0  0.0      0     0 ?        S<   Apr22   0:00 [lru-add-drain]
root         11  0.0  0.0      0     0 ?        S    Apr22   0:02 [watchdog/0]
root         12  0.0  0.0      0     0 ?        S    Apr22   0:00 [cpuhp/0]
root         13  0.0  0.0      0     0 ?        S    Apr22   0:00 [kdevtmpfs]
root         14  0.0  0.0      0     0 ?        S<   Apr22   0:00 [netns]
root         15  0.0  0.0      0     0 ?        S    Apr22   0:00 [xenwatch]
root         16  0.0  0.0      0     0 ?        S    Apr22   0:00 [xenbus]
root         18  0.0  0.0      0     0 ?        S    Apr22   0:00 [khungtaskd]
root         19  0.0  0.0      0     0 ?        S    Apr22   0:00 [oom_reaper]
root         20  0.0  0.0      0     0 ?        S<   Apr22   0:00 [writeback]
root         21  0.0  0.0      0     0 ?        S    Apr22   0:00 [kcompactd0]
root         22  0.0  0.0      0     0 ?        SN   Apr22   0:00 [ksmd]
root         23  0.0  0.0      0     0 ?        SN   Apr22   0:12 [khugepaged]
root         24  0.0  0.0      0     0 ?        S<   Apr22   0:00 [crypto]
root         25  0.0  0.0      0     0 ?        S<   Apr22   0:00 [kintegrityd]
root         26  0.0  0.0      0     0 ?        S<   Apr22   0:00 [bioset]
root         27  0.0  0.0      0     0 ?        S<   Apr22   0:00 [kblockd]
root         28  0.0  0.0      0     0 ?        S<   Apr22   0:00 [devfreq_wq]
root         29  0.0  0.0      0     0 ?        S<   Apr22   0:00 [watchdogd]
root         30  0.0  0.0      0     0 ?        R    Apr22   0:32 [kswapd0]
root         31  0.0  0.0      0     0 ?        S<   Apr22   0:00 [vmstat]
root         43  0.0  0.0      0     0 ?        S<   Apr22   0:00 [kthrotld]
root         44  0.0  0.0      0     0 ?        S    Apr22   0:00 [khvcd]
root         45  0.0  0.0      0     0 ?        S<   Apr22   0:00 [ipv6_addrconf]
root         77  0.0  0.0      0     0 ?        S<   Apr22   0:00 [ata_sff]
root         78  0.0  0.0      0     0 ?        S    Apr22   0:00 [scsi_eh_0]
root         79  0.0  0.0      0     0 ?        S<   Apr22   0:00 [bioset]
root         80  0.0  0.0      0     0 ?        S<   Apr22   0:00 [scsi_tmf_0]
root         82  0.0  0.0      0     0 ?        S<   Apr22   0:00 [bioset]
root         83  0.0  0.0      0     0 ?        S    Apr22   0:00 [scsi_eh_1]
root         84  0.0  0.0      0     0 ?        S<   Apr22   0:00 [bioset]
root         85  0.0  0.0      0     0 ?        S<   Apr22   0:00 [scsi_tmf_1]
root         86  0.0  0.0      0     0 ?        S<   Apr22   0:00 [bioset]
root         88  0.0  0.0      0     0 ?        S<   Apr22   0:00 [ttm_swap]
root         89  0.0  0.0      0     0 ?        S<   Apr22   0:00 [bioset]
root         91  0.0  0.0      0     0 ?        S<   Apr22   0:00 [bioset]
root         92  0.0  0.0      0     0 ?        S<   Apr22   0:00 [bioset]
root         94  0.0  0.0      0     0 ?        S<   Apr22   0:00 [bioset]
root        102  0.0  0.0      0     0 ?        S<   Apr22   0:00 [bioset]
root        137  0.0  0.0      0     0 ?        S<   Apr22   0:00 [dm_bufio_cache]
root        175  0.0  0.0      0     0 ?        S<   Apr22   0:00 [kworker/u257:0]
root        182  0.0  0.0      0     0 ?        S<   Apr22   0:11 [kworker/0:1H]
root        184  0.0  0.0      0     0 ?        S    Apr22   0:07 [jbd2/xvda1-8]
root        185  0.0  0.0      0     0 ?        S<   Apr22   0:00 [ext4-rsv-conver]
root        235  0.0  0.0      0     0 ?        S    Apr22   0:00 [kauditd]
root        251  0.0  0.0      0     0 ?        S<   Apr22   0:00 [rpciod]
root        252  0.0  0.0      0     0 ?        S<   Apr22   0:00 [xprtiod]
root        265  0.0  0.0 107196     0 ?        Ss   Apr22   0:00 /sbin/lvmetad -f
root        266  0.0  0.0  20824     0 ?        Ss   Apr22   0:00 /usr/sbin/blkmapd
root        475  0.0  0.0   4204     0 ?        Ss   Apr22   0:00 /usr/sbin/acpid
root        488  0.0  0.0   4048     0 ?        Ss   Apr22   0:00 runsv univention-directory-listener
root        489  0.0  0.0   4048     0 ?        Ss   Apr22   0:00 runsv univention-directory-notifier
postgres    625  0.0  0.0 261544     0 ?        Ss   Apr22   0:00 postgres: checkpointer process
postgres    627  0.0  0.0 261544     0 ?        Ss   Apr22   0:06 postgres: wal writer process
postgres    628  0.0  0.0 261856     0 ?        Ss   Apr22   0:10 postgres: autovacuum launcher process
samlcgi     937  0.0  0.0 328264     0 ?        Ssl  Apr22   2:41 /usr/bin/memcached -m 64 -s /var/run/univention-saml/memcached.socket -u samlcgi
root       1317  0.0  0.0 593448     0 ?        Ssl  Apr22   1:04 /usr/sbin/named -c /etc/bind/named.conf.samba4 -f -d 0
root       3843  0.0  0.0      0     0 ?        S    07:45   0:00 [kworker/u256:0]
root       4766  0.0  0.0   7360     0 ?        S    Apr22   0:00 hexdump -n 96 /dev/input/event0
root       4767  0.0  0.0  15836     0 hvc0     Ss+  Apr22   0:00 /sbin/agetty --keep-baud 115200,38400,9600 hvc0 vt220
root       4768  0.0  0.0  16060     0 tty1     Ss+  Apr22   0:00 /sbin/agetty --noclear tty1 linux
root      37115  0.0  0.0      0     0 ?        S    09:36   0:01 [kworker/0:4]
root      40298  0.1  0.0      0     0 ?        S    09:52   0:01 [kworker/0:3]
root      42052  0.0  0.0      0     0 ?        S    10:01   0:00 [kworker/0:0]
root      42642  0.0  0.0      0     0 ?        S    10:02   0:00 [kworker/0:1]
root      43284  0.0  0.0   4276     0 ?        Ss   10:05   0:00 /bin/sh -c   [ -x /usr/share/univention-updater/univention-updater-check ] && /usr/sbin/jitter 600 /usr/share/univention-upd
root      44178  0.0  0.0   4276     0 ?        Ss   10:10   0:00 /bin/sh -c /usr/sbin/jitter 60 /usr/share/univention-samba4/scripts/sysvol-sync.sh >>/var/log/univention/sysvol-sync.log 2>&
postfix   55180  0.0  0.0  85488     0 ?        S    Apr26   0:00 qmgr -l -t unix -u
postfix   56908  0.0  0.0  89548     0 ?        S    Apr26   0:00 tlsmgr -l -t unix -u
root      73653  0.0  0.0      0     0 ?        S<   Apr23   0:00 [bioset]
root      73654  0.0  0.0      0     0 ?        S<   Apr23   0:00 [xfsalloc]
root      73655  0.0  0.0      0     0 ?        S<   Apr23   0:00 [xfs_mru_cache]
root      73659  0.0  0.0      0     0 ?        S    Apr23   0:00 [jfsIO]
root      73660  0.0  0.0      0     0 ?        S    Apr23   0:00 [jfsCommit]
root      73661  0.0  0.0      0     0 ?        S    Apr23   0:00 [jfsSync]
root      73692  0.0  0.0      0     0 ?        S<   Apr23   0:00 [bioset]
root      87471  0.0  0.0  45492     0 ?        Ss   Apr23   0:00 /lib/systemd/systemd-udevd
listener  95137  0.0  0.0 2777128    0 ?        S    Apr29   0:01 /usr/sbin/univention-directory-listener -F -d 2 -b dc=tri-sinus,dc=zz -m /usr/lib/univention-directory-listener/system -c /v
root     127325  0.0  0.0      0     0 ?        S    07:09   0:00 [kworker/u256:1]
root        321  0.0  0.0 512028     4 ?        S    Apr29   0:00 /usr/sbin/smbd -D --option=server role check:inhibit=yes --foreground
root       4763  0.0  0.0  13308     4 ?        S    Apr22   0:00 /bin/bash /usr/bin/univention-welcome-screen
root      43295  0.0  0.0   4184     8 ?        S    10:05   0:00 sleep 367
root        305  0.0  0.0  33180    12 ?        Ss   Apr22   0:00 /usr/sbin/rpc.gssd
root        413  0.0  0.0  49868    16 ?        Ss   Apr22   0:01 /sbin/rpcbind -f -w
root        928  0.0  0.0 205024    16 ?        Ssl  Apr22   9:05 /usr/sbin/bacula-fd -f -c /etc/bacula/bacula-fd.conf
postfix   23610  0.0  0.0  85316    20 ?        S    08:55   0:00 pickup -l -t unix -u
root        326  0.0  0.0 522220    24 ?        S    Apr29   0:00 /usr/sbin/smbd -D --option=server role check:inhibit=yes --foreground
root        487  0.0  0.0   4200    28 ?        S    Apr22   0:08 runsvdir -P /etc/service log: ..............................................................................................
root     131069  0.0  0.0 521804    32 ?        Ss   Apr29   0:00 /usr/sbin/samba -D
www-data  43429  0.0  0.0 366788    44 ?        S    10:07   0:00 /usr/sbin/apache2 -k start
root        301  0.0  0.0 521804    48 ?        S    Apr29   0:00 /usr/sbin/samba -D
root        438  0.0  0.0  36196    48 ?        Ss   Apr22   0:26 /usr/sbin/inetd
root        325  0.0  0.0 481432    52 ?        S    Apr29   0:00 /usr/sbin/winbindd -D --option=server role check:inhibit=yes --foreground
www-data 113756  0.0  0.0 367272    52 ?        S    06:25   0:00 /usr/sbin/apache2 -k start
nobody      810  0.0  0.0 327240    56 ?        Ssl  Apr22   2:40 /usr/bin/memcached -m 64 -p 11211 -u nobody -l 127.0.0.1
root      56776  0.0  0.0 364484    68 ?        Ss   Apr26   0:10 /usr/sbin/apache2 -k start
ntp        1461  0.0  0.0  99960    76 ?        Ssl  Apr22   0:43 /usr/sbin/ntpd -p /var/run/ntpd.pid -g -u 110:115
www-data  43910  0.0  0.0 366584    80 ?        S    10:08   0:00 /usr/sbin/apache2 -k start
root        324  0.0  0.0 475076    84 ?        S    Apr29   0:00 /usr/sbin/winbindd -D --option=server role check:inhibit=yes --foreground
daemon      433  0.0  0.0  27964    84 ?        Ss   Apr22   0:00 /usr/sbin/atd -f
root      41103  0.0  0.0 289848    84 ?        S    09:56   0:00 (sd-pam)
root     131071  0.0  0.0 521804    84 ?        S    Apr29   0:00 /usr/sbin/samba -D
root        309  0.0  0.0 521804    88 ?        S    Apr29   0:00 /usr/sbin/samba -D
root        304  0.0  0.0 521808    92 ?        S    Apr29   0:00 /usr/sbin/samba -D
root        312  0.0  0.0 521808    92 ?        S    Apr29   0:00 /usr/sbin/samba -D
root      55176  0.0  0.0  81180    92 ?        Ss   Apr26   0:00 /usr/lib/postfix/sbin/master -w
nagios     1554  0.0  0.0  23908   108 ?        Ss   Apr22   0:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -f
www-data  43897  0.0  0.0 366788   112 ?        S    10:08   0:00 /usr/sbin/apache2 -k start
root        428  0.0  0.0  31200   120 ?        Ss   Apr22   0:03 /usr/sbin/cron -f
root        302  0.0  0.0 521804   132 ?        S    Apr29   0:02 /usr/sbin/samba -D
root        314  0.0  0.0 475076   148 ?        Ss   Apr29   0:01 /usr/sbin/winbindd -D --option=server role check:inhibit=yes --foreground
root     130938  0.0  0.0 702792   172 ?        Ssl  Apr29   0:15 /usr/sbin/nscd
postgres    626  0.0  0.0 261544   180 ?        Ss   Apr22   0:06 postgres: writer process
root      95141  0.0  0.0 143980   184 ?        S    Apr29   0:00 /usr/sbin/univention-directory-notifier -o -d 1 -v 2 -F
root        476  0.0  0.0  38060   188 ?        Ss   Apr22   1:33 /lib/systemd/systemd-logind
root      54685  0.0  0.0 250500   188 ?        Ssl  Apr26   0:09 /usr/sbin/rsyslogd -n
root     131038  0.0  0.0 243624   188 ?        Ss   Apr29   0:02 /usr/sbin/nmbd -D
root        949  0.0  0.0  63656   208 ?        Ss   Apr22   0:03 /usr/sbin/sshd -D
root        310  0.0  0.0 521804   212 ?        S    Apr29   0:00 /usr/sbin/samba -D
postgres    619  0.0  0.0 261412   212 ?        S    Apr22   0:20 /usr/lib/postgresql/9.4/bin/postgres -D /var/lib/postgresql/9.4/main -c config_file=/etc/postgresql/9.4/main/postgresql.conf
mysql      1059  0.0  0.0 645588   228 ?        Ssl  Apr22   5:26 /usr/sbin/mysqld
root      95054  0.0  0.0 522236   276 ?        S    Apr29   0:00 /usr/sbin/smbd -D --option=server role check:inhibit=yes --foreground
root        311  0.0  0.0 526112   280 ?        S    Apr29   0:01 /usr/sbin/samba -D
postgres    629  0.0  0.0 116688   280 ?        Ss   Apr22   0:10 postgres: stats collector process
root        323  0.0  0.0 481432   312 ?        S    Apr29   0:00 /usr/sbin/winbindd -D --option=server role check:inhibit=yes --foreground
message+    441  0.0  0.0  47312   320 ?        Ss   Apr22   1:35 /usr/bin/dbus-daemon --system --address=systemd: --nofork --nopidfile --systemd-activation
samlcgi     936  0.0  0.0 113368   324 ?        Ss   Apr22   0:00 /usr/bin/stunnel4 /etc/stunnel/univention_saml.conf
www-data  41703  0.0  0.0 367208   332 ?        S    09:57   0:00 /usr/sbin/apache2 -k start
root      43258  0.0  0.0 105920   356 ?        S    10:05   0:00 /usr/sbin/CRON -f
root        307  0.0  0.0 525960   384 ?        S    Apr29   0:07 /usr/sbin/samba -D
www-data  43909  0.0  0.0 366640   400 ?        S    10:08   0:00 /usr/sbin/apache2 -k start
root        306  0.0  0.0 522236   412 ?        Ss   Apr29   0:00 /usr/sbin/smbd -D --option=server role check:inhibit=yes --foreground
root      43288  0.0  0.0   9496   420 ?        S    10:05   0:00 /bin/bash /usr/sbin/jitter 600 /usr/share/univention-updater/univention-updater-check
www-data  43428  0.0  0.0 367192   468 ?        S    10:07   0:00 /usr/sbin/apache2 -k start
www-data  43425  0.0  0.0 367200   480 ?        S    10:07   0:00 /usr/sbin/apache2 -k start
www-data  41702  0.0  0.0 367220   508 ?        S    09:57   0:00 /usr/sbin/apache2 -k start
root        303  0.0  0.0 521804   632 ?        S    Apr29   0:03 /usr/sbin/samba -D
www-data  43904  0.0  0.0 366764   696 ?        S    10:08   0:00 /usr/sbin/apache2 -k start
root      41100  0.0  0.0 142152   952 ?        Ss   09:56   0:00 sshd: root@pts/0
root        491  0.0  0.0  53344  1196 ?        Ss   Apr22   0:34 /usr/bin/perl -wT /usr/sbin/munin-node
root      44182  0.0  0.0   9536  1268 ?        S    10:10   0:00 /bin/bash /usr/share/univention-samba4/scripts/sysvol-sync.sh
root      56380  0.1  0.0 1406304 1284 ?        Sl   Apr26   7:48 /usr/bin/python2.7 /usr/sbin/univention-management-console-web-server start
root      41102  0.0  0.0  56396  1328 ?        Ss   09:56   0:00 /lib/systemd/systemd --user
root      44161  0.0  0.0 105920  1596 ?        S    10:10   0:00 /usr/sbin/CRON -f
root      41112  0.0  0.0  14308  1668 pts/0    Ss   09:56   0:00 -bash
root        308  0.0  0.0 528500  1992 ?        S    Apr29   0:43 /usr/sbin/samba -D
root       1308  0.0  0.0 4946968 1996 ?        Ssl  Apr22   2:11 /usr/sbin/slapd -h ldapi:/// ldap://:7389/ ldaps://:7636/
root        313  0.0  0.0 521804  2260 ?        D    Apr29   0:02 /usr/sbin/samba -D
agur$     44197  0.0  0.0 393068  2436 ?        S    10:10   0:00 (sd-pam)
root          1  0.0  0.1 204924  2604 ?        Ss   Apr22   3:07 /lib/systemd/systemd --system --deserialize 16
root      44196  0.0  0.1  31540  2672 pts/0    R+   10:10   0:00 ps auxw --sort=rss
root      55698  0.0  0.1 655688  3060 ?        S    Apr26   0:08 /usr/bin/python2.7 /usr/sbin/univention-management-console-server start
root      44191  0.2  0.1 142152  3668 ?        Ss   10:10   0:00 sshd: agur$ [priv]
root        234  0.0  0.1 320684  3780 ?        Ds   Apr22   2:45 /lib/systemd/systemd-journald
agur$     44194  1.6  0.1  56272  4692 ?        Ds   10:10   0:00 /lib/systemd/systemd --user
root        300  0.0  0.2 526544  6372 ?        S    Apr29   0:23 /usr/sbin/samba -D
root      44195  4.0  0.4  34584 10836 ?        R    10:10   0:00 /usr/bin/python2.7 /usr/sbin/univention-config-registry shell hostname samba4/sysvol/sync/host domainname

Das Problem besteht auch noch mit 4.3-4 errata481.

Der Speicherverbrauch steigt langsam um einige 100MB über Stunden an, um dann für viele Stunden konstand zu bleiben. Dann geht das Spiel von vorne los.

Jetzt gerade war der Speicher wieder fast ganz voll (2GB). Ich habe fast alle Programme und Dienste angehalten:

root          1  0.0  0.2 205156  5116 ?        Ss   Apr30   3:14 /sbin/init splash
root        229  0.0  1.2 279728 32044 ?        Ss   Apr30   3:03 /lib/systemd/systemd-journald
root        264  0.0  0.0  99000     0 ?        Ss   Apr30   0:00 /sbin/lvmetad -f
root        272  0.0  0.0  20824     0 ?        Ss   Apr30   0:00 /usr/sbin/blkmapd
root        280  0.0  0.0  47340   212 ?        Ss   Apr30   0:00 /lib/systemd/systemd-udevd
root        306  0.0  0.0  33180   200 ?        Ss   Apr30   0:00 /usr/sbin/rpc.gssd
root        456  0.0  0.0   4204     0 ?        Ss   Apr30   0:00 /usr/sbin/acpid
message+    457  0.0  0.0  47308  1124 ?        Ss   Apr30   1:50 /usr/bin/dbus-daemon --system --address=systemd: --nofork --nopidfile --systemd-activation
root        494  0.0  0.1  46492  3500 ?        Ss   Apr30   1:44 /lib/systemd/systemd-logind
root        529  0.0  0.0  53332  2480 ?        Ss   Apr30   0:35 /usr/bin/perl -wT /usr/sbin/munin-node
root       1075  0.0  0.0  63656  1056 ?        Ss   Apr30   0:03 /usr/sbin/sshd -D
root      35407  0.0  0.0 142152   636 ?        Ss   09:27   0:00  \_ sshd: root@pts/0
root      35419  0.0  0.1  14340  3884 pts/0    Ss   09:27   0:00      \_ -bash
root      57893  0.0  0.1  39988  3292 pts/0    R+   10:21   0:00          \_ ps afxu
nagios     1727  0.0  0.0  23908   248 ?        Ss   Apr30   0:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -f
root       2339  0.0  0.0  13308     4 ?        S    Apr30   0:00 /bin/bash /usr/bin/univention-welcome-screen
root       2345  0.0  0.0   7360     0 ?        S    Apr30   0:00  \_ hexdump -n 96 /dev/input/event0
root       2343  0.0  0.0  15836   116 hvc0     Ss+  Apr30   0:00 /sbin/agetty --keep-baud 115200,38400,9600 hvc0 vt220
root       2344  0.0  0.0  16060     0 tty1     Ss+  Apr30   0:00 /sbin/agetty --noclear tty1 linux
root      35409  0.0  0.0  56396  2316 ?        Ss   09:27   0:00 /lib/systemd/systemd --user
root      35410  0.0  0.0 290080    64 ?        S    09:27   0:00  \_ (sd-pam)
root      57183  0.0  0.1 250112  2884 ?        Ssl  10:19   0:00 /usr/sbin/rsyslogd -n

              total        used        free      shared  buff/cache   available
Mem:           2471        2076         201           0         194         252
Swap:           720          24         696

Trotzdem ist der Speicher blockiert.

Eine Neukompilierung von Linux 4.9.174 hat das Problem gehoben. Der Speicherverbrauch liegt seit Donnerstag weit unter 1 GB.

Im Errata vom 15.5.2019 haben wir Kernel 4.9.168 heraus gegeben - ist bekannt, ob das Problem damit auftritt?

Yes, we have one production system ourselves, which is leaking memory and needs to be rebooted once a week to fix it:

# uname -rv
4.9.0-9-amd64 #1 SMP Debian 4.9.168-1 (2019-04-12)
# uptime 
 14:39:09 up 6 days, 11:27,  1 user,  load average: 1,06, 0,76, 0,3
# free -h
              total        used        free      shared  buff/cache   available
Mem:           1,9G        1,5G         92M         33M        330M        248M
Swap:          2,0G        477M        1,5G

I suspect git:056066d8a769aa87f280f00c6c2d802ecc2c7a6b to fix it, but I’m unable to reproduce it in my test setup.

Falls ich gemeint bin, müsste ich mal ohne Custom-Kernel booten.

Mein Problem bisher ist, dass ich das Leck nicht 100% reproduzieren kann: Ich konnte bisher nicht herausfinden, was das Problem genau auslöst, was die Fehlersuche extrem schwierig gestaltet.
Falls jemand sachdienliche Hinweise hat, wie man das Problem leicht reproduzieren kann, bin ich daran brennend interessiert.

Dazu kann ich auch nicht viel sagen, des Slave lief ja nur so neben her.
Für den Kernel gibt es noch ein extra Memoryleak-Debug-Modul…

Ich habe heute wieder etwas erhöhren Speicherverbrauch bemerkt. Scheinbar hat Samba vor 2 Tagen Probleme bekommen. Ab dem Zeitpunkt steigt I/O und IOwait.
Ein Restart von samba-ad-dc hat die o.g. Symtome erstmal beseitigt.

Im Samba-Log finde ich einige Einträge dieser Art:

[2019/06/24 07:48:17.598825, 1, pid=8693] …/…/source3/smbd/smb2_server.c:1999(smbd_smb2_request_verify_creditcharge)
smbd_smb2_request_verify_creditcharge: CreditCharge too low, given 1, needed 2

Daß der Speicherverbrauch von Samba hochgeht, beobachte ich auch immer wieder auf einem virtualisierten DC Slave.

Auch mit heftigem IO? cpu-pinpoint%3D1560865580%2C1561556780

Nein, das ist mir zumindest nicht aufgefallen.

Kurzes Statusupdate: wir konnten das Problem bzgl. dem Speicherverbrauch weiter eingrenzen und sind uns recht sicher, das es kein Problem des Kernels ist, sondern im PAM Stack entsteht - sehr wahrscheinlich seitdem wir mit Errata 8 pam_systemd.so aufgenommen haben.

Ich kenne das Problem mit pam_systemd.so und hab das als erstes geprüft: negativ
Das Aufblähen der Session wird durch einen Anstieg vom SLAB-Cache sichtbar, das war hier nicht.

Mastodon