UCS Server startet nach Update auf Version 5 nicht mehr

Ich habe heute meinen Server, der seit jahren bei mir problemlos läuft, auf UCS-5 gehoben. Das Update hat sehr gut geklappt, der Server ist hochgefahren und hat mir mitgeteilt, dass ich den Server nach dem Update noch einmal neu starten soll.

Nun startet er nicht mehr hoch. Nach den Servermeldungen von ILO, RAID, usw. (HP Proliant DL380) erscheint der Boot Loader. Danach kommt nur mehr die Meldung “Loading, please wait …” und es passiert nichts mehr. Einzig die Harddisks des RAID5-Verbunds blinken hin und wieder kurz auf.

Ich habe nun schon mit der UCS-5 DVD gestartet und den Grub auf der /dev/sda neu installiert und auch das root Filesystem unter /dev/vg_ucs/root auf Fehler gecheckt (keine Fehler). Leider alles erfolglos.

Bitte um Hilfe, was ich noch ausprobieren kann oder woran es liegen kann.

Vielen Dank,
Michael

Moin
probiere einmal das System mit der Super Grub2 CD oder USB Stick zu starten. Dann kannst du erst einmal Fehler im lokalen Grub ausschließen und sehen ob das System überhaupt startet.

Grüße aus Berlin
Ben

Hello,
Danke für den Hinweis. Ich habe das System auch mit der Super Grub2 CD nicht starten können.
Meine Konfig bzgl. der HD schaut so aus:
/dev/sda Festplatte
/dev/sda1 Ext2 Partition mit dem Boot Loader
/dev/sda2 Erweiterte Partion als LVM mit
der Swap Partion /dev/vg_ucs/swap und
der ext4 Root-Partition /dev/vg_ucs/root
Wenn ich mit der UCS 5.0 InstallationsCD starte zeigt der Installer folgende Partitions an:
image

MIttlerweile habe ich auch schon folgendes mit einer Knoppix DVD durchgeführt:

  1. fsck auf die /dev/vg_ucs/root ergab keine Fehler
  2. fsck auf die /dev/sda1 ergab keine Fehler
  3. Mount der Partitions, chroot und Neuinstallation des Grub mit grub-install auf /dev/sda1 - alles fehlerfrei durchgeführt.

Trotzdem kommt beim Booten von der Harddisk nach dem Grub
image
nur mehr die Meldung “Loading, please wait…”.

Kann es sein, dass es ein Problem mit dem Treiber für den RAID Kontroller (HP Smart Array P410i Controller) seit dem Upgrade auf UCS 5.0 gibt? Wie gesagt, dass System ist unter UCS 4.x nun jahrelang problemlos gelaufen.

Oder kann es sein, dass der Grub eine falsche oder korrupte Konfig hat?
image
image

Was kann ich noch durchführen, damit ich den Server wieder zum Laufen bekomme? Was kann das sein? Ich bin mit meinem Latein am Ende.

Vielen Dank im Voraus für weiterführende Hilfe von euch,
Michael

Moin,

boote mal von Harddisk bis zum Grub (dein erster Screenshot). Gehe dort auf den Eintrag Univention Corporate Server GNU/Linux und drücke e.
Dann sollte der Inhalt von deinem dritten Screenshot auftauchen. In der Zeile, die mit linux beginnt, tausche bitte die Option quiet durch verbose aus und ändere loglevel=0 auf loglevel=7 [edit] sowie splash zu nosplash [/edit]. Ist das getan, kannst du mit Ctrl-x bzw. F10 das System starten und es gibt (hoffentlich) neben Loading, please wait... noch sehr viel mehr Infos vom Kernel.
[edit] Darüber sollte sich dann ermitteln lassen, warum er dein System nicht starten kann. Ich habe da das initramfs (Datei initrd....) im Verdacht, welches ggf. den Treiber für deinen Controller nicht enthält.
Aber auch wenn ein komplett anderes Problem auftritt, müsste sich dies beim Bootvorgang zeigen. [/edit]

Viele Grüße,

Sönke

Hallo Sönke,

Danke für den Tipp und deine Hilfe. Ich habe die drei Änderungen (quiet/verbose, loglevel=0/loglevel=7, splash/nosplash) gemacht und gebootet.
Und ja ich sehe mehr, kann aber daraus nichts erlesen. Hier der Screenshot der Meldungen die zuletzt am Schirm bleiben:

Hilft das weiter?
image
Ich denke es gibt ja auch ein Log davon, da ja vorher viel mehr angezeigt wird. Wie kann ich das auslesen und ggf. euch schicken? Ich kann die Filesysteme ja alle mit einer Boot.DVD mounten und ansprechen.

Liebe Grüße,
Michael

Hallo Michael,

hast du mal probiert einen älteren Kernel (im Grub unter advanced options) zu starten?

Viele Grüße,
SirTux

Hallo,

Ja, habe ich auch schon ausprobiert. Leider mit dem gleichen Erfolg, dass das System nicht bootet.
Ich habs nun nochmals ausprobiert und habe die Settings wieder gesetzt und bekomme beim Kernel 4.9.0 (statt aktuell 4.19.0)
image
folgende, ein wenig andere Meldung am Schirm:
image
Liebe Grüße,
Michael

Dann würde ich mal mit dieversen Bootoptionen rumspielen (z.B. noacpi).

Das werde ich ausprobieren. Ist halt mit einem HP Proliant Server sehr zeitaufwendig, weil der ewig zum booten braucht.
Was mich auch verwundert und ein wenig stutzig macht, ist der Umstand, dass der Server nach dem Update auf UCS 5.0 bereits gebootet hat und ich bereits in der grafischen Oberfläche drin war. Dort stand dann als Meldung sinngemäß “Der Server wurde upgedatet - ein nochmaliger Neustart ist erforderlich”. Den habe ich über die Univention Admin Konsole auch eingeleitet und dann kam der Server nicht mehr hoch. Sehr misteriös.

Moin,

den Fehler habe ich so noch nicht gesehen.
Hilft das hier weiter?

Viele Grüße,

Sönke

Hallo,

Danke. Habe mir das nun einmal angesehen.
Allerdings weiß ich nicht genau, wie ich das “disabling page table isolation” einstellen/durchführen kann.

Ich habe in diesem Zusammenhang die Grub Parameter spectre_v2=off nopti pti=off bzw. spectre_v2=off pti=off kpti=off gefunden. Kann das ev. die Lösung sein bzw. kann ich die bei UCS in den Bootoptionen überhaupt setzen?

Weiters habe ich leider erfolglos die Bootoptionen noacpi, noapic und nosmp ausprobiert.

Ich habe auch im BIOS des Proliant Servers alle CPU-Parameter auf Disbabled gestellt (no virtualization, no hyperthreading, no VT-d, usw.) - auch kein Erfolg.
image

Es bleibt misteriös, wieso das System seit dem Upgrade auf UCS 5.0 unter keinen Umständen mehr hochfahren will.

Liebe Grüße,
Michael

Ab und an passieren ja in der EDV Dinge zur gleichen Zeit, die nichts miteinander zu tun haben :slight_smile:
Hast du mal einen Memtest86 laufen lassen, nicht dass du einen defekten Speicher hast.

Gruß Ben

Moin,

memtest ist immer eine gute Idee, um erstmal Grundlegendes auszuschließen.

Nach dem Update lief der Server noch mit dem alten Kernel. Nach dem Neustart mit dem neuen aus UCS5. Hast du schon alle Kernel durchprobiert, die auf dem System noch installiert sind? Welche sind das?

Leider kann man in deinem Screenshot mit dem Traceback den Anfang nicht sehen. Kann man da mit Shift-PageUp noch nach oben scrollen, wenn der Traceback auftritt? Der Kernel steigt da ja absichtlich aus und gibt am Anfang kurz an, warum er das tut (ist jetzt leider oben aus dem Screen rausgescrollt).

Viele Grüße,

Sönke

Moin
weitere Idee um das Problem einzugrenzen

  • ein neues System UCS 5 auf einer leeren HD installieren, um zu sehen ob es sich um ein Softwareproblem UCS5 - Proliant handelt und es einwandfrei arbeitet
  • ist das Bios aktuell, hatte mal ein Problem mit meinem kleinen ProLiant Micro Gen8
  • Festplatten, die verbaut sind, mit smartctl testen oder auf dem Kontroller nachsehen

Grüße aus Berlin

Ben

Moin,

wir haben hier eben nochmal zusammen überlegt:
Da der alte UCS 4.4 Kernel und der neue UCS 5.0 Kernel aktuell nicht mehr booten, müsste es etwas anderes sein. Da kommt neben einem CPU-Defekt fast nur noch ein mit UCS5 ausgeliefertes Microcode-Update in Frage. Kannst du mal im Grub, an der Stelle wo du die Kernelparameter schon ausgetauscht hast (loglevel=7) den Parameter dis_ucode_ldr am Ende der Zeile anfügen. Damit sollte das Laden der Microcode-Updates unterbunden werden.

Viele Grüße,

Sönke

Hallo,

Danke für die tollen Tipps. Ich werde diese heute alle ausprobieren und dann zurück melden. Nochmals vielen Dank.

lg Michael

Hallo,

Ich habe nun heute alles ausprobiert. Mit den folgenden ergebnissen:

  1. Memtest86+: der memtest aus dem Boot-Eintrag des Systems mittels Grub (siehe 2. Screenshot in dem Case) stoppt jedesmal bei 9% und macht dann nichts mehr.
    image
    Ich habe dann zwei bootfähige USB-Sticks mit Memtest86+ erstellt - allerdings bootet der Server damit nicht.

  2. Den Screen nach der Fehlermeldung kann ich mit keinem Tastendruck dazu bewegen nach oben zu scrollen, damit man die gesamte Historie des Bootvorgangs sehen kann. Auch nicht wie erwähnt mit einem Shift-Pageup .

  3. Mit dem Parameter dis_ucode_ldr am Ende der Zeile des Grub-Eintrages verhält sich das System genauso wie ohne den Eintrag - leider kein Unterschied. Von dem Hint hatte ich mir ehrlicherweise am meisten erwartet.

  4. Das BIOS des Servers ist aktuell - es gibt von HP kein Neueres.

  5. CPU-Defekt: im BIOS des Servers können RAM und CPU getestet werden - das brachte keinen Fehler.

  6. Eine Neuinstallation auf einem 32GB USB-Stick war erfolgreich - UCS5 hat sich installieren und fertig konfigurieren lassen.
    image

Allerdings natürlich ohne den RAID-Kontroller. Ich hätte zwar noch eine Platte und die RAID-Konfiguration wird ja angeblich auch auf den Festplatten gespeichert und sollte sich nach einem vollständigen Rückbau mit allen Platten wieder herstellen lassen, aber das habe ich mich dann doch nicht getraut.

Nun, leider nur ein kleiner Teilerfolg mit der erfolgreichen Installation von UCS5 auf einem USB-Stick.

Abschließend eine Frage: kann ich auf dem bestehenden System, welches nicht mehr hoch startet, das UCS5 drüber installieren ohne in der Installationsroutine die Partition neu auf die Harddisk zu schreiben? Dann würde ich mir ev. die komplette Neukonfiguration des Systems ersparen und hätte auch wieder Zugriff auf meine Daten.

Danke und lg Michael

Hallo Michael

  • hast du einmal memtest https://www.memtest86.com/ genutzt und nicht memtest+, sind zwei unterschiedliche Tests.
  • Ich würde die Festplatten vom Raid noch einzeln testen.
    Jeweils einzeln an einem Sata Anschluß und mit den Smarttools. Systeme findest du hier
    https://www.smartmontools.org/wiki/LiveCDs
  • Wird denn das Raid angezeigt, wenn du von deinem Stick UCS 5 gebootet hast? Wenn ja, hast du auch schon einmal einen fsck über die einzelnen Partitionen laufen lassen?
  • Kannst du probeweise die Caches am Raid Adapter ausstellen und dann booten?
    Hoffe etwas bringt dich weiter :slight_smile:

Grüße aus Berlin und ein schönes Wochenende

Ben

Hello Ben, Sönke und alle Anderen,

memtest86: ist nun gelaufen und hat keine Fehler im RAM erkannt.
image
Außerdem habe ich nun im BIOS des HP Proliant Servers das sog. Online-Speicher gesetzt. Dabei werden von den 60GB Gesamtspeicher 20GB reserviert und im Falle eines Fehlers zugeteilt. Damit kann es meiner Meinung nach im OS zu keinem Speicherfehler mehr kommen.

Die Festplatten einzeln testen tue ich mir nun nicht an. Das kostet mich zuviel Zeit.

Und ja, die Festplatte im RAID kann ich unter dem USC5 vom Stick gebootet sehen.
Und ja, auch ein fsck habe ich über die Partitions /dev/sda1 (Grub und /boot) und /(dev/vg_ucs/root als /) laufen - auch da war alles ok.

Den Cache am RAID-Kontroller kann ich nicht deaktivieren.

Ich tippe nun auf einen korrupten RAID-Kontroller Treiber in der UCS Installation auf den RAID-Platten - meiner Meinung nach kommt nicht mehr viel sonst in Frage.

Ich brauche nun schön langsam wieder meine Daten und habe mich entschlossen, das System enu aufzusetzen.
Dazu habe ich folgende Fragen:

  1. Kann ich das System, wenn ich die vorhandenen Partitions nicht lösche, über die bestehende Installation auf /dev/vg_ucs/root drüberinstallieren? Wird das funktionieren? Oder soll ich lieber eine komplett neue Installation machen?
  2. Würde UCS5 beim Drüberinstallieren meine vorherige Installation erkennen und die Programme (Letsencrypt, Nextcloud, usw.) und Settings übernehmen? Aber auch wenn nicht, dann müsste ich das halt alles nachher neu einrichten. Der enstscheidende Vorteile wäre, dass ich direkt wieder auf die Daten zugreifen kann.

Wenn eure Empfehlung eine saubere Neuinstallation ist (also mit einem Löschen der bestehenden Partitions) müsste ich halt mein Backup, dass ich ohnehin habe, wieder einspielen. Das wäre nicht so schlimm - das ganze würde zwar sehr viel Zeit in Anspruch nehmen, aber in die Rettung der vorhandenen Installation habe ich schon 3x mehr Aufwand investiert.

Vielen Dank im Voraus für eure Empfehlung und Einschätzung,
Michael

Moin
ich würde vom Stick booten und mir ansehen welcher Kernel und welche Module für die Karte geladen sind.
Dann würde ich das / system von der Raidkarte mounten, eine chroot Umgebung damit schaffen und ggf. /boot mit einhängen. Dann vergleichen, ob es sich umden gleichen Kernel handelt und diesen ggf. inkl der benötigten Module tauschen. Eventuell mußt du auch die initrd neu bauen.

Gruß Ben

Mastodon