Upgrage to 5.0-8 failed --> sda drive of Raid 1 broken

The recend update of the the UCS to 5.0-8 performed on a Proliant ML110 Server with P410 Raid 1 proceeded, but after reeboot the system reports faiture of sda.

System starts loading UCS konsole but aparently stopps.

Removig loglevel and showing the boot progress it seems the system tries to repair itself (maybe due to not finding root partition ?)

I am waiting for a replacement disk to revocer the sda, but if it does not work, I would like to recover user / computer profiles, settings, data (4 folders in /home made available via Samba to local network) and especially the database (xentral)

Where can I find and restore these data ?

Can I re- Install UCS, the installed Apps, copy these files back to the initial folders and the system will work again ?
Or is there a special procedure how I can backup and restore settings/ profiles / data / databases ?

Many thanks in advance

Hi,
as this is a normal Linux system based on debian you can try a “dd” on a separate machine to get a backup.

Habe leider nur den UCS, alles andere hier läuft unter Windows.
Probiere gerade zumindest die Daten aus den 4 Verzeichnissen über die Hiren CD auf eine USB Platte zu sichern.

Wenn ich neu installieren muss wäre es mir lieb nur die “entscheidenden” Verzeichnisse zu sichern, um sonst die original Konfigurationsdateinen der Neuinstallation beizubehalten, und nur die erforderlichen konfigurierten Dateien zurück zu schreiben.

Moin
ungewöhnlich das dies bei einem Raid 1 passiert, ist halt IT :slight_smile: In so einem Fall boote ich von einem Ubuntu Stick an dem entsprechendem Rechner und installiere mir smart Tools und ddrescue nach. Die Platten des Raid sollten an einer normalen SATA Schnittstelle hängen. Dann erst einmal prüfen, welche Fehler vorliegen oder ob beide einen Defekt haben. Dann mit dd_rescue die Fesptlatten 1:1 auf zwei andere kopieren. Auf der Kopie dann probieren mit einem fsck das System zu reparieren. Du kannst das natürlich auch in einem deiner anderen rechner machen, ggf auf einer HD schnell ein System mit den Tools einrichten, und dann dort die Platten einbauen.

Grüße aus Berlin
Ben

Hallo Ben, und Danke für Deinen Vorschlag.

Kann es mit dem Verweis im Bootmenü auf sda zusammen liegen das er das root Verzeichnis auf der defekten Platte sucht und nicht findet ?

Habe auch gelesen das UCS nicht mehr bootet wenn parallel ein Debian Linux installiert ist. UCS basiert doch auf Debian, kann die Störung durch eine Vorversion (vor dem Upgrade) von UCS entstanden sein, die beim Upgrade nicht richtig/ komplett deinstalliert wurde.

Bin noch dabei die Daten mit Linux reader auf ein NAS zu sichern, werde dann mal schauen ob ich eine komplette Sicherung mit dd_rescue auch aufs NAS hin bekomme.

Die bisherigen Platten sind SATA, die kann ich auch per USB an einen anderen Rechner hängen.

Habe jetzt neue SAS Platten bekommen, aber auf die will der Raid anscheinend nicht wiederherstellen.

Werde die mal in einen ML110 G6 einsetzen und schauen ob ich damit auch ein Raid 1 hin bekomme, und dieses dann in den G7 Server einsetzen. Vielleicht kann ich das Backup dann dorthin zurück spielen…

Hat jemand einen Tip wie ich am einfachsten über eine Boot-cd (hirens o.ä.) einen Dump meiner Datenbank ziehen kann ?

Danke im Vorraus

Jede Linux-Live-DVD ist prinzipiell geeignet. Da UCS auf Debian basiert würde ich ein Ubuntu-24.02 LTS Live System hochfahren und damit arbeiten, da Ubuntu bekanntlich auf Debian basiert.
Wer’s bunt mag kann auch eines der vielen Derivate, z.B. Kubuntu, nehmen.

Moin
wenn dein Raid 1 sauber gelaufen ist, sei es als Hardware Raid durch den P410 oder als Softraid im HBA Modus, sollte das System auch nur von einer Festplatte starten. Kommst du in das Grub Menü und kannst die UCS Kernel zum Starten aussuchen? Was steht in deiner grub.conf und was für eine Fehlermeldung bekommst du genau?
Solltest du eine lauffähige Platte mit deinem System haben, dann könntest du auch mit Veeam für Linux ein Backup anfertigen und dies dann auf dein neues Raid zurück spielen. Ohne das System näher zu kennen, ist es nicht leicht die richtigen Tips zu geben.

Gruß Ben

Moin,
Raid lief über den P410.
Habe jetzt nur noch die “zweite” Platte aus dem Raid drin, startet auch.
Habe im Boot Menü die nächste (nicht die neuste) “rescue” Version ausgewählt, und das System hat ohne Probleme gebootet, alle Daten und Daten bank da, und kann auch über die Konsole als auch über Xentral auf die Datenbank zugreifen.

Sieht für mich also danach aus, als wäre zum einen die “erste” Festplatte des Raids defekt (oder wird zumindest so ausgewiesen), aber auch das Update auf 5.0-8 nicht korrekt ausgeführt.

Die bisherigen Festplatten im Raid waren SATA. Habe jetzt die “erste” Platte mit einer mit gleicher Kapazität, jedoch SAS getauscht, diese wird auch mit identischer Kapazität ausgewiesen, jedoch auch sofort als defekt markiert - somit kein Wiederherstellen des Raids.

Werde dann mal mit Veeam ein Backup der “zweiten” Festplatte machen, zwei neue SAS Platten im Rais 0+1 einsetzen, und dann das Backup zurück spielen.

Bei der Auswahl der Systeme im rescue werden mit 5 weitere “ältere” Versionen (+ deren rescue) angeboten. Hatte die “neuste” der Versionen vor 5.0-8 im rescue gewählt, werde als nächsten mal die “normale” Version wählen.
Kann es sein das auf Grund dieser vielen Versionen zu dem Fehler kam ? Lt. neuer Dokumentation von 5.0-8
bootet UCS nicht mehr wenn parallel ein Debian Linux installiert ist. UCS basiert doch auf Debian, kann die Störung durch eine Vorversion (vor dem Upgrade) von UCS entstanden sein, die beim Upgrade nicht richtig/ komplett deinstalliert wurde?

Kann ich von den älteren Versionen welche entfernen ? Oder müssen die beibehalten werden ?

Wenn die “normale” letzte Version dann läuft. kann ich im Grub diese dann als “Standard” setzen, damit ich beim booten nicht jedes mal die letzte Funktionierende Version manuell auswählen muss ?

Hi @harryhe

We had a very similar issue. Hard drive failed during a linux-kernel update, all was working until next reboot when the exact thing happened.

If you can boot to the previous kernel, that’s a success.

Boot to the working kernel and do
dpkg --list | grep linux-image
Then force reinstall the latest listed image
apt-get --reinstall install linux-image-5.10-amd64 ← our current image 5.0-8 errata1085

If all goes well you should be able to boot to the updated image.

Hi @harryhe,

for me this sounds alike the problem I had a few days ago. Perhaps you will take look at
/dev/mapper/vg_ucs-root does not exist - Server boots into BusyBox

I also thought that my HD would be defective, but in the end it turned out that the kernel 5.10 installed with UCS 5.0-8 caused the problem. If your system starts with the previous kernel and runs smoothly, there is a good chance that it is not a hardware defect and the solution helps from the link above.

HTH & Good Luck
Dirk

Hi DHB,

I will check into this, but the RAID controller reported to me the failure of the drive.

I do not think that the kernel would influence the Raid to mark the drive as failed.

I have just placed the “first” HD back into the system, sounds like the recovery has started (at least the fan has increased rpm).

I will wait either until the fan speed lowers again or reboot in 3-4 hrs (this should be enough to recover a 4TB disk ?!?)

Hir @dzidek23 & @BenSommer

system is currently running in rescue mode of previous installation.

I will restart in normal mode of previous installation to see if that works and try your hint.

I have installed Veeam and backed up the complete disk yesterday afternoon, before I restart I have to clue out how to get the image of the Veeam boot disk to my Samba share to create a boot USB stick.

Wenn du einen Windows Rechner hast, lade dort das Image noch einmal und mit Rufus (rufus.ie) kannst du dann den Stick erstellen.

Viel Erfolg

Hi @dzidek23

I tried your solution but it did not work for my updated image.

System boots, displaying starting console window and then turns into black screen.

The image Grub boots in default is linux-image-5.10-deb10.30-amd64 so additionally with deb10.30 in the name.

with grep linux-image it shows me also linux-image-5.10-amd64 without the deb10.30

Should I try re-installation with the image without deb10.30 ?

Booting with the previous version still works, it shows me Version ist 5.0-8 errata1092

Thanks
Harald

Hi Harald,

If you have the linux-image-5.10 installed and yet it doesn’t boot I would go with what @DHB mentioned

See if disabling “intel_iommu=off” helps.
Also look at the thread as there’s plenty of useful information.

Mastodon