Mptsas-treber -Fehler

hardware
german

#1

Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681780] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681782] Write(10): 2a 00 1e 45 25 ea 00 00 18 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681789] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff88023613c7c0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681791] mptscsih: ioc0: attempting task abort! (sc=ffff88022e652180) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681794] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681795] Write(10): 2a 00 1e 45 26 42 00 00 90 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681802] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff88022e652180) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681804] mptscsih: ioc0: attempting task abort! (sc=ffff880236cfc880) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681807] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681809] Write(10): 2a 00 1e 45 26 da 00 00 b0 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681816] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff880236cfc880) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681818] mptscsih: ioc0: attempting task abort! (sc=ffff8801e970c9c0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681821] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681822] Write(10): 2a 00 1e 45 27 92 00 00 18 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681829] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff8801e970c9c0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681831] mptscsih: ioc0: attempting task abort! (sc=ffff88023613c4c0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681834] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681836] Write(10): 2a 00 1e 45 27 c2 00 00 08 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681842] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff88023613c4c0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681845] mptscsih: ioc0: attempting task abort! (sc=ffff88023613c6c0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681847] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681849] Write(10): 2a 00 1e 45 27 d2 00 00 20 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681856] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff88023613c6c0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681858] mptscsih: ioc0: attempting task abort! (sc=ffff880236487ec0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681861] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681862] Write(10): 2a 00 1e 45 27 fa 00 00 38 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681869] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff880236487ec0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681871] mptscsih: ioc0: attempting task abort! (sc=ffff8802353631c0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681874] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681876] Write(10): 2a 00 1e 45 28 3a 00 00 80 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681883] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff8802353631c0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681885] mptscsih: ioc0: attempting task abort! (sc=ffff880236cf8c80) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681888] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681889] Write(10): 2a 00 1e 45 28 c2 00 00 78 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681896] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff880236cf8c80) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681898] mptscsih: ioc0: attempting task abort! (sc=ffff880237609a80) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681901] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681903] Write(10): 2a 00 1e 45 29 4a 00 00 10 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681909] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff880237609a80) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681912] mptscsih: ioc0: attempting task abort! (sc=ffff880236cf8a80) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681914] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681916] Write(10): 2a 00 1e 45 29 62 00 00 28 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681923] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff880236cf8a80) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681925] mptscsih: ioc0: attempting task abort! (sc=ffff880204f59a80) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681928] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681930] Write(10): 2a 00 1e 45 29 92 00 00 58 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681937] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff880204f59a80) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681939] mptscsih: ioc0: attempting task abort! (sc=ffff8801e970cbc0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681942] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681943] Write(10): 2a 00 1e 45 29 fa 00 00 60 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681950] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff8801e970cbc0) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681952] mptscsih: ioc0: attempting task abort! (sc=ffff880236cf8480) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681955] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681957] Write(10): 2a 00 1e 45 2a 62 00 00 50 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681964] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff880236cf8480) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681966] mptscsih: ioc0: attempting task abort! (sc=ffff880235f3e480) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681969] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681970] Write(10): 2a 00 1e 45 2a c2 00 00 e0 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681977] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff880235f3e480) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681980] mptscsih: ioc0: attempting task abort! (sc=ffff880235f3e380) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681982] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681984] Write(10): 2a 00 1e 45 2b aa 00 00 38 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681991] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff880235f3e380) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681993] mptscsih: ioc0: attempting task abort! (sc=ffff880236cf8780) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681996] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.681998] Write(10): 2a 00 1e 45 2b ea 00 01 60 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.682005] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff880236cf8780) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.682007] mptscsih: ioc0: attempting task abort! (sc=ffff880235f3ec80) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.682010] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.682012] Write(10): 2a 00 1e 45 2d 5a 00 03 10 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026393.682018] mptscsih: ioc0: task abort: FAILED (rv=2003) (sc=ffff880235f3ec80) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.682047] mptscsih: ioc0: attempting target reset! (sc=ffff880237609280) Mar 25 07:02:07 mpi-mail3 kernel: [1026393.682050] sd 4:1:0:0: [sda] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026393.682051] Write(10): 2a 00 1e 44 89 b2 00 04 00 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026423.704159] mptscsih: ioc0: WARNING - Issuing Reset from mptscsih_IssueTaskMgmt!! doorbell=0x24000000 Mar 25 07:02:07 mpi-mail3 kernel: [1026423.704164] mptbase: ioc0: Initiating recovery Mar 25 07:02:07 mpi-mail3 kernel: [1026449.224456] mptscsih: ioc0: target reset: SUCCESS (sc=ffff880237609280) Mar 25 07:02:07 mpi-mail3 kernel: [1026452.549232] mptscsih: ioc0: attempting target reset! (sc=ffff880037c97dc0) Mar 25 07:02:07 mpi-mail3 kernel: [1026452.549239] sd 4:1:1:0: [sdb] CDB: Mar 25 07:02:07 mpi-mail3 kernel: [1026452.549241] Write(10): 2a 00 07 37 0f bf 00 04 00 00 Mar 25 07:02:07 mpi-mail3 kernel: [1026453.101941] mptscsih: ioc0: target reset: SUCCESS (sc=ffff880037c97dc0)

Das System
Primergy RX300 mit Controler LSI1068ESAS
UCS3.1.2 errata 55
Treiberversion mptsas 3.04.20
Kernel: 3.10.0-ucs43-amd

Symptom:
am 28. 2. Trat der Fehler auf.
mptscsih veranlasste BUS-Reset. Einige Stunden später war die Maschine eingefroren und konnte ihre lokalen Filesysteme nicht mehr ansprechen. (beim login immer ein init.d respwan)
Die Maschine wurde neu gestartet.
Der LSI-Controller konnte die Festplatten nicht ansprechen.
Die Maschine wurde stromlos gemacht und startete dann ohne Probleme.
Das wiederholte sich alle paar Tage. Es korreliert nicht mit Lastspitzen.
Der LSI-Controller wurde getauscht.
Danach lief die Maschine ca. 1 Woche bis heute morgen der Fehler wieder auftrat.
In einigen Foren wird von einem Fehlerhaften LSI-Controller-Treiber berichtet.
Dies erscheint unwahrscheinlich, da das System im November auf die UCS3 gehoben wurde und seitdem mit diesem Kernel bis zum 28.2. stabil lief.
lsiutil diagnostics ergab keine Hinweise auf die Ursache
mpt-status meldet, dass ioc0 und RAID in Ordnung sind.

Wir sind im Moment ein bisschen ratlos.
Entweder ist der getauschte Controller wiederum defekt oder es ist die Backplane bei den Festplattenkäfigen ein Problem mit dem mpt Fusion-Treiber.

Mit freundlichem Gruß

Thomas Baumann


#2

Hallo,

ich fürchte ohne Kontext zu diesen Meldungen (UCS Version, Kernel Version, Hardware, Beschreibung der Symptome) werden wir ihnen nicht helfen können.

Mit freundlichen Grüßen
Janis Meybohm


#3

Entschuldigen Sie
ich hatte in der Eile zu früh auf absenden gedrückt. Informationen stehen jetzt im beitrag.

Thomas Baumann


#4

Hallo,

gibt es zu diesem Problem eine Idee seitens Univention.

Mit freundlichem Gruß

Thomas Baumann


#5

Hallo,

bisher haben wir keine Meldungen dieser Art von anderen Kunden erhalten und das Verhalten bisher auch intern nicht beobachtet. Ich würde daher nicht von einem generellen Problem ausgehen, zumal entsprechende Meldungen in Bugtrackern und Mailinglisten alle verhältnissmäßig alt sind.
Ich vermute Firmware-Updates auf dem Controller haben Sie bereits geprüft?
Wenn das Problem auch mit einer neuen Backplane wieder auftritt kann evtl. der LSI-Support helfen.

Mit freundlichen Grüßen
Janis Meybohm


#6

Hallo,

Wir haben den RAID-Controller getauscht. Das hat leider keine Verbesserung gebracht.
Im Moment ist die Arbeitshypothese ein generelles Problem mit der Hardware entweder Mainboard oder Backplane der Festplatten.
Der Fujitsu-Support analysiert noch.

Mit freundlichem Gruß

Thomas Baumann


#7

Guten Morgen
Auf Anraten des Hardware-Supports haben wir eine Festplatte mit dem RAID-Status “prefail” getauscht. Das sollte die SCSI-Fehler auf dem BUS beenden.
Nun meldet der Controller:
4:1:0:0: strange observation, the queue depth is (64) meanwhile fw queue depth (65)
Kann das nicht doch ein Problem mit dem mpt-sas-treiber sein?

Schöner Gruß

Thomas Baumann


#8

Hallo,

die Meldung kommt aus dem Queue full event handling code des mpt Treibers, die Kommentare des Entwicklers dazu lassen weiterhin einen Hardware-Problem vermuten:

[quote=“Kashyap Desai”]
MPTSAS driver has support for QUEUE FULL event introduced in 2.6.31.
These prints are related to QUEUE FULL events messages.

If you remove below patch things may work fine for you.
git.kernel.org/cgit/linux/kernel … 55d225677e

Now coming to the real issue.
I am suspecting there may be IO errors with your drive coming very frequently.

QUEUE FULL event is coming from Firmware whenever any change happens in device queue depth. This will only
happens in IO error path. (We can think of flow control will kicked off when IO error occurs at firmware
level and they will inform Driver saying Queue full event).

In other words,
If you replace with newer SAS drive, things may work fine even with 2.6.31.

As you have mentioned that this SAS drive was previously used for striping, there may be possibility of poor
performance of your SAS drive.[/quote]

Mit freundlichen Grüßen
Janis Meybohm