Выпадает ssd-диск из софт рейда, в чем может быть причина?
Привет
есть сервер с софтовым raid 1
из двух ssd-дисков 120G
Один из дисков временами выпадает из рейда и становится не доступным до перезагрузки, после перезагрузки вновь без ошибок возвращается в рейд. Не могу понять из-за чего
В messages такие ошибки
Sep 17 18:55:42 kernel: sd 3:0:0:0: [sdb] FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK Sep 17 18:55:42 kernel: sd 3:0:0:0: [sdb] CDB: ATA command pass through(16) 85 06 2c 00 da 00 00 00 00 00 4f 00 c2 00 b0 00 Sep 17 18:55:42 smartd[678]: Device: /dev/sdb [SAT], SLEEP mode ignored due to reached limit of skipped checks (10 checks skipped) Sep 17 18:55:42 smartd[678]: Device: /dev/sdb [SAT], not capable of SMART self-check Sep 17 18:55:42 smartd[678]: Device: /dev/sdb [SAT], failed to read SMART Attribute Data
Вывод smartctl, в то время когда он работает
Model: OCZ-ARC100 smartctl 6.4 2015-06-04 r4109 [x86_64-linux-4.8.5-alt490-amd64] (local build) Copyright © 2002-15, Bruce Allen, Christian Franke, www.smartmontools.org === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 18 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 5 Reallocated_Sector_Ct 0x0000 000 000 000 Old_age Offline — 0 9 Power_On_Hours 0x0000 100 100 000 Old_age Offline — 11019 12 Power_Cycle_Count 0x0000 100 100 000 Old_age Offline — 65 171 Unknown_Attribute 0x0000 100 100 000 Old_age Offline — 40596560 174 Unknown_Attribute 0x0000 100 100 000 Old_age Offline — 35 195 Hardware_ECC_Recovered 0x0000 100 100 000 Old_age Offline — 0 196 Reallocated_Event_Count 0x0000 100 100 000 Old_age Offline — 0 197 Current_Pending_Sector 0x0000 100 100 000 Old_age Offline — 0 208 Unknown_SSD_Attribute 0x0000 100 100 000 Old_age Offline — 59 210 Unknown_Attribute 0x0000 100 100 000 Old_age Offline — 0 224 Unknown_SSD_Attribute 0x0000 100 100 000 Old_age Offline — 1 233 Media_Wearout_Indicator 0x0000 099 099 000 Old_age Offline — 99 241 Total_LBAs_Written 0x0000 100 100 000 Old_age Offline — 2462 242 Total_LBAs_Read 0x0000 100 100 000 Old_age Offline — 1356 249 Unknown_Attribute 0x0000 100 100 000 Old_age Offline — 127297695
smartctl когда не работает
# smartctl -a /dev/sdb smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-514.26.2.el7.x86_64] (local build) Copyright © 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: /3:0:0:0 Product: User Capacity: 600,332,565,813,390,450 bytes [600 PB] Logical block size: 774843950 bytes >> Terminate command early due to bad response to IEC mode page A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
Подскажите пожалуйста в чем может быть причина
есть сервер с софтовым raid 1
из двух ssd-дисков 120G
Один из дисков временами выпадает из рейда и становится не доступным до перезагрузки, после перезагрузки вновь без ошибок возвращается в рейд. Не могу понять из-за чего
В messages такие ошибки
Sep 17 18:55:42 kernel: sd 3:0:0:0: [sdb] FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK Sep 17 18:55:42 kernel: sd 3:0:0:0: [sdb] CDB: ATA command pass through(16) 85 06 2c 00 da 00 00 00 00 00 4f 00 c2 00 b0 00 Sep 17 18:55:42 smartd[678]: Device: /dev/sdb [SAT], SLEEP mode ignored due to reached limit of skipped checks (10 checks skipped) Sep 17 18:55:42 smartd[678]: Device: /dev/sdb [SAT], not capable of SMART self-check Sep 17 18:55:42 smartd[678]: Device: /dev/sdb [SAT], failed to read SMART Attribute Data
Вывод smartctl, в то время когда он работает
Model: OCZ-ARC100 smartctl 6.4 2015-06-04 r4109 [x86_64-linux-4.8.5-alt490-amd64] (local build) Copyright © 2002-15, Bruce Allen, Christian Franke, www.smartmontools.org === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 18 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 5 Reallocated_Sector_Ct 0x0000 000 000 000 Old_age Offline — 0 9 Power_On_Hours 0x0000 100 100 000 Old_age Offline — 11019 12 Power_Cycle_Count 0x0000 100 100 000 Old_age Offline — 65 171 Unknown_Attribute 0x0000 100 100 000 Old_age Offline — 40596560 174 Unknown_Attribute 0x0000 100 100 000 Old_age Offline — 35 195 Hardware_ECC_Recovered 0x0000 100 100 000 Old_age Offline — 0 196 Reallocated_Event_Count 0x0000 100 100 000 Old_age Offline — 0 197 Current_Pending_Sector 0x0000 100 100 000 Old_age Offline — 0 208 Unknown_SSD_Attribute 0x0000 100 100 000 Old_age Offline — 59 210 Unknown_Attribute 0x0000 100 100 000 Old_age Offline — 0 224 Unknown_SSD_Attribute 0x0000 100 100 000 Old_age Offline — 1 233 Media_Wearout_Indicator 0x0000 099 099 000 Old_age Offline — 99 241 Total_LBAs_Written 0x0000 100 100 000 Old_age Offline — 2462 242 Total_LBAs_Read 0x0000 100 100 000 Old_age Offline — 1356 249 Unknown_Attribute 0x0000 100 100 000 Old_age Offline — 127297695
smartctl когда не работает
# smartctl -a /dev/sdb smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-514.26.2.el7.x86_64] (local build) Copyright © 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: /3:0:0:0 Product: User Capacity: 600,332,565,813,390,450 bytes [600 PB] Logical block size: 774843950 bytes >> Terminate command early due to bad response to IEC mode page A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
Подскажите пожалуйста в чем может быть причина
Похожие публикации
RAID1 и восстановление данных, кто отвечает за восстановление данных?
Опрос про подачу дисков SSD клиенту.
Помогите по Raid массивам
Как произвести горячую замену дисков в RAID1 с помощью mdadm в Ubuntu Server 10.04?
Как диагностирование состояние дисков в RAID в ESXi?
Нет комментариев