2024年1月8日发(作者:)

1 使用centos 6.2 等linux系统live cd引导设备。并安装LSI megacli命令包。

2 使用 MegaCli 来取得 RAID 卡下硬盘的信息:

然后使用下面的命令:

1 /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL

这样可以查出 RAID 卡下面的内容.会显示如下:

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

Enclosure Device ID: 252

Slot Number: 7

Device Id: 28

Sequence Number: 2

Media Error Count: 0

Other Error Count: 1

Predictive Failure Count: 0

Last Predictive Failure Event Seq Number: 0

PD Type: SATA

Raw Size: 119.242 GB [0xee7c2b0 Sectors]

Non Coerced Size: 118.742 GB [0xed7c2b0 Sectors]

Coerced Size: 118.277 GB [0xec8e000 Sectors]

Firmware state: Online, Spun Up

SAS Address(0): 0x1e394d57aa996b80

Connected Port Number: 7(path0)

Inquiry Data: 0303A99EC300-CTFDDAC128MAG 0007

FDE Capable: Not Capable

FDE Enable: Disable

Secured: Unsecured

Locked: Unlocked

Needs EKM Attention: No

Foreign State: None

Device Speed: 6.0Gb/s

Link Speed: 1.5Gb/s

Media Type: Solid State Device

注意上面几个地方,上面会输出很多这样的信息,只有 Media Type: Solid State Device .表示这是

SSD .其中 Device Id: 28 这个需要记下来.这个过一会使用 smartctl 查询时会需要.我们可以见到上面都显示了硬盘的型号:Inquiry Data:

0303A99EC300-CTFDDAC128MAG .另外还有一个标志告诉你这个 SSD 是不是正常的 Firmware state: Online,Spun Up 这个选项,所以如果你做 SSD 的监控报警,直接监控这个参数基本就行了.

接下来使用 smartctl 来取得 SSD 硬盘的详细信息

smartctl -a -d megaraid,28 /dev/sda1 -s on

这时,可能会显示如下的信息:

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE

1 Raw_Read_Error_Rate 0x002f 100 100 000 Pre-fail Always - 0

5 Reallocated_Sector_Ct 0x0033 100 100 000 Pre-fail Always - 0

9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 5572

12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 3

170 Grown_Failing_Block_Ct 0x0033 100 100 000 Pre-fail Always - 0

171 Program_Fail_Count 0x0032 100 100 000 Old_age Always - 0

172 Erase_Fail_Count 0x0032 100 100 000 Old_age Always - 0

173 Wear_Levelling_Count 0x0033 090 090 000 Pre-fail Always - 536

174 Unexpect_Power_Loss_Ct 0x0032 100 100 000 Old_age Always - 1

181 Non4k_Aligned_Access 0x0022 100 100 000 Old_age Always - 0 0 0

183 SATA_Iface_Downshift 0x0032 100 100 000 Old_age Always - 0

184 End-to-End_Error 0x0033 100 100 000 Pre-fail Always - 0

187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0

188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0

189 Factory_Bad_Block_Ct 0x000e 100 100 000 Old_age Always - 250

195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0

196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0

197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0

198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0

199 UDMA_CRC_Error_Count 0x0036 100 100 000 Old_age Always - 0

202 Perc_Rated_Life_Used 0x0018 090 090 000 Old_age Offline - 10

206 Write_Error_Rate 0x000e 100 100 000 Old_age Always - 0

SSD 是否健康的参数分析:

其实我们要看 SSD 是否健康,主要是要通过 Wear Leveling Count(颗粒平均擦写次数)这个参数和Grown Failling Block Ct这个参数.

注意看下面二行:

1 170 Grown_Failing_Block_Ct 0x0033 100 100 000 Pre-fail Always - 0

2 173 Wear_Levelling_Count 0x0033 090 090 000 Pre-fail Always - 536

上面二个参数是关键:

 Wear Levelling Count(颗粒平均擦写次数): 先讲这个参数.更加重要.先声明这个硬盘是使用了一年的 SSD 硬盘.图中显示的数据为536,即这块128G的硬盘的全盘写入/擦除(P/E)数为536 次,显示还有 90% 的寿命.所以大约这个硬盘使用的闪存颗粒的寿命为 5000 多次的样子.536 约为 5000 的 10% ,所以此项值为90(CA).

 Grown Failing Block Count(使用中新增坏块数): 此项代表 SSD 的闪存颗粒在使用时出现的坏块(类似于HDD的坏道)数量,此处数据为 0 即尚未有出现坏块,若你命不好.新购买回来 SSD 在正常使用时,很短的时间内这个数据产生较大变化,那代表盘可能有问题。

MegaCli常用参数组合介绍:

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

MegaCli -cfgdsply -aALL | grep “Error” 【正常都是0】

MegaCli -LDGetProp -Cache -LALL -a0 【写策略】

MegaCli -cfgdsply -aALL | grep “Memory” 【内存大小】

MegaCli -LDInfo -Lall -aALL 【查RAID级别】

MegaCli -AdpAllInfo -aALL 【查RAID卡信息】

MegaCli -PDList -aALL 【查看硬盘信息】

MegaCli -AdpBbuCmd -aAll 【查看电池信息】

MegaCli -FwTermLog -Dsply -aALL 【查看RAID卡日志】

MegaCli -adpCount 【显示适配器个数】

MegaCli -AdpGetTime –aALL 【显示适配器时间】

MegaCli -AdpAllInfo -aAll 【显示所有适配器信息】

MegaCli -LDInfo -LALL -aAll 【显示所有逻辑磁盘组信息】

MegaCli -PDList -aAll 【显示所有的物理信息】

MegaCli -AdpBbuCmd -GetBb