博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hardware Error 内存报错
阅读量:6938 次
发布时间:2019-06-27

本文共 2784 字,大约阅读时间需要 9 分钟。

192.168.219.90 使用 dmesg|grep -i error 查看时发现这台机器内存有问题,如下图所示:

[Hardware Error]: MC4 Error (node 1): L3 cache tag error.
[Hardware Error]: Error Status: Corrected error, no action required.

[Hardware Error]: MC4_ADDR: 0x00000018edfd9100

[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP
[Hardware Error]: MC4 Error (node 2): DRAM ECC error detected on the NB.
EDAC amd64 MC2: CE ERROR_ADDRESS= 0x8cf6cb900
[Hardware Error]: Error Status: Corrected error, no action required.

[Hardware Error]: MC4_ADDR: 0x00000008cf6cb900

[Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)
[Hardware Error]: MC4 Error (node 2): DRAM ECC error detected on the NB.
EDAC amd64 MC2: CE ERROR_ADDRESS= 0x8cf6cb900
[Hardware Error]: Error Status: Corrected error, no action required.

[Hardware Error]: MC4_ADDR: 0x00000008cf6cb900

[Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)

进一步查询发现是第5条内存有问题,需要联系私有云那边报修。

grep [0-9] /sys/devices/system/edac/mc/mc/csrow/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow2/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow2/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow2/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow2/ch1_ce_count:0
/sys/devices/system/edac/mc/mc2/csrow2/ch0_ce_count:146
/sys/devices/system/edac/mc/mc2/csrow2/ch1_ce_count:0
/sys/devices/system/edac/mc/mc3/csrow2/ch0_ce_count:0
/sys/devices/system/edac/mc/mc3/csrow2/ch1_ce_count:0
/sys/devices/system/edac/mc/mc4/csrow2/ch0_ce_count:0
/sys/devices/system/edac/mc/mc4/csrow2/ch1_ce_count:0
/sys/devices/system/edac/mc/mc5/csrow2/ch0_ce_count:0
/sys/devices/system/edac/mc/mc5/csrow2/ch1_ce_count:0
/sys/devices/system/edac/mc/mc6/csrow2/ch0_ce_count:0
/sys/devices/system/edac/mc/mc6/csrow2/ch1_ce_count:0
/sys/devices/system/edac/mc/mc7/csrow2/ch0_ce_count:0
/sys/devices/system/edac/mc/mc7/csrow2/ch1_ce_count:0

count不为0的行即代表存在内存错误。

mc:第几个CPU。
csrow
:内存通道。
ch*:通道内的第几根内存。

然后通过dmidecode查看:

[root@customer log]# dmidecode -t memory |grep 'Locator: DIMM'

Locator: DIMM01
Locator: DIMM02
Locator: DIMM03
Locator: DIMM04
Locator: DIMM05
Locator: DIMM06
Locator: DIMM07
Locator: DIMM08
Locator: DIMM09
Locator: DIMM10
Locator: DIMM11
Locator: DIMM12
Locator: DIMM13
Locator: DIMM14
Locator: DIMM15
Locator: DIMM16
Locator: DIMM17
Locator: DIMM18
Locator: DIMM19
Locator: DIMM20
Locator: DIMM21
Locator: DIMM22
Locator: DIMM23
Locator: DIMM24
Locator: DIMM25
Locator: DIMM26
Locator: DIMM27
Locator: DIMM28
Locator: DIMM29
Locator: DIMM30
Locator: DIMM31
Locator: DIMM32
通过服务器控制台查看内存:
Hardware Error 内存报错

主板上内存插槽的分布:

Hardware Error 内存报错

结合报错日志:kernel: EDAC MC1: 16107 CE error on CPU#1Channel#2_DIMM#1 (channel:2slot:1

应该是内存插槽DIMM_F1的问题。

解决:

最后我们要做的就是,把有问题的F1插槽上的内存拔出来或是更换到其它的内存插槽上面,之后系统启动后不再报错。

转载于:https://blog.51cto.com/linushai/2063768

你可能感兴趣的文章
总结自己常用的Eclipse常用快捷键
查看>>
linux系统启动流程
查看>>
VMware vSphere 6简单部署---VCSA( vCenter Server Appliance)部署
查看>>
Spring MVC如何把全局异常记录到日志中?
查看>>
Mysql创建表过程中报1064错误
查看>>
陈松松:视频营销高手悟透的三个持续赚钱的秘诀
查看>>
Linux下配置Apache最大连接数
查看>>
linux复制指定目录下的全部文件到另一个目录中
查看>>
grafana 监控模板监控系统启动时间
查看>>
2014对自己的规划
查看>>
Ajax简单示例应用,一看就会用!
查看>>
我的友情链接
查看>>
hbase的预region分区 脚本 经典
查看>>
我的友情链接
查看>>
Firefox 52 发大招:正式支持 TLS 1.3
查看>>
Django之单元测试
查看>>
Exchange Server 内部版本号和发行日期汇总
查看>>
2015.10.10信息系统项目管理师作业
查看>>
我的友情链接
查看>>
mrtg流量波动大
查看>>