注意
本文档适用于 Ceph 开发版本。
故障模块
故障模块收集有关守护进程崩溃转储的信息,并将其存储在 Ceph 集群中以供后续分析。
启用
启用故障模块,通过运行以下命令: module by running the following command:
ceph mgr module enable crash
生成故障模块,通过运行以下命令:上传密钥,通过运行以下命令:
ceph auth get-or-create client.crash mon 'profile crash' mgr 'profile crash'
在每个节点上,您应该将此密钥存储在/etc/ceph/ceph.client.crash.keyring
.
自动收集
默认情况下,守护进程的崩溃转储被转储在/var/lib/ceph/crash
中;这可以通过选项“crash dir”进行配置。崩溃目录按时间日期和一个随机生成的 UUID 命名,并包含一个元数据文件“meta”和一个最近的日志文件,具有相同的“crash_id”。
这些崩溃可以通过使用ceph-crash.service
自动提交并保存在监控器的存储中。ceph crash post
.
ceph-crash
尝试一些认证名称:client.crash.$hostname
,
client.crash
和client.admin
.ceph crash post
上传,这些需要合适的权限:mon profile crash
和mgr profile crash
并且密钥环需要在/etc/ceph
.
命令
ceph crash post -i <metafile>
保存崩溃转储。元数据文件是一个存储在崩溃目录中的 JSON 对象,meta
. 通常,ceph 命令可以使用-i -
调用,并将从标准输入读取。
ceph crash rm <crashid>
删除特定的崩溃转储。
ceph crash ls
列出所有新和存档崩溃信息的 timestamp/uuid 崩溃 ID。
ceph crash ls-new
列出所有新崩溃信息的 timestamp/uuid 崩溃 ID。
ceph crash stat
显示按年龄分组保存的崩溃信息的摘要。
ceph crash info <crashid>
显示保存的崩溃的所有详细信息。
ceph crash prune <keep>
删除比“keep”天旧的保存崩溃。 <keep> 必须是一个整数。
ceph crash archive <crashid>
归档崩溃报告,使其不再被视为RECENT_CRASH
健康检查的一部分,并且不会出现在crash ls-new
输出中(它仍然会出现在crash ls
列)。
ceph crash archive-all
归档所有新的崩溃报告。
Options
mgr/crash/warn_recent_interval
[默认:2 周] 控制在触发RECENT_CRASH
健康警告方面的“最近”定义。mgr/crash/retain_interval
[默认:1 年] 控制集群在自动清除之前保留崩溃报告的时间长度。
由 Ceph 基金会带给您
Ceph 文档是一个社区资源,由非盈利的 Ceph 基金会资助和托管Ceph Foundation. 如果您想支持这一点和我们的其他工作,请考虑加入现在加入.