注意

本文档适用于 Ceph 开发版本。

故障模块

故障模块收集有关守护进程崩溃转储的信息,并将其存储在 Ceph 集群中以供后续分析。

启用

启用故障模块,通过运行以下命令: module by running the following command:

ceph mgr module enable crash

生成故障模块,通过运行以下命令:上传密钥,通过运行以下命令:

ceph auth get-or-create client.crash mon 'profile crash' mgr 'profile crash'

在每个节点上,您应该将此密钥存储在/etc/ceph/ceph.client.crash.keyring.

自动收集

默认情况下,守护进程的崩溃转储被转储在/var/lib/ceph/crash中;这可以通过选项“crash dir”进行配置。崩溃目录按时间日期和一个随机生成的 UUID 命名,并包含一个元数据文件“meta”和一个最近的日志文件,具有相同的“crash_id”。

这些崩溃可以通过使用ceph-crash.service自动提交并保存在监控器的存储中。ceph crash post.

ceph-crash尝试一些认证名称:client.crash.$hostname, client.crashclient.admin.ceph crash post上传,这些需要合适的权限:mon profile crashmgr profile crash并且密钥环需要在/etc/ceph.

命令

ceph crash post -i <metafile>

保存崩溃转储。元数据文件是一个存储在崩溃目录中的 JSON 对象,meta. 通常,ceph 命令可以使用-i -调用,并将从标准输入读取。

ceph crash rm <crashid>

删除特定的崩溃转储。

ceph crash ls

列出所有新和存档崩溃信息的 timestamp/uuid 崩溃 ID。

ceph crash ls-new

列出所有新崩溃信息的 timestamp/uuid 崩溃 ID。

ceph crash stat

显示按年龄分组保存的崩溃信息的摘要。

ceph crash info <crashid>

显示保存的崩溃的所有详细信息。

ceph crash prune <keep>

删除比“keep”天旧的保存崩溃。 <keep> 必须是一个整数。

ceph crash archive <crashid>

归档崩溃报告,使其不再被视为RECENT_CRASH健康检查的一部分,并且不会出现在crash ls-new输出中(它仍然会出现在crash ls列)。

ceph crash archive-all

归档所有新的崩溃报告。

Options

  • mgr/crash/warn_recent_interval[默认:2 周] 控制在触发RECENT_CRASH健康警告方面的“最近”定义。

  • mgr/crash/retain_interval[默认:1 年] 控制集群在自动清除之前保留崩溃报告的时间长度。

由 Ceph 基金会带给您

Ceph 文档是一个社区资源,由非盈利的 Ceph 基金会资助和托管Ceph Foundation. 如果您想支持这一点和我们的其他工作,请考虑加入现在加入.