故障模块

故障模块收集有关守护进程崩溃转储的信息，并将其存储在 Ceph 集群中以供后续分析。

启用

启用故障模块，通过运行以下命令： module by running the following command:

ceph mgr module enable crash

生成故障模块，通过运行以下命令：上传密钥，通过运行以下命令：

ceph auth get-or-create client.crash mon 'profile crash' mgr 'profile crash'

在每个节点上，您应该将此密钥存储在/etc/ceph/ceph.client.crash.keyring.

自动收集

默认情况下，守护进程的崩溃转储被转储在/var/lib/ceph/crash中；这可以通过选项“crash dir”进行配置。崩溃目录按时间日期和一个随机生成的 UUID 命名，并包含一个元数据文件“meta”和一个最近的日志文件，具有相同的“crash_id”。

这些崩溃可以通过使用ceph-crash.service自动提交并保存在监控器的存储中。ceph crash post.

ceph-crash尝试一些认证名称：client.crash.$hostname, client.crash和client.admin.ceph crash post上传，这些需要合适的权限：mon profile crash和mgr profile crash并且密钥环需要在/etc/ceph.

命令

ceph crash post -i <metafile>

保存崩溃转储。元数据文件是一个存储在崩溃目录中的 JSON 对象，meta. 通常，ceph 命令可以使用-i -调用，并将从标准输入读取。

ceph crash rm <crashid>

删除特定的崩溃转储。

ceph crash ls

列出所有新和存档崩溃信息的 timestamp/uuid 崩溃 ID。

ceph crash ls-new

列出所有新崩溃信息的 timestamp/uuid 崩溃 ID。

ceph crash stat

显示按年龄分组保存的崩溃信息的摘要。

ceph crash info <crashid>

显示保存的崩溃的所有详细信息。

ceph crash prune <keep>

删除比“keep”天旧的保存崩溃。 <keep> 必须是一个整数。

ceph crash archive <crashid>

归档崩溃报告，使其不再被视为RECENT_CRASH健康检查的一部分，并且不会出现在crash ls-new输出中（它仍然会出现在crash ls列）。

ceph crash archive-all

归档所有新的崩溃报告。

Options

mgr/crash/warn_recent_interval[默认：2 周] 控制在触发RECENT_CRASH健康警告方面的“最近”定义。
mgr/crash/retain_interval[默认：1 年] 控制集群在自动清除之前保留崩溃报告的时间长度。

由 Ceph 基金会带给您

Ceph 文档是一个社区资源，由非盈利的 Ceph 基金会资助和托管Ceph Foundation. 如果您想支持这一点和我们的其他工作，请考虑加入现在加入.