问题现象:
Ceph集群(filestore版本)使用一段时间,有时候会产生告警如下:
cluster 79d9b290-3261-4607-9a16-858e78d776b5 health HEALTH_WARN mon.node-1 store is getting too big! 15360 MB >= 15360 MB主要原因:
1.一方面集群使用时间过久,mon有大量的数据更新,导致mon的数据库leveldb超过15G大小。
2.另一方面leveldb的数据存储机制本身结构化问题,当mon有大量的更新时,数据库文件确认处理的效率不高导致。
解决途径:
node节点的leveldb数据库过大,超过默认的15G大小所致。可以采用数据库压缩的方法进行压缩,并同时修改该数据大小为20G(根据以往的经验,压缩只能暂时的解决告警,为了长远考虑,调整数据库总的可用空间大小)。
操作步骤
以node-1节点数据库too big为例:
mon.node-1 store is getting too big!du -sh /var/lib/ceph/mon/ceph-node-1/ceph tell mon.node-1 compactceph tell mon.node-1 injectargs "--mon-data-size-warn 21474836480"ceph daemon ???/var/run/ceph/ceph-mon.node-1.asok config show | grep mon_data_size_warnmon_data_size_warn = 21474836480