Aerospike 建议您监控此处列出的指标。 有关指标的完整列表,请参阅 Metric Reference 。
除了监控 Aerospike 服务器的运行状况,您还应该监控集群服务器的硬件资源,例如可用磁盘空间、可用 RAM、交换和 CPU 使用率。
推荐的警报指标
clock_skew_stop_writes
位置:Namespace
版本:4.0
说明:如果 clock_skew_stop_writes 为 true
,发出严重报警。
确保时钟在集群中同步。
dead_partitions
位置:Namespace
版本:4.0
说明:如果 dead_partitions 不为零,发出严重报警。
如果您确定不存在潜在的数据不一致,或者数据不一致是可以接受的,请考虑发出 revive 和 recluster 命令。
device_available_pct
位置:Namespace
版本:3.9
说明:如果 device_available_pct 低于 20%,则应该对操作组员告警。这种情况可能表明碎片整理无法跟上当前负载。
如果 device_available_pct 低于 15%,应该发出严重报警。
如果 device_available_pct 低于 5%,则可用磁盘资源非常低。这种情况可能会导致 stop_writes 。
hwm_breached
位置:Namespace
版本:3.9
说明:如果 hwm_breached 为 true
,应该提醒您的操作组员内存或磁盘资源紧张。这种情况可能表明需要增加集群容量。
memory_free_pct
位置:Namespace
版本:3.9
说明:如果 memory_free_pct
接近 high-water-memory-pct
或 stop-writes-pct
的配置值,应该发出报警调查问题原因。出现这个问题可能表明需要减少对象数量或增加容量,如果使用二级索引,则可能需要进一步调查 memory_used_sindex_bytes
,如果使用 Set 索引,则需要进一步调查 memory_used_set_index_bytes
,如果数据存储在内存中,则需要调查 heap_efficiency_pct
。
pmem_available_pct
位置:Namespace
版本:4.8
说明:如果 pmem_available_pct 低于 20%,应该警告您的操作组员。这种情况可能表明碎片整理无法跟上当前负载。
如果 pmem_available_pct 低于 15%,应该发出严重报警。
如果 pmem_available_pct 低于 5%,则可用 PMEM 资源非常低。这种情况可能会导致 stop_writes 。
unavailable_partitions
位置:Namespace
版本:4.0
说明:如果 unavailable_partitions 不为零,应该严重报警。
检查网络问题并确保集群正确形成。
client_connections
位置:Statistics
说明:如果 client_connections
低于预期的低值, 那么这种情况可能表明客户端和服务器之间的网络存在问题。
如果 client_connections
高于预期的高值, 那么这种情况可能表明客户端快速打开和关闭套接字存在问题。
如果 client_connections
处于或接近 proto_fd_max , 那么 Aerospike 服务器要么当前无法接受新连接,要么很快就无法接受。
client_connections_opened
位置:Statistics
版本:5.6
说明:如果 client_connections_opened
在没有添加或删除客户端的情况下发生意外更改,或者工作负载发生了重大变化, 那么这种情况可能表明节点速度变慢或节点出现连接问题。
cluster_size
位置:Statistics
说明:如果 cluster_size 不等于预期的集群大小并且集群没有进行维护, 那么您的运营团队需要进行调查。
fabric_connections_opened
位置:Statistics
版本:5.6
说明:如果 fabric_connections_opened
发生意外变化,应该发出警报,因为这种情况表明节点或集群更改存在连接问题。
heartbeat_connections_opened
位置:Statistics
版本:5.6
说明:如果 heartbeat_connections_opened
发生意外变化,应该发出警报,因为这种情况表明节点或集群更改存在连接问题。
system_free_mem_kbytes
位置:Statistics
说明:如果 system_free_mem_kbytes
异常低, 那么这种情况表明服务器达到了可用 RAM 的限制。操作员应调查并可能需要添加节点或增加每个节点的 RAM。
system_free_mem_pct
位置:Statistics
说明:如果 system_free_mem_pct
异常低, 那么这种情况表明服务器达到了可用 RAM 的限制。操作员应调查并可能需要添加节点或增加每个节点的 RAM。
lag
位置:XDR - DC
版本:5.0.0
说明:如果 lag 始终大于几秒, 那么这种情况可能表明网络连接问题或目标集群写入错误。
其他监控指标
client_delete_error
位置:Namespace
版本:3.9
说明:client_delete_error
与 client_delete_success
比例。 如果比率高于可接受的, 然后警报操作员进行调查。
client_read_error
位置:Namespace
版本:3.9
说明:client_read_error
与 client_read_success
比例。 如果比率高于可接受的, 然后警报操作员进行调查。
client_udf_error
位置:Namespace
版本:3.9
说明:client_udf_error
与 client_udf_complete
比例。 如果比率高于可接受的, 然后警报操作员进行调查。
client_write_error
位置:Namespace
版本:3.9
说明:client_write_error
与 client_write_success
比例。 如果比率高于可接受的, 然后警报操作员进行调查。有关更多详细信息,请参阅 Understanding Client Write Errors。
index_flash_alloc_pct
位置:Namespace
版本:5.6
说明:如果 index_flash_alloc_pct
接近或高于 100%,应该提醒操作员检查命名空间的大小。
memory_used_bytes
位置:Namespace
版本:3.9
说明:used-bytes-memory 的趋势提现,可让操作员深入了解此命名空间的内存使用情况如何随时间变化。
scan-aggr-error
位置:Namespace
版本:3.9
说明:scan_aggr_error
和 scan_aggr_complete
比例。如果比率高于可接受的, 然后警报操作员进行调查。
scan_basic_error
位置:Namespace
版本:3.9
说明:scan_basic_error
和 scan_basic_complete
比例。如果比率高于可接受的, 然后警报操作员进行调查。
scan_ops_bg_error
位置:Namespace
版本:4.7
说明:scan_udf_bg_error
和 scan_udf_bg_complete
比例。如果比率高于可接受的, 然后警报操作员进行调查。
storage-engine.device[ix].defrag_q
位置:Namespace
版本:4.3
说明:根据存储配置,按照设备或按文件测算。如果 storage-engine.device[ix].defrag_q
或 storage-engine.file[ix].defrag_q
随着时间的推移继续增加, 然后提醒操作人员调查原因。
storage-engine.file[ix].write_q
位置:Namespace
版本:4.3
说明:根据存储配置,按照设备或按文件测算。如果 storage-engine.device[ix].write_q
或 storage-engine.file[ix].write_q
大于 1, 然后提醒操作人员调查原因。
batch_index_error
位置:Statistics
版本:3.9
说明:将 batch_index_error
与 batch_index_complete
进行比较,如果比率高于可接受的,应该警报操作员以进行调查。
heap_efficiency_pct
位置:Statistics
版本:3.10.1
说明:如果 heap_efficiency_pct
低于 60% 或 50%(取决于配置,然后建议您的运营小组进行调查。)
rw_in_progress
位置:Statistics
版本:3.9
说明:取决于预期的工作量。
如果 rw_in_progress
高于预期,或者如果随着时间的推移偏离预期值,超出可接受范围, 应该提醒操作人员调查原因。可能表示特定节点速度变慢或 fabric 过载。
abandoned
位置:XDR - DC
版本:5.0
说明:如果 abandoned 一直高于预期,应该提醒操作人员进行调查。
lap_us
位置:XDR - DC
版本:5.0
说明:如果 lap_us 一直高于预期,应该提醒操作人员进行调查。
latency_ms
位置:XDR - DC
版本:5.0
说明:根据配置,latency_ms
应该在 DC 之间链路的延迟范围内。如果 delay_ms
在集群之间的延迟(或已知的链路延迟)增加超过预期, 应该警报操作员进行调查。
recoveries
位置:XDR - DC
版本:5.0
说明:如果 recoveries 持续增加 ,应该警报操作人员进行调查。
recoveries_pending
位置:XDR - DC
版本:5.0
说明:如果 recovery_pending 增加超出预期 ,应该警报操作人员进行调查。
retry_conn_reset
位置:XDR - DC
版本:5.0
说明:如果 retry_conn_reset 增加超出预期 ,应该警报操作人员进行调查。
retry_dest
位置:XDR - DC
版本:5.0
说明:如果 retry_dest 增加超出预期 ,应该警报操作人员进行调查。
retry_no_node
位置:XDR - DC
版本:5.1
说明:如果 retry_no_node 增加超出预期 ,应该警报操作人员进行调查。
success
位置:XDR - DC
版本:5.0
说明:如果 success 低于预期 ,应该警报操作人员进行调查。