Aerospike 官方建议监控指标

Aerospike 建议您监控此处列出的指标。 有关指标的完整列表,请参阅 Metric Reference

除了监控 Aerospike 服务器的运行状况,您还应该监控集群服务器的硬件资源,例如可用磁盘空间、可用 RAM、交换和 CPU 使用率。

推荐的警报指标

clock_skew_stop_writes

位置:Namespace
版本:4.0
说明:如果 clock_skew_stop_writestrue,发出严重报警。
确保时钟在集群中同步。

dead_partitions

位置:Namespace
版本:4.0
说明:如果 dead_partitions 不为零,发出严重报警。
如果您确定不存在潜在的数据不一致,或者数据不一致是可以接受的,请考虑发出 reviverecluster 命令。

device_available_pct

位置:Namespace
版本:3.9
说明:如果 device_available_pct 低于 20%,则应该对操作组员告警。这种情况可能表明碎片整理无法跟上当前负载。
如果 device_available_pct 低于 15%,应该发出严重报警。
如果 device_available_pct 低于 5%,则可用磁盘资源非常低。这种情况可能会导致 stop_writes

hwm_breached

位置:Namespace
版本:3.9
说明:如果 hwm_breachedtrue,应该提醒您的操作组员内存或磁盘资源紧张。这种情况可能表明需要增加集群容量。

memory_free_pct

位置:Namespace
版本:3.9
说明:如果 memory_free_pct 接近 high-water-memory-pctstop-writes-pct 的配置值,应该发出报警调查问题原因。出现这个问题可能表明需要减少对象数量或增加容量,如果使用二级索引,则可能需要进一步调查 memory_used_sindex_bytes,如果使用 Set 索引,则需要进一步调查 memory_used_set_index_bytes,如果数据存储在内存中,则需要调查 heap_efficiency_pct

pmem_available_pct

位置:Namespace
版本:4.8
说明:如果 pmem_available_pct 低于 20%,应该警告您的操作组员。这种情况可能表明碎片整理无法跟上当前负载。
如果 pmem_available_pct 低于 15%,应该发出严重报警。
如果 pmem_available_pct 低于 5%,则可用 PMEM 资源非常低。这种情况可能会导致 stop_writes

unavailable_partitions

位置:Namespace
版本:4.0
说明:如果 unavailable_partitions 不为零,应该严重报警。
检查网络问题并确保集群正确形成。

client_connections

位置:Statistics
说明:如果 client_connections 低于预期的低值, 那么这种情况可能表明客户端和服务器之间的网络存在问题。
如果 client_connections 高于预期的高值, 那么这种情况可能表明客户端快速打开和关闭套接字存在问题。
如果 client_connections 处于或接近 proto_fd_max , 那么 Aerospike 服务器要么当前无法接受新连接,要么很快就无法接受。

client_connections_opened

位置:Statistics
版本:5.6
说明:如果 client_connections_opened 在没有添加或删除客户端的情况下发生意外更改,或者工作负载发生了重大变化, 那么这种情况可能表明节点速度变慢或节点出现连接问题。

cluster_size

位置:Statistics
说明:如果 cluster_size 不等于预期的集群大小并且集群没有进行维护, 那么您的运营团队需要进行调查。

fabric_connections_opened

位置:Statistics
版本:5.6
说明:如果 fabric_connections_opened 发生意外变化,应该发出警报,因为这种情况表明节点或集群更改存在连接问题。

heartbeat_connections_opened

位置:Statistics
版本:5.6
说明:如果 heartbeat_connections_opened 发生意外变化,应该发出警报,因为这种情况表明节点或集群更改存在连接问题。

system_free_mem_kbytes

位置:Statistics
说明:如果 system_free_mem_kbytes 异常低, 那么这种情况表明服务器达​​到了可用 RAM 的限制。操作员应调查并可能需要添加节点或增加每个节点的 RAM。

system_free_mem_pct

位置:Statistics
说明:如果 system_free_mem_pct 异常低, 那么这种情况表明服务器达​​到了可用 RAM 的限制。操作员应调查并可能需要添加节点或增加每个节点的 RAM。

lag

位置:XDR - DC
版本:5.0.0
说明:如果 lag 始终大于几秒, 那么这种情况可能表明网络连接问题或目标集群写入错误。


其他监控指标

client_delete_error

位置:Namespace
版本:3.9
说明:client_delete_errorclient_delete_success 比例。 如果比率高于可接受的, 然后警报操作员进行调查。

client_read_error

位置:Namespace
版本:3.9
说明:client_read_errorclient_read_success 比例。 如果比率高于可接受的, 然后警报操作员进行调查。

client_udf_error

位置:Namespace
版本:3.9
说明:client_udf_errorclient_udf_complete 比例。 如果比率高于可接受的, 然后警报操作员进行调查。

client_write_error

位置:Namespace
版本:3.9
说明:client_write_errorclient_write_success 比例。 如果比率高于可接受的, 然后警报操作员进行调查。有关更多详细信息,请参阅 Understanding Client Write Errors

index_flash_alloc_pct

位置:Namespace
版本:5.6
说明:如果 index_flash_alloc_pct 接近或高于 100%,应该提醒操作员检查命名空间的大小。

memory_used_bytes

位置:Namespace
版本:3.9
说明:used-bytes-memory 的趋势提现,可让操作员深入了解此命名空间的内存使用情况如何随时间变化。

scan-aggr-error

位置:Namespace
版本:3.9
说明:scan_aggr_errorscan_aggr_complete 比例。如果比率高于可接受的, 然后警报操作员进行调查。

scan_basic_error

位置:Namespace
版本:3.9
说明:scan_basic_errorscan_basic_complete 比例。如果比率高于可接受的, 然后警报操作员进行调查。

scan_ops_bg_error

位置:Namespace
版本:4.7
说明:scan_udf_bg_errorscan_udf_bg_complete 比例。如果比率高于可接受的, 然后警报操作员进行调查。

storage-engine.device[ix].defrag_q

位置:Namespace
版本:4.3
说明:根据存储配置,按照设备或按文件测算。如果 storage-engine.device[ix].defrag_qstorage-engine.file[ix].defrag_q 随着时间的推移继续增加, 然后提醒操作人员调查原因。

storage-engine.file[ix].write_q

位置:Namespace
版本:4.3
说明:根据存储配置,按照设备或按文件测算。如果 storage-engine.device[ix].write_qstorage-engine.file[ix].write_q 大于 1, 然后提醒操作人员调查原因。

batch_index_error

位置:Statistics
版本:3.9
说明:将 batch_index_errorbatch_index_complete 进行比较,如果比率高于可接受的,应该警报操作员以进行调查。

heap_efficiency_pct

位置:Statistics
版本:3.10.1
说明:如果 heap_efficiency_pct 低于 60% 或 50%(取决于配置,然后建议您的运营小组进行调查。)

rw_in_progress

位置:Statistics
版本:3.9
说明:取决于预期的工作量。
如果 rw_in_progress 高于预期,或者如果随着时间的推移偏离预期值,超出可接受范围, 应该提醒操作人员调查原因。可能表示特定节点速度变慢或 fabric 过载。

abandoned

位置:XDR - DC
版本:5.0
说明:如果 abandoned 一直高于预期,应该提醒操作人员进行调查。

lap_us

位置:XDR - DC
版本:5.0
说明:如果 lap_us 一直高于预期,应该提醒操作人员进行调查。

latency_ms

位置:XDR - DC
版本:5.0
说明:根据配置,latency_ms 应该在 DC 之间链路的延迟范围内。如果 delay_ms 在集群之间的延迟(或已知的链路延迟)增加超过预期, 应该警报操作员进行调查。

recoveries

位置:XDR - DC
版本:5.0
说明:如果 recoveries 持续增加 ,应该警报操作人员进行调查。

recoveries_pending

位置:XDR - DC
版本:5.0
说明:如果 recovery_pending 增加超出预期 ,应该警报操作人员进行调查。

retry_conn_reset

位置:XDR - DC
版本:5.0
说明:如果 retry_conn_reset 增加超出预期 ,应该警报操作人员进行调查。

retry_dest

位置:XDR - DC
版本:5.0
说明:如果 retry_dest 增加超出预期 ,应该警报操作人员进行调查。

retry_no_node

位置:XDR - DC
版本:5.1
说明:如果 retry_no_node 增加超出预期 ,应该警报操作人员进行调查。

success

位置:XDR - DC
版本:5.0
说明:如果 success 低于预期 ,应该警报操作人员进行调查。