Aerospike 官方建议监控指标

Aerospike 建议您监控此处列出的指标。有关指标的完整列表，请参阅 Metric Reference 。

除了监控 Aerospike 服务器的运行状况，您还应该监控集群服务器的硬件资源，例如可用磁盘空间、可用 RAM、交换和 CPU 使用率。

其他监控指标

client_delete_error

位置：Namespace
版本：3.9
说明：client_delete_error 与 client_delete_success 比例。如果比率高于可接受的，然后警报操作员进行调查。

client_read_error

位置：Namespace
版本：3.9
说明：client_read_error 与 client_read_success 比例。如果比率高于可接受的，然后警报操作员进行调查。

client_udf_error

位置：Namespace
版本：3.9
说明：client_udf_error 与 client_udf_complete 比例。如果比率高于可接受的，然后警报操作员进行调查。

client_write_error

位置：Namespace
版本：3.9
说明：client_write_error 与 client_write_success 比例。如果比率高于可接受的，然后警报操作员进行调查。有关更多详细信息，请参阅 Understanding Client Write Errors。

index_flash_alloc_pct

位置：Namespace
版本：5.6
说明：如果 index_flash_alloc_pct 接近或高于 100%，应该提醒操作员检查命名空间的大小。

memory_used_bytes

位置：Namespace
版本：3.9
说明：used-bytes-memory 的趋势提现，可让操作员深入了解此命名空间的内存使用情况如何随时间变化。

scan-aggr-error

位置：Namespace
版本：3.9
说明：scan_aggr_error 和 scan_aggr_complete 比例。如果比率高于可接受的，然后警报操作员进行调查。

scan_basic_error

位置：Namespace
版本：3.9
说明：scan_basic_error 和 scan_basic_complete 比例。如果比率高于可接受的，然后警报操作员进行调查。

scan_ops_bg_error

位置：Namespace
版本：4.7
说明：scan_udf_bg_error 和 scan_udf_bg_complete 比例。如果比率高于可接受的，然后警报操作员进行调查。

storage-engine.device[ix].defrag_q

位置：Namespace
版本：4.3
说明：根据存储配置，按照设备或按文件测算。如果 storage-engine.device[ix].defrag_q 或 storage-engine.file[ix].defrag_q 随着时间的推移继续增加，然后提醒操作人员调查原因。

storage-engine.file[ix].write_q

位置：Namespace
版本：4.3
说明：根据存储配置，按照设备或按文件测算。如果 storage-engine.device[ix].write_q 或 storage-engine.file[ix].write_q 大于 1，然后提醒操作人员调查原因。

batch_index_error

位置：Statistics
版本：3.9
说明：将 batch_index_error 与 batch_index_complete 进行比较，如果比率高于可接受的，应该警报操作员以进行调查。

heap_efficiency_pct

位置：Statistics
版本：3.10.1
说明：如果 heap_efficiency_pct 低于 60% 或 50%（取决于配置，然后建议您的运营小组进行调查。）

rw_in_progress

位置：Statistics
版本：3.9
说明：取决于预期的工作量。
如果 rw_in_progress 高于预期，或者如果随着时间的推移偏离预期值，超出可接受范围，应该提醒操作人员调查原因。可能表示特定节点速度变慢或 fabric 过载。

abandoned

位置：XDR - DC
版本：5.0
说明：如果 abandoned 一直高于预期，应该提醒操作人员进行调查。

lap_us

位置：XDR - DC
版本：5.0
说明：如果 lap_us 一直高于预期，应该提醒操作人员进行调查。

latency_ms

位置：XDR - DC
版本：5.0
说明：根据配置，latency_ms 应该在 DC 之间链路的延迟范围内。如果 delay_ms 在集群之间的延迟（或已知的链路延迟）增加超过预期，应该警报操作员进行调查。

recoveries

位置：XDR - DC
版本：5.0
说明：如果 recoveries 持续增加，应该警报操作人员进行调查。

recoveries_pending

位置：XDR - DC
版本：5.0
说明：如果 recovery_pending 增加超出预期，应该警报操作人员进行调查。

retry_conn_reset

位置：XDR - DC
版本：5.0
说明：如果 retry_conn_reset 增加超出预期，应该警报操作人员进行调查。

retry_dest

位置：XDR - DC
版本：5.0
说明：如果 retry_dest 增加超出预期，应该警报操作人员进行调查。

retry_no_node

位置：XDR - DC
版本：5.1
说明：如果 retry_no_node 增加超出预期，应该警报操作人员进行调查。

success

位置：XDR - DC
版本：5.0
说明：如果 success 低于预期，应该警报操作人员进行调查。

推荐的警报指标

clock_skew_stop_writes

dead_partitions

device_available_pct

hwm_breached

memory_free_pct

pmem_available_pct

unavailable_partitions

client_connections

client_connections_opened

cluster_size

fabric_connections_opened

heartbeat_connections_opened

system_free_mem_kbytes

system_free_mem_pct

lag