Criando e Gerenciando Alarmes
V1.1 – Dezembro 2023
Versão | Autor | Descrição |
---|---|---|
V1.0 – 2023-12-20 | Diogo Hatz 50037923 | Versão Inicial |
V1.0 – 2023-12-21 | Wisley da Silva 00830850 | Revisão do Documento |
Introdução
O Cloud Eye (CES) é uma ferramenta gratuita para o monitoramento de recursos da Huawei Cloud. Além do monitoramento de recursos, o Cloud Eye também pode ser utilizado para criar alarmes baseados em eventos ou métricas, identificar o mau funcionamento de recursos e rapidamente reagir à mudança de recursos. Vale ressaltar que, por mais que o Cloud Eye seja um serviço gratuito, as cobranças geradas pelo envio de notificações ao disparar alarmes são cobradas.
Este documento tem como objetivo descrever as principais funcionalidades do serviço Cloud Eye e guiar o leitor a utilizar o CES para o monitoramento de recursos da nuvem, como ECSs, VPNs e CBRs etc. Ademais, também é descrito como criar alarmes baseados em eventos ou métricas e customizar dashboards para o monitoramento de recursos.
Cloud Eye no console
Overview
Ao abrir o Cloud Eye no console, a página inicial que será carregada é a Overview, na qual é possível ter uma visão geral de todos os recursos utilizados na Huawei Cloud, a utilização geral de rede, CPU, memória e disco e quais recursos dispararam alarmes recentemente e precisam de uma maior atenção.
-
Visão geral dos recursos: Permite a visualização do número total de recursos monitorados e os alarmes gerados para esses recursos.
-
Estatística dos alarmes: Mostra os alarmes disparados nos últimos sete dias por severidade do alarme.
-
Monitoramento de servidores: Permite a visualização da utilização geral de CPU e memória dos servidores monitorados e uma lista do top 5 ECSs ranqueados pela utilização de CPU ou memória.
-
Monitoramento de rede: Mostra a utilização geral de largura de banda de EIPs e uma lista do top 5 EIPs ranqueados por utilização de largura de banda.
-
Monitoramento de armazenamento: Permite a visualização da utilização geral de disco (EVS) por IOPS de leitura e escrita e uma lista do top 5 discos ranqueados por IOPS.
É possível ter uma visão de como a página inicial do Cloud Eye é nas imagens abaixo:
Grupos de recurso
Os grupos de recursos viabilizam o agrupamento de diversos recursos da Huawei Cloud para o seu monitoramento em conjunto, além de facilitar a gestão de alarmes para diversos recursos em lote.
Um grupo de recursos pode ser criado na seção Resource Groups, clicando em Create Resource Group.
Na página carregada, escolha um nome para o grupo de recursos em Name e selecione os recursos a serem adicionados ao grupo por serviço. Após adicionar todos os recursos desejados, clique em Create.
É possível criar alarmes para um grupo de recursos específico, facilitando a criação de alarmes em lote para múltiplos recursos que compartilhem um mesmo contexto.
Gestão de alarmes
A seção relativa à gestão de alarmes possui as seguintes subseções:
-
Regras de alarme: Subseção utilizada para visualizar e criar alarmes baseados em métricas ou eventos.
-
Histórico de alarmes: Subseção utilizada para visualizar os alarmes disparados.
-
Template de alarmes: Subseção relativa à visualização de templates para alarmes.
-
Monitoramento em um clique: Subseção que permite a habilitação de monitoramento para eventos comuns de serviços
-
Máscara de alarme: Subseção que permite a criação de máscaras de alarmes para que alarmes disparados não sejam notificados.
Criação de um alarme
Para criar um alarme para determinado recurso baseado em um evento ou métrica, navegue para a seção Alarm Rules, em Alarm Management e clique em Create Alarm Rule.
Configure os ajustes básicos do alarme, como o nome do alarme em Name e o tipo de recurso que será monitorado em Resource Type, assim como o seu escopo em Dimension. Para configurar um alarme para uma ECS, por exemplo, o Resource Type é Elastic Cloud Server e a Dimension é ECSs.
Caso a condição de disparo do alarme seja uma métrica, como por exemplo a taxa de utilização da CPU ou memória da ECS, selecione Metric em Alarm Type. Já caso a condição de disparo do alarme seja um evento, como por exemplo o evento de uma GPU não instalada, selecione Event no campo Alarm Type. Neste exemplo, a métrica para disparar o alarme será a utilização da CPU da ECS acima de 80%.
Em Monitoring Scope, o recurso específico que irá disparar o alarme precisa ser configurado. É possível selecionar o recurso de três formas distintas:
-
All resources: Selecione essa opção caso o alarme poderá ser disparado por todas as instâncias do recurso selecionado.
-
Rresource groups: Selecione essa opção caso o alarme poderá ser disparado por todos os recursos presentes em um grupo de recursos. Ver seção 3.3.
-
Specific resources: Selecione essa opção para escolher uma instância específica do serviço selecionado para disparar o alarme.
Neste exemplo, a ECS “ecs-4194” será selecionada como a instância que poderá disparar o alarme no campo Specific resources em Monitoring Scope.
Há três formas distintas de configurar a métrica que irá disparar o alarme em Method:
-
Associate template: Nesta opção, a métrica para disparar o alarme será configurada com base em um template já existente.
-
Use existing template: Nesta opção, a métrica para disparar o alarme será configurada com base em um template já existente.
-
Configure manually: Nesta opção, a métrica para disparar o alarme será configurada manualmente, o que permite uma maior flexibilidade.
Neste exemplo, a métrica que será configurada para disparar o alarme será caso a utilização de CPU da ECS seja superior ou igual a 80%. Em Metric Name é possível selecionar a métrica que poderá disparar o alarme, como neste caso é (Agent) CPU Usage (Recommended). Para esta opção ser selecionada, é necessário que o agente do Cloud Eye seja instalado, como feito na seção 3.5. É importante que o agente seja instalado em servidores monitorados para obter uma melhor precisão no monitoramento dos dados e uma gama maior de métricas de monitoramento.
Em Alarm Policy é possível selecionar o tipo de dado que será analisado, como dados brutos, média, máximo, mínimo, variância ou soma dos dados ingeridos; assim como a porcentagem que irá disparar o alarme e a forma de comparação, como maior ou igual, maior, menor, menor ou igual, aumento em relação à ou decremento em relação à.
Na seção Alarm Notification é possível configurar uma notificação para os alarmes disparados por e-mail, SMS, requests HTTP e HTTPS ou então por meio de um trigger no FunctionGraph. Caso a notificação somente precise ser encaminhada no e-mail do dono da conta do console da Huawei Cloud, é possível selecionar a opção Account contact em Notification Object diretamente. Neste exemplo, um segundo e-mail será configurado para receber as notificações dos alarmes do Cloud Eye. Para isso, é necessário primeiro ativar o serviço Short Message Notification (SMN).
Clique em Topics para visualizar os tópicos de notificação criados.
Clique em Create Topic para criar um tópico de notificações.
Digite o nome do tópico das notificações em Topic Name e clique em OK.
Em seguida, clique em Add Subscription para adicionar um canal de comunicações pelo qual a notificação será enviada.
Em seguida, escolha o protocolo de envio da notificação, neste caso Email, e digite o e-mail escolhido em Endpoints. Clique em OK.
Um e-mail será enviado para o endpoint selecionado. Para que o serviço SMN funcione corretamente, faz-se necessário que o usuário confirme o seu e-mail através de uma confirmação que será enviada assim que a Subscription for configurada.
Voltando para a criação do alarme, selecione o tópico criado nas etapas anteriores em Notification Object e configure a janela de horários em que a notificação pode ser enviada em Notification Window. Ademais, também selecione as ocasiões em que a notificação será enviada na seção Trigger Condition: quando o alarme é gerado ou quando o alarme é limpo. Após configurado, selecione Create para criar o alarme.
Em Alarm Rules é possível ver os alarmes criados e os seus status, assim como o recurso que é monitorado e a política de ativação do alarme.
Após um alarme ser disparado, é possível consulta-lo na seção Alarm Records em Alarm Management.
Também é possível visualizar a notificação gerada pelo alarme no endpoint escolhido para o envio da notificação no serviço SMN. Em um outro contexto, o seguinte e-mail foi gerado para o monitoramento de um bucket no serviço OBS para armazenamento de objetos na Huawei Cloud:
As tabelas referentes às métricas e eventos monitorados para os serviços de ECS, VPN, NAT e CBR da Huawei Cloud foram incluídas na seção 4.0 de anexos deste documento. Para criar alarmes baseados em eventos ou métricas para esses serviços, o procedimento é o mesmo do descrito acima.
Anexos
Métricas de monitoramento de servidores
Métricas | Sem agente | Agente instalado |
---|---|---|
Uso de CPU | Sim | Sim / Dedicado |
Uso de disco | Sim | Sim |
Uso de memória | Sim | Sim / Dedicado |
Largura de banda de escrita em disco | Sim | Sim |
Largura de banda de leitura em disco | Sim | Sim |
IOPS de escrita em disco | Sim | Sim |
IOPS de leitura em disco | Sim | Sim |
Taxa de entrada em banda | Sim | Sim |
Taxa de saída em banda | Sim | Sim |
Taxa de entrada fora de banda | Sim | Sim |
Taxa de saída fora de banda | Sim | Sim |
Uso de crédito de CPU | Sim | Sim |
Balanceamento de crédito de CPU | Sim | Sim |
Excedente de balanceamento de crédito de CPU | Sim | Sim |
Excedente de crédito carregado de CPU | Sim | Sim |
Conexões de rede | Sim | Sim |
Largura de banda de entrada por servidor | Sim | Sim |
Largura de banda de saída por servidor | Sim | Sim |
PPS de entrada | Sim | Sim |
PPS de saída | Sim | Sim |
Novas conexões | Sim | Sim |
Erros incorrigíveis agregados de ECC | Sim | Sim |
Páginas aposentadas com erros de bit único | Sim | Sim |
Páginas aposentadas com erros de bit duplos | Sim | Sim |
Status de saúde da GPU | Sim | Sim |
Uso de encoder da GPU | Sim | Sim |
Uso de decoder da GPU | Sim | Sim |
Erros corrigíveis voláteis de ECC | Sim | Sim |
Erros incorrigíveis voláteis de ECC | Sim | Sim |
CPU ociosa | Não | Sim / Dedicado |
Uso de CPU de espaço de usuário | Não | Sim / Dedicado |
Uso de CPU de espaço de kernel | Não | Sim / Dedicado |
Uso de CPU de outros processos | Não | Sim / Dedicado |
Uso de CPU de processos ótimos | Não | Sim / Dedicado |
Tempo em que a CPU está esperando por operações de E/S | Não | Sim / Dedicado |
Tempo de interrupção de CPU | Não | Sim / Dedicado |
Tempo de interrupção de CPU por software | Não | Sim / Dedicado |
Memória disponível | Não | Sim / Dedicado |
Memória ociosa | Não | Sim / Dedicado |
Buffer | Não | Sim / Dedicado |
Cache | Não | Sim / Dedicado |
Largura de banda de entrada por NIC | Não | Sim / Dedicado |
Largura de banda de saída por NIC | Não | Sim / Dedicado |
Taxa de pacotes enviados por NIC | Não | Sim / Dedicado |
Taxa de pacotes recebidos por NIC | Não | Sim / Dedicado |
Taxa de pacotes com erro recebidos por NIC | Não | Sim / Dedicado |
Taxa de pacotes com erro transmitidos por NIC | Não | Sim / Dedicado |
Taxa de pacotes recebidos largados por NIC | Não | Sim / Dedicado |
Taxa de pacotes transmitidos largados por NIC | Não | Sim / Dedicado |
Processos em execução | Não | Sim / Dedicado |
Processos ociosos | Não | Sim / Dedicado |
Processos zombies | Não | Sim / Dedicado |
Processos bloqueados | Não | Sim / Dedicado |
Processos dormindo | Não | Sim / Dedicado |
Total de processos | Não | Sim / Dedicado |
Taxa de retransmissão TCP | Não | Sim / Dedicado |
TCP SYS_SENT | Não | Sim / Dedicado |
TCP SYS_RECV | Não | Sim / Dedicado |
TCP FIN_WAIT1 | Não | Sim / Dedicado |
TCP FIN_WAIT2 | Não | Sim / Dedicado |
TCP CLOSE | Não | Sim / Dedicado |
TCP LAST_ACK | Não | Sim / Dedicado |
TCP LISTEN | Não | Sim / Dedicado |
TCP CLOSING | Não | Sim / Dedicado |
Média de carga da CPU no último minuto | Não | Sim / Dedicado |
Média de carga da CPU nos últimos 15 minutos | Não | Sim / Dedicado |
Média de carga da CPU nos últimos 5 minutos | Não | Sim / Dedicado |
TCP ESTABLISHED | Não | Sim / Dedicado |
TCP TOTAL | Não | Sim / Dedicado |
UDP TOTAL | Não | Sim / Dedicado |
NTP Offset | Não | Sim / Dedicado |
Total de arquivos processados | Não | Sim / Dedicado |
Métricas de monitoramento de VPN Gateway
Métricas | Suportado |
---|---|
Taxa de pacotes de entrada | Sim |
Taxa de pacotes de saída | Sim |
Largura de banda de entrada | Sim |
Largura de banda de saída | Sim |
Uso de largura de banda de entrada | Sim |
Número de conexões | Sim |
Uso de largura de banda de saída | Sim |
Métricas de monitoramento da conexão VPN
Métricas | Suportado |
---|---|
Média de RTT do túnel | Sim |
Máximo de RTT do túnel | Sim |
Taxa de perda de pacotes do túnel | Sim |
Média de link RTT | Sim |
Máximo de link RTT | Sim |
Taxa de perda de pacotes do link | Sim |
Status da conexão VPN | Sim |
Taxa de recebimento de pacotes | Sim |
Taxa de envio de pacotes | Sim |
Taxa de recebimento de tráfego | Sim |
Taxa de envio de tráfego | Sim |
Taxa de envio de pacote SA | Sim |
Taxa de recebimento de pacote SA | Sim |
Taxa de envio de tráfego SA | Sim |
Taxa de recebimento de tráfego SA | Sim |
Métricas de monitoramento de NAT
Métricas | Suportado |
---|---|
Conexões SNAT | Sim |
Largura de banda de entrada | Sim |
Largura de banda de saída | Sim |
PPS de entrada | Sim |
PPS de saída | Sim |
Tráfego de entrada | Sim |
Tráfego de saída | Sim |
Taxa de uso de conexões SNAT | Sim |
Taxa de uso de largura de banda de entrada | Sim |
Taxa de uso de largura de banda de saída | Sim |
Total de largura de banda de saída (UDP) | Sim |
Total de largura de banda de saída (TCP) | Sim |
Total de largura de banda de entrada (UDP) | Sim |
Total de largura de banda de entrada (TCP) | Sim |
Pacotes perdidos por conexões SNAT excessivas | Sim |
Pacotes perdidos por excesso de PPS | Sim |
Pacotes perdidos por todos os portes EIP alocados | Sim |
Eventos monitorados para alarme de CBR
Eventos | Suportado |
---|---|
Agente online | Sim |
Agente offline | Sim |
Falha ao criar o backup | Sim |
Falha ao restaurar o recurso usando um backup | Sim |
Falha ao deletar o backup | Sim |
Falha ao deletar o vault | Sim |
O backup foi feito com sucesso | Sim |
Restaurar o recursando usando um backup foi feito com sucesso | Sim |
O backup foi deletado com sucesso | Sim |
O vault foi deletado com sucesso | Sim |
Erro durante replicação | Sim |
Replicação feita com sucesso | Sim |
Eventos monitorados para alarme de servidores
Eventos | Suportado |
---|---|
Reimplantação agendada para ser autorizada | Sim |
Troca de disco local cancelada | Sim |
Troca de disco local para ser executada | Sim |
Alarme de evento xid disparado na GPU | Sim |
Modificação de especificações agendada para ser executada | Sim |
Migração agendada para ser executada | Sim |
Encerramento agendado para ser executado | Sim |
Reinicialização agendada para ser executada | Sim |
Reimplantação agendada para ser executada | Sim |
Erros ECC irrecuperáveis gerados pela SRAM da GPU | Sim |
Alarme inforom gerado na GPU | Sim |
Alarme de bit duplo ECC gerado na GPU | Sim |
Páginas aposentadas em excesso | Sim |
Alarme ECC gerado na GPU a100 | Sim |
Falha ECC na aposentadoria de página de memória da GPU | Sim |
Falha ECC na aposentadoria de página de GPU | Sim |
Erros ECC demasiados de bit único na GPU | Sim |
Placa de vídeo não encontrada | Sim |
Link de GPU com defeito | Sim |
Placa de vídeo perdida | Sim |
Página de memória da GPU com defeito | Sim |
Imagem de engine da GPU com defeito | Sim |
Temperatura da GPU muito alta | Sim |
NVLink da GPU com defeito | Sim |
Suspensão da nvidia-smi | Sim |
ECS apagada | Sim |
ECS reiniciada | Sim |
ECS desligada | Sim |
NIC deletada | Sim |
ECS redimensionada | Sim |
Reinicialização por erro de hardware | Sim |
Reinicialização por erro de hardware feita com sucesso | Sim |
Timeout de auto recuperação | Sim |
Erro na inicialização | Sim |
Erro no link da GPU | Sim |
Erro no link da FPGA | Sim |
Erro na ECS por processos anormais no host | Sim |
GuestOS reiniciado | Sim |
Migração iniciada | Sim |
Migração finalizada com sucesso | Sim |
Erro durante migração | Sim |
Risco de quebra de host | Sim |
Erros irrecuperáveis de ECC: NPU | Sim |
Referências
-
Documentação do CES: https://support.huaweicloud.com/intl/en-us/function-ces/index.html
-
Limitações do CES: https://support.huaweicloud.com/intl/en-us/productdesc-ces/ces_07_0007.html
-
FAQ: https://support.huaweicloud.com/intl/en-us/ces_faq/ces_faq_0059.html
-
Instalação do agente do CES em lote: https://support.huaweicloud.com/intl/en-us/usermanual-ces/ces_01_0033.html