Criando e Gerenciando Alarmes

V1.1 – Dezembro 2023

Versão	Autor	Descrição
V1.0 – 2023-12-20	Diogo Hatz 50037923	Versão Inicial
V1.0 – 2023-12-21	Wisley da Silva 00830850	Revisão do Documento

Introdução

O Cloud Eye (CES) é uma ferramenta gratuita para o monitoramento de recursos da Huawei Cloud. Além do monitoramento de recursos, o Cloud Eye também pode ser utilizado para criar alarmes baseados em eventos ou métricas, identificar o mau funcionamento de recursos e rapidamente reagir à mudança de recursos. Vale ressaltar que, por mais que o Cloud Eye seja um serviço gratuito, as cobranças geradas pelo envio de notificações ao disparar alarmes são cobradas.

Este documento tem como objetivo descrever as principais funcionalidades do serviço Cloud Eye e guiar o leitor a utilizar o CES para o monitoramento de recursos da nuvem, como ECSs, VPNs e CBRs etc. Ademais, também é descrito como criar alarmes baseados em eventos ou métricas e customizar dashboards para o monitoramento de recursos.

Cloud Eye no console

Overview

Ao abrir o Cloud Eye no console, a página inicial que será carregada é a Overview, na qual é possível ter uma visão geral de todos os recursos utilizados na Huawei Cloud, a utilização geral de rede, CPU, memória e disco e quais recursos dispararam alarmes recentemente e precisam de uma maior atenção.

Visão geral dos recursos: Permite a visualização do número total de recursos monitorados e os alarmes gerados para esses recursos.
Estatística dos alarmes: Mostra os alarmes disparados nos últimos sete dias por severidade do alarme.
Monitoramento de servidores: Permite a visualização da utilização geral de CPU e memória dos servidores monitorados e uma lista do top 5 ECSs ranqueados pela utilização de CPU ou memória.
Monitoramento de rede: Mostra a utilização geral de largura de banda de EIPs e uma lista do top 5 EIPs ranqueados por utilização de largura de banda.
Monitoramento de armazenamento: Permite a visualização da utilização geral de disco (EVS) por IOPS de leitura e escrita e uma lista do top 5 discos ranqueados por IOPS.

É possível ter uma visão de como a página inicial do Cloud Eye é nas imagens abaixo:

Grupos de recurso

Os grupos de recursos viabilizam o agrupamento de diversos recursos da Huawei Cloud para o seu monitoramento em conjunto, além de facilitar a gestão de alarmes para diversos recursos em lote.

Um grupo de recursos pode ser criado na seção Resource Groups, clicando em Create Resource Group.

Na página carregada, escolha um nome para o grupo de recursos em Name e selecione os recursos a serem adicionados ao grupo por serviço. Após adicionar todos os recursos desejados, clique em Create.

É possível criar alarmes para um grupo de recursos específico, facilitando a criação de alarmes em lote para múltiplos recursos que compartilhem um mesmo contexto.

Gestão de alarmes

A seção relativa à gestão de alarmes possui as seguintes subseções:

Regras de alarme: Subseção utilizada para visualizar e criar alarmes baseados em métricas ou eventos.
Histórico de alarmes: Subseção utilizada para visualizar os alarmes disparados.
Template de alarmes: Subseção relativa à visualização de templates para alarmes.
Monitoramento em um clique: Subseção que permite a habilitação de monitoramento para eventos comuns de serviços
Máscara de alarme: Subseção que permite a criação de máscaras de alarmes para que alarmes disparados não sejam notificados.

Criação de um alarme

Para criar um alarme para determinado recurso baseado em um evento ou métrica, navegue para a seção Alarm Rules, em Alarm Management e clique em Create Alarm Rule.

Configure os ajustes básicos do alarme, como o nome do alarme em Name e o tipo de recurso que será monitorado em Resource Type, assim como o seu escopo em Dimension. Para configurar um alarme para uma ECS, por exemplo, o Resource Type é Elastic Cloud Server e a Dimension é ECSs.

Caso a condição de disparo do alarme seja uma métrica, como por exemplo a taxa de utilização da CPU ou memória da ECS, selecione Metric em Alarm Type. Já caso a condição de disparo do alarme seja um evento, como por exemplo o evento de uma GPU não instalada, selecione Event no campo Alarm Type. Neste exemplo, a métrica para disparar o alarme será a utilização da CPU da ECS acima de 80%.

Em Monitoring Scope, o recurso específico que irá disparar o alarme precisa ser configurado. É possível selecionar o recurso de três formas distintas:

All resources: Selecione essa opção caso o alarme poderá ser disparado por todas as instâncias do recurso selecionado.
Rresource groups: Selecione essa opção caso o alarme poderá ser disparado por todos os recursos presentes em um grupo de recursos. Ver seção 3.3.
Specific resources: Selecione essa opção para escolher uma instância específica do serviço selecionado para disparar o alarme.

Neste exemplo, a ECS “ecs-4194” será selecionada como a instância que poderá disparar o alarme no campo Specific resources em Monitoring Scope.

Há três formas distintas de configurar a métrica que irá disparar o alarme em Method:

Associate template: Nesta opção, a métrica para disparar o alarme será configurada com base em um template já existente.
Use existing template: Nesta opção, a métrica para disparar o alarme será configurada com base em um template já existente.
Configure manually: Nesta opção, a métrica para disparar o alarme será configurada manualmente, o que permite uma maior flexibilidade.

Neste exemplo, a métrica que será configurada para disparar o alarme será caso a utilização de CPU da ECS seja superior ou igual a 80%. Em Metric Name é possível selecionar a métrica que poderá disparar o alarme, como neste caso é (Agent) CPU Usage (Recommended). Para esta opção ser selecionada, é necessário que o agente do Cloud Eye seja instalado, como feito na seção 3.5. É importante que o agente seja instalado em servidores monitorados para obter uma melhor precisão no monitoramento dos dados e uma gama maior de métricas de monitoramento.

Em Alarm Policy é possível selecionar o tipo de dado que será analisado, como dados brutos, média, máximo, mínimo, variância ou soma dos dados ingeridos; assim como a porcentagem que irá disparar o alarme e a forma de comparação, como maior ou igual, maior, menor, menor ou igual, aumento em relação à ou decremento em relação à.

Na seção Alarm Notification é possível configurar uma notificação para os alarmes disparados por e-mail, SMS, requests HTTP e HTTPS ou então por meio de um trigger no FunctionGraph. Caso a notificação somente precise ser encaminhada no e-mail do dono da conta do console da Huawei Cloud, é possível selecionar a opção Account contact em Notification Object diretamente. Neste exemplo, um segundo e-mail será configurado para receber as notificações dos alarmes do Cloud Eye. Para isso, é necessário primeiro ativar o serviço Short Message Notification (SMN).

Clique em Topics para visualizar os tópicos de notificação criados.

Clique em Create Topic para criar um tópico de notificações.

Digite o nome do tópico das notificações em Topic Name e clique em OK.

Em seguida, clique em Add Subscription para adicionar um canal de comunicações pelo qual a notificação será enviada.

Em seguida, escolha o protocolo de envio da notificação, neste caso Email, e digite o e-mail escolhido em Endpoints. Clique em OK.

Um e-mail será enviado para o endpoint selecionado. Para que o serviço SMN funcione corretamente, faz-se necessário que o usuário confirme o seu e-mail através de uma confirmação que será enviada assim que a Subscription for configurada.

Voltando para a criação do alarme, selecione o tópico criado nas etapas anteriores em Notification Object e configure a janela de horários em que a notificação pode ser enviada em Notification Window. Ademais, também selecione as ocasiões em que a notificação será enviada na seção Trigger Condition: quando o alarme é gerado ou quando o alarme é limpo. Após configurado, selecione Create para criar o alarme.

Em Alarm Rules é possível ver os alarmes criados e os seus status, assim como o recurso que é monitorado e a política de ativação do alarme.

Após um alarme ser disparado, é possível consulta-lo na seção Alarm Records em Alarm Management.

Também é possível visualizar a notificação gerada pelo alarme no endpoint escolhido para o envio da notificação no serviço SMN. Em um outro contexto, o seguinte e-mail foi gerado para o monitoramento de um bucket no serviço OBS para armazenamento de objetos na Huawei Cloud:

As tabelas referentes às métricas e eventos monitorados para os serviços de ECS, VPN, NAT e CBR da Huawei Cloud foram incluídas na seção 4.0 de anexos deste documento. Para criar alarmes baseados em eventos ou métricas para esses serviços, o procedimento é o mesmo do descrito acima.

Anexos

Métricas de monitoramento de servidores

Métricas	Sem agente	Agente instalado
Uso de CPU	Sim	Sim / Dedicado
Uso de disco	Sim	Sim
Uso de memória	Sim	Sim / Dedicado
Largura de banda de escrita em disco	Sim	Sim
Largura de banda de leitura em disco	Sim	Sim
IOPS de escrita em disco	Sim	Sim
IOPS de leitura em disco	Sim	Sim
Taxa de entrada em banda	Sim	Sim
Taxa de saída em banda	Sim	Sim
Taxa de entrada fora de banda	Sim	Sim
Taxa de saída fora de banda	Sim	Sim
Uso de crédito de CPU	Sim	Sim
Balanceamento de crédito de CPU	Sim	Sim
Excedente de balanceamento de crédito de CPU	Sim	Sim
Excedente de crédito carregado de CPU	Sim	Sim
Conexões de rede	Sim	Sim
Largura de banda de entrada por servidor	Sim	Sim
Largura de banda de saída por servidor	Sim	Sim
PPS de entrada	Sim	Sim
PPS de saída	Sim	Sim
Novas conexões	Sim	Sim
Erros incorrigíveis agregados de ECC	Sim	Sim
Páginas aposentadas com erros de bit único	Sim	Sim
Páginas aposentadas com erros de bit duplos	Sim	Sim
Status de saúde da GPU	Sim	Sim
Uso de encoder da GPU	Sim	Sim
Uso de decoder da GPU	Sim	Sim
Erros corrigíveis voláteis de ECC	Sim	Sim
Erros incorrigíveis voláteis de ECC	Sim	Sim
CPU ociosa	Não	Sim / Dedicado
Uso de CPU de espaço de usuário	Não	Sim / Dedicado
Uso de CPU de espaço de kernel	Não	Sim / Dedicado
Uso de CPU de outros processos	Não	Sim / Dedicado
Uso de CPU de processos ótimos	Não	Sim / Dedicado
Tempo em que a CPU está esperando por operações de E/S	Não	Sim / Dedicado
Tempo de interrupção de CPU	Não	Sim / Dedicado
Tempo de interrupção de CPU por software	Não	Sim / Dedicado
Memória disponível	Não	Sim / Dedicado
Memória ociosa	Não	Sim / Dedicado
Buffer	Não	Sim / Dedicado
Cache	Não	Sim / Dedicado
Largura de banda de entrada por NIC	Não	Sim / Dedicado
Largura de banda de saída por NIC	Não	Sim / Dedicado
Taxa de pacotes enviados por NIC	Não	Sim / Dedicado
Taxa de pacotes recebidos por NIC	Não	Sim / Dedicado
Taxa de pacotes com erro recebidos por NIC	Não	Sim / Dedicado
Taxa de pacotes com erro transmitidos por NIC	Não	Sim / Dedicado
Taxa de pacotes recebidos largados por NIC	Não	Sim / Dedicado
Taxa de pacotes transmitidos largados por NIC	Não	Sim / Dedicado
Processos em execução	Não	Sim / Dedicado
Processos ociosos	Não	Sim / Dedicado
Processos zombies	Não	Sim / Dedicado
Processos bloqueados	Não	Sim / Dedicado
Processos dormindo	Não	Sim / Dedicado
Total de processos	Não	Sim / Dedicado
Taxa de retransmissão TCP	Não	Sim / Dedicado
TCP SYS_SENT	Não	Sim / Dedicado
TCP SYS_RECV	Não	Sim / Dedicado
TCP FIN_WAIT1	Não	Sim / Dedicado
TCP FIN_WAIT2	Não	Sim / Dedicado
TCP CLOSE	Não	Sim / Dedicado
TCP LAST_ACK	Não	Sim / Dedicado
TCP LISTEN	Não	Sim / Dedicado
TCP CLOSING	Não	Sim / Dedicado
Média de carga da CPU no último minuto	Não	Sim / Dedicado
Média de carga da CPU nos últimos 15 minutos	Não	Sim / Dedicado
Média de carga da CPU nos últimos 5 minutos	Não	Sim / Dedicado
TCP ESTABLISHED	Não	Sim / Dedicado
TCP TOTAL	Não	Sim / Dedicado
UDP TOTAL	Não	Sim / Dedicado
NTP Offset	Não	Sim / Dedicado
Total de arquivos processados	Não	Sim / Dedicado

Métricas de monitoramento de VPN Gateway

Métricas	Suportado
Taxa de pacotes de entrada	Sim
Taxa de pacotes de saída	Sim
Largura de banda de entrada	Sim
Largura de banda de saída	Sim
Uso de largura de banda de entrada	Sim
Número de conexões	Sim
Uso de largura de banda de saída	Sim

Métricas de monitoramento da conexão VPN

Métricas	Suportado
Média de RTT do túnel	Sim
Máximo de RTT do túnel	Sim
Taxa de perda de pacotes do túnel	Sim
Média de link RTT	Sim
Máximo de link RTT	Sim
Taxa de perda de pacotes do link	Sim
Status da conexão VPN	Sim
Taxa de recebimento de pacotes	Sim
Taxa de envio de pacotes	Sim
Taxa de recebimento de tráfego	Sim
Taxa de envio de tráfego	Sim
Taxa de envio de pacote SA	Sim
Taxa de recebimento de pacote SA	Sim
Taxa de envio de tráfego SA	Sim
Taxa de recebimento de tráfego SA	Sim

Métricas de monitoramento de NAT

Métricas	Suportado
Conexões SNAT	Sim
Largura de banda de entrada	Sim
Largura de banda de saída	Sim
PPS de entrada	Sim
PPS de saída	Sim
Tráfego de entrada	Sim
Tráfego de saída	Sim
Taxa de uso de conexões SNAT	Sim
Taxa de uso de largura de banda de entrada	Sim
Taxa de uso de largura de banda de saída	Sim
Total de largura de banda de saída (UDP)	Sim
Total de largura de banda de saída (TCP)	Sim
Total de largura de banda de entrada (UDP)	Sim
Total de largura de banda de entrada (TCP)	Sim
Pacotes perdidos por conexões SNAT excessivas	Sim
Pacotes perdidos por excesso de PPS	Sim
Pacotes perdidos por todos os portes EIP alocados	Sim

Eventos monitorados para alarme de CBR

Eventos	Suportado
Agente online	Sim
Agente offline	Sim
Falha ao criar o backup	Sim
Falha ao restaurar o recurso usando um backup	Sim
Falha ao deletar o backup	Sim
Falha ao deletar o vault	Sim
O backup foi feito com sucesso	Sim
Restaurar o recursando usando um backup foi feito com sucesso	Sim
O backup foi deletado com sucesso	Sim
O vault foi deletado com sucesso	Sim
Erro durante replicação	Sim
Replicação feita com sucesso	Sim

Eventos monitorados para alarme de servidores

Eventos	Suportado
Reimplantação agendada para ser autorizada	Sim
Troca de disco local cancelada	Sim
Troca de disco local para ser executada	Sim
Alarme de evento xid disparado na GPU	Sim
Modificação de especificações agendada para ser executada	Sim
Migração agendada para ser executada	Sim
Encerramento agendado para ser executado	Sim
Reinicialização agendada para ser executada	Sim
Reimplantação agendada para ser executada	Sim
Erros ECC irrecuperáveis gerados pela SRAM da GPU	Sim
Alarme inforom gerado na GPU	Sim
Alarme de bit duplo ECC gerado na GPU	Sim
Páginas aposentadas em excesso	Sim
Alarme ECC gerado na GPU a100	Sim
Falha ECC na aposentadoria de página de memória da GPU	Sim
Falha ECC na aposentadoria de página de GPU	Sim
Erros ECC demasiados de bit único na GPU	Sim
Placa de vídeo não encontrada	Sim
Link de GPU com defeito	Sim
Placa de vídeo perdida	Sim
Página de memória da GPU com defeito	Sim
Imagem de engine da GPU com defeito	Sim
Temperatura da GPU muito alta	Sim
NVLink da GPU com defeito	Sim
Suspensão da nvidia-smi	Sim
ECS apagada	Sim
ECS reiniciada	Sim
ECS desligada	Sim
NIC deletada	Sim
ECS redimensionada	Sim
Reinicialização por erro de hardware	Sim
Reinicialização por erro de hardware feita com sucesso	Sim
Timeout de auto recuperação	Sim
Erro na inicialização	Sim
Erro no link da GPU	Sim
Erro no link da FPGA	Sim
Erro na ECS por processos anormais no host	Sim
GuestOS reiniciado	Sim
Migração iniciada	Sim
Migração finalizada com sucesso	Sim
Erro durante migração	Sim
Risco de quebra de host	Sim
Erros irrecuperáveis de ECC: NPU	Sim

Referências

Documentação do CES: https://support.huaweicloud.com/intl/en-us/function-ces/index.html
Limitações do CES: https://support.huaweicloud.com/intl/en-us/productdesc-ces/ces_07_0007.html
FAQ: https://support.huaweicloud.com/intl/en-us/ces_faq/ces_faq_0059.html
Instalação do agente do CES em lote: https://support.huaweicloud.com/intl/en-us/usermanual-ces/ces_01_0033.html