Skip to Content
Defender360 v1.0 lancado. Veja o guia de inicio rapido →

Investigar Problema

Aprenda a conduzir uma investigacao de causa raiz de forma estruturada e eficiente.

Detalhe do Problema - Defender360
PRB-0044Erro Conhecido

Falha de autenticacao VPN pos-atualizacao

Alta Prioridade
Aberto ha 7 dias
15 tickets relacionados
Responsavel: Carlos Silva

Historico da Investigacao

Problema registrado25/01 09:15

Criado automaticamente a partir de tickets relacionados

por Sistema

Investigacao iniciada25/01 10:30

Analise de logs do servidor VPN

por Carlos Silva

Causa raiz identificada26/01 14:00

Conflito de certificados apos atualizacao

por Carlos Silva

Workaround documentado26/01 16:45

Reinstalar certificado raiz resolve temporariamente

por Ana Costa

Tickets Relacionados

TKT-1234VPN nao conecta apos atualizacao
Pendente
TKT-1238Erro de certificado na conexao VPN
Pendente
TKT-1241Falha de autenticacao VPN - Departamento Financeiro
Aberto

Workaround Documentado

Solucao Temporaria Disponivel

Reinstalar o certificado raiz do servidor VPN no dispositivo do usuario resolve o problema temporariamente. Instruções detalhadas disponíveis no KB-0892.

Visao Geral da Investigacao

A investigacao de problemas segue um fluxo estruturado para garantir que a causa raiz seja identificada e a solucao seja duradoura.

Fluxo de Investigacao

Deteccao ──► Registro ──► Categorizacao ──► Investigacao ──► Diagnostico Fechamento ◄── Resolucao ◄── Erro Conhecido

Abrindo a Investigacao

Preparacao Inicial

Antes de iniciar a investigacao, reuna:

InformacaoFontePor que
Lista de incidentesSistemaEntender impacto e padrao
Logs de sistemaMonitoramentoEvidencias tecnicas
Timeline de eventosChamadosSequencia de ocorrencias
ConfiguracoesCMDBEstado dos sistemas
Mudancas recentesHistoricoCorrelacao com alteracoes

Crie uma pasta ou workspace dedicado ao problema para organizar todas as evidencias.

Atribuindo o Problema

  1. Verifique sua especialidade e disponibilidade
  2. Considere a complexidade do problema
  3. Avalie se precisa de equipe multidisciplinar
  4. Atribua a si mesmo ou monte um time

Timeline e Atividades

Registrando Atividades

O Defender360 mantem uma timeline completa do problema:

Tipo de AtividadeQuando RegistrarExemplo
Nota de InvestigacaoCada descoberta importante”Logs indicam erro de memoria”
EvidenciaAo coletar dadosAnexar screenshot, log file
HipoteseAo formular teoria”Possivel vazamento de memoria”
Teste RealizadoAo validar hipotese”Teste de stress confirmou leak”
ConclusaoAo confirmar causa”Causa: bug na versao 2.3.1”

Formatando Notas de Investigacao

Use um formato consistente:

## [DATA] - Analise de Logs ### O que foi feito Revisao dos logs do servidor X entre 14:00-16:00 ### Descobertas - Erro "OutOfMemoryException" as 14:23 - Processo Y consumindo 98% da memoria - Ultima reinicializacao: 45 dias atras ### Proximos passos - Coletar heap dump - Verificar versao do processo Y ### Anexos - log_servidor_x.txt - screenshot_htop.png

Notas bem documentadas facilitam handover para outros analistas e servem como historico.

Metodologias de Analise

Tecnica dos 5 Porques

Pergunte “Por que?” repetidamente ate chegar na causa raiz:

NivelPerguntaResposta
1Por que o email parou?Servidor ficou sem espaco
2Por que ficou sem espaco?Logs cresceram demais
3Por que logs cresceram?Rotacao nao funcionou
4Por que rotacao falhou?Script tinha erro
5Por que script tinha erro?Nao foi testado apos mudanca
Causa RaizFalta de teste em mudancas

Diagrama de Ishikawa (Espinha de Peixe)

Analise categorias de causas potenciais:

┌─ Pessoas ──────────┐ │ - Treinamento │ │ - Procedimento │ │ │ ┌───────────┤ ├───────────┐ │ └────────────────────┘ │ │ Processo Tecnologia │ │ - Documentacao - Hardware │ │ - Aprovacao - Software │ │ - Comunicacao - Rede │ │ │ └──────────────────┬─────────────────────────┘ [PROBLEMA] ┌──────────────────┴─────────────────────────┐ │ Ambiente Fornecedor │ │ - Infraestrutura - SLA │ │ - Energia - Qualidade│ │ - Refrigeracao - Suporte │ └────────────────────────────────────────────┘

Analise de Pareto

Identifique os 20% de causas que geram 80% dos incidentes:

  1. Liste todas as possiveis causas
  2. Contabilize frequencia de cada uma
  3. Ordene por frequencia decrescente
  4. Foque nas mais frequentes primeiro

Coletando Evidencias

Tipos de Evidencia

TipoExemplosComo Coletar
LogsSistema, aplicacao, segurancaExport, grep, tail
MetricasCPU, memoria, disco, redeMonitoramento, graficos
ConfiguracoesArquivos, parametrosCMDB, snapshots
DepoimentosRelatos de usuariosEntrevistas, chamados
ScreenshotsTelas de erroCaptura, gravacao

Preservando Evidencias

Boas Praticas

Nao altere sistemas em producao antes de coletar evidencias
Salve logs com timestamp e origem
Faca backup de configuracoes antes de testar
Documente o estado atual antes de qualquer mudanca
Use hash para garantir integridade de arquivos criticos

Evidencias podem ser necessarias para auditorias ou questoes legais. Preserve a cadeia de custodia.

Formulando Hipoteses

Estrutura de Hipotese

Uma boa hipotese deve ser:

CaracteristicaDescricaoExemplo
EspecificaClaramente definida”Vazamento de memoria no modulo X”
TestavelPode ser validada”Monitorar heap por 24h”
FalsificavelPode ser refutada”Se memoria estavel, hipotese incorreta”
Baseada em evidenciasSuportada por dados”Logs mostram aumento gradual”

Registrando Hipoteses

No problema, documente cada hipotese:

## Hipotese #1: Vazamento de memoria no processo Y ### Base - Logs mostram OutOfMemory apos 45 dias de uptime - Grafico de memoria mostra crescimento linear - Processo Y e o maior consumidor ### Teste proposto - Monitorar heap dump por 48h - Comparar uso de memoria com versao anterior - Verificar changelogs da versao atual ### Resultado [Pendente / Confirmada / Descartada]

Testando Hipoteses

Planejamento do Teste

Antes de testar:

  1. Defina criterios de sucesso/falha
  2. Avalie riscos do teste
  3. Prepare rollback se necessario
  4. Comunique stakeholders se houver impacto
  5. Documente o plano

Ambiente de Teste

AmbienteQuando UsarCuidados
ProducaoUltimo recurso, baixo riscoJanela de manutencao
StagingTestes de impactoDados representativos
DevTestes iniciaisPode nao reproduzir
LabSimulacoesConfiguracao similar

Nunca teste hipoteses destrutivas em producao sem aprovacao formal e plano de rollback.

Documentando a Causa Raiz

Quando a Causa e Identificada

  1. Atualize o status do problema para Erro Conhecido
  2. Documente a causa raiz detalhadamente
  3. Avalie opcoes de solucao
  4. Crie workaround se disponivel
  5. Planeje solucao definitiva

Formato de Documentacao

# Causa Raiz Identificada ## Problema [Descricao do problema original] ## Sintomas Observados - [Sintoma 1] - [Sintoma 2] ## Investigacao Realizada 1. [Analise 1 - resultado] 2. [Analise 2 - resultado] 3. [Teste que confirmou causa] ## Causa Raiz [Explicacao tecnica detalhada] ## Sistemas Afetados - [Sistema/versao 1] - [Sistema/versao 2] ## Workaround [Passos para contornar enquanto sem solucao] ## Solucao Definitiva [Plano de correcao] ## Prevencao Futura [Acoes para evitar recorrencia]

Publicando Workarounds

Criando Artigo de Workaround

  1. No problema, clique em Criar Artigo
  2. Selecione tipo Workaround / Erro Conhecido
  3. Preencha os campos:
    • Titulo claro e buscavel
    • Sintomas que o usuario vera
    • Passos do workaround
    • Limitacoes conhecidas
  4. Defina audiencia (agentes, clientes, ambos)
  5. Publique o artigo

Vinculando a Incidentes

Quando um novo incidente relacionado chegar:

  1. Busque o Erro Conhecido
  2. Vincule ao incidente
  3. Aplique o workaround
  4. Informe o cliente sobre a situacao

Configure busca automatica de Erros Conhecidos ao criar incidentes para acelerar a resolucao.

Fechando a Investigacao

Requisitos para Fechamento

Checklist de Fechamento

Causa raiz identificada e documentada
Solucao definitiva implementada ou em andamento
Workaround publicado (se aplicavel)
Incidentes relacionados atualizados
Artigo de conhecimento criado
Metricas de impacto registradas
Licoes aprendidas documentadas

Analise Pos-Resolucao

Apos resolver, documente aprendizados:

PerguntaResposta
O que funcionou bem?[Listar]
O que poderia melhorar?[Listar]
Como detectar mais cedo?[Sugestoes]
Como prevenir recorrencia?[Acoes]

Metricas de Investigacao

Indicadores de Performance

MetricaDescricaoMeta Sugerida
Tempo de DeteccaoAte identificar o problema< 24h
Tempo de InvestigacaoAte identificar causa< 7 dias
Tempo de WorkaroundAte ter contorno< 48h
Tempo de ResolucaoAte solucao definitiva< 30 dias
Taxa de RecorrenciaIncidentes apos resolver< 5%

Proximos Passos

Volte para a visao geral de problemas ou explore outras areas:

Last updated on