Introdução

Na visão, é utilizada a YOLOv8, uma arquitetura de rede neural convolucional para detecção de objetos em tempo real. Para entender mais da bilbioteca é recomendado o vídeo a seguir:

O tutorial detalhado de como realizar o treinamento de um dataset customizado pode ser encontrado na documentação da Ultralytics, empresa responsável pelo desenvolvimento da YOLOv8.

Entretanto, as outras secções da documentação da Edrom explicam o passo a passo utilizado na equipe para a deteção dos objetos desejados, de forma a manter um padrão e evitar conflitos (Mas vale ressaltar que tudo se baseia na documentação oferecida pela Ultralytics).

O passo a passo do treinamento é:

Gravar as imagens com a câmera utilizada
Dividir os vídeos em imagens (denominadas "frames")
Separar os frames em treinamento, validação e avaliação
Marcar os frames para o treinamento
Organização do dataset
Treinamento em si