Brasileiros vencem o 8th Drone-vs-Bird Detection Grand Challenge com abordagem inovadora baseada em inteligência artificial
Pesquisadores da Universidade Federal do Paraná (UFPR) integram equipe que conquistou o primeiro lugar na 8ª edição “Drone-vs-Bird Detection Grand Challenge“, competição internacional que desafia equipes a desenvolverem sistemas capazes de diferenciar automaticamente drones de aves em vídeos. O trabalho foi apresentado durante a International Joint Conference on Neural Networks (IJCNN 2025), em Roma, no último dia 5 de julho. Intitulado time PUCPR-UFPR, a equipe é formada pelo pós-doutorando do Programa de Pós-graduação em Informática (PPGInf) da UFPR e professor do Programa de Pós-Graduação em Informática (PPGIa) da PUCPR, Rayson Laroca, e dos pesquisadores do Departamento de Informática (Dinf) da UFPR, Marcelo dos Santos e David Menotti.
Certificado de primeiro lugar na 8ª edição “Drone-vs-Bird Detection Grand Challenge”
O time recebeu o certificado de 1º lugar após superar equipes de todo o mundo, demonstrando excelência técnica e inovação em soluções para detecção de drones em cenários reais. O desafio proposto pela competição exige que os participantes desenvolvam algoritmos capazes de distinguir drones de aves em vídeos capturados em ambientes reais, mesmo quando esses objetos aparecem muito pequenos ou se confundem com elementos do cenário, como árvores, prédios ou o próprio céu. O objetivo é fortalecer tecnologias de monitoramento e proteção de áreas sensíveis, diante do crescente uso de drones para fins legítimos e ilícitos, como transporte de cargas, vigilância não autorizada e até mesmo ataques.
Pesquisador Rayson Laroca recebendo certificado de Angelo Coluccia, organizador da competição, professor na Universidade do Salento, Itália
Para David Menotti, a conquista evidencia o potencial das universidades brasileiras na formação de profissionais altamente qualificados para atuar em cenários globais, especialmente em áreas de rápida evolução tecnológica como a computação.“As universidades brasileiras têm a competência de formar alunos em nível de excelência para competir globalmente, ainda mais na área de computação, onde há uma necessidade constante de atualização. Formar profissionais preparados para esse cenário é fundamental, e acredito que no Brasil as universidades desempenham esse papel essencial”, destaca Menotti.
A proposta apresentada pela equipe PUCPR-UFPR destacou-se por uma série de inovações técnicas que impulsionaram o desempenho do sistema. O núcleo da solução é baseado no modelo YOLOv11m, uma evolução dos famosos detectores da família YOLO, reconhecidos pela eficiência e precisão em tarefas de detecção de objetos.
“A utilização do modelo YOLOv11m para a competição começou com a versão base, mas logo identificamos uma limitação crítica: em vídeos com altíssima resolução (como 4K), os drones apareciam minúsculos e, ao redimensionar as imagens para 640×640 pixels (padrão do modelo), muitos sumiram ou ficavam abaixo do limiar de detecção. Testamos alternativas como a variante YOLOv11m-p2, com stride refinado para melhor detectar objetos pequenos, e também a ampliação da entrada para 1280×1280 pixels. Embora essas soluções tenham trazido melhorias pontuais, os ganhos obtidos não justificaram o aumento significativo no custo computacional”, destaca Rayson Laroca.
É com base neste aspecto que a equipe, para superar a dificuldade de identificar drones muito pequenos em imagens de alta resolução, implementaram um processamento multi-escala: cada quadro de vídeo é analisado tanto em sua totalidade quanto dividido em quatro segmentos sobrepostos, simulando um efeito de zoom que aumenta a chance de detectar drones distantes sem perder contexto. As detecções feitas em cada segmento e na imagem completa são então agregadas e refinadas por meio de técnicas de supressão não-máxima, eliminando duplicidades e falsos positivos.
Apresentação do trabalho na International Joint Conference on Neural Networks (IJCNN 2025), em Roma
Outro diferencial foi o uso extensivo de técnicas de aumento de dados. Além das transformações clássicas, como rotação, ajustes de brilho e contraste, e espelhamento horizontal, a equipe aplicou a técnica de “copy-paste”, inserindo artificialmente drones e aves recortados em diferentes posições e contextos dentro das imagens de treino. Isso ampliou a diversidade do conjunto de dados, tornando o modelo mais robusto a variações de cenário e aparência dos objetos. O treinamento também incorporou imagens de três bases públicas internacionais, o que contribuiu para a generalização do sistema.
Para lidar com falhas eventuais de detecção em quadros consecutivos, foi implementado um pós-processamento temporal que analisa a consistência das detecções ao longo do tempo. Quando um drone é identificado em quadros anteriores e posteriores, mas não em um quadro intermediário, o sistema realiza uma interpolação linear da posição, preenchendo possíveis lacunas e aumentando a confiabilidade do rastreamento. Esse mecanismo se mostrou eficiente para manter a continuidade da detecção, mesmo em situações de oclusão ou baixa visibilidade.
Segundo Raylson, em competições de visão computacional, a busca pela excelência técnica é acompanhada de obstáculos que vão além do desenvolvimento de algoritmos. “Um dos principais desafios foi o fato de que, por se tratar de uma competição, o conjunto de testes oficial não estava disponível para nós. Isso exigiu um cuidado redobrado na escolha dos cenários de validação entre os dados que tínhamos. Precisávamos garantir que esses cenários fossem suficientemente diversos e desafiadores para que nosso algoritmo fosse exposto a diferentes tipos de situações — como variações de resolução, plano de fundo, iluminação, movimentação da câmera e tamanhos dos drones. Com base nos pontos fracos identificados durante nossos experimentos, adotamos estratégias para mitigar essas limitações e tornar o modelo mais robusto frente às incertezas da avaliação final”, finaliza.
Os resultados apresentados pela equipe na competição foram expressivos. O método alcançou o melhor desempenho geral entre 16 algoritmos submetidos por 13 equipes de diferentes países, obtendo média de precisão (mAP) superior nos cenários mais desafiadores, especialmente em fundos de céu aberto e vegetação, onde a detecção de objetos pequenos é particularmente difícil.