DSpace logo

Please use this identifier to cite or link to this item: http://repositorioinstitucional.uea.edu.br//handle/riuea/5976
Title: Classificação de cenas aéreas em sensoriamento remoto: Uma abordagem utilizando dados de imagem e som e self-supervised learning
Authors: Ayres, Talissa Moura
metadata.dc.contributor.advisor1: Figueiredo, Carlos Maurício Serodio
Keywords: Sensoriamento remoto;Classificação de cenas aéreas;Deep learning;Self-supervised learning;Modelos multimodais;Remote sensing;aerial scene classification;multimodal models
Issue Date: 8-Feb-2024
Publisher: Universidade do Estado do Amazonas
metadata.dc.description.resumo: Realizar classifica¸c˜ao de cenas ´e uma atividade em vis˜ao computacional onde modelos conseguem entender um contexto ou ambiente sem focar apenas em classificar um ´unico objeto como acontece em classifica¸c˜ao de imagens. Por isso, ´e uma ´area de extensa pesquisa, atualmente, por ser utilizada em tarefas importantes como content based retrieval e smart content moderation. Em adi¸c˜ao, quando feita com dados de sensoriamento remoto, ela ´e importante por auxiliar no entendimento do ambiente ao nosso redor, sendo utilizada em outras tarefas como monitoramento de cidades e classifica¸c˜ao do uso da terra. Dando ˆenfase a classifica¸c˜ao de cenas a´ereas, muito desses estudos se baseam em utilizar redes neurais convolucionais para essa atividade, ent˜ao, sendo dependente de uma grande quantidade de anota¸c˜oes para imagens. Por isso, a aplica¸c˜ao de novas t´ecnicas de treino como o self-supervised learning (SSL), no qual, se aprende primeiro a gerar representa¸c˜oes a partir de pseudolabels para depois realizar a tarefa principal, tem sido mais aplicadas na literatura recente. Al´em disso, a possibilidade do uso de dados multimodais com imagem e som geolocalizados como forma de melhorar o desempenho dos modelos nessa tarefa vem se mostrando uma possibilidade atrav´es dos datasets ADVANCE e SoundingEarth. Sendo assim, o presente trabalho mostra a utiliza¸c˜ao do SSL e dados audiovisuais de sensoriamento remoto em conjunto com a aplica¸c˜ao dos vision transformers, uma nova arquitetura de aprendizado profundo baseada nos mecanismos de attention, para gera¸c˜ao de representa¸c˜oes (embeddings). Primeiro, realizou o pre-treino no SoundingEarth, onde se utiliza a batch triplet loss para aproximar dados de imagem e som que s˜ao pares positivos e afastar pares distintos, em seguida, se aplica as representa¸c˜oes em um modelo de regress˜ao log´ıstica para classificar as cenas a´ereas do ADVANCE. Os resultados obtidos foram de precis˜ao, recall e F1-Score acima de 80% para os modelos treinados com os embeddings de imagem e som, considerando apenas os embeddings de imagem obtemos tamb´em resultados acima dos 80% e considerando apenas o ´audio obteve-se resultado acima dos 40% para essas m´etricas
Abstract: Scene classification is an activity in computer vision where models can understand a context or environment without focusing solely on classifying a single object, as in image classification. Therefore, it is an area of extensive research currently, as it is used in important tasks such as content-based retrieval and smart content moderation. Additionally, when performed with remote sensing data, it is crucial for understanding the environment around us, being applied in tasks such as city monitoring and land use classification. Emphasizing the classification of aerial scenes, many of these studies are based on using convolutional neural networks for this activity, thus relying on a large number of annotations for images. Hence, the application of new training techniques such as self-supervised learning (SSL), where the model first learns to generate representations from pseudolabels before performing the main task, has been more widely applied in recent literature. Furthermore, the possibility of using multimodal data with geolocated images and sounds to improve model performance in this task has been demonstrated through the ADVANCE and SoundingEarth datasets. Therefore, this paper demonstrates the use of SSL and audiovisual remote sensing data in conjunction with the application of vision transformers, a new deep learning architecture based on attention mechanisms, for generating embeddings. Firstly, pre-training was conducted on SoundingEarth, using batch triplet loss to bring closer pairs of positive image and sound data and separate distinct pairs. Subsequently, these representations were applied to a logistic regression model to classify aerial scenes from ADVANCE. The results obtained showed precision, recall, and F1-Score above 80% for models trained with both image and sound embeddings. Considering only image embeddings, results were also above 80%, and considering only audio, results were above 40% for these metrics.
URI: http://repositorioinstitucional.uea.edu.br//handle/riuea/5976
Appears in Collections:EST - Trabalho de Conclusão de Curso Graduação



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.