Classificação de cenas aéreas em sensoriamento remoto: Uma abordagem utilizando dados de imagem e som e self-supervised learning

Ayres, Talissa Moura

Use este identificador para citar ou linkar para este item: http://repositorioinstitucional.uea.edu.br//handle/riuea/5976

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.author	Ayres, Talissa Moura	-
dc.date.available	2024-09-27	-
dc.date.available	2024-09-24T18:04:05Z	-
dc.date.issued	2024-02-08	-
dc.identifier.uri	http://repositorioinstitucional.uea.edu.br//handle/riuea/5976	-
dc.description.abstract	Scene classification is an activity in computer vision where models can understand a context or environment without focusing solely on classifying a single object, as in image classification. Therefore, it is an area of extensive research currently, as it is used in important tasks such as content-based retrieval and smart content moderation. Additionally, when performed with remote sensing data, it is crucial for understanding the environment around us, being applied in tasks such as city monitoring and land use classification. Emphasizing the classification of aerial scenes, many of these studies are based on using convolutional neural networks for this activity, thus relying on a large number of annotations for images. Hence, the application of new training techniques such as self-supervised learning (SSL), where the model first learns to generate representations from pseudolabels before performing the main task, has been more widely applied in recent literature. Furthermore, the possibility of using multimodal data with geolocated images and sounds to improve model performance in this task has been demonstrated through the ADVANCE and SoundingEarth datasets. Therefore, this paper demonstrates the use of SSL and audiovisual remote sensing data in conjunction with the application of vision transformers, a new deep learning architecture based on attention mechanisms, for generating embeddings. Firstly, pre-training was conducted on SoundingEarth, using batch triplet loss to bring closer pairs of positive image and sound data and separate distinct pairs. Subsequently, these representations were applied to a logistic regression model to classify aerial scenes from ADVANCE. The results obtained showed precision, recall, and F1-Score above 80% for models trained with both image and sound embeddings. Considering only image embeddings, results were also above 80%, and considering only audio, results were above 40% for these metrics.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade do Estado do Amazonas	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Sensoriamento remoto	pt_BR
dc.subject	Classificação de cenas aéreas	pt_BR
dc.subject	Deep learning	pt_BR
dc.subject	Self-supervised learning	pt_BR
dc.subject	Modelos multimodais	pt_BR
dc.subject	Remote sensing	pt_BR
dc.subject	aerial scene classification	pt_BR
dc.subject	multimodal models	pt_BR
dc.title	Classificação de cenas aéreas em sensoriamento remoto: Uma abordagem utilizando dados de imagem e som e self-supervised learning	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.date.accessioned	2024-09-24T18:04:05Z	-
dc.creator.ID	5404125012501554	pt_BR
dc.contributor.advisor1	Figueiredo, Carlos Maurício Serodio	-
dc.contributor.advisor1ID	9060002746939878	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/9060002746939878	pt_BR
dc.contributor.referee1	Figueiredo, Carlos Maurício Serodio	-
dc.contributor.referee1ID	9060002746939878	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/9060002746939878	pt_BR
dc.contributor.referee2	Pantoja, Antônio Luiz Alencar	-
dc.contributor.referee2ID	4220065811192764	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/4220065811192764	pt_BR
dc.contributor.referee3	Cardoso, Fábio de Sousa	-
dc.contributor.referee3ID	5612584109016079	pt_BR
dc.contributor.referee3Lattes	http://lattes.cnpq.br/5612584109016079	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/5404125012501554	pt_BR
dc.description.resumo	Realizar classifica¸c˜ao de cenas ´e uma atividade em vis˜ao computacional onde modelos conseguem entender um contexto ou ambiente sem focar apenas em classificar um ´unico objeto como acontece em classifica¸c˜ao de imagens. Por isso, ´e uma ´area de extensa pesquisa, atualmente, por ser utilizada em tarefas importantes como content based retrieval e smart content moderation. Em adi¸c˜ao, quando feita com dados de sensoriamento remoto, ela ´e importante por auxiliar no entendimento do ambiente ao nosso redor, sendo utilizada em outras tarefas como monitoramento de cidades e classifica¸c˜ao do uso da terra. Dando ˆenfase a classifica¸c˜ao de cenas a´ereas, muito desses estudos se baseam em utilizar redes neurais convolucionais para essa atividade, ent˜ao, sendo dependente de uma grande quantidade de anota¸c˜oes para imagens. Por isso, a aplica¸c˜ao de novas t´ecnicas de treino como o self-supervised learning (SSL), no qual, se aprende primeiro a gerar representa¸c˜oes a partir de pseudolabels para depois realizar a tarefa principal, tem sido mais aplicadas na literatura recente. Al´em disso, a possibilidade do uso de dados multimodais com imagem e som geolocalizados como forma de melhorar o desempenho dos modelos nessa tarefa vem se mostrando uma possibilidade atrav´es dos datasets ADVANCE e SoundingEarth. Sendo assim, o presente trabalho mostra a utiliza¸c˜ao do SSL e dados audiovisuais de sensoriamento remoto em conjunto com a aplica¸c˜ao dos vision transformers, uma nova arquitetura de aprendizado profundo baseada nos mecanismos de attention, para gera¸c˜ao de representa¸c˜oes (embeddings). Primeiro, realizou o pre-treino no SoundingEarth, onde se utiliza a batch triplet loss para aproximar dados de imagem e som que s˜ao pares positivos e afastar pares distintos, em seguida, se aplica as representa¸c˜oes em um modelo de regress˜ao log´ıstica para classificar as cenas a´ereas do ADVANCE. Os resultados obtidos foram de precis˜ao, recall e F1-Score acima de 80% para os modelos treinados com os embeddings de imagem e som, considerando apenas os embeddings de imagem obtemos tamb´em resultados acima dos 80% e considerando apenas o ´audio obteve-se resultado acima dos 40% para essas m´etricas	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.subject.cnpq	Sistemas Eletrônicos de Medida e de Controle	pt_BR
dc.publisher.initials	UEA	pt_BR
Aparece nas coleções:	EST - Trabalho de Conclusão de Curso Graduação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Classificação de cenas aéreas em sensoriamento remoto Uma abordagem utilizando dados de imagem e som e self-supervised learning.pdf		5,69 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas