DSpace logo

Use este identificador para citar ou linkar para este item: http://repositorioinstitucional.uea.edu.br//handle/riuea/5976
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.authorAyres, Talissa Moura-
dc.date.available2024-09-27-
dc.date.available2024-09-24T18:04:05Z-
dc.date.issued2024-02-08-
dc.identifier.urihttp://repositorioinstitucional.uea.edu.br//handle/riuea/5976-
dc.description.abstractScene classification is an activity in computer vision where models can understand a context or environment without focusing solely on classifying a single object, as in image classification. Therefore, it is an area of extensive research currently, as it is used in important tasks such as content-based retrieval and smart content moderation. Additionally, when performed with remote sensing data, it is crucial for understanding the environment around us, being applied in tasks such as city monitoring and land use classification. Emphasizing the classification of aerial scenes, many of these studies are based on using convolutional neural networks for this activity, thus relying on a large number of annotations for images. Hence, the application of new training techniques such as self-supervised learning (SSL), where the model first learns to generate representations from pseudolabels before performing the main task, has been more widely applied in recent literature. Furthermore, the possibility of using multimodal data with geolocated images and sounds to improve model performance in this task has been demonstrated through the ADVANCE and SoundingEarth datasets. Therefore, this paper demonstrates the use of SSL and audiovisual remote sensing data in conjunction with the application of vision transformers, a new deep learning architecture based on attention mechanisms, for generating embeddings. Firstly, pre-training was conducted on SoundingEarth, using batch triplet loss to bring closer pairs of positive image and sound data and separate distinct pairs. Subsequently, these representations were applied to a logistic regression model to classify aerial scenes from ADVANCE. The results obtained showed precision, recall, and F1-Score above 80% for models trained with both image and sound embeddings. Considering only image embeddings, results were also above 80%, and considering only audio, results were above 40% for these metrics.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade do Estado do Amazonaspt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectSensoriamento remotopt_BR
dc.subjectClassificação de cenas aéreaspt_BR
dc.subjectDeep learningpt_BR
dc.subjectSelf-supervised learningpt_BR
dc.subjectModelos multimodaispt_BR
dc.subjectRemote sensingpt_BR
dc.subjectaerial scene classificationpt_BR
dc.subjectmultimodal modelspt_BR
dc.titleClassificação de cenas aéreas em sensoriamento remoto: Uma abordagem utilizando dados de imagem e som e self-supervised learningpt_BR
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.date.accessioned2024-09-24T18:04:05Z-
dc.creator.ID5404125012501554pt_BR
dc.contributor.advisor1Figueiredo, Carlos Maurício Serodio-
dc.contributor.advisor1ID9060002746939878pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9060002746939878pt_BR
dc.contributor.referee1Figueiredo, Carlos Maurício Serodio-
dc.contributor.referee1ID9060002746939878pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/9060002746939878pt_BR
dc.contributor.referee2Pantoja, Antônio Luiz Alencar-
dc.contributor.referee2ID4220065811192764pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/4220065811192764pt_BR
dc.contributor.referee3Cardoso, Fábio de Sousa-
dc.contributor.referee3ID5612584109016079pt_BR
dc.contributor.referee3Latteshttp://lattes.cnpq.br/5612584109016079pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/5404125012501554pt_BR
dc.description.resumoRealizar classifica¸c˜ao de cenas ´e uma atividade em vis˜ao computacional onde modelos conseguem entender um contexto ou ambiente sem focar apenas em classificar um ´unico objeto como acontece em classifica¸c˜ao de imagens. Por isso, ´e uma ´area de extensa pesquisa, atualmente, por ser utilizada em tarefas importantes como content based retrieval e smart content moderation. Em adi¸c˜ao, quando feita com dados de sensoriamento remoto, ela ´e importante por auxiliar no entendimento do ambiente ao nosso redor, sendo utilizada em outras tarefas como monitoramento de cidades e classifica¸c˜ao do uso da terra. Dando ˆenfase a classifica¸c˜ao de cenas a´ereas, muito desses estudos se baseam em utilizar redes neurais convolucionais para essa atividade, ent˜ao, sendo dependente de uma grande quantidade de anota¸c˜oes para imagens. Por isso, a aplica¸c˜ao de novas t´ecnicas de treino como o self-supervised learning (SSL), no qual, se aprende primeiro a gerar representa¸c˜oes a partir de pseudolabels para depois realizar a tarefa principal, tem sido mais aplicadas na literatura recente. Al´em disso, a possibilidade do uso de dados multimodais com imagem e som geolocalizados como forma de melhorar o desempenho dos modelos nessa tarefa vem se mostrando uma possibilidade atrav´es dos datasets ADVANCE e SoundingEarth. Sendo assim, o presente trabalho mostra a utiliza¸c˜ao do SSL e dados audiovisuais de sensoriamento remoto em conjunto com a aplica¸c˜ao dos vision transformers, uma nova arquitetura de aprendizado profundo baseada nos mecanismos de attention, para gera¸c˜ao de representa¸c˜oes (embeddings). Primeiro, realizou o pre-treino no SoundingEarth, onde se utiliza a batch triplet loss para aproximar dados de imagem e som que s˜ao pares positivos e afastar pares distintos, em seguida, se aplica as representa¸c˜oes em um modelo de regress˜ao log´ıstica para classificar as cenas a´ereas do ADVANCE. Os resultados obtidos foram de precis˜ao, recall e F1-Score acima de 80% para os modelos treinados com os embeddings de imagem e som, considerando apenas os embeddings de imagem obtemos tamb´em resultados acima dos 80% e considerando apenas o ´audio obteve-se resultado acima dos 40% para essas m´etricaspt_BR
dc.publisher.countryBrasilpt_BR
dc.subject.cnpqSistemas Eletrônicos de Medida e de Controlept_BR
dc.publisher.initialsUEApt_BR
Aparece nas coleções:EST - Trabalho de Conclusão de Curso Graduação



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.