Please use this identifier to cite or link to this item: https://ric.cps.sp.gov.br/handle/123456789/17345
Title: Identificação de sentimentos em textos utilizando o modelo Term Frequency-Inverse Document Frequency
Other Titles: Sentiment analysis in texts using the term frequency-inverse document frequency model
Authors: LANDIM, Geovana Pereira Paz
TRESSO, Guilherme José
Advisor: PASSERINI, Jefferson Antonio Ribeiro
type of document: Artigo científico
Keywords: Emoções
Issue Date: 5-Dec-2023
Publisher: 171
Citation: LANDIM, G. P. P.; TRESSO, G. J.; PASSERINI, J. A. R. Identificação de sentimentos em textos utilizando o modelo Term Frequency-Inverse Document Frequency. 2023. Artigo de Graduação (Tecnologia em Sistemas para Internet) – Faculdade de Tecnologia Prof. José Camargo, Jales, 2023. Artigo apresentado no VII Simpósio de Tecnologia da Fatec Jales – SITEF, 2023, Jales-SP.
Abstract: Este trabalho abordou a aplicação de técnicas de Processamento de Linguagem Natural (PLN) na classificação de sentimentos em textos como positivos e negativos. Utilizando a linguagem Python e bibliotecas como Numpy, Pandas, Scikit-Learn, Matplotlib e NLTK, construiu-se um modelo de PLN com ênfase na análise de textos em língua inglesa, utilizando uma base de dados de avaliações de filmes do Rotten Tomatoes. O processo incluiu o pré-processamento dos dados, onde substituímos abreviações e removemos caracteres especiais, com exceção da palavra "not", que é fundamental na classificação de textos negativos. Foi investigado o impacto do uso de stop words, concluindo que sua manutenção melhora a qualidade da análise, equilibrando o peso das palavras. Comparando os classificadores MultinomialNB e SVM, observou-se que o primeiro teve um desempenho superior de 77,5% de acurácia sem a utilização de stop words, devido à sua eficácia na análise de dados textuais. Também houve a utilização de um método de ensemble, que combinando os resultados dos classificadores, obteve 76,9% de acurácia sem a utilização de stop words, não superando o desempenho do classificador MultinomialNB. Este estudo oferece insights valiosos sobre a importância do pré-processamento de dados e da escolha adequada de classificadores em tarefas de PLN.
This work addressed the application of Natural Language Processing (NLP) techniques in sentiment classification of texts as positive and negative. Using the Python language and libraries such as Numpy, Pandas, Scikit-Learn, Matplotlib, and NLTK, a natural language processing model was built with a focus on the analysis of English texts, using a dataset of movie reviews from Rotten Tomatoes. The process included data preprocessing, where abbreviations were replaced, and special characters were removed, except for the word "not," which is crucial in the classification of negative texts. We investigated the impact of using stop words, concluding that their retention improves the quality of the analysis by balancing the weight of words. Comparing the MultinomialNB and SVM classifiers, we observed that the former achieved a superior performance of 77.5% accuracy without the use of stop words due to its effectiveness in textual data analysis. We also explored the use of an ensemble method, which, by combining the results of classifiers, achieved 76.9% accuracy without using stop words, but it did not surpass the performance of the MultinomialNB classifier. This study provides valuable insights into the importance of data preprocessing and the appropriate choice of classifiers in NLP tasks.
Description: Artigo apresentado no VII Simpósio de Tecnologia da Fatec Jales – SITEF, 2023, Jales-SP.
URI: https://ric.cps.sp.gov.br/handle/123456789/17345
Appears in Collections:Trabalhos de Conclusão de Curso



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.