Identificação de sentimentos em textos utilizando o modelo Term Frequency-Inverse Document Frequency

LANDIM, Geovana Pereira Paz; TRESSO, Guilherme José

Please use this identifier to cite or link to this item: https://ric.cps.sp.gov.br/handle/123456789/17345

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	PASSERINI, Jefferson Antonio Ribeiro	-
dc.contributor.author	LANDIM, Geovana Pereira Paz	-
dc.contributor.author	TRESSO, Guilherme José	-
dc.date.accessioned	2024-04-11T18:06:27Z	-
dc.date.available	2024-04-11T18:06:27Z	-
dc.date.issued	2023-12-05	-
dc.identifier.citation	LANDIM, G. P. P.; TRESSO, G. J.; PASSERINI, J. A. R. Identificação de sentimentos em textos utilizando o modelo Term Frequency-Inverse Document Frequency. 2023. Artigo de Graduação (Tecnologia em Sistemas para Internet) – Faculdade de Tecnologia Prof. José Camargo, Jales, 2023. Artigo apresentado no VII Simpósio de Tecnologia da Fatec Jales – SITEF, 2023, Jales-SP.	pt_BR
dc.identifier.uri	https://ric.cps.sp.gov.br/handle/123456789/17345	-
dc.description	Artigo apresentado no VII Simpósio de Tecnologia da Fatec Jales – SITEF, 2023, Jales-SP.	pt_BR
dc.description.abstract	Este trabalho abordou a aplicação de técnicas de Processamento de Linguagem Natural (PLN) na classificação de sentimentos em textos como positivos e negativos. Utilizando a linguagem Python e bibliotecas como Numpy, Pandas, Scikit-Learn, Matplotlib e NLTK, construiu-se um modelo de PLN com ênfase na análise de textos em língua inglesa, utilizando uma base de dados de avaliações de filmes do Rotten Tomatoes. O processo incluiu o pré-processamento dos dados, onde substituímos abreviações e removemos caracteres especiais, com exceção da palavra "not", que é fundamental na classificação de textos negativos. Foi investigado o impacto do uso de stop words, concluindo que sua manutenção melhora a qualidade da análise, equilibrando o peso das palavras. Comparando os classificadores MultinomialNB e SVM, observou-se que o primeiro teve um desempenho superior de 77,5% de acurácia sem a utilização de stop words, devido à sua eficácia na análise de dados textuais. Também houve a utilização de um método de ensemble, que combinando os resultados dos classificadores, obteve 76,9% de acurácia sem a utilização de stop words, não superando o desempenho do classificador MultinomialNB. Este estudo oferece insights valiosos sobre a importância do pré-processamento de dados e da escolha adequada de classificadores em tarefas de PLN.	pt_BR
dc.description.abstract	This work addressed the application of Natural Language Processing (NLP) techniques in sentiment classification of texts as positive and negative. Using the Python language and libraries such as Numpy, Pandas, Scikit-Learn, Matplotlib, and NLTK, a natural language processing model was built with a focus on the analysis of English texts, using a dataset of movie reviews from Rotten Tomatoes. The process included data preprocessing, where abbreviations were replaced, and special characters were removed, except for the word "not," which is crucial in the classification of negative texts. We investigated the impact of using stop words, concluding that their retention improves the quality of the analysis by balancing the weight of words. Comparing the MultinomialNB and SVM classifiers, we observed that the former achieved a superior performance of 77.5% accuracy without the use of stop words due to its effectiveness in textual data analysis. We also explored the use of an ensemble method, which, by combining the results of classifiers, achieved 76.9% accuracy without using stop words, but it did not surpass the performance of the MultinomialNB classifier. This study provides valuable insights into the importance of data preprocessing and the appropriate choice of classifiers in NLP tasks.	pt_BR
dc.description.sponsorship	Curso Superior de Tecnologia em Sistemas para Internet	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.publisher	171	pt_BR
dc.subject	Emoções	pt_BR
dc.subject.other	Informação e Comunicação	pt_BR
dc.title	Identificação de sentimentos em textos utilizando o modelo Term Frequency-Inverse Document Frequency	pt_BR
dc.title.alternative	Sentiment analysis in texts using the term frequency-inverse document frequency model	pt_BR
dc.type	Artigo científico	pt_BR
Appears in Collections:	Trabalhos de Conclusão de Curso

Files in This Item:

File	Description	Size	Format
sistemas_para_internet_2023_2_geovana_pereira_paz_landim_identificacao_de_sentimentos_em_textos_utilizando_o_modelo.pdf		175.54 kB	Adobe PDF	View/Open

Show simple item record Recommend this item