Please use this identifier to cite or link to this item: https://ric.cps.sp.gov.br/handle/123456789/19594
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorDEZANI, Henrique-
dc.contributor.authorMARQUES, Francis Henrique Pereira-
dc.contributor.authorLEITE, Luís Fernando-
dc.contributor.otherVIEIRA, Lucimar Sasso-
dc.contributor.otherTAINO, Daniela Fernanda-
dc.date.accessioned2024-06-07T18:27:53Z-
dc.date.available2024-06-07T18:27:53Z-
dc.date.issued2023-11-27-
dc.identifier.citationMARQUES, Francis Henrique Pereira; LEITE, Luís Fernando. Sumarização de notas técnicas de documentos fiscais utilizando PySpark e técnicas de processamento de linguagem natural. 2023. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2023.pt_BR
dc.identifier.urihttps://ric.cps.sp.gov.br/handle/123456789/19594-
dc.description.abstractNeste artigo, aprofundamos a exploração das capacidades do Python e PySpark, com foco particular na biblioteca SparkNLP, para sumarizar eficientemente notas técnicas associadas a documentos fiscais (DF-e) divulgadas pelo governo. A escolha do PySpark foi devido a sua capacidade de integração nativa com o ambiente Spark o tornando ideal para o tratamento de vastos volumes de dados textuais, pensando em futura escalabilidade devido ao aumento desses documentos publicados. Utilizando a já segmentada técnica de Análise de Alocação Latente de Dirichlet (LDA), conseguimos desenvolver um modelo baseado em tópicos, que extraí e captura as principais temáticas e tendências presentes nos documentos. Esta abordagem escolhida nos permitiu condensar informações essenciais, simplificando significativamente a compreensão e análise desses documentos, focando no benefício para partes interessadas e profissionais da área fiscal. Em um cenário onde a clareza e a agilidade são essenciais, esta metodologia surge para criar um modelo facilitador, potencializando a extração de insights relevantes de extensos conjuntos de documentos fiscais.pt_BR
dc.description.abstractIn this article, we delve deeper into the capabilities of Python and PySpark, with a specific focus on the SparkNLP library, to efficiently summarize technical notes associated with fiscal documents (DF-e) released by the government. The choice of PySpark was due to its innate ability to integrate with the Spark environment, making it ideal for processing vast volumes of textual data, especially considering future scalability due to the increasing number of such published documents. By employing the distinct technique of Latent Dirichlet Allocation (LDA), we were able to develop a topic-based model that extract and captures the main themes and trends present in the documents. The chosen approach allowed us to significantly condense essential information, simplifying the understanding and analysis of these documents, with a focus on benefiting stakeholders and professionals in the fiscal field. In a scenario where clarity and agility are paramount, this methodology emerges to create a facilitating model, enhancing the extraction of relevant insights from extensive sets of fiscal documents.pt_BR
dc.description.sponsorshipCurso Superior de Tecnologia em Informática para Negóciospt_BR
dc.language.isopt_BRpt_BR
dc.publisher121pt_BR
dc.subjectDocumento fiscalpt_BR
dc.subjectProcessamento de dadospt_BR
dc.subjectAnálise de dadospt_BR
dc.subjectPythonpt_BR
dc.subject.otherInformação e Comunicaçãopt_BR
dc.titleSumarização de notas técnicas de documentos fiscais utilizando PySpark e técnicas de processamento de linguagem naturalpt_BR
dc.title.alternativeSummarization of technical notes from tax documents using PySpark and natural language processing techniquespt_BR
dc.typeArtigo científicopt_BR
Appears in Collections:Trabalhos de Conclusão de Curso



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.