Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes - (2020)

Acessos: 17

Felipe de Paula Oliveira, Thiago Magela Rodrigues Dias, Adilson Luiz Pinto

Volume: 48 - Issue: 3

Resumo. Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico  e Tecnológico),  são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjunto de indivíduos. O que possibilita a realização de diversos tipos de análises bibliométricas, podendo ser aplicados tanto métodos ou modelos tradicionais, quanto alternativos para a avaliação da ciência. O estudo apresentado, trata de afirmar sobre a viabilidade de aplicação de PLN (Processamento de Linguagem Natural) para a avaliação de similaridade semântica sobre os dados cadastrados no currículo Lattes. Para a realização de análises utilizou-se uma amostra de curículos referentes a doutores e realizado o tratamento em um corpus textual, para a representação semântica vetorial, foi aplicada a ferramenta Word2Vec, sendo possível a realização de inferência dos termos. Como resultados foram apresentados índices de similaridade calculados pelo modelo em palavras contidas em títulos de publicações

Keywords: plataforma lattes. processamento de linguagem natural. similaridade semântica.

Idioma: English

Registro: 2024-10-19 22:31:58

http://revista.ibict.br/ciinf/article/view/4922