APLICAÇÕES DO PROCESSAMENTO DE LINGUAGEM NATURAL (NLP) NO BRASIL: CLASSIFICAÇÃO DE FAKE NEWS.

Autor(es):

Alex Akira Okuno - Orientador: Prof. Andre Luiz Silva Samartini

Ano:

2019

[INTRODUÇÃO] Este artigo teve como objetivo encontrar insights sobre notícias divulgadas no meio online pelos portais de divulgação brasileiros, com principal foco nas fake news, dada a grande relevância do tema no ano de eleição de 2018. [METODOLOGIA] Foi feita uma coleta automatizada de títulos de notícias em diversos websites (web scraping) para a confecção de uma base de dados lde notícias falsas e verdadeiras. Com esses dados, foram treinados modelos de classificação para distinguir entre as notícias fake e verdadeiras e os modelos treinados permitiram classificar notícias em fakes ou não com acurácia acima de 92%. Também utilizou-se um modelo para interpretabilidade chamado LIME (Locally Interpretable Model-Agnostic Explanations), de modo que foi possível identificar as palavras mais impactantes e seus respectivos efeitos para a classificação das notícias. [RESULTADOS] Por fim, utilizou-se os resultados do modelo de regressão logística para propor uma métrica inspirada no índice de Sharpe para avaliação de mídias divulgadoras de notícias inspirada no índice de Sharpe.

Departamento:

TDS

Anexos:

Texto integral para download