Utilizando dados do twitter, sua API e o R, resolvi estimar ideologia de políticos importantes no cenário nacional.A ideia é calcular "Pontos ideais" levando em consideração os seguidores das contas do twitter de cada Político.
Estimar "Ideal Points" não é uma ideia nova e a interpretação do que de fato significam essas estimativas ainda são pontos de discussão. Entretanto, não é incomum associar os resultados a ideologia.
Estimar "Ideal Points" não é uma ideia nova e a interpretação do que de fato significam essas estimativas ainda são pontos de discussão. Entretanto, não é incomum associar os resultados a ideologia.
Vemos, como era de se esperar, que políticos do DEM estão mais associados a direita, assim como políticos do PSOL estão mais associados a esquerda, de acordo com seus seguidores no Twitter.
Veja o gráfico abaixo:
Veja o gráfico abaixo:
- Próximo passo: Estimar "Pontos Ideais" pros usuários. Exemplo: Luciano Huck, Leonardo Boff e Jabour estão mais identificados, ideologicamente, com a esquerda ou com a direita?
Obs: Esse é só um exercício inicial... Preciso de um computador um pouco mais potente que meu MacBook Pro (i5 com 4gb) pra fazer esses cálculos. Quem tiver um super computador eu ofereço minha amizade verdadeira em troca de algumas (muitas) horas de processamento =)
Questões Técnicas :
O exercício foi possível e graças ao excelente artigo e documentação do Pablo Barberá da New York University (Birds of the Same Feather Tweet Together. Bayesian Ideal Point Estimation Using Twitter Data. Political Analysis, 2015, 23 (1), 76-91). O modelo dele estima Ideal Points não só para os Políticos (e outros), como também para os seguidores desses políticos. A probabilidade de um usuário do twitter i seguir uma conta de um político j é dada por:
Nenhum dos parâmetros do modelo pode ser observado então fazer inferência, principalmente sobre theta e o phi (ideal points dos usuários e dos políticos) é problemático...
A função de máxima verossimilhança é:
Já da pra ver que estimar isso é um verdadeiro INFERNO! pode ser bem complicado . A ideia é, então, partir pra simulação usando Markov Chain Monte Carlo (http://en.wikipedia.org/wiki/Markov_chain_Monte_Carlo). Usando distribuição Normal pra cada um dos parâmetros Alpha, Beta, Theta e Phi, a distribuição conjunta a posteriori é então:
Agora é só simular e correr pro abraço!