O que está na intersecção de música e dados? A conversa tende a resvalar para os efeitos mais perniciosos dos algoritmos: funis da nossa atenção, camuflados como gentis conselheiros, quando podem ser elementos de uma conspiração…
No que depender da locutora Rute Correia, a análise de dados tem missões maiores e pode reabilitar o senso comum. A ex-voz das manhãs da Rádio Oxigénio, jornalista e académica, mergulhou, através de um curso intensivo, no mundo do processamento de linguagem natural. Como computar um organismo tão vivo quanto a língua? O projecto final de Correia implicava clarificar essa questão.
A “misoginia no hip hop português” começou por ser o móbil — parcialmente abandonado, dada a dificuldade de reunir um corpus suficiente de versos. Correia seguiu, então, pelo mais amplo flagelo da “desigualdade de género”. A via escolhida preserva parte da premissa original: o hip hop é acomodado entre todas as possibilidades sónicas do mundo. Há um único requisito: tiveram que ser palmilhadas por uma mulher artista. Daí em diante, vale tudo.
A locutora procurou descodificar letras desde Joan Baez até Nicki Minaj — quem vence a batalha, e que batalha? —, das Pussycat Dolls a Björk, de Missy Elliott a Kelsey Lu. “Girl Talk” é o resultado de nove semanas de investigação, trabalho cuidado e a ambição de chegar a todos por igual. O Rimas e Batidas falou com Rute Correia acerca dos passos pragmáticos de investigação, as mulheres do universo ReB em representação, e a tecnologia que nos devolve a esperança.
I developed “Girl Talk” as my final project for the Data Analysis bootcamp at Ironhack Lisbon, during a dystopian week of social isolation in March 2020. I worked in Python and all the code is available on GitHub. Feedback is very welcome!
Há pouco tempo estavas no Twitter a pedir sugestões de repertório — e já aqui está o projecto. A quarentena acelerou-te?
Podia ter sido, mas acho que não. Na verdade, acho que a quarentena me atrasou, porque fiz menos do que queria para o tempo que tinha. Este projecto foi feito num contexto muito específico: é o projecto final que fiz para uma formação intensiva de Análise de Dados na Ironhack. Ter estado em casa foi menos produtivo do que gostaria, porque o contacto com colegas e professores ficou naturalmente menos orgânico. Ao longo do curso de nove semanas, esse apoio foi crucial para que desenvolvesse as minhas competências técnicas e para que fosse mais criativa na minha abordagem aos problemas. Apesar de ter tido essa ajuda pontualmente, a quarentena só dificultou o trabalho.
Em termos pragmáticos, como é que se organiza um trabalho destes? Quanto tempo gastaste no total?
O primeiro passo, diria, é ter uma pergunta de partida — algo que nos guie tanto na recolha como na análise de dados. Dessa forma, conseguimos perceber que tipo de informação procuramos. Depois começa a parte mais prática: recolher os dados, limpá-los e analisá-los. A minha (curta) experiência nesta área diz-me que a limpeza tende a ser o que dá mais trabalho, mas tudo depende dos dados que obtemos.
Se excluirmos os primeiros dias de pesquisa inicial (que a minha ideia de partida não era bem esta), levei mais ou menos cinco/seis na parte técnica e cerca de dois dias na parte do artigo/explicação. Uma pessoa mais experiente conseguiria fazer o mesmo em menos tempo, mas em certas coisas estaria tão limitada quanto eu. Por exemplo, fui buscar os dados ao Genius através da API (Interface de Programação de Aplicações) que eles disponibilizam. Em termos simplistas, é um ponto de acesso que o Genius disponibiliza ao exterior para que se consiga ir lá buscar dados (como letras de músicas) de forma facilitada. Acontece que eu precisava de muitas letras e, para não sobrecarregar os servidores, há limitações no número de pedidos que podem ser feitos num determinado espaço de tempo. Levei cerca de 48 horas a ir lá buscar tudo o que precisava (o meu conjunto inicial de dados tinha cerca de 32 mil letras de músicas). Esse tempo dificilmente seria encurtado de forma considerável sem recorrer a coisas menos éticas, diria.
Veio-me à cabeça o Pudding quando olhei para a organização da informação, numa configuração simples até para quem nada percebe do assunto. A análise de data deve ser tão acessível como os maiores êxitos analisados neste projecto?
O Pudding é uma das minha maiores inspirações! Fico mesmo honrada por achares isso. Aliás, este trabalho em particular é mais ou menos uma derivação (muito básica) do que eles fizeram nestes dois artigos: “The Largest Vocabulary In Hip-Hop” e “The Words That Are Most Hip-Hop”. Eu diria que sim, que a análise de dados deve ser tão acessível como um álbum da Beyoncé. Não tem de ser para todos; tem, evidentemente, múltiplas camadas; mas deve ser inteligível à primeira audição (neste caso, leitura), porque é isso que o torna um êxito. Neste contexto mais jornalístico, um bom profissional deve fazer o melhor possível para que as notícias sejam claras e compreensíveis, mesmo em tópicos um pouco mais complexos ou especializados. Acho importante haver uma certa componente didáctica neste tipo de trabalhos, até porque a transparência dos processos de investigação (tanto no jornalismo como na academia) é importante para a sua integridade. Explicar decisões metodológicas e limitações é essencial para garantirmos que os resultados não são mal interpretados.
Que ideias te surgiram além desta? Porque é que te decidiste num tributo às mulheres?
A questão da desigualdade de género é transversal a quase todos os campos da nossa vida. Estranhamente, na última década, essa desigualdade tem aumentado no mundo da música. Isso é tangível, mas é difícil de explicar – sobretudo num universo em que há poucos dados disponíveis. E, por isso, queria muito fazer um contributo nessa área. Nos últimos anos, fiz várias peças sobre estas questões para a Oxigénio, portanto isto acabou por ser quase um trabalho de continuidade.
A minha ideia inicial era muito distinta, contudo, embora também fosse focada nas mulheres. O que eu queria fazer era usar processamento de linguagem natural para identificar misoginia no hip hop português, mas tive muita dificuldade em encontrar dados completos. O hip hop mais recente está muito bem documentado no Genius, mas o que ficou para trás de 2008-2010 tem muitas lacunas. E não estou a falar só de coisas mais underground. Faltam muitas letras, mesmo de artistas com uma exposição e um culto consideráveis, como os Mind Da Gap, Dealema, NBC ou Expensive Soul. Ainda adicionei algumas manualmente, mas tornou-se claro que não ia conseguir ter os dados necessários em tempo útil. Além disso, para aprendizagem automatizada (como é o processamento de linguagem natural) convém ter um conjunto de dados particularmente extenso. Há quem tenha feito experiências com NLP só com a música do Drake ou dos The Smiths, mas, para este tipo de processos, devemos analisar o maior conjunto de dados possível. Ainda tentei alargar o meu objecto para a música portuguesa em geral e, talvez, fazer uma comparação entre géneros no que diz respeito ao tratamento que fazem das mulheres nas letras, mas debati-me com o mesmo problema de dados incompletos.
Quando estava na minha escavação de dados inicial, a certa altura apercebi-me o quão irónico era estar a tentar dar visibilidade às mulheres, quando, na realidade, estava só a olhar para letras escritas e cantadas por homens. Então, decidi reformular as minhas questões de pesquisa e foi assim que surgiu o “Girl Talk” — uma análise de música feita por mulheres. Acho que a melhor maneira de enaltecer o trabalho de alguém é olhar para ele. Foi isso que eu fiz, analisei-o para tentar perceber afinal sobre o que é que estas vozes cantam.
Que balanço fazes das mulheres do nosso universo aqui representadas?
É muito positivo, não é? Tanto no número de palavras por canção, como no número de palavras únicas, as rappers destacam-se imenso. Aliás, quando olhamos para a proporção entre o número de palavras únicas e o número de canções de cada artista, 8 dos 10 nomes do topo da lista são figuras do universo Rimas e Batidas, e são sobretudo rappers. A variedade de indicadores também permite ter uma visão mais abrangente do trabalho de cada uma delas. Por exemplo, a Nicki Minaj destaca-se no número absoluto de palavras únicas com uma vantagem larga (apenas atrás da Joan Baez), mas tanto uma como outra precisaram de algumas centenas de canções até lá chegarem, pelo que a sua marca no rácio não é tão alta. Também acho particularmente notável que a única artista que aparece nas 10 melhores nas duas métricas para o número de palavras únicas (rácio e valor absoluto) é a Azealia Banks — isto apesar do caos dos últimos anos e de ter uma discografia maioritariamente focada em EPs e mixtapes. Ela foi um bocado uma estrela cadente da última década, como sabemos. Mas fez-me pensar que, se calhar, até tinha muita razão quando ia para as redes sociais dizer que sentia que o seu talento estava a ser desperdiçado.
Na parte mais avançada do projecto, também é de enaltecer que o hip hop é o único género que é facilmente identificável como raiz de um dos tópicos. No tópico 3, sobressaem termos como “fuck” e “bitch”. Algo que denota o facto de que as rappers também se apropriaram da linguagem vernacular do hip hop, que é o calão. Mesmo que isso inclua termos marcadamente misóginos, como “bitch”.
A análise de dados torna-se uma constante no discurso sobre as ferramentas que nos vêm ajudar em breve. O teu trabalho é um exemplo dos benefícios dessa disciplina para a música — que outros destacas?
Sou suspeita, claro, mas acho que todas estas ferramentas se podem tornar um aliado muito forte na documentação e na análise da música no mundo em que vivemos.
Mesmo em Portugal, onde os dados são particularmente escassos, ajudam-nos a cimentar percepções e teorias. O jornalismo musical que se faz por cá é bastante limitado, por uma série de razões, e é fácil criarem-se narrativas enviesadas simplesmente porque absorvemos a realidade que nos é servida sem conseguir olhar para o lado. Com o reforço da análise de dados, é mais fácil verificar se as nossas percepções correspondem à realidade ou só ao nosso micro-cosmos. Usando este trabalho como exemplo, é relativamente óbvio pensarmos que as rappers se iriam sair bem nesta questão das palavras, mas no que respeita à média de palavras por canção há três girls bands nas 10 melhores posições. Confesso que fiquei muito surpreendida com estes resultados. Acho poderosíssimo ter uma ferramenta que nos ajuda a desmistificar preconceitos.
No mês passado, fiz um outro trabalho (ainda não publicado) sobre o consumo de música portuguesa em que analisei 16 anos de tabelas de vendas de álbuns em Portugal. Descobri que 3 dos 20 artistas nacionais mais vendidos em Portugal são artistas para o mercado infantil — um mercado que é muitas vezes ridicularizado, mas que apesar das quebras continua a ter um peso considerável na nossa pequena indústria discográfica. Eu acho isto tudo super entusiasmante, porque nos abre os olhos para possibilidades que nunca equacionámos.