Check-up
O projeto Check-up, desenvolvido pelo Aos Fatos, é uma iniciativa que visa analisar a presença de desinformação em anúncios publicitários de saúde em grandes sites de notícias brasileiros. Em sua primeira aplicação, foram examinados mais de 240 mil anúncios veiculados em dez sites de notícias brasileiros.

Funciona assim
A ferramenta, disponível em um repositório, consiste em três módulos: um crawler para coletar links, um raspador para capturar e arquivar anúncios, e um classificador temático baseado em um modelo de linguagem avançado. Embora inicialmente focado em dez portais de notícias específicos (Estadão, Folha, Globo, IG, Metrópoles, R7, RBS, Terra, Veja e UOL), o código pode ser adaptado para outros sites. O projeto é de uso não-comercial e requer atribuição de crédito, oferecendo uma solução inovadora para monitorar e combater a desinformação na publicidade de saúde online.
Documentação
A ferramenta opera em várias etapas, começando pela coleta de URLs de notícias nas páginas iniciais dos portais. Utilizando a tecnologia Scrapy, o sistema “raspa” as informações necessárias de cada site. Em seguida, a ferramenta coleta dados sobre os anúncios presentes nas páginas das notícias, simulando a navegação em um navegador real através da biblioteca Playwright.
Para facilitar o uso, foi implementado um sistema de comandos simples. Por exemplo, “make start” inicia os serviços necessários em containers Docker, enquanto “make crawl” inicia a coleta de URLs de notícias em todos os portais configurados. A coleta de anúncios pode ser iniciada com o comando “make scrape”.
Um aspecto crucial da ferramenta é sua flexibilidade. Os desenvolvedores podem adicionar novos portais de notícias ao sistema, expandindo assim sua cobertura. O processo envolve a inserção das informações do novo portal no banco de dados e a criação de scripts específicos para coletar notícias e anúncios desse portal.
A ferramenta também inclui um componente de inteligência artificial para classificação de anúncios. Utilizando a API da OpenAI, cada anúncio coletado pode ser categorizado em uma das 45 categorias predefinidas, oferecendo insights valiosos sobre o conteúdo publicitário associado às notícias.
É importante notar que, como a ferramenta depende da estrutura HTML dos portais de notícias, ela pode necessitar de ajustes periódicos para se adaptar a mudanças nos sites. Isso ressalta a importância de uma manutenção regular para garantir a eficácia contínua do sistema.
Para saber mais, visite o repositório no Github e confira a documentação do projeto.
Imagens ilustrativas
Clique na imagem para ampliá-la.