Check-up
El proyecto Check-up, desarrollado por Aos Fatos, es una iniciativa que tiene como objetivo analizar la presencia de desinformación en anuncios publicitarios de salud en grandes sitios de noticias brasileños. En su primera aplicación, se examinaron más de 240 mil anuncios publicados en diez sitios de noticias brasileños.
Así funciona
La herramienta, disponible en un repositorio, consta de tres módulos: un crawler para recolectar enlaces, un raspador para capturar y archivar anuncios, y un clasificador temático basado en un modelo de lenguaje avanzado. Aunque inicialmente está enfocado en diez portales de noticias específicos (Estadão, Folha, Globo, IG, Metrópoles, R7, RBS, Terra, Veja y UOL), el código puede adaptarse para otros sitios. El proyecto es de uso no comercial y requiere atribución de crédito, ofreciendo una solución innovadora para monitorear y combatir la desinformación en la publicidad de salud en línea.
Documentación
La herramienta opera en varias etapas, comenzando con la recolección de URLs de noticias en las páginas principales de los portales. Usando la tecnología Scrapy, el sistema «raspa» la información necesaria de cada sitio. Luego, la herramienta recolecta datos sobre los anuncios presentes en las páginas de noticias, simulando la navegación en un navegador real mediante la biblioteca Playwright.
Para facilitar el uso, se implementó un sistema de comandos simples. Por ejemplo, “make start” inicia los servicios necesarios en contenedores Docker, mientras que “make crawl” comienza la recolección de URLs de noticias en todos los portales configurados. La recolección de anuncios puede iniciarse con el comando “make scrape”.
Un aspecto crucial de la herramienta es su flexibilidad. Los desarrolladores pueden agregar nuevos portales de noticias al sistema, ampliando así su cobertura. El proceso implica insertar la información del nuevo portal en la base de datos y crear scripts específicos para recolectar noticias y anuncios de ese portal.
La herramienta también incluye un componente de inteligencia artificial para la clasificación de anuncios. Usando la API de OpenAI, cada anuncio recolectado puede clasificarse en una de las 45 categorías predefinidas, ofreciendo información valiosa sobre el contenido publicitario asociado a las noticias.
Es importante notar que, dado que la herramienta depende de la estructura HTML de los portales de noticias, puede necesitar ajustes periódicos para adaptarse a cambios en los sitios. Esto resalta la importancia de un mantenimiento regular para garantizar la eficacia continua del sistema.
Para saber más, visita el repositorio en Github y consulta la documentación del proyecto.
Imágenes ilustrativas
Haz clic en la imagen para ampliarla.