La plataforma social X (anteriormente Twitter) ha dado un paso revolucionario al publicar el código fuente completo de su algoritmo de recomendación en GitHub, marcando un precedente sin igual en la industria de las redes sociales. Esta decisión representa un momento histórico en términos de transparencia tecnológica.

El algoritmo de X al descubierto

El repositorio público, disponible en GitHub como «the-algorithm», contiene el conjunto completo de servicios y trabajos responsables de generar los feeds de contenido en todas las superficies de producto de X, incluyendo el Timeline «Para Ti», Búsqueda, Explorar y Notificaciones.

Componentes principales del sistema

La arquitectura del algoritmo se basa en componentes compartidos de datos, modelos y frameworks de software que trabajan en conjunto:

Datos fundamentales

  • TweetyPie: Servicio central que maneja la lectura y escritura de datos de publicaciones
  • Unified User Actions: Stream en tiempo real de acciones de usuarios en X
  • User Signal Service: Plataforma centralizada para obtener señales explícitas (likes, respuestas) e implícitas (visitas a perfiles, clics en tweets)

Modelos de inteligencia artificial

  • SimClusters: Detección de comunidades y embeddings dispersos en esas comunidades
  • TwHIN: Embeddings densos de grafos de conocimiento para usuarios y publicaciones
  • Trust and Safety Models: Modelos para detectar contenido NSFW o abusivo
  • Real Graph: Modelo para predecir la probabilidad de que un usuario interactúe con otro
  • TweepCred: Algoritmo tipo PageRank para calcular la reputación de usuarios
Sistema de recomendaciones de X. A la izquierda se muestran los datos de entrada (grafo social, interacción con tuits y datos de usuario). En el centro, los componentes de características como GraphJet, SimClusters, TwHIN, RealGraph, TweepCred y Trust & Safety alimentan distintos módulos de candidatos (Search Index, CR Mixer, UTEG y FRS). Estos se procesan en un modelo de red neuronal denominado Heavy Ranker, seguido de heurísticas y filtros como prueba social, diversidad de autores, visibilidad, balance de contenido y fatiga de retroalimentación. Finalmente, los resultados se mezclan junto con anuncios y recomendaciones de a quién seguir, para construir la línea de tiempo del usuario.

Cómo funciona el Timeline «Para Ti»

El sistema de recomendaciones utiliza múltiples fuentes de candidatos para generar contenido personalizado:

Fuentes de candidatos principales

  • Search Index: Encuentra y clasifica publicaciones de la red del usuario (~50% de las publicaciones provienen de aquí)
  • Tweet Mixer: Capa de coordinación para obtener candidatos de tweets externos a la red
  • User Tweet Entity Graph (UTEG): Mantiene un grafo en memoria de interacciones usuario-publicación
  • Follow Recommendation Service (FRS): Proporciona recomendaciones de cuentas a seguir

Proceso de ranking

El contenido pasa por dos fases de clasificación:

  1. Light Ranker: Modelo ligero usado por el índice de búsqueda para clasificación inicial
  2. Heavy Ranker: Red neuronal para ranking de candidatos, una de las señales principales para seleccionar publicaciones

Filtrado y mezcla final

  • Home Mixer: Servicio principal para construir el Timeline, basado en Product Mixer
  • Visibility Filters: Responsable del filtrado de contenido para cumplimiento legal y calidad del producto
  • Timeline Ranker: Servicio legacy que proporciona publicaciones clasificadas por relevancia

Notificaciones recomendadas

X también ha liberado el código de su sistema de notificaciones push inteligentes, que incluye:

  • Push Service: Servicio principal de recomendaciones para notificaciones
  • Light Ranker y Heavy Ranker específicos: Modelos de aprendizaje automático multitarea para predecir probabilidades de apertura y engagement

Arquitectura técnica avanzada

El sistema utiliza frameworks de software especializados:

  • Navi: Servidor de modelos de machine learning de alto rendimiento escrito en Rust
  • Product Mixer: Framework para construir feeds de contenido
  • Timelines Aggregation Framework: Para generar características agregadas en batch o tiempo real
  • TWML: Framework de machine learning legacy construido sobre TensorFlow v1

Un llamado a la colaboración global

X invita a la comunidad global de desarrolladores a contribuir mediante issues y pull requests en GitHub, buscando aprovechar la inteligencia colectiva para identificar problemas y sugerir mejoras.

La empresa ha establecido que cualquier preocupación de seguridad debe dirigirse a su programa oficial de bug bounty a través de HackerOne.

Impacto en la industria

Esta decisión de X marca un precedente histórico en la industria de las redes sociales, donde los algoritmos de recomendación tradicionalmente han sido secretos comerciales celosamente guardados. Al abrir su código fuente bajo licencia AGPL-3.0, X está estableciendo un nuevo estándar de transparencia que podría presionar a otras plataformas a seguir su ejemplo.

El repositorio ya cuenta con más de 64,000 estrellas en GitHub y ha generado miles de forks, demostrando el enorme interés de la comunidad técnica en entender y mejorar estos sistemas que influyen en la experiencia de millones de usuarios diariamente.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí