Meta ha presentado una herramienta llamada NotebookLlama, que permite generar contenidos de estilo podcast de manera automatizada, similar a la popular función de Google NotebookLM. Esta implementación se apoya en los modelos propios de Meta, los modelos Llama, para el procesamiento y generación de estos contenidos.
El proceso de NotebookLlama se basa en tomar un archivo de texto, como un PDF de un artículo o una publicación de blog, y convertirlo en una versión dramatizada, con diálogos e interrupciones que simulan una conversación de estilo podcast. La herramienta analiza el contenido, lo transcribe y añade una capa de dramatización para luego sintetizarlo a través de modelos de texto-a-voz (TTS) de código abierto, que reproducen las voces en la conversación.
En las pruebas realizadas, el resultado muestra voces con una calidad bastante robótica y poca fluidez natural, características que reducen la experiencia inmersiva en comparación con los resultados obtenidos en NotebookLM. En particular, algunos usuarios notaron que las voces tienden a hablarse encima en ciertos puntos, lo que afecta negativamente a la claridad y coherencia del diálogo.
Desde el equipo de Meta, reconocen que estas limitaciones están relacionadas principalmente con el modelo TTS utilizado, y sugieren que la calidad podría mejorar considerablemente con modelos de voz más avanzados. Además, sugieren que un posible enfoque de mejora sería usar dos agentes distintos para debatir y desarrollar el tema, en lugar de un solo modelo generando el guion completo.
Aunque NotebookLlama no es la primera herramienta en intentar replicar la función de podcasts automáticos de NotebookLM, se encuentra entre las pocas alternativas de código abierto que persiguen este objetivo. Sin embargo, persiste un problema común en estas tecnologías de IA: la alucinación. Tanto NotebookLlama como otras soluciones enfrentan desafíos a la hora de asegurar que el contenido generado sea veraz y no contenga información inventada, una cuestión que sigue afectando a todos los sistemas de generación de contenido mediante IA.