Regalías en la era de la IA Pagar a los artistas por canciones generadas por IA
La industria musical con IA está creciendo, lo que plantea preguntas sobre cómo proteger y pagar a los artistas cuyo trabajo se utiliza para entrenar modelos generativos de IA.
¿Las respuestas están en los propios modelos?
La "Suite Ilíaca" se considera la primera pieza musical compuesta por un ordenador electrónico.
Lejaren Hiller, profesor y compositor en la Universidad de Illinois Urbana-Champaign, programó meticulosamente el ordenador pionero de la escuela, el Illiac I, para generar cuatro movimientos basados en probabilidades algorítmicas.
Eso fue en 1956.
Hoy en día, con el auge de la potencia informática y la tecnología de IA generativa (genAI), es posible generar música en tu navegador web solo con mensajes de texto, todo en cuestión de segundos.
Nuevos modelos de generación artificial como Suno y Udio pueden crear piezas impresionantes, con melodías, armonías y ritmos pulidos, así como timbres profesionalmente dominados.
Sin embargo, a diferencia del Ilíac I, estos modelos se entrenan usando música preexistente escrita por manos humanas.
Por lo tanto, esta nueva capacidad para generar música comercialmente viable nos obliga a replantearnos cómo la industria protege y remunera a los artistas.
Con el auge de estos sistemas de generIA surge una pregunta fundamental: ¿cómo tratamos a los artistas de forma justa?
En el Audio, Music and AI Lab (AMAAI) de la Universidad de Tecnología y Diseño de Singapur, estamos explorando si nuevos modelos de IA diseñados para detectar similitudes entre piezas musicales podrían revelar nuevas formas de distribuir regalías.
En un panorama musical que está cada vez más dominado por la IA, esta investigación podría ayudar a transformar la forma en que se compensa a los creadores.
Dorien Herremans.
Cómo aprendemos la música: la red neuronal original
Nuestros cerebros, que están formados por unos 86 mil millones de neuronas conectadas por vías llamadas sinapsis, son la inspiración para los modelos de IA.
A lo largo de nuestras vidas, estamos expuestos a decenas de miles de canciones.
Nuestro cerebro aprende implícitamente patrones y expectativas formando nuevas conexiones sinápticas y fortaleciendo las existentes.
En ciencia cognitiva, este proceso se conoce como aprendizaje estadístico.
Cuanto más nos exponemos a ciertos patrones —como el común intervalo de quinta justa (do-sol) en la música occidental— más fuertes se vuelven esas conexiones.
Esto nos permite formar expectativas sobre la música.
Por ejemplo, cuando escuchamos una nota disonante que no pertenece a una tonalidad, viola nuestras expectativas aprendidas, llevándonos a percibirla como incorrecta o fuera de lugar.
Nuestro conocimiento de estas redes complejas sigue siendo limitado
Nuestro cerebro no almacena piezas musicales completas como una grabación.
En cambio, nuestro cerebro construye vías neuronales que codifican patrones y estructuras en la música.
Estos caminos son los que nos permiten reconocer y anticipar melodías y armonías.
Cuando tarareamos o componemos una canción, no recordamos una grabación concreta, sino que construimos música dinámicamente a partir de patrones aprendidos.
Cómo se crea la música con IA
Las redes de aprendizaje profundo se basan en una idea similar.
Las redes neuronales artificiales están inspiradas en la biología humana, en particular en la teoría del conexionismo, que sostiene que el conocimiento surge del fortalecimiento de las conexiones (sinapsis) entre las unidades de procesamiento del cerebro (neuronas).
Durante su entrenamiento, las redes neuronales artificiales reciben miles de piezas musicales.
No almacenan estas piezas, sino que aprenden la relación estadística entre sus elementos musicales, de forma similar a como nuestro cerebro aprende patrones a través de la exposición.
Tras el entrenamiento, lo que queda no es una base de datos de canciones, sino un conjunto de parámetros de peso que codifican las vías estadísticas necesarias para moldear la estructura musical.
Estos pesos pueden interpretarse como la fuerza de las sinapsis en el cerebro.
Cuando llega el momento de generar música, la red realiza inferencias.
Dado un input —a menudo un prompt de texto— toma muestras de la distribución estadística aprendida para producir nuevas secuencias.
Sin embargo, estos conjuntos de pesos pueden contener miles de millones de parámetros, convirtiéndolos en una especie de caja negra (un sistema de IA cuyos mecanismos internos son opacos) difícil de interpretar.
En un intento por comprender mejor estas redes, los investigadores han desarrollado nuevas técnicas como SHAP (SHapley Aditivive ExPlanations) y LRP (Propagación de Relevancia por Capas), pero nuestro conocimiento de estas redes complejas sigue siendo limitado.
Generador de música con IA ética a partir de texto
Esta falta de comprensión alimenta otro problema: la falta de transparencia en los sistemas comerciales.
En el AMAAI Lab, creamos Mustango, un modelo controlable de texto a música de código abierto similar al MusicGen de Meta.
Pero a diferencia del modelo de Meta, Mustango fue entrenado exclusivamente con datos Creative Commons.
Si una modelo fue entrenada en música por Taylor Swift y artistas menos conocidos, ¿deberían todos los artistas recibir una compensación igual?
Esa apertura no es la norma en el campo. Modelos comerciales como Suno y Udio no han revelado sus conjuntos de datos de entrenamiento ni los detalles de sus modelos.
Esto plantea preguntas importantes sobre cómo deberíamos tratar los derechos de autor para facilitar el desarrollo ético de la IA en la industria musical.
Este problema se ilustra con casos legales recientes como la Recording Industry Association of America (RIAA) contra Udio y Suno (junio de 2024.)
Detector de entrenamiento musical con IA
Dado que las redes neuronales —a diferencia de las bases de datos— no almacenan canciones de entrenamiento sino que interiorizan patrones estadísticos, es difícil detectar si se utilizaron piezas concretas de música para entrenar un modelo, y dado que las empresas de IA pueden eliminar fácilmente sus datos de entrenamiento, las auditorías son casi imposibles.
En el Laboratorio AMAAI, estamos estudiando cómo podemos ayudar a verificar si los modelos han sido entrenados en canciones concretas.
Para ello, estamos explorando nuevas técnicas como ataques de inferencia de membresía y análisis de perturbaciones.
En este último, por ejemplo, hacemos pequeños cambios en una canción y observamos cómo responde el modelo a ellos.
Si el modelo reacciona fuertemente a pequeños cambios, indica que la IA estuvo expuesta a esta canción durante su entrenamiento.
Licencia de conjuntos de datos musicales para aprendizaje automático
Con el auge de estos sistemas de generIA surge una pregunta fundamental:
¿cómo tratamos a los artistas de forma justa?
A menos que los tribunales encuentren fundamento en el argumento de que la música protegida por derechos de autor puede usarse libremente para entrenar música porque escuchamos música a nuestro alrededor todo el tiempo, los sistemas comerciales de GenAI deberían licenciar adecuadamente los conjuntos de datos musicales que utilizan para la formación.
Sin embargo, al no existir un mecanismo universal de licencias estándar, esto dejaría a las startups más pequeñas y a los laboratorios académicos en apuros.
Sin acceso a grandes conjuntos de datos, se enfrentan a barreras significativas para entrenar modelos o para poner sus pesos a disposición de código abierto, ralentizando así el progreso tecnológico.
Al carecer de claridad legal, estos grupos a menudo no pueden arriesgarse a enfrentarse a acciones legales.
Además, adquirir grandes conjuntos de datos legalmente sólidos suele requerir un tipo de inversión inicial sustancial que impide que las pequeñas empresas tecnológicas participen.
La industria musical tiene que adaptarse rápidamente.
Debemos tener en cuenta tecnologías que nos ayuden a facilitar prácticas de formación éticas
Compensaciones de los artistas por el uso de su música para entrenar modelos de IA
También hay otras preguntas que conlleva diseñar modelos de licencias.
Por ejemplo, si una modelo fue entrenada en un éxito de Taylor Swift así como en canciones de artistas menos conocidos, ¿deberían todos los artistas recibir una compensación igual?
Una tarifa de licencia única para todos puede no ser justa.
Una opción más equitativa podría ser usar un mecanismo dinámico que observe cuánto contribuye cada canción a la salida generada.
Si un usuario introduce el prompt "crea una canción como Taylor Swift", la salida generada será similar a la música de Taylor Swift.
En este caso, ¿deberíamos considerar la atribución según la semejanza, asegurando que el artista cuya música influye más significativamente en la producción sea compensado?
Para que esto fuera posible, necesitaríamos avances técnicos, incluidos modelos de similitud altamente precisos que pudieran ayudarnos a concebir un modelo de atribución tan dinámico y justo.
Modelos de incrustación de audio
El procesamiento del lenguaje natural (PLN) proporciona la base para este tipo de métricas basadas en similitudes.
Como los modelos de aprendizaje automático no pueden tratar palabras directamente, las traducimos en vectores de números antes de introducirlos en cualquier modelo, un proceso llamado incrustación.
Estos vectores son esencialmente coordenadas multidimensionales, y los investigadores han descubierto a partir de modelos tempranos como word2vec que las palabras que aparecen en contextos similares tienen posiciones vectoriales parecidas, siguiendo la hipótesis semántica distribuida.
En el campo de la música, utilizamos un proceso de incrustación similar para representar el audio.
En el AMAAI Lab, estamos investigando cómo afinar estos embeddings para crear métricas musicales significativas que puedan centrarse en el timbre, la melodía, la armonía, el ritmo o incluso el propio prompt de entrada.
Estas métricas también podrían ampliarse para detectar plagio.
Sin embargo, este tipo de investigación sigue siendo un reto debido a la ausencia de reglas y conjuntos de datos de plagio claramente definidos.
Potenciando la creatividad humana a través de la música generativa con IA
En la conferencia ISMIR (International Society for Music Information Retrieval) 2024, discursos principales como el de Ed Newton-Rex, fundador de Fairly Trained —una organización sin ánimo de lucro que busca garantizar que los artistas reciban pago por la entrada de datos de entrenamiento— dieron impulso a la protesta por los derechos de los artistas, así como a una petición de herramientas de IA que empoderen a los creadores musicales en lugar de reemplazarlos.
En lugar de modelos diseñados para la generación pura de música, la IA podría centrarse en mejorar el proceso creativo de los compositores actuando como socios colaborativos, ayudando a los compositores con ideas para la armonización, acelerando flujos de trabajo, completando secciones melódicas cortas y más.
Al igual que la revolución que provocaron el iPod y el streaming de música, la revolución de la IA en curso, que es posiblemente más grande y compleja, está obligando a la industria musical a adaptarse rápidamente.
Para ello, debemos tener en cuenta tecnologías que puedan ayudarnos a facilitar la transparencia y prácticas educativas éticas.
La primera interpretación pública de la "Illiac Suite" en 1956 generó gran revuelo.
Un oyente "anticipaba un futuro carente de creatividad humana".
Los modelos musicales genAI actuales han causado un revuelo similar en círculos artísticos, así como en el ámbito de las licencias.
Pero estas increíbles nuevas tecnologías también podrían conducir al desarrollo de herramientas colaborativas que no socaven, sino que mejoren los procesos creativos de los artistas, además de garantizar que reciban un trato justo.
Sobre el autor
Dorien Herremans es investigadora en música con IA de Bélgica y profesora asociada en la Universidad de Tecnología y Diseño de Singapur (SUTD), donde dirige el Laboratorio de Audio, Música e IA (AMAAI).
Herremans ha trabajado durante muchos años en la generación automática de música y la computación afectiva.
Su investigación ha aparecido en publicaciones como Vice Magazine y en medios nacionales franceses y belgas.
Herremans formó parte de un panel sobre "Salida de IA: Proteger o no proteger –
Esa es la cuestión de la propiedad intelectual" en el foro de conversación de la OMPI en noviembre de 2024.
Por Dorien Herremans, Profesor Asociado, Universidad de Tecnología y Diseño de Singapur, Laboratorio Líder, de Audio, Música e IA (AMAAI)
OMPI


















