di Simone Cosimi

Le orecchie – e la sensibilità umana – non hanno troppi problemi a stabilire che atmosfere trasmetta una certa canzone. Certo, le sensibilità possono essere diverse, così come i gusti quando si tratta di ascoltare musica, ma nel complesso un pezzo triste è triste. C’è poco da sbagliarsi. Tutto diventa più complicato quando la faccenda viene ribaltata. E cioè quando si tenta di far fare lo stesso esercizio di riconoscimento a un’intelligenza artificiale. Magari – ma sarebbe solo uno dei tanti usi possibili – per chiederle di aiutarci a catalogare gli sterminati repertori a disposizione degli utenti sulle piattaforme di musica in streaming come Spotify, Deezer, Tidal, Apple Music, YouTube Music, Amazon Music Unlimited e così via. Ciascuna di queste vanta circa 30 milioni di brani: mettere ordine non è proprio semplice. Non lo è, soprattutto, quando si tratta di sfornare le apprezzate playlist organizzate proprio per umore e attività: quelle per la palestra, quelle per quando ci sentiamo un po’ giù di corda o quelle che devono darci la carica al mattino.

Un gruppo di ricercatori di Deezer, la piattaforma francese che vanta circa 6 milioni di abbonati paganti e una trentina che la sfruttano sorbendosi la pubblicità, ha sviluppato un’intelligenza artificiale che fosse in grado di svolgere esattamente quel lavoro: associare le canzoni al mondo sentimentale di riferimento, per così dire. L’indagine, riportata in un paper appena pubblicato ed emblematicamente battezzato “Music mood detection based on audio lyrics with deep neural nets” pubblicato su Arxiv.org, apre nuove strade anche sotto l’aspetto dell’insegnamento delle emozioni alle macchine.

 “L’individuazione automatica dell’umore musicale è un campo di ricerca vivace da molto tempo, da almeno vent’anni” si legge nell’indagine. Il compito, si è capito, è evidente: determinare automaticamente l’emozione predominante quando si ascolta un brano. “In questo lavoro ci siamo concentrati sul compito dell’individuazione multimodale dell’umore basata su tracce audio e sui testi delle canzoni”. Il tutto, contrariamente al passato, sfruttando la magica chiave di deep e machine learning e includendo nella valutazione anche le parole dei brani, spesso trascurate in simili indagini precedenti.

Cosa hanno fatto i ricercatori? Hanno appunto costruito un modello che si basa su una serie di fattori. Hanno addestrato un’intelligenza artificiale utilizzando tracce audio senza testi, ricostruzioni linguistiche di quei brani (attraverso un’altra rete artificiale nota come word2vec) e soprattutto attingendo a un dataset, quello noto come Million Song Dataset. Si tratta di una raccolta di metadati, cioè di etichette descrittive utilizzate dal servizio radiofonico online Last.fm che definiscono e categorizzano una grande quantità di titoli di canzoni (“calmo”, “triste”, “ritmato” e così via). A loro volta, queste etichette sono state arricchite da 14mila parole inglesi che hanno tentato di fornire loro una valutazione in termini di intensità dell’emozione descritta. Quelle stesse canzoni sono state poi individuate nell’archivio di Deezer. Quel che è venuto fuori da questa ricca (e un po’ confusionaria) serie di ingredienti è una torta di 18.644 canzoni che il gruppo di scienziati ha sfruttato sia per allenare la propria rete neurale convoluzionale – una cosiddetta “convnet” – che per testarne il funzionamento. Il rapporto è stato più o meno 60/40%.

Il risultato è stato molto confortante. Se nell’analisi del solo testo le performance della rete messa a punto da Deezer sembrerebbero in linea con i metodi passati – gli stessi che, come si spiegava, sfruttano piattaforme come Spotify e altre, al netto delle playlist curate manualmente – l’approccio olistico ha dato esiti decisamente migliori. Nel caso dell’analisi di audio e del testo della canzone il sistema è cioè riuscito a definire con maggiore raffinatezza l’umore e l’intensità di un brano. In particolare a entrare nei dettagli di generi tecnicamente molto simili ma che trasmettono sensazioni diverse.

Il gruppo di ricerca non ha ancora partorito un applicativo per le piattaforme di streaming. Il prossimo obiettivo, infatti, sarà quello di esaminare diversi modelli di addestramento delle reti neurali per capire se ce ne siano di ancora più efficaci. Ad esempio quello, molto di moda, dell’autoapprendimento per cui l’algoritmo impara da solo esaminando una mole enorme di dati grezzi. Oppure utilizzando un database in grado di stabilire il grado di ambiguità nell’umore delle tracce. Questo potrebbe per esempio condurre le piattaforme a produrre playlist del tutto automatiche che includano anche contenuti meno conosciuti o ascoltati, che nessuno ha avuto modo di catalogare in precedenza.

Tornando all’indagine, “sembra che questo vantaggio di performance possa essere il risultato della capacità del nostro modello di svelare e utilizzare correlazioni di medio-livello fra traccia audio e testo, in particolare quando si tratta di stabilirne la valenza” si legge ancora nello studio. Per “valenza”, in ambito musicale, s’intende una sorta di indice di felicità e di allegria di un determinato brano. “Studiare e ottimizzare i dettagli delle reti convoluzionali per l’individuazione dell’umore musicale ci offre dunque l’opportunità di localizzare in modo temporale le zone responsabili della valenza e dell’impatto emotivo di una traccia”. Sembrano questioni secondarie ma nell’epoca della musica liquida, e delle infinite interazioni multimediali fra gli utenti e le piattaforme, le app e (perché no?) anche le pubblicità e i contenuti in streaming, la colonna sonora più affine a come ci sentiamo può fare la differenza.