Meta AI ha recentemente presentato un “rivoluzionario” generatore di sintesi vocale (TTS) che, a suo dire, produce risultati fino a 20 volte più veloci rispetto ai modelli di intelligenza artificiale di ultima generazione con prestazioni analoghe.Il nuovo sistema, battezzato Voicebox, abbandona l’architettura TTS tradizionale a favore di un modello più simile a ChatGPT di OpenAI o a Bard di Google.
Tra le principali differenze tra Voicebox e modelli TTS simili, come ElevenLabs Prime Voice AI, spicca il fatto che l’offerta di Meta sia in grado di generare attraverso l’apprendimento nel contesto.
Come ChatGPT o altri modelli di trasformazione, Voicebox utilizza set di dati di addestramento su larga scala. I precedenti tentativi di utilizzare enormi quantità di dati audio hanno dato luogo a risultati audio gravemente degradati. Per tale ragione, la maggior parte dei sistemi TTS utilizza insiemi di dati ridotti, altamente selezionati ed etichettati.
Meta supera questa limitazione grazie ad un nuovo schema di addestramento che abbandona le etichette e la catalogazione per un’architettura in grado di “riempire” le informazioni audio.
Come ha dichiarato Meta AI in un blog post del 16 giugno, Voicebox è il “primo modello in grado di generare in modo sistematico il linguaggio in compiti per i quali non è stato specificamente addestrato, con prestazioni allo stato dell’arte”.
In questo modo Voicebox è in grado di tradurre il testo in parlato, di eliminare i rumori indesiderati sintetizzando il discorso sostitutivo e persino di applicare la voce di un oratore a diversi output linguistici.
Secondo un documento di ricerca pubblicato da Meta, il sistema Voicebox preaddestrato è in grado di realizzare tutto questo utilizzando solo il testo desiderato e un clip audio di tre secondi.
L’arrivo di una solida generazione vocale giunge in un momento particolarmente delicato, in quanto le aziende di social media continuano a lottare con la moderazione e, negli Stati Uniti, l’incombente elezione presidenziale minaccia di mettere ancora una volta alla prova i limiti del rilevamento della disinformazione online.
L’ex Presidente degli Stati Uniti Donald Trump, ad esempio, sta attualmente affrontando le accuse di aver gestito in modo scorretto materiali governativi riservati dopo aver lasciato l’incarico. Tra le presunte prove citate nel processo contro di lui ci sono registrazioni audio in cui avrebbe ammesso potenziali illeciti.
Sebbene al momento non vi sia alcuna indicazione che l’ex presidente intenda negare i contenuti descritti nei file audio, il suo caso illustra come l’integrità dei dati sia al centro del sistema legale statunitense e, per estensione, della sua democrazia.
Voicebox non rappresenta il primo esempio di strumento di questo genere, ma sembra essere uno dei più potenti. Per questo, Meta ha sviluppato uno speciale strumento che consente di determinare se il parlato sia stato generato da esso, sostenendo di essere in grado di rilevare “banalmente” la differenza tra audio reale e audio falsificato. Come riporta il blog:
Nel mondo delle criptovalute, l’IA è diventata parte integrante delle operazioni quotidiane della maggior parte delle aziende. Come recentemente riportato, diversi importanti exchange si affidano a chatbot IA per le interazioni con i clienti e l’analisi del sentiment, così come di bot di trading.
Correlato: Bybit integra ChatGPT per fornire strumenti di trading basati sull’intelligenza artificiale
L’avvento di efficaci sistemi di sintesi vocale come Voicebox, combinato con il trading automatizzato, potrebbe contribuire a colmare un vuoto per gli aspiranti trader di criptovalute che si affidano a sistemi TTS che, attualmente, possono faticare con il gergo delle criptovalute o con il supporto multilingue.
Traduzione a cura di Walter Rizzo