ElevenLabs Scribe v2: API per trascrizione Speech-to-Text

Oltre 90 lingue supportate con accuratezza state-of-art

10 gennaio 2026

ElevenLabs è nota per aver rivoluzionato il Text-to-Speech (TTS), rendendo le voci sintetiche quasi indistinguibili da quelle umane. Con il rilascio di Scribe v2, l'azienda chiude il cerchio, entrando nel mercato dello Speech-to-Text (STT) con un modello progettato per sfidare i giganti del settore come Whisper di OpenAI, Gemini e Deepgram.

Scribe v2 si focalizza sulla latenza nelle applicazioni real-time e l'accuratezza in scenari rumorosi o multilingua.

Scribe v2: Due varianti, un unico obiettivo

La release si divide in due modelli distinti, ottimizzati per casi d'uso differenti:

Scribe v2: Il modello general purpose focalizzato sulla massima fedeltà di trascrizione. È ideale per la post-produzione, la generazione di sottotitoli e l'analisi di contenuti audio/video dove la precisione è prioritaria rispetto ai tempi di risposta.
Scribe v2 Realtime: Progettato specificamente per l'era degli AI Agents. Offre una latenza inferiore ai 150ms, permettendo conversazioni fluide tra uomo e macchina.

Scribe v2: Caratteristiche tecniche e funzionalità

Precisione e "Negative Latency"

Il modello Realtime utilizza un meccanismo predittivo (definito "negative latency") che anticipa la parola successiva e la punteggiatura prima che l'audio sia completamente processato. Questo approccio riduce drasticamente il tempo di risposta percepito. Nei benchmark interni (come FLEURS), ElevenLabs dichiara un Word Error Rate (WER) inferiore rispetto a modelli concorrenti come Gemini Flash 2.5 e GPT-4o Mini, specialmente in condizioni di audio "sporco" o con accenti marcati.

Speaker Diarization e Audio Tagging

Una delle funzionalità più interessanti è la Speaker Diarization, capace di distinguere fino a 48 interlocutori diversi in una singola traccia audio. A questo si aggiunge il Dynamic Audio Tagging: il modello non trascrive solo il parlato, ma identifica eventi sonori contestuali come [laughter], [footsteps] o [applause], arricchendo semanticamente il testo generato.

Multilinguismo e Keyterm Prompting

Il supporto copre oltre 90 lingue, inclusa una gestione robusta dell'italiano. Una feature critica per l'uso professionale è il Keyterm Prompting: gli sviluppatori possono passare al modello una lista di fino a 100 termini specifici (nomi propri, acronimi tecnici, jargon aziendale) per forzare una trascrizione corretta in contesti di dominio specifici.

Scribe v2: Integrazione e Sicurezza

Per gli sviluppatori, l'integrazione avviene tramite API REST o WebSocket per lo streaming in tempo reale. ElevenLabs fornisce SDK ufficiali (Python, Node.js) che supportano formati audio PCM e μ-law.

Esempio di codice python:

import os
from elevenlabs.client import ElevenLabs

client = ElevenLabs(
    api_key=os.getenv("ELEVENLABS_API_KEY") # O inserisci la stringa diretta qui
)

def transcribe_audio(file_path):
    # Verifica esistenza file
    if not os.path.exists(file_path):
        print(f"Errore: Il file {file_path} non esiste.")
        return

    print(f"Trascrizione in corso per: {file_path}...")
    
    with open(file_path, "rb") as audio_file:
        transcription = client.speech_to_text.convert(
            file=audio_file,
            # Specifichiamo esplicitamente il modello Scribe v2
            model_id="scribe_v2", 
            # Abilita l'identificazione di eventi sonori (es. [laughter])
            tag_audio_events=True,
            # Abilita la distinzione tra i parlanti
            diarize=True,
            # Opzionale: timestamp per ogni parola
            timestamps_granularity="word"
        )

    # Output del risultato
    print("\n--- Risultato Trascrizione ---\n")
    print(transcription.text)
    
    # Esempio di accesso ai metadati (se disponibili nella risposta strutturata)
    if hasattr(transcription, 'language_code'):
        print(f"\nLingua rilevata: {transcription.language_code}")

# Esegui la funzione
if __name__ == "__main__":
    # Sostituisci con il path del tuo file audio
    transcribe_audio("meeting_recording.mp3")

Link alla doc ufficiale.

Sul fronte enterprise, Scribe v2 rispetta standard rigorosi come SOC 2, GDPR e HIPAA. Una funzionalità degna di nota per la privacy è la Zero Retention Mode, che garantisce che nessun dato audio o testuale venga salvato sui server di ElevenLabs dopo il processamento, un requisito fondamentale per settori sensibili come quello bancario o sanitario.

Questo video mostra la demo ufficiale di lancio, evidenziando la velocità di risposta in tempo reale e la capacità del modello di gestire interruzioni e cambi di lingua fluidi. Scribe v2 Realtime Launch