ElevenLabs Scribe v2: API per trascrizione Speech-to-Text
Oltre 90 lingue supportate con accuratezza state-of-art

ElevenLabs è nota per aver rivoluzionato il Text-to-Speech (TTS), rendendo le voci sintetiche quasi indistinguibili da quelle umane. Con il rilascio di Scribe v2, l'azienda chiude il cerchio, entrando nel mercato dello Speech-to-Text (STT) con un modello progettato per sfidare i giganti del settore come Whisper di OpenAI, Gemini e Deepgram.
Scribe v2 si focalizza sulla latenza nelle applicazioni real-time e l'accuratezza in scenari rumorosi o multilingua.
Scribe v2: Due varianti, un unico obiettivo
La release si divide in due modelli distinti, ottimizzati per casi d'uso differenti:
- Scribe v2: Il modello general purpose focalizzato sulla massima fedeltà di trascrizione. È ideale per la post-produzione, la generazione di sottotitoli e l'analisi di contenuti audio/video dove la precisione è prioritaria rispetto ai tempi di risposta.
- Scribe v2 Realtime: Progettato specificamente per l'era degli AI Agents. Offre una latenza inferiore ai 150ms, permettendo conversazioni fluide tra uomo e macchina.
Scribe v2: Caratteristiche tecniche e funzionalità
Precisione e "Negative Latency"
Il modello Realtime utilizza un meccanismo predittivo (definito "negative latency") che anticipa la parola successiva e la punteggiatura prima che l'audio sia completamente processato. Questo approccio riduce drasticamente il tempo di risposta percepito. Nei benchmark interni (come FLEURS), ElevenLabs dichiara un Word Error Rate (WER) inferiore rispetto a modelli concorrenti come Gemini Flash 2.5 e GPT-4o Mini, specialmente in condizioni di audio "sporco" o con accenti marcati.
Speaker Diarization e Audio Tagging
Una delle funzionalità più interessanti è la Speaker Diarization, capace di distinguere fino a 48 interlocutori diversi in una singola traccia audio. A questo si aggiunge il Dynamic Audio Tagging: il modello non trascrive solo il parlato, ma identifica eventi sonori contestuali come [laughter], [footsteps] o [applause], arricchendo semanticamente il testo generato.
Multilinguismo e Keyterm Prompting
Il supporto copre oltre 90 lingue, inclusa una gestione robusta dell'italiano. Una feature critica per l'uso professionale è il Keyterm Prompting: gli sviluppatori possono passare al modello una lista di fino a 100 termini specifici (nomi propri, acronimi tecnici, jargon aziendale) per forzare una trascrizione corretta in contesti di dominio specifici.
Scribe v2: Integrazione e Sicurezza
Per gli sviluppatori, l'integrazione avviene tramite API REST o WebSocket per lo streaming in tempo reale. ElevenLabs fornisce SDK ufficiali (Python, Node.js) che supportano formati audio PCM e μ-law.
Esempio di codice python:
import os
from elevenlabs.client import ElevenLabs
client = ElevenLabs(
api_key=os.getenv("ELEVENLABS_API_KEY") # O inserisci la stringa diretta qui
)
def transcribe_audio(file_path):
# Verifica esistenza file
if not os.path.exists(file_path):
print(f"Errore: Il file {file_path} non esiste.")
return
print(f"Trascrizione in corso per: {file_path}...")
with open(file_path, "rb") as audio_file:
transcription = client.speech_to_text.convert(
file=audio_file,
# Specifichiamo esplicitamente il modello Scribe v2
model_id="scribe_v2",
# Abilita l'identificazione di eventi sonori (es. [laughter])
tag_audio_events=True,
# Abilita la distinzione tra i parlanti
diarize=True,
# Opzionale: timestamp per ogni parola
timestamps_granularity="word"
)
# Output del risultato
print("\n--- Risultato Trascrizione ---\n")
print(transcription.text)
# Esempio di accesso ai metadati (se disponibili nella risposta strutturata)
if hasattr(transcription, 'language_code'):
print(f"\nLingua rilevata: {transcription.language_code}")
# Esegui la funzione
if __name__ == "__main__":
# Sostituisci con il path del tuo file audio
transcribe_audio("meeting_recording.mp3")
Sul fronte enterprise, Scribe v2 rispetta standard rigorosi come SOC 2, GDPR e HIPAA. Una funzionalità degna di nota per la privacy è la Zero Retention Mode, che garantisce che nessun dato audio o testuale venga salvato sui server di ElevenLabs dopo il processamento, un requisito fondamentale per settori sensibili come quello bancario o sanitario.
Questo video mostra la demo ufficiale di lancio, evidenziando la velocità di risposta in tempo reale e la capacità del modello di gestire interruzioni e cambi di lingua fluidi. Scribe v2 Realtime Launch