Watson Speech to Text review: il miglior servizio di trascrizione ad alto volume? revisione

Watson è il sistema informatico di elaborazione del linguaggio naturale di IBM. Alimenta il famoso supercomputer a risposta alle domande e una serie di prodotti aziendali basati sull’intelligenza artificiale, tra cui Watson Speech to Text. Nella nostra recensione di Watson Speech to Text, daremo uno sguardo a una delle migliori app di sintesi vocale in circolazione, ideale per chiunque desideri convertire l’audio in testo su larga scala.

La piattaforma di elaborazione vocale di Watson è disponibile su IBM Cloud. È uno strumento versatile e può essere utilizzato in molti contesti, tra cui la dettatura e la trascrizione delle chiamate in conferenza. Inoltre, a differenza della maggior parte delle altre app di sintesi vocale, è disponibile come API, consentendo agli sviluppatori di incorporarla nei sistemi di controllo vocale, tra le altre cose.

Discorso al testo di Watson: piani e prezzi

È possibile utilizzare Watson Speech to Text per elaborare gratuitamente fino a 500 minuti di audio al mese. Se desideri convertire più di questo, dovrai pagare per ogni minuto audio e la tariffa cambia in base alla durata dell’audio elaborato. I costi vanno da $ 0,01 a $ 0,02 al minuto e vi è un costo aggiuntivo di $ 0,03 al minuto se si richiede il modello di linguaggio personalizzato IBM. Sono disponibili anche piani Watson solo su preventivo premium, che garantiscono l’accesso a funzionalità avanzate di privacy dei dati e garanzie di uptime.

Il servizio di sintesi vocale di Watson ha un prezzo in base al volume di contenuti che devi trascrivere. (Credito immagine: IBM)

È inoltre possibile accedere al sistema Watson Speech to Text tramite un abbonamento IBM Cloud generico. L’elaborazione del linguaggio naturale è solo un’app in una vasta gamma di servizi di intelligenza artificiale che puoi ottenere tramite IBM Cloud, quindi questa è una buona opzione per qualsiasi organizzazione che ha bisogno di accedere a trasferimenti di dati ad alta velocità, chatbot o strumenti di sintesi vocale.

Discorso al testo di Watson: caratteristiche

Grazie all’integrazione flessibile delle API e ad altri strumenti IBM precompilati, il servizio di riconoscimento vocale di Watson va ben oltre la semplice trascrizione di base. Se si desidera utilizzarlo in un contesto di servizio clienti, ad esempio, Watson Assistant può essere impostato per elaborare direttamente domande in linguaggio naturale o rispondere a domande al telefono.

A Watson, IBM ha creato una piattaforma di elaborazione del linguaggio naturale ricca di funzionalità. (Credito immagine: IBM)

Watson funziona con audio dal vivo in 11 lingue e può importare suoni in una varietà di formati pre-registrati. Durante lo streaming, il supporto diagnostico in tempo reale indica che Watson può chiedere agli utenti di avvicinarsi al microfono o cambiare il loro ambiente. Anche impressionante è il fatto che Watson è in grado di distinguere tra diversi oratori in una conversazione condivisa grazie a Speaker Diarization, una funzionalità ancora in fase di beta testing.

Discorso al testo di Watson: installazione

Per utilizzare Watson, la prima cosa che devi fare è creare un account IBM Bluemix. La registrazione è gratuita e indolore, richiede solo un indirizzo e-mail e una password. Una volta effettuato l’accesso, è necessario aggiungere una disposizione sul proprio account per il servizio di sintesi vocale. In questa fase ti verranno fornite alcune credenziali che dovresti salvare nei tuoi record.

La registrazione per un account IBM Bluemix è necessaria per accedere al set completo di funzionalità di Watson. (Credito immagine: IBM)

Dopo averlo fatto, le cose diventano significativamente più complesse. Per accedere a Watson, devi aggiungere tali credenziali a un batch di codice localizzatore di risorse (cURL) del client e quindi eseguirlo sul tuo computer. Per scoprire esattamente quale comando chiamare, dai un’occhiata a questa pratica guida. In alternativa, se vuoi solo vedere come funziona il sistema Watson senza dover saltare tutti quei cerchi, puoi invece provarlo sul sito demo di IBM.

Discorso al testo di Watson: interfaccia

A differenza delle app voice-to-text rivolte ai consumatori, i servizi di Watson sono progettati per essere accessibili tramite API e codice incorporato in altri sistemi. Per questo motivo, non esiste un vero Watson “interfaccia”. Invece, è possibile accedere a Watson attraverso tre diversi protocolli Internet. Questi sono WebSocket, API REST e Watson Developer Cloud.

Watson Speech to Text può essere gestito tramite il sistema Watson Developer Cloud. (Credito immagine: IBM)

Per controllare Watson, dovrai utilizzare uno strumento da riga di comando che si collega al cloud IBM tramite una di queste tre rotte. L’interfaccia che vede l’utente finale interagire con Watson dovrà essere costruita separatamente da qualcuno nel tuo team di sviluppo.

Watson Speech to Text: Performance

Nel complesso, siamo rimasti colpiti dal modo in cui questa piattaforma di elaborazione del linguaggio naturale ha gestito il discorso reale. Abbiamo usato Watson per trascrivere clip che abbiamo registrato in una vasta gamma di ambienti difficili e morsi di suoni di discorsi famosi pronunciati in molte delle 11 lingue supportate da Watson.

Abbiamo scoperto che Watson si è comportato bene con i discorsi preregistrati. (Credito immagine: IBM)

Sebbene gli errori siano diventati più frequenti per le clip con molto rumore di fondo, in generale, Watson ha prodotto risultati incredibilmente precisi. Stimiamo dai nostri test che in media si sono verificati errori non sollecitati solo una volta ogni 150 parole. Tuttavia, è diventato chiaro il motivo per cui la funzione di diarizzazione degli oratori di Watson rimane nei test BETA poiché, più volte durante la nostra valutazione, una voce era etichettata erroneamente come altoparlanti separati.

Discorso al testo di Watson: supporto

Il centro risorse IBM offre molta documentazione per comprendere meglio come applicare Watson al tuo caso d’uso specifico. Vale anche la pena utilizzare le integrazioni API e gli SDK creati dalla community di sviluppatori Watson e pubblicati su GitHub.

La pagina GitHub dell’API di Watson è una buona fonte di supporto per il servizio Watson Speech to Text. (Credito immagine: IBM)

Se non trovi la soluzione al tuo problema lì, puoi contattare direttamente IBM aprendo un ticket di supporto o contattandolo telefonicamente. Finché hai optato per uno dei pacchetti premium di Watson, il tuo utilizzo di Watson sarà protetto da un accordo sul livello di servizio Uptime.

Discorso al testo di Watson: verdetto finale

Se la tua organizzazione dispone del know-how e delle risorse per integrare correttamente la piattaforma IBM Watson Speech to Text nel tuo sistema, trarrai vantaggio da funzioni avanzate come la diagnostica dell’ambiente sonoro in tempo reale e i risultati intermedi della trascrizione. Tuttavia, le piccole imprese e le organizzazioni dovranno affrontare la sfida tecnica di creare correttamente Watson.

La competizione

Il servizio di sintesi vocale di IBM Watson è un concorrente diretto dei servizi di trascrizione di Google Cloud Speech-to-Text e Amazon Transcribe. Entrambi sono significativamente più economici di Watson, con la trascrizione di Google Cloud, ad esempio, a partire da $ 0,006 al minuto. Tutti e tre i servizi condividono funzioni simili, come il vocabolario personalizzato, ma una caratteristica che manca molto a IBM Watson ma disponibile con entrambi i concorrenti è il riconoscimento automatico della punteggiatura.

Cerchi un’altra soluzione spoeech-to-text? Dai un’occhiata alla nostra migliore guida al software di sintesi vocale.