ibm-watson-cognitive Transcribiendo un archivo de audio usando WebSockets (Node.js)


Ejemplo

Este ejemplo muestra cómo utilizar el servicio IBM Watson Speech to Text para reconocer el tipo de archivo de audio y producir una transcripción del texto hablado en ese archivo.

Este ejemplo requiere credenciales de servicio de voz a texto y Node.js

  1. Instale el módulo npm para el SDK de Watson Developer Cloud Node.js :
$ npm install watson-developer-cloud
  1. Cree un archivo JavaScript (por ejemplo, app.js ) y copie el siguiente código en él. Asegúrese de ingresar el username y la password para su instancia de servicio de voz a texto.
var SpeechToTextV1 = require('watson-developer-cloud/speech-to-text/v1');
var fs = require('fs');

var speech_to_text = new SpeechToTextV1({
  username: 'INSERT YOUR USERNAME FOR THE SERVICE HERE',
  password: 'INSERT YOUR PASSWORD FOR THE SERVICE HERE',
  url: 'https://stream.watsonplatform.net/speech-to-text/api'
});

var params = {
  content_type: 'audio/flac'
};

// Create the stream,
var recognizeStream = speech_to_text.createRecognizeStream(params);

// pipe in some audio,
fs.createReadStream('0001.flac').pipe(recognizeStream);

// and pipe out the transcription.
recognizeStream.pipe(fs.createWriteStream('transcription.txt'));

// To get strings instead of Buffers from received `data` events:
recognizeStream.setEncoding('utf8');

// Listen for 'data' events for just the final text.
// Listen for 'results' events to get the raw JSON with interim results, timings, etc.   
['data', 'results', 'error', 'connection-close'].forEach(function(eventName) {
  recognizeStream.on(eventName, console.log.bind(console, eventName + ' event: '));
});
  1. Guarde el archivo de audio de muestra 0001.flac en el mismo directorio. Este código de ejemplo está configurado para procesar archivos FLAC , pero puede modificar la sección de params del código de ejemplo para obtener transcripciones de archivos de audio en otros formatos. Los formatos admitidos incluyen WAV (tipo audio/wav ), OGG (tipo audio/ogg ) y otros. Consulte la referencia de la API Speech to Text para obtener una lista completa.

  2. Ejecute la aplicación (use el nombre del archivo que contiene el código de ejemplo)

$ node app.js

Después de ejecutar la aplicación, encontrará el texto transcrito de su archivo de audio en el archivo transcription.txt en el directorio desde el que ejecutó la aplicación.