replaced whispercpp by faster-whisper

2023-05-31 17:16:09 +02:00 · 2023-05-31 17:16:09 +02:00 · 74afc2f9f0
commit 74afc2f9f0
parent 78d706cfcc
3 changed files with 46 additions and 8 deletions
--- a/jarvis/api.py
+++ b/jarvis/api.py
@ -9,7 +9,7 @@ from flask import Flask, request
 from flask_socketio import SocketIO, emit, join_room, leave_room, \
    rooms
-from jarvis.utils import chat_utils, whisper_utils, chatgpt_utils
+from jarvis.utils import chat_utils, whisper_utils, chatgpt_utils, faster_whisper_utils
 # Set this variable to "threading", "eventlet" or "gevent" to test the
 # different async modes, or leave it set to None for the application to choose
@ -86,7 +86,9 @@ def get_text_from_audio():
    audio_temp_file = tempfile.NamedTemporaryFile(prefix='jarvis-audio_', suffix='_client')
    audio_temp_file.write(request.data)
-    text = whisper_utils.whisper_cpp_stt(audio_temp_file.name)
+    # text = whisper_utils.whisper_cpp_stt(audio_temp_file.name)
    text = faster_whisper_utils.faster_whisper_stt(audio_temp_file.name)
    logging.info("STT result for " + request.remote_addr + " : " + text)
    return {"data": text}
--- a/jarvis/utils/faster_whisper_utils.py
+++ b/jarvis/utils/faster_whisper_utils.py
@ -0,0 +1,37 @@
 import logging
 from faster_whisper import WhisperModel
 def load_model():
    log_level = logging.getLogger().level
    global model
    model = WhisperModel('small', device="cpu", cpu_threads=8, compute_type="int8")
    logging.getLogger().setLevel(log_level)
 def get_model():
    return model
 def faster_whisper_stt(audio_file):
    """
    Transcribe audio file using whisper-cpp, no additional server/service needed, runs on CPU.
    :param audio_file:
    :param model:
    :return: text
    """
    if model is None:
        logging.error("Model is not loaded")
        load_model()
    segments, info = model.transcribe(audio_file, beam_size=5)
    print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
    # combines all segments in one string
    text = ''
    for segment in segments:
        text += segment.text + ' '
    return text
--- a/start.py
+++ b/start.py
@ -3,9 +3,7 @@ import logging
 import lingua_franca
 import jarvis.api
-from jarvis.skills.cocktails import CocktailSkill
+from jarvis.utils import faster_whisper_utils
 from jarvis.skills.intent_services import intent_manager
 from jarvis.utils import whisper_utils
 if __name__ == '__main__':
    logging.getLogger().setLevel(logging.INFO)
@ -14,13 +12,14 @@ if __name__ == '__main__':
    lingua_franca.load_language(lang="fr")
    # Register each skills
-    CocktailSkill().register()
+    # CocktailSkill().register()
    # Load the skills
-    intent_manager.load_all_skills()
+    # intent_manager.load_all_skills()
    # Load the STT (whisper) model
-    whisper_utils.load_model()
+    # whisper_utils.load_model()
    faster_whisper_utils.load_model()
    # Start the api endpoint
    jarvis.api.start_api()