一般智能語音助理或語音機器人工作原理大致如下:
第一階段:語音到文本的過程。信號源→設備(捕獲音頻輸入)→增強音頻輸入→檢測語音→轉換為其他形式(如文本)
第二階段:響應過程來自。處理文本(如用NLP處理文本,識別意圖)→操作響應。
在檢測語音過程中,就包括分辨是否為語音信號,該過程會通過指定的頻率對模擬信號進行采樣,將模擬聲波轉換為數字數據。這一過程很重要,是否成功地識別語音。如果生成數字數據都是錯誤的,那么后期的處理響應那肯定是錯的。這也是影響智能語音助理或語音機器人識別率的重要因素。
在這個過程,用于語音處理的技術是語音活性檢測 (Voice activity detection,VAD),目的是檢測語音信號是否存在。 VAD技術主要用于語音編碼和語音識別。它可以簡化語音處理,也可用于在音頻會話期間去除非語音片段:可以在IP電話應用中避免對靜音數據包的編碼和傳輸,節省計算時間和帶寬。