跳至主要內容
翻譯員

微軟翻譯器部落格

Microsoft Translator 透過全球首創的語音翻譯 API 為所有人帶來端對端語音翻譯服務

今天,我們發佈了新版本的 微軟翻譯器 API 在現有的文字翻譯 API 中加入即時語音對語音(以及語音對文字)翻譯功能。由微軟最先進的人工智慧技術所提供的這項功能,已提供給數百萬的使用者使用。 Skype 一年多,並 iOS安卓 Microsoft Translator 應用程式的使用者。現在,企業將能夠在其應用程式或服務中加入這些語音翻譯功能,為客戶和員工提供更自然、更有效的使用者體驗。

提供八種語言的語音翻譯 阿拉伯語、中文普通話、英文、法文、德文、義大利文、葡萄牙文和西班牙文。Microsoft Translator 的所有功能均可翻譯為文字。 支援 50 種以上語言.提供 18 種支援語言的口語音訊翻譯。

新版 Microsoft Translator 是市面上第一款針對真實對話 (相對於簡單的人機指令) 最佳化的端對端語音翻譯解決方案。在此之前,語音翻譯解決方案需要將許多不同的 API(語音識別、翻譯和語音合成)拼湊在一起,而且這些 API 並未針對會話語音進行最佳化,在設計上也無法相互配合。現在,最終使用者和企業都可以在熟悉的應用程式和服務中整合語音翻譯,消除語言障礙。

 

我的企業如何使用語音翻譯技術?

語音翻譯可用於各種人對人、群組或人對機的情境。人對人的情境可包括單向翻譯,例如個人翻譯、字幕或遠端或人與人之間的多語言溝通,類似目前 Skype Translator 或 Microsoft Translator 應用程式的 iOS 和 Android 版。群組情境可包括即時簡報,例如活動主題演講、網路廣播和大學課程,或聚會,例如人際會議或線上遊戲聊天室。人機對人的情境可包括商業智慧情境 (例如分析或客戶通話記錄) 或 AI 互動。

我們才剛開始了解這項技術的應用場景,由於它是以機器學習為基礎,隨著越來越多的人和公司使用這項技術,它的品質和適用性也會隨之提升。

多家合作公司已測試過 API,並將其整合到自己的應用程式中:

  • Tele 2 在超過 15 個國家擁有超過 1,500 萬名用戶的領先行動運營商 Sweden of Sweden,將 Translator 整合至其 PBX,以支援其行動網路的即時電話翻譯 (不需要應用程式!)。
  • 獅橋 (波士頓,馬薩諸塞州),一家語言服務供應商和金牌翻譯合作夥伴,開發了一個整合的視訊字幕解決方案。
  • ProDeaf專門開發技術以支援聽障和失聰社群的應用程式供應商,將新的 API 整合到他們的手語虛擬人偶應用程式中,以實現從語音到手語情境的多語言支援。

 

語音翻譯如何運作?

語音轉換是一項非常複雜的挑戰。它使用了最新的人工智能技術,例如用於語音識別和文本翻譯的深度神經網路。目前市場上還沒有其他完全整合的語音翻譯解決方案,要提供一個支援實際語音翻譯場景的平台,就不能只是將現有的語音識別和文字翻譯技術拼接在一起。要提供這樣的體驗,語音翻譯必須經過四個階段:

  1. 自動語音辨識(ASR)- 經過數千小時音訊訓練的深度神經網路可分析傳入的語音。此模型是根據人與人之間的互動而非人對機的指令訓練而成,可產生最佳化的語音識別功能,適用於一般會話。
  2. TrueText - TrueText 是微軟研究院的一項創新技術,可將字面文字轉換為更貼近使用者意圖的文字。為了達到這個目的,TrueText 會移除語音不流暢的地方,例如「嗯」和「啊」,以及口吃和重複。此外,還透過增加分句、正確的標點符號和大小寫,使文字更具可讀性和可翻譯性。(見下圖)
  3. 翻譯 - 文字會翻譯成 Microsoft Translator 支援的 50 種以上語言中的任何一種。透過使用深度神經網路驅動的語言模型,在數百萬字的會話資料上進行訓練,八種語音語言已針對會話進一步最佳化。
  4. 文字轉語音 - 如果目標語言是支援的十八種語言之一,則會使用語音合成將文字轉換為語音輸出。在視訊字幕等語音轉文字的翻譯情境中,則省略此階段。

我該如何開始?

使用全新的 Microsoft Translator Speech API 上手非常容易。您可以在以下網址免費試用 10 小時 aka.ms/TranslatorADMSpeech.您可以在虛擬環境中測試安裝與執行,也可以在我們新的 Swagger 頁面.您也可以在以下網站上找到範例應用程式和其他有用的資訊 GitHub.

當然,如果您有任何疑問、問題或回饋,我們非常樂意聽取!您可以在我們的 回饋與支援論壇.

瞭解更多