文華閱讀筆記: AI- 語音助理產品 voice assistant

語音助理產品:
包含MS Cortana, Apple's Siri, Google's Google Assistant, and Amazon's Alexa.
這些產品的訴求在於雙向的溝通, 可以進行語音辨識(轉文字), 文字語意分析, 機器人運算(網頁搜尋, 資料庫搜尋, 資料篩選並產出答案), 然後語音合成(文字轉語音), 回應後繼續雙向溝通。這些技術的提供者分別如下:

(A) 語音辨識(語音轉文字) &語音合成(文字轉語音): Google Cloud Speech API, MS Bing Speech API
(B) 文字語意分析: Google Natural Language API, MS LUIS (language understanding intelligence services)
(C) 網頁搜尋: Google Search, MS Bing web search API
(D) 資料庫搜尋: WiKipedia 的資料庫
(E) 資料篩選並產出答案: Wolfram|Alpha 是這方面的翹楚

以下看一下這幾個語音助理產品的介紹,資料來源: Wikipedia
(1) Cortana的功能包括設定備忘、無須使用者提前錄入預定義命令即可識別人類語言，以及從Bing搜尋引擎上抓取資訊從而回答問題（比如當前天氣、交通狀況、賽事比分與人物傳記）。Cortana軟體中也預設了Windows 8.1中通用的Bing智慧型搜尋（Smart Search）功能，以藉此替代先前可通過在裝置上點擊「搜尋」按鈕啟用的Bing搜尋軟體。
Cortana可適應來自不同地區的使用者的語言，文化以及說話方式，如英國版本的Cortana會說英式英語和英國俚語；中國大陸版（即「小娜」）會說普通話，而且使用不同於其他地區的形象。Cortana也在使用者習慣上進行了在地化，會顯示當地新聞、運動隊、電視劇和股票等資訊。Cortana今年在台灣Window 10可用，但因目前參考資料不足，無法提供使用者精確的回答。在手機上則尚未提供。
http://www.ithome.com.tw/news/94693
(2) Siri（Speech Interpretation and Recognition Interface）是一款內建在蘋果iOS系統中的人工智慧助理軟體。此軟體使用自然語言處理技術，使用者可以使用自然的對話與手機進行互動，完成搜尋資料、查詢天氣、設定手機日曆、設定鬧鈴等許多服務。他後面的技術
(3) 與蘋果的 Siri 類似，Google Assistant 被設計為對話的形式。用戶可提出問題，然後接續詢問，Assistant 就能追蹤對話，並根據內文做出回答。不過，不管怎樣用戶都需要先以「OK Google」或「Hey Google」來喚醒 Assistant，進行下一步指令。暫且先來看看 Assistant 在不同的裝置上的運作方式。
http://technews.tw/2017/05/20/google-io-2017-what-is-google-assistant-how-does-it-work-and-which-devices-offer-it/
(4) Amazon allows device manufacturers to integrate Alexa voice capabilities into their own connected products by using the Alexa Voice Service (AVS), a cloud-based service that provides APIs to interface with Alexa. Products built using AVS have access to Alexa's growing list of capabilities including all of the Alexa Skills. AVS provides cloud-based automatic speech recognition (ASR) and natural language understanding (NLU). There are no fees for companies looking to integrate Alexa into their products by using AVS.

MS”辨識服務 cognitive service ”
Microsoft 辨識服務讓您只要輸入短短幾行程式碼，就能建置具備強大演算法的應用程式，可以透過自然的溝通方式看、聽、說，以及理解和解讀我們的需求。輕鬆就能在不同裝置及平台 (例如 iOS、Android 及 Windows) 上您的應用程式中新增智慧型功能 (像是表情與情緒偵測、視覺與語音辨識、語言理解、知識與搜尋等等)，而且能持續改進，設定也十分容易。https://azure.microsoft.com/zh-tw/services/cognitive-services/?v=17.29
我們先聚焦在語音相關, 但MS的強項還包含影片或圖片的辨識等. 還許多小工具的API:
(1) MS Bing Speech API將語音轉換成文字。您可以導向此 API，以開啟並即時辨識來自麥克風的音訊、辨識來自不同即時音訊來源的音訊，或辨識來自檔案內的音訊。在所有情況下，都可以使用即時串流，以在音訊傳送到伺服器時，同時傳回部分辨識結果。另一方面, 將文字轉換成語音。當應用程式需要反向對使用者「說話」時，可以使用此 API 將應用程式產生的文字轉換成可向使用者播放的音訊。
(2) MS LUIS 人工電腦互動的一個主要問題是電腦理解人員需求，以及找到與該人員目的之相關資訊的能力。我們的 Language Understanding Intelligent Service (LUIS) 提供簡單的工具，讓您建立自己的語言模型 (意圖/實體)，以便任何應用程式/Bot 都能了解您的命令並據以行動...現在就試試看我們的示範，以顯現 LUIS 上轉送的一些使用方法案例。
(3) MS Bing web search API擷取由 Bing 編製索引的 Web 文件，並透過結果類型、新鮮度等等來縮小結果範圍。類似google search, 可找到很多條列的結果
(4) MS Bing news search API搜尋網路取得新聞文章。結果涵蓋各項詳細資料，像是新聞文章的權威影像、相關的新聞與類別、提供者資訊、文章 URL 以及新增日期。試試看示範。透過搜尋方塊提交查詢或按一下其中一個提供的範例。
(5) MS Bing entity search API搜尋最相關的實體entity, 充分利用 Web 的強大威力。您可以賦予現有內容知識搜尋功能，來擴充應用程式。Bing 實體搜尋 API 將會根據您搜尋到的字詞識別最相關的實體，並橫跨多種實體類型，例如名人、地方、電影、電視節目、電玩遊戲、書籍，甚至是您附近的當地商業。AR (augmented reality)
(6) MS Academic Knowledge API 充分利用 Microsoft Academic Graph 中豐富的學術內容來了解或分析學術的答案
(7) MS Knowledge Exploration Service 啟用透過自然語言輸入對結構化資料進行互動式搜尋的功能。

Wolfram Alpha（也寫作「Wolfram|Alpha」，縮寫 W|A），是由 Wolfram Research 公司推出的一款線上自動問答系統。Wolfram Alpha 這一款自動問答系統的特色是可以直接向用戶返回答案，而不是像傳統搜尋引擎一樣提供一系列可能含有用戶所需答案的相關網頁，它是基於 Wolfram 早期旗艦產品 Mathematica，一款囊括了電腦代數、符號和數值計算、視覺化和統計功能的計算平台和工具包開發的。其資料來源包括學術網站和出版物、商業網站和公司、科學機構等等. 微軟的BING必應搜尋引擎在某些方面採用了 Wolfram Alpha 技術

文華閱讀筆記

8/24/2017

AI- 語音助理產品 voice assistant

沒有留言: