Microsoft SwiftKey 首席工程師許伯圳:創新的關鍵,是怎麼問「對的問題」

0

文/鄧文華、彭季珩

AI(Artificial Intelligence,人工智慧),早些年叫科幻,這些年算迷幻,如今只要搬出 AI 名號,要嘛一路推、要嘛一路反,身在其中的科學家怎麼看呢?MIX 2018 講者、台灣微軟 SwiftKey 團隊首席軟體工程師許伯圳博士(Paul)在輸入領域有獨到心得,認為全用 AI 未必正確,不用 AI 也不大明智,頗有幾分莎士比亞《哈姆雷特》「to be or not to be」的味道。決定 AI 涉入多寡之前,必須先了解怎樣對使用者體驗最有利。

要做先端研究與市場產品的溝通橋樑

會有如此觀點,起因於 Paul 接觸 AI 很早,實戰經驗豐富,有深刻體會。他回溯,在哈佛大學念電機的時候,大三有堂語音辨識的課,好像並沒在其他地方看到,覺得有意思就去修了,沒在乎這門課一點也不熱門。大學念電機、碩士念電腦,畢業後應徵微軟,面試官問要研究什麼,他想語音辨識有趣,就回覆以此為主題,不知道他們已經在找這方面的人要進行規模化研究。

進到微軟,由於可以直接與使用者互動,確實學到不少;另一方面,自認對語音辨識應用程式介面還需要學習,在 2004 年申請至麻省理工學院(MIT)念博士,專攻語音辨識、自然語言處理(Natural Language Processing,簡稱 NLP)。

他清楚記得申請博士班資料裡,有一欄要填研究目的,他是這麼寫的:「I want to bridge the gap between cutting edge research and user products.」相較於碩士生來念博士是為了在學術上有所貢獻,當時已有 4 年工作經驗的他更在意學習完整的研究方法,可以將研究成果儘快做成產品來服務使用者。從大學到業界,投入語音辨識 10 多年,他表示一直研究這個領域原因很單純,「是因為對使用者有幫助。」

先說一般使用者,目前我們看到輸入一兩個字,後面就會跳出建議字詞或句子、打錯字會更正、打成拼音或注音會轉換成國字、甚至記憶每個人輸入習慣給予不同建議…..,都是他參與過的項目。2016 年,微軟買下 SwiftKey,公司派他到倫敦去整合這個研究題目。於是從微軟西雅圖總部搬到 SwiftKey 所在地倫敦,2 年後,因微軟在台灣設立 AI 研發中心,再調到台灣帶團隊,負責 AI 在 SwiftKey 中文輸入上的應用。

他在訪談時用字非常謹慎,一講到「打字」都會停下來,再修正「不對,是輸入才對」,意思是當使用者要跟手機、電腦互動,不只有打字,還有表情符號、貼圖、貼網址……等行為,所以團隊成員不限定語音辨識,也會找與電腦圖像有關的人。他舉例,到一家餐廳想用手機拍菜單傳給朋友,現在的流程是先打開相機功能,拍下菜單,接著開啟社交軟體,按相簿、選照片,要做好幾個步驟,他在想,有沒有可能結合光學文字辨識(Optical Character Recognition,簡稱 OCR)拍下來直接就傳出去或搜尋,不用另開軟體?

▲ 在輸入時,SwiftKey 給的回饋不一定是文字,也可能是圖像(圖片來源:SwiftKey 官網

科技與設計 都是服務使用者的工具

我們好奇這些辨識與自動建議功能,和使用者需求之間,到底先有雞還是先有蛋,Paul 認為沒有一定,有些基本功能是可以從使用者研究中問得到,也有些東西是問不到的。「問不到」怎麼發現、怎麼解決?答案是從行為入手。

他進一步指出,系統會記錄、分析一個人輸入了什麼,比方文字、表情符號、貼圖、網址比例各是多少,然後依據使用脈絡,用系統化的方式回饋適當建議,像是常用字、前後文、發給對象、時間地點等。「鍵盤上還有很多東西可以做」,客製化就是其中之一,好比對甲來說,跳表情符號給他會比跳文字更好用,但對乙來說,可能還是文字比較適合。

「使用者是最重要的!」他提醒產品有 AI 或花俏的設計,不代表會比較好用,要去思考怎麼利用技術和設計去服務使用者。

進入更細的建議排序,他說 AI 也需要學習,在輸入一開始就全用 AI 給建議,可能因為不夠準確造成使用者更難選字;不用 AI,要一個一個看很累。最佳解方不是全用或全不用,而是要找出辦法和使用者習慣結合在一起,給予適合他的可預測結果。以中文來說,假若前 10 個建議用 AI 採機率排序(probability),後面的建議就按部首、筆劃來排,這樣使用者在前面 10 個沒找到要的,之後就可以用瀏覽的方式尋找,不用一個一個看,而大幅縮短時間。

AI 協助特殊使用者享有和大家一樣的表達能力

▲ 物理學家史蒂芬‧霍金即使用 SwiftKey 協助表達(圖片來源:SwiftKey 官網

除了一般使用者,還有特殊使用者,例如前陣子新聞提的物理學家史蒂芬‧霍金(Stephen Hawking)就曾用 SwiftKey 提高了輸入速度,對寫作、溝通幫助不少。其原因就在於 SwiftKey 可以針對每個人說話習慣進行預測與糾錯,隨著使用時間越長,系統學得越「像」,回饋預測就越準,連帶增進速度。

AI 辨識技術不只用在語音,2015 年上線的 SwiftKey Symbols 結合圖像,提供表達上不方便的特殊教育族群新的溝通工具,使用者只要點選幾張圖片,用圖片建構句子,app 就會像看圖說故事一樣,自動說出完整一句話。經過英國的特教國小測試,對自閉症孩子表達意見同樣有正面效果。

▲ 選好圖片,再按右上角播放鍵,SwiftKey Symbols 會說出完整句子(圖片來源:SwiftKey Symbols blog

要創新,先問對問題

一談起 AI 種種應用,自然連接到創新,很多人會認為創新不是靈光乍現就是聰明人專屬,Paul 認為不是的,「是怎麼問對的問題。」他舉 iPhone 的觸控螢幕為例,相關技術早就有,「可是大部分的人沒想到要去問『怎麼用在設計上?』」如果沒問出對的問題,多數人想的都差不多,也就不容易有跳出框框的答案。

訪談近一個小時聊下來,撇開專業術語用英文表達不說,Paul 雖帶點英文口音,卻全程流利中文,沒有小學三年級就跟著父母到美國的生疏感,而且字字精準,令人留下深刻印象。

「有的時候字沒有用對,意思就不對了。」他謙虛地說,「還可以進步。」

果然是 AI 專家,隨時隨地都在深度學習。

※ 回顧 MIX 2018,了解更多講者報導及聽眾筆記:http://mixconf.tw/

Share.

About Author

vide 編輯群

Leave A Reply