標題:
跨國巨頭猛攻語音識別技術 讓電腦聽懂人們說話
[打印本頁]
作者:
ngw
時間:
2007-3-11 12:01 AM
標題:
跨國巨頭猛攻語音識別技術 讓電腦聽懂人們說話
其實,自電腦誕生以來,讓電腦聽懂人們的說話,就是科學家們奮鬥的目標.幾年前,這方面還僅局限於實驗室內的演示.不過現在不同了,電腦的語音識別功能已經有了質的飛躍,並被廣泛運用到各個領域.
語音識別已經不再遙不可及!
近日,微軟新推出的Windows Vista就安裝了語音識別系統。不懂滑鼠和鍵盤操作的人,有了此軟體的幫助,問題就能迎刃而解。這也是這一作業系統的一大亮點。
從上世紀50年代開始,語音識別作為重要的研究物件,引起了科學家的廣泛興趣。今天,半個多世紀過去了,語音識別技術已經發生了突飛猛進的變化,IBM、蘋果和微軟等公司甚至已經把它應用於自己的部分產品中。
目前,語音識別軟體主要運用於法律和醫藥領域,但隨著軟體的日趨完善,將被更多領域採納和運用,並幫助人們解決疑難問題。
不過,語音識別軟體目前或多或少存在缺陷,如抗干擾差、語音識別誤差較大、易受駭客攻擊等。因此,要想短期內取代手工操作還不現實。
備受青睞
其實,自電腦誕生以來,讓電腦聽懂人們的說話,就是科學家們奮鬥的目標。幾年前,這方面還僅局限於實驗室內的演示。不過現在不同了,電腦的語音識別功能已經有了質的飛躍,並被廣泛運用到各個領域。
微軟和福特汽車正在進行一項有趣的工作,他們希望人們能向汽車發出口頭指令,這讓人覺得有些不可思議。不過,人們通過晶片進行口頭交流,早已成為現實,只是目前還沒有被廣泛應用到日常生活中,所以大家對此感到陌生。可以肯定的是,隨著技術的日趨成熟,今後人們和晶片的交流的機會將越來越多。
前不久,在拉斯維加斯舉行的國際電子消費品展覽會上,比爾•蓋茨和福特汽車的高管們,展示了微軟的Sync軟體,它可讓駕車者們如何通過口頭指令,在車內播放音樂和撥打電話。但是,通過口頭指令駕駛汽車還難以被廣泛運用,至少目前還不行。
IBM在語音識別技術上,一直走在最前沿。以它的ViaVoice軟體為例,這種軟體可以幫助人們通過麥克風用語音向文字處理軟體輸入文字,能識別英語、義大利語、德語、法語、日語、漢語等語種。由於大量的無線上網設備的使用,語音識別軟體的銷售前景看好,特別適用于醫生、律師和作家等職業。
從去年9月1日開始,該語音識別軟體已經開始降價銷售,其中最便宜的一款只需30美元。據估計,目前,全世界已有1000多萬人在使用ViaVoice軟體。
微軟新版的Windows作業系統Vista,也配置了先進的語音識別軟體。用戶可以通過語音和電腦交流——對於無法操作鍵盤和滑鼠設備的人們,這是一個很重要的功能。經過訓練,Vista能識別用戶的語音。這樣,用戶就可以通過口述來“書寫”信件或電子郵件。一言以敝之,用戶可以通過語音來執行大多數常見任務。
不過,目前世界上最先進的語音識別軟體,既不是微軟生產的,也非IBM製造,它的名字叫做Naturally Speaking,出自於Nuance Communications公司。
Naturally Speaking已經得到了大多數用戶的認可。用戶對著麥克風說話,螢幕上就顯示出說話的內容,很容易識別和糾正錯誤。久而久之,該軟體就會適應用戶的說話風格,當然,用戶如果在說話過程中發現軟體無法識別的,也相應地作出調整,這樣一來,語音識別的正確率就會逐漸提高。
用途廣泛
在語音識別軟體領域,比爾•邁森很有發言權,他是這方面的專家。他指出:“目前該軟體主要用於法律和醫學等特定領域。例如,放射線學者們越來越多地通過語音識別軟體口授診斷報告和結果,而不再由答錄機錄下口頭報告,再加以轉錄。”
語音識別軟體是利用非常複雜的統計方法,把人們的講話與單詞相對應起來的。如今,語音識別技術在一些領域已經得到廣泛應用,如呼叫中心。採用這項技術,可以省去不少麻煩,目前已有不少電腦查詢服務採用了Nuance公司的技術,來處理客戶的需求。
可以看出,語音識別技術的特點就是使工作變得自動化。但也有人指出,語音識別技術發展到足夠強大並得到普遍應用的時候,在給人類帶來方便的時候,同時也會使更多的人失去工作。比如,現在很多公司都設置諮詢室,將來有可能被機器取代,人們可以通過公司的電腦發出口頭指令來完成各項諮詢。
邁森預言:“接下來,語音識別技術將被用於網路搜索。”不久的將來, Google和雅虎將推出面向手機用戶的語音搜索服務,用戶只要說出自己要找什麼,就可以聽到電腦的自動答復。這2家公司都已聘請了語音識別技術專家。 Nuance還與雅虎對簿公堂,因為雅虎挖走了Nuance的13名工程師。
IBM也不甘步人後塵,此前它在語音識別一直處在領先位置。目前,IBM正在實施一個超前的計畫——研製一種能監聽4-5個人參加的小型會議的語音識別軟體,用以提供準確的書面記錄。這一步邁得很大,不知道何時能取得成功。
此外,負責IBM的語音識別技術開發的大衛•那哈莫還表示,該公司已經開發出了其他一些應用軟體。其中一項能自動翻譯外語廣播——該軟體首先通過語音識別技術記錄下說話者所說的話,然後通過翻譯軟體把外語翻譯成英語。
儘管這一軟體目前還不成熟,不過它已經能夠翻譯出說話者的要點。這一軟體的賣點不錯,尤其受缺乏外語人才的機構和部門歡迎,比如情報機構。當然,該軟體也適合缺乏人手的電視臺,為聽覺有障礙的觀眾提供字幕服務。
正視缺陷
當然,語音識別軟體還沒有發展到能夠取代鍵盤和滑鼠的程度,還有很多不完善的地方,這也是所有語音識別軟體目前普遍存在的問題。比如抗干擾,這類軟體還無法分辨出哪是人的發音,哪是音響的發音。
在語音識別上,目前也存在差錯。在一家公司的一次演示中,與會者大跌眼鏡。這家公司的工作人員試圖讓自己開發的軟體識別“Dear Mom”這個短語的發音,然而,讓人哭笑不得的是,語音識別軟體卻把它理解為“Dear aunt”,也就是著名的“認母為姨”。
此外,語音識別還可能被駭客利用,不久前就傳出Vista的語音功能存在缺陷,容易遭致駭客利用進行遠端語音攻擊。微軟對此表示,安全人員此前公佈了該漏洞,影響微乎其微。
微軟安全回應中心的發言人宣稱,攻擊者利用此漏洞僅能獲得當前用戶的許可權,並不能繞過用戶帳戶控制系統的監管運行任何管理員級別的命令。駭客要想成功發動攻擊,前提條件是目標系統已經設置好語音識別功能,並且啟用話筒和音箱,此時他們可以通過音頻檔的播放執行複製、刪除、關機等命令。因此微軟方面建議不要一直同時開啟麥克風和音箱。如發現有執行命令的音頻檔播放,要關閉媒體播放器和語音識別,重啟電腦。
安全回應中心的程式經理Adrian Stone稱:“我們對該問題十分重視,經過調查,我可以自信地說,沒有必要擔心該問題。”
蘋果公司在語音識別上也曾經存在漏洞,不過,發現後他們很快修復了漏洞。
歡迎光臨 娛樂滿紛 26FUN (http://26fun.com./bbs/)
Powered by Discuz! 7.0.0