今天机器在语言识别、语言合成都可以把它变成一个数字去掌握它-小小新闻发布会
点击关闭
您现在的位置有趣新闻网首页>>科技新闻>>正文

声音技术-今天机器在语言识别、语言合成都可以把它变成一个数字去掌握它

秘鲁南部地震

王小川:以人類已知的技術現在做不到這個事情。機器本身對語言的理解已經很難了,而且要理解人的心靈。現在並沒有任何原理支撐做這樣的事情。一旦做到了,系統性地取代人類,人類是機器文明的預加載程序,要麼說這個人的世界人為主,機器只是作為工具,要麼是機器徹底顛覆掉人,是有分界線的狀態。

另外,AI還帶來什麼東西呢?降噪算法。以前的聲音降噪是靠麥克風矩陣做多個點聲音的降噪。今天在一路聲音里,也能作為背景聲去除。我們可以看這樣一個真實的算法的結果。

這個技術是語音識別,第一響應的是要識別得准,聲音小都能識別。但今天更高的要求是在裏面提取出更多人和語義來。第一件事情,大家看到有人的分割,不同的人說話的時候它能知道這是第一個說話的人,這是第二個說話的人,是通過他的聲紋做一個切割。

陳威如:你已經做到了以後可以做問答,我在想說未來有沒有可能我們真的能創造一個機械人,他是我們的心靈夥伴,他能理解你的情緒、理解你的意思,他是你世界上最好的朋友,你覺得有可能嗎?

我們之前就做到了在垂直領域當中對事實類的問題,有精確答案的問題,機器可以產生超越人的回答。這個問題有明確的答案,不是一個意見性的東西。它有超越人的地方,但是又有嚴重跟人相比不足的地方。未來在語言相關的地方,很多時候是靠人機耦合互動的對未來人的幫助。

有了這個技術之後我們做了一個裡程碑的嘗試,在語音合成裏面做播報沒有問題了,大家都聽過高德地圖裡林志玲的女聲做播報。但是在一個表演,在一個付費的音頻節目里,機器達不到像人表演一樣的高度,那這個裡程碑的嘗試怎麼做的?實際上這個技術的做法,首次是用一個轉述師,另外一個人讀這樣一個內容,隨後把梁寧的聲音附上來。這個事情是一個破天荒的工作,把人的創作工作和一個表演和聲音合成。

我今天講這個東西能幹什麼用呢?它能夠干很多講故事的事情。這是凱叔的原聲,用小川的聲音做訓練,大家可以理解,把這樣的聲音合在一塊兒就可以變成王小川講故事。這裏面想說一個什麼事呢?因為今天的語音技術、人工智能技術還沒有能夠承擔表演的職能,只能做一些簡單的合成,因為表演要深刻的理解。現在既然做不到,我們會採用其它方法,就是讓人去承擔這種表演,但是可以用另外一個聲音把它套上來變成一個標準品的輸出。這種東西是有機會去改變整個行業音頻的生產製作的模式的。以前而言,聲優變得特別關鍵,聲音很好聽,他跟你簽約之後,如果這個聲優走了,你可以把聲優的聲音採集下來變成你的數據產權,這時你可以找任何一個人生產這樣一個音頻,把聲優的聲音貼上來,這個在行業里潛移默化也會帶來一個變革的方式。

現在可以看一看一些有意思的前沿的成績。今天我們每天的語音識別請求已經超過了8億次。

前面越談越深入,談到翻譯,更難的事情還是未來走向對話。以前我們的輸入是靠輸入關鍵詞,給你十條鏈接,我們習慣搜索很多年了。但是這種做法的天花板是低的,因為關鍵詞並不能夠很好地表達你想提出的問題,比如我見到社長,我說社長啥事?我就說五個字:中國企業家,社長會一臉懵的樣子說你問啥。今天機器沒有辦法列出一二三四五(002195,股吧)答案給你。走向交互,機器要輔助人,以人的語言方式進行溝通。因此會把問答作為中間的一個媒介,讓機器輔助人提出好多問題來,再給你好的答案。問題越長,對機器今天的AI能力要求越高,以前關鍵詞做不到,現在隨着深度學習的發展,對語言初步的處理是可以產生這種簡單的對話和問答能力,有機會在搜索行業里做改變。以後問題、答案會變成我們常用的一種跟機器溝通的方式,也是自然交互的升級,是用了知識計算的能力。

搜索從2012年開始提出自己的核心理念的時候,就圍繞着自然交互和知識計算去發展我們自己的核心語言AI能力。自然交互里做的核心是跟圖像和語音相關的,語音有語音合成、語音識別包括整個變聲的技術。一會兒給大家介紹當前最前沿的技術在商業領域做了什麼樣的度,以此來理解互聯網公司、技術公司現在把這樣一個研究成果轉化到應用的可能性。另外,在圖像裏面比較簡單的人臉識別做的比較多,搜狗不是發展這個,我們更多是在做OCR,做文字的理解,或者是做唇語識別,通過看你嘴唇的運動能知道你在說什麼,還是跟語言相關。

語音識別之外我們談到語音合成,也是前沿的工作。今天有技術能做到在線、離線、男女各種風格甚至多種語種聲音的合成。這個事情中間還有一個難點的事情,就是如何把一種聲音把情感帶進合成另外一個人的聲音。怎麼理解?一個人在表達他的情感,因為機器不具有情感表達能力,但是用聲音皮膚感貼上去合成另外一個人,形成另外一種效果,這是行業前沿的能力。

我認為未來幾年眼鏡會成為我們現在新的智能硬件的組成部分。

第二,在中間的時候能把笑聲、掌聲、音樂的聲音都能給識別出來。識別的不只是語音的文字,而是其它結構化的信息,甚至可能一個狗叫,也能告訴你這是什麼叫的聲音。

王小川表示以人類已知的技術現在做不到這個事情。機器本身對語言的理解已經很難了,而且要理解人的心靈。現在並沒有任何原理支撐做這樣的事情。一旦做到了,也就會系統性地取代人類,人類成為機器文明的預加載程序。么說這個人的世界人為主,機器只是作為工具,要麼是機器徹底顛覆掉人,這是有分界線的。

再有一塊工作是搜狗今年做的比較重要的工作,是搜狗的分身技術。分身技術是從一個語音合成開始走向了一個對真人的視覺的合成。這不是一個真人,整個這個視頻製作是合成的,有真實的原型,這是新華社的主持人,用她的視覺和她的聲音,我們經過建模之後,能夠完整地獲得她的視覺合成的能力。只要你輸入一段文字,就能合成這樣一個視覺去播報。這個播報確實真的實時在新華社已經取代了她在新華社APP里的播報,到現在已經播報了3000多條的內容,全球首個取代人的主播,得到了國際商BBC、CNN等200多家主流媒體的報道。在這個領域里也有網友表示,能不能把一個娛樂記者,把一個網紅的直播給取代呢?我們說今天其實做不到。今天能做的還是這種重複性的沒有創造性的勞動,對於一個有創造力或者是需要有表演才能的工作,今天機器是沒法取代的。

我們怎麼看AI和個人硬件的發展?看硬件的時候大家想到什麼?音箱大家看的比較多。我個人在這張圖裡沒有把它放進來,我認為那不是未來的產品形態,我預言在未來幾年後這個產品就不性感了。

這是我認為未來的一個主線。在這個主線下,搜狗的競爭力在什麼地方?我們的核心是一個技術方面很性感的詞,叫做「語言」。今天做圖像挺多的,做語音也挺多的,語言在這裏面是最大的挑戰,但當你看到一個小的機器,想知道它智不智能,首先跟它聊兩句,如果能跟你對話,能回答你的問題,你覺得它很智能。這是我們本性對智能的理解。圖靈測試當中提到,語言有什麼魅力呢?第一,亞里士多德講,語言是心靈印象的符號。因為有了語言之後,我們認知這個世界,不同的語言建立不同的世界觀,我們可以說沒有語言,我們沒法對這個世界產生抽象的描述和表達的。所以,語言是我們認知世界很重要的部分,它也是知識的載體,是我們思維的工具。語言是對我們認知世界里不可或缺的一種符號。語言是我們心智的一種表達方法。同時語言又是人類社會中間進行溝通的一個基本工具,是社會組成的一個成分,沒有語言我們形成不了社會大家進行交流。

王小川:從技術上講我們都可以去做。你說「好呀」(大聲)還是「好呀」(溫柔)。今天機器在語言識別、語言合成都可以把它變成一個數字去掌握它。根本的問題不在於機器是否能夠對情緒有所識別或者合成,而是說他從事的工作是否是作為一個陪伴性的任務。如果是做一個客服,如果你讓機器很溫柔講話,沒問題,只是一個客服。但是如果做成本身做一個人性化的工作,做一個銷售,做一個阿姨,做一個保姆,做一個幼兒園的老師,這個事好像做不了。因為更多首先不是從這樣一個是否有情緒的技術點去看這個問題,而是機器跟人互動中間,你對機器的要求是一個足夠有人情味的開放的問題,你即便合成這個聲音,也做不到。但如果它本身很窄,就是一個客服或者他就是一個電話能跟你溝通的服務員,只要你對它不要求背後有強烈的人情味的這樣一種人性的需求,只是聲音要滿足,我們就可以做到。

這是一個原聲。今天機器不是在合成,合成這麼一個有情感的聲音,機器今天做不到。但是今天機器可以把一個聲音通過皮膚的方式變成其它的聲音。這是什麼技術呢?這是用了聲音皮膚,把原來的一個帶有情感的聲音給它做一個改變,把其它聲音帶進去,變成高曉松的聲音。

還有一個重要的工作,是和情懷相關的,就是語言的工作。這是搜狗的使命當中,我們認為是需要不斷突破的。有一個數據,全球現在77億人,其中中國人口第一大,大概佔了20%,15億講中文的人。第二大母語是西班牙語,第三大是印度語,第四大才是英語,英語母語的人大概只佔到全球4%。但是對不起,今天由於歷史的原因,95%的網上信息表達是用英文寫的,100%的商貿活動是用英文寫的。因此,對中國人而言我們每個人要學好多年的英文去跟這個世界進行交流,我們會覺得有一個責任是能夠使得中國人如果你不需要深入到當地生活,要去研究語言,你更多可以用機器輔助你做這樣的事情。

怎麼看?我有兩個大的法則。一件事情是AI硬件是從固定的設備開始走向移動化,從攜帶開始變成穿戴,越來越輕便,移動現實的硬件是一個走勢。我們原來用PC機,每個人每天用PC機30到40分鐘。隨後有了筆記本、手機,到今天出現了手錶、耳機。所以,整個智能硬件的走勢更加便攜化和穿戴化。

說一個很有意思的小數據,錄音筆市場本身是一個下滑的市場,從2013年開始到現在一直走低,從400多萬每年的銷量,略微在走低。今年發生一個變化,今年3月份我們發佈錄音筆之後,整個在主流電商平台的錄音筆的搜索量出現了一個反彈。大家覺得手機已經把錄音筆慢慢取代了,但是從這個數據可以看到,因為AI的注入,會使得這樣一個硬件開始發出新的活力,搜索量已經開始呈現了逐步上升的局面。我們可以預期,明年到後年這樣一個產品隨着AI點燃之後,能夠又重新成為大家一個新的伴侶。不只是在工作場合用錄音筆,錄音筆增加一個功能,叫一鍵把聲音上傳區塊鏈,防篡改、防刪除,可以讓每個消費者都用這樣一個新的模式。以後大家用微信,可以不用手機了,我們搭了一個脈絡,在行業中做一個創新聯盟,這個聯盟中間索尼、紐曼、愛國者這些主流的玩家都加入了。這是一個挺有意思的小現象。一個非錄音筆、非硬件的公司能在這裏面有所斬獲甚至重新重組了這樣一個聯盟的生態。

另外一件事情,除了便攜還有一個大的脈絡,就是更加IO導向,以前計算機是內存導向,但是隨着新的硬件開始出生,筆記本到手機開始,開始有了聲音,有了麥克風,有了更好的各種傳感器、GPS,移動傳感器到後面磁力計、心率監控,能夠從環境當中捕獲更多的數據,甚至是這種數據來自於人身體的感官,使得機器開始通過IO逐步從人適應機器走向機器適應人,開始接管人的感官。這是另外一個趨勢。

今天我的題目叫「語言AI」,明年是2020,2020年是一個特別讓人內心有衝動的日子,因為2000年的時候大家說2020就是代表未來的科技,我認為明年開始會有一輪新的爆發。

大家覺得之前講的東西都太軟了,能不能講點硬貨。開場我想先拿一個硬貨開始。我們做輸入法、搜索,也做了一些翻譯等等的東西,這個事情是我們的一個硬貨。在今年3月份我們開賣搜狗的AI錄音筆,是我們第一款完整集成了AI能力的小硬件。這個硬件一賣之後,就成為「雙11」多個主流平台的單品,我們預期明年幾款上市之後很快成為這個領域當中,從銷量到收入,到利潤可能是排在第一的位置,這是用AI去顛覆了一個小小的行業。「顛覆」這個詞有點大,但確實可以看到錄音筆因此發生了變化。傳統錄音筆都是收音就行了,今天我們能夠用雙麥克風矩陣錄音,做到聽得清,而且中間還有降噪技術。把AI降噪放進去,最大的區別是你拿到錄音筆之後直接可以轉寫成文字,直接做雲端存儲,直接被檢索,生成文章的摘要,幫助你做編輯。不僅收音,而且對聲音背後的意義做理解處理,甚至有同聲傳譯的能力。筆開賣之後,不斷有復購率,買一隻之後買十隻,買好多,這代表着產品取得了一定的小小的成功。

新浪聲明:所有會議實錄均為現場速記整理,未經演講者審閱,新浪網登載此文出於傳遞更多信息之目的,並不意味着贊同其觀點或證實其描述。

一個小小的錄音筆裏面其實會藏很多的技術進去,才能夠把這樣一個對於聲音的理解做到極致。2、3月份發的技術款里已經有大部分的能力了。這就是說明AI進去之後能夠重塑這樣一個行業。

在人工智能領域里提到語言是人工智能皇冠上的明珠,第一,很重要。第二,也很難。甚至我們可以說,沒有語言我們就沒有能力去做創造力和推理的能力。今天大家認為人工智只能解決重複性的事情,就是因為人工智能還沒有創造力和推理能力,背後就是對語言還沒有完整的了解。

另外一個事情是知識計算,在語言之上提取出語言之間的關聯關係,然後產生後面的推理能力和知識的關鍵能力,這稱之為計算能力。

基於這兩個趨勢,我對音箱略有持有所保留意見,既不夠移動,也不夠IO。

第三,很難的點行業前沿在做,就是中英文混合,如果不對這個技術了解,覺得這是挺簡單的事情,但是中英文混合識別的時候,其實調動的不是語音識別感知的系統,而牽扯到認知結構,這個技術已經超過了今天深度學習這樣一個淺顯的能力,把這個做到,今天搜狗包括其它的友商,像訊飛,大家努力的一個方向,中英文混合對今天的語音識別引擎是非常挑戰的一件事情。

陳威如:小川,非常謝謝你剛才前沿而且振奮人心的演講,很佩服。我剛才聽到你說的很多都是注重在語義的解析還有翻譯,在以後的AI的機械人的時代,你注重的這部分剛好就是像是一個機械人的腦,我覺得特別棒。假設人在跟機器溝通的時候,一般來講溝通分為認知,就是你說的語義。另外,情緒,這是兩個東西。舉個例子來講,比如說「小姐,我能夠邀請你去看電影嗎?」這位小姐說「好啊,試試」。另外一個說「好啊,你試試(憤怒)」情緒不一樣,但是語義一樣,不知道我們公司會不會在這兩方面都做一些發展。發展情緒的認知跟發展語義的認知,這兩個是完全不同的技術架構?還是說這兩個是可以融合的?

以下為發言全文:王小川:剛才主持人一講我年歲不大,其實也不小了。耕耘互聯網已經20多年了,從1999年chinaren到現在整整20年,見證也享受着互聯網的發展。

陳威如提問稱「未來有沒有可能我們真的能創造一個機械人,他是我們的心靈夥伴,他能理解你的情緒、理解你的意思,他是你世界上最好的朋友,你覺得有可能嗎?」

但與專業人士比較起來今天它有局限性,但是對大部分人來說,它已經可以產生超越的作用了。

2016年的時候我們是全球首個發佈了從中文到英文的同傳系統,在世界互聯網大會展示,17年做了跨語言搜索引擎,你可以用中文搜索一個全球的信息,英文信息或者日韓信息,翻讀。10月份的時候發佈了首個離線的基於深度學習的翻譯機。到了去年三季度的時候,也是全球首個能夠英中同聲傳譯的系統。到現在中英翻譯開始在一些不嚴肅的場合,已經開始進入到了使用。

兩個極致,在知識計算里,自然交互走向極致之後,今天大家努力的方向叫個人助理、VPA,各大主流的公司都以VPA作為自己TO C人工智能戰略的極致點。沿着這個路徑,還可以衍生出很多產品來,搜狗在這裏面也希望給每個人提供一個更好的個人助理,以及給每個人更好的分身。

這是我們在這裏要解決的問題。為什麼我們感興趣語言,做什麼事呢?

前面講的是干知,後面講的是認知。

這個基本上是一個聽不清的狀態,但是我們通過算法過濾之後,基本上講的是針對現實場景中四萬億種真實的噪音進行降噪,AI做法跟傳統不一樣,傳統做法是靠硬件去嚴格的信號計算。AI是建構的場景能夠消噪,我們的工程團隊對大量的噪音進行了學習工作。

給大家彙報一下我們對前沿科技的這樣一個進展的掌握和實踐。

今天我覺得我自己還是能夠談一些技術的,2016年AlphaGo出世時大家都覺得AI時代來了,怎麼樣?三年過去,大家覺得這個概念模糊了,AI今天主要是做TO B的事情,商業模式在C端並沒有見到多少成功的案例。往下走10年時間來看,我會做一些預言,跟大家分享一下思考和積累。

另外更難的是跟知識計算相關的,把對話、問答、翻譯,這些事情這幾年大家看的比較多,應該是在知識 計算里最簡單的一件事情。搜狗做了很多更深的工作,包括翻譯里的同傳,AR還有視覺翻譯,包括還有實時同傳的翻譯,以及像搜索裏面用中文搜索全球信息的翻譯等等,基本上可以展開語言為核心的AI的布局圖。

新浪財經訊 12月9日消息,2019年第十八屆中國企業領袖年會於12月8日-9日在北京召開。搜狗創始人、CEO王小川與阿里巴巴產業互聯網中心主任對話。

搜狗之前做了輸入法,做過搜索,一個是用語言幫助你去表達信息,一個是用語言幫你去獲取信息。因此在這裏面我們有很好的場景,是在語言裏面幫助你做輸入和輸出。今天在整個人工智能領域裏面提到兩個核心概念,一個叫感知問題,模仿人的大腦的連接與深度學習方式里獲得語音圖像的能力。

今日关键词:姜子牙撤出春节档