产品精品自在在线午夜免费 ,91香蕉视频官网

史蒂芬·霍金的「機(jī)械電音」，也許是世界上其中一個(gè)最有辨識(shí)度的聲音。

(資料圖片)

但那并不是霍金自己的聲音。

在霍金因漸凍癥(ALS)失去說(shuō)話能力的年代，技術(shù)還不足以讓他能生成自己聲音。事實(shí)上，能用上語(yǔ)音合成器的人都屈指可數(shù)。

到了今天，ALS 患者雖然有了更多語(yǔ)音合成的選擇，但總體費(fèi)用和時(shí)間門檻仍然不低，普及度也有限。

最近，蘋果公布了全新無(wú)障礙功能 Personal Voice(暫未上線)，不僅讓用戶能免費(fèi)「?jìng)浞荨棺约旱穆曇簦瑫r(shí)還在安全地應(yīng)用 AI 技術(shù)上，作出了一次有意思的嘗試。

只需 15 分鐘「調(diào)教」，就能生成你的聲音

▲ 圖自 Fastcompany

在生成式 AI 可以模仿一切的時(shí)代里，用 AI 模仿一個(gè)人的聲音聽起來(lái)已經(jīng)不算新奇，只是感覺有點(diǎn)安全隱患。

我好奇的，更多是蘋果要怎樣安全和高效地實(shí)現(xiàn) Personal Voice 這一功能。

據(jù)介紹，iPhone、iPad 和 Mac 用戶只需要根據(jù)提示錄制 15 分鐘的音頻，蘋果就會(huì)基于設(shè)備端的機(jī)器學(xué)習(xí)技術(shù)來(lái)生成和用戶一樣的聲音。

相比之下，為失語(yǔ)群體提供專業(yè)語(yǔ)音合成服務(wù)的公司，可能需要采用專業(yè)設(shè)備，錄制幾小時(shí)的語(yǔ)音素材，價(jià)格最低都要數(shù)百美元。

另一項(xiàng)新無(wú)障礙功能 Live Speech，則支持用戶打電話、FaceTime 或者是和他人面對(duì)面對(duì)話的時(shí)候，輸入文字即可生成語(yǔ)音內(nèi)容，為失語(yǔ)或不方便說(shuō)話的用戶提供另一種「發(fā)聲」方式。

結(jié)合 Personal Voice 和 Live Speech 兩項(xiàng)功能，失語(yǔ)用戶就能用接近自己原本聲音的生成聲音和他人溝通。

用起來(lái)是方便了，但怎樣避免有人用網(wǎng)上扒的語(yǔ)音素材來(lái)生成他人的聲音?

素材隨機(jī)化。

在錄制 15 分鐘語(yǔ)音素材的過(guò)程中，蘋果將隨機(jī)生成需要用戶朗讀的內(nèi)容，減少他人猜中素材的可能性。

物理距離屏障。

在錄制過(guò)程中，用戶需要在距離設(shè)備 6-10 英寸(約 15- 25 厘米)的特定空間里完成錄制。

在生成過(guò)程中，所有數(shù)據(jù)都將通過(guò)蘋果的 Neural Engine(神經(jīng)引擎)在設(shè)備本地完成，不必要上傳到云處理。

語(yǔ)音合成后，第三方應(yīng)用如果想使用 Personal Voice，都要獲得用戶明確授權(quán)。

即便第三方應(yīng)用獲得授權(quán)使用時(shí)，蘋果也會(huì)采用額外的背景保護(hù)，確保第三方應(yīng)用無(wú)法獲取 Personal Voice 以及用戶之前所錄制的語(yǔ)音素材。

如果是蘋果「全家桶」用戶，生成自己的 Personal Voice 后還能通過(guò) iCloud 同步到不同設(shè)備上，并以端對(duì)端的方式加密。

自己的聲音，失去了才懂多重要

人是感性的生物，而聲音是很強(qiáng)烈的情感觸發(fā)器。

有研究指出，當(dāng)人在聽到母親的聲音時(shí)，身體釋放出催產(chǎn)素水平和跟媽媽擁抱時(shí)產(chǎn)生的程度很相似。另一個(gè)研究則指出，聽到自己的聲音，會(huì)增強(qiáng)一個(gè)人的自我能動(dòng)性。

這聽起來(lái)有點(diǎn)抽象。

但當(dāng)我們失去它時(shí)，重要性就變得顯而易見了。

2021 年 3 月，Ruth Brunton 被確診 ALS。那年圣誕，她就已經(jīng)失語(yǔ)了。

ALS 患者中，約有 25% 的人患的是「延髓起病型」肌萎縮側(cè)索硬化癥，主要表現(xiàn)是說(shuō)話障礙或吞咽困難。這類病人說(shuō)話會(huì)逐漸變得含糊、帶有鼻音，甚至失語(yǔ)。

Brunton 的行動(dòng)很果斷，確診后馬上找公司去做語(yǔ)音生成。

來(lái)回花了一個(gè)月時(shí)間，錄了 3000 多個(gè)句子的語(yǔ)料，但最后出來(lái)的結(jié)果并不理想。

那家公司用的是一種名為「單元選擇(unit selection)」技術(shù)。

簡(jiǎn)單粗暴來(lái)說(shuō)，它就是通過(guò)「拼接」來(lái)實(shí)現(xiàn)語(yǔ)音生成，把語(yǔ)料拆分為大量小的語(yǔ)音單元，然后按需把元素拼起來(lái)。

▲單元選擇技術(shù)下，「Bob」這一詞語(yǔ)能被拆分成不同語(yǔ)音元素，圖自《華盛頓郵報(bào)》

這種技術(shù)生成的語(yǔ)音能聽清，但會(huì)有點(diǎn)電音，聽起來(lái)不太自然。

結(jié)果就是，Brunton 錄制的語(yǔ)料結(jié)合了微軟一個(gè)名為「Heather」的聲音，不但聲音和自己毫不相似，甚至逼著這英國(guó)人「講」起了美語(yǔ)口音。

困在這個(gè)聲音里，Brunton「只會(huì)在必要的時(shí)候說(shuō)話，不再是因?yàn)橄胝f(shuō)話而說(shuō)話」。

從前和丈夫打鬧聊天的心情消失了，Brunton 也不怎么愿意參加多人對(duì)話。

即便是說(shuō)「我愛你」，用一個(gè)不像自己的聲音來(lái)說(shuō)，意義也似乎被削弱了。

六個(gè)月后， Brunton 和丈夫爭(zhēng)取回了最初錄制的語(yǔ)音素材，找了另一家公司，用 AI 技術(shù)合成了一個(gè)更像她自己的聲音：

這聽起來(lái)也許有點(diǎn)傻，但重新獲得自己的聲音讓我更有自信了。

在波士頓兒童醫(yī)院負(fù)責(zé)「增強(qiáng)溝通」項(xiàng)目的 John M. Costello 留意到，那些采用了更真實(shí)生成語(yǔ)音的病人，似乎更能夠和親近的人建立深厚的聯(lián)結(jié)。

2022 年圣誕節(jié)，「重獲新聲」的 Brunton 還用語(yǔ)音錄制的一段節(jié)日祝語(yǔ)。

然而，圣誕剛過(guò)，Brunton 就染上了新冠，最后在今年 2 月離世了。

她離開的那晚，丈夫 David 一整夜都握著她的手：

我們有兩年時(shí)間來(lái)告別。

我們說(shuō)好了，我們要說(shuō)盡一切我們想說(shuō)的。

難以想象，如果 Brunton 后來(lái)沒換上更像自己的聲音，她又是否能自在地說(shuō)出想說(shuō)的一切。

無(wú)障礙思維點(diǎn)亮靈感，AI 燃起生產(chǎn)力

我一直認(rèn)為，無(wú)障礙設(shè)計(jì)所挖掘的，其實(shí)就是人類多樣性創(chuàng)造的想象力資源。

我們?nèi)サ胶妥约河兄厝徊煌铙w驗(yàn)的人面前，聆聽更少被訴說(shuō)的故事和體驗(yàn)，創(chuàng)造出我們之前沒想象過(guò)，但卻能對(duì)更多人友好的的新生活方式。

Personal Voice 能讓失語(yǔ)的 ALS 患者重新獲得自己的聲音;也可以幫助在經(jīng)歷「刀片嗓」的我用自己的聲音去和其他人對(duì)話;甚至，我也很難避免會(huì)去想象，是否應(yīng)該用這為自己「?jìng)浞荨孤曇袅艚o親近的人，以免哪天自己會(huì)突然離世。

而 AI 技術(shù)，就是實(shí)現(xiàn)這些想象力生產(chǎn)力。

正如杜編輯之前說(shuō)的，雖然不趕生成式 AI 的熱鬧，但蘋果一直都把 AI 用來(lái)提升用戶體驗(yàn) —— 提升效率，保護(hù)隱私。

提升效率，在于提升本地執(zhí)行的機(jī)器學(xué)習(xí)算法和模型。

除了 Personal Voice 以外，蘋果這次預(yù)覽的另一個(gè)無(wú)障礙功能 Point and Speak 也采用了本地設(shè)備端的機(jī)器學(xué)習(xí)技術(shù)。

未來(lái)，視障用戶在 iPhone 自帶的放大器里，結(jié)合 Point and Speak 和旁白功能，就能憑自己手指把 iPhone 變成「點(diǎn)讀機(jī)」—— 點(diǎn)到哪兒，讓 iPhone 給你把文字讀到哪兒。

去年的「門檢測(cè)」功能道理也類似，讓設(shè)備端的機(jī)器學(xué)習(xí)幫視障用戶識(shí)別出門，并朗讀出門上面的信息和周圍的標(biāo)識(shí)。

至于隱私，按喬布斯說(shuō)的，就是「如果你需要他們(用戶)的數(shù)據(jù)，那就向他們(用戶)請(qǐng)求。每一次都如此?！?/p>

這在無(wú)障礙設(shè)計(jì)方面也尤其重要 —— 因?yàn)檫@些功能設(shè)計(jì)起源就是服務(wù)被所謂「常規(guī)設(shè)計(jì)」忽略的人，常常都是更弱勢(shì)的群體，因此更有必要確保這些用戶的隱私不受侵害。

在這個(gè)語(yǔ)境下，我們也可開啟更多關(guān)于數(shù)據(jù)應(yīng)用權(quán)和透明度的討論。

蘋果這次做 Personal Voice 時(shí)，和幫助 ALS 患者的非盈利機(jī)構(gòu) Team Gleason Foundation 合作。

▲ Team Gleason Foundation CEO Blair Casey(右)

該機(jī)構(gòu)的 CEO Blair Casey 一直也在推動(dòng)語(yǔ)音生成公司設(shè)定一套標(biāo)準(zhǔn)錄制素材設(shè)定，讓用戶能直接錄這部分素材，并體驗(yàn)不同公司生成出來(lái)的語(yǔ)音效果，而不是像現(xiàn)在一樣「盲賭」。

同時(shí)，Casey 也主張語(yǔ)音生成公司把用戶錄制的語(yǔ)音素材數(shù)據(jù)提供給用戶(因?yàn)楹芏嘤脩艨赡茕浿坪缶褪дZ(yǔ)了)，以免他們未來(lái)想把這些數(shù)據(jù)用在其他技術(shù)上：

如果更好的技術(shù)出來(lái)了，你會(huì)不想試一試嗎?

如果你沒法拿回自己的語(yǔ)音素材，你就沒法去試。

AI 也許是我們時(shí)代最強(qiáng)的生產(chǎn)力。

但是，這力該怎么使，也許以人為本的無(wú)障礙設(shè)計(jì)能給它不少指引。

關(guān)鍵詞：