創作內容

5 GP

【雜談】虛擬歌手雜談/歌曲推薦(一):推開了新時代的門扉

作者:york│2021-11-14 22:00:25│巴幣:2,107│人氣:468
  【雜談】虛擬歌手雜談/歌曲推薦(一):推開了新時代的門扉
  (如果您只想看神調教歌曲推薦,可以直接滑到接近最下面的地方)
  *系列連結:虛擬歌手雜談(零)(簡介)
  ## 前言
  時間是2017年的夏天,初音未來(初音ミク)即將迎來盛大的十周年。米津玄師以「ハチ」的名義重磅回歸,〈砂の惑星〉[1] 一曲投下了巨大的波瀾,其中的隱喻引人爭論;wowaka(現実逃避P)一首〈アンノウン・マザーグース〉[2] 接力上場,睽違六年的投稿,歌曲是一如既往的精采。ピノキオピー(皮諾丘P)的〈君が生きてなくてよかった〉[3] 說出了人們對虛擬歌手的看法;與此同時,Orangestar(蜜柑星P)不怎麼識相(?)地,竟在初音十周年當天,投稿了IA演唱的〈快晴〉[4],風頭差點壓過一眾初音ミク的歌曲,那也成了他暫停活動前的最後一首歌。
  是的,那確實是一個很精彩的夏天。這邊我只取了我現在回想時,印象最深刻的情境,卻遠遠無法道盡那時的狀況。對我而言,那也是我最沉浸於Vocaloid歌曲的一個夏天,是無法忘記的體驗。
  如今,時移世易,一切都成了追憶。
  在那個時候,如果提起「虛擬歌手」四字,那所指的意思,基本上差不多是和Vocaloid(或簡稱V家)等價的。UTAU要調得好聽並不容易,而CeVIO也得不到太大的關注,基本上那就是Vocaloid的時代。在2021年的現在,我們不乏看到許多Vtuber或翻唱歌手,依然翻唱著那段時間的歌曲。點進「本家」的連結一看,初音、鏡音雙子、GUMI、IA等人標誌性的歌聲,便理所當然地流淌而出。
  但是,一股暗潮正在湧動,一個新時代的門扉,正被悄悄推開。
  2017年8月20日至24日──差不多就是我所敘述的,這段情景發生的時間──遠在瑞典的斯德哥爾摩(Stockholm),舉辦了一場名為Interspeech 2017 [5] 的會議。那是一場每年舉辦一次的,關於語言處理(spoken language processing)的著名學術會議。會議上,一篇論文被正式發表。
 
  ##NPSS
  Merlijn Blaauw, Jordi Bonada, “A Neural Parametric Singing Synthesizer,” in Proceeding of Interspeech 2017, Stockholm, Sweden, 2017.
  大致上就是這一篇論文。其實正確的論文引用方法,應該沒有這麼簡單(笑),會需要寫更長一串,不過這邊就先不管了。
  這篇論文提出的東西,叫做「Neural Parametric SingingSynthesizer」,簡稱NPSS。它訓練一個類神經網路,直接去控制vocoder(聲碼器)的參數,然後把音樂合出來。
  呃,這麼聽起來,那實在玄之又玄,有白話一點的說法嗎?
  TL;DR:簡單來說,它就是靠AI直接去合成歌聲囉。
  聽起來很理所當然。在這個人人高喊AI的年代,用AI來做虛擬歌手的調教(調聲),似乎也不太意外吧!
  但問題就來啦,所以具體該怎麼做?
  這世界並不是喊要AI去做什麼,AI就會去做什麼的。人類聲音這麼複雜而纖細,就連一絲絲的失真都可以被聽出來。自從初音ミク爆紅以來,到那時已過了十年,這世上出現的,可被稱作是「神調教」的歌曲,也就屈指可數。人們津津樂道的「神調教」的代表,Mitchie M的〈FREELY TOMORROW〉[6] 是2011年的歌曲,但在那之後六年,又有幾個人能複製這調法?
  無數的人們試著挑戰,卻難以達到的自然的聲音,Blaauw與Bonada讓機器製造出來了。沒有累積多年的調教經驗,不需曠日廢時的微調,只需要幾十分鐘的訓練資料──包含歌手的歌聲,與歌詞、音高的標註資料。
  不相信?請看他們的demo [7],尤其是〈ハナミズキ〉這一首,似乎是完全沒有手動調整的結果。或許不到神調教,但依然使人驚嘆。毫無疑問,遠遠超過同時期Vocaloid 4的技術。
  至於NPSS的細節,這邊 [8] Eji大大有比較多說明,可以參考。我這篇文比較偏雜談,講故事,就不太適合談太專業的細節了。再說,要我談細節,搞不好還會講錯QQ
 
  ##背後的故事
  卻說這Blaauw與Bonada是誰?他們何德何能,做出連Vocaloid(和背後雄心萬丈的Yamaha)都無法做到的效果?很簡單,因為他們就是Vocaloid……好吧,不盡然如此。他們是Vocaloid的推手,是做出Vocaloid合成技術的人。
  根據Jordi Bonada本人的說法 [9],自從1997年開始他就和Yamaha合作,並在2000年開始研究歌聲合成的技術,進而協助Yamaha,推出劃時代的Vocaloid引擎,孕育出了後來V家的盛世。可以說,要論打開下一扇新時代大門的人,他們Voctro Labs [10] 絕對是不二人選。
  不過,萬丈高樓平地起,雖說這篇論文意義非凡,那卻不是這兩人憑空冒出的想法。時間回推一年,2016年9月,GoogleDeepMind發布了WaveNet [11],以深度學習的方式,從語言特徵(linguistic feature)直接生成語音的波形。正是這一研究啟發了Bonada,使他們決定引入深度學習,訓練機器調整參數,進而推開這扇時代的大門。
 
  ## 飛奔的未來
  「ねぇねぇ、突飛な未來を
  想像して膨らむ世界は
  今日か明日でも
  ノックしてくれないですか?」
  ──じん〈空想フォレスト〉, 2012 [12]
  Interspeech 2017已經過去四年。而NPSS的成果,也啟發了無數的研究者──人們開始注意到,是啊,我們是可以用類神經網路(Neural Network)應用在歌聲合成上面的,而且效果可以比以前的方法還好。2018年,SynthV [13],一個將傳統方法與類神經網路混合在一起(hybrid NN/sample-based)的軟體,正式推出,打響了商業軟體的第一槍*。2019年,Vocaloid AI [14] 以〈あれから〉[15] 一曲,向世界昭告Vocaloid(或說Yamaha)並沒有停止進步。它「復活」了日本史上最著名的歌手之一,於1989年過世的美空雲雀(美空ひばり)。從平成到令和,三十年的漫長歲月,因為嶄新的技術,彷彿得以輕易跨越。
  然後NEUTRINO [16]、SynthV AI [13]、CeVIO AI [17] 相繼推出,一步步推高所謂「神調教」的標準。在沒有任何手動調整的情況下,一個比一個還要自然,一個比一個還要具有表現力,於是虛擬人聲與真人歌手的邊界,逐漸模糊。
  行文至此,我想大部分看到這邊的人,大概都會挺驚訝的吧(無論如何先謝謝大家看到這邊了),好像在短暫的淺眠以後,世界竟已物換星移。
  第一次察覺到這些事的時候,我就是這麼想的!2018年以前,我都是用Vocaloid在合成虛擬人聲,替我翻唱我填詞的作品,忽然間SynthV橫空出世,又見到CeVIO的火力展示 [18],一時之間竟覺得Vocaloid將要被淘汰了!
  不過Vocaloid是不會讓自己被淘汰的,它也在進步。事實上,大家都在進步。這邊我就不列舉那些數量多到爆炸的論文了,直接一句話帶過吧──現在就連微軟、字節跳動、騰訊等大公司,也都一腳踩進了這個領域。
  回想起我剛開始聽虛擬歌手的時候(2014年),往往不會很在乎一首歌唱得有多自然,而大部分的調教,在乎的也不是自然性,而是是否與那首歌的其他元素(如伴奏、節奏、氣氛等等)契合。其背後原因,或許也有著那種「沒辦法,啊我能怎麼調得自然?」的無奈。如今,虛擬歌手的自然程度大幅提升,同時也為歌迷們,帶來了前所未見的體驗!
  看到了這樣的改變,不禁讓我聯想到了,前面引用的じん〈空想フォレスト〉的歌詞。就算那只是想像的未來,也許在明天,或甚至就在今天,就會敲響了我們的門扉。雖然對於過去Vocaloid打開的時代,實在還是有滿多懷念,但真的,已經是時候了,該推開下一扇門了吧。
  這也就是為什麼,我想寫這一系列的文章。這篇只是第一篇,如果可能的話,我還會想要繼續寫,繼續講這些虛擬歌手的故事!

  *2021.11.22補註:這邊的敘述方法有點陷阱。在歌聲合成上面,NPSS可能是第一篇"純NN"的paper,但並不是第一篇"有用到NN"的paper。可是,我卻拿一個hybrid NN的方法做出來的軟體,拿來襯托它的意義性。雖然字面上,可能沒有直接的錯誤,但整體脈絡來說不太對。我算是為了內容的流暢,做了錯誤的描述,這邊需要澄清。這部分,下一篇(如果有的話)我也會細說。
 
  ##歌曲推薦
  這一篇文的最後,回歸正題,讓我來列舉幾個我個人認為,當今相當優秀的調教作品吧。藉著新時代的引擎,加上創作者個人優異的感受性,這些歌曲表現出了遠超以往的自然程度──更重要的是,也包括強大的表現力。
  TL;DR:沒,前面鋪墊了兩千字,其實就只是為了安利歌曲(笑)
 
  先簡單講一下列舉的方式,我大概會以下面這個格式去列。
  影片上傳者feat. 虛擬歌手 (歌聲合成引擎)〈歌曲名稱〉,引擎發布年份/虛擬歌手發布年份/歌曲發布年份
  考慮到歌聲合成技術的日新月異,後面三個年份列入,更能顯出某些歌曲與作品的可貴。此外,如果一首歌是翻唱,我會在歌名那邊加上「cover」這個詞。那麼,就先列這幾首吧:
 
  日本コロムビア feat. 美空ひばり (Vocaloid AI)〈あれから〉, 2019/2019/2019
  https://www.youtube.com/watch?v=y4I_s74V2w4
  個人評論:請注意這是兩年前的歌,卻能有如此強大的表達力。所以,毫無疑問地,雖然我前面已經提過,這邊還是要再提一次。此外,我不知道這首歌調聲的人是誰,但是上傳者是「日本コロムビア」唱片公司,所以姑且就這樣列了。
 
  水野あつ feat. 可不 (CeVIO AI)〈信じることが怖い〉, 2021/2021/2021
  https://www.youtube.com/watch?v=_h4Rv2pthT8
  個人評論:我沒什麼好說的,0:38那一段會讓人震撼。這大概是只有CeVIO系列的引擎才能做到的事情。
 
  卸影椎 feat. 小春六花 (SynthV AI)〈地球最後の告白を cover〉, 2020/2021/2021
  https://www.youtube.com/watch?v=3L4l_Y_CpUE
  個人評論:我之間在另一篇文上面有提過這首,那是真的很自然。
 
  Cotton feat. 樂正綾V5 Dark (Vocaloid 5)〈世末歌者 cover〉, 2018/2021/2021
  https://www.bilibili.com/video/BV1564y1z7mM
  個人評論:考慮到中文的歌聲合成比日文更難,這首歌證明了Vocaloid 5真的還是很厲害。當然,調教者真的也是厲害。因為本家在B站,只好放B站連結。
 
  m2 feat. ナクモ (NEUTRINO)〈cover〉, 2020/2021/2021
  https://www.youtube.com/watch?v=2JybfQUBxas
  個人評論:蛤,你跟我說這首不是真人唱的?
 
  【特別一提(Honorable mention)】
  花譜 feat. 可不 (CeVIO AI) 〈フォニイ cover〉, 2021/2021/2021
  https://www.youtube.com/watch?v=qzUU5tfFAeA
  個人評論:嘛,虛擬歌手聲音的提供者,跟虛擬歌手一起唱,目前我看就是「花譜 feat. 可不」這一組搭檔玩得最順手了。非常有趣,這個一定要提。
 
  ##一些後記+給對歌聲合成有一些理解的讀者的話
  這篇只是第一篇。考慮到篇幅已經三千字,我這次先寫到這邊。之後我應該會每一篇都安利五首歌,或者六首──假如有honorable mention的話──並且也會聊一些技術層面的故事,大概啦。
  如果您對歌聲合成有一些理解,可能會覺得我怎麼沒講以下東西:
  一、HMM系列ML的方法(Sinsy、HTS、CeVIO等等)。
  二、傳統以Vocaloid為首的,concatenative方法的介紹。
  三、Tacotron、FastSpeech等等新一代的架構。
  四、Voice cloning / Transfer learning系列的方法。
  五、其他。
  嘛,總之就是一句話,我幹嘛只講NPSS?呃,只能說以我的理解,NPSS真的是時代的轉捩點,因為它第一次打敗了傳統的HMM系列跟concatenative系列的方法,所以我這次雜談,才會決定從這邊講起。之後有機會的話,我可能會再試著聊一些其他的事情吧。
  此外,假如您注意到我這篇文章,在技術上,或甚至是整體大局的理解上面,有一些錯誤,請儘管告知。我沒有那麼厲害,相信絕對會有出錯的時候。我不想把錯誤的資訊留在網路上丟人現眼,所以請不吝指正。
 
  ##人權
  我(york)個人用過Vocaloid跟SynthV,大概就這樣吧。
  Vocaloid:https://youtu.be/63QHKQPAh68
  SynthV:https://youtu.be/gLieCMbqz3M
 
  ##參考資料
  [1] https://www.youtube.com/watch?v=AS4q9yaWJkI
  [2] https://www.youtube.com/watch?v=P_CSdxSGfaA
  [3] https://www.youtube.com/watch?v=Aa3rgnV6WY8
  [4] https://www.youtube.com/watch?v=BwGpXK3W6tE
  [5] https://www.isca-speech.org/archive_v0/Interspeech_2017/index.html
  [6] https://www.youtube.com/watch?v=VTqQ6ZgjpNk
  [7] https://mtg.github.io/singing-synthesis-demos/
  [8] https://aiplus.idv.tw/wp/2019/09/05/vocaloidai-upf-mtg-npss/
  [9] https://www.youtube.com/watch?v=ie5CJW8DeaY
  [10] https://www.voctrolabs.com/
  [11] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu, “WaveNet: A generative model for raw audio,”arXiv:1609.03499.
  (可在https://arxiv.org/abs/1609.03499讀到具體的論文)
  [12] https://www.youtube.com/watch?v=O9g1OyshIX4
  [13] https://dreamtonics.com/en/synthesizerv/
  [14] https://tw.yamaha.com/zh/news_events/2019/20191008_vocaloid_ai.html
  [15] https://www.youtube.com/watch?v=y4I_s74V2w4
  [16] https://n3utrino.work/
  [17] https://cevio.jp/
  [18] https://www.techno-speech.com/news-20181214a-en

引用網址:https://home.gamer.com.tw/TrackBack.php?sn=5315806
All rights reserved. 版權所有,保留一切權利

相關創作

同標籤作品搜尋:SynthV|Vocaloid|歌聲合成|虛擬歌手|CeVIO|NEUTRINO

留言共 2 篇留言

土衛六
像小弟一樣的V家廚→去niconico追排行榜歌單、挖隱沒良曲
像大大一樣的神人→搜尋、解讀、考據關於軟體機制的論文,並開啟哲學討論
童年生得太晚,來不及搭上V2初音推出時的旋風;
暮年來得太快,恐怕已看不見、更推不動臺灣虛擬歌手蔚為風潮的那一刻。
不知該喜該悲、或羨或妒。
不過,江山代有人才出,應非只有李杜詩篇應當流傳萬古。淚盡之哭。
「見上げた空が近くなるほどに/僕は、何を失った?」-Doriko〈歌に形はないけれど〉
喔對,感謝 倉旂瀞大大介紹了大神您。

04-15 20:12

york
???原來他介紹了我啊XD 我完全不知道。可以給我貼一下連結嗎XDD

不過您也不用擔心。最近已經越來越多台灣的音樂人注意到虛擬歌手,或甚至有拿來使用了(e.g.: https://www.facebook.com/SandeeChan.musicface/posts/pfbid0WxtMND4z3zwiKfR7DuxHqZixdokpBCAW8YRTUBpCBV9wDYGdZ43vhTqi8Von7Sr1l),相信以後應該會有越來越多有趣的應用出現

倒是有點遺憾的是,一些從來沒聽過虛擬歌手的人,聽到這些,都會說好厲害,卻不怎麼理解虛擬歌手的歷史,不太清楚虛擬歌手從Vocaloid時代一路走來的點點滴滴QQ
04-15 21:14
土衛六
就這篇。
https://home.gamer.com.tw/artwork.php?sn=5569587#reply_div_4102816
回味はるまきごはん的老歌→
意外被新歌進步程度震撼→
暌違幾年地聽了多首其他P主的歌→
突發奇想決定填詞→
先找有沒有和人撞題→
雖然沒有,但又發現はるまきごはん翻出新花樣→
整首歌架構超級複雜→
竟然還有人(倉旂瀞大大)成功填了詞→
跟大神跪拜是常識→
他在正文和回應中都推薦了您→
顯然您是更強悍的大神→
前來拜見。
目前就到這一步(笑)。要是認真搜尋一下,到了2023年巴哈會有多少大神和新秀呢!且讓在下先消化完目前的歌單,心臟承受不了啊。

04-15 23:53

york
嘩,原來發生了這種事www 真的要感謝他了
那首歌真的很厲害。他填詞也是很厲害。我看到他第一個版本的時候,就對填詞裡面對才能的描寫感到驚訝(幾乎可以說我深有同感。我個人經驗裡,當過月亮也當過太陽。那一句馬上打中我)。後面就只是幫他抓填詞裡面的漏洞而已04-16 00:26
我要留言提醒:您尚未登入,請先登入再留言

5喜歡★york135 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:【中文填詞】停留(透過夏... 後一篇:【雜談】虛擬歌手雜談/歌...

追蹤私訊切換新版閱覽

作品資料夾

pjfl20180818大家
遇到一位女網友,真的很自以為是....看更多我要大聲說昨天19:08


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】