前往
大廳
主題

AI記事-發展事件的紀錄

獵奇一哥 | 2023-01-03 16:26:28 | 巴幣 1608 | 人氣 1757

大多你想得到的東西,多少都有AI介入,我把我覺得重要的(主要指科技進步)記下來,不定期更新

其他人整理



繪圖
平面藝術
  1. 2016-??-?? Pixiv Petalica Paint:針對動漫自動著色的先驅,算很早推出AI上色的軟體,實際上他並不能完全自動上色,還是需要顏色提示,才能正確的為區塊上色,不過這類技術的AI訓練投資應該不大,屬於早期生成對抗的GAN應用,達到風格移轉的效果但並沒有明確著色判斷能力。
  2. 2017-06-11 style2paints:相對於Petalica Paint之後推出,理論上有相對Petalica Paint更加優化的上色能力,不過同樣的擁有GAN缺陷,你必須圖形契合於他的訓練才能產生效果。
  3. 2019-??-?? NVIDIA GauGAN:base on GAN (pix2pixHD),透過文字、顏色與形狀,生成對應的風景圖片,不過採用方法為GAN,也因此他在某些複雜項目不能做很好的整合,訓練上也就沒有。
  4. 2021-01-05 OpenAI DALL-E:base on GPT-2。文/圖生圖。
  5. 2021-??-?? NVIDIA Canvas:base on GAN (pix2pixHD=>GauGAN=>GauGAN2)。文/圖生圖。
  6. 2021-10-29 disco-diffusion:base on diffusion model。文/圖生圖。
  7. 2022-04-?? OpenAI DALL-E2:base on GPT-3。文/圖生圖。
  8. 2022-06-22 midjourney:文/圖生圖。
  9. 2022-06-22 Codebook:base on diffusion model。圖形修復。技術稱之為Codebook Lookup Transformer,不過從原始碼與文件看起來, 主要是基於diffusion model的增強,效果表現不錯。INFO1 INFO2
  10. 2022-08-22 stable-diffusion:base on diffusion model。生成圖片。目前最知名的工具之一,可看 繪圖AI - Stable Diffusion 相關教學與參考資源

建模
  1. 2018-??-?? Meshroom:圖轉3D。其實他並不是起頭,但是它應用算很廣泛,主要是透過大量環顧一個物品或地面的圖片推理出3D物件。
  2. 2020-06-15 Facebook Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization:這個技術將圖片轉成3D模型。
  3. 2021-06-?? NVIDIA Omniverse:以元宇宙生成為目標的整合工具。如果作元宇宙,應該會知道製作時,要包含應用.usd檔的應用考量,也就是通用場景描述檔,他這個檔案被視為跟網路瀏覽的HTML一樣具有代表性,除了開源,他也"通用",支援的建模軟體與遊戲也非常多,這裡面先驅並不是NVIDIA,也看得出各家也擁有自己的AI應用。但是真的願意喊出具備整合AI,就是Nvidia,例如Omniverse的Audio2Face。這很弔詭就是,現實社會,明知道你不是第一人,但願意最大聲說自己要做的人才會被記住,NVIDIA在廣告上也非常擅長這麼做,當然,它的軟體實力也足夠應付。
  4. 2022-07-?? NVIDIA NeRF:圖轉3D。算是滿重要的引用項目,技術是NeRF。
  5. 2022-07-?? differentiable-sdf-rendering:圖轉3D。用diffusion的技術產生圖形後再用NeRF等技術生成模型,降低貼圖不佳等問題。
  6. 2022-09-29 dreamfusion3d:圖轉3D。主要展示演算法,他使用了自己的Signed Distance Function
  7. 2022-11-30 OpenAI ChatGPT:可參考youtuber,目前有不少人使用blender搭配python語法進行3D應用。
  8. 2022-10-23 Luma AI:使用Nvidia NeRF技術,目前可以在iOS上面運作,不過實際上我猜是送回雲端算圖,iOS商店YOUTUBE
  9. 2022-12-27 OpenAI Point·E:文轉圖後,再從圖轉3D
  10. 2022-12-?? stable-diffusion-webui-depthmap-script:將stable diffusion的圖轉3D的嘗試,教學
  11. 2023- RODIN Diffusion

談套影像製作,一定會有APPLE、NVIDIA的身影。
真正成功的軟體業或硬體業,在電腦應用能非常容易看出來軟體與硬體兩者要密切結合,例如APPLE、NVIDIA都是軟硬兼施,軟體公司的Amazon、Microsoft跟Google後來也都有自己的硬體開發,主要都是大型運算的雲設施,如果你沒有完整的軟硬兼施,很容易被淘汰或壓制,經典失敗者像是AMD顯卡,APPLE早期需要AMD製作晶片,但現在不需要了,一瞬間AMD在藝術創作領域地位落差就出現,不過AMD前身ATI為什麼受到重視呢? 在ATI時代還做過不少NVIDIA跟不上的軟體API,但AMD接收後早期就過度的注重硬體而沒有軟體層面,加上NVIDIA的CUDA開源與便捷性,AMD GPU就漸漸遠不如NVIDIA GPU好用,即便他的GPU在RX580以前,浮點運算的理論性能遠勝NVIDIA同價位,但是他軟體就"極度"的糟糕(我找不到更慘的形容詞),導致很多開發,包含AI都只考慮APPLE、NVIDIA跟其他雲端平台,而不考慮AMD,這也是AMD為什麼後來得回頭重整ROCm。

聲音
生成音樂
  1. 2019-04-25:OpenAI MuseNet AI:主要針對樂器樂進行訓練,音質還不錯,樂器再使用的曲風與邏輯算是可以,不過因為是GPT-2,因此變化有限。
  2. 2020-04-30:OpenAI Jukebox:進行人聲音樂的訓練,聲音表現上沒有前一個好,很像聽電台,但是歌手的歌詞與情感還是聽得出來。不過這也只使用GPT-2,並增加了VAE的方法聲成,因此可以預料GPT-3會有很不錯的表現。
  3. 2023-01-18 Google MusicLM:能用文字生成音樂,聲音上面目前一個月內仍與音樂有段距離,音質跟人聲都還不完善,並未達到欣賞的水平,相對之下是真的有技術落差,算是跟OpenAI訓練的有很大段差距,未來還要看。
模仿人說話唱歌
這邊很難細分由聲音轉變聲音(Audio2Audio),或者文字轉為人聲(TTS),所以只要是清晰的說出文字,我就放在這邊
目前對岸技術已經普遍做到跟真人一模一樣,甚至更穩定更好水平,這算是中國那邊比較突出專長,至於國外,似乎都under table為主,以我認知,大多數遊戲配音已經是由AI完成,因為你不可能為每章節大量錄製聲音,那會過高的成本。
  1. 1999-10-15 Microsoft tts :微軟從windows 2000就有這種文字轉語音的功能,不過隨著技術發展,現在的tts已經說話跟真人十分相似,目前youtube一堆電影解說的聲音,都有用到這項工具。
  2. 2002-06-?? Singing Voice Synthesis(SVS ):人類想要讓電腦唱出歌聲算是滿久以前就在想的事情,最早可以追溯到一篇 Based on the Spectral Modeling Synthesis 的paper,這討論從未停止,近期一些我覺得還可以的paper,例如Singing voice conversion with non-parallel data
  3. 2004-??-?? Yamaha VOCALOID: 所有聲音初期都是嘗試轉變而沒有深度學習,在初音 ミク推出的時候至少是如此,不過在VOCALOID 3 版之後開始加入深度學習,雖然最新版本VOCALOID 6相對於對岸的技術水平已經出現極大落差,但作為先驅之一值得一提。
  4. 2016-09-12 WaveNet:算是現在TTS讓人聲表現更自然的主要技術,由google deepmind發表,你現在聽到的google與siri語音能更加自然,跟這個技術有很大關係,他對後面影響很大。
  5. 2017-02-25 Deep Voice:由百度開發,它使用深度神經網絡來生成逼真的語音。Deep Voice 可以自動調整語調和表達方式,並且可以生成帶有語氣和情感的語音。
  6. 2017-02-?? Char2Wav:是一種由韓國KAIST大學開發的語音合成技術,它使用一種叫做 Char2Wav 的深度學習模型來生成語音。Char2Wav 可以自動調整語調和表達方式,從而生成更加自然的語音。
  7. 2017-10-16 Tacotron 2:是一種由Google開發的語音合成技術,它使用類神經網絡來模擬人類發音和語調的方式,從而生成非常逼真的語音。Tacotron 2 可以自動調整語調和表達方式,並且可以生成帶有語氣和情感的語音。NVIDIA的github
  8. 2018-04-25 Sonantic AI Voice:他曾經為遊戲進行配音的一個AI語音合成公司,就我認知他已經被sportify收購,不過他在以前做得不錯,即便有微弱的電子音,但是在那時間點已經非常了不起,並有不少公司的配音都是靠AI語音完成。
  9. 2018-12-24 星尘 Infinity (基於Synthesizer V AI ):Synthesizer V AI 是香港人在日本註冊的Dreamtonics公司,開始發展是2018,在2020不少合作成果,星尘 Infinity是裡面最大先驅角色形象跟聲音庫,雖然星尘 Infinity一開始試用初音的VOCALOID4,但是後面改用 Synthesizer V ,另外 Synthesizer V 還有其他人聲音庫,都做得不錯。
    技術應該是WaveRNN 和 WaveNet 等模型來實現人聲的合成。據說它的創新之處在於使用了一種名為 "vocoding" 的技術,可以將人聲信號轉換為一系列稱為 "語音參數" 的特徵,然後使用深度學習模型來從這些特徵中生成自然流暢的人聲。
    因為是對岸的,所以要去看 https://space.bilibili.com/15817819
    英文版是基於星尘 Infinity


    中文其他聲音庫也很自然

    當然這工具目前需要人力介入調整
  10. 2018-12-28 艾可Aiko (基於Synthesizer V AI ):他的技術是跟星尘 Infinity 一樣的,最大不同點在於他是音庫就我認知是源自台灣。
    資訊可以參考 https://zh.moegirl.org.cn/zh-tw/%E8%89%BE%E5%8F%AF(SynthV)#
  11. 2020-04-20 ACE Virtual Singer:這個唱歌歌姬是AI合成,進步算是滿快的,已經超越大多數AI人聲技術。
    ACE 介紹可看 https://zh.moegirl.org.cn/zh-tw/ACE%E8%99%9A%E6%8B%9F%E6%AD%8C%E5%A7%AC
    因為ACE工作室是對岸,所以你要看 https://space.bilibili.com/418030
    若以成品,是最近的
    【「雀河」无参演绎《明月天涯》丨颠覆你对“无参”的想象【ACE技术预览】】 https://www.bilibili.com/video/BV1ZS4y137NR/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
  12. 2021-02-07 米哈游 逆熵AI:人的語音模仿。是米哈遊目前內部開發的語音合成工具,透過AI直接聲成人聲說話,自然程度算是十分精艷,這項目在中國算是引起話題,但中國以外卻不知道的狀況,因為真的做得不錯,所以真的值得一提。
    詳細可以看實際演示:【想听我讲野猪公主的故事吗?】 https://www.bilibili.com/video/BV1GV411i7wR/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
  13. 2021-05-06 DiffSinger:看資料這是一個極小團隊做的,不過因為開源很值得注意。他雖然是使用Diffusion Model,但現實上,看文件,他背後還是得GAN作預訓練,之後基於Diffusion Model與SVS方法來產生更自然的聲音,他的人生品質相對Jukebox好,不過樂器上面還是MuseNet較佳。
    音樂:【【DiffSinger】《我多想说再见啊》开源引擎高音质歌声合成效果展示】 https://www.bilibili.com/video/BV1be411N7JA/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
    介面化的工具可以參考:
    https://github.com/xunmengshe/OpenUtau
    目前當然沒有付費的無腦,你需要手動,但是她聲音表現很棒,因為不是商業化,是開源的概念,所以非常值得關注。
  14. 2021-06-11 VITS:這項技術源自於 2019年IEEE一篇論文,不過確切公開是2021,他已經具備非常強而有力的功能,不過這個技術後面衍伸出很多項目,非常值得去研究與理解。
    若有興趣可以去摸這個 vits-models ,可以快速知道現有技術實用性

    【【ChatGPT+VITS】 与老婆互动对话!】 https://www.bilibili.com/video/BV1NG4y1N74z/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
  15. 2021-08-01 VOICEVOX:有完整介面並免費的TTS,他也是開放原始碼的,不過他主要針對是日文,但是做得算是不錯,如果你在網路上看,有不少影片介紹都是使用這個軟體來說話。
  16. 2021-08-28 MockingBird:人的語音模仿。他的優點是開放原始碼,不過對比Diffsinger來說,技術差距就很大
  17. 2021-09-?? emotional-vits:人的語音跟情感模仿。這個項目優點是開放原始碼,雖然聲音有點電子音,但是合成上面比起MockingBird好。
    【【VITS】基于emotion-vits的LL全员语音模型】 https://www.bilibili.com/video/BV1jY411o7vv/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
  18. 2021-09-18 VOICEPEAK:由Synthesizer V AI背後公司Dreamtonics跟AHS製作,讓人聲能表現得更自然,背後的音庫也不少。
  19. 2022-09-24 ACE AI Voice:同樣是對岸ACE工作室,大致上已經跟真人的聲音一樣,並且能和成優秀的情感與語氣。
  20. 2022-??-?? voice.ai :找不到他背後技術與文件,但因為轉變聲音的表現,包含了情感與語調轉換,所以整體來說就變得比較難辨識,在2023又有一波進步,算是非常值得一提。
  21. 2022-12-?? ChatWaifu:整合 語音VITS生成跟ChatGPT等項目,讓Galgame的對話有語音。

    【ChatGPT+Galgame 与老婆自由对话!】 https://www.bilibili.com/video/BV1TD4y1E7e8/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
  22. Realtime Voice Changer


目前說話這部分,外國人有不少影片在Youtube上面有介紹,但是外國人比較不喜觀整理成一篇,而是分好幾部講。
不過中國這邊整理得不錯。

日本也整理得不錯

中文這邊,台灣比較遺憾,至少2022年到2023年初給我感覺真的是浪漫,吳淡如的人工智慧 "畫" 或 "生成" 的議題,就讓一狗票人在上面打轉,算是滿浪費人生的。


聲音中,VITS為技術基礎的還有
這塊發展的還不錯,教學也很多,有空我再來補齊,但要去對岸看,其中MoeGoe日文教學不少,台灣這塊完全沒什麼資料

我目前認為,因為LLM發展較齊全,未來生成文字會是基本,然後再透過文字轉語音方法,TTS,跟人對話。

實作上面,聽寫AI(Speech to Text) + 大語言模型AI(LLM) + 文字生成語音(TTS) + 情緒偵測 + 動畫軟體
已經有看到一些成品做出來,基本上核心還是圍繞在 ChatGPT + VITS 應用
2023/5/1 看到極客灣端出派蒙這道菜,他們的完成度又更高了

程式

在2020,就我接觸面,不少大公司都慢慢開始自動化寫程式,
台灣是個特例,因為工程師太便宜,老闆也偏向保守,不賺錢等等,
台灣的整個資訊產業大概超過一半不知道NCDP跟LCDP是什麼,錯過不少時機。
AI介入程式開發,最早開始做的是NCDP與LCDP,也就是No/Low-Code Development Platform,
No-code、Low-code去年會越來越紅不是空穴來風,他並不是像WIX表面這樣,單純的拉一拉而已,
實際上真正的NCDP或LCDP應做到舉一反三的能力,從develop、merge到deploy等等,如Continuous Integration/Continuous Deployment的全程應由AI協助監控,這樣你的程式才能達到工業化該有的產品水平,工程師也才不會吵架。
若沒有AI介入的NCDP與LCDP,在2020年以後是毫無意義的存在。
不過NCDP與LCDP這兩種平台經歷了五年的發展,可能會慢慢成為過去式,
未來很可能將會是整合NLP為基礎的開發方式,但因為是未定案,可能還要一兩年時間才會明確。

半自動生成
  1. 2016-11-?? DeepCoder:初期歷遍作法
  2. 2018-03-02 Bayou:自動補程式
  3. 2019-??-?? tabnine : base on GPT-2
  4. 2020-??-?? DataRobot:協助企業整合AI開發,以No-code與自動機器學習為主
  5. 2021-06-29 GitHub Copilot : base on GPT-3
  6. 2022-06-?? Amazon CodeWhisperer

完全自動生成
  1. 2021-02-09 Google DeepMinad AlphaCode:Codeforces擊敗超過一半的軟體工程師
  2. 2021-09-03 OpenAI Codex : base on GPT-3
  3. 2022-03-15 OpenAI New GPT-3 Capabilities: Edit & Insert:基於codeX的發表,openAI提供了相對應的API,這項功能源自於當時一個新功能,也就是更改與插入資料的技術,透過這方法除了能修正自然語言,用在Code上面自然也沒有問題。如果想拿它做成你程式檢查的工具,可以玩玩他的Playground,你可以接觸到各種model,這項對話應用在chatGPT前一年就能使用,只是他比較會打忽悠。
  4. 2022-11-30 OpenAI ChatGPT:雖然並不是專業等級,但是他能提供幾乎所能見到的程式語言的使用,如果太過於偏門的小眾libary,例如Python EEL,他就不能精準回答。
  5. 2023-01-03 adrenaline:基於OpenAI CodeX的API整合React開發的小程式,他證明了一般小公司也可以擁有整合AI對Code自動除錯的功能,不再只是大公司才摸得到的東西。當然這一切還是得依靠openAI協助。

搜尋
搜尋引擎算是非常早就推出的一種技術,他其實具備AI特質,不過在2012年以前,AI的運算量與資訊十分不足,一般人不能理解AI,連AI開發者可能都無法自我解釋,因為很多結果的效果都很模糊而不可靠。
目前這邊我先放一些例子
  1. 1998-09-04 Google:google是目前十分強大的搜尋引擎公司,他開源了不少的東西,目前在github能找到。
  2. 2019-??-?? milvus 俗稱神經大人:主要以圖找圖的功能比較有意思。他的邏輯並不是應用標籤而是形象推理。INFO1



演員
vtuber
  1. 2022-12-21 vedal987INFO1,能像Vtuber進行互動,偶而爆走,此外能玩音遊與麥塊,但麥塊應該沒用到VPT訓練

對話
聊天
  1. 2021-08-?? character.ai:模仿動漫人物聊天對話,例如gura
  2. 2022-11-30 OpenAI ChatGPT:可以理解你的想法並回答對應資料,因為在這過去沒有其他對話機器人如此流利,並且擅長各類事情,所以變成重要的焦點
  3. 2022-12-?? YouChat:背後使用OpenAI的API
  4. 2023-02-08 Bing AI:基於GPT-4製作,不過礙於搜索量,有巨大的限制,初期開放使用必須申請,此時曾有不少轟動的事情,後來開放Edge使用者可以用,已經限制了回答上限與資料蒐集能力,而最後開放有微軟帳號可以使用時,很明顯bing的能力已經遠遠不如前。
  5. 2023-02-27 Facebook LLaMA:就目前個人參與開放測試的認知來看,你必須用他65B版本的LLaMA才會感受到他的表現非凡,更厲害的事情,是這款AI僅需在比一般家用強一點的電腦就能運作,並且不需要GPU也能迅速應答,至於30B以下性能就能看到明顯落差,整體來說,他比3月推出的文心一言或者Bard更強一點。所以Facebook這塊深耕的非常厲害,很可能是OpenAI未來主要的對手。
  6. 2023-03-09 OpenAI ChatGPT (GPT-4): 確切時間據說是2022就已經可以使用。GPT-4最大特色在於多模態的整合,實際上GPT-3已經存在這功能,只是要額外轉換訓練,其中影像理解的部分算是GPT-4重要賣點之一,另外就是強化了認知與解答能力。不過推出時,ChatGPT所提供的功能僅於文字對話。
  7. 2023-03-20 文心一言:百度為了應對GPT-3.5而推出的項目,目前依照中國使用者的回報,主要在文言文贏過3.5,但其他方面還有很大差距,百度的大老也直言需要努力。
  8. 2023-03-21 Google Bard:雖然他在2月有資訊,但實際上申請開放等到3月20才有訊息,按照測試者的心得,他跟文心一言表現近似,這顯然google在LLM技術上已經遠遠落後OpenAI,不過google的硬體開發與軟體經驗是比微軟或OpenAI更扎實,這很難說未來變化是怎樣。另外在2023年4月,Google已經將旗下的所有AI部門整併,並要協同作戰。
語音
  1. 2011-10-04 Apple Siri

遊戲
自動遊玩
  1. 1997-??-?? IBM Deep Blue :西洋棋
  2. 2014-??-?? Google DeepMind AlphaGo:圍棋
  3. 2019-09-17 OpenAI Emergent Tool Use From Multi-Agent Autocurricula: 捉迷藏與自發性工具應用
  4. 2019-10-30 Google DeepMind AlphaStar:星海爭霸
  5. 2022-06-23 OpenAI Learning to Play Minecraft with Video PreTraining (VPT):從影片自動學會玩麥塊,並自己尋找玩麥塊的新方法

半自動製作
  1. 2020-12-03 Unreal:Unreal引擎實際上有不少AI應用慢慢介入,主要被認為是第4版以後才慢慢發展起來,諸如自動避開物件、自動協作、自動追查等等,這些AI應用是大坑,不過,因為大多遊戲製作者是美術相關,比較有用的AI多半跟骨架、貼圖與物理特效等等這類視覺上的發展比較突出。目前Unreal 5已經達到另一個境界了。
  2. 2022-11-30 OpenAI ChatGPT:實際上unreal也能使用python,換句話說我能請ChatGPT做許多自動化的程式碼,我有請他寫了一個自動建立角色或物件的程式碼並驗證可行,這意味大有前途。

自動製作
  1. 2022-09-19 實驗品
  2. 2023-02-23 mario-gpt:自動生成關卡,他以Text2Level來形容這AI,主要針對馬力歐,替代早期PCG作法,他在LLM有成功的大進展。這值得關注,因為按照他的內文,他能生成有效關卡、地圖與角色,並且目前僅用GPT2就達成。
  3. 2023-03-?? Spline AI:打prompt就能生出相對應的遊戲玩法、功能與物件,簡單來說,他的遊戲製作學習曲線瞬間變得很單純,當然這也意味著可能遊戲製作極限受限於訓練的範圍,不過目前看來這很有意思與發展性。


翻譯
文件翻譯
  1. Google翻譯
  2. DeepL



一些可以拜讀的文件

創作回應

左轉是地獄
還會繼續更新嗎?
2023-01-15 23:58:40
獵奇一哥
會的
2023-01-16 12:03:11
Sky High
雖然網路相關AI的發展很好,但個人比較希望它能用在現實生活上
2023-01-16 04:31:13
獵奇一哥
大部分AI發展基礎是源自於工業大數據,後續漸漸進入生活,依般人撇開電腦使用,而是單純生活中使用的IoT可能還需要時間,很多是一般人意識不到的功能,例如行車紀錄器與相機對焦等等,較大型的就是特斯拉的自動駕駛,他們都非常需要整合AI的應用。
2023-01-16 12:07:11
左轉是地獄
會分享事件嗎?比如之前有個用AI把畫師直播畫的圖盜來給Ai畫的
2023-01-16 16:28:09
獵奇一哥
主要關注技術進步的事件,至於個人犯罪,一般狀況是寫不完的,
但我會考慮寫個程式來專門收集那種東西,另外做資料分析。
2023-01-16 17:51:23
gbhb
整理的好啊 但我沒想到 gpt+vits 這麼早就有了 婆好像不遠了
2023-03-22 15:56:27
黃大丙
謝謝一哥的整理,學習了
2023-04-26 17:12:20

更多創作