主題

AI記事-發展事件的紀錄

獵奇一哥 | 2023-01-03 16:26:28 | 巴幣 1608 | 人氣 1757

大多你想得到的東西，多少都有AI介入，我把我覺得重要的(主要指科技進步)記下來，不定期更新

其他人整理

https://twitter.com/ethersiim/status/1586824269543112704?s=20&t=4muuvOyu6BhsOzqAgcoVMQ

https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/?fbclid=IwAR3YP4OjA6iO9eiRzWeB3qyQr7_pIbYkoknDU_dpF1ZtbQ1fezWVWnv1Uno

https://www.facebook.com/photo?fbid=10222898594468572&set=a.2838359673312

繪圖

平面藝術

2016-??-?? Pixiv Petalica Paint：針對動漫自動著色的先驅，算很早推出AI上色的軟體，實際上他並不能完全自動上色，還是需要顏色提示，才能正確的為區塊上色，不過這類技術的AI訓練投資應該不大，屬於早期生成對抗的GAN應用，達到風格移轉的效果但並沒有明確著色判斷能力。
2017-06-11 style2paints：相對於Petalica Paint之後推出，理論上有相對Petalica Paint更加優化的上色能力，不過同樣的擁有GAN缺陷，你必須圖形契合於他的訓練才能產生效果。
2019-??-?? NVIDIA GauGAN：base on GAN (pix2pixHD)，透過文字、顏色與形狀，生成對應的風景圖片，不過採用方法為GAN，也因此他在某些複雜項目不能做很好的整合，訓練上也就沒有。
2021-01-05 OpenAI DALL-E：base on GPT-2。文/圖生圖。
2021-??-?? NVIDIA Canvas：base on GAN (pix2pixHD=>GauGAN=>GauGAN2)。文/圖生圖。
2021-10-29 disco-diffusion：base on diffusion model。文/圖生圖。
2022-04-?? OpenAI DALL-E2：base on GPT-3。文/圖生圖。
2022-06-22 midjourney：文/圖生圖。
2022-06-22 Codebook：base on diffusion model。圖形修復。技術稱之為Codebook Lookup Transformer，不過從原始碼與文件看起來，主要是基於diffusion model的增強，效果表現不錯。INFO1 INFO2
2022-08-22 stable-diffusion：base on diffusion model。生成圖片。目前最知名的工具之一，可看　繪圖AI - Stable Diffusion 相關教學與參考資源

建模

2018-??-?? Meshroom：圖轉3D。其實他並不是起頭，但是它應用算很廣泛，主要是透過大量環顧一個物品或地面的圖片推理出3D物件。
2020-06-15 Facebook Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization：這個技術將圖片轉成3D模型。
2021-06-?? NVIDIA Omniverse：以元宇宙生成為目標的整合工具。如果作元宇宙，應該會知道製作時，要包含應用.usd檔的應用考量，也就是通用場景描述檔，他這個檔案被視為跟網路瀏覽的HTML一樣具有代表性，除了開源，他也"通用"，支援的建模軟體與遊戲也非常多，這裡面先驅並不是NVIDIA，也看得出各家也擁有自己的AI應用。但是真的願意喊出具備整合AI，就是Nvidia，例如Omniverse的Audio2Face。這很弔詭就是，現實社會，明知道你不是第一人，但願意最大聲說自己要做的人才會被記住，NVIDIA在廣告上也非常擅長這麼做，當然，它的軟體實力也足夠應付。
2022-07-?? NVIDIA NeRF：圖轉3D。算是滿重要的引用項目，技術是NeRF。
2022-07-?? differentiable-sdf-rendering：圖轉3D。用diffusion的技術產生圖形後再用NeRF等技術生成模型，降低貼圖不佳等問題。
2022-09-29 dreamfusion3d：圖轉3D。主要展示演算法，他使用了自己的Signed Distance Function
2022-11-30 OpenAI ChatGPT：可參考youtuber，目前有不少人使用blender搭配python語法進行3D應用。
2022-10-23 Luma AI：使用Nvidia NeRF技術，目前可以在iOS上面運作，不過實際上我猜是送回雲端算圖，iOS商店，YOUTUBE
2022-12-27 OpenAI Point·E：文轉圖後，再從圖轉3D
2022-12-?? stable-diffusion-webui-depthmap-script：將stable diffusion的圖轉3D的嘗試，教學
2023- RODIN Diffusion

談套影像製作，一定會有APPLE、NVIDIA的身影。
真正成功的軟體業或硬體業，在電腦應用能非常容易看出來軟體與硬體兩者要密切結合，例如APPLE、NVIDIA都是軟硬兼施，軟體公司的Amazon、Microsoft跟Google後來也都有自己的硬體開發，主要都是大型運算的雲設施，如果你沒有完整的軟硬兼施，很容易被淘汰或壓制，經典失敗者像是AMD顯卡，APPLE早期需要AMD製作晶片，但現在不需要了，一瞬間AMD在藝術創作領域地位落差就出現，不過AMD前身ATI為什麼受到重視呢? 在ATI時代還做過不少NVIDIA跟不上的軟體API，但AMD接收後早期就過度的注重硬體而沒有軟體層面，加上NVIDIA的CUDA開源與便捷性，AMD GPU就漸漸遠不如NVIDIA GPU好用，即便他的GPU在RX580以前，浮點運算的理論性能遠勝NVIDIA同價位，但是他軟體就"極度"的糟糕(我找不到更慘的形容詞)，導致很多開發，包含AI都只考慮APPLE、NVIDIA跟其他雲端平台，而不考慮AMD，這也是AMD為什麼後來得回頭重整ROCm。

聲音

生成音樂

2019-04-25：OpenAI MuseNet AI：主要針對樂器樂進行訓練，音質還不錯，樂器再使用的曲風與邏輯算是可以，不過因為是GPT-2，因此變化有限。
2020-04-30：OpenAI Jukebox：進行人聲音樂的訓練，聲音表現上沒有前一個好，很像聽電台，但是歌手的歌詞與情感還是聽得出來。不過這也只使用GPT-2，並增加了VAE的方法聲成，因此可以預料GPT-3會有很不錯的表現。
2023-01-18 Google MusicLM：能用文字生成音樂，聲音上面目前一個月內仍與音樂有段距離，音質跟人聲都還不完善，並未達到欣賞的水平，相對之下是真的有技術落差，算是跟OpenAI訓練的有很大段差距，未來還要看。

模仿人說話唱歌

這邊很難細分由聲音轉變聲音(Audio2Audio)，或者文字轉為人聲(TTS)，所以只要是清晰的說出文字，我就放在這邊

目前對岸技術已經普遍做到跟真人一模一樣，甚至更穩定更好水平，這算是中國那邊比較突出專長，至於國外，似乎都under table為主，以我認知，大多數遊戲配音已經是由AI完成，因為你不可能為每章節大量錄製聲音，那會過高的成本。

1999-10-15 Microsoft tts ：微軟從windows 2000就有這種文字轉語音的功能，不過隨著技術發展，現在的tts已經說話跟真人十分相似，目前youtube一堆電影解說的聲音，都有用到這項工具。
2002-06-?? Singing Voice Synthesis（SVS ）：人類想要讓電腦唱出歌聲算是滿久以前就在想的事情，最早可以追溯到一篇 Based on the Spectral Modeling Synthesis 的paper，這討論從未停止，近期一些我覺得還可以的paper，例如Singing voice conversion with non-parallel data
2004-??-?? Yamaha VOCALOID：所有聲音初期都是嘗試轉變而沒有深度學習，在初音ミク推出的時候至少是如此，不過在VOCALOID 3 版之後開始加入深度學習，雖然最新版本VOCALOID 6相對於對岸的技術水平已經出現極大落差，但作為先驅之一值得一提。
2016-09-12 WaveNet：算是現在TTS讓人聲表現更自然的主要技術，由google deepmind發表，你現在聽到的google與siri語音能更加自然，跟這個技術有很大關係，他對後面影響很大。
2017-02-25 Deep Voice：由百度開發，它使用深度神經網絡來生成逼真的語音。Deep Voice 可以自動調整語調和表達方式，並且可以生成帶有語氣和情感的語音。
2017-02-?? Char2Wav：是一種由韓國KAIST大學開發的語音合成技術，它使用一種叫做 Char2Wav 的深度學習模型來生成語音。Char2Wav 可以自動調整語調和表達方式，從而生成更加自然的語音。
2017-10-16 Tacotron 2：是一種由Google開發的語音合成技術，它使用類神經網絡來模擬人類發音和語調的方式，從而生成非常逼真的語音。Tacotron 2 可以自動調整語調和表達方式，並且可以生成帶有語氣和情感的語音。NVIDIA的github
2018-04-25 Sonantic AI Voice：他曾經為遊戲進行配音的一個AI語音合成公司，就我認知他已經被sportify收購，不過他在以前做得不錯，即便有微弱的電子音，但是在那時間點已經非常了不起，並有不少公司的配音都是靠AI語音完成。
2018-12-24 星尘 Infinity (基於Synthesizer V AI )：Synthesizer V AI 是香港人在日本註冊的Dreamtonics公司，開始發展是2018，在2020不少合作成果，星尘 Infinity是裡面最大先驅角色形象跟聲音庫，雖然星尘 Infinity一開始試用初音的VOCALOID4，但是後面改用 Synthesizer V ，另外 Synthesizer V 還有其他人聲音庫，都做得不錯。
技術應該是WaveRNN 和 WaveNet 等模型來實現人聲的合成。據說它的創新之處在於使用了一種名為 "vocoding" 的技術，可以將人聲信號轉換為一系列稱為 "語音參數" 的特徵，然後使用深度學習模型來從這些特徵中生成自然流暢的人聲。
因為是對岸的，所以要去看 https://space.bilibili.com/15817819
英文版是基於星尘 Infinity

中文其他聲音庫也很自然

當然這工具目前需要人力介入調整
2018-12-28 艾可Aiko (基於Synthesizer V AI )：他的技術是跟星尘 Infinity 一樣的，最大不同點在於他是音庫就我認知是源自台灣。
資訊可以參考 https://zh.moegirl.org.cn/zh-tw/%E8%89%BE%E5%8F%AF(SynthV)#
2020-04-20 ACE Virtual Singer：這個唱歌歌姬是AI合成，進步算是滿快的，已經超越大多數AI人聲技術。
ACE 介紹可看 https://zh.moegirl.org.cn/zh-tw/ACE%E8%99%9A%E6%8B%9F%E6%AD%8C%E5%A7%AC
因為ACE工作室是對岸，所以你要看 https://space.bilibili.com/418030
若以成品，是最近的
【「雀河」无参演绎《明月天涯》丨颠覆你对“无参”的想象【ACE技术预览】】 https://www.bilibili.com/video/BV1ZS4y137NR/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
2021-02-07 米哈游逆熵AI：人的語音模仿。是米哈遊目前內部開發的語音合成工具，透過AI直接聲成人聲說話，自然程度算是十分精艷，這項目在中國算是引起話題，但中國以外卻不知道的狀況，因為真的做得不錯，所以真的值得一提。
詳細可以看實際演示:【想听我讲野猪公主的故事吗？】 https://www.bilibili.com/video/BV1GV411i7wR/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
2021-05-06 DiffSinger：看資料這是一個極小團隊做的，不過因為開源很值得注意。他雖然是使用Diffusion Model，但現實上，看文件，他背後還是得GAN作預訓練，之後基於Diffusion Model與SVS方法來產生更自然的聲音，他的人生品質相對Jukebox好，不過樂器上面還是MuseNet較佳。
音樂：【【DiffSinger】《我多想说再见啊》开源引擎高音质歌声合成效果展示】 https://www.bilibili.com/video/BV1be411N7JA/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
介面化的工具可以參考：
https://github.com/xunmengshe/OpenUtau
目前當然沒有付費的無腦，你需要手動，但是她聲音表現很棒，因為不是商業化，是開源的概念，所以非常值得關注。
2021-06-11 VITS：這項技術源自於 2019年IEEE一篇論文，不過確切公開是2021，他已經具備非常強而有力的功能，不過這個技術後面衍伸出很多項目，非常值得去研究與理解。
若有興趣可以去摸這個 vits-models ，可以快速知道現有技術實用性

【【ChatGPT+VITS】与老婆互动对话！】 https://www.bilibili.com/video/BV1NG4y1N74z/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
2021-08-01 VOICEVOX：有完整介面並免費的TTS，他也是開放原始碼的，不過他主要針對是日文，但是做得算是不錯，如果你在網路上看，有不少影片介紹都是使用這個軟體來說話。
2021-08-28 MockingBird：人的語音模仿。他的優點是開放原始碼，不過對比Diffsinger來說，技術差距就很大
2021-09-?? emotional-vits：人的語音跟情感模仿。這個項目優點是開放原始碼，雖然聲音有點電子音，但是合成上面比起MockingBird好。
【【VITS】基于emotion-vits的LL全员语音模型】 https://www.bilibili.com/video/BV1jY411o7vv/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
2021-09-18 VOICEPEAK：由Synthesizer V AI背後公司Dreamtonics跟AHS製作，讓人聲能表現得更自然，背後的音庫也不少。
2022-09-24 ACE AI Voice：同樣是對岸ACE工作室，大致上已經跟真人的聲音一樣，並且能和成優秀的情感與語氣。
2022-??-?? voice.ai ：找不到他背後技術與文件，但因為轉變聲音的表現，包含了情感與語調轉換，所以整體來說就變得比較難辨識，在2023又有一波進步，算是非常值得一提。
2022-12-?? ChatWaifu：整合語音VITS生成跟ChatGPT等項目，讓Galgame的對話有語音。

【ChatGPT+Galgame 与老婆自由对话！】 https://www.bilibili.com/video/BV1TD4y1E7e8/?share_source=copy_web&vd_source=7d375288444bf11f7095cfe59801b3ff
Realtime Voice Changer ：

目前說話這部分，外國人有不少影片在Youtube上面有介紹，但是外國人比較不喜觀整理成一篇，而是分好幾部講。

不過中國這邊整理得不錯。

日本也整理得不錯

中文這邊，台灣比較遺憾，至少2022年到2023年初給我感覺真的是浪漫，吳淡如的人工智慧 "畫" 或 "生成" 的議題，就讓一狗票人在上面打轉，算是滿浪費人生的。

聲音中，VITS為技術基礎的還有

so-vits-svc跟MoeGoe

這塊發展的還不錯，教學也很多，有空我再來補齊，但要去對岸看，其中MoeGoe日文教學不少，台灣這塊完全沒什麼資料

我目前認為，因為LLM發展較齊全，未來生成文字會是基本，然後再透過文字轉語音方法，TTS，跟人對話。

實作上面，聽寫AI(Speech to Text) + 大語言模型AI(LLM) + 文字生成語音(TTS) + 情緒偵測 + 動畫軟體

已經有看到一些成品做出來，基本上核心還是圍繞在 ChatGPT + VITS 應用

2023/5/1 看到極客灣端出派蒙這道菜，他們的完成度又更高了

程式

在2020，就我接觸面，不少大公司都慢慢開始自動化寫程式，

台灣是個特例，因為工程師太便宜，老闆也偏向保守，不賺錢等等，

台灣的整個資訊產業大概超過一半不知道NCDP跟LCDP是什麼，錯過不少時機。

AI介入程式開發，最早開始做的是NCDP與LCDP，也就是No/Low-Code Development Platform，

No-code、Low-code去年會越來越紅不是空穴來風，他並不是像WIX表面這樣，單純的拉一拉而已，

實際上真正的NCDP或LCDP應做到舉一反三的能力，從develop、merge到deploy等等，如Continuous Integration/Continuous Deployment的全程應由AI協助監控，這樣你的程式才能達到工業化該有的產品水平，工程師也才不會吵架。

若沒有AI介入的NCDP與LCDP，在2020年以後是毫無意義的存在。

不過NCDP與LCDP這兩種平台經歷了五年的發展，可能會慢慢成為過去式，

未來很可能將會是整合NLP為基礎的開發方式，但因為是未定案，可能還要一兩年時間才會明確。

半自動生成

2016-11-?? DeepCoder：初期歷遍作法
2018-03-02 Bayou：自動補程式
2019-??-?? tabnine : base on GPT-2
2020-??-?? DataRobot：協助企業整合AI開發，以No-code與自動機器學習為主
2021-06-29 GitHub Copilot : base on GPT-3
2022-06-?? Amazon CodeWhisperer

完全自動生成

2021-02-09 Google DeepMinad AlphaCode：Codeforces擊敗超過一半的軟體工程師
2021-09-03 OpenAI Codex : base on GPT-3
2022-03-15 OpenAI New GPT-3 Capabilities: Edit & Insert：基於codeX的發表，openAI提供了相對應的API，這項功能源自於當時一個新功能，也就是更改與插入資料的技術，透過這方法除了能修正自然語言，用在Code上面自然也沒有問題。如果想拿它做成你程式檢查的工具，可以玩玩他的Playground，你可以接觸到各種model，這項對話應用在chatGPT前一年就能使用，只是他比較會打忽悠。
2022-11-30 OpenAI ChatGPT：雖然並不是專業等級，但是他能提供幾乎所能見到的程式語言的使用，如果太過於偏門的小眾libary，例如Python EEL，他就不能精準回答。
2023-01-03 adrenaline：基於OpenAI CodeX的API整合React開發的小程式，他證明了一般小公司也可以擁有整合AI對Code自動除錯的功能，不再只是大公司才摸得到的東西。當然這一切還是得依靠openAI協助。

搜尋

搜尋引擎算是非常早就推出的一種技術，他其實具備AI特質，不過在2012年以前，AI的運算量與資訊十分不足，一般人不能理解AI，連AI開發者可能都無法自我解釋，因為很多結果的效果都很模糊而不可靠。
目前這邊我先放一些例子

1998-09-04 Google：google是目前十分強大的搜尋引擎公司，他開源了不少的東西，目前在github能找到。
2019-??-?? milvus 俗稱神經大人：主要以圖找圖的功能比較有意思。他的邏輯並不是應用標籤而是形象推理。INFO1

演員

vtuber

2022-12-21 vedal987：INFO1，能像Vtuber進行互動，偶而爆走，此外能玩音遊與麥塊，但麥塊應該沒用到VPT訓練

對話

聊天

2021-08-?? character.ai：模仿動漫人物聊天對話，例如gura
2022-11-30 OpenAI ChatGPT：可以理解你的想法並回答對應資料，因為在這過去沒有其他對話機器人如此流利，並且擅長各類事情，所以變成重要的焦點
2022-12-?? YouChat：背後使用OpenAI的API
2023-02-08 Bing AI：基於GPT-4製作，不過礙於搜索量，有巨大的限制，初期開放使用必須申請，此時曾有不少轟動的事情，後來開放Edge使用者可以用，已經限制了回答上限與資料蒐集能力，而最後開放有微軟帳號可以使用時，很明顯bing的能力已經遠遠不如前。
2023-02-27 Facebook LLaMA：就目前個人參與開放測試的認知來看，你必須用他65B版本的LLaMA才會感受到他的表現非凡，更厲害的事情，是這款AI僅需在比一般家用強一點的電腦就能運作，並且不需要GPU也能迅速應答，至於30B以下性能就能看到明顯落差，整體來說，他比3月推出的文心一言或者Bard更強一點。所以Facebook這塊深耕的非常厲害，很可能是OpenAI未來主要的對手。
2023-03-09 OpenAI ChatGPT (GPT-4)：確切時間據說是2022就已經可以使用。GPT-4最大特色在於多模態的整合，實際上GPT-3已經存在這功能，只是要額外轉換訓練，其中影像理解的部分算是GPT-4重要賣點之一，另外就是強化了認知與解答能力。不過推出時，ChatGPT所提供的功能僅於文字對話。
2023-03-20 文心一言：百度為了應對GPT-3.5而推出的項目，目前依照中國使用者的回報，主要在文言文贏過3.5，但其他方面還有很大差距，百度的大老也直言需要努力。
2023-03-21 Google Bard：雖然他在２月有資訊，但實際上申請開放等到3月20才有訊息，按照測試者的心得，他跟文心一言表現近似，這顯然google在LLM技術上已經遠遠落後OpenAI，不過google的硬體開發與軟體經驗是比微軟或OpenAI更扎實，這很難說未來變化是怎樣。另外在2023年4月，Google已經將旗下的所有AI部門整併，並要協同作戰。

語音

2011-10-04 Apple Siri

遊戲

自動遊玩

1997-??-?? IBM Deep Blue ：西洋棋
2014-??-?? Google DeepMind AlphaGo：圍棋
2019-09-17 OpenAI Emergent Tool Use From Multi-Agent Autocurricula：捉迷藏與自發性工具應用
2019-10-30 Google DeepMind AlphaStar：星海爭霸
2022-06-23 OpenAI Learning to Play Minecraft with Video PreTraining (VPT)：從影片自動學會玩麥塊，並自己尋找玩麥塊的新方法

半自動製作

2020-12-03 Unreal：Unreal引擎實際上有不少AI應用慢慢介入，主要被認為是第4版以後才慢慢發展起來，諸如自動避開物件、自動協作、自動追查等等，這些AI應用是大坑，不過，因為大多遊戲製作者是美術相關，比較有用的AI多半跟骨架、貼圖與物理特效等等這類視覺上的發展比較突出。目前Unreal 5已經達到另一個境界了。
2022-11-30 OpenAI ChatGPT：實際上unreal也能使用python，換句話說我能請ChatGPT做許多自動化的程式碼，我有請他寫了一個自動建立角色或物件的程式碼並驗證可行，這意味大有前途。

自動製作

2022-09-19 實驗品
2023-02-23 mario-gpt：自動生成關卡，他以Text2Level來形容這AI，主要針對馬力歐，替代早期PCG作法，他在LLM有成功的大進展。這值得關注，因為按照他的內文，他能生成有效關卡、地圖與角色，並且目前僅用GPT2就達成。
2023-03-?? Spline AI：打prompt就能生出相對應的遊戲玩法、功能與物件，簡單來說，他的遊戲製作學習曲線瞬間變得很單純，當然這也意味著可能遊戲製作極限受限於訓練的範圍，不過目前看來這很有意思與發展性。

翻譯

文件翻譯