主題

2023 「生成式AI大爆發」與展望

晨醒者 | 2023-11-24 07:43:21 | 巴幣 100 | 人氣 189

生成式AI大爆發

2023，這一年，生成式AI迎來前所未有的爆發式成長。

就在去年11月ChatGPT橫空出世，開啟了AI新紀元，而OpenAI也在本月召首屆開發者大會。

有鑑於AI領域真的進步太快，內容太多太繁雜，故這篇文章也僅能對這一年最熱門的生成式AI領域做個簡略的介紹及展望，首先就依生成哪種類型的內容來分類，並簡單介紹一下吧!

生成文字:能夠理解、分析自然語言，從而生成對話、文章等內容，這類別最廣為人知的就是OpenAI所開發的ChatGPT，也是引爆本次AI熱潮的先鋒者，得益於大型語言模型的進步，讓AI的自然語言處理能理能力有了飛躍性的質變，微軟身為OpenAI的最大投資者也將生成式AI技術應用於Copilot等產品中。另外還有另一家AI新創Anthropic開發的Cluade同樣是文字內容生成AI，也得到了來自Google、亞馬遜等巨頭的投資，而Google亦有推出屬於自己的AI應用 Bard。另外還有像是幫你預設好各種角色的聊天機器人Character.AI，感覺也滿有趣的。
生成圖像:可以依據輸入的自然語言生成圖像，例如像是Midjourney, Stable Diffusion, Dall-E,Leonard.Ai, Adobe Firefly, TensorArt等等AI繪圖應用。
生成語音、音樂:可以依據輸入的自然語言生成音樂、生成語音。生成音樂的例如像是MusicLM, MusicGen, Soundraw等等應用。生成語音的像是Eleven Labs , 剪映等等。
生成影像:可以依據輸入的自然語言生成影像或將圖像轉變成影像，例如像是Runway Gen2, moonvalley等等。還有生成虛擬化身的 AI，像是Heygen。
生成遊戲:生成遊戲中的場景或角色等，像是 NVIDIA ACE for Gaming。
多模態模型:可以同時處理及理解多種不同模態(modality)數據的模型，包括文字、圖像、語音、動作、影像等。這類模型可以同時處理各不同類型的數據輸入，從而更全面地理解和生成內容。例如:Meta的ImageBind、Google的Gemini及Palm-E等。透過不同感官的輸入，AI能夠更好地理解和模擬人類的溝通模式，從而實現更自然、有效的人機交互。

從數位到實體

得益於AI自然語言處理能力的大幅進步，使得人類能夠以自然語言跟AI交流，僅僅輸入簡單的文字就可以生成一篇文章、一幅畫、一部影片等，能以人類望塵莫及的速度生產內容，但似乎並非每種自然語言都能有效精確地與AI溝通，在AI的世界，似乎讓英語的優勢更加增強了(註1)。英語的優先性再加上AI的大量快速生產能力，可能會讓AI對人類的文化產生塑造或影響，也讓本就內容爆炸的時代，更加爆炸了。而AI也產生虛假內容的風險。

具有創造虛擬內容能力的AI，在未來也能夠進入實體世界，不過當然還需要一段時間。隨著跨模態、多模態AI的出現，AI應該也能逐漸理解現實環境，有了視覺、聽覺、觸覺等感官，再加上能夠嵌入機器人的多模態實體模型Palm-E，在未來，無人機、掃地機器人、送餐機器人、自動駕駛、智能家居、3D列印、人形機器人等等或許都會被AI化。

明年開始，AI手機、AI PC將會陸續出現，蘋果也可能在iOS18中加入AI功能。隨著Google、Meta、微軟、OpenAI、輝達等等越來越多巨頭的投入參與，可以期待接下來幾年AI還會不斷進步。

AI未來發展前景可期，就跟魔法一樣無可限量。在未來操縱與使用AI的人，或許會讓現在的我們看來與使用魔法無異吧!哈哈~!

題外話，最近鬧得沸沸揚揚、峰迴路轉的Sam Altman離開Open AI而後又回歸的事件，傳聞起因是因為Sam Altman向Open AI董事會隱瞞了人工智能突破性技術Q*(Q-Star)的存在，不過OpenAI對此事拒絕評論(註2)。

參考文章

註1 BBC中文:https://www.bbc.com/zhongwen/trad/science-67270190

註2 聯合新聞網:https://udn.com/news/story/6811/7592957