生成式AI大爆發
2023,這一年,生成式AI迎來前所未有的爆發式成長。
就在去年11月ChatGPT橫空出世,開啟了AI新紀元,而OpenAI也在本月召首屆開發者大會。
有鑑於AI領域真的進步太快,內容太多太繁雜,故這篇文章也僅能對這一年最熱門的生成式AI領域做個簡略的介紹及展望,首先就依生成哪種類型的內容來分類,並簡單介紹一下吧!
生成文字:能夠理解、分析自然語言,從而生成對話、文章等內容,這類別最廣為人知的就是OpenAI所開發的ChatGPT,也是引爆本次AI熱潮的先鋒者,得益於大型語言模型的進步,讓AI的自然語言處理能理能力有了飛躍性的質變,微軟身為OpenAI的最大投資者也將生成式AI技術應用於Copilot等產品中。另外還有另一家AI新創Anthropic開發的Cluade同樣是文字內容生成AI,也得到了來自Google、亞馬遜等巨頭的投資,而Google亦有推出屬於自己的AI應用 Bard。另外還有像是幫你預設好各種角色的聊天機器人Character.AI,感覺也滿有趣的。
生成圖像:可以依據輸入的自然語言生成圖像,例如像是Midjourney, Stable Diffusion, Dall-E,Leonard.Ai, Adobe Firefly, TensorArt等等AI繪圖應用。
生成語音、音樂:可以依據輸入的自然語言生成音樂、生成語音。生成音樂的例如像是MusicLM, MusicGen, Soundraw等等應用。生成語音的像是Eleven Labs , 剪映等等。
生成影像:可以依據輸入的自然語言生成影像或將圖像轉變成影像,例如像是Runway Gen2, moonvalley等等。還有生成虛擬化身的 AI,像是Heygen。
生成遊戲:生成遊戲中的場景或角色等,像是 NVIDIA ACE for Gaming。
多模態模型:可以同時處理及理解多種不同模態(modality)數據的模型,包括文字、圖像、語音、動作、影像等。這類模型可以同時處理各不同類型的數據輸入,從而更全面地理解和生成內容。例如:Meta的ImageBind、Google的Gemini及Palm-E等。透過不同感官的輸入,AI能夠更好地理解和模擬人類的溝通模式,從而實現更自然、有效的人機交互。
從數位到實體
得益於AI自然語言處理能力的大幅進步,使得人類能夠以自然語言跟AI交流,僅僅輸入簡單的文字就可以生成一篇文章、一幅畫、一部影片等,能以人類望塵莫及的速度生產內容,但似乎並非每種自然語言都能有效精確地與AI溝通,在AI的世界,似乎讓英語的優勢更加增強了(註1)。英語的優先性再加上AI的大量快速生產能力,可能會讓AI對人類的文化產生塑造或影響,也讓本就內容爆炸的時代,更加爆炸了。而AI也產生虛假內容的風險。
具有創造虛擬內容能力的AI,在未來也能夠進入實體世界,不過當然還需要一段時間。隨著跨模態、多模態AI的出現,AI應該也能逐漸理解現實環境,有了視覺、聽覺、觸覺等感官,再加上能夠嵌入機器人的多模態實體模型Palm-E,在未來,無人機、掃地機器人、送餐機器人、自動駕駛、智能家居、3D列印、人形機器人等等或許都會被AI化。
明年開始,AI手機、AI PC將會陸續出現,蘋果也可能在iOS18中加入AI功能。隨著Google、Meta、微軟、OpenAI、輝達等等越來越多巨頭的投入參與,可以期待接下來幾年AI還會不斷進步。
AI未來發展前景可期,就跟魔法一樣無可限量。在未來操縱與使用AI的人,或許會讓現在的我們看來與使用魔法無異吧!哈哈~!
題外話,最近鬧得沸沸揚揚、峰迴路轉的Sam Altman離開Open AI而後又回歸的事件,傳聞起因是因為Sam Altman向Open AI董事會隱瞞了人工智能突破性技術Q*(Q-Star)的存在,不過OpenAI對此事拒絕評論(註2)。
參考文章