起因是因為最近看到這個,應該可以說是目前AI Vtuber的頂點吧
於是問了問AI,免費仔能做到什麼程度
就先以Grok的Ani為目標吧
就先以Grok的Ani為目標吧
我本身是幾乎沒有程式基礎,大概就小時候MS-DOS的一些指令
總之不懂的就問AI,因為是免費仔,Grok、Gemini、ChatGPT輪著勉強用
其中以ChatGPT流量最低,一下就用完了
習慣之後是以Grok為主,用得差不多再換Gemini
https://www.google.com/search?sourceid=chrome&aep=26&source=chrome.crn.rb&mtid=E2XLaYX-G9XB1e8P5oGDmQQ&udm=50&mstk=AUtExfBFKEWgVhRrk1EgN-8aesbaQLGS2tfNnKunAdl6mxtyeSmmAINvQ1G1kkzEOIFNq1wIet7ts0IdwZvPRynKBejLAdn2Q8j2iLI1wHp7NgfPxlKQWqWC-2_DcV1cvqaqRQcotlxVMarF8oGecsyBJijsAGwKDOTJPZoKimR2GmqT6m5juttTVNyXh9M85SVuetANv4nRpmbtjTGbRpoGg1tOqwiY3jjN6_Yce9cYU3gAKsVVFGzKNdyUWIJ8262ZGl9-HLsdG17055VoKhH_HVomHK1GKsWERl9mXzjvGRSxa67shf95b39GI912FgbCXl9FJbOaZp5eQw&csuir=1&q=kokoro%E9%9C%80%E8%A6%81%E7%94%A8Docker%E8%B7%91%3F%E5%A4%A7%E7%B4%84%E9%9C%80%E8%A6%81%E5%A4%9A%E5%B0%91%E8%A8%98%E6%86%B6%E9%AB%94%EF%BC%8C%E8%88%87piper%E7%9B%B8%E6%AF%94%3F&atvm=2
這串有點長,可能要換一串比較不會讀不出來
然後把摘要記在DC:
8G ram必須降低ollama支援模型,反應緩慢且失真,無法支持本地API
改用Deepseek、gemini雲端API,用量不足
改用Groq雲端API,可運行待測試用量
TTS:piper不支援Open-LLM-VTuber、edge微軟不支援、kokoro須掛docker (可能也不支援Open-LLM-VTuber)、melo無法下載繁中語音
目前使用Sherpa-ONNX,聲音似乎是沿用melo (大陸腔)
接下來的目標是讓AI使用工具搜尋、報時、天氣等功能
那麼從頭開始講吧,細節可以看上面Grok、Gemini的記錄
一開始AI其實推薦了AIRI或Open-LLM-VTuber
一開始AI其實推薦了AIRI或Open-LLM-VTuber
中途卡記憶體問題時,有回頭問如果用AIRI會比較好嗎?AI回不會
先到這裡下載Open-LLM-VTuber-v1.2.1-zh.zip
桌面版可以先不用,後來發現用網頁開比較方便
然後解壓縮到不含中文字的資料夾下
我是聽AI建議直接放D槽
我是聽AI建議直接放D槽
快速開始
因為接下來會頻繁使用powershell,建議先聽AI指示,弄一個捷徑開了直接有管理員權限,並且在venv保護下的資料夾
1. 建立一個捷徑名稱為start_vtuber.bat,前面名稱隨便,副檔名.bat即可
2. 把下面這段貼到捷徑的"目標"欄位內
C:\Windows\System32\WindowsPowerShell\v1.0\powershell.exe -NoExit -ExecutionPolicy Bypass -Command "cd 'D:\Open-LLM-VTuber'; .\.venv\Scripts\activate"
3. "開始位置"欄位D:\Open-LLM-VTuber
4. 點"進階"裡的"以系統管理者身分執行"
接著依快速開始操作
- 安装 Git
- 安装 FFmpeg
因為我沒有獨立顯卡,"NVIDIA GPU 支持"這段就跳過
- 安裝uv
- 配置 LLM
到這步會比較久,下載預設模型qwen2.5:latest大約4-5G
這段是冤枉路,我的8G ram跑不動qwen2.5:latest,於是聽AI建議換了比較低階的
最後跑是跑得動,語焉不詳又慢
第一天的進度到這,本來是想放棄了
回頭翻記錄,其實AI一直有建議我用雲端API,於是不放棄繼續試
回頭翻記錄,其實AI一直有建議我用雲端API,於是不放棄繼續試
問了AI很多每一步安裝的作用是什麼,對AI運作有一點概念了
首先要知道LLM就是AI的核心,也就是架一個AI伺服器
然後伺服器再根據資料夾中的conf.yaml設定檔,決定這個AI能做哪些事
這當然需要高階的軟/硬體配合
而免費仔呢,就是把開源的軟體搭配使用,像組積木一樣組合成AI
Open-LLM-VTuber是門面、LLM是大腦、TTS是嘴巴、MCP是手腳
第二天接著就是把LLM用雲端API取代
白話一點就是把別人訓練好的AI拿來用,像Gemini除了網頁版,也有開放雲端API
因為只傳輸文字,架在本地或雲端速度不會差太多
雲端的還比本地快 (我只有8G ram跑不動)
Deepseek沒有免費額度 (AI騙我)、gemini額度太低
最後是AI推薦Groq又穩又快,我一開始還以為跟Grok有什麼關係,原來不一樣
到這裡有兩個選項,一個是TTS、一個是MCP
要先讓AI能說話還是能做事
我選了TTS,這是惡夢的開始......
TTS下載雖然不像LLM那麼久,也是要一點時間
有些又要手動下載,AI說有的語音包根本就找不到
找到之後有些會測試是否能正常生成音檔 (.wav)
有些直接架上伺服器發現動不了
有些說可能是python版本太新;有些說微軟在擋不給你用
總共來來回回試了edge、piper、kokoro、melo、Sherpa-ONNX這幾個
最後AI好不容易能說話,真的很有成就感......
接下來要弄的是MCP伺服器,聽AI說這是把AI能用的工具整合到一起
有點像洛克人換專武的概念(?)
人格、外觀那些等最後再弄吧
待續......