前往
大廳
主題

Gemini: 由Google所推出的多模態AI大模型

這可不是鬧著玩的 | 2023-12-10 13:43:18 | 巴幣 2 | 人氣 404


官方開源預計要等到12/13號(三)
(已開放使用!!)


官方API、使用平台:
  • 價格:
  • Gemini Pro、Pro Vision API每分鐘限制60次的呼叫。
  • Google AI Studio (免費) vs Google Cloud上的Vertex AI (須建立帳單):



📌 介紹:
  • 由Google於12/06號推出的最強多模態模型,可處理文字、圖像、視訊、音訊和程式碼等內容進行理解並推理。
  • Gemini是第一個在MMLU(大規模多任務語言理解)方面超越人類專家的模型。

🌟 Gemini的三種規模:

1️⃣. Gemini Ultra(最大): 適用高度複雜任務,在2024年初會推出給企業和開發者使用。

2️⃣. Gemini Pro(中等): 最靈活通用的模型,12/13會讓開發者和企業客戶在Vertex AI和AI Studio等平台中使用。

3️⃣. Gemini Nano(最小): 最有效率且可以部署在手機等終端裝置的模型,12/6起提供給安卓開發者申請使用,可透過Android AICore建立Gemini為基礎的裝置用應用程式。

  • 分為2個版本,分別為 Nano-1(1.8B,18億參數,針對低記憶體裝置)、Nano-2(3.25B,32.5億參數,針對高記憶體裝置)。
  • 採用4-bit量化技術進行部署,改善效能。
  • 已向 Google 自家的旗艦 Pixel 8 Pro 開放,以進一步釋放其所用 Tensor G3 晶片的 AI 潛力。
  • Gemini Nano在Android行動裝置上

📊 各基準測試:
文字、數學、推理、程式碼等方面...

圖像、影像、音頻等方面...

與其他模型的比較

Gemini的三種規模(Nano、Pro、Ultra)互相比較

🌟 已部署至Google Bard中(12/07號,目前僅限英語版)

📺 官方展示Gemini強大的多模態功能:
  • Hands-on with Gemini: Interacting with multimodal AI (Youtube)
    • 後續爭議:
      • Google坦承影片非真實呈現,實際操作時間比影片來得更長,並且操作的過程也不是即時或語音進行,而是靠靜態圖像與提示操作。
      • DeepMind首席副總裁Oriol Vinyals針對影片造假嫌疑的後續回應,稱影片中的所有使用者提示和輸出都是真實的,為簡潔起見而進行了縮短,該影片展示了使用 Gemini 構建的多模態用戶體驗是什麼樣子。我們這樣做是為了激勵開發人員。

與知名科技型Youtuber馬克·羅伯(Mark Rober)合作展示整合至Google Bard的Gemini Pro能力:

📰 相關消息:
送禮物贊助創作者 !
0
留言

創作回應

相關創作

更多創作