切換
舊版

前往
大廳

主題

[動眼看] New Bing讀取SEC文本測試（在無法使用搜尋引擎插件的條件下）

劍心san | 2023-12-24 13:22:01 | 巴幣 0 | 人氣 172

記得OpenAi官方也曾說過，GPT是最強的語言模型，始終強調可以理解文本、上下文對話的內容。

於是找了一份，具有完整上下文內容的SEC文本，剛試了一下New Bing（微軟證實新版Bing就是用GPT-4，冰島政府與摩根史坦利等多家企業也正在用），如果是讀取SEC的PDF網址，它是可以透過搜尋達到精準回答，但也不是每一題都正確就是了，反之若是將PDF檔案下載至用戶端的電腦D槽上，透過Edge瀏覽器打開PDF文件，這時候的New Bing也就無法順利連上網路進行搜尋回答，就準確度表現上就變得跟使用Gemini Pro模型的Google Bard透過Tag Google雲端硬碟插件的效果一樣，很容易在數字答案上出現幻覺。（詳見下圖）

一共150筆SEC題目與答案（截圖來源：PatronusAI/financebench）

New Bing（使用GPT-4）產生的數字幻覺

Google Bard（使用Gemini Pro模型）產生的的數字幻覺

至於文件摘要的部分，New Bing也只能摘要第一頁面的部份，無法做整篇的文本內容章節摘要。（在相同的條件比較下，使用Gemini Pro模型的Google Bard還顯得比較有優勢，因為使用ChatGPT-4模型的New Bing必須仰賴搜尋引擎插件下，才能順利完整寫出內容摘要。）

New Bing文件摘要（搭載GPT-4模型，無支援搜尋引擎插件）

Google Bard（使用Gemini Pro模型）生成文件摘要（無支援搜尋引擎插件）

Google Bard（使用Gemini Pro模型）生成文件總結（無支援搜尋引擎插件）

所以，合理反推，ChatGPT-4若將搜尋引擎的功能插件給手動關掉，再進行SEC文件內容提問，其準確度表現也會隨之降級，幻覺程度大量提升。

延伸閱讀：

ChatGPT Plus將可搜尋網際網路，但僅使用微軟Bing

所謂的最強語言模型、GPT-4感覺比較好用，認真講破了，其實就是建立在搜尋引擎的插件上而已，只要語言模型無法支援搜尋引擎去找出答案，論結果上也就強不起來。

其中最容易分辨的方式就是，直接問GPT-4、Bing該問題的答案是在該文件內容的第幾頁？這樣就能知道ai模型是不是有使用搜尋引擎插件了，若無法回答，就表示它只能依賴搜尋引擎的內容摘要來作答。

因此，從這樁實驗結果來看，降低生成式AI幻覺的具體解決方案是什麼？請支援搜尋引擎插件為當前正解。

相關閱讀：
[動眼看] Gemini Pro模型實測：圖片推理分析 + 生成YT影片摘要 + 文件讀取

#Gemini #生成式Ai #ChatGPT #Google #Bard #人工智慧 #Ai #生成式

0

送禮物贊助創作者 !

0

創作回應

劍心san sanboy289

追蹤創作集

作者相關創作

作品資料夾

[動眼看] New Bing讀取SEC文本測試（在無法使用搜尋引擎插件的條件下）

OpenAi付費的ChatGPT-4 Turbo與Copilo上的ChatGPT-4 Turbo模型有一樣嗎？

[實測] Claude 3、Google Gemini Pro v1.0、ChatGPT-4 Turbo - 詐騙對話紀錄文本分析測試

[教學]生成式AI最強應用法 - 逐字稿實戰篇

[速報]Google Gemini app繁體中文版正式上線啦！

人工智慧模型的前因後果理解挑戰：以ChatGPT與律師需求為例

CES 2024：生成式AI成為主流，領先技術走向明確方向

[動眼看] Gemini Pro模型實測：圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)

Claude 3模型與Google Gemini Pro v1.0模型的視覺推理對決

掌握未來工作趨勢：生成式Ai的革命性自動化技術探析

ChatGPT在實際應用中的限制：加航ChatBot事件的啟示

使用Gemini Pro(原Google Bard)寫Python貪食蛇遊戲

探索GPT模型：學術優越性與推論挑戰

何謂創意？何謂優化？人如何不被ai所取代？

第一手實測繁體中文版的Bard(西元2023年9月19日更新)

[有雷]以「愛、纏、殺：誰是恐怖情人？」進行ai模型推理測試

提升Google翻譯品質的實用方法和注意事項

三星S24+的生成式Ai功能試玩

聊聊台灣職場目前不想使用Ai或導入Ai的幾個主因

Google相機的一個很實用的Ai自動化功能 - 自動切換夜拍模式

Hololive－星街すいせい

《Aster Tatariqus》宣布與「星街彗星」展開合作合作歌曲 MV 將搶先於遊戲內公開

《偶像大師灰姑娘女孩星光舞台》宣布與 hololive 星街彗星展開合作自 3 月 11 日起舉行

hololive production Live@TAIWAN 聯名一卡通登場首波推出星街彗星、佩克拉以及 Ina

相關創作

Google Bard改名為Gemini，並釋出搭載Gemini Ultra 1.0模型的付費版Gemini Advanced服務以及專屬App

這可不是鬧著玩的

1

126

Google推出Gemini Pro 1.5版，OpenAI推出影片生成模型Sora，以及...

這可不是鬧著玩的

1

267

Gemini: 由Google所推出的多模態AI大模型

這可不是鬧著玩的

1

403

2023 「生成式AI大爆發」與展望

1

185

ChatGPT(生成式AI)會否帶領人類邁入科技奇點？

0

188

CohereForAI Command R+ (ChatGPT以外的選擇)

2

105

又有誰不會被淹沒？

7

152

AI 最終到底能顛覆什麼？

9

180

我想創作啊

0

55

【AI/教學】用於RVC AI聲音轉換和模型訓練的人聲分離

0

196

Claude 3：繼Claude 2後的下一代新模型，碾壓GPT-4、Gemini Ultra等模型

這可不是鬧著玩的

3

240

現在AI Chat也能夠跟成人聊色了

0

29

選擇與AI談戀愛才是正解

1

126

Magika: Google開源基於AI的檔案辨識工具，擁有99%以上的辨識率、毫秒級的速度...

這可不是鬧著玩的

1

128

AI也要選總統 (AI總統開發中……) 【政策】死刑?廢死?

多久沒跳了

1

296

達人 gemini使用心得。我被gemini的功能給震驚到了

10

728

AI也要選總統 (AI總統開發中……) 【政策】行人地獄

多久沒跳了

0

156

AI也要選總統 (AI總統開發中……) 【競選活動】總統辯論必勝法

多久沒跳了

0

248

AI也要選總統 (AI總統開發中……) 【政策】遊戲慘業

多久沒跳了

0

206

關於GPTs所創建的虛擬人格—釐清篇

2

175

更多創作

劍心san sanboy289

追蹤創作集

其他創作

作品資料夾