切換
舊版
前往
大廳
主題

[動眼看] New Bing讀取SEC文本測試(在無法使用搜尋引擎插件的條件下)

劍心san | 2023-12-24 13:22:01 | 巴幣 0 | 人氣 172


記得OpenAi官方也曾說過,GPT是最強的語言模型,始終強調可以理解文本、上下文對話的內容。

於是找了一份,具有完整上下文內容的SEC文本,剛試了一下New Bing(微軟證實新版Bing就是用GPT-4,冰島政府與摩根史坦利等多家企業也正在用),如果是讀取SEC的PDF網址,它是可以透過搜尋達到精準回答,但也不是每一題都正確就是了,反之若是將PDF檔案下載至用戶端的電腦D槽上,透過Edge瀏覽器打開PDF文件,這時候的New Bing也就無法順利連上網路進行搜尋回答,就準確度表現上就變得跟使用Gemini Pro模型的Google Bard透過Tag Google雲端硬碟插件的效果一樣,很容易在數字答案上出現幻覺。(詳見下圖)


一共150筆SEC題目與答案(截圖來源:PatronusAI/financebench



New Bing(使用GPT-4)產生的數字幻覺



Google Bard(使用Gemini Pro模型)產生的的數字幻覺



至於文件摘要的部分,New Bing也只能摘要第一頁面的部份,無法做整篇的文本內容章節摘要。(在相同的條件比較下,使用Gemini Pro模型的Google Bard還顯得比較有優勢,因為使用ChatGPT-4模型的New Bing必須仰賴搜尋引擎插件下,才能順利完整寫出內容摘要。)


New Bing文件摘要(搭載GPT-4模型,無支援搜尋引擎插件)




Google Bard(使用Gemini Pro模型)生成文件摘要(無支援搜尋引擎插件)

Google Bard(使用Gemini Pro模型)生成文件總結(無支援搜尋引擎插件)


所以,合理反推,ChatGPT-4若將搜尋引擎的功能插件給手動關掉,再進行SEC文件內容提問,其準確度表現也會隨之降級,幻覺程度大量提升。

延伸閱讀:
ChatGPT Plus將可搜尋網際網路,但僅使用微軟Bing

所謂的最強語言模型、GPT-4感覺比較好用,認真講破了,其實就是建立在搜尋引擎的插件上而已,只要語言模型無法支援搜尋引擎去找出答案,論結果上也就強不起來。

其中最容易分辨的方式就是,直接問GPT-4、Bing該問題的答案是在該文件內容的第幾頁?這樣就能知道ai模型是不是有使用搜尋引擎插件了,若無法回答,就表示它只能依賴搜尋引擎的內容摘要來作答。

因此,從這樁實驗結果來看,降低生成式AI幻覺的具體解決方案是什麼?請支援搜尋引擎插件為當前正解。

相關閱讀:
[動眼看] Gemini Pro模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取
送禮物贊助創作者 !
0
留言

創作回應

相關創作

更多創作