前往
大廳
主題

ChatGPT圖像推理實測:能看圖,但真能「推理」嗎?職場應用大哉問

劍心san | 2025-04-20 18:50:04 | 巴幣 0 | 人氣 72

實測ChatGPT o3、o4的「圖像推理」功能,真的就只是「圖像推理」而已,因為連它自己也解釋不出這樣的推理結果與風險會是什麼。像我拿出黑白棋,它也就只能單純描述下在哪個位置最好,但也無法連續推理出對手會如何應對。

(人類的推理行為是,當棋子選擇落子在A點、B點、C點後,就會去主動推理、評估落子在A點、B點、C點之後所有可能發生的問題,然後去主動設法決策篩選掉那些潛在可能違反最終目標的選項。這種錯中複雜的決策、推理、規劃的思路,對DeepSeek R1、ChatGPT-4o、Mistral AI 、o3 mini、xAi gork3、claude 3.7模型目前都還做不到。)

而這也是為什麼很多訂閱DeepSeek R1、ChatGPT-4o、Mistral AI 、o3 mini、xAi gork3、claude 3.7模型的用戶無法實際部屬在職場工作上的職缺緣故(有些刊登職缺的雇主是開放應徵者使用生成式Ai來工作沒錯,但通常都不會是生成文本與生成圖片、生成Code相關的工作內容。),只因為每一個行業工作問題的本身,都有很多潛在的隱性風險必須是由用戶自己承擔,因此他們只能選擇用在沒有隱性風險成本的文本生成(Code、書面報告)、文字生成影像這種單向輸出的任務上。

一旦用於像那種需要到大量「決策、規劃、推理」的工作職務的時候(例如:市公車調度員、徵才的獵頭、客服、軍事活動的指揮官...等),這些平時只能強在純寫Code、純文本生成圖片方面的九成模型們,就會直接翻車了。

因為目前普遍亮相展示的Ai Agent,背後多半還是靠人工預先強制佈署指定的自動化流程步驟,而不是模型本身就已經具有自主化決策、推理、規劃建議的潛在能力,所以這樣充其量,只是讓一個LLM去觸發RPA來執行指定任務流程的偽Ai Agent,只要遇到開放性、動態即時性的問題類型,就會直接現出原形了。


Q:那什麼是開放性、動態即時性的問題類型?

像這則新聞提到的別說鴻海只是硬體代工之王!劉揚偉:生成式AI每年省下100億費用,還幫忙抓出不肖同業派人「假應徵、真騙錢」,就是屬於開放性、動態即時性的決策、推理規劃的問題,這跟多數像DeepSeek R1、ChatGPT-4o、Mistral AI 、o3 mini、xAi gork3、claude 3.7模型所強調的文字生圖片、寫CODE完成什麼目標、修改文本、YT自媒體網紅提出的各種虛構、假設性問題,這類單向輸出的工作流程內容完全不同,以鴻海董事長劉揚偉先生提出的問題性質來說,其實就跟下棋一樣複雜。當職場上的工作有九成都是這種性質的複雜問題,那麼DeepSeek R1、ChatGPT-4o、Mistral AI 、o3 mini、xAi gork3、claude 3.7模型聲稱真的可以替公司節省成本、提高員工的生產效率,也就只是一種網路言論上的存在感炒作而已。


延伸閱讀:
DeepSeek R1、ChatGPT-4o、Mistral AI 、o3 mini、xAi gork3、claude 3.7、Google Gemini 2.0 Flash Thinking推理測試
AI、自動化與裁員:解析關稅時代下企業的成本策略與未來佈局
AI 肯定會取代人類,未來企業規模更小、老闆更賺
AI是否真的會搶走人類的工作?(這篇有實際使用中的職場案例可以解惑)
Google Gemini 2.0 Flash:Project Astra效果實測感想
送禮物贊助創作者 !
0
留言

0則留言

更多創作