蘋果近期發表一項具指標性的 AI 研究報告,震撼揭露目前市場上號稱具備「推理能力」的 AI 模型,如 Claude Thinking、DeepSeek-R1、o3-mini,實際上只是進行「進階記憶遊戲」,根本談不上真正的邏輯推理。
為了避開常見的訓練資料污染問題,蘋果研究團隊自訂了一組從未出現在資料集中的 邏輯謎題,用來測試 AI 模型是否具備真正的 理解與推理能力。這些謎題設計精巧,能明確區分出模型是「理解內容」還是「死記硬背」。
研究指出,當謎題進入較高複雜度時,這些模型的表現明顯崩盤。甚至出現放棄解題、胡亂回答等「自暴自棄」現象。實驗結果可歸納為三個階段:
- 低複雜度:普通模型反而表現更穩定
- 中等複雜度:標榜「會思考」的模型稍占優勢
- 高複雜度:所有模型表現接近失效
而現實生活中的問題,絕大多數正好落在「高複雜度」區間。
蘋果指出,即便給予這些 AI 模型明確提示,它們依然無法完成問題解答。例如,模型能成功解出百步的河內塔,卻卡在只需 4 步的渡河謎題,顯示 AI 並非理解問題本質,而只是根據模式記憶進行猜測。
這項研究直指目前主流大型語言模型(LLM) 的根本限制:它們缺乏真正的「邏輯鏈條構建能力」,無法如人類般進行深層推理。
Google 執行長 Pichai 提出「AJI」,稱 AI 表現起伏大
與此同時,Google 執行長 Sundar Pichai 則創造新詞「AJI」,即「人工鋸齒智慧」(Artificial Jagged Intelligence),形容 AI 表現起伏極大,時而令人驚豔,時而荒謬可笑。
他舉例說:「有時 AI 回答讓你讚嘆不已,下一秒卻連草莓裡有幾個 R 都數不清。」這種「不穩定性」正是當今 AI 的真實狀態。
儘管如此,Pichai 對 AI 發展仍抱持樂觀。他認為,即便通用人工智慧(AGI) 無法如預期在 2030 年實現,AI 仍將在知識擴散、氣候變遷、醫療研究、經濟發展 等領域發揮重大影響。
社群反應兩極:AI 還能超越人類思考嗎?
這份蘋果研究迅速在科技社群掀起論戰。一派認為這證實了當前 LLM 架構不足以支撐 AGI 的實現;另一派則指出:「推理本身就是一種模式學習」,不應對 AI 判斷太過悲觀。
無論是哪種觀點,這份研究都明確提醒我們:AI 並非萬能,距離「真正會思考」仍有距離。
「JaggedAI.com」等相關關鍵詞已被高價搶註,象徵著這波由「鋸齒智慧」引發的新一輪 AI 詮釋熱潮才剛剛開始。未來 AI 發展不只要追求表現,更要正視它的局限。
新聞來源 (不包括新聞圖片): 鉅亨網