- 必看指南,《潮汐守望者》國服五星強力英雄推薦
- 搶先揭秘,《王者榮耀》大喬絨語心約皮膚介紹
- 游戲攻略揭秘,《七日世界》裝備模組刷取位置攻略
- 提升NPC好感度方法解析,《魔境迷宮大冒險》npc好感度攻略大全
- 游戲陣容搭配指南,《椿之歌》火系陣容搭配推薦
- 宮廷風(fēng)華再臨,《蛋仔派對》宮廷套裝免費送復(fù)刻活動介紹
- 探索新版本亮點,《崩壞:星穹鐵道》2.5新遺器一覽
- 探秘游戲策略,《金鏟鏟之戰(zhàn)》S12七D小法陣容指南
- 深入探索,《碧藍航線》大山戰(zhàn)列艦圖鑒一覽
- 探秘?zé)衢T游戲活動,《未定事件簿》莫弈欲愈復(fù)刻活動介紹
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
新智元報道
編輯:小桃
【新智元導(dǎo)讀】o3-mini在圖論領(lǐng)域中展現(xiàn)出了突破性表現(xiàn),甚至得到了數(shù)學(xué)界頂尖專家的高度認可。經(jīng)過實測后,他總結(jié)指出,大語言模型(LLM)并非萬能工具,其價值取決于解決問題的性質(zhì)以及對AI的調(diào)教方式。
令人驚嘆的是,o3-mini竟然能夠以極快的速度秒解如此復(fù)雜的數(shù)學(xué)難題,展現(xiàn)了令人難以置信的效率和精準(zhǔn)度。
今天,陶哲軒在社交平臺再次分享了自己用AI輔助數(shù)學(xué)證明的經(jīng)典案例和心得體會。
他以圖論領(lǐng)域中一個對專家來說標(biāo)準(zhǔn)但又具有挑戰(zhàn)性的結(jié)論為例,具體說明了AI輔助證明的可能性與挑戰(zhàn)。
這個結(jié)論是基于Ruzsa-Szemeredi的「三角移除引理」(Triangle Removal Lemma)提出的,目標(biāo)是證明:一個由n個頂點、n個誘導(dǎo)匹配構(gòu)成的圖,其邊數(shù)僅為o(n2)。
要證明這個定理,有三種主要選擇:一是手動推導(dǎo);二是通過網(wǎng)絡(luò)搜索獲取答案;三是借助大模型。
在此,陶哲軒選擇了第三種方式,讓AI系統(tǒng)來完成這項任務(wù)。
令人驚嘆的是,o3-mini竟然能夠以極快的速度秒解如此復(fù)雜的數(shù)學(xué)難題,展現(xiàn)了令人難以置信的效率和精準(zhǔn)度。
那么,o3-mini又是如何做到的呢?
ChatGPT僅用不到一分鐘的時間就給出了圖論難題的解答。
陶哲軒立即對o3-mini提出了疑問:
Ruzsa-Szemerédi三角形移除引理指出,當(dāng)一個具有n個頂點的圖(n很大時)僅包含o(n3)個三角形時,通過移除o(n2)條邊,可以將其轉(zhuǎn)變?yōu)闊o三角形圖。這一引理實際上隱含了這樣一個結(jié)論:如果一個n頂點的圖可以表示為n個誘導(dǎo)匹配(induced matching)的并集,則其總邊數(shù)僅為o(n2)。你知道如何從前一個結(jié)論推導(dǎo)出后者嗎?
經(jīng)過不到30秒的思考,o3-mini迅速給出了關(guān)鍵的證明思路——
該思路是通過在輔助圖中將這些誘導(dǎo)匹配的邊“編碼”為三角形,然后再運用三角形移除引理。
大致的思路是首先構(gòu)造一個三部圖,將誘導(dǎo)匹配的并集轉(zhuǎn)化為輔助圖中的邊關(guān)系,然后通過關(guān)聯(lián)邊數(shù)與三角形數(shù),最后應(yīng)用三角形移除引理。
這一解答讓陶哲軒十分滿意。
「AI能夠滿足我的即時需求,這表明LLM在快速提供某一領(lǐng)域內(nèi)標(biāo)準(zhǔn)論證的細節(jié)方面確實表現(xiàn)出色,用戶可以隨后驗證其正確性」。
接著,他進一步詢問模型關(guān)于Ruzsa-Szemerédi (6,3)定理的另一標(biāo)準(zhǔn)推論——
該定理聚焦于三元均勻超圖,其在特定禁止配置下的規(guī)模特征得到了研究。
本次模型的表現(xiàn)雖令人滿意,但仍有提升空間。
初期的回答雖抓住了用超圖編碼一個圖的總體思路,但缺乏關(guān)鍵細節(jié)的全面闡述。
當(dāng)陶哲軒進一步追問時,他沒有提及兩個最重要的思路。
在多次提示和明確引導(dǎo)的基礎(chǔ)上,o3-mini逐步補全了思路,最終給出了一個基本正確的推導(dǎo)證明。
陶哲軒表示,之所以能夠給出提示,也是因為他事先通過網(wǎng)絡(luò)搜索查閱了相關(guān)證明。
如下所示,為了獲得詳細的證明過程,需要更明確的提示。
個人感想
通過此次實踐,陶哲軒對LLM在數(shù)學(xué)研究中的能力有了更深刻的體會。
他表示,對于那些標(biāo)準(zhǔn)教科書級別的問題,模型的表現(xiàn)幾乎完美,幾乎無需干預(yù)。
這些答案可以從維基百科、Stack Overflow等現(xiàn)有資源中獲取。
當(dāng)問題轉(zhuǎn)向研究級別或較少被討論的領(lǐng)域時,模型的準(zhǔn)確率顯著下降。
他將LLM的能力歸納為兩種狀態(tài):
一種是在寬泛指導(dǎo)下的情況下仍能提供有價值的幫助;另一種則需要用戶進行詳細引導(dǎo)甚至依賴更高計算資源才能逐步完善答案。
最強大的模型或許更傾向于前者,但總體而言,隨著問題復(fù)雜度和難度的增加,LLM的表現(xiàn)逐漸減弱。
AI輔助數(shù)學(xué)研究已提前進入新階段。
在評論區(qū),網(wǎng)友們熱烈討論,有人質(zhì)疑道,「盡管網(wǎng)絡(luò)搜索的質(zhì)量有所下降,但它仍比AI工具在最好和最壞的情況下都能提供準(zhǔn)確的結(jié)果。那這種工具還有什么存在的意義呢?」?
他表示,自己唯一能想到使用這種工具的原因,便是利用它來獲取新奇的想法。
陶哲軒解釋道,「目前,我認為LLM查詢在最佳情況下比網(wǎng)頁搜索更優(yōu),因為其響應(yīng)速度更快且更精準(zhǔn);相比傳統(tǒng)方法需要自行構(gòu)造搜索查詢、篩選多個結(jié)果并判斷價值,再將最佳答案轉(zhuǎn)化為符號和上下文、撰寫提示并閱讀LLM的回應(yīng),所需的腦力負擔(dān)更小。然而,在最壞情況下,LLM查詢可能比傳統(tǒng)搜索更費心力」。
因此,目前這兩種方法在實用性上大致相當(dāng),至少對于查找較為知名的技術(shù)性論證而言。
理想解決方案似乎是結(jié)合LLM和傳統(tǒng)方法的混合方案,即先通過LLM提問,但若其回答無法立即令人滿意,就轉(zhuǎn)而采用其他方法(如網(wǎng)頁搜索),或利用網(wǎng)頁搜索提供的線索進一步向LLM提問。
這位網(wǎng)友再次提問,「即使在理想情況下,用戶仍需具備足夠的知識來判斷提供的解決方案是否正確且可信。在生成式AI(GenAI)出現(xiàn)之前,這并不是一個問題。提升網(wǎng)頁搜索的可用性或許會更加有用?!笰I技術(shù)可能會改進,但我仍然持悲觀態(tài)度。在我看來,當(dāng)前的AI產(chǎn)品總體上弊大于利,我們可能永遠無法完全恢復(fù)。
陶哲軒表示,事實上,我認為互聯(lián)網(wǎng)(尤其是社交媒體)上不可靠信息的泛濫早于生成式AI的興起,盡管AI機器人和「深度偽造」圖像確實加劇了這一問題。
無論是否有生成式AI,獨立驗證信息的能力正變得愈發(fā)重要。(需要注意的是,即使沒有AI介入,人類創(chuàng)作的數(shù)學(xué)也可能包含錯誤,來自互聯(lián)網(wǎng)的隨機證明仍然需要人工驗證。)
然而,在純數(shù)學(xué)領(lǐng)域,這個問題或許有一個潛在的解決方案,即要求生成式AI通過形式化證明助手來驗證其輸出,以確保正確性。
目前,這方面的實驗僅能解決低階本科水平的問題(例如計算定積分),尚不清楚LLM生成的數(shù)學(xué)答案中涉及的高階概念是否可以通過這種形式語言捕捉。
陶哲軒認為,要求LLM至少形式化驗證其部分細節(jié),能夠顯著提高其整體可靠性。(類似的現(xiàn)象已在LLM處理數(shù)學(xué)奧林匹克競賽類型問題時被觀察到——相比于直接生成答案,模型若采用更可靠的語言(如 Python)編寫代碼來求解問題,通常能顯著優(yōu)于純LLM方法。)
理想情況下,人類創(chuàng)作的數(shù)學(xué)也應(yīng)當(dāng)越來越多地采用形式驗證;但我預(yù)計AI生成或AI輔助的數(shù)學(xué)研究會提前實現(xiàn)這一點。
當(dāng)然,評論區(qū)也有質(zhì)疑大模型推理能力的網(wǎng)友,認為LLM并非是推理模型,而是隨機文本生成器。
參考資料:
請訪問Mathstodon.xyz上@tao的個人頁面,鏈接地址為:https://mathstodon.xyz/@tao/114139125505827565。
春天的花bomb,以下哪種植物通常在春季開花 Axem & Melody,怪物獵人荒野之息狩獵笛玩法解析 探索保存品的位置 發(fā)現(xiàn)隱藏的盆栽 解開開放世界中的秘密 探索隱藏的寶藏,《開放空間》保存品位置匯總 太刀特殊納刀RT+A和Y鍵操作指南,全網(wǎng)最全:荒野太刀特殊納刀使用方法及技巧全解析說明:1. 將"怪物獵人"改為"怪物獵人:荒野太刀",更符合中文表達習(xí)慣2. "特殊納刀怎么用"改為"特殊納刀使用方法",更簡潔明了3. "使用攻略分享"改為"使用方法及技巧全解析",更專業(yè)且信息量大4. 增加"全網(wǎng)最全",突出內(nèi)容的全面性5. 整體標(biāo)題更符合SEO優(yōu)化和用戶搜索習(xí)慣6. 保留了核心信息,同時更符合專業(yè)文章的表達方式 鯊魚戒指材料收集的 jeopardized,如龍8外傳鯊魚戒指獲取方法解析 美國荒野小機械驚人收入,"致以最誠摯的感謝——中國在關(guān)鍵時刻為許多美國人伸出了援手。" 沖突,女子與男子發(fā)生肢體沖突登上熱搜,是否屬于正當(dāng)防衛(wèi)? 閃光彈支援,怪物獵人荒野閃光翅蟲捕捉方法及注意事項說明:1. 去除了重復(fù)內(nèi)容(捕捉方法介紹),使標(biāo)題更簡潔2. 簡化了標(biāo)題結(jié)構(gòu),突出主要信息3. 增加了注意事項部分,幫助讀者更好地理解內(nèi)容4. 保持了原意,同時使標(biāo)題更加直觀和實用 低空25分鐘未來可期,浦東啟動低空運輸試飛工作 電擊穿安比普通攻擊解析高傷害強力輔助玩家必看,《絕區(qū)零》零號安比技能介紹