豆豆小说阅读网,小说排行榜完结版,管理书籍排行榜

聲明:本文來自于（ID:ykqsd.com）授權轉(zhuǎn)載發(fā)布。

新智元報道

編輯：小桃

【新智元導讀】o3-mini在圖論領域中展現(xiàn)出了突破性表現(xiàn)，甚至得到了數(shù)學界頂尖專家的高度認可。經(jīng)過實測后，他總結(jié)指出，大語言模型（LLM）并非萬能工具，其價值取決于解決問題的性質(zhì)以及對AI的調(diào)教方式。

令人驚嘆的是，o3-mini竟然能夠以極快的速度秒解如此復雜的數(shù)學難題，展現(xiàn)了令人難以置信的效率和精準度。

今天，陶哲軒在社交平臺再次分享了自己用AI輔助數(shù)學證明的經(jīng)典案例和心得體會。

他以圖論領域中一個對專家來說標準但又具有挑戰(zhàn)性的結(jié)論為例，具體說明了AI輔助證明的可能性與挑戰(zhàn)。

這個結(jié)論是基于Ruzsa-Szemeredi的「三角移除引理」（Triangle Removal Lemma）提出的，目標是證明：一個由n個頂點、n個誘導匹配構成的圖，其邊數(shù)僅為o(n2)。

要證明這個定理，有三種主要選擇：一是手動推導；二是通過網(wǎng)絡搜索獲取答案；三是借助大模型。

在此，陶哲軒選擇了第三種方式，讓AI系統(tǒng)來完成這項任務。

令人驚嘆的是，o3-mini竟然能夠以極快的速度秒解如此復雜的數(shù)學難題，展現(xiàn)了令人難以置信的效率和精準度。

那么，o3-mini又是如何做到的呢？

ChatGPT僅用不到一分鐘的時間就給出了圖論難題的解答。

陶哲軒立即對o3-mini提出了疑問：

Ruzsa-Szemerédi三角形移除引理指出，當一個具有n個頂點的圖（n很大時）僅包含o(n3)個三角形時，通過移除o(n2)條邊，可以將其轉(zhuǎn)變?yōu)闊o三角形圖。這一引理實際上隱含了這樣一個結(jié)論：如果一個n頂點的圖可以表示為n個誘導匹配（induced matching）的并集，則其總邊數(shù)僅為o(n2)。你知道如何從前一個結(jié)論推導出后者嗎？

經(jīng)過不到30秒的思考，o3-mini迅速給出了關鍵的證明思路——

該思路是通過在輔助圖中將這些誘導匹配的邊“編碼”為三角形，然后再運用三角形移除引理。

大致的思路是首先構造一個三部圖，將誘導匹配的并集轉(zhuǎn)化為輔助圖中的邊關系，然后通過關聯(lián)邊數(shù)與三角形數(shù)，最后應用三角形移除引理。

這一解答讓陶哲軒十分滿意。

「AI能夠滿足我的即時需求，這表明LLM在快速提供某一領域內(nèi)標準論證的細節(jié)方面確實表現(xiàn)出色，用戶可以隨后驗證其正確性」。

接著，他進一步詢問模型關于Ruzsa-Szemerédi (6,3)定理的另一標準推論——

該定理聚焦于三元均勻超圖，其在特定禁止配置下的規(guī)模特征得到了研究。

本次模型的表現(xiàn)雖令人滿意，但仍有提升空間。

初期的回答雖抓住了用超圖編碼一個圖的總體思路，但缺乏關鍵細節(jié)的全面闡述。

當陶哲軒進一步追問時，他沒有提及兩個最重要的思路。

在多次提示和明確引導的基礎上，o3-mini逐步補全了思路，最終給出了一個基本正確的推導證明。

陶哲軒表示，之所以能夠給出提示，也是因為他事先通過網(wǎng)絡搜索查閱了相關證明。

如下所示，為了獲得詳細的證明過程，需要更明確的提示。

個人感想

通過此次實踐，陶哲軒對LLM在數(shù)學研究中的能力有了更深刻的體會。

他表示，對于那些標準教科書級別的問題，模型的表現(xiàn)幾乎完美，幾乎無需干預。

這些答案可以從維基百科、Stack Overflow等現(xiàn)有資源中獲取。

當問題轉(zhuǎn)向研究級別或較少被討論的領域時，模型的準確率顯著下降。

他將LLM的能力歸納為兩種狀態(tài)：

一種是在寬泛指導下的情況下仍能提供有價值的幫助；另一種則需要用戶進行詳細引導甚至依賴更高計算資源才能逐步完善答案。

最強大的模型或許更傾向于前者，但總體而言，隨著問題復雜度和難度的增加，LLM的表現(xiàn)逐漸減弱。

AI輔助數(shù)學研究已提前進入新階段。

在評論區(qū)，網(wǎng)友們熱烈討論，有人質(zhì)疑道，「盡管網(wǎng)絡搜索的質(zhì)量有所下降，但它仍比AI工具在最好和最壞的情況下都能提供準確的結(jié)果。那這種工具還有什么存在的意義呢？」？

他表示，自己唯一能想到使用這種工具的原因，便是利用它來獲取新奇的想法。

陶哲軒解釋道，「目前，我認為LLM查詢在最佳情況下比網(wǎng)頁搜索更優(yōu)，因為其響應速度更快且更精準；相比傳統(tǒng)方法需要自行構造搜索查詢、篩選多個結(jié)果并判斷價值，再將最佳答案轉(zhuǎn)化為符號和上下文、撰寫提示并閱讀LLM的回應，所需的腦力負擔更小。然而，在最壞情況下，LLM查詢可能比傳統(tǒng)搜索更費心力」。

因此，目前這兩種方法在實用性上大致相當，至少對于查找較為知名的技術性論證而言。

理想解決方案似乎是結(jié)合LLM和傳統(tǒng)方法的混合方案，即先通過LLM提問，但若其回答無法立即令人滿意，就轉(zhuǎn)而采用其他方法（如網(wǎng)頁搜索），或利用網(wǎng)頁搜索提供的線索進一步向LLM提問。

這位網(wǎng)友再次提問，「即使在理想情況下，用戶仍需具備足夠的知識來判斷提供的解決方案是否正確且可信。在生成式AI（GenAI）出現(xiàn)之前，這并不是一個問題。提升網(wǎng)頁搜索的可用性或許會更加有用?！笰I技術可能會改進，但我仍然持悲觀態(tài)度。在我看來，當前的AI產(chǎn)品總體上弊大于利，我們可能永遠無法完全恢復。

陶哲軒表示，事實上，我認為互聯(lián)網(wǎng)（尤其是社交媒體）上不可靠信息的泛濫早于生成式AI的興起，盡管AI機器人和「深度偽造」圖像確實加劇了這一問題。

無論是否有生成式AI，獨立驗證信息的能力正變得愈發(fā)重要。（需要注意的是，即使沒有AI介入，人類創(chuàng)作的數(shù)學也可能包含錯誤，來自互聯(lián)網(wǎng)的隨機證明仍然需要人工驗證。）

然而，在純數(shù)學領域，這個問題或許有一個潛在的解決方案，即要求生成式AI通過形式化證明助手來驗證其輸出，以確保正確性。

目前，這方面的實驗僅能解決低階本科水平的問題（例如計算定積分），尚不清楚LLM生成的數(shù)學答案中涉及的高階概念是否可以通過這種形式語言捕捉。

陶哲軒認為，要求LLM至少形式化驗證其部分細節(jié)，能夠顯著提高其整體可靠性。（類似的現(xiàn)象已在LLM處理數(shù)學奧林匹克競賽類型問題時被觀察到——相比于直接生成答案，模型若采用更可靠的語言（如 Python）編寫代碼來求解問題，通常能顯著優(yōu)于純LLM方法。）

理想情況下，人類創(chuàng)作的數(shù)學也應當越來越多地采用形式驗證；但我預計AI生成或AI輔助的數(shù)學研究會提前實現(xiàn)這一點。

當然，評論區(qū)也有質(zhì)疑大模型推理能力的網(wǎng)友，認為LLM并非是推理模型，而是隨機文本生成器。

參考資料：

請訪問Mathstodon.xyz上@tao的個人頁面，鏈接地址為：https://mathstodon.xyz/@tao/114139125505827565。

寶石搭配攻略，《天天闖關》寶石技能攻略《AFTERBLAST 直接下載》，AFTERBLAST下載地址在哪里-AFTERBLAST游戲下載鏈接匯總追擊大招解鎖，大錘回旋攻擊教學：如何高效使用荒野大錘旋轉(zhuǎn)攻擊重大危機白宮權力開啟，特朗普正式撤銷拜登權限寶馬MINI的圓形中控屏是否實用，方形中控屏為何常見，寶馬MINI圓形中控屏設計為何少人效仿波可娜技能機制解析，《絕區(qū)零》波可娜技能介紹對話與 hopeful progress，美國中東特使宣布，澤連斯基已向特朗普表示歉意。烏克蘭軍隊對莫斯科發(fā)起最大規(guī)模無人機襲擊，造成1死3傷，多個機場被實施管制。即將，重磅突發(fā)！某百億基金經(jīng)理離職最強必殺組隊海賊王寶藏巡航，《海賊王寶藏巡航》角色推薦攻略黑絲笛子音波，荒野笛子打黑絲技巧