您現在的位置：首頁科技技術 OpenAI推理模型“上新”

OpenAI推理模型“上新”

狄晨濡 2024-12-23 科技技術 1 次瀏覽 0個評論

　　OpenAI離AGI（artificial general intelligence，通用人工智能）似乎又更近了一步。上周五，在“OpenAI 12天活動”的第12天，OpenAI首席執(zhí)行官薩姆·奧特曼宣布了其最新的人工智能“推理”模型o3和o3-mini，這兩款模型是在今年早些時候推出的o1模型的基礎上開發(fā)的。

　　OpenAI本次12日的活動第一天官宣了上線正式版o1，所謂滿血o1。活動最后一天又有o3亮相，首尾都由介紹推理模型呼應，也算是一種精心設計。

　　據介紹，這些模型使用OpenAI所稱的“私人思維鏈”，模型會暫停檢查其內部對話，并在響應之前提前計劃，你可以稱之為“模擬推理”（SR），即一種超越基本大型語言模型（llm）的人工智能形式。

　　據了解，為了避免與英國電信運營商o2發(fā)生潛在的商標沖突，該公司將其最新的人工智能“推理”模型命名為“o3”而不是“o2”。

　　直播中，奧特曼稱o3是“一個非常、非常聰明的模型”。OpenAI的評估結果也顯示，無論在軟件工程、編寫代碼，還是競賽數學、掌握人類博士級別的自然科學知識能力方面，o3都明顯高出o1一籌。同時測試顯示，o3在OpenAI實現通用人工智能（AGI）這一奮斗目標上取得了突破，最高的測試成績達到了類人水平。

　　根據OpenAI的說法，o3模型在ARC-AGI基準上獲得了破紀錄的分數，ARC-AGI基準是一種視覺推理基準，自2019年創(chuàng)建以來一直保持不敗。在低計算場景中，o3得分為75.7%，而在高計算測試中，它達到了87.5%，與人類在85%閾值下的表現相當。

　　OpenAI還報告說，o3在2024年美國數學邀請賽中得分為96.7%，只缺了一道題。該模型在包含研究生水平的生物、物理和化學問題的GPQA Diamond上也達到了87.7%。在EpochAI的前沿數學基準上，o3解決了25.2%的問題，而其他模型都沒有超過2%。

　　o3-mini版本包括自適應思考時間功能，提供低、中、高處理速度。該公司表示，更高的計算設置可以產生更好的結果。OpenAI報告說，在Codeforces基準測試中，o3-mini的性能超過了它的前身o1。

　　但測試發(fā)現，表現完美的o3在計算投入方面并不那么“美麗”。

　　ARC-AGI（通用人工智能抽象與推理語料庫）發(fā)起者、Keras（用Python編寫的高級神經網絡API）之父弗朗索瓦·肖萊（Francois Chollet）在o3發(fā)布后公布了一篇測試報告。

　　報告顯示，o3在高計算量模式下獲得了87.5%的分數，在低計算量模式下，性能是o1的3倍。成本方面，低計算量模式下，每個任務需要花費20美元，而在高計算量模式中每個任務需要數千美元。

　　肖萊表示：“它非常昂貴，但并不只是‘蠻干’——這些能力是全新的領域，需要科學界的認真關注?！?/p>

　　據悉，推理模型作為人工智能的核心技術之一，具備強大的數據處理和分析能力，其應用范圍廣泛，幾乎覆蓋了所有與智能化相關的領域。

　　雖然o3的測評看上去表現驚艷，但OpenAI應該不會很快面向大眾上線這款新的超級推理模型。

　　據悉，o3和o3-mini并未正式發(fā)布，安全研究人員目前可以注冊獲取o3-mini的預覽版，o3預覽版也將在之后的某個時間推出，OpenAI沒有給出具體時間。在直播的一開始，奧特曼也強調了此次并不是發(fā)布，只是宣布o3。他表示，計劃在1月底發(fā)布o3-mini，然后再發(fā)布o3。

　　奧特曼在直播中表示，在OpenAI正式發(fā)布新的推理模型之前，他更希望有一個聯邦政府的測試框架，指導監(jiān)控和減輕此類模型的風險?！皯撚心撤N聯邦測試框架，說明我們最感興趣的是監(jiān)控和緩解危害，類似于這里有一組測試，在你發(fā)布它之前，必須能夠證明這種模型在這些方面是安全的?！?/p>

　　值得一提的是，除了OpenAI，各家AI公司近期也紛紛發(fā)布推理模型。

　　11月16日，月之暗面（Moonshot AI）Kimi推出新一代數學推理模型k0-math；11月20日，DeepSeek發(fā)布了首個推理模型DeepSeek-R1-Lite預覽版；11月28日，阿里云通義團隊發(fā)布全新AI推理模型QwQ-32B-Preview。

　　在當地時間12月19日，谷歌也發(fā)布首個推理模型Gemini 2.0 Flash Thinking。它使用了類似o1模型的慢思維思考方式，可以深度可視化展示整個思維鏈過程，尤其是在執(zhí)行數學、編程等復雜問題方面。

　　相比o1，Gemini 2.0 Flash Thinking的最大差別是，讓用戶能看到一步一步推理的過程，更清晰、更透明地了解模型如何得出結論。它剛亮相就登上了Chatbot Arena大模型評估的榜首。不過，谷歌的這一新模型還處于實驗性階段，只是一個早期版本。

　　北京商報綜合報道

你可能想看：

OpenAI王炸又一波：期待已久的超級視頻模型Sora來了

壓軸大作！OpenAI推出o3模型系列：AGI評測最佳成績達到驚人的87.5%，人類水平的門檻為85%

OpenAI向公眾開放AI視頻生成工具Sora

OpenAI郵件顯示：馬斯克在2017年就推動建立營利性結構

ChatGPT新增功能“Projects”，OpenAI演示出現AGI文件夾，炒作新高度？

民生證券：Open AI發(fā)布系列新品關注AI模型的持續(xù)迭代