三个男人躁我一个爽视频免费,91小视频在线观看,1000部丰满熟女富婆视频

作者 | ?程茜

編輯 | ?云鵬

OpenAI新模型編碼、長(zhǎng)文本理解、多輪對(duì)話能力飆升，性價(jià)比拉滿。

智東西4月15日?qǐng)?bào)道，剛剛，OpenAI一口氣掏出了GPT-4.1系列的三款模型，并稱這是其有史以來(lái)最小、最快、最便宜的模型系列，且新模型的整體性能表現(xiàn)要優(yōu)于GPT-4o和GPT-4o mini。

GPT-4.1系列模型包含三個(gè)模型：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano，上下文窗口均達(dá)到100萬(wàn)個(gè)token，輸出token數(shù)達(dá)到32768個(gè)，知識(shí)截止日期為2024年6月。OpenAI的基準(zhǔn)測(cè)試顯示，其在編碼、指令遵循、長(zhǎng)文本理解方面的得分均超過了GPT-4o和GPT-4o mini。

GPT-4.1系列模型僅通過API提供，現(xiàn)已對(duì)所有開發(fā)者開放。OpenAI將開始在API中棄用GPT-4.5預(yù)覽版，因?yàn)镚PT-4.1系列模型在許多關(guān)鍵能力上提供了相似性能，同時(shí)成本和延遲更低。GPT-4.5預(yù)覽版將在今年7月14日關(guān)閉。

具體的性能優(yōu)化集中于編碼、指令遵循、長(zhǎng)文本理解上：

編碼：GPT-4.1在SWE-bench驗(yàn)證測(cè)試中得分54.6%，較GPT-4o提升了21.4%，較GPT-4.5提升了26.6%。

指令遵循：在Scale的衡量指令遵循能力指標(biāo)的MultiChallenge基準(zhǔn)測(cè)試中，GPT-4.1得分38.3%，較GPT-4o提升了10.5%。

長(zhǎng)文本理解：在多模態(tài)長(zhǎng)文本理解的Video-MME基準(zhǔn)測(cè)試中，GPT-4.1在無(wú)字幕的長(zhǎng)文本類別中得分72.0%，較GPT-4o提升了6.7%。

對(duì)延遲較為敏感的場(chǎng)景，OpenAI重點(diǎn)提到了GPT-4.1 nano，并稱這是其最快、最經(jīng)濟(jì)的模型。GPT-4.1 nano基準(zhǔn)測(cè)試MMLU得分為80.1%，GPQA得分為50.3%，Aider多語(yǔ)言編碼得分為9.8%，均高于GPT-4o mini。

OpenAI在博客中提到，性能表現(xiàn)更好、更經(jīng)濟(jì)的GPT-4.1系列模型將為開發(fā)者構(gòu)建智能系統(tǒng)和復(fù)雜的智能體應(yīng)用開辟新的可能性。

價(jià)格方面，對(duì)于中等規(guī)模的查詢，GPT-4.1的價(jià)格比GPT-4o低26%，對(duì)于重復(fù)使用相同上下文的查詢，OpenAI將提示緩存折扣從之前的50%提高到了75%。最后，除了標(biāo)準(zhǔn)的每token費(fèi)用之外，OpenAI不會(huì)對(duì)長(zhǎng)上下文請(qǐng)求額外收費(fèi)。

01.編碼能力：表現(xiàn)優(yōu)于GPT-4o超80%用戶喜歡GPT-4.1的應(yīng)用

GPT-4.1在多種編碼任務(wù)上的表現(xiàn)優(yōu)于GPT-4o，包括主動(dòng)解決編碼任務(wù)、前端編碼、減少不必要的編輯、遵循diff格式、確保工具使用的一致性等。

相比于GPT-4o，GPT-4.1可以創(chuàng)建功能更強(qiáng)大、美觀度更高的Web應(yīng)用，如下圖所示的“閃卡”應(yīng)用：

在衡量現(xiàn)實(shí)世界軟件工程技能的指標(biāo)SWE-bench Verified上，GPT-4.1完成了54.6%的任務(wù)，GPT-4o為33.2%，這說明GPT-4.1在探索代碼庫(kù)、完成任務(wù)以及生成既可運(yùn)行又可通過測(cè)試的代碼方面的能力提升。

▲該測(cè)試中，模型會(huì)收到一個(gè)代碼庫(kù)和問題描述，然后其需要生成補(bǔ)丁來(lái)解決該問題，模型的表現(xiàn)會(huì)高度依賴于所使用的提示和工具。

對(duì)于希望編輯大文件的API開發(fā)者來(lái)說，GPT-4.1在多種格式下的代碼差異方面更加可靠。GPT-4.1在多語(yǔ)言差異基準(zhǔn)測(cè)試Aider中的得分，是GPT-4o的兩倍，比GPT-4.5高出8%。

這項(xiàng)評(píng)估既考察模型對(duì)各種編程語(yǔ)言編碼的能力，還有對(duì)模型在整體和差異格式下產(chǎn)生變化的能力。OpenAI專門訓(xùn)練了GPT-4.1以遵循差異格式，這使得開發(fā)者可以通過模型僅輸出更改的行來(lái)節(jié)省成本和延遲，而不是重寫整個(gè)文件。

此外，OpenAI將GPT-4.1的輸出token限制增加到32768個(gè)，GPT-4o為16384個(gè)token，其還建議使用預(yù)測(cè)輸出以減少完整文件重寫的延遲。

▲在Aider中，模型通過編輯源文件來(lái)解決Exercism的編碼練習(xí)，允許重試一次。

前端編碼方面，GPT-4.1能夠創(chuàng)建功能更強(qiáng)大、美觀度更高的Web應(yīng)用。在OpenAI的對(duì)比測(cè)試中，人工評(píng)分員在80%的情況下更青睞GPT-4.1生成的網(wǎng)站，而非GPT-4o生成的網(wǎng)站。

在上述基準(zhǔn)測(cè)試之外，GPT-4.1可以減少不必要的編輯。在OpenAI的內(nèi)部評(píng)估中，代碼中的不必要的編輯從GPT-4o的9%降至GPT-4.1的2%。

02.遵循指令：評(píng)估6大關(guān)鍵指令性能多輪自然對(duì)話效果比GPT-4o提高10.5%

OpenAI開發(fā)了一個(gè)內(nèi)部評(píng)估系統(tǒng)，用于跟蹤模型在多個(gè)維度和幾個(gè)關(guān)鍵指令遵循類別中的性能，包括：

Format following：提供指定模型響應(yīng)自定義格式的指令，例如XML、YAML、Markdown等；

Negative instructions：指定模型應(yīng)避免的行為，例如“不要要求用戶聯(lián)系支持”；

Ordered instructions：為模型提供一組必須按給定順序執(zhí)行的指令，例如“首先詢問用戶的姓名，然后詢問他們的電子郵件”；

Content requirements：輸出包含某些信息的內(nèi)容，例如“撰寫營(yíng)養(yǎng)計(jì)劃時(shí)，始終包含蛋白質(zhì)含量”；

Ranking：以特定方式排序輸出，例如“按人口數(shù)量排序”。

Overconfidence：如果請(qǐng)求的信息不可用或請(qǐng)求不屬于給定類別，則指導(dǎo)模型說“我不知道”或類似的話。例如：“如果你不知道答案，請(qǐng)?zhí)峁┲С致?lián)系郵箱?！?/p>

OpenAI的博客中提到，這些類別是根據(jù)開發(fā)者反饋得出的。在每個(gè)類別中，OpenAI將簡(jiǎn)單、中等和困難提示進(jìn)行了細(xì)分，GPT-4.1在困難提示方面相對(duì)于GPT-4o有顯著提升。

▲GPT-4.1在困難提示方面表現(xiàn)

多輪指令遵循對(duì)開發(fā)者的重要性在于，模型需要保持對(duì)話的連貫性，并跟蹤用戶之前告訴它的內(nèi)容。OpenAI訓(xùn)練GPT-4.1，以使得其能更好地從過去的對(duì)話信息中提取信息，從而實(shí)現(xiàn)更自然的對(duì)話。在Scale的MultiChallenge基準(zhǔn)中，GPT-4.1比GPT-4o提高了10.5%。

▲GPT-4.1在MultiChallenge中測(cè)試結(jié)果

在IFEval測(cè)試中，其使用具有可驗(yàn)證指令的提示，例如，指定內(nèi)容長(zhǎng)度或避免某些術(shù)語(yǔ)或格式。GPT-4.1得分達(dá)到87.4%，GPT-4o為81.0%。

▲GPT-4.1在IFEval中測(cè)試結(jié)果

早期測(cè)試者指出，GPT-4.1可能更容易理解字面意思，因此OpenAI建議開發(fā)者可以在提示中明確具體的指令。

03.長(zhǎng)文本理解：適合處理大型代碼庫(kù)、長(zhǎng)文檔“大海撈針”也不在話下

GPT-4.1系列模型可以處理100萬(wàn)個(gè)token上下文，此前GPT-4o的上下文窗口為128000個(gè)。100萬(wàn)個(gè)token已經(jīng)是整個(gè)React代碼庫(kù)的超過8倍之多，因此長(zhǎng)上下文適合處理大型代碼庫(kù)或大量長(zhǎng)文檔。

OpenAI還對(duì)GPT-4.1模型進(jìn)行了訓(xùn)練，使其能在長(zhǎng)和短上下文長(zhǎng)度中忽略干擾信息，這也是法律、編碼、客戶支持等多個(gè)領(lǐng)域的企業(yè)應(yīng)用的關(guān)鍵能力。

博客中，OpenAI展示了GPT-4.1在上下文窗口內(nèi)不同位置檢索一條隱藏的少量信息（即一根?“針”）的能力，也就是“大海撈針”的能力。

▲OpenAI內(nèi)部針對(duì)GPT-4.1模型的“大海撈針”評(píng)估

其結(jié)果顯示，GPT-4.1能夠在所有位置以及各種上下文長(zhǎng)度（直至長(zhǎng)達(dá)100萬(wàn)個(gè)token）的情況下準(zhǔn)確檢索到這條關(guān)鍵信息（“針”）。無(wú)論相關(guān)細(xì)節(jié)在輸入內(nèi)容中的位置如何，它都能提取出與當(dāng)前任務(wù)相關(guān)的細(xì)節(jié)。

在實(shí)際使用中，用戶經(jīng)常需要模型理解、檢索多個(gè)信息片段，并理解這些片段之間的關(guān)系。為了評(píng)估這一能力，OpenAI正在開源新的評(píng)估工具：OpenAI-MRCR（多輪核心詞識(shí)別）。

OpenAI-MRCR可以用來(lái)測(cè)試模型在上下文中找到和區(qū)分多個(gè)隱藏得關(guān)鍵信息的能力。評(píng)估包括用戶和助手之間的多輪合成對(duì)話，用戶要求模型寫一篇關(guān)于某個(gè)主題的文章，例如或“寫一篇關(guān)于巖石的博客文章”。隨后，其會(huì)在整個(gè)對(duì)話上下文中插入2、4或8次相同的請(qǐng)求，模型需要據(jù)此檢索出對(duì)應(yīng)特定請(qǐng)求實(shí)例的回復(fù)。

在OpenAI-MRCR?中，模型回答的問題，會(huì)擁有2個(gè)、4個(gè)或8個(gè)分散在上下文中的相似提示詞干擾項(xiàng)，模型需要在這些問題和用戶提示之間進(jìn)行消歧。

▲在OpenAI-MRCR?中，模型回答問題被添加2個(gè)干擾項(xiàng)的評(píng)估結(jié)果

▲在OpenAI-MRCR?中，模型回答問題被添加4個(gè)干擾項(xiàng)的評(píng)估結(jié)果

▲在OpenAI-MRCR?中，模型回答問題被添加8個(gè)干擾項(xiàng)的評(píng)估結(jié)果

這之中的挑戰(zhàn)就是，這些請(qǐng)求與上下文其余部分很相似，模型容易被細(xì)微的差異所誤導(dǎo)。OpenAI發(fā)現(xiàn)，GPT-4.1在上下文長(zhǎng)度達(dá)到128K個(gè)token時(shí)優(yōu)于GPT-4o。

OpenAI還發(fā)布了用于評(píng)估多跳長(zhǎng)上下文推理的數(shù)據(jù)集Graphwalks。這是因?yàn)?，許多需要長(zhǎng)上下文的開發(fā)者用例需要在上下文中進(jìn)行多個(gè)邏輯跳躍，例如在編寫代碼時(shí)在多個(gè)文件之間跳轉(zhuǎn)，或者在回答復(fù)雜的法律問題時(shí)交叉引用文檔等。

Graphwalks需要模型跨上下文多個(gè)位置進(jìn)行推理，其使用由十六進(jìn)制散列組成的定向圖填充上下文窗口，然后要求模型從圖中的一個(gè)隨機(jī)節(jié)點(diǎn)開始進(jìn)行廣度優(yōu)先搜索（BFS），然后要求它返回一定深度的所有節(jié)點(diǎn)。

▲Graphwalks評(píng)估結(jié)果

GPT-4.1在這個(gè)基準(zhǔn)測(cè)試中達(dá)到了61.7%的準(zhǔn)確率，與o1的表現(xiàn)相當(dāng)，并且擊敗了GPT-4o。

除了模型性能和準(zhǔn)確性之外，開發(fā)者還需要能夠快速響應(yīng)以滿足用戶需求的模型。OpenAI改進(jìn)了推理堆棧，以減少首次token的時(shí)間，并且通過提示緩存進(jìn)一步降低延遲、節(jié)省成本。

OpenAI的初步測(cè)試顯示，GPT-4.1的p95首次token延遲大約為十五秒，在128000個(gè)上下文token的情況下，100萬(wàn)個(gè)上下文token為半分鐘。GPT-4.1 mini和nano更快，如GPT-4.1 nano對(duì)于128000個(gè)輸入token的查詢，通常在五秒內(nèi)返回第一個(gè)token。

04.多模態(tài)理解：無(wú)字幕視頻答題、看圖解數(shù)學(xué)題表現(xiàn)均超GPT-4o

在圖像理解方面，GPT-4.1 mini在圖像基準(zhǔn)測(cè)試中優(yōu)于GPT-4o。

對(duì)于多模態(tài)用例，如處理長(zhǎng)視頻，長(zhǎng)上下文性能也很重要。在Video-MME（長(zhǎng)無(wú)字幕）中，模型根據(jù)30-60分鐘長(zhǎng)的無(wú)字幕視頻回答多項(xiàng)選擇題，GPT-4.1得分72.0%，高于GPT-4o的65.3%。

模型回答包含圖表、圖表、地圖等問題的MMMU測(cè)試結(jié)果：

模型解決視覺數(shù)學(xué)任務(wù)的MathVista測(cè)試結(jié)果：

模型回答關(guān)于科學(xué)論文圖表問題的CharXiv-Reasoning測(cè)試結(jié)果：

05.結(jié)語(yǔ)：為構(gòu)建復(fù)雜智能體開辟可能性

GPT-4.1的提升與開發(fā)者日常開發(fā)的真實(shí)需求相關(guān)，從編碼、指令遵循到長(zhǎng)上下文理解，性能表現(xiàn)更好、更經(jīng)濟(jì)的GPT-4.1系列模型為構(gòu)建智能系統(tǒng)和復(fù)雜的智能體應(yīng)用開辟了新的可能性。

未來(lái)，這或許會(huì)使得開發(fā)者將其與各類API結(jié)合使用，構(gòu)建出更有用、更可靠的智能體，這些智能體可以在現(xiàn)實(shí)世界的軟件工程、從大量文檔中提取見解、以最小的人工干預(yù)解決客戶請(qǐng)求以及其他復(fù)雜任務(wù)方面有應(yīng)用的潛力。

GPT-4.1深夜偷襲！OpenAI掏出史上最小、最快、最便宜三大模型，百萬(wàn)token上下文

01.編碼能力：表現(xiàn)優(yōu)于GPT-4o超80%用戶喜歡GPT-4.1的應(yīng)用

02.遵循指令：評(píng)估6大關(guān)鍵指令性能多輪自然對(duì)話效果比GPT-4o提高10.5%

03.長(zhǎng)文本理解：適合處理大型代碼庫(kù)、長(zhǎng)文檔“大海撈針”也不在話下

04.多模態(tài)理解：無(wú)字幕視頻答題、看圖解數(shù)學(xué)題表現(xiàn)均超GPT-4o

05.結(jié)語(yǔ)：為構(gòu)建復(fù)雜智能體開辟可能性

相關(guān)推薦

GPT-4.1深夜偷襲！OpenAI掏出史上最小、最快、最便宜三大模型，百萬(wàn)token上下文

01.編碼能力：表現(xiàn)優(yōu)于GPT-4o超80%用戶喜歡GPT-4.1的應(yīng)用

02.遵循指令：評(píng)估6大關(guān)鍵指令性能多輪自然對(duì)話效果比GPT-4o提高10.5%

03.長(zhǎng)文本理解：適合處理大型代碼庫(kù)、長(zhǎng)文檔“大海撈針”也不在話下

04.多模態(tài)理解：無(wú)字幕視頻答題、看圖解數(shù)學(xué)題表現(xiàn)均超GPT-4o

05.結(jié)語(yǔ)：為構(gòu)建復(fù)雜智能體開辟可能性

相關(guān)推薦

GPT-4.1深夜偷襲！OpenAI掏出史上最小、最快、最便宜三大模型，百萬(wàn)token上下文