自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

挑戰(zhàn)OpenAI的新模型免費上線,40%計算量性能逼近GPT-4

人工智能 新聞
據(jù)介紹,Inflection-2.5 將強大的 LLM 能力與 Inflection 標志性的「同理心微調(diào)」結(jié)合在一起,兼具高情商與高智商,可聯(lián)網(wǎng)獲取事實信息,其性能可與 GPT-4、Gemini 等領(lǐng)先大模型相媲美。

本周四,美國 AI 創(chuàng)業(yè)公司 Inflection AI 正式發(fā)布新一代大語言模型 Inflection-2.5。

據(jù)介紹,Inflection-2.5 將強大的 LLM 能力與 Inflection 標志性的「同理心微調(diào)」結(jié)合在一起,兼具高情商與高智商,可聯(lián)網(wǎng)獲取事實信息,其性能可與 GPT-4、Gemini 等領(lǐng)先大模型相媲美。

Inflection-2.5 現(xiàn)已向所有 Pi 用戶開放,在 PC 端、iOS 和安卓 App 上均是免費可用。ps. 機器之心也簡單測試了下,覺得確實還只是「逼近」(不如)GPT-4,感興趣的讀者可以自行體驗下。

圖片

鏈接:https://pi.ai/talk

值得注意的是,Inflection-2.5 實現(xiàn)了接近 GPT-4 的性能,而訓練過程卻僅使用 GPT-4 40% 的算力。

Inflection AI 表示,新一代大模型在編碼和數(shù)學等智商領(lǐng)域取得了特別的進步。這轉(zhuǎn)化為對關(guān)鍵行業(yè)基準的具體改進,確保 Pi 始終處于技術(shù)前沿。Pi 現(xiàn)在還融入了世界一流的實時網(wǎng)絡(luò)搜索功能,以確保用戶獲得高質(zhì)量的突發(fā)新聞和最新信息。

Inflection-2.5 vs GPT-4

Inflection-1 訓練使用的 FLOP 約為 GPT-4 的 4%,在各種「IQ 導向」型任務(wù)中,其平均性能約為 GPT-4 水平的 72%?,F(xiàn)在,Inflection-2.5 盡管只使用 GPT-4 40% 的 FLOP 來進行訓練,但其平均性能卻達到了 GPT-4 的 94% 以上。如下圖所示,Inflection-2.5 的性能取得了全面的顯著提升,其中 STEM 領(lǐng)域知識的改進最大。

圖片

Inflection-2.5 在兩項不同 STEM 考試 —— 匈牙利數(shù)學考試、物理學研究生入學考試(GRE)—— 的成績?nèi)缦拢?/span>

圖片

如下表所示,該研究還在 MMLU 基準、GPQA Diamond 基準上評估了 Inflection-2.5。MMLU 基準涵蓋 STEM、人文、社會科學等領(lǐng)域的 57 個學科,能夠有效地測試 LLM 的綜合知識能力,而 GPQA Diamond 基準是一個極其困難的專家級基準。

圖片

在 BIG-Bench-Hard 基準上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可與 GPT-4 相媲美。BIG-Bench-Hard 基準主要涵蓋大型語言模型難以解決的問題。

圖片

該研究還在 MT-Bench 基準上進行了評估。然而,研究團隊意識到該基準在推理、數(shù)學和編碼類別中有很大一部分(近 25%)的樣本示例具有不正確的參考解決方案或前提有缺陷。因此,該研究更正了這些示例,并再次進行評估實驗,結(jié)果如下表所示:

圖片

在 GSM8k 和 MATH 基準上的評估結(jié)果表明,Inflection-2.5 在數(shù)學和編碼能力方面比 Inflection-1 有顯著改進:

圖片

為了進一步測試 Inflection-2.5 的編碼能力,該研究在 MBPP+ 和 HumanEval+ 兩個編碼基準上進行了評估實驗,結(jié)果如下表所示:

圖片

研究團隊在 HellaSwag 和 ARC-C、以及各種模型常識和科學基準上評估了 Inflection-2.5。從下圖結(jié)果來看,Inflection-2.5 在這些基準上實現(xiàn)了強勁性能。

圖片

此外,以上所有評估都是使用現(xiàn)在支持 Pi 的模型完成的。但也需要注意,由于網(wǎng)絡(luò)檢索(以上基準沒有使用網(wǎng)絡(luò)檢索)、few-shot 提示的結(jié)構(gòu)以及其他生產(chǎn)方面的影響,用戶體驗可能略有差異。

總的來說,Inflection-2.5 保持了 Pi「走心」的特性和極高的安全標準,成為了一個更全面的有用模型。

最近一段時間,大語言模型的技術(shù)競爭進入了白熱化階段,在眾多科技公司中,Mistral AI(Mistral  Large)、Anthropic(Claude 3)脫穎而出,提出的新技術(shù)實現(xiàn)了與 GPT-4、Gemini Ultra 接近的能力。昨天出現(xiàn)的 Inflection-2.5,似乎也要加入第一梯隊的行列。

作為硅谷明星創(chuàng)業(yè)公司,Inflection AI 的來頭不小,它成立與 2022 年,三位聯(lián)合創(chuàng)始人分別是原 DeepMind 聯(lián)合創(chuàng)始人 Mustafa Suleyman、Linkedln 聯(lián)合創(chuàng)始人 Reid Hoffman,還有前 DeepMind 首席科學家 Karen Simonyan。

圖片

去年 6 月,Inflection AI 宣布獲得 13 億美元融資,由微軟、英偉達以及 Reid Hoffman、比爾?蓋茨、谷歌前 CEO 埃里克?施密特領(lǐng)投。目前,Inflection AI 已成為全球第四大生成式 AI 創(chuàng)業(yè)公司。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-04-09 16:17:05

ChatGPT人工智能

2024-09-09 09:40:00

OpenAIGPT-4

2024-03-08 12:53:42

AI數(shù)據(jù)

2023-11-24 09:00:00

2024-01-26 12:31:16

OpenAIGPT-4代碼

2024-02-27 16:30:37

OpenAIGPT-4Mistral AI

2024-03-08 13:18:44

模型訓練

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2023-07-07 09:32:57

GPT-4OpenAI

2023-06-08 11:27:10

模型AI

2023-09-19 13:48:31

AI數(shù)據(jù)

2023-12-17 22:04:04

微軟GPT-4

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2024-05-28 14:40:00

2023-07-06 06:56:58

人工智能OpenAIGPT-4

2023-06-14 14:57:38

模型AI

2023-12-26 08:17:23

微軟GPT-4

2023-06-19 08:19:50

2023-03-16 17:28:59

技術(shù)AI

2023-08-15 15:03:00

AI工具
點贊
收藏

51CTO技術(shù)棧公眾號