亚洲色网 微软Phi-4封神:14B小模子数学打败GPT-4o 36页时候论说出炉

亚洲色网 微软Phi-4封神:14B小模子数学打败GPT-4o 36页时候论说出炉

亚洲色网

以致,在2024 ACM数学竞赛问题上,Phi-4取得了91.8%准确率。

Phi系列前认真东说念主Sebastien Bubeck看到这个扬弃后,感到绝顶诧异。

底下这个例子,展示了Phi-4在数学推理方面的才能,不仅神速还准确。

深挖背后,Phi-4承袭了Phi系列前几代的传统,一样是在教科书级别的「合成数据」上完成了闇练。

合成数据比例高达40%

除了合成数据,它共终显著三大中枢时候抑遏,包括精选的原生数据,以及伊始的后闇练时候,如DPO中的关节token搜索(Pivotal Tokens Search)。

Phi-4的奏效,从侧面推翻了Ilya、Alexander Wang多位大佬声称的「数据墙」的不雅点。

面前,新模子在微软Azure AI Foundry上提供,下周将在HuggingFace上线。

数学打败GPT-4o,36页时候论说出炉

Phi-4与大多数言语模子不同,那些模子的预闇练主要基于诸如齐集内欢跃代码这类当然产生的数据着手,而Phi-4则有战术地在通盘这个词闇练过程中融入了合成数据。

固然Phi系列先前的模子证实主要着手于蒸馏了教师模子(特殊是GPT-4)的才能,但Phi-4在STEM范畴的问答才能上显赫卓绝了其教师模子,解说了数据生成和后闇练时候比模子蒸馏更能带来才能上的擢升。

论文地址:https://arxiv.org/abs/2412.08905

Phi-4主若是由三部分中枢时候组成:

- 预闇练和中闇练的合成数据

- 高质地有机数据的筛选和过滤

- 后闇练

成绩于这些翻新,Phi-4在推理关系任务上的性能与更大的模子相当,以致卓绝它们。

举例,在好多平时使用的推理关系基准测试中,其性能达到或向上了Llama-3.1-405B。

通过表1不错发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显赫向上了其教师模子GPT-4o。

表1 Phi-4在经典基准测试上的证实

为了考证Phi-4是否存在过拟合和数据期凌问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模子。

这两场竞赛中的数据均未尝在闇练时被网罗过,是以其竞赛证实不错有用地当作检修模子泛化性能的想法。

从下图中不错看出,Phi-4固然只是只好14B,然而其平均得分以致大幅向上了其教师模子GPT-4o。

Phi-4在数学竞赛问题上优于好多更大的模子,包括Gemini Pro 1.5

合成数据的上风

合成数据组成了Phi-4闇练数据的大部分,其通过多种时候生成,包括多智能体辅导(multi-agent prompting)、自更正责任流(self-revision workflows)和指示回转(instruction reversal)。

这些时候花式大概构建促使模子具备更强推理和问题处罚才能的数据集,处罚了传统无监督数据皆集的一些弊端。

合成数据不是有机数据的低价替代品,而是相干于有机数据具有几个平直上风。

数据结构化和撑捏渐进式学习

在有机数据皆集,token之间的关系常常复杂且曲折。可能需要好多推理要领才能将现时token与下一个token磋磨起来,这使得模子难以从预计下一个token的标的任务中有用学习。

比较之下,由于从言语模子生成的每个token都是左证前边的token预计而来的,而这么结构化的token也不错让模子的闇练变得愈加高效。

将闇练与推理高低文对皆

合成数据不错避让掉模子从有机数据皆集学习到一些并不相宜后续闇练的数据特色。

比如说,齐集论坛常常有着自己特定的疏导立场、用语习气等,而东说念主们与大模子对话时,其言语立场、交互逻辑又是另外一种情况。

此时如果平直给与齐集论坛的数据进行闇练,假定有一些内容的立场比较特有,模子就会以为在对话中该内容出现的几率会很低。因此在后续对话中模子进行推理时,便弗成将对话内容精确匹配到对应的论坛内容上去。

而合成数据会将齐集论坛中的内容改写成与LLM交互时的言语立场,使得其在LLM聊天推理的高低文中更容易匹配。

合成数据在Phi-4的后闇练中也线路着关节作用,其中给与了诸如拒却采样和平直偏好优化(DPO)的新花式来优化模子的输出。

合成数据的着手

预闇练和闇练中数据

为此,研究团队创建了50种平时的合成数据集类型,每个数据集都依赖于不同的种子和不同的多阶段辅导设施,涵盖了各式主题、手段和交互性质,累计约4000亿个无权重的token。

通过以下花式,他们确保了合成数据并不被一些低质地的齐集数据所期凌,从而成为高质地闇练数据集。

种子数据集的构建

1. 网页和代码种子:从网页、书本和代码库中索要纲领和代码片断,要点体恤具有高复杂性、推理深度和考验价值的内容。为确保质地,团队给与两阶段筛选经过:伊始,识别需要体恤的要点高价值页面,其次,将采纳的页面分割成段落,并对每个段落的客不雅和推理内容进行评分。

2. 问题数据集:从网站、论坛和问答平台上网罗了大量问题。然后使用投票时候对这些问题进行筛选以均衡难度。具体来说,团队为每个问题生成多个孤苦的谜底,并应用多数投票来评估谜底的一致性。然后丢弃通盘谜底都一致(标明问题太浅易)或谜底全都不一致(标明问题太难或迟滞)的问题。

3. 从多种着手创建问答对:应用言语模子从书本、科学论文和代码等有机着手中索要问答对。这种花式不单是依赖于在文本中识别显式的问答对。相背,它触及一个旨在检测文本中的推理链或逻辑程度的pipeline。言语模子识别推理或问题处罚过程中的关节要领,并将它们重新表述为问题和相应的谜底。实验标明,如果操作安妥,在生成内容上进行闇练(在学术和里面基准上的改进方面)不错比在原始内容上进行闇练愈加有用。

重写和增强:种子通过多要领辅导责任经过改革为合成数据。这包括将给定段落中的大部分有用内容重写为老成、商量或结构化推理任务。

自我更正:运行响应解析过一个反馈回路进行迭代式优化,在该回路中,模子会依据侧重于推理和事实准确性的评判圭表进行自我评判,并随后改进自己的输出内容。

指示回转用于代码和其他任务:为了提高模子从指示生成输出的才能,团队给与了指示回转时候。举例,他们从代码数据语料库中录取现存的代码片断,并应用它们生成包含问题刻画或任务辅导的相应指示。只好原始代码和左证生成指示而重更生成的代码之间相似度高的指示才会被保留,以确保指示与输出内容相匹配。

后闇练数据

在后闇练阶段中,数据集主要由两部分组成:

探花七天

- 监督微调(SFT)数据集:使用从公开数据集和合成数据中用心筛选的用户辅导,再生成多个模子响应,并使用基于LLM的评估过程采纳最好响应。

- 平直偏好优化(DPO):基于拒却采样和LLM评估生成DPO对,其中部分基于创建关节词token对的花式。

研究者应用生成的SFT数据和DPO数据对,来缓解模子的幻觉问题。

如下图6扬弃清爽,这种花式大大减少了SimpleQA中的幻觉状态。

预闇练

Phi-4一样基于Transformer架构构建,具有14B参数和默许的高低文长度4096。在闇练中期,彭胀到16K高低文。

由于预闇练模子不擅长罢黜指示,因此使用需要谜底给与特定表情(举例浅易评估)的零样本评估不是很有参考价值。

因此,团队给与了里面终了的基准测试进行预闇练评估,该基准测试对各式任务使用混杂的对数似然与极少样本辅导。

具体来说,他们对 MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k差异使用 1、3、4和8个少样本的示例,以匡助模子罢黜谜底表情。

表2 phi-4较phi-3-medium在预闇练后基准测试评估的提增值

在长高低文基准HELMET测试中,Phi-4在调回率、最大高低文等想法上,的确取得了伊始的上风。

后闇练

如前所述,在后闇练阶段过程中,最繁难的一个时候是关节token搜索(PTS),那么这究竟是什么呢?

关节token搜索(Pivotal Token Search)

当模子对一个辅导逐token生成复兴时,每个token都对应着模子回答的一个前缀。

关于每个这么的前缀,不错斟酌两个关节token:一是在改前缀下,模子回答正确的要求概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。

其实,在AI模子生成谜底时,常常只好少数几个关节token决定了通盘这个词谜底的正确与否。

在研究中,团队不雅察到一个道理的状态是:当模子在解答数知识题时,只是生成了negative关节token,就让原来可能失败的解答转向了奏效。

而随后,它生成了(a token又可能让正确率急剧下落。

面前,将这个花式与DPO闇练花式勾通想考后,发现了几个值得细巧的问题。

如上图3所示,实验中有好多token概率远低于关节token「negative」的0.31,这些token会在闇练中产生噪声,稀释来自关节token的有用信号。

更倒霉的是,像(a这么导致解题不牢固的token,反而会因其低概率(0.12)收到热烈的正向学习信号。

此外,直观标明,当两个文本内容出现执行性偏差时,比较它们各自下一个token概率(DPO的作念法)可能失去深嗜。

总之,更故深嗜的信号,应该来自于文本动手偏离时的首批token。

为了缓解之前的问题,微软团队提议了一种翻新的花式——关节token搜索(PTS)。

这个花式专门针对单个关节token生成偏好数据,在使用DPO优化服从精确作用于特定token。

PTS的中枢任务是,在好意思满的token序列(T_full = t1, t2, ...)中找出那些关节token。

具体来说,它需要找出那些能显赫影响奏服从的token的位置,即p(success | t1, ..., ti)。

PTS会将发现的关节token改革为闇练数据,先将Q + t1, ..., ti-1当作查询基准,再采纳能提高/镌汰奏服从的单个token差异当作「摄取」和「拒却」的样本。

固然PTS使用的二分查找算法弗成保证找出通盘的关节token,但它具有两个繁难特色。

- 找到的一定是关节token

- 如果奏效概率再解题过程中接近单调变化,则能找出所磋磨键token

下图5所示,是使用PTS生成的偏好数据的示例。

在数知识答示例中,研究发现了一个道理的状态,关节token常常不是彰着的畸形,而是带领模子走向不同解题旅途的采纳点。

比如,花式A——差异乘以分母;花式B——平直交叉相乘。

固然这两种花式在数学上都是正确的,但关于模子来说,常常后者愈加持重。

通过PTS生成的闇练数据,不错匡助Phi-4在这些关节方案点上作念出更优的采纳。

以小博大,Phi-4赢麻了

基于以上时候的翻新,Phi-4才能在各项基准测试中展现出惊艳的一面。

上表1中,相较于同级别的Qwen-2.5-14B-Instruct模子,在12个基准测试中,Phi-4在九项测试中赢得上风。

况且,研究东说念主员以为Phi-4在SimpleQA上的证实执行上比Qwen更好。

事实上,他们的基础模子在SimpleQA上获取了比Qwen-2.5-14B-Instruct更高的基准分数,只不外团队在后闇练中有意修改了模子的行径,以优化用户体验而不是追求更高的基准分数。

此外,Phi-4在STEM问答任务上展现出超卓的实力。

比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它以致向上了其教师模子GPT-4。

在HumanEval和HumanEval+臆想的编码才能方面,它也比任何其他开源模子(包括更大的Llama模子)得分更高。

而Phi-4证实欠佳的范畴,差异在SimpleQA、DROP和IFEval上。

至于前两个,研究东说念主员以为simple-evals论说的数字过于简化,并弗成准确反馈模子在基准问题上的证实。

关联词,IFEval揭示了Phi-4的一个信得过的弊端——在严格罢黜指示方面存在困难。

在往常下一步研究中,研究东说念主员战胜通过有针对性的合成数据,让Phi系列模子的指示扈从性能得到显赫改善。

接下来,还真有点期待,下一个Phi系列小模子的发布了。

参考府上:

https://x.com/iScienceLuvr/status/1867377384145727635

https://x.com/peteratmsr/status/1867375567739482217

https://x.com/VentureBeat/status/1867376462589739098亚洲色网





Powered by 黄药师 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024