【48812】“难如登天”out！“数星星”成测长文本才干更精准办法来自鹅厂_喷雾粒度仪

NG体育官方网站

【48812】“难如登天”out！“数星星”成测长文本才干更精准办法来自鹅厂

发布时间：2024-05-26 来源：喷雾粒度仪

腾讯MLPD拜见室，用全新开源的“数星星”办法代替了传统的“难如登天”测验。

比较之下，新办法更重视对模型处理长依靠联系才干的调查，对模型的评价愈加全面精准。

使用这种办法，研究人员对GPT-4和国内闻名的Kimi Chat进行了“数星星”测验。

成果，在不同的拜见条件下，两款模型各有胜负，但都体现出了很强的长文本才干。

首要，研究人员挑选了一段长文本做为上下文，测验过程中长度逐步递加，最大为128k。

然后，依据不同的测验难度需求，整段文本会被区分红N段，并向其间刺进M个包括“星星”的语句。

拜见过程中，研究人员挑选了《红楼梦》作为上下文文本，向其间加入了“小企鹅数了x颗星星”这样的语句，每个语句中的x都各不相同。

然后，模型会被要求找到一切这样的语句，并以JSON格局输出其间一切的数字，且只输出数字。

得到模型的输出之后，研究人员会将这些数字和Ground Truth作比照，终究计算出模型输出的正确率。

比较于之前的“难如登天”测验，这种“数星星”的办法更能体现出模型处理长依靠联系才干。

简而言之，“难如登天”中刺进多个“针”便是刺进多个头绪，然后让大模型找到并串联推理多个头绪，并取得终究答案。

但实践的“大海捞多针”测验中，模型并不是特别需求找到一切“针”才干答对问题，乃至有时只需求找到最终一根就可以了。

但“数星星”则不同由于每句话中“星星”的数量都不相同，模型有必要把一切星星都找到才干把问题答对。

所以，尽管看似简略，但至少在多“针”使命上，“数星星”对模型长文本才干有着更为精准的体现。

参与这场测验的大模型分别是GPT-4和国内以长文本才干而闻名的大模型Kimi。

在“星星”数量和文本粒度均为32时，GPT-4的准确率达到了96.8%，Kimi则有86.4%。

但当“星星”添加到64颗时，Kimi则以93.1%的准确率超过了准确率为89.7%的GPT-4.

而区分的颗粒度也会对模型的体现形成一些影响，在“星星”相同呈现32次时，颗粒度从32变为16，GPT-4的成果有所上升，而Kimi则有所下降。

需求留意的是，在以上的测验中，“星星”的数量是顺次递加的，但研究人员很快发现，这样的一种情况下大模型很喜欢“偷闲”

当模型发现星星数量是递加的的时分，即便区间内的数字是随机生成，也会引起大模型的敏感度添加。

成果在打乱之后，GPT-4和Kimi的体现都呈现了清楚明了地下降，不过准确率仍在60%以上，两者相差8.6个百分点。

但魔幻的背面，也体现出人类关于大模型长语境处理才干和功能的了解还不行充沛。

就在前些天，先后有多家大模型厂商宣告推出可处理超长文本的模型(尽管不全是根据上下文窗口完成)，最高可达上千万，但实践体现仍是未知数。

而Counting Stars的呈现，或许正好有助于咱们不难发现这些模型的实在体现。

文章内容仅供阅览，不构成出资主张，请慎重对待。出资者据此操作，危险自担。

四月中旬，为庆祝绝味鸭脖创建19周年，绝味鸭脖更是以“19岁，绝美芳华”作为周年庆主题，推出全新“爆耐撕绝绝脂大刀肉片”，并从产品卖点动身，整合全途径资源进行营销传达，收成想法的一起好评，全网声量火爆，线下好评如潮。

近来，中国家电及消费电子博览会(AWE 2024)隆重开幕。全球抢先的智能终端企业TCL实业携多款立异技能和新品露脸，以敢为精神勇闯技能无人区，斩获四项AWE 2024艾普兰大奖。

“曾经都要去窗口办，一套流程下来都要半个月了，现在便利多了!”翻开“重庆公积金”微信小程序，依照提示流程提交相关资料，仅几秒钟，重庆市民曾某的账户就打进了21600元。

2024年3月12日，由爱普生举行的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

由国际人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会一起辅导，由上海市人工智能行业协会联合上海人工智能拜见室、上海临港经济发展(集团)有限公司、敞开原子开源基金会主办的“2024全球开发者前锋大会”，将于2024年3月23日至24日举行。