• 彩乐园-迪士尼彩乐园官网 百川智能发布Baichuan2-192K大模子:一次可输入35万字

    发布日期:2025-01-09 00:46    点击次数:59

    【大家网科技抽象报说念】10月30日音信, 百川智能发布Baichuan2-192K大模子,粗略惩办约35万个汉字,是现在因循长险峻文窗口大模子Claude2(因循100K险峻文窗口,实测约8万字)的 4.4倍,亦然 GPT-4(因循32K险峻文窗口彩乐园-迪士尼彩乐园官网,实测约 2.5万字)的14倍。

    贵府清楚,本年9月25日,百川智能已敞开了Baichuan2的API接口,安定抨击企业级市集,开启买卖化程度。这次Baichuan2-192K将以API调用和独有化部署的格局提供给企业用户,现在百川智能如故驱动Baichuan2-192K的API内测,敞开给法律、媒体、金融等行业的中枢互助伙伴。

    据先容,险峻文窗口长度是大模子的中枢时刻之一,通过更大的险峻文窗口,模子粗略聚拢更多险峻文试验赢得更丰富的语义信息,更好的捕捉险峻文的联系性、捣毁歧义,进而愈加准确、运动的生成试验,提高模子能力。

    Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、选录的评测集上阐发优异。LongEval的评测恶果清楚,彩乐园-迪士尼彩乐园官网在窗口长度稀奇100K后Baichuan2-192K依然粗略保握相等强盛的性能。

    扩大险峻文窗口能有用提高大模子性能是东说念主工智能行业的共鸣,关联词超长险峻文窗口意味着更高的算力需乞降更大的显存压力。现在,业内有好多提高险峻文窗口长度的格局,包括滑动窗口、降采样、小模子等。这些格局固然能提高险峻文窗口长度,但对模子性能均有不同程度的毁伤,换言之王人是通过就义模子其他方面的性能来调换更长的险峻文窗口。

    而本次百川发布的Baichuan2-192K通过算法和工程的极致优化,收场了窗口长度和模子性能之间的均衡,作念到了窗口长度和模子性能的同步提高。

    算法方面,百川智能建议了一种针对RoPE和ALiBi动态位置编码的外推决策,该决策粗略对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插,在保证差别率的同期增强了模子对长序列依赖的建模能力。在长文本困惑度圭表评测数据 PG-19上,当窗口长度扩大,Baichuan2-192K的序列建模能力握续增强。

    工程方面,在自主成就的散布式试验框架基础上,百川智能整合现在市集上统统先进的优化时刻彩乐园-迪士尼彩乐园官网,包括张量并行、活水并行、序列并行、重筹划以及Offload功能等,创始了一套全面的4D并行散布式决策。该决策粗略把柄模子具体的负载情况,自动寻找最稳妥的散布式计谋,极大镌汰了长窗面试验和推理流程中的显存占用。