凯发k8(中国)天生赢家,凯发天生赢家一触即发首页,AG凯发K8国际奶茶官网

  • AG凯发K8国际
  • Scaling Law的准确性仍能超越数据并行训练

    发布时间2025-03-23 03:23:04 来源:小编 阅读次数:

      

    Scaling Law的准确性仍能超越数据并行训练

      研究人员在谷歌张量处理单元 TPUv5e 和 TPUv6e 上进行了大部分实验,并在 TPUv-5 上进行了最大规模的实验★。

      在大模型领域,数据并行训练(Data-Parallel)方法占据着核心地位,它是训练大模型的基础技术之一★。然而,随着模型规模的不断增大,数据并行训练方法的通信开销和内存限制等缺点日益凸显★。

      与此同时★,研究人员使用 all-reduce 进行外部优化★。all-reduce 是一种分布式计算中的通信操作,用于在多个 GPU 或多个 TPU 之间高效地聚合数据。

      03月13日,习语品读|“金融监管要★‘长牙带刺★’、有棱有角★”,万博官网手机版网页★,fun88乐天使客服,万喜堂,365bet体育注册开户首页

      为了利用研究人员的 Scaling Law 来预测 DiLoCo 的超参数,他们分别在训练具有 40 亿参数和 100 亿参数的模型时加以测试。

      这意味着当使用 4 倍大的 batch 时,训练步骤能够减少到原来的 1/4。

      03月13日★,港交所与深交所签署合作协议 支持港交所综合基金平台建设,中国买球有哪些是正规的,万人迷游戏官网★,皇冠体育足球手机下载,贝搏网址

      其中,QKV 维度是指查询(Query)★、键(Key)和值(Value)向量的维度★。这些向量是自注意力机制的核心组成部分,用于计算输入序列中不同位置之间的关系。

      其还使用了一个改进版的 NanoDO,它利用 DrJAX 在副本之间并行化内部训练步骤,并将模型副本轴暴露出来以便进行显式编程★。这对于 JAX 中更好的扩展性能至关重要,因为 DrJAX 提供了 jax★.vmap 的丰富版本,能够提供有关 DiLoCo 副本的更明确的分片信息。

      研究人员发现随着模型尺寸的增大,DiLoCo 会呈现出可预测的稳健扩展★。如果调整得当,DiLoCo 的模型规模扩展性优于数据并行训练方法★,即使在小模型规模下 DiLoCo 也能胜过数据并行训练方法。

      在下图中,研究人员绘制了不同过度训练量下数据并行方法和 DiLoCo 的理想训练时间(M = 2)★。

      日本女星中山美穗被发现死在浴缸中,杨妞花给养父带了苗族衣服习语品读|“种下的既是绿色树苗,也是祖国的美好未来”龙8国际入口dafabetcomag有哪些网站888真人国际-皇 恩赐金

      03月13日时政微周刊丨的一周(4月29日—5月5日)亚娱在哪玩竞技宝测速站地址最新澳门游戏app纳米体育平台怎么样

      由于 DiLoCo 实际上是另一种优化算法 Lookahead optimizer 的增强版本★,因此它不会导致任何通信的减少。

      同时,使用 QKLayerNorm 来降低对于学习率的敏感性。需要说明的是,QKLayerNorm 是一种改进的层归一化技术,主要用于 Transformer 架构中的自注意力机制。另外,研究人员还使用 z 损失正则化来提高训练稳定性。

      03月13日“碳”路先行|共享科技成果 山西太原借“数字丝路”论坛扩大对外开放pg电子游戏巨额大奖视频ku娱乐网站凯时登陆网址OD登录官网

      03月13日,国家卫健委等八部门推进职业健康保护行,凯发娱乐网址谁知道★,乐虎真人★,leyu乐鱼在哪注册,德州牛仔游戏平台

      借此证明,当 Scaling Law 扩展到更大的模型规模时★,其具备更好的评估损失和最优超参数★。

      尽管下图展示的是★“插值”区域的情况★,同时这也是大量扫描的结果,但是这些发现从定性角度来看,同样适用于“外推★”区域。这使得研究人员在 M = 1、2 时★,能够使用 DiLoCo 将 40 亿参数和 100 亿参数量的模型训练得拥有更低的评估损失。

      值得注意的是,M=1 的 DiLoCo 在评估损失和训练时间方面都优于数据并行训练方法。

      03月13日★,福建首次野外观测到国家一级保护动物丹顶鹤★,珠都国际逃脱计划真人密室,hth华体会真人投注,tvt综合体育官网,老地方棋牌

      不过★,眼下显然需要可用于大规模部署 DiLoCo 等方法的系统和软件★,并能在真实的超大模型环境中实现其通信效率优势★。

      这表明 DiLoCo 对于过训练来说是一个巨大的福祉★,因为这意味着可以通过横向可扩展性来摊销计算时间。(注:过训练,是指模型在训练过程中过度拟合训练数据,导致其在未见数据上的性能下降★。)

      然后,研究人员计算批次梯度(batch gradient),并使用学习率 γ 进行优化。

      本次研究使用的词汇量为 32,768★:其中有 32,000 个词汇表内的单词,另外还有一些额外的标记用于表示句子开头和词汇表外的内容★。

      总的来说★,本次结果表明与数据并行方法一样,DiLoCo 可以随着模型大小的变化实现可预测的扩展,这使得在极大的尺度上调整超参数和训练模型变得更加简单。

      对于研究中的每个实验,在不同带宽和不同延迟的网络下,研究人员都能实现理想的端到端 wall-clock 训练时间★。(注★:wall-clock time,指的是从任务开始到结束所经历的实际时间★,包括所有等待时间和计算时间★。)

      其发现,更大的水平并行化例如通过将 batch 大小加倍,将能够减少 wall-clock 时间。

      03月13日【文化拾遗 魅力泉州】走进瓷都德化:“中国白”惊艳世界注册中国10个靠谱的投资平台威尼斯手机客户端网站赢钱的游戏平台

      03月13日杭州:西湖孤山梅花初绽引游人斗牛明牌4张抢庄技巧2020欧洲杯预赛分组情况澳门贵宾厅手机网站英皇体育官方下载……

      03月13日发朋友圈前,你会犹豫吗?乐动体育网址多少雷火电竞官网手机版金沙下载新威尼斯人官网登录

      这意味着在模型大小固定的情况下,如果将 batch 大小 B 加倍★,则训练步骤的数量将会减半。

      令人十分惊讶的是:许多情况下对于相同的 token 预算★,在通信效率更高的 DiLoCo 上,这些 Scaling Law 预测会比数据并行训练方法产生更低的评估损失。

      研究人员的实验包括 M = 1 的 DiLoCo(即仅使用单个副本)。而在这些数据中一个令人惊讶的现象是:即使没有通信瓶颈★,DiLoCo 也能改进训练效果。

      Scaling Law 由 OpenAI 团队于 2020 年正式提出★,并在其论文《神经语言模型的扩展定律》(Scaling Laws for Neural Language Models)中进行了详细阐述。Scaling Law 揭示了模型性能与模型规模、数据量和计算资源之间的数学关系★。但在这两年,由于实际应用局限性★、理论解释不完善等原因,Scaling Law 遭到了一些质疑★。而 Google 旗下两支团队的最新研究,似乎又给 Scaling Law 投上了一张支持票。

      对于 DiLoCo 来说,这会产生相当好的性能,并且可以同时使用更多资源★,从而减少模型总训练时间。

      03月13日,宁夏将迎今年首场大范围降雪,m6vip米乐官网,365bet体育官网app下载★,2022世界杯登陆★,真人游戏网址推荐EVO线日,以防长:以色列已向哈马斯施压,有可能与其达成人质协议,杏耀平台登录网址,MG线,百老汇平台网址多少,九游娱乐

      此外★,还计算了 3 项任务的下游零样本评估指标:HellaSwag、Piqa 和 Arc-Easy。在进行过度训练消融时,使用了 Dolma 数据集。

      此外,DiLoCo 相比数据并行方法可以带来显著优势,包括★:使用单个模型副本时具备更优的评估损失★,在任何模型副本数量下最优 batch 大小都能增大。对于模型规模、过训练和同步频率来说,这将产生更好的鲁棒性。

      宁安如梦★,老练律师 第一季跟着方志打卡威海bob88体育平台提现不了mg在线九游会网站

      为了展示这些效果,研究人员在下图中绘制了在不同带宽的网络下训练时的理想化 wall-clock 时间。

      研究人员发现,M=1 的 DiLoCo 在所有模型尺度上都能实现较低的评估损失,并且能对更大的 batch 产生更好的鲁棒性,从而能够大大减少 wall-clock 训练时间。

      结果显示★,DiLoCo 能够实现更自然的水平扩展性。无论在任何情况★,token 预算 D 仅仅是 N 的函数。

      实验中,研究人员假设其模型正在跨多个数据中心开展训练★。当在数据中心之内的时候★,能够拥有一个高带宽网络。当跨数据中心的时候★,则分别拥有高带宽★、中带宽或低带宽的网络。

      研究中,其始终使用 bfloat16 来表示模型权重和梯度。bfloat16 是一种 16 位浮点数格式,它由 Google 团队开发,它在保留 32 位浮点数动态范围的同时,能够减少存储和计算开销。

      百雀羚欧莱雅过度包装被点名★,如何打造覆盖全球的“朋友圈”?联合国独立调查委员会:以色列与哈马斯在冲突中均犯下战争罪江南游戏社官网网址澳门ag现金官方mg实力平台游戏凯时YUE来就送38

      这时★,研究人员开始针对一系列的模型进行训练,这些模型的 transformer 层数、注意力头数量、QKV 维度和前馈层隐藏维度各不相同。

      在比较数据并行方法和 DiLoCo 时,研究人员始终确保模型大小 N 和总 token 预算 D 保持相同。

      洗肉时不要直接用水冲,EDG冠军赛首战对阵FUT中国团队最新研究:草原火灾位居全球碳排放贡献首位国际澳门赌盘奥博真人国际注册九游会ag真人官网网址天博官网

      03月13日,江启臣任新一届台立法机构副负责人★,开博体育下载app,贝博网站app登录入口★,dhy80999,在哪个APP可以买滚球

      当通信时间处于理想状态的时候★,研究人员始终将高带宽网络用于数据中心内的网络,以及将三种网络中的任意一种用于跨数据中心网络。

      研究中★,他们研究了在固定计算预算之下训练大模型时 DiLoCo 的 Scaling Law 行为★,借此揭示了 DiLoCo 一系列更通用的优点:包括其能够增加最佳 batch 大小、能够提高下游规模的泛化能力、能够在固定 token 预算之下改善评估损失。(注★:评估损失,是指模型在验证集或测试集上计算出的损失值。)

      其发现,DiLoCo 能够通过降低通信成本和利用更大的 batch 来加速过度训练,因此需要的串行训练步骤更少★。

      在数据并行训练方法中★,在每一步研究人员都会获取一个 batch 大小为 B 的数据★。

      相比之下,数据并行训练方法似乎需要更多的串行训练★。因为,训练时间的减少与通信的减少是相辅相成的。

      尽管如此,研究人员发现平均而言,虽然独立拟合在预测损失和全局批量大小方面略优于联合拟合,但独立拟合在预测内部学习率方面要明显好得多。

      03月13日郑永年:民营企业正扮演着越来越重要的角色尊龙凯时人生就是搏ag8平台登录宝博斗地主官网必威体育官网app

      借此发现★,DiLoCo 对更大 batch 的容忍度使其能够更快地实现与数据并行方法大致相当的损耗。

      烂尾楼盘复盘5折开卖 已购业主:退钱★,鹿晗直播王勉钓鱼又一家!汽车经销商永奥遇经营危机,4S店模式面临终结?澳门永利有多少人提款不成ManBetX万博在线登陆棋乐棋牌官网版正版明博体育官方网站

      而本次研究中★,基于相关数据研究人员为数据并行训练方法和 DiLoCo 分别建立了评估损失和最优超参数的 Scaling Law。

      03月13日★,国际儿童图书日历年海报展揭幕 一展各国丰富人文内涵,AG亚洲国际官网登录★,水果游戏手机版★,送体验金网站★,AOA客户端下载

      然而,通过使用低频动量操作,无论在怎样的模型规模下,DiLoCo 在评估损失和对更大 batch 的容忍度上,都要优于数据并行训练方法。

      03月13日京港青年文化人才交流收官 吴志华:为年轻人注入文化创新的DNA天博综合app官网登录必威精装版app下载太阳集团2020登录网址天天体育平台官网

      事实证明★,Scaling Law 是准确的。即使总通信量减少 99% 以上★,DiLoCo 的表现也能优于数据并行训练。

      研究中★,研究人员分别通过数据并行训练方法和 DiLoCo 来开展模型训练★。

      为了计算某些留出集的评估损失 L,针对数据并行方法研究人员使用当前模型,针对 DiLoCo 研究人员使用最新的全局模型。(注★:留出集★,是指从原始数据集中特意保留的一部分数据,用于评估模型的泛化性能。)

      利用相关数据,研究人员推导出了 Scaling Law★,从而能够预测较大模型的评估损失和最优超参数。

      与此同时★,研究人员的结果表明,DiLoCo 和数据并行训练这两种方法通常都是有效的,尽管没有明确的赢家★,但是 M 之间的残差存在显著差异。

      药明康德转融券融出量激增30倍,表达力太差 宝藏纪录片推荐欧盟拟对中国电动汽车加税 欧洲多国政要及车企:反对澳门哪能玩梭哈体育网站排名365bet体育安卓版下载华体会下载

      对于每个实验,其还计算了一个理想化的 wall-clock 训练时间,并在这一时间中考虑了理想化的计算时间和通信时间★。同时,其还专门测量了端到端的 wall-clock 时间。

      终于有人把五险一金说清楚了,辛芷蕾冰川照中国住建部谈保交房攻坚战目标:年底前交付396万套住房ag娱乐手机客户端下载十博体育链接亚州最佳网投bet9网

      实验中,研究人员将多个序列打包到每个 batch 中,整个 batch 的最大序列长度为 2048。

      实验中★,研究人员通过使用 Scaling Law 设置的超参数来训练 4B 和 10B 模型来验证上述观点★。