Google GShard
美国
人工智能GPT-3替代大语模型(LLMS)

Google GShard 翻译站点

通过有条件计算和自动碎片缩放巨型模型

标签:
爱站权重:PC 百度权重移动 百度移动权重

在本文中,Google介绍了他们的工作,用于扩展巨型语言翻译模型(在2048 TPU V3内核中进行了600B参数)。

*神经网络扩展对于通过大量培训数据和计算来改善许多现实世界机器学习应用程序的模型质量至关重要。尽管这种缩放趋势被确认为更好的模型质量方法,但在路径上存在挑战,例如计算成本,易于编程和对并行设备上的有效实施。 GSHARD是由一组轻量级注释API和XLA编译器的扩展名组成的模块。它提供了一种优雅的方式来表达广泛的并行计算模式,对现有模型代码的更改最小。 GSHARD使我们能够使用自动碎片来扩展多语言神经机器翻译变压器模型,超过6000亿个参数。我们证明,这种巨型模型可以在4天内有效地对2048 TPU V3加速器进行有效培训,以实现与先前的艺术相比,从100种语言翻译成100种语言的质量。*******************

阅读论文:https://arxiv.org/pdf/2006.16668.pdf

原文:

In this paper Google presents their work for scaling giant language translation models (with 600B parameters trained on 2048 TPU v3 cores).

*Neural network scaling has been critical for improving the model quality in many real-world machine learning applications with vast amounts of training data and compute. Although this trend of scaling is affirmed to be a sure-fire approach for better model quality, there are challenges on the path such as the computation cost, ease of programming, and efficient implementation on parallel devices. GShard is a module composed of a set of lightweight annotation APIs and an extension to the XLA compiler. It provides an elegant way to express a wide range of parallel computation patterns with minimal changes to the existing model code. GShard enabled us to scale up multilingual neural machine translation Transformer model with Sparsely-Gated Mixture-of-Experts beyond 600 billion parameters using automatic sharding. We demonstrate that such a giant model can efficiently be trained on 2048 TPU v3 accelerators in 4 days to achieve far superior quality for translation from 100 languages to English compared to the prior art.*

Read paper: https://arxiv.org/pdf/2006.16668.pdf

数据统计

数据评估

Google GShard浏览人数已经达到162,如你需要查询该站的相关权重信息,可以点击"爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Google GShard的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Google GShard的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Google GShard特别声明

本站GPT 案例导航提供的Google GShard都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由GPT 案例导航实际控制,在2023年3月9日 下午10:30收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,GPT 案例导航不承担任何责任。

相关导航