在 Kubernetes 上扩展 TensorFlow 模型
](https://www.cs.cmu.edu/~muli/file/ps.pdf)(参数服务器)的中央实体,它负责聚合和计算梯度,并将更新的参数传递给每个 worker。 在分布式集群中实现这样的策略并非易事。特别是,worker 应该能够在不同节点之间进行数据和权重的沟通,并有效协调它们的学习,同时避免错误。 TensorFlow 在[tf.distribut.Strategy](https://www.tensorflow.org/api_docs/python/tf/distribute/Strategy)模块中实现了各种分布式训练策略,以节省开发人员的时间。有了这个模块,机器学习开发人员只要对他们的代码做最少的修改,就可以在多个节点和 GPU 之间分发训练。 这个模块实现了几种同步策略,包括...阅读全文