在 Kubernetes 上扩展 TensorFlow 模型
些,有效地在 Kubernetes 上扩展 TensorFlow 模型。 ## 使用 TFJob 进行可扩展的 TensorFlow 训练 TFJob 可以在 Kubernetes 中扩展,方法是使用[TensorFlow 分发策略](https://www.tensorflow.org/api_docs/python/tf/distribute/Strategy)实现分布式训练。在机器学习中有两种常用的分布式策略:同步和异步。 在同步训练中,worker 对特定批次的训练数据进行并行训练。每个 worker 都会进行自己的前向传播步骤,并对迭代的整体结果进行汇总。 相比之下,在异步训练中,worker 对相同的数据进行并行学习。在这种方法中,有一个称为[Parameter Server...阅读全文