Path: blob/master/site/zh-cn/guide/migrate/migration_debugging.ipynb
25118 views
Copyright 2021 The TensorFlow Authors.
调试 TensorFlow 2 迁移的训练流水线
此笔记本演示了如何在迁移到 TensorFlow 2 (TF2) 时调试训练流水线。它由以下组件组成:
调试训练流水线的建议步骤和代码示例
用于调试的工具
其他相关资源
一个假设是您有用于比较的 TensorFlow 1 (TF1.x) 代码和已训练模型,并且您希望构建一个 TF2 模型来实现类似的验证准确率。
此笔记本不涵盖有关训练/推断速度或内存使用量的调试性能问题。
调试工作流
下面是调试 TF2 训练流水线的一般工作流。请注意,您不需要按顺序执行这些步骤。您也可以使用二分查找方法,在中间步骤中测试模型并缩小调试范围。
修复编译和运行时错误
单次前向传递验证(在单独的指南中)
a. 在单个 CPU 设备上
验证变量是否只创建一次
检查变量计数、名称和形状是否匹配
重置所有变量,在停用所有随机性的情况下检查数值等价性
对齐随机数生成,检查推断中的数值等价性
(可选)检查检查点已正确加载,TF1.x/TF2 模型生成相同的输出
b. 在单个 GPU/TPU 设备上
c. 采用多设备策略
几个步骤的模型训练数值等价性验证(下面提供代码示例)
a. 在单个 CPU 设备上使用少量固定数据进行单次训练步骤验证。具体来说,检查以下组件的数值等价性
损失计算
指标
学习率
梯度计算和更新
b. 在训练 3 个或更多步骤后检查统计数据,验证优化器的行为(如动量)在单个 CPU 设备上是否仍然使用固定数据
c. 在单个 GPU/TPU 设备上
d. 使用多设备策略(查看底部 MultiProcessRunner 的介绍)
对真实数据集的端到端收敛测试
a. 使用 TensorBoard 检查训练行为
首先使用 SGD 等简单的优化器和
tf.distribute.OneDeviceStrategy
等简单的分布策略训练指标
评估指标
找出对固有随机性的合理容忍度是多少
b. 使用高级优化器/学习率调度器/分布策略检查等价性
c. 使用混合精度时检查等价性
附加产品基准
安装
单前向传递验证
单前向传递验证(包括检查点加载)将在不同的 colab 中介绍。
几个步骤的模型训练数值等价性验证
设置模型配置并准备一个假数据集。
定义 TF1.x 模型。
以下 v1.keras.utils.DeterministicRandomTestTool
类提供了一个上下文管理器 scope()
,它可以使有状态的随机运算在 TF1 计算图/会话和 Eager Execution 中使用相同的种子。
此工具提供两种测试模式:
constant
,无论被调用过多少次,都会为每个单一运算使用相同的种子,以及num_random_ops
,使用先前观测到的有状态随机运算的数量作为运算种子。
这既适用于用于创建和初始化变量的有状态随机运算,也适用于计算中使用的有状态随机运算(例如用于随机失活层)。
在计算图模式下运行 TF1.x 模型。收集前 3 个训练步骤的统计数据以进行数值等价性比较。
定义 TF2 模型。
在 Eager 模式下运行 TF2 模型。收集前 3 个训练步骤的统计数据以进行数值等价性比较。
比较前几个训练步骤的数值等价性。
您还可以查看验证正确性和数值等价性笔记本以获得关于数值等价性的额外建议。
单元测试
有几种类型的单元测试可以帮助调试迁移代码。
单前向传递验证
几个步骤的模型训练数值等价性验证
基准推断性能
已训练模型对固定和简单的数据点做出正确预测
可以使用 @parameterized.parameters
来测试具有不同配置的模型。包含代码示例的详细信息。
请注意,可以在同一个测试用例中运行会话 API 和 Eager Execution。下面的代码段显示了具体方式。
调试工具
tf.print
tf.print 与 print/logging.info
利用可配置参数,
tf.print
能够以递归方式显示打印张量的每个维度的前几个和最后几个元素。请查看 API 文档以了解详情。对于 Eager Execution,
print
和tf.print
都会打印张量的值。但print
可能涉及设备到主机的复制,这可能会减慢代码速度。对于包含
tf.function
内用法的计算图模式,您需要使用tf.print
打印实际张量值。tf.print
被编译成计算图中的一个运算,而print
和logging.info
只在跟踪时记录,这通常不是您希望的。tf.print
还支持打印复合张量,如tf.RaggedTensor
和tf.sparse.SparseTensor
。您还可以使用回调来监视指标和变量。请检查如何使用带有日志字典和 self.model 特性的自定义回调。
tf.print 与 tf.function 内的 print
tf.distribute.Strategy
如果包含
tf.print
的tf.function
在工作进程上执行,例如使用TPUStrategy
或ParameterServerStrategy
时,您需要检查工作进程/参数服务器日志以查找打印的值。对于
print
或logging.info
,使用ParameterServerStrategy
时将在协调器上打印日志,使用 TPU 时将在 worker0 的 STDOUT 上打印日志。
tf.keras.Model
选项 1:编写一个自定义层
选项 2:在模型输出中包含要检查的中间输出。
请注意,在这种情况下,您可能需要进行一些自定义才能使用 Model.fit
。
pdb
可以在终端和 Colab 中使用 pdb 来检查中间值以进行调试。
使用 TensorBoard 呈现计算图
可以使用 TensorBoard 检查 TensorFlow 计算图。Colab 上也支持 TensorBoard。TensorBoard 是呈现摘要的绝佳工具。您可以利用它来比较训练过程中的学习率、模型权重、梯度尺度、训练/验证指标,甚至是 TF1.x 模型和迁移的 TF2 模型之间的模型中间输出,并查看值是否符合预期。
TensorFlow Profiler
TensorFlow Profiler 可以帮助您呈现 GPU/TPU 上的执行时间线。可以查看此 Colab 演示来了解其基本用法。
MultiProcessRunner
在使用 MultiWorkerMirroredStrategy 和 ParameterServerStrategy 进行调试时,MultiProcessRunner 是一个实用的工具。可以查看此具体示例来了解它的用法。
特别是对于这两种策略的情况,建议您 1) 不仅要使用单元测试来覆盖它们的流,2) 还要尝试在单元测试中使用它来重现失败,以避免每次尝试修复时都启动真正的分布式作业。