Path: blob/master/site/ko/guide/migrate/migration_debugging.ipynb
25118 views
Copyright 2021 The TensorFlow Authors.
TF2 마이그레이션한 훈련 파이프라인 디버그하기
이 노트북은 TF2로 마이그레이션할 때 훈련 파이프라인을 디버그하는 방식을 설명하며 다음 구성 요소로 구성되어 있습니다.
훈련 파이프라인 디버깅 권장 단계 및 코드 샘플
디버깅 도구
기타 관련 리소스
비교에 사용하는 TF1.x 코드와 훈련된 모델이 있고 유사한 검증 정확성을 달성하는 TF2 모델을 구축하려 한다고 가정합니다.
이 노트북은 훈련/추론 속도 또는 메모리 사용량에 대한 디버깅 성능 문제를 다루지 않습니다.
워크플로 디버깅하기
다음은 TF2 훈련 파이프라인을 디버깅하는 일반적인 워크플로입니다. 이 단계를 순서대로 따를 필요는 없습니다. 중간 단계에서 모델을 테스트하고 디버깅 범위를 좁히는 이진 검색 접근 방식을 사용할 수도 있습니다.
컴파일 및 런타임 오류 수정
단일 순방향 전달 검증(별도의 가이드)
a. 단일 CPU 기기에서
변수가 한 번만 생성되었는지 확인
변수 개수, 이름 및 모양이 일치하는지 확인
모든 변수 재설정, 모든 임의성이 비활성화된 상태에서 수치적 동등성 확인
난수 생성 정렬, 추론에서 수치적 동등성 확인
(선택 사항)체크포인트가 제대로 로드되고 TF1.x/TF2 모델이 동일한 출력을 생성하는지 확인
b. 단일 GPU/TPU 기기에서
c. 멀티 기기 전략을 사용하는 경우
몇 가지 단계의 모델 훈련 수치적 동등성 검증(아래의 코드 샘플 사용 가능)
a. 단일 CPU 기기에서 고정된 작은 데이터를 사용하는 단일 훈련 단계 검증. 특히 다음 구성 요소에 대한 수치 동등성 확인
손실 계산
메트릭
학습률
그래디언트 계산 및 업데이트
b. 단일 CPU 기기에 고정 데이터가 있는 모멘텀과 같은 옵티마이저 동작을 확인하기 위해 3개 이상의 단계를 훈련한 후 통계를 확인
c. 단일 GPU/TPU 기기에서
d. 멀티 기기 전략 사용(하단에서 MultiProcessRunner 소개 확인)
실제 데이터세트에 대한 엔드 투 엔드 수렴 테스트
a. TensorBoard로 훈련 동작 확인
간단한 옵티마이저 사용. 예: SGD 및 간단 분배 전략.
tf.distribute.OneDeviceStrategy
먼저 사용훈련 메트릭
평가 메트릭
고유한 임의성에 대한 합리적인 허용이 무엇인지 파악
b. 고급 옵티마이저/학습률 스케줄러/분산 전략으로 동등성 확인
c. 혼합 정밀도 사용 시 동등성 확인
추가 제품 벤치마크
설치하기
단일 순방향 전달 검증
체크포인트 로드 등 단일 순방향 전달 검증은 다른 colab에서 다룹니다.
몇 가지 단계의 모델 훈련 수치적 동등성 검증
모델 구성을 설정하고 가짜 데이터세트를 준비합니다.
TF1.x 모델을 정의합니다.
다음 v1.keras.utils.DeterministicRandomTestTool
클래스는 상태 저장 임의 작업이 TF1 그래프/세션과 즉시 실행 모두에서 동일한 시드를 사용하도록 할 수 있는 컨텍스트 관리자 scope()
를 제공합니다.
이 도구는 두 가지 테스트 모드를 제공합니다.
호출된 횟수에 관계없이 모든 단일 연산에 대해 동일한 시드를 사용하는
constant
이전에 관찰된 상태 저장 임의 연산 수를 연산 시드로 사용하는
num_random_ops
이는 변수 생성 및 초기화에 사용되는 상태 저장 임의 작업과 계산에 사용되는 상태 저장 임의 작업(예: 드롭아웃 레이어)에 모두 적용됩니다.
그래프 모드로 TF1.x 모델을 실행합니다. 수치적 동등성 비교를 위해 처음 3개의 훈련 단계에 대한 통계를 수집합니다.
TF2 모델을 정의합니다.
Eager 모드로 TF2 모델을 실행합니다. 수치적 동등성 비교를 위해 처음 3개의 훈련 단계에 대한 통계를 수집합니다.
처음 몇 개의 훈련 단계에서 수치적 동등성을 비교합니다.
수치적 동등성에 대한 추가 조언은 정확성 및 수치적 동등성 노트북 검증하기를 참조할 수도 있습니다.
단위 테스트
마이그레이션 코드를 디버그하는 데 도움이 되는 몇 가지 유형의 단위 테스트가 있습니다.
단일 순방향 전달 검증
몇 가지 단계의 모델 훈련 수치적 동등성 검증
벤치마크 추론 성능
훈련된 모델은 고정 및 단순 데이터 포인트에 대해 정확한 예측을 수행
@parameterized.parameters
를 사용하여 다양한 구성으로 모델을 테스트할 수 있습니다. 코드 샘플이 포함된 세부 정보를 확인해보세요.
동일한 테스트 사례에서 세션 API 및 즉시 실행을 실행할 수 있습니다. 아래의 코드 조각은 작업 방식을 보여줍니다.
디버깅 도구
tf.print
tf.print와 print/logging.info의 비교
구성할 수 있는 인수를 사용하여
tf.print
는 인쇄된 텐서에 대한 각 차원의 처음 및 마지막 몇 개 요소를 재귀적으로 표시할 수 있습니다. 자세한 내용은 API 문서를 확인하세요.즉시 실행의 경우
print
와tf.print
는 모두 텐서의 값을 출력합니다. 그러나print
는 기기와 호스트 사이의 복사 작업이 포함될 수 있으며, 이로 인해 코드 속도가 느려질 수 있습니다.tf.function
내부 사용을 포함하는 그래프 모드의 경우tf.print
를 사용하여 실제 텐서 값을 인쇄해야 합니다.tf.print
는 그래프의 연산으로 컴파일되는 반면,print
과logging.info
는 추적 시간에만 기록하기에 여러분이 원하는 작업이 아닙니다.tf.print
는tf.RaggedTensor
와tf.sparse.SparseTensor
와 같은 복합 텐서 인쇄도 지원합니다.콜백을 사용하여 메트릭과 변수를 모니터링할 수도 있습니다. 로그 사전(logs dict)과 self.model 속성으로 사용자 정의 콜백을 사용하는 방법을 확인하세요.
tf.print와 내부 tf.function 인쇄 비교
tf.distribute.Strategy
TPUStrategy
또는ParameterServerStrategy
를 사용하는 경우와 같이tf.print
를 포함하는tf.function
을 작업자에서 실행하는 경우 인쇄된 값을 찾으려면 작업자/매개변수 서버 로그를 확인해야 합니다.print
또는logging.info
의 경우,ParameterServerStrategy
를 사용하면 로그가 코디네이터에 인쇄되고, TPU를 사용하면 로그가 worker0의 STDOUT에 인쇄됩니다.
tf.keras.Model
순차형 및 함수형 API 모델을 사용할 때 일부 레이어 뒤에 모델 입력 또는 중간 특성과 같은 값을 다음 옵션으로 인쇄할 수 있습니다.
입력을
tf.print
하는 사용자 정의 레이어를 작성합니다.검사하려는 중간 출력을 모델 출력에 포함합니다.
tf.keras.layers.Lambda
레이어에는 (역)직렬화 제한이 있습니다. 체크포인트 로드 문제를 피하려면 대신 사용자 정의 서브 클래스된 레이어를 작성하세요. 자세한 내용은 API 문서를 확인하세요.실제 값에 액세스할 수 없는 경우
tf.keras.callbacks.LambdaCallback
에서 중간 출력을tf.print
할 수 없고 대신 기호 케라스 텐서 객체만 사용할 수 있습니다.
옵션 1: 사용자 정의 레이어 작성
옵션 2: 검사하려는 중간 출력을 모델 출력에 포함합니다.
이러한 경우에 Model.fit을 사용하려면 몇 가지 [맞춤 설정](https://www.tensorflow.org/guide/keras/customizing_what_happens_in_fit)이 필요할 수 있습니다.
pdb
터미널과 Colab 모두에서 pdb를 사용하여 디버깅의 중간 값을 검사할 수 있습니다.
TensorBoard로 그래프 시각화
TensorBoard로 TensorFlow 그래프를 검사할 수 있습니다. TensorBoard는 colab에서도 지원됩니다. TensorBoard는 요약을 시각화하는 훌륭한 도구입니다. 이를 사용하여 학습률, 모델 가중치, 그래디언트 스케일, 훈련/검증 메트릭을 비교하거나 학습 프로세스를 통해 TF1.x 모델과 마이그레이션된 TF2 모델 사이의 중간 출력을 모델링하고 값이 예상대로 나타나는지 확인할 수 있습니다.
TensorFlow 프로파일러
TensorFlow Profiler를 사용하면 GPU/TPU의 실행 타임라인을 시각화할 수 있습니다. 이 Colab 데모에서 기본적인 사용법을 확인할 수 있습니다.
MultiProcessRunner
MultiProcessRunner는 MultiWorkerMirroredStrategy와 ParameterServerStrategy로 디버깅할 때 유용한 도구입니다. 사용법은 이 구체적인 예제를 참조하세요.
특히 이 두 가지 전략의 경우 1)플로를 처리하는 단위 테스트를 수행할 뿐만 아니라 2)수정을 시도할 때마다 실제 분산 작업을 시작하지 않도록 단위 테스트에서 이를 사용하여 실패를 재현하는 것이 좋습니다.