Path: blob/master/site/ja/tutorials/text/text_generation.ipynb
38307 views
Copyright 2019 The TensorFlow Authors.
RNN によるテキスト生成
Note: これらのドキュメントは私たちTensorFlowコミュニティが翻訳したものです。コミュニティによる 翻訳はベストエフォートであるため、この翻訳が正確であることや英語の公式ドキュメントの 最新の状態を反映したものであることを保証することはできません。 この翻訳の品質を向上させるためのご意見をお持ちの方は、GitHubリポジトリtensorflow/docsにプルリクエストをお送りください。 コミュニティによる翻訳やレビューに参加していただける方は、 [email protected] メーリングリストにご連絡ください。
このチュートリアルでは、文字ベースの RNN を使ってテキストを生成する方法を示します。ここでは、Andrej Karpathy の The Unreasonable Effectiveness of Recurrent Neural Networks からのシェイクスピア作品のデータセットを使います。このデータからの文字列("Shakespear")を入力にして、文字列中の次の文字("e")を予測するモデルを訓練します。このモデルを繰り返し呼び出すことで、より長い文字列を生成することができます。
Note: このノートブックの実行を速くするために GPU による高速化を有効にしてください。Colab では、ランタイム > ランタイムのタイプを変更 > ハードウェアアクセラレータ > GPU を選択します。ローカルで実行する場合には、TensorFlow のバージョンが 1.11 以降であることを確認してください。
このチュートリアルには、tf.keras と eager execution を使ったコードが含まれています。下記は、このチュートリアルのモデルを 30 エポック訓練したものに対して、文字列 "Q" を初期値とした場合の出力例です。
QUEENE: I had thought thou hadst a Roman; for the oracle, Thus by All bids the man against the word, Which are so weak of care, by old care done; Your children were in your holy love, And the precipitation through the bleeding throne. BISHOP OF ELY: Marry, and will, my lord, to weep in such a one were prettiest; Yet now I was adopted heir Of the world's lamentable day, To watch the next way with his father with his face? ESCALUS: The cause why then we are all resolved more sons. VOLUMNIA: O, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, it is no sin it should be dead, And love and pale as any will to that word. QUEEN ELIZABETH: But how long have I heard the soul for this world, And show his hands of life be proved to stand. PETRUCHIO: I say he look'd on, if I must be content To stay him from the fatal of our country's bliss. His lordship pluck'd from this sentence then for prey, And then let us twain, being the moon, were she such a case as fills m
いくつかは文法にあったものがある一方で、ほとんどは意味をなしていません。このモデルは、単語の意味を学習していませんが、次のことを考えてみてください。
このモデルは文字ベースです。訓練が始まった時に、モデルは英語の単語のスペルも知りませんし、単語がテキストの単位であることも知らないのです。
出力の構造は戯曲に似ています。だいたいのばあい、データセットとおなじ大文字で書かれた話し手の名前で始まっています。
以下に示すように、モデルはテキストの小さなバッチ(各100文字)で訓練されていますが、一貫した構造のより長いテキストのシーケンスを生成できます。
設定
TensorFlow 等のライブラリインポート
シェイクスピアデータセットのダウンロード
独自のデータで実行するためには下記の行を変更してください。
データの読み込み
まずはテキストをのぞいてみましょう。
テキストの処理
テキストのベクトル化
訓練をする前に、文字列を数値表現に変換する必要があります。2つの参照テーブルを作成します。一つは文字を数字に変換するもの、もう一つは数字を文字に変換するものです。
これで、それぞれの文字を整数で表現できました。文字を、0 からlen(unique) までのインデックスに変換していることに注意してください。
予測タスク
ある文字、あるいは文字列が与えられたとき、もっともありそうな次の文字はなにか?これが、モデルを訓練してやらせたいタスクです。モデルへの入力は文字列であり、モデルが出力、つまりそれぞれの時点での次の文字を予測をするようにモデルを訓練します。
RNN はすでに見た要素に基づく内部状態を保持しているため、この時点までに計算されたすべての文字を考えると、次の文字は何でしょうか?
訓練用サンプルとターゲットを作成
つぎに、テキストをサンプルシーケンスに分割します。それぞれの入力シーケンスは、元のテキストからの seq_length 個の文字を含みます。
入力シーケンスそれぞれに対して、対応するターゲットは同じ長さのテキストを含みますが、1文字ずつ右にシフトしたものです。
そのため、テキストを seq_length+1 のかたまりに分割します。たとえば、 seq_length が 4 で、テキストが "Hello" だとします。入力シーケンスは "Hell" で、ターゲットシーケンスは "ello" となります。
これを行うために、最初に tf.data.Dataset.from_tensor_slices 関数を使ってテキストベクトルを文字インデックスの連続に変換します。
batch メソッドを使うと、個々の文字を求める長さのシーケンスに簡単に変換できます。
シーケンスそれぞれに対して、map メソッドを使って各バッチに単純な関数を適用することで、複製とシフトを行い、入力テキストとターゲットテキストを生成します。
最初のサンプルの入力とターゲットを出力します。
これらのベクトルのインデックスそれぞれが一つのタイムステップとして処理されます。タイムステップ 0 の入力として、モデルは "F" のインデックスを受け取り、次の文字として "i" のインデックスを予測しようとします。次のタイムステップでもおなじことをしますが、RNN は現在の入力文字に加えて、過去のステップのコンテキストも考慮します。
訓練用バッチの作成
tf.data を使ってテキストを分割し、扱いやすいシーケンスにします。しかし、このデータをモデルに供給する前に、データをシャッフルしてバッチにまとめる必要があります。
モデルの構築
tf.keras.Sequential を使ってモデルを定義します。この簡単な例では、モデルの定義に3つのレイヤーを使用しています。
tf.keras.layers.Embedding: 入力レイヤー。それぞれの文字を表す数をembedding_dim次元のベクトルに変換する、訓練可能な参照テーブル。tf.keras.layers.GRU: サイズがunits=rnn_unitsのRNNの一種(ここに LSTM レイヤーを使うこともできる)。tf.keras.layers.Dense:vocab_sizeの出力を持つ、出力レイヤー。
1文字ごとにモデルは埋め込みベクトルを検索し、その埋め込みベクトルを入力として GRU を 1 タイムステップ実行します。そして Dense レイヤーを適用して、次の文字の対数尤度を予測するロジットを生成します。

モデルを試す
期待通りに動作するかどうかを確認するためモデルを動かしてみましょう。
最初に、出力の shape を確認します。
上記の例では、入力のシーケンスの長さは 100 ですが、モデルはどのような長さの入力でも実行できます。
モデルから実際の予測を得るには出力の分布からサンプリングを行う必要があります。この分布は、文字ボキャブラリー全体のロジットで定義されます。
Note: この分布から サンプリング するということが重要です。なぜなら、分布の argmax をとったのでは、モデルは簡単にループしてしまうからです。
バッチ中の最初のサンプルで試してみましょう。
これにより、タイムステップそれぞれにおいて、次の文字のインデックスの予測が得られます。
これらをデコードすることで、この訓練前のモデルによる予測テキストをみることができます。
モデルの訓練
ここまでくれば問題は標準的な分類問題として扱うことができます。これまでの RNN の状態と、いまのタイムステップの入力が与えられ、次の文字のクラスを予測します。
オプティマイザと損失関数の付加
この場合、標準の tf.keras.losses.sparse_categorical_crossentropy 損失関数が使えます。予測の最後の次元に適用されるからです。
このモデルはロジットを返すので、from_logits フラグをセットする必要があります。
tf.keras.Model.compile を使って、訓練手順を定義します。既定の引数を持った tf.keras.optimizers.Adam と、先ほどの loss 関数を使用しましょう。
チェックポイントの構成
tf.keras.callbacks.ModelCheckpoint を使って、訓練中にチェックポイントを保存するようにします。
訓練の実行
訓練時間を適切に保つために、10エポックを使用してモデルを訓練します。Google Colab を使用する場合には、訓練を高速化するためにランタイムを GPU に設定します。
テキスト生成
最終チェックポイントの復元
予測ステップを単純にするため、バッチサイズ 1 を使用します。
RNN が状態をタイムステップからタイムステップへと渡す仕組みのため、モデルは一度構築されると固定されたバッチサイズしか受け付けられません。
モデルを異なる batch_size で実行するためには、モデルを再構築し、チェックポイントから重みを復元する必要があります。
予測ループ
下記のコードブロックでテキストを生成します。
最初に、開始文字列を選択し、RNN の状態を初期化して、生成する文字数を設定します。
開始文字列と RNN の状態を使って、次の文字の予測分布を得ます。
つぎに、カテゴリー分布を使用して、予測された文字のインデックスを計算します。この予測された文字をモデルの次の入力にします。
モデルによって返された RNN の状態はモデルにフィードバックされるため、1つの文字だけでなく、より多くのコンテキストを持つことになります。つぎの文字を予測した後、更新された RNN の状態が再びモデルにフィードバックされます。こうしてモデルは以前に予測した文字からさらにコンテキストを得ることで学習するのです。

生成されたテキストを見ると、モデルがどこを大文字にするかや、段落の区切り方、シェークスピアらしい書き言葉を真似ることを知っていることがわかります。しかし、訓練のエポック数が少ないので、まだ一貫した文章を生成するところまでは学習していません。
この結果を改善するもっとも簡単な方法は、もっと長く訓練することです(EPOCHS=30 を試してみましょう)。
また、異なる初期文字列を使ったり、モデルの精度を向上させるためにもうひとつ RNN レイヤーを加えたり、temperature パラメータを調整して、よりランダム性の強い、あるいは、弱い予測を試してみたりすることができます。
上級編: 訓練のカスタマイズ
上記の訓練手順は単純ですが、制御できるところがそれほどありません。
モデルを手動で実行する方法を見てきたので、訓練ループを展開し、自分で実装してみましょう。このことが、たとえばモデルのオープンループによる出力を安定化するための カリキュラム学習 を実装するための出発点になります。
勾配を追跡するために tf.GradientTape を使用します。このアプローチについての詳細を学ぶには、 eager execution guide をお読みください。
この手順は下記のように動作します。
最初に、RNN の状態を初期化する。
tf.keras.Model.reset_statesメソッドを呼び出すことでこれを実行する。つぎに、(1バッチずつ)データセットを順番に処理し、それぞれのバッチに対する予測値を計算する。
tf.GradientTapeをオープンし、そのコンテキストで、予測値と損失を計算する。tf.GradientTape.gradsメソッドを使って、モデルの変数に対する損失の勾配を計算する。最後に、オプティマイザの
tf.train.Optimizer.apply_gradientsメソッドを使って、逆方向の処理を行う。
View on TensorFlow.org
Run in Google Colab
View source on GitHub
Download notebook