Path: blob/master/site/pt-br/federated/tutorials/sparse_federated_learning.ipynb
25118 views
Copyright 2021 The TensorFlow Federated Authors.
Aprendizado federado de modelos grandes eficiente nos clientes via federated_select
e agregação esparsa
Este tutorial mostra como o TFF pode ser usado para treinar um modelo muito grande, em que cada dispositivo cliente somente baixe e atualize uma pequena parte do modelo usando tff.federated_select
e agregação esparsa. Embora este tutorial seja relativamente autônomo, o tutorial sobre tff.federated_select
e o tutorial sobre algoritmos personalizados de aprendizado de máquina apresentam boas introduções a algumas das técnicas usadas aqui.
Neste tutorial, consideramos a regressão linguística para classificação com vários rótulos, prevendo quais "tags" estão associadas a uma string de texto com base em uma representação de características "saco-de-palavras". A comunicação e os custos de computação no lado do cliente são controlados por uma constante fixa (MAX_TOKENS_SELECTED_PER_CLIENT
) e não escalonam junto com o tamanho geral do vocabulário, que pode ser extremamente grande em cenários práticos.
Cada cliente fará a seleção federada (federated_select
) das linhas dos pesos do modelo para, no máximo, essa quantidade de tokens únicos. Isso limita o tamanho máximo do modelo local do cliente e a quantidade de comunicação servidor -> cliente (federated_select
) e cliente -> servidor (federated_aggregate
) realizada.
Este tutorial ainda deverá ser executado corretamente mesmo se você definir esse valor bem pequeno, como 1 (garantindo que nem todos os tokens de cada cliente sejam selecionados), ou se definir um valor grande, embora a convergência do modelo possa ser afetada.
Também definimos algumas constantes de diversos tipos. Para este Colab, um token é um identificador inteiro para uma palavra específica após processar o dataset.
Definição do problema – Dataset e modelo
Construímos um dataset de exemplo minúsculo para fácil experimentação neste tutorial. Porém, o formato do dataset é compatível com Federated StackOverflow, e o pré-processamento e a arquitetura do modelo são os mesmos do problema de previsão de tags do StackOverflow em Otimização federada adaptativa.
Leitura e processamento do dataset
Um dataset de exemplo minúsculo
Construímos um dataset de exemplo minúsculo com um vocabulário global de 12 palavras e 3 clientes. Esse exemplo minúsculo é útil para testar casos extremos (por exemplo: temos dois clientes com menos de MAX_TOKENS_SELECTED_PER_CLIENT = 6
tokens distintos e um com mais) e para desenvolver o código.
Porém, os casos de uso reais dessa estratégia seriam vocabulários globais com dezenas de milhões de palavras ou mais, com talvez milhares de tokens distintos em cada cliente. Como o formato dos dados é igual, a extensão para problemas de teste mais realistas, como o dataset tff.simulation.datasets.stackoverflow.load_data()
, seria bem direta.
Primeiro, definimos os vocabulários de palavras e tags.
Agora, criamos 3 clientes com datasets locais pequenos. Se você estiver executando este tutorial no Colab, pode ser útil usar o recurso "Mirror cell in tab" para fixar essa célula e sua saída para poder interpretar/verificar a saída das funções desenvolvidas abaixo.
Defina constantes para os números brutos das características de entrada (tokens/palavras) e rótulos (tags). Nossos espaços reais de entrada/saída são NUM_OOV_BUCKETS = 1
maiores, pois adicionamos um token/tag fora do vocabulário.
Crie versões dos datasets divididas em lotes e lotes individuais, que serão úteis no código de teste à medida que prosseguirmos.
Defina um modelo com entradas esparsas
Usamos um modelo simples de regressão logística independente para cada tag.
Vamos confirmar se está funcionando fazendo previsões primeiro:
E um treinamento centralizado simples:
Blocos de construção para a computação federada
Vamos implementar uma versão simples do algoritmo de cálculo federado de médias, com a diferença chave de que cada dispositivo baixa apenas um subconjunto relevante do modelo e contribui apenas com atualizações desse subconjunto.
Usamos M
como abreviação para MAX_TOKENS_SELECTED_PER_CLIENT
. De forma geral, uma rodada de treinamento envolve estas etapas:
Cada cliente participante varre seu próprio dataset local, processando as strings de entrada e mapeando-as para os tokens corretos (índices inteiros). Isso requer acesso ao dicionário (grande) global (isso pode ser possivelmente evitado usando técnicas de hash de características). Em seguida, fazemos a contagem esparsa de quantas vezes cada token ocorre. Se
U
tokens únicos ocorrerem no dispositivo, escolhemos osnum_actual_tokens = min(U, M)
tokens mais frequentes para fazer o treinamento.Os clientes usam
federated_select
para obter os coeficientes do modelo para osnum_actual_tokens
tokens selecionados a partir do servidor. Cada fatia do modelo é um tensor de formato(TAG_VOCAB_SIZE, )
, então o total de dados transmitidos para o cliente tem tamanho máximo deTAG_VOCAB_SIZE * M
(confira a observação abaixo).Os clientes constroem um mapeamento
global_token -> local_token
, em que o token local (índice inteiro) é o índice do token global na lista de tokens selecionados.Os clientes usam uma versão "pequena" do modelo global que tem apenas os coeficientes de no máximo
M
tokens do intervalo[0, num_actual_tokens)
. O mapeamentoglobal -> local
é usado para inicializar os parâmetros densos desse modelo a partir das fatias do modelo selecionadas.Os clientes treinam seu modelo local usando o método do gradiente estocástico com dados pré-processados com o mapeamento
global -> local
.Os clientes transformam os parâmetros de seu modelo local em
IndexedSlices
atualizações usando o mapeamentolocal -> global
para indexar as linhas. O servidor agrega essas atualizações usando uma agregação de soma esparsa.O servidor pega o resultado (denso) da agregação acima, divide pelo número de clientes participantes e aplica a atualização da média resultante ao modelo global.
Nesta seção, montamos os blocos de construção para essas etapas, que serão combinados em uma computação federada (federated_computation
) final que captura a lógica completa de uma rodada de treinamento.
OBSERVAÇÃO: a descrição acima oculta um detalhe técnico: tanto
federated_select
quanto a construção do modelo local exigem formatos estatisticamente conhecidos e, portanto, não podemos usar o tamanhonum_actual_tokens
dinâmico por cliente. Em vez disso, usamos o valor estáticoM
, adicionando preenchimento onde necessário. Isso não impacta a semântica do algoritmo.
Conte os tokens de clientes e decida quais fatias do modelo devem ser selecionadas via federated_select
Cada dispositivo precisa decidir quais "fatias" do modelo são relevantes para seu dataset de treinamento local. Para o nosso problema, fazemos isso (esparsamente!) contando quantos exemplos contêm cada token no dataset de treinamento do cliente.
Vamos selecionar os parâmetros do modelo que correspondem aos MAX_TOKENS_SELECTED_PER_CLIENT
tokens que ocorrem com maior frequência no dispositivo. Se um número menor que esse de tokens ocorrer no dispositivo, preenchemos a lista para permitir o uso de federated_select
.
Observe que outras estratégias são possivelmente melhores, como, por exemplo, selecionar tokens aleatoriamente (talvez com base na probabilidade de ocorrência), o que garantiria que todas as fatias do modelo (para as quais o cliente tem dados) tenham alguma chance de serem atualizadas.
Mapeie tokens globais em tokens locais
A seleção acima nos fornece um conjunto denso de tokens no intervalo [0, actual_num_tokens)
, que usaremos para o modelo no dispositivo. Porém, o dataset que lemos tem tokens do intervalo do vocabulário global muito maior, [0, WORD_VOCAB_SIZE)
.
Portanto, precisamos mapear os tokens globais em seus tokens locais correspondentes. Os IDs dos tokens locais são fornecidos simplesmente pelos índices ao tensor selected_tokens
computado na etapa anterior.
Treine o (sub)modelo local em cada cliente
Observe que federated_select
retornará as fatias selecionadas como um tf.data.Dataset
na mesma ordem que as chaves de seleção. Portanto, primeiro definimos uma função utilitária para receber um Dataset como esse e convertê-lo em um único tensor denso, que pode ser usado como os pesos do modelo do cliente.
Agora temos todos os componentes necessários para definir um loop de treinamento simples que será executado em cada cliente.
IndexedSlices agregados
Usamos tff.federated_aggregate
para construir uma soma esparsa federada para IndexedSlices
. Essa implementação simples tem a restrição de que dense_shape
é conhecido antecipadamente de forma estática. Observe também que essa soma é somente semiesparsa, no sentido de que a comunicação cliente -> servidor é esparsa, mas o servidor mantém uma representação densa da soma em accumulate
e merge
, e gera como saída essa representação densa.
Para fins de teste, construa uma federated_computation
mínima:
Juntando tudo em uma federated_computation
Agora usamos o TFF para juntar todos os componentes em uma computação federada (tff.federated_computation
).
Usamos uma função básica de treinamento do servidor baseada no cálculo federado de médias, aplicando a atualização com uma taxa de aprendizado do servidor igual a 1,0. É importante aplicarmos uma atualização (delta) ao modelo em vez de simplesmente fazer a média dos modelos fornecidos pelos clientes, pois, caso contrário, se uma determinada fatia do modelo não tiver sido treinada por qualquer cliente em uma determinada rodada, seus coeficientes podem ser iguais a zero.
Precisamos de mais alguns componentes da tff.tf_computation
:
Agora está tudo pronto para juntarmos todas as peças!
Vamos treinar um modelo!
Agora que temos uma função de treinamento, vamos testá-la.