ML Metadata
P ML Metadata (MLMD) é uma biblioteca para registrar e recuperar metadados associados a workflows de desenvolvedores de ML e cientistas de dados. O MLMD é parte integrante do TensorFlow Extended (TFX), mas foi projetado para que possa ser usado de forma independente.
Cada execução de um pipeline de ML em produção gera metadados contendo informações sobre os vários componentes do pipeline, suas execuções (por exemplo, execuções de treinamento) e artefatos resultantes (por exemplo, modelos treinados). No caso de erros ou comportamentos inesperados do pipeline, esses metadados podem ser aproveitados para analisar a linhagem dos componentes do pipeline e depurar problemas. Pense nesses metadados como o equivalente ao registro de logs no desenvolvimento de software.
O MLMD ajuda você a compreender e analisar todas as partes interconectadas do seu pipeline de ML, em vez de analisá-las isoladamente, e pode ajudá-lo a responder perguntas sobre o seu pipeline de ML, como:
Em qual dataset o modelo foi treinado?
Quais foram os hiperparâmetros usados para treinar o modelo?
Qual execução do pipeline criou o modelo?
Qual execução de treinamento levou a esse modelo?
Qual versão do TensorFlow criou este modelo?
Quando o modelo que falhou foi enviado?
Metadata Store
O MLMD registra os seguintes tipos de metadados em um banco de dados chamado Metadata Store.
Metadados sobre os artefatos gerados por meio dos componentes/etapas dos seus pipelines de ML
Metadados sobre as execuções desses componentes/etapas
Metadados sobre pipelines e informações de linhagem associadas
O Metadata Store fornece APIs para registrar e recuperar metadados de e para o back-end de armazenamento. O back-end de armazenamento é conectável e pode ser estendido. O MLMD fornece implementações prontas para uso de referência para o SQLite (que pode ser usado via memória ou disco) e MySQL.
Este gráfico mostra uma visão geral resumida dos vários componentes que fazem parte do MLMD.
Back-ends do Metadata Storage e configuração de conexão
O objeto MetadataStore
recebe uma configuração de conexão que corresponde ao backend de armazenamento utilizado.
O Fake Database fornece um banco de dados na memória (usando SQLite) para experimentação rápida e execuções locais. O banco de dados é excluído quando o objeto de armazenamento é destruído.
O SQLite lê e grava arquivos do disco.
O MySQL se conecta a um servidor MySQL.
Da mesma forma, ao usar uma instância MySQL com Google CloudSQL (quickstart, connect-overview), também é possível usar a opção SSL, se aplicável.
Modelo de dados
A Metadata Store usa o modelo de dados a seguir para registrar e recuperar metadados do back-end de armazenamento.
ArtifactType
descreve o tipo de artefato e suas propriedades armazenadas no storage de metadados. Você pode registrar esses tipos dinamicamente com o Metadata Store em código ou pode carregá-los no storage a partir de um formato serializado. Depois de registrar um tipo, sua definição fica disponível durante todo o tempo de vida do storage.Um
Artifact
descreve uma instância específica de umArtifactType
e suas propriedades que são gravadas no Metadata Store.Um
ExecutionType
descreve um tipo de componente ou etapa de um workflow e seus parâmetros de runtime.Uma
Execution
é um registro da execução de um componente ou de uma etapa de um workflow de ML e dos parâmetros de runtime. Uma execução pode ser considerada uma instância deExecutionType
. As execuções são registradas quando você executa um pipeline ou etapa de ML.Um
Event
é um registro do relacionamento entre artefatos e execuções. Quando ocorre uma execução, os eventos registram todos os artefatos usados pela execução e todos os artefatos produzidos. Esses registros permitem o rastreamento de linhagem em todo um workflow. Ao observar todos os eventos, o MLMD sabe quais execuções aconteceram e quais artefatos foram criados como resultado. O MLMD pode então voltar a qualquer artefato de qualquer uma das suas entradas anteriores (upstream).Um
ContextType
descreve um tipo de grupo conceitual de artefatos e execuções de um workflow e suas propriedades estruturais. Por exemplo: projetos, execuções de pipeline, experimentos, proprietários etc.Um
Context
é uma instância de umContextType
. Ele captura as informações compartilhadas dentro do grupo. Por exemplo: nome do projeto, ID de commit da changelist, anotações de experimentos, etc. Ele possui um nome exclusivo definido pelo usuário em seuContextType
.Uma
Attribution
é um registro do relacionamento entre artefatos e contextos.Uma
Association
é um registro do relacionamento entre execuções e contextos.
Funcionalidade do MLMD
Rastrear as entradas e saídas de todos os componentes/etapas em um workflow de ML e sua linhagem permite que as plataformas de ML habilitem vários recursos importantes. A lista a seguir fornece uma visão geral não exaustiva de alguns dos principais benefícios.
Listar todos os artefatos de um tipo específico. Exemplo: todos os modelos que foram treinados.
Carregar dois artefatos do mesmo tipo para comparação. Exemplo: comparar os resultados de dois experimentos.
Mostrar um DAG de todas as execuções relacionadas e seus artefatos de entrada e saída de um contexto. Exemplo: visualizar o workflow de um experimento para depuração e descoberta.
Voltar a todos os eventos para ver como um artefato foi criado. Exemplos: ver quais dados foram inseridos num modelo; aplicar planos de retenção de dados.
Identifique todos os artefatos que foram criados usando um determinado artefato. Exemplos: ver todos os modelos treinados a partir de um dataset específico; marcar modelos com base em dados incorretos.
Determinar se uma execução já foi executada nas mesmas entradas antes. Exemplo: determinar se um componente/etapa já concluiu o mesmo trabalho e se a saída anterior pode apenas ser reutilizada.
Registrar e consultar o contexto das execuções do workflow. Exemplos: rastrear o proprietário e a lista de alterações usados para uma execução de workflows; agrupar a linhagem por experimentos; gerenciar artefatos por projetos.
Capacidades de filtragem de nós declarativos em propriedades e nós de vizinhança de 1-hop. Exemplos: procurar artefatos de um tipo e em algum contexto de pipeline; retornar artefatos digitados onde o valor de uma determinada propriedade está dentro de um intervalo; encontrar execuções anteriores em um contexto com as mesmas entradas.
Veja o tutorial do MLMD para obter um exemplo que mostra como usar a API do MLMD e o metadata store para recuperar informações de linhagem.
Integre ML Metadata nos seus workflows de ML
Se você for um desenvolvedor de plataforma interessado em integrar o MLMD ao seu sistema, use o exemplo de workflow abaixo para usar as APIs do MLMD de baixo nível para rastrear a execução de uma tarefa de treinamento. Você também pode usar APIs Python de nível superior em ambientes de notebook para registrar metadados de experimentos.
Registrar tipos de artefato
Registre tipos de execução para todas as etapas do workflow de ML
Crie um artefato do ArtifactType DataSet
Crie uma execução da execução do Trainer
Defina o evento de entrada e leia os dados
Declare o artefato de saída
Grave o evento de saída
Marque a execução como concluída
Agrupe artefatos e execuções num contexto usando artefatos de atribuições e asserções
Usando MLMD com um servidor gRPC remoto
Você pode usar MLMD com servidores gRPC remotos conforme mostrado abaixo:
Inicie um servidor
Por padrão, o servidor usa um banco de dados falso na memória por solicitação e não persiste os metadados nas chamadas. Ele também pode ser configurado com MLMD MetadataStoreServerConfig
para usar arquivos SQLite ou instâncias MySQL. A configuração pode ser armazenada num arquivo de texto protobuf e passada para o binário com --metadata_store_server_config_file=path_to_the_config_file
.
Um exemplo de arquivo MetadataStoreServerConfig
em formato de texto protobuf:
Crie o stub do cliente e use-o em Python
Use MLMD com chamadas RPC
Recursos
A biblioteca MLMD possui uma API de alto nível que você pode usar prontamente com seus pipelines de ML. Consulte a documentação da API MLMD para mais detalhes.
Confira Filtragem de nós declarativos no MLMD para aprender como usar os recursos de filtragem de nós declarativos no MLMD em propriedades e nós vizinhos 1-hop.
Confira também o tutorial do MLMD para aprender como usar o MLMD para rastrear a linhagem dos componentes do pipeline.
MLMD provides utilities to handle schema and data migrations across releases. See the MLMD Guide for more details.