Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
tensorflow
GitHub Repository: tensorflow/docs-l10n
Path: blob/master/site/pt-br/federated/collaborations/notes/2022-07-28.md
25118 views

Notas do encontro dos colaboradores do TFF em 28/07/2022

  • Novos participantes

  • Vamos todos entrar no servidor do Discord para conduzir as conversas de forma interativa

    • Ping Krzys se tornará Contribuidor para poder publicar

  • SIG Federated

  • Conversas sobre o efeito carona e contaminação de dados em x-silo, conversa conduzida pelo LinkedIn (contexto de casos de uso identificados pelo LinkedIn, salvo indicação em contrário):

    • Efeito carona – alguns locatários não contribuem com o grupo, diluindo os benefícios

      • Pode ser intencional ou não

      • Vamos nos concentrar no caso não intencional no momento, pois é nesse caso que o LinkedIn tem o maior interesse

      • Pode ser bem simples, como um participante que não tem dados suficientes, ou dados que não são úteis para o treinamento

        • No momento, estamos pensando em modelar como um problema de detecção de anomalias

        • Comparar com a contribuição majoritária funciona se for a base para a minoria dos dados

        • Outra estratégia: diversos modelos federados, construídos com ou sem contribuições de um determinado participante; observar os que fazem progresso e excluir participantes com base nisso

      • Alguns caronas podem estar contribuindo com dados ruins

        • Mais difícil de modelar como detecção de anomalias

        • Mesma estratégia que a indicada acima

    • Contaminação de dados

      • Também pode ser intencional ou não

      • Vamos nos concentrar no caso não intencional – os locatários maiores podem dominar o grupo, e suas contribuições para o modelo podem criar bias

      • Para os cenários de interesse, isso tem similaridades com o problema do efeito carona

      • Técnicas relevantes para treinamento bizantino distribuído

        • Por exemplo: em vez da média, podemos adotar uma mediana para se proteger contra a contaminação

    • Vemos esses problemas ocorrendo em outras áreas? Vale a pena usar essa lógica para o ecossistema?

      • Sim! Problemas comuns em ambientes adversários, em que os interesses dos silos podem não estar alinhados (as contribuições trazem um custo computacional e exigem recursos)

    • Como podemos mensurar o impacto do efeito carona ou da contaminação de dados?

      • Por contribuição versus agregado – as ideias acima apontam para agregado

    • Observação: um dos recursos do TFF são as agregações parametrizáveis e stateful, que podem manter seu próprio estado interno e atualizar esse estado à medida que fazem a agregação

    • Comentários sobre as contrapartidas e sinergias com outros objetivos (por exemplo: DP)

      • Com certeza o DP pode ajudar com a contaminação

      • Pergunta sobre o DP no contexto do efeito carona – ainda é uma questão em aberto

    • Descobrimos que os ataques de contaminação de dados podem ter impacto insignificante

  • O LinkedIn escreverá ideias com mais detalhes sobre o que conversamos acima e propostas para componentes a serem adicionados ao ecossistema do TFF

  • Veja mais conversas no Discord

  • Próximo encontro em duas semanas