Path: blob/master/site/pt-br/federated/collaborations/notes/2022-07-28.md
25118 views
Notas do encontro dos colaboradores do TFF em 28/07/2022
Novos participantes
Vamos todos entrar no servidor do Discord para conduzir as conversas de forma interativa
Ping Krzys se tornará Contribuidor para poder publicar
Conversas sobre o efeito carona e contaminação de dados em x-silo, conversa conduzida pelo LinkedIn (contexto de casos de uso identificados pelo LinkedIn, salvo indicação em contrário):
Efeito carona – alguns locatários não contribuem com o grupo, diluindo os benefícios
Pode ser intencional ou não
Vamos nos concentrar no caso não intencional no momento, pois é nesse caso que o LinkedIn tem o maior interesse
Pode ser bem simples, como um participante que não tem dados suficientes, ou dados que não são úteis para o treinamento
No momento, estamos pensando em modelar como um problema de detecção de anomalias
Comparar com a contribuição majoritária funciona se for a base para a minoria dos dados
Outra estratégia: diversos modelos federados, construídos com ou sem contribuições de um determinado participante; observar os que fazem progresso e excluir participantes com base nisso
Alguns caronas podem estar contribuindo com dados ruins
Mais difícil de modelar como detecção de anomalias
Mesma estratégia que a indicada acima
Contaminação de dados
Também pode ser intencional ou não
Vamos nos concentrar no caso não intencional – os locatários maiores podem dominar o grupo, e suas contribuições para o modelo podem criar bias
Para os cenários de interesse, isso tem similaridades com o problema do efeito carona
Técnicas relevantes para treinamento bizantino distribuído
Por exemplo: em vez da média, podemos adotar uma mediana para se proteger contra a contaminação
Vemos esses problemas ocorrendo em outras áreas? Vale a pena usar essa lógica para o ecossistema?
Sim! Problemas comuns em ambientes adversários, em que os interesses dos silos podem não estar alinhados (as contribuições trazem um custo computacional e exigem recursos)
Como podemos mensurar o impacto do efeito carona ou da contaminação de dados?
Por contribuição versus agregado – as ideias acima apontam para agregado
Observação: um dos recursos do TFF são as agregações parametrizáveis e stateful, que podem manter seu próprio estado interno e atualizar esse estado à medida que fazem a agregação
Por exemplo: federated_aggregate
Comentários sobre as contrapartidas e sinergias com outros objetivos (por exemplo: DP)
Com certeza o DP pode ajudar com a contaminação
Pergunta sobre o DP no contexto do efeito carona – ainda é uma questão em aberto
Descobrimos que os ataques de contaminação de dados podem ter impacto insignificante
Por exemplo: veja https://arxiv.org/pdf/2108.10241.pdf
É importante oferecer esse recurso como parte de uma plataforma de FL intersilos independentemente da magnitude do impacto
O LinkedIn escreverá ideias com mais detalhes sobre o que conversamos acima e propostas para componentes a serem adicionados ao ecossistema do TFF
Veja mais conversas no Discord
Próximo encontro em duas semanas