Path: blob/master/site/ja/federated/collaborations/notes/2022-07-28.md
25118 views
2022/7/28 の TFF コラボレーターミーティング議事録
新しい参加者
Discord サーバーに全員参加して、対話形式で会話を進められるようにしましょう
Krzys を Contributor に指定して、投稿できるようにする
クロスサイロにおけるフリーライドとデータ汚染に関するディスカッション。LinkedIn 主導ディスカッション(別段の指定がない限り、LinkedIn が特定したユースケースのコンテキスト):
フリーライド - 特定のテナントはグループに貢献せずに、利益を得ている
故意か意図的でない可能性あり
個時点では意図的でないものに焦点を当てる - LinkedIn が主に関心を抱いているケース
参加者に十分なデータがないか、トレーニングに役立つデータがないという単純な可能性がある
現在、これを異常検出の問題としてモデル化することを検討中
これがデータのマイナーケースであるかを、大半の貢献作業に対して比較する
別のアプローチ: 特定の参加者の貢献で構築したものとそうでない連合モデルを複数集め、どれが進んでいるかを観察し、それに基づいて参加者を除外する
一部のフリーライダーがガベージデータに貢献している可能性がある
以上検出としてはモデル化しにくい
上記と同じアプローチ
汚染
同様に、故意かそうでない可能性がある
意図的でないものに焦点を当てる - 大規模なテナントがグループを圧倒すれば、モデルがそれらの貢献に偏る可能性がある
関心のあるシナリオでは、これはフリーライダー問題と類似している
分散のビザンチントレーニングに関連する手法
たとえば、平均の代わりに中央値を追加して、汚染に対する堅牢性を追加する
他でもこれらの問題が起きているか?エコシステムにそのようなロジックを貢献する価値はあるか?
ある!敵対的の設定で、共通した問題がある。サイロの関心に整合が取られていない可能性がある(貢献には計算コストがかかり、リソースが必要となる)
フリーライドまたは汚染の影響をどのように測定できるか?
貢献単位と集約 - 上記のアイデアは後者
観察: TFF の機能の 1 つはパラメータ化可能であり、ステートフルな集計で、独自の内部状態を維持し、集計しながら状態を更新できる。
他の目標(DP など)とのトレードオフとシナジーに関する意見
DP は確実に汚染に役立つ
フリーライドに関する DP についての質問 - 未解決の質問
データ汚染攻撃には無視できない影響があることがわかった
影響の度合いに関係なく、そのような機能をクロスサイロ FL プラットフォームの一環として提供することが重要
上記についてさらに詳細なアイデアを書くこと。TFF エコシステムに追加するコンポーネントに関する提案は LinkedIn が準備中
Discord でその他のディスカッションを確認
次回ミーティングは 2 週間後