Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
tensorflow
GitHub Repository: tensorflow/docs-l10n
Path: blob/master/site/ko/federated/collaborations/notes/2022-02-16.md
25118 views

TFF 공동 작업자들의 2022년 2월 16일 회의 기록

  • 참가자:

    • Krzysztof Ostrowski (Google)

    • Alex Ingerman (Google)

    • DeWitt Clinton (Google)

    • Boyi Chen (LinkedIn)

    • Souvik Ghosh (LinkedIn)

    • Zheng Li (LinkedIn)

  • [chen] 현재 사용 현황, 기여에 대한 관심 영역, 기여 방법에 대한 프로세스, 추후 개발 계획

  • [boyi] 현재 FL 사용 방법

    • 두 부분 - 하나는 교차 사일로

      • 사용자의 데이터

      • 법적 요건으로 데이터에 대한 액세스 제한

      • 3P 데이터로 유용한 FL

      • 규정 준수를 유지하면서 데이터 활용 가능

    • 온디바이스 FL - 흥미롭지만 대부분 교차 사일로에서 작업 진행

    • 계속할 수 있는 몇몇 프로젝트

      • 프로토 타입을 빌드 해옴

      • 편리한 TFF

      • FL 벤치마크 대 개인화된 전이 학습

        • 고객의 데이터를 사용하여 각 고객 대 전이 학습 f에 대한 개인화된 모델을 훈련, 비교

        • FL 작동 방식에 대한 문제

          • 다른 고객보다 규모가 더 큰 일부 고객 -> 편향

          • 가장 많이 기여하는 고객은 무임 승차자에 대해 걱정하고, 가장 적게 기여하는 고객은 모델에 충분히 영향을 미치지 못하는 것에 대해 걱정합니다

        • 확장성 문제

          • 현재는 추론 관련 문제 존재(수백 개의 M)

          • 현재 훈련 데이터가 그리 크지 않음(10s-100sK/silos)

          • O(수백 개의 M) 고객에 대한 일괄 추론 실행

          • 주요 문제로서의 총 데이터 양

            • 모든 고객에 걸친 기록

          • 클러스터 크기는 현재 제한되어 있으므로, 추론 속도 제한

        • 다른 사일로와 섞일 필요가 없는 고객 = 사일로. 카디널리티란 무엇인가요?

          • 현재 실험 중, 향후 수십만 사일로로 확장하고자 함

        • TFF 고객 수에서 본 숫자는 무엇인가요?

          • 온디바이스: 소규모 데이터 사일로의 수가 많고, x 사일로는 대규모 데이터세트 수가 적음

        • 사일로는 얼마나 유사한가요?

          • 스키마는 동일하지만 데이터의 분포는 사일로에 따라 크게 다릅니다. 불평등한 참여

      • [K] 훈련뿐만 아니라 추론에 대한 TFF도 생각하고 있나요?

        • [B] 현재로서는, TFF를 훈련에 사용합니다. 동일한 프레임워크에서 훈련하고 추론하는 것을 선호합니다.

        • [K] 동일한 인프라인가요, 동일한 모델인가요?

        • [b} 현재로서는, 동일한 모델과 동일한 클러스터입니다

      • [B] 모델을 훈련하고 기기에 배포하는 법을 이해하고자 합니다.

      • [S] 모델을 한 환경에서 훈련하고 다른 환경에서 꺼내 사용할 필요성이 중요합니다. 첫 번째 애플리케이션을 통해서만이 아니라요.

  • [B] 구축하고자 하는 것은 다음과 같습니다.

    • 기여에 대한 한 가지 아이디어, 공정성에 대한 벤치마크를 수행하면 TFF에 툴과 벤치마크를 추가할 수 있습니다.

      • 사일로 전체에서 모델이 수행하는 방식(불균등한 성능 및 편향)

    • [K] 이를 실제적인 문제로 보시나요? [B] 실제적인 문제가 될 것이라 믿습니다.

    • [B] 이를 반대로 생각해 보세요. 사람들은 박스에 데이터를 입력하는 것을 걱정할 것입니다. 일반적인 우려 사항이지만 우리는 특별한 메트릭이 없습니다.

    • [K] 어떤 걸 다루고 있는 건가요? 처리하는 방법에 대한 사일로 + 규정이 있는 상황에 대해 이야기하는 건가요? 하지만 그것은 반대의 경우가 아니고 당신은 단지 편견 대 여러 기관이 있는, 서로 불신하는 당사자들이 있는 다른 또 다른 상황을 만들고 싶지 않을 뿐입니다. 우리는 둘 중 하나를 생각하고 있는 건가요, 모두를 생각하고 있는 건가요?

    • [B] 두 가지 모두를 다루길 원합니다. 현재로서는 후자에 대해서만 생각합니다.

    • [D] 즉 여기에서 사일로는 기업이며 데이터세트는 각각이 업로드한 데이터입니다

    • [K] 무임승차에 대한 우려를 강조하고 계십니다. 하지만 상호 불신하는 당사자들도 있습니다. 당사자들은 타인/여러분이 데이터를 보지 못하는 것을 원할까요? 이러한 우려 사항이 갈등 상태에 있습니다. 한쪽은 공격을 막기 위해 기여를 검증하길 원하고, 한쪽은 프라이버시를 위해 내용을 보이길 원하지 않습니다.

    • [B] 이를 두 가지 방식으로 살펴보겠습니다. 하나는 DP 등을 통한 프라이버시 보존입니다. 다른 부분에서는 모델 성능 측면에서 많은 사일로의 데이터로 훈련하는 경우, 사일로마다 이점이 다를 수 있다는 우려가 있습니다. 전자에 접근하는 표준적인 방식이 있다고 생각합니다. 후자는 좀 더 까다롭습니다.

    • [K] 모델이 잘 작동한다는 점에서 공정하며, 다른 이가 무임승차할 수 있습니다. 프라이버시에 관해 갈등하는 것은 후자입니다. 이를 걱정하시는 건가요?

    • [B] 모두 동등하게 중요합니다. 데이터 프라이버시를 지키고 혜택을 분배하는 공정한 방식을 모두 원합니다.

    • [S] 아직 좋은 해결책이 없습니다. [K] 마찬가지입니다.

    • [D] 이러한 회사들이 이를 운영하는 데 Linkedin을 얼마나 신뢰하나요?

    • [S] 신뢰는 적어도 제가 아는 사례에서는 아직까지 문제가 되지 않았습니다. 몇몇 제한 요청이 있었지만, 완전히 거절하지는 않았습니다. 사람들은 공통된 가치를 추구하기 위해 우리와 데이터를 공유하고자 합니다.

    • [A] 단순한 사일로 또는 사일로 내의 개인에 대한 프라이버시에 관해 우려하시나요?

    • [S] 후자입니다.

  • [D] Azure에서 빌드되는 중인가요? 우리가 고려해야 할 다른 개발 사항은 무엇인가요?

    • [S] 결국 GPU가 도입될 겁니다. 초기 모델은 더 작아지고 필요성이 줄어듭니다. 결국, 이는 더 많은 수의 멤버와 기업을 포함하게 될 겁니다. 모델은 상당히 크게 성장할 겁니다.

    • [D] 이는 공개적으로 사용할 수 있는 동일한 Azure인가요? 혹은 외부에서 볼 수 없는 대상에 대한 일부 내부 인프라인가요?

    • [S] 상당히 표준적인 것입니다.

    • [D] 모두가 이를 공개 Azure에서 실행할 수 있으므로 협업하기 쉽고 OSS 코드를 더욱 가치있도록 만드세요.

  • [K] 만들어 봅시다! 이것들은 무엇이어야 할까요? 우리는 벤치마크 제품군과 교차 사일로 플랫폼에 대해 언급했습니다. 공개적으로 PRD를 구체화하고 기능 및 활용 사례에 관해 이야기하는 것에 대해 어떻게 생각하시나요?

    • [Z] 제품 사양은 어떻게 되나요? TFF의 작은 구성 요소인가요?

    • [k] 우리는 구성 요소에 관해 이야기할 수도 있고, tff의 상단에 빌드되어 다른 사람들이 사용할 수 있는 제품에 관해 이야기할 수 있습니다.

    • [Z] 이것이 기여 절차인지 알고 싶습니다. 제품으로 시작하나요?

    • [k] 절차를 만드는 중입니다. 편하게 생각하시는 경우에 따라 다릅니다.

    • [Z] TFF 외부에 있지만 TF 내에 있는 그런 제품에 대한 예시가 있나요?

    • [K] TF에는 문서를 설계하는 절차가 있습니다. 이러한 메모를 그런 것으로 변환하길 시작할 수 있습니다. 예를 들어 사일로, 상호 불신, DP와 같은 기술을 사용하길 원하며 Azure에서 작업해야 합니다.

    • [D] 정보를 공개 없이 활용 사례에 대한 디렉터리가 있는 것이 유용합니다.

    • [K] TFF에 어쨌든 존재할 로드맵, 문서, 활용 사례에 대한 예시를 개발하고자 하며, 함께 시작할 수 있습니다. 작게 시작하는 것이 더 쉽다면 반드시 그렇게 합시다.

    • [B] 전 FL의 문제에 관한 많은 연구를 확인했습니다. 몇 가지 도구를 사용해 이러한 문제를 해결하고 거기서 시작할 수 있을지도 모릅니다. 무임승차와 유사하게, 데이터 이질성은 유사한 연합된 설정에서 일반적인 문제가 있는 것으로 보입니다. 도구들이 보편적으로 유용할 것입니다.

      • [K] 문제를 평가하기 위한 도구인가요, 혹은 시스템의 구성 요소인가요?

      • [B] TFF가 제공할 수 있는 기능입니다.

      • [K] +1. PRD로 시작하면 기능에 관해 이야기하기 위한 컨텍스트를 제공하지만, 기능에 대해 별도로 이야기할 수도 있습니다. 무임 승자 문제와 해결할 도구에 대한 작업에 관해 설명하는 문서로 시작할 수 있습니다.

      • [D] 또한 연구자들과 함께 작업합니다. LinkedIn은 제품에 더해 연구 결과를 생성하는 것을 목표로 하고 있나요?

      • [Z] 단기적으로는, 아직 연구를 위한 것이 아닙니다.

  • [K] 몇 가지 공유된 문서로 일부 기능인 구성 요소를 설명하길 시작할 수 있는 것 같군요? 어느 한 당사자가 시작할 수 있습니다. Google 문서 및 이메일을 사용할 수 있습니다. 기본적으로 공개 상태로 설정합시다.

  • [ostrowski] 우리가 빌드하고자 하는 것과 취할 수 있는 구체적인 첫 단계는 무엇인가요?

    • 그 이상의 회의를 목표로, 우리 스스로를 위한 AI?

    • 몇몇 구체적인 제품/프로젝트를 설명하기 시작했습니다.

      • 벤치마크 제품군

      • DP, 공정성, 무임 승차 보호를 통한 교차 사일로 플랫폼

    • 가능한 다음 단계

      • 제품 요건을 문서화하고 위의 각 항목에 대해 공개적으로 함께 구체화할까요?

      • 설계 수준의 아이디어를 교환하길 시작할까요?

      • 실제 개발 기여에 대한 잠재적인 계획?

        • 개발하고자 하는 구체적인 구성 요소/기능?

    • 생성할 구체적인 아티팩트:

      • 무임승차 문제와 이를 해결할 수 있는 TFF의 도구 또는 기능에 대한 요건을 설명하는 공유 문서

      • 데이터의 양이 같지 않은 편향된 전체 사일로에 대한 벤치마크, 벤치마크에서 측정하고자 하는 사항을 설명하는 공유 문서

      • Azure 기반 환경에서 작동하도록 TFF를 활성화하는 새로운 구성 요소를 정의하는 공유 문서(통합되어야 하는 레이어인 TBD).

  • [ostrowski] 공개적으로 커뮤니케이션

    • 공개적으로 사용할 수 있길 원함(GitHub 랜딩 페이지에서)

    • GitHub 페이지에서 각 회의 후 며칠 이내에 이 회의 및 이루어질 후속 회의의 논의 및 결정에 대한 요약을 볼 수 있습니다.

    • 아티팩트에 대한 링크(생성될 계획, 로드맵, 설계 문서 등)도 마찬가지로 GitHub에 게시됩니다

    • 대화(채팅?)

      • Slack

    • 공동 목표:

      • 범위 내 구체적인 제품/구성 요소?

      • 이러한 개발을 지원하기 위해 보다 구체적이고/제한적인 범위의 작업 그룹을 위한 강령?

  • [B] 사소한 운영상의 문제에 대해서는 무엇을 해야 할까요?

    • [K] Slack이나 GitHub 안건이 가능할 것 같습니다. 어떤 것이 당신에게 생산적일까요?

  • [ostrowski] 우리가 공동으로 약속할 수 있는 회의 일정은?

    • 한 달에 한 번