Path: blob/master/site/ko/federated/collaborations/notes/2022-02-16.md
25118 views
TFF 공동 작업자들의 2022년 2월 16일 회의 기록
참가자:
Krzysztof Ostrowski (Google)
Alex Ingerman (Google)
DeWitt Clinton (Google)
Boyi Chen (LinkedIn)
Souvik Ghosh (LinkedIn)
Zheng Li (LinkedIn)
[chen] 현재 사용 현황, 기여에 대한 관심 영역, 기여 방법에 대한 프로세스, 추후 개발 계획
[boyi] 현재 FL 사용 방법
두 부분 - 하나는 교차 사일로
사용자의 데이터
법적 요건으로 데이터에 대한 액세스 제한
3P 데이터로 유용한 FL
규정 준수를 유지하면서 데이터 활용 가능
온디바이스 FL - 흥미롭지만 대부분 교차 사일로에서 작업 진행
계속할 수 있는 몇몇 프로젝트
프로토 타입을 빌드 해옴
편리한 TFF
FL 벤치마크 대 개인화된 전이 학습
고객의 데이터를 사용하여 각 고객 대 전이 학습 f에 대한 개인화된 모델을 훈련, 비교
FL 작동 방식에 대한 문제
다른 고객보다 규모가 더 큰 일부 고객 -> 편향
가장 많이 기여하는 고객은 무임 승차자에 대해 걱정하고, 가장 적게 기여하는 고객은 모델에 충분히 영향을 미치지 못하는 것에 대해 걱정합니다
확장성 문제
현재는 추론 관련 문제 존재(수백 개의 M)
현재 훈련 데이터가 그리 크지 않음(10s-100sK/silos)
O(수백 개의 M) 고객에 대한 일괄 추론 실행
주요 문제로서의 총 데이터 양
모든 고객에 걸친 기록
클러스터 크기는 현재 제한되어 있으므로, 추론 속도 제한
다른 사일로와 섞일 필요가 없는 고객 = 사일로. 카디널리티란 무엇인가요?
현재 실험 중, 향후 수십만 사일로로 확장하고자 함
TFF 고객 수에서 본 숫자는 무엇인가요?
온디바이스: 소규모 데이터 사일로의 수가 많고, x 사일로는 대규모 데이터세트 수가 적음
사일로는 얼마나 유사한가요?
스키마는 동일하지만 데이터의 분포는 사일로에 따라 크게 다릅니다. 불평등한 참여
[K] 훈련뿐만 아니라 추론에 대한 TFF도 생각하고 있나요?
[B] 현재로서는, TFF를 훈련에 사용합니다. 동일한 프레임워크에서 훈련하고 추론하는 것을 선호합니다.
[K] 동일한 인프라인가요, 동일한 모델인가요?
[b} 현재로서는, 동일한 모델과 동일한 클러스터입니다
[B] 모델을 훈련하고 기기에 배포하는 법을 이해하고자 합니다.
[S] 모델을 한 환경에서 훈련하고 다른 환경에서 꺼내 사용할 필요성이 중요합니다. 첫 번째 애플리케이션을 통해서만이 아니라요.
[B] 구축하고자 하는 것은 다음과 같습니다.
기여에 대한 한 가지 아이디어, 공정성에 대한 벤치마크를 수행하면 TFF에 툴과 벤치마크를 추가할 수 있습니다.
사일로 전체에서 모델이 수행하는 방식(불균등한 성능 및 편향)
[K] 이를 실제적인 문제로 보시나요? [B] 실제적인 문제가 될 것이라 믿습니다.
[B] 이를 반대로 생각해 보세요. 사람들은 박스에 데이터를 입력하는 것을 걱정할 것입니다. 일반적인 우려 사항이지만 우리는 특별한 메트릭이 없습니다.
[K] 어떤 걸 다루고 있는 건가요? 처리하는 방법에 대한 사일로 + 규정이 있는 상황에 대해 이야기하는 건가요? 하지만 그것은 반대의 경우가 아니고 당신은 단지 편견 대 여러 기관이 있는, 서로 불신하는 당사자들이 있는 다른 또 다른 상황을 만들고 싶지 않을 뿐입니다. 우리는 둘 중 하나를 생각하고 있는 건가요, 모두를 생각하고 있는 건가요?
[B] 두 가지 모두를 다루길 원합니다. 현재로서는 후자에 대해서만 생각합니다.
[D] 즉 여기에서 사일로는 기업이며 데이터세트는 각각이 업로드한 데이터입니다
[K] 무임승차에 대한 우려를 강조하고 계십니다. 하지만 상호 불신하는 당사자들도 있습니다. 당사자들은 타인/여러분이 데이터를 보지 못하는 것을 원할까요? 이러한 우려 사항이 갈등 상태에 있습니다. 한쪽은 공격을 막기 위해 기여를 검증하길 원하고, 한쪽은 프라이버시를 위해 내용을 보이길 원하지 않습니다.
[B] 이를 두 가지 방식으로 살펴보겠습니다. 하나는 DP 등을 통한 프라이버시 보존입니다. 다른 부분에서는 모델 성능 측면에서 많은 사일로의 데이터로 훈련하는 경우, 사일로마다 이점이 다를 수 있다는 우려가 있습니다. 전자에 접근하는 표준적인 방식이 있다고 생각합니다. 후자는 좀 더 까다롭습니다.
[K] 모델이 잘 작동한다는 점에서 공정하며, 다른 이가 무임승차할 수 있습니다. 프라이버시에 관해 갈등하는 것은 후자입니다. 이를 걱정하시는 건가요?
[B] 모두 동등하게 중요합니다. 데이터 프라이버시를 지키고 혜택을 분배하는 공정한 방식을 모두 원합니다.
[S] 아직 좋은 해결책이 없습니다. [K] 마찬가지입니다.
[D] 이러한 회사들이 이를 운영하는 데 Linkedin을 얼마나 신뢰하나요?
[S] 신뢰는 적어도 제가 아는 사례에서는 아직까지 문제가 되지 않았습니다. 몇몇 제한 요청이 있었지만, 완전히 거절하지는 않았습니다. 사람들은 공통된 가치를 추구하기 위해 우리와 데이터를 공유하고자 합니다.
[A] 단순한 사일로 또는 사일로 내의 개인에 대한 프라이버시에 관해 우려하시나요?
[S] 후자입니다.
[D] Azure에서 빌드되는 중인가요? 우리가 고려해야 할 다른 개발 사항은 무엇인가요?
[S] 결국 GPU가 도입될 겁니다. 초기 모델은 더 작아지고 필요성이 줄어듭니다. 결국, 이는 더 많은 수의 멤버와 기업을 포함하게 될 겁니다. 모델은 상당히 크게 성장할 겁니다.
[D] 이는 공개적으로 사용할 수 있는 동일한 Azure인가요? 혹은 외부에서 볼 수 없는 대상에 대한 일부 내부 인프라인가요?
[S] 상당히 표준적인 것입니다.
[D] 모두가 이를 공개 Azure에서 실행할 수 있으므로 협업하기 쉽고 OSS 코드를 더욱 가치있도록 만드세요.
[K] 만들어 봅시다! 이것들은 무엇이어야 할까요? 우리는 벤치마크 제품군과 교차 사일로 플랫폼에 대해 언급했습니다. 공개적으로 PRD를 구체화하고 기능 및 활용 사례에 관해 이야기하는 것에 대해 어떻게 생각하시나요?
[Z] 제품 사양은 어떻게 되나요? TFF의 작은 구성 요소인가요?
[k] 우리는 구성 요소에 관해 이야기할 수도 있고, tff의 상단에 빌드되어 다른 사람들이 사용할 수 있는 제품에 관해 이야기할 수 있습니다.
[Z] 이것이 기여 절차인지 알고 싶습니다. 제품으로 시작하나요?
[k] 절차를 만드는 중입니다. 편하게 생각하시는 경우에 따라 다릅니다.
[Z] TFF 외부에 있지만 TF 내에 있는 그런 제품에 대한 예시가 있나요?
[K] TF에는 문서를 설계하는 절차가 있습니다. 이러한 메모를 그런 것으로 변환하길 시작할 수 있습니다. 예를 들어 사일로, 상호 불신, DP와 같은 기술을 사용하길 원하며 Azure에서 작업해야 합니다.
[D] 정보를 공개 없이 활용 사례에 대한 디렉터리가 있는 것이 유용합니다.
[K] TFF에 어쨌든 존재할 로드맵, 문서, 활용 사례에 대한 예시를 개발하고자 하며, 함께 시작할 수 있습니다. 작게 시작하는 것이 더 쉽다면 반드시 그렇게 합시다.
[B] 전 FL의 문제에 관한 많은 연구를 확인했습니다. 몇 가지 도구를 사용해 이러한 문제를 해결하고 거기서 시작할 수 있을지도 모릅니다. 무임승차와 유사하게, 데이터 이질성은 유사한 연합된 설정에서 일반적인 문제가 있는 것으로 보입니다. 도구들이 보편적으로 유용할 것입니다.
[K] 문제를 평가하기 위한 도구인가요, 혹은 시스템의 구성 요소인가요?
[B] TFF가 제공할 수 있는 기능입니다.
[K] +1. PRD로 시작하면 기능에 관해 이야기하기 위한 컨텍스트를 제공하지만, 기능에 대해 별도로 이야기할 수도 있습니다. 무임 승자 문제와 해결할 도구에 대한 작업에 관해 설명하는 문서로 시작할 수 있습니다.
[D] 또한 연구자들과 함께 작업합니다. LinkedIn은 제품에 더해 연구 결과를 생성하는 것을 목표로 하고 있나요?
[Z] 단기적으로는, 아직 연구를 위한 것이 아닙니다.
[K] 몇 가지 공유된 문서로 일부 기능인 구성 요소를 설명하길 시작할 수 있는 것 같군요? 어느 한 당사자가 시작할 수 있습니다. Google 문서 및 이메일을 사용할 수 있습니다. 기본적으로 공개 상태로 설정합시다.
[ostrowski] 우리가 빌드하고자 하는 것과 취할 수 있는 구체적인 첫 단계는 무엇인가요?
그 이상의 회의를 목표로, 우리 스스로를 위한 AI?
몇몇 구체적인 제품/프로젝트를 설명하기 시작했습니다.
벤치마크 제품군
DP, 공정성, 무임 승차 보호를 통한 교차 사일로 플랫폼
가능한 다음 단계
제품 요건을 문서화하고 위의 각 항목에 대해 공개적으로 함께 구체화할까요?
설계 수준의 아이디어를 교환하길 시작할까요?
실제 개발 기여에 대한 잠재적인 계획?
개발하고자 하는 구체적인 구성 요소/기능?
생성할 구체적인 아티팩트:
무임승차 문제와 이를 해결할 수 있는 TFF의 도구 또는 기능에 대한 요건을 설명하는 공유 문서
데이터의 양이 같지 않은 편향된 전체 사일로에 대한 벤치마크, 벤치마크에서 측정하고자 하는 사항을 설명하는 공유 문서
Azure 기반 환경에서 작동하도록 TFF를 활성화하는 새로운 구성 요소를 정의하는 공유 문서(통합되어야 하는 레이어인 TBD).
[ostrowski] 공개적으로 커뮤니케이션
공개적으로 사용할 수 있길 원함(GitHub 랜딩 페이지에서)
GitHub 페이지에서 각 회의 후 며칠 이내에 이 회의 및 이루어질 후속 회의의 논의 및 결정에 대한 요약을 볼 수 있습니다.
아티팩트에 대한 링크(생성될 계획, 로드맵, 설계 문서 등)도 마찬가지로 GitHub에 게시됩니다
대화(채팅?)
Slack
공동 목표:
범위 내 구체적인 제품/구성 요소?
이러한 개발을 지원하기 위해 보다 구체적이고/제한적인 범위의 작업 그룹을 위한 강령?
[B] 사소한 운영상의 문제에 대해서는 무엇을 해야 할까요?
[K] Slack이나 GitHub 안건이 가능할 것 같습니다. 어떤 것이 당신에게 생산적일까요?
[ostrowski] 우리가 공동으로 약속할 수 있는 회의 일정은?
한 달에 한 번