Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
tensorflow
GitHub Repository: tensorflow/docs-l10n
Path: blob/master/site/es-419/federated/collaborations/notes/2022-02-16.md
25118 views

Notas de la reunión de colaboradores de TFF del 16/02/2022

  • Participantes:

    • Krzysztof Ostrowski (Google)

    • Alex Ingerman (Google)

    • DeWitt Clinton (Google)

    • Boyi Chen (LinkedIn)

    • Souvik Ghosh (LinkedIn)

    • Zheng Li (LinkedIn)

  • [chen] Nuestro uso actual, las áreas de interés para los contribuyentes, los procesos sobre cómo contribuir, el plan de desarrollo futuro...

  • [boyi] Cómo usamos el aprendizaje federado hoy en día

    • Dos partes: una es intersilos

      • Datos de nuestros usuarios

      • Requisitos legales para restringir el acceso a los datos

      • El aprendizaje federado se vuelve práctico con los datos 3P

      • Se pueden aprovechar los datos y, a la vez, mantener el complimiento con las normativas

    • Aprendizaje federado en dispositivos: interesante, pero trabaja mayormente entre silos.

    • Algunos proyectos a los que podríamos dedicarnos

      • He estado creando prototipos

      • TFF resulta práctico

      • Comparar el aprendizaje federado con el aprendizaje por transferencia personalizado

        • Usar los datos de los clientes para entrenar un modelo personalizado para cada cliente vs. el aprendizaje por transferencia (f), (comparación).

        • Desafíos que presenta cómo funciona el aprendizaje federado

          • Algunos clientes son más grandes que otros -> sesgo

          • A los clientes que más contribuyen les preocupan los "polizones"; a los clientes con menos datos les preocupa no influir lo suficiente en el modelo

        • Desafíos de escalabilidad

          • En este momento, por inferencia (cientos de miles)

          • Los datos de entrenamiento todavía no son tan grandes (10s - 100sK/silos)

          • Ejecución de la inferencia en lotes sobre O (cientos de miles) clientes

          • El volumen total de datos como principal desafío

            • Registros de todos los clientes

          • Ahora, el tamaño del clúster es limitado y restringe, a la vez, la tasa de inferencia.

        • Cliente = silo que no debe tener los datos mezclados con los de otros silos. ¿Cuál es la cardinalidad?

          • Ahora estoy experimentando. Deseo escalar a cientos de miles de silos en el futuro

        • ¿Cuál es el número que han visto para cantidad de clientes TFF?

          • En dispositivo: una gran cantidad de pequeños silos de datos; x-silo es una pequeña cantidad de conjuntos de datos grandes.

        • ¿En qué medida son similares los silos?

          • Los esquemas son los mismos, pero la distribución de los datos es muy diferente entre los distintos silos. La participación es desigual.

      • [K] ¿Consideran a TFF para inferencia y también para entrenamiento?

        • [B] En este momento, usamos TFF para entrenamiento. ¿Preferirían entrenar e inferir en el mismo marco de trabajo?

        • [K] ¿La misma infraestructura o los mismos modelos?

        • [b} En este momento, el mismo modelo y el mismo clúster.

      • [B] Quiero entender cómo se hace para entrenar modelos e implementarlos en los dispositivos.

      • [S] La necesidad de entrenar modelos en un entorno, tomarlos y usarlos en otro entorno es muy importante en general. Pero no lo es para la primera aplicación.

  • [B] Qué queremos construir:

    • Una idea para aportar. Una vez que hacemos las comparaciones según lo que sea más equitativo (fairness), podemos agregar herramientas y puntos de referencia en TFF.

      • Cómo se comporta el modelo entre los silos (sesgos y desempeños desiguales)

    • [K] ¿Lo ven como un problema en la práctica? [B] Creemos que será un problema en la práctica.

    • [B] Pensémoslo desde una perspectiva adversa. A las personas les preocupará poner sus datos en el cuadro. Es una preocupación general, pero no tenemos una métrica particular.

    • [K] ¿De qué estamos hablando? De una situación en la que hay silos + regulaciones sobre cómo procesarlos; pero que no es adversa, simplemente no quieren crear un sesgo. En contraposición con otra situación en la que hay múltiples instituciones y muchas partes involucradas que desconfían unas de otras. ¿Estamos pensando en una de estas opciones o en ambas?

    • [B] Queremos ocuparnos de ambas. Por el momento, hablamos solamente de la última.

    • [D] P. ej., en este caso los silos son las empresas y los conjuntos de datos son los datos cargados por cada una de ellas.

    • [K] Entonces, se están enfocando en la preocupación sobre los que se aprovechan de la situación, los "beneficiarios gratuitos". Y también hay participantes que desconfían entre sí. ¿Los participantes quieren evitar que otros o que ustedes vean los datos? Estas preocupaciones entran en tensión. Por una parte queremos verificar las contribuciones para evitar ataques; pero por la otra no queremos ver contenidos, por temas de privacidad.

    • [B] Observémoslo desde 2 puntos de vista. Uno, el de la preservación de la privacidad; mediante DP, etc. El otro, desde la perspectiva del desempeño del modelo, cuando se lo entrena a partir de los datos de muchos silos. En este caso existe la preocupación de que los distintos silos obtienen sus beneficios de formas diferentes. Creemos que hay una forma estándar de proceder en el primer caso, pero el último resulta más complicado.

    • [K] Modelo equitativo, en el sentido de que el modelo funcione bien; otro podría ser el de los "beneficiarios gratuitos". El último caso es el que se encuentra más en tensión con la privacidad. ¿Les preocupa ese punto de vista?

    • [B] Ambas situaciones son igual de importantes. Queremos proteger la privacidad de los datos y encontrar la manera correcta y equitativa de distribuir los beneficios.

    • [S] Todavía no tenemos respuestas que sean buenas. [K] Igual.

    • [D] ¿Cuánto confían las empresas en LinkedIn para que se ocupe de esto?

    • [S] Hasta el momento, la confianza no ha sido un problema, al menos en los ejemplos de los que estoy al tanto. Hemos tenido algunos pedidos de restricciones, pero no rechazos concretos. La gente quiere compartir los datos para que generemos valor común.

    • [A] ¿Preocupación sobre la privacidad de los silos o sobre los individuos dentro de los silos?

    • [S] Lo último

  • [D] ¿Esto se está haciendo en Azure? ¿Hay alguna otra cosa relacionada con la implementación en la que debamos pensar?

    • [S] Con el tiempo, las GPU van a entrar en juego, los modelos iniciales serán más pequeños y tendrán menos necesidades. Eventualmente, incluirá muchos más miembros y empresas → los modelos se volverán bastante grandes.

    • [D] ¿Es el mismo Azure que está disponible y es público? O es alguna otra infraestructura interna con la que tenemos que trabajar, una que no es visible afuera.

    • [S] Son cosas bastante estándares.

    • [D] Hace que la colaboración resulte más sencilla, que el código OSS sea más valioso, ya que todos pueden ejecutarlo en Azure público.

  • [K] Hagamos algo concreto. ¿Qué sería? Mencionamos la suite de comparación y la plataforma intersilos. ¿Qué tal si hacemos algo más sustancioso como un PRD público? ¿Hablamos de las características y de los casos de uso?

    • [Z] ¿Cómo son las especificaciones del producto? ¿Son componentes pequeños en TFF?

    • [k] Podríamos estar hablando de componentes o de un producto que se pueda crear por arriba de tff y que estuviera disponible para otros.

    • [Z] Quisiera entender, ¿este es el proceso de contribución? ¿Se empieza con un producto?

    • [k] Estamos elaborando el proceso aquí. Depende de con qué uno se sienta más cómodo.

    • [Z] ¿Tienen ejemplos de tales productos, tal vez fuera de TFF pero en TF?

    • [K] TF tiene un proceso para diseñar documentos. Podemos empezar por transformar estas notas en algo como eso; p. ej., silos, la desconfianza mutua, intención de usar técnicas como DP, la necesidad de trabajar con Azure.

    • [D] Tener un directorio de casos de uso es útil, sin revelar información.

    • [K] Nos conviene desarrollar una hoja de ruta, documentos, ejemplos de casos de uso que existirán en TFF de todos modos, podemos comenzar juntos. Si empezamos con algo pequeño es más fácil. No quedan dudas, hagámoslo.

    • [B] Veo mucha investigación acerca de los posibles problemas con el aprendizaje federado. Tal vez, podríamos tomar algunas pocas herramientas para abordar estos inconvenientes y empezar por ello; p. ej., algo como los "polizones" (free-riders). La heterogeneidad de los datos parece ser un problema común en los entornos federados. Las herramientas serán útiles para todo.

      • [K] ¿Herramientas para evaluar problemas? ¿O componentes del sistema?

      • [B] La funcionalidad que puede aportar TFF.

      • [K] +1. Empezar con PRD nos aporta el contexto para hablar sobre funciones, pero también podemos hablar sobre funciones aisladas. Tal vez podemos empezar con un documento en el que se describa el problema de los "beneficiarios gratuitos" y que oriente el trabajo a herramientas que traten este asunto.

      • [D] También trabajamos con investigadores. ¿LinkedIn pretende generar resultados de investigación adicionales al producto?

      • [Z] A corto plazo, todavía no con investigación.

  • [K] Suena como que podemos comenzar con algunos documentos compartidos y empezar a describir algunas características o componentes, ¿no? Cualquiera de las partes puede dar inicio. Podemos usar Documentos de Google e email. Por defecto, usemos la opción pública.

  • [ostrowski] ¿Qué nos gustaría crear y cuáles son los pasos concretos que podemos llevar a cabo?

    • ¿El objetivo es tener más de una reunión más? ¿Tenemos acciones pendientes?

    • Hemos empezado con la descripción de unos pocos productos o proyectos.

      • La suite de comparación

      • La plataforma intersilos con DP, lo equitativo, las proyecciones de beneficiarios gratuitos.

    • Posibles próximos pasos

      • ¿Iniciar un documento con los requisitos del producto y después completarlo todos juntos abiertamente con más datos sobre cada uno de los temas anteriores?

      • ¿Empezar por el intercambio de ideas a nivel del diseño?

      • ¿Hacer planes potenciales para contribuciones de desarrollo reales?

        • ¿Algún componente o función específicos que quisieran desarrollar?

    • Artefactos específicos que hay que crear:

      • Documento compartido que describe el problema de los "beneficiarios gratuitos" y la necesidad de contar con una herramienta o función en TFF para abordar este asunto.

      • Un documento compartido en el que se describan los puntos de referencia de los sesgos entre silos con cantidades desiguales de datos, lo que quisiéramos marcar para medir.

      • Un documento compartido en el que se defina un componente nuevo que le brindara a TFF la posibilidad de funcionar en un entorno nuevo basado en Azure (queda pendiente la definición de con qué capa se debería integrar).

  • [ostrowski] Hablemos abiertamente

    • Qué hacemos público (en la página de aterrizaje de GitHub)

    • El resumen de las conversaciones y decisiones de las que aquí hablamos y las reuniones de seguimiento que dejaremos en la página de GitHub, dentro de unos días, después de cada reunión.

    • Enlaces a los artefactos (planes, hojas de ruta, documentos de diseño, etc.) que igualmente se publicarán en GitHub.

    • ¿Conversaciones por chat?

      • Slack

    • Objetivos compartidos:

      • ¿Productos o componentes específicos dentro del alcance?

      • ¿Un estatuto para un grupo de trabajo con un alcance más limitado y específico para respaldar el desarrollo en este caso?

  • [B] ¿Qué se hace con los problemas operativos menores?

    • [K] Tratar los problemas por Slack o GitHub podría funcionar. ¿Qué les resulta más productivo?

  • [ostrowski] ¿Agendar una reunión recurrente con la que todos podamos comprometernos en participar?

    • Mensual