CoCalc -- Valibouze_Yengui_PlansExpériences

Project: UTIQUE
Path: Valibouze_Yengui_PlansExpériences_2017.tex
Views: ¹⁸
1
\documentclass[12pt, frenchb]{article}
2
\usepackage{geometry}                % See geometry.pdf to learn the layout options. There are lots.
3
\geometry{letterpaper}                   % ... or a4paper or a5paper or ... 
4
%\geometry{landscape}                % Activate for for rotated page geometry
5
%\usepackage[parfill]{parskip}    % Activate to begin paragraphs with an empty line rather than an indent
6
\usepackage{graphicx}
7
\usepackage{amssymb}
8
\usepackage{epstopdf}
9
\usepackage[T1]{fontenc}
10
\usepackage[utf8]{inputenc}
11
\parindent 
12
%c'est ceci qui gêne si on n'est pas en ISO-8859-1:
13
%\usepackage[latin1]{inputenc}
14

15
\DeclareGraphicsRule{.tif}{png}{.png}{`convert #1 `dirname #1`/`basename #1 .tif`.png}
16

17
\author{}
18
%\date{}                                           % Activate to display a given date or no date
19

20

21
%\section{}
22
%\subsection{}
23

24
\date{}
25
\title{Trouver un titre au projet PHC-Utique\footnote{Systèmes Polynomiaux et Applications en Biologie et Traitement du Signal}} 
26

27
%\usepackage[a4paper]{geometry}
28
%\geometry{hscale=0.70,vscale=0.85,centering}
29

30
\begin{document}
31
\maketitle
32

33
{\it Attention ! Ceci n'est pas forcément le plan de présentation du projet. Je pense que la Section 7 devrait être dissoute dans les Sections 4, 5 et 6. Chacun devra compléter puis valider sa thématique.} \\
34

35
\noindent
36
{\bf Domaine de recherche :} Mathématiques et leurs intéractions ; \\
37
{\bf Mots clés :} Systèmes polynomiaux, Plans d'expriences, Réseaux de neurones profonds ; Modélisation ; Plans d'expériences ; Big-Data ;\\
38
{\bf Discipline :} Mathématique ; BioInformatique ; Mathématiques Appliquées ; Intelligence Artificielle ; 
39

40
\tableofcontents
41

42

43
\section{Résumé succinct du projet}
44

45
Il nous faut construire un discours autour des données médicales : 
46
plans d'expériences, résolution avec des données floues et incertaines (ça c'est pour Philippe et Annick) : Fuzzy Numbers réseaux de neurones ("deep learning" car maintenant c'est cela qui se dit pour "vendre" ... subitement tout le monde fait du "deep learning" et devient important, dans le vent, etc). \\
47
Calcul Formel (résolutions algébriques), ça c'est notre coeur de métier ! alors on le glisse ... systèmes dynamiques discrets, méthodes algébro/numérique ?
48
sécurisation des données personnelles (Pierre Saurel). \\
49

50
Peu sont en capacité de réunir tous nos atouts en se connaissant si bien (plusieurs collaborations existantes antérieures au projet): Inst. pasteur Tunis (médical ; Cancer), Calcul Formel, Fuzzy, Plans d'expériences, systèmes dynamiques discrets et IA. \\
51

52
Ines a mis l'accent sur l'utilisation de SageMath/Python/R avec l'excellent cloud cocalc.com. Mais attention, les ressources sont limitées et il faut penser à acheter des espaces de calculs pour des machines GPU supportant de grosses BD... Pareil concernant les besoins : penser à l'acquisition de cartes GPU pour notre serveur de calcul à l'IPT... 
53

54
\section{Principaux objectifs}
55

56
{\bf Tunisie :}
57
- Bases de Gröbner sur les entiers, Bases de Gröbner dynamiques, algorithme dynamique de Buchberger, algorithmes pour la réduction des matrices polynomiales unimodulaires, 
58
- Théorie de l’élimination, Théorie des invariants,
59
- Traitement du signal, Réseaux de neurones profonds et Apprentissage
60
- Modélisations mathématiques en biologie, réseaux cellulaires biologiques, biologie algébrique.
61
- Développeurs/Utilisateurs des systèmes de Calcul Formel \\
62

63
{\bf France :} 
64
- Résolutions efficaces de systèmes polynomiaux : symboliques/numériques, variétés polaires, systèmes triangulaires 
65
- Algorithmes pour la réduction des matrices polynomiales unimodulaires, Théorème de Quillen-Suslin
66
- Plans d'expérience
67
- Théorie de l’élimination, Théorie des invariants 
68
- Théorie de Galois et systèmes polynomiaux galoisiens 
69
- Statistique et systèmes biologiques, 
70
- Développeurs/Utilisateurs des systèmes de Calcul Formel \\
71

72
La complexité croissante du vivant et la masse de données générées par la mise en évidence d'études issues de différentes branches de la biologie, ont érigé la modélisation en approche privilégiée pour intégrer ces connaissances dans un esprit fortement pluridisciplinaire. De l’individu au gène en passant par la cellule, la modélisation permet de décrire l'ensemble des interactions existantes et d'appréhender les mécanismes à l'origine des phénomènes biologiques observés. C’est autour de ce soucis d’intégrer l'ensemble des niveaux d'organisations du vivant que s'articulent nos principaux axes de recherche : de la population à l’individu (Epidémiologie et Evolution) ; de l’individu à la cellule (Modélisation et compréhension de la réponse immune) ; de la cellule au gène (Biosystemique visant à élucider les mécanismes induits par la maladie/infection ou des mécanismes de résistance et de susceptibilité). Ce dernier axe de recherche comprend aussi bien la maîtrise de la collecte des données, que leur intégration ou leur traitement. \\
73

74
Aussi, contrairement à l’analyse classique qui a pour but la compréhension du fonctionnement de quelques composants cellulaires, l'analyse systémique se propose d'é\-tu\-dier la cellule dans sa globalité. Pour cela il est nécessaire d'intégrer les informations relatives à un très grand nombre de composants afin d'en déduire les principales voies métaboliques, signalétiques, énergétiques, reproductives et leur interactions fonctionnelles. Cette discipline très récente permet une vision holistique du fonctionnement cellulaire, plus proche de la complexité de la situation réelle dans les conditions physiologiques ou pathologiques : cancérogenèses, maladies génétiques mono-factorielles et multifactorielles, maladies infectieuses, etc. \\ 
75

76
Depuis ces 20 dernières années, les développements très rapide de la génomique fonctionnelle, de la transcriptomique et de la protéomique ont permis une accumulation exceptionnelle de données relatives à la séquence entière de génomes d’organismes, l'expression globale de ces gènes (transcriptome) et à la modification des protéines qui en découle (protéome). La plupart de ces données sont accessibles sur les bases de données internationales et peuvent être valorisées dans la mesure où des outils d’analyses sont disponibles et maîtrisés. Chaque développement nouveau de la biologie implique le développement nouveau d’un outil d’analyse. En effet, les outils d'intelligence artificielle, se sont démocratisés par un accès rapide à des machines de calculs de plus en plus puissantes, avec des capacités de stockages pratiquement illimitées. Cette facilité de calculs a engendré des avancés considérables dans la classification (supervisée ou pas) et les simulations in-silico via des réseaux de neurones profonds (connu sous le nom "deep learning"). \\
77

78
L'étude des systèmes biologiques suppose une collaboration pluridisciplinaire ; la bio-informaticienne Alia Ben Kahla et la bio-mathématicienne Ines Abdeljaoued-Tej travaillent sur la combinaison des systèmes polynomiaux biologiques aux techniques de modélisation des données. Annick Valibouze et Ihsen Yengui travaillent sur les plans d’expériences comme application de la théorie de Galois sur les corps finis i.e. sur les corps de Galois. D'autres approches purement statistiques existent et une combinaison des deux outils déterministe (Calcul Formel) et stochastique (construction de graphes ou de réseaux de régulations protéiques) est également à développer. Nous projetons donc une collaboration avec Hatem Hadj Kacem dont la maîtrise des outils de Deep Learning permet d'appréhender le problème de la reconstruction d'un réseau (représentant les interactions entre protéines) sous l'angle de l'apprentissage supervisé. L'objectif est d'approfondir nos connaissances sur les systèmes polynomiaux dynamiques ou galoisiens ainsi que de rechercher des algorithmes efficaces pour leur calcul. Les algorithmes portant sur les systèmes polynomiaux dynamiques (ou discrets) seront appliqués à des donnés biologiques réelles. La réussite de notre projet de recherche passera par un travail d'équipes pluridisciplinaires : assurer l'intégration des donnés d'expression des produits de gènes, ajuster des approches de plans d'expé\-rien\-ce à la construction de systèmes polynomiaux et de graphes de régulation géniques, ceci passera par un choix judicieux des donnés.
79

80
\section{Présentation de chaque équipe engagée}
81

82
Il y a une équipe française appartenant à Sorbonne Université et deux équipes tunisiennes de l'Université de Tunis El-Manar et de l'Université de Sfax. 
83

84
\subsection{Identification des participants en France}
85

86
Depuis la fusion de P4 et P6, les participants font partie de Sorbonne Université. Il faut bien définir le {\bf Chef du projet français}, les {\bf Structures de Recherche} et la {\bf Composition de l'équipe}. \\
87

88
Philippe Aubry : MC, LIP6 (labo Info),  calcul formel et Nombres Flous (données approchées)\\
89
https://www.lip6.fr/actualite/personnes-fiche.php?ident=P69\\
90

91
Annick Valibouze : PR, Dr Adj. ISUP (Inst. de Stat. de Paris), LIP6, LPSM (Proba-Stat), calcul formel, plans d'expériences, nombres flous, systèmes dynamiques, apprentissage et réseaux neuronaux\\ https://www-apr.lip6.fr/~avb/\\
92

93
Pierre Saurel : MC-HDR (enseigne à l'ESPE), Equipe RATIONALITÉS CONTEMPORAINES ; Math-Info, en copie, apprentissage par renforcement (thèse et HDR en IA), Membre IEEE et VP Chapitre "Computer  (C016)"  IEEE France.\\ http://www.espe-paris.fr/chercheur/saurel
94

95
\subsection{Identification des participants en Tunisie}
96

97
Il y a deux équipes tunisiennes se trouvant l'une à Sfax et l'autre à Tunis. Ici, il faut insérer le {\bf Chef du projet tunisien}, les {\bf Structures de Recherche} et la {\bf Composition de l'équipe}. 
98

99
\subsubsection{Faculté des Sciences de Sfax}
100

101
Ihsen YENGUI : PR,  Département de Maths : calcul formel, plans d'expériences, ... \\
102

103
Hacem Hadj kacem, MA à la Faculté des Sciences Économiques et de Gestion de Sfax (FSEGS), Département Informatique (Computer Science), membre du Laboratoire ReDCAD, Combinatoire, Parallélisme, calcul distribué. \\ http://www.redcad.org/members/hatem.hadjkacem/  (- ACM Professional Member- IEEE Professional Member (Computer Society) (à compléter, modifier ou améliorer car les infos ne sont pas sur la page). \\
104

105
M. Heni Bouhamed, MA : Advanced Technologies for Image and Signal Processing unit (ATISP, ENET'COM), Machine Learning, Deep Learning, Bayesian Networks, Big data, Hadoop. http://sites.google.com/site/drhenibouhamed/). 
106

107
\subsubsection{Laboratoire BIMS de l'Institut Pasteur de Tunis}
108

109
Laboratoire BIMS - Institut Pasteur de Tunis, Directrice : Alia Benkahla, Biologiste, Bioinformatique\\
110
BIMS : Bio-informatique, Bio-mathématiques et Bio-Statistique \\
111
http://www.pasteur.tn/\\
112

113
Ines Abdeljaoued : MA à  ESSAI - Université de Carthage et membre du Laboratoire BIMS, calcul formel, bio-math, bio-info, deep-learning, ...\\
114

115
Alia Benkahla, DR Laboratoire BIMS, Biologiste, Bioinformatique, Institut Pasteur de Tunis. \\
116

117
Khadija El Matteli : Entame sa thèse en février à BIMS (sous la direction de Slimane Ben Miled et Ines Abdeljaoued-Tej), ... 
118

119
\subsection{Coopérations antérieures des partenaires}
120

121
Une collaboration entre les équipes de Tunisie et de France a commencé à propos des systèmes polynomiaux galoisiens. Elle se traduit par la publication de plusieurs articles dont plusieurs signés en commun à propos des systèmes polynomiaux galoisiens en théorie de Galois et l’utilisation du Calcul Formel en biologie. \\
122

123
Nous  avons travaillé sur des techniques relevant de l’algèbre, du calcul formel, du calcul scientifique et des récentes avancées du calcul symbolique/numérique auxquelles nous avons contribué [Orange]. Nous poursuivrons nos travaux sur les systèmes biologiques [Handbook] en général et les systèmes polynomiaux et leurs applications en biologie en particulier [Separateurs]. les systèmes polynomiaux galoisiens étant des systèmes possédant une symétrie particulière ; ils ont été introduits par A. Valibouze afin de calculer sans erreur avec les racines des polynômes univariés.\\
124

125
Depuis de nombreuses années, les équipes du réseau français ont un fort taux de collaboration. Par exemple, au travers du projet Galois dirigé par A. Valibouze, auquel I. Abdeljaoued (Tunisie) a également participé. \\
126

127
D'autre part, il y a eu l'organisation conjointe de conférences : \\
128
1) MAP'09, « Mathématiques-Algorithmes-Preuves » , Monastir (décembre 2009) organisé par Henri Lombardi et Ihsen Yengui. Plusieurs membres français et tunisiens de ce projet ont participé à ce colloque. \\
129
2) la Session parallèle "Calcul formel et Algèbre constructive" a été organisée par I. Yengui et A. Valibouze à l’occasion du Premier Colloque franco-tunisien de Mathématiques (Djerba, 16-20 mars 2009) organisé conjointement par la SMF et la SMT. Les membres de ce projet ont assisté à cette Session parallèle. M. Barkatou, P. Aubry, I. Abdeljaoued-Tej ont été des conférenciers de ce colloque. \\
130
3) La deuxième édition du « colloque franco-maghrébin de calcul formel » a été organisée par les deux responsables (coté français et coté tunisien) A. Valibouze et I. Yengui de ce projet du 29 septembre au 04 octobre 2011 aux îles de Kerkennah (Sfax, Tunisie).
131

132
\section{Données biologiques et médicales}
133

134
Je mets ce que je sais - A remplir 
135

136
- Systèmes dynamiques discrets ( Abdeljaoued, Benkahla, ..., Valibouze) et application au Cancer \\
137
- Plan d'expériences (Yenguy, Valibouze, etc : voir section plus bas)\\
138

139
\subsection{Systèmes dynamiques discrets}
140

141
La Topologie de la carte d'interactions moléculaires (la mesure physique ou les prédictions informatiques des interactions protéiques, des interactions entre ADN et protéines et entre les divers produits de gènes) est codée par un jeu de variables dans lesquelles le temps agit dynamiquement. Le défi serait de mesurer ces changements et extraire de ces mesures toute la dynamique inhérente à ces changements. Ce travail ne peut être entrepris sans l'intégration des données bio-moléculaires et bio-informatiques. Cette intégration et cette collecte est une partie importante de notre travail [Handbook]. Mais d'autres thèmes purement mathématiques peuvent être développés afin de faciliter le traitement des données biologiques : il s'agit par exemple de l'utilisation du Calcul Formel et plus particulièrement des systèmes polynomiaux.\\
142

143
Un certain nombre d’outils statistiques ont été développés (notamment les réseaux bayésiens dynamiques), mais très peu de travaux portent sur les systèmes polynomiaux biologiques (outre le cas particulier des systèmes polynomiaux booléens). En effet, nés il y a moins d’un demi siècle, les travaux de R. Thomas datent de 1973 [Thomas], l’étude des systèmes dynamique booléens a connu un formidable développement tout au long des décennies précédentes. Un travail important a été réalisé il y a moins de 10 ans sur ce sujet : l’équipe de R. Laubenbacher a généralisé cette théorie aux systèmes dynamiques polynomiaux, permettant de réaliser des modélisations innovantes en Biologie [Laubenbacher]. Ce que nous entreprenons dans le cadre de ce projet, c'est l’étude des systèmes biologiques qui suppose une combinaison d’outils déterministes (calcul formel) et d'outils stochastiques (construction de graphes ou de réseaux de régulations géniques ou protéiques pour modéliser des systèmes complexes). \\
144

145
Parmi les systèmes dynamiques à modéliser, nous avons entamé une étude à plusieurs échelles de tumeurs cancéreuses solides. Partant d'un nombre limité de cellules souches cancéreuses, notre objectif était de comprendre l'évolution de la taille de la tumeur cancéreuse, sachant que la croissance tumorale est tributaire de l'en\-vi\-ronnement (nutriments, densité de la matrice extra-cellulaire) mais aussi du génotype des cellules. Ce travail a été réalisé lors du mastère de Khadija El Matteli (soutenu en Octobre 2017) : outre la synthèse des outils utilisés jusque là, il s'agissait d'étudier les réseaux de neurones modélisant le phénotype, des EDP de réaction-diffusion pour expliquer la distribution du glucose, de l'hydrogène, de l'oxygène et de la densité de la matrice extra-cellulaire. La solution de ces équations influe sur la décision du réseau neuronal. Les simulations informatiques se sont basés sur le modèle d'automate cellulaire pour la croissance tumorale solide, dans lequel chaque cellule est équipée d'un réseau de neurones simulant la réponse micro-environnementale. \\
146

147
Des perspectives de recherche sont proposées, notamment avec l'étude du rôle des gènes sur l'hétérogénéité de la tumeur cancéreuse (selon le phénotype). Nous allons étudier également l'effet des mutations qui se produisent au niveau cellulaire et lors de l'apparition de l'angiogenèse. L'objectif principal de ces modèles de simulation est d'étudier la dynamique de la tumeur et son évolution ; obtenir des résultats statistiques sur le développement de la tumeur et sa croissance dans son environnement ; avoir des informations prédictives sur l'invasion tumorale. Cette modélisation permet aussi de combiner des données de plusieurs échelles et de comparer entre les tumeurs bénignes et celles qui sont cancéreuses. \\
148

149
La plupart des simulations se font sur SageMath, qui est un logiciel de mathématiques sous licence GPL. Il combine la puissance de nombreux programmes libres dans une interface commune basée sur le langage de programmation Python. Son objectif est de créer une alternative libre à Magma, Maple, Mathematica et Matlab. SageMath peut être utilisé soit en ligne de commande, soit avec son bloc-note originel ou soit avec le bloc-note Jupyter développé récemment pour piloter la plupart des langages de programmation. Dans [Thiery], nous avons présenté quelques exemples pratiques d'utilisation de SageMath dans la Biologie Théorique. Nous avons utilisé la plateforme cocalc.com pour effectuer nos simulations. Cette plateforme nous permettra effectivement de faire converger nos simulations numériques.
150

151
\subsection{Plan d'expériences}
152

153
L'introduction systématique de méthodes statistiques en planification d'expériences est due au statisticien britannique R. A. Fisher. Dans les années 1925-1937, au sein de la station de recherche agronomique de Rothamsted (GB), il entreprit de tenir compte dans les résultats d'expériences de l'hétérogénéité des parcelles, lieux des expérimentations, en y comparant les rendements des différentes variétés de semences qui y étaient cultivées ; il a ainsi introduit les plans en blocs complets, en blocs incomplets, etc. La construction et l'utilisation de ces plans est basée sur trois principes, à savoir la répétition, la randomisation et le contrôle local. La répétition a pour objectif de permettre une estimation de la variabilité résiduelle, et, d'accroître la précision de l'expérience. La randomisation permet d'obtenir des estimations non biaisées de la variabilité résiduelle et et de l'influence des variétés sur les rendements. Comme la répétition, le contrôle local a pour but, d'accroître la précision de l'expérience. \\
154

155
Depuis, afin d'étudier un phénomène de nature quelconque : médical, agronomique, physique, chimique, marketing ou autre, les bonnes pratiques consistent à chercher à effectuer, lorsque cela est possible, un nombre limité d'expériences, chacune de celles-ci apportant une information sur le phénomène permettant de l'identifier si possible de manière unique. Le phénomène est souvent régit par des modèles qui peuvent être pré-établis ou non, ce qui nécessite alors de les identifier par des méthodes telles celles d'apprentissage. \\  
156

157
Par exemple, pour des expériences à données numériques discrètes dites {\it qualitatives}, tels les  Plans Factoriels Fractionnaires, PFF, (jumeaux théoriques des codes correcteurs d'erreurs linéaires), le modèle est supposé connu a priori (une pré-étude peut-être nécessaire pour cela). Si un tel modèle est un polynôme, son nombre de variables est alors le nombre de ''{\it facteurs}'' et ses coefficients appartiennent à une structure algébrique contenant les valeurs que peuvent prendre ces facteurs (comme l'anneau des entiers, voir par exemple [Hanen-Tinsson], ou un anneau $Z/nZ$). Pour une expérience donnée et à l'aide d'un nombre minimal de points expérimentaux, il s'agit de déterminer les paramètres du modèle ; à savoir les coefficients du polynôme dans l'exemple précédent. \\
158

159
Eviter de réaliser toutes les expériences possibles pour déterminer les paramètres d'un modèle est exactement l'objectif de l'étude du plan d'expérience ; en effet, le plus souvent il y a impossibilité dans un temps raisonnable et/ou en pratique de mener toutes les expériences. La question est donc de choisir les points expérimentaux nécessaires et suffisants à ''interpoler'' le modèle ou tout au moins l'approcher au mieux selon le nombre d'expériences possiblement réalisables en pratique et/ou de leurs précisions ; cela peut inclure la nécessité d'éviter la mise en danger d'un patient ou encore d'un volontaire dans le cas d'essais cliniques. ''Interpoler le modèle'' signifie déterminer ses paramètres à partir des facteurs, d'où la dénomination ''Factoriel'' (au sens ``interpolation mathématique'' ou ``régression''). Nous disons qu'il s'agit de déterminer une {\it fraction} du Plan Factoriel. L'exemple que chacun pourra comprendre est le suivant : s'il n'y a qu'un seul facteur et que le modèle est un polynôme de degré $n$ (d'une variable puisque ''un seul facteur)'' ses coefficients liés à l'expérience sont déterminés par une interpolation de Lagrange classique : il suffit de réaliser l'expérience sur $n+1$ points distincts quelconques qui ainsi fractionneront le PFF ; l'identifiabilité du modèle dépend donc du nombre de valeurs de points expérimentaux distincts possibles pour l'expérience, à savoir au moins $n+1$ pour notre exemple. \\
160

161
L'étude des Plans d'Expériences est bien plus étendue que celle essentielle des Plans Factoriels Fractionnaires. Les données (résultats de l'expériences) peuvent être de nature quantitative : réelles (une température, une concentration, une pression, une longueur,  ....), scalaires entières (un nombre d'éléments, ...) ou de nature qualitative (un type de matériel, de médicament, le genre des individus considérés, leurs niveaux de diplômes, leurs catégories socio-professionnelles, ...).
162

163
\subsection{Big-data - Données Massive}
164

165
Hacem Hadj Kacem  et Heni Bouhamed \\
166

167
Voici les données brutes sortie des mails que j'ai transmis
168

169
\subsubsection{ce qui est proposé (voir mail)}
170

171
  1/ Proposer un formalisme de modélisation permettant de construire un modèle non linéaire et scalable pour des données massives (big data), le Deep Forward Neural Network par exemple, avec des données mixtes,\\
172

173
  2/ Produire une implémentation "scalable" permettant de déterminer, après un parcours "exhaustif", le meilleur modèle (polynôme) afin de le comparer avec ceux (modèles) trouvés par le "space-filling",
174

175
  3/ Produire un algorithme parallèle pour le "space-filling"
176
  
177
\subsubsection{Réponses à mes questions (voir mail)}
178
 
179
Modèle scalable Big Data : modèle capable de s’adapter lorsqu’il y a un volume énorme de données à traiter ou lorsqu’il y a un nombre de traitement séquentiel énorme (dépassant les capacités des serveurs les plus puissants) à effectuer… (voir « Understanding Big Data Scalability, Cory Isaakson, Prentice Hall, 2014)
180
 
181
 1/ Proposer un formalisme de modélisation permettant de construire un modèle non linéaire et scalable pour des données massives (big data), le Deep Forward Neural Network par exemple, avec des données mixtes,
182
 
183
Comment voyez-vous cela ? Cette phrase est trop englobante pour que je comprenne vers quoi vous voulez aller.
184
 
185
n  On veut aller vers la construction d’un modèle (Apprentissage d’un réseau de neurones profond) capable de s’adapter lorsqu’on a un volume de données énormes (Big Data) à traiter (une base de données distribuée/répliquée, HDFS, cassandra etc… par exemple).
186
 
187
   2/ Produire une implémentation "scalable" permettant de déterminer, après un parcours "exhaustif", le meilleur modèle (polynôme) afin de le comparer avec ceux (modèles) trouvés par le "space-filling",
188
 
189
Vous faite référence à 1/ ici ? Là encore, c'est trop général pour que je comprenne de quoi il s'agit.
190
 
191
n  On voulait dire : produire une implémentation exploitant le multiprocessing (distribuer les traitements sur les core des processeurs disponibles), c’est facilement faisable avec python et permettra de trouver la meilleure solution avec un parcours exhaustif (même avec des données massives Big Data), qui pourra être comparé par la suite avec les résultats du space-filling (Afin de pouvoir l’évaluer)     
192
 
193
   3/ Produire un algorithme parallèle pour le "space-filling",
194
 
195
L'aspect matriciel laisse envisager cela.
196
 
197
n  On voulait dire : produire une implémentation du « space-filling » exploitant le multiprocessing (distribuer les traitements sur les core des processeurs disponibles), ce qui va permettre de l’adapter (space-filling) pour le traitement des données massives Big Data…
198

199
\section{Données Floues et Plan d'expériences}
200

201
Aubry - Valibouze\\
202

203
sorti d'un projet de thèse avec Philippe (il y a des choses inutiles à retirer)\\
204

205
\subsection{Données Floues}
206

207
Les nombres flous interviennent dans de multiples applications dés lors qu’ils s’agit de traiter des données incertaines : actuariat, finance, biologie, chimie, … (voir [1] et [2]).\\
208

209
Depuis peu, une méthodologie algébrique de résolution est appliquée aux nombres flous de supports bornés.  Nous avons appliqué cette méthodologie aux nombres flous triangulaires dans [3] et [4].\\
210

211
L’algébrisation d’un nombre flou est rendue possible car sa définition est formelle (voir, par exemple, les publications de Didier Dubois et Henry Prade) . 
212
Un nombre flou se définit comme une courbe continue définie par (x,N(x)) sous certaines contraintes. Par exemple, une nombre flou triangulaire est défini par un triplet (n,a,b)  de trois valeurs réelles telles que a<=n<=b, N(n)=1,  N(x) est nulle en dehors de l’intervalle ]a,b[, N(x) décrit une droite pour x entre les valeurs a et n (resp. n et b).\\
213

214
La méthodologie de résolution algébrique offre une certification des résultats mais aussi une résolutions globale ce que ne peuvent garantir ou offrir les méthodes locales utilisées avant l’introduction de l’algébrisation (voir [5] à [8]).\\
215

216
Un paquetage Fuzzy  du système de Calcul Formel libre SageMath (Langage Python) a été conçu par Jérémy Marrez, M2 Math-Info USVQ,  lors de son stage de M2 (financement LIP6 et co-encadrement P. Aubry et A. Valibouze). Jérémy Marrez est actuellement en thèse au LIP6 avec J.C. Barjard (Directeur du LIP6) dans le domaine de la cryptographie.\\
217

218
Nous proposons d’étendre cette méthodologie formelle des nombres flous triangulaires à diverses familles de nombres flous à supports bornés, comme les polynomiaux : les triangulaires sont polynomiaux de degrés 1, les quadratiques de degré 2. 
219

220
Il s'agira aussi de développer des programmes dans le logiciel SageMath et s’intéresser aux champs d’applications et comparer les résultats aux méthodes locales (résaux de neurones, par exemple).
221

222
\subsection{Traitement des données mixtes}
223

224
Yengui - Valibouze et qui veut bien
225

226
C'est de là que c'est parti
227

228
%\noindent 
229
%\underline{Axe du LABEX SMART} : Le développement des services numériques pour l'accès à la connaissance et à
230
%l'information, {\bf le traitement des données numériques}.\\
231

232
%\vspace{0.5in}
233
%\noindent 
234
%\underline{ENCADRANTE} porteuse  : \\
235

236
%\noindent 
237
%Annick Valibouze, Professeure Université Paris 6, UPMC,  France,  laboratoires LSTA (Statistiques) et LIP6 (Informatique).\\
238
%Ihsen Yengui, Professeur, Faculté des Sciences de SFAX, Tunisie, Département de Mathématiques.
239
%\noindent 
240
%\underline{CO-ENCADRANTS}  : \\
241
%
242
%\noindent 
243
%Pierre Saurel, Machines Learning, Université Paris 4.\\
244
%Michel Broniatowski  (LSTA, UPMC) co-auteur du livre cité en référence.\\
245
%
246
%\vspace{0.5in}
247
%
248
%\noindent 
249
%\underline{Laboratoires d'accueil universitaires} : LIP6 (Informatique) et LSTA (Statistiques) de l'UPMC, France. 
250
%Département de Mathématiques, Faculté des Sciences de SFAX, Tunisie\\
251
%\vspace{0.5in}
252

253
%\noindent 
254
%\underline{Durée du Stage} : 6 mois en 2017.
255

256

257
%\newpage
258
%\subsection{Présentation générale du contexte}
259

260
  
261
%\newpage
262
%\vspace{-0.3in}
263

264
%\section*{\bf Enjeux sociologiques et application à la Santé}
265
%
266
%Dans le domaine sensible des essais cliniques, en particulier sur des humains, il n'est pas aisé de trouver des volontaires pour les mener.  Aussi, tant que les règlementations autoriseront l'expérimentation animale, il s'agit à la fois de réduire le nombre d'animaux dits de laboratoire (et pas seulement pour des raisons budgétaires, aussi pour des raisons éthiques) et d'éviter de mettre inutilement leur vie en danger.
267
%Au delà de la cause animale, il s'agit aussi et surtout que ces essais cliniques ne mettent pas en danger la vie, la santé, des patients, des volontaires.
268
%
269
%Pour éviter les risques, il n'est pas souhaitable d'administrer trop de traitements tests à un même patient, ni simultanément à différents patients, ni d'ailleurs de les administrer de manière trop rapprochée et en n'importe quelle quantité. Ces impératifs soulèvent des problèmes algébriques, combinatoires, statistiques et informatiques cruciaux pour la sécurité sanitaire. 
270
%
271
%Il s'agit donc à la fois de former assez de scientifiques compétents (à ''multi-compétences'', en fait) pour accompagner les expériences cliniques tout en faisant avancer les connaissances et la mise à disposition des outils informatiques en le domaine. Le cadre du stage de M2 que nous proposons se place dans ce double objectif.
272

273
Il s'agit d'étudier des plans d'expériences dits ''space filling'' qui explorent au mieux l'espace des paramètres.\\
274

275
Plus précisément, il est proposé d'étudier une méthode particulière pour la construction d'un plan d'expérience ''space-filling'' adapté à des variables mixtes ; i.e. des expériences qui regroupent des variables à la fois quantitatives et qualitatives. L'échantillonnage sur hypercube latin (Latin Hypercube Sampling) est une technique couramment utilisée (voir [Sant2003]). Son succès est du à ses bonnes propriétés de répartition homogène dans l'espace ainsi que de projection unidimensionnelle, i.e. la projection de l'échantillon sur un des axes des variables possède une distribution uniforme sur celui-ci. Cependant les techniques adaptées à la production de plans d'expériences pour variables mixtes avec potentiellement de ''meilleures'' propriétés de projections sont plus rarement utilisées et étudiées. Il s'agit de pouvoir aborder la partie algébrique (par exemple, sur les corps finis, dits de Galois), avec un regard de statisticien qui possède des compétences en programmation. \\
276

277
Les données expérimentales en trop grand nombre peuvent être ou bien des données  stockées ou récupérées par des flux (Big Data) ou alors des données productibles à partir d'un modèle expérimental. 
278

279
Nous proposons dans un premier l'étude de l'article  [Qian2009] et de ceux qui suivent ainsi que l'implémentation de la méthode sous [SageMath]. Cette méthode permet la construction d'un plan d'expériences ''space-filling'' pour des variables mixtes. Elle est appelée ''sliced space-filling design'' par les auteurs de l'article. Cette méthode concerne le calcul sur les corps finis et plus généralement le Calcul Formel (voir [Legrand-Val]). 
280

281
%{\bf Pour Aller plus loin} \\
282

283
Nous nous intéressons aussi aux plans dits du ``plus proche voisin''  consistant à trouver les plans les plus pertinents pour réaliser des tests à intervalles de temps réguliers dans le secteur d'activités.
284
Par exemples, dans le contexte de la santé, il s'agit d'administrer des traitements à des patients ou à un même patient. Les conditions optimales de deux structures de corrélation (modèles) ont été déjà été étudiées dans le cas général ; à savoir les structures NN$m$ et AR($m$), où l'entier $m >0$ est la distance temporelle entre deux traitements (voir [Kone-Val1], [Kone-Val2]). \\
285

286
Un autre point d'étude concerne les PFF construits à partir des méthodes de résolution algébrique dont l'article fondateur est dû à [Pistone et Wynn]. Les applications sont nombreuses et variées (voir, par exemple, [Hanen-Tinsson]).  
287

288
\section{Planification des résultats attendus}
289

290
Ici, insérer la planification des résultats attendus, pour l'équipe tunisienne et l'équipe française : {\bf Intérêts scientifiques}, {\bf Retombées socio-économiques}, {\bf Activités de Recherche diplômante}, etc. \\
291

292
\subsection{Equipe tunisienne}
293

294
Avec l'avancement des travaux en cours, d'autres doctorants pourraient rejoindre les équipes dans le cadre d'une co-encadrement. 
295

296
\subsubsection{Intérêts scientifiques}
297

298
Bénéficier de l’aide des experts français dans la modélisation mathématiques, la conception et  implémentation d’algorithmes en vue de les appliquer en traitement du signal et en biologie.
299
 
300
Renforcer la collaboration Calcul Formel/Bio (Tunisie) par des spécialistes français de résolution de systèmes polynomiaux et l’enrichir avec la statistique.
301

302
\subsubsection{Retombées socio-économiques}
303

304
L'algèbre a vu son contenu et ses méthodes évoluer beaucoup récemment grâce à des progrès conceptuels et logiciels qui rendent possibles de multiples applications, notamment dans le domaine de la protection de l’information, du traitement du signal et de la biologie.
305

306
\subsection{Equipe fran{\c c}aise}
307
\subsubsection{Intérêts scientifiques}
308

309
- Proposer des sujets de thèses en rapport avec les thèmes de recherche des équipes françaises.  
310
- Renforcer les collaborations existantes qui ont déjà donné lieu à des publications (voir listes de publications).
311
- Faire collaborer simultanément des spécialistes des 3 domaines Statistique, Biologie et Calcul Formel ; ces collaborations n’étant actuellement que bi-thématiques Stat/Bio (France) et Calcul Formel/Bio (Tunisie) en bénéficiant  des compétences acquises par l’équipe tunisienne.
312
- Trouver de nouvelles applications aux systèmes polynomiaux et faire avancer la recherche fondamentale face à de nouvelles problématiques.
313

314
\subsubsection{Retombées socio-économiques}
315

316
Faire participer des jeunes chercheurs dans les projets de recherche. 
317

318
Que les nouvelles approches Sta/Bio, Calcul-Formel/Bio mises en synergies apportent des solutions nouvelles en terme de logiciels et avancées des connaissances dans les systèmes dynamiques biologiques ; nous espérons tout particulièrement un impact important dans le domaine médical. 
319

320
\section{Besoins en matériel/séjours}
321

322
1 ordinateur portable (1 To, Intel Core i7, Quad-core, 15 pouces) ; \\
323
1 carte graphique pour effectuer des calculs sur le serveur de BIMS \\
324
1 séjour (junior) en France (pour assister à une école) ; \\
325
1 séjour (junior) pour un colloque ou une conférence ; 
326

327
%\newpage
328

329
\section*{\bf Références}
330

331
 \setlength{\parindent}{0pt}
332
 \begin{enumerate}
333
 \item [Broniatowski-Celant], M. Broniatowski et G. Celant, {\bf Interpolation and Extrapolation Optimal Designs 1.} Wiley, 2016, Print ISBN: 9781848219953, Published Online: 1 APR 2016, Online ISBN: 9781119292272, DOI: 10.1002/9781119292272.
334
\item  [Hanen-Tinsson] Hanna Hanen, Walter Tinsson. Plans d'expérience pour mélange de mélanges. 41-ièmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France. 2009. https://hal.inria.fr/inria-00386588/file/p34.pdf, HAL-ID = $<$inria-00386588$>$.
335
 
336
\item  [Kone-Val1] M. Koné, A. Valibouze, Plans en blocs incomplets : application à la santé.
337
Proceedings des Journées Internationales Analyse Statistique : Théorie et Applications, JIASTA2012, Oujda, Maroc, 113-116, 2012.
338

339
\item [Kone-Val2] M. Koné, A. Valibouze, Universal optimality of nearest neighbour balanced block designs
340
using any order correlated models. Preprint, 2016.
341

342
%[Kone-Val2] M. Koné, A. Valibouze,Plans en blocs incomplets pour la structure de corrélation NNm
343
%Annales de l'I.S.U.P. (Institut de Statistiques de l'Université de Paris), vol. 55 Num.2-3, pp 65--88 (2011)
344
%[Version préliminaire : HAL-CNRS hal-00589585 (29/04/2011)] .\\
345

346
\item [Legrand-Val] R. Legrand, A. Valibouze, {\bf Calcul Formel avec Maple.} (Livre interactif) Science Active Peter Burch (Ed.), Paris, France, ISBN : 978-2-917398-03-6, 2008.
347

348
\item [Pistone et Wynn] Pistone G., Wynn H., Generalised confounding with Gr{\"o}bner bases. Biometrika,
349
83, 653-666, 1996.
350

351
\item [Qian2009] P.Z.G. Qian, C.F.J. Wu, Sliced space-filling design. Biometrika, 96:4, 945-956, 2009.
352

353
\item [SageMath] SageMath, Système de Calcul Formel libre de langage Python interfacé avec R et des dizaines d'autres logiciels libres : http://www.sagemath.org/fr/  Ouverture de compte libre sur le cloud de SageMath. https://www.sagemathcloud.com/ (accès libre limité en espace et en temps mais suffisant pour le stage).
354

355
\item  [Sant2003] T.J. Santner, B.J. Williams, W.I. Notz, The Design and Analysis of Computer Experiments. Springer-Verlag New York, 2003.
356
 
357
%[Val3] A. V. ''Réseaux Neuronaux'', Cours M2 de Statistiques, Université Pierre et Marie Curie.\\
358

359
\item [Val] A. Valibouze, La théorie de Galois en Informatique. Bicentenaire Evariste Galois. 2008. https://www-apr.lip6.fr/~avb/Bicentenaire.html.
360

361
\item[Thiery] J. Thiéry, I. Abdeljaoued-Tej, K. El-Matteli and S. BenMiled, SageMath pour l'enseignement de la biologie théorique, Juin 26-29, 2017. 37ème Colloque de la Société Francophone de Biologie Théorique.
362

363
\item[Orange] I. Abdeljaoued-Tej, S. Orange, G. Renault, A. Valibouze. 2004. 	Computation of the decomposition group of a triangular ideal, Journal of Applicable Algebra in Engineering, Communication and Computing, numéro 15, pages	279-294. 
364

365
\item[Handbook] L. Guizani-Tabbane, A. Ben Kahla, I. Abdeljaoued-Tej, S. Ben Miled and K. Delagi. 2008. Chapter System biology and infectious diseases, Handbook of research on systems biology application in medicine, Max Planck Institute, Berlin.
366

367
\item[Separateurs] I. Abdeljaoued-Tej, A. Ben Kahla, G. Haddad, A. Valibouze, A Linear Algorithm For Computing Polynomial Dynamical Biological Systems, soumis à NGC.
368

369
\item[Thomas] R. Thomas, Kinetic logic: a boolean approach to the analysis of complex regulatory systems, Lecture Notes in Biomathematics, 29, (1979), 507 pp. \\
370

371
\item[Laubenbacher] R. Laubenbacher and B. Stigler, A computational algebra approach to the reverse engineering of gene regulatory networks, Journal of Theoretical Biology, 229 :523, 2004.
372

373
%Références :
374

375
%Applications (Livres)  :
376

377
\item[1] First Course on Fuzzy Theory and Applications, Lee, K., 
378
Advances in Intelligent and Soft Computing, Springer, 2005
379

380
\item[2] Fuzzy Systems in Economy and Engineering,
381
J.G. Aluja, A.P. Tacu, H.N. Teodorescu,
382
Publishing House of The Romanian Acad, 1994
383

384

385
%Méthodes Globales Algébriques :
386

387
\item[3] Finding solutions of fuzzy polynomial equation systems by an Algebraic method. 
388
M. Boroujeni, A. Basiri, S. Rahmany, Annick Valibouze 
389
Journal of Intelligent \& Fuzzy System 30, 781-800, 2016
390

391
\item[4] Solving Fuzzy Systems in Dual Form Using Wu's Method. 
392
Marziyeh Boroujeni, Abdolali Basiri, Sajjad Rahmany, Annick Valibouze 
393
International Journal of Fuzzy Systems (issn=1562-2479), Ed. Springer Berlin Heidelberg, 1-11, 2015 
394

395
%Méthodes Locales :
396

397
\item[5] Newton's method for solving fuzzy nonlinear equations
398
S. Abbasbandy, B. Asady
399
Applied Mathematics and Computation, Vol. 159 (2), 349-356, 2004.
400

401
\item[6] Numerical solution of fuzzy polynomials by fuzzy neural network.
402
S. Abbasbandy, M. Otadi
403
 Applied Mathematics and Computation, Vol. 181 (2), 1084-1089, 2006.
404

405
\item[7] Numerical solution of a system of fuzzy polynomials by fuzzy neural network
406
S. Abbasbandy, M. Otadi, M. Mosleh
407
Inf. Sci., vol. 1788, 1948-1960, 2008.
408

409
\item[8] Solving fuzzy equations using evolutionary algorithms and neural nets
410
 J. Buckley, T.  Feuring Y. Hayashi,
411
Soft Comput., Vol. 6 (2), 116-123, 2002.
412

413
\end{enumerate}
414
\end{document} 
415

416

417

418

419