Contact
CoCalc Logo Icon
StoreFeaturesDocsShareSupport News AboutSign UpSign In
| Download
Project: UTIQUE
Views: 18
1
\documentclass[12pt, frenchb]{article}
2
\usepackage{geometry} % See geometry.pdf to learn the layout options. There are lots.
3
\geometry{letterpaper} % ... or a4paper or a5paper or ...
4
%\geometry{landscape} % Activate for for rotated page geometry
5
%\usepackage[parfill]{parskip} % Activate to begin paragraphs with an empty line rather than an indent
6
\usepackage{graphicx}
7
\usepackage{amssymb}
8
\usepackage{epstopdf}
9
\usepackage[T1]{fontenc}
10
\usepackage[utf8]{inputenc}
11
\parindent
12
%c'est ceci qui gêne si on n'est pas en ISO-8859-1:
13
%\usepackage[latin1]{inputenc}
14
15
\DeclareGraphicsRule{.tif}{png}{.png}{`convert #1 `dirname #1`/`basename #1 .tif`.png}
16
17
\author{}
18
%\date{} % Activate to display a given date or no date
19
20
21
%\section{}
22
%\subsection{}
23
24
\date{}
25
\title{Trouver un titre au projet PHC-Utique\footnote{Systèmes Polynomiaux et Applications en Biologie et Traitement du Signal}}
26
27
%\usepackage[a4paper]{geometry}
28
%\geometry{hscale=0.70,vscale=0.85,centering}
29
30
\begin{document}
31
\maketitle
32
33
{\it Attention ! Ceci n'est pas forcément le plan de présentation du projet. Je pense que la Section 7 devrait être dissoute dans les Sections 4, 5 et 6. Chacun devra compléter puis valider sa thématique.} \\
34
35
\noindent
36
{\bf Domaine de recherche :} Mathématiques et leurs intéractions ; \\
37
{\bf Mots clés :} Systèmes polynomiaux, Plans d'expriences, Réseaux de neurones profonds ; Modélisation ; Plans d'expériences ; Big-Data ;\\
38
{\bf Discipline :} Mathématique ; BioInformatique ; Mathématiques Appliquées ; Intelligence Artificielle ;
39
40
\tableofcontents
41
42
43
\section{Résumé succinct du projet}
44
45
Il nous faut construire un discours autour des données médicales :
46
plans d'expériences, résolution avec des données floues et incertaines (ça c'est pour Philippe et Annick) : Fuzzy Numbers réseaux de neurones ("deep learning" car maintenant c'est cela qui se dit pour "vendre" ... subitement tout le monde fait du "deep learning" et devient important, dans le vent, etc). \\
47
Calcul Formel (résolutions algébriques), ça c'est notre coeur de métier ! alors on le glisse ... systèmes dynamiques discrets, méthodes algébro/numérique ?
48
sécurisation des données personnelles (Pierre Saurel). \\
49
50
Peu sont en capacité de réunir tous nos atouts en se connaissant si bien (plusieurs collaborations existantes antérieures au projet): Inst. pasteur Tunis (médical ; Cancer), Calcul Formel, Fuzzy, Plans d'expériences, systèmes dynamiques discrets et IA. \\
51
52
Ines a mis l'accent sur l'utilisation de SageMath/Python/R avec l'excellent cloud cocalc.com. Mais attention, les ressources sont limitées et il faut penser à acheter des espaces de calculs pour des machines GPU supportant de grosses BD... Pareil concernant les besoins : penser à l'acquisition de cartes GPU pour notre serveur de calcul à l'IPT...
53
54
\section{Principaux objectifs}
55
56
{\bf Tunisie :}
57
- Bases de Gröbner sur les entiers, Bases de Gröbner dynamiques, algorithme dynamique de Buchberger, algorithmes pour la réduction des matrices polynomiales unimodulaires,
58
- Théorie de lélimination, Théorie des invariants,
59
- Traitement du signal, Réseaux de neurones profonds et Apprentissage
60
- Modélisations mathématiques en biologie, réseaux cellulaires biologiques, biologie algébrique.
61
- Développeurs/Utilisateurs des systèmes de Calcul Formel \\
62
63
{\bf France :}
64
- Résolutions efficaces de systèmes polynomiaux : symboliques/numériques, variétés polaires, systèmes triangulaires
65
- Algorithmes pour la réduction des matrices polynomiales unimodulaires, Théorème de Quillen-Suslin
66
- Plans d'expérience
67
- Théorie de lélimination, Théorie des invariants
68
- Théorie de Galois et systèmes polynomiaux galoisiens
69
- Statistique et systèmes biologiques,
70
- Développeurs/Utilisateurs des systèmes de Calcul Formel \\
71
72
La complexité croissante du vivant et la masse de données générées par la mise en évidence d'études issues de différentes branches de la biologie, ont érigé la modélisation en approche privilégiée pour intégrer ces connaissances dans un esprit fortement pluridisciplinaire. De l’individu au gène en passant par la cellule, la modélisation permet de décrire l'ensemble des interactions existantes et d'appréhender les mécanismes à l'origine des phénomènes biologiques observés. C’est autour de ce soucis d’intégrer l'ensemble des niveaux d'organisations du vivant que s'articulent nos principaux axes de recherche : de la population à l’individu (Epidémiologie et Evolution) ; de l’individu à la cellule (Modélisation et compréhension de la réponse immune) ; de la cellule au gène (Biosystemique visant à élucider les mécanismes induits par la maladie/infection ou des mécanismes de résistance et de susceptibilité). Ce dernier axe de recherche comprend aussi bien la maîtrise de la collecte des données, que leur intégration ou leur traitement. \\
73
74
Aussi, contrairement à l’analyse classique qui a pour but la compréhension du fonctionnement de quelques composants cellulaires, l'analyse systémique se propose d'é\-tu\-dier la cellule dans sa globalité. Pour cela il est nécessaire d'intégrer les informations relatives à un très grand nombre de composants afin d'en déduire les principales voies métaboliques, signalétiques, énergétiques, reproductives et leur interactions fonctionnelles. Cette discipline très récente permet une vision holistique du fonctionnement cellulaire, plus proche de la complexité de la situation réelle dans les conditions physiologiques ou pathologiques : cancérogenèses, maladies génétiques mono-factorielles et multifactorielles, maladies infectieuses, etc. \\
75
76
Depuis ces 20 dernières années, les développements très rapide de la génomique fonctionnelle, de la transcriptomique et de la protéomique ont permis une accumulation exceptionnelle de données relatives à la séquence entière de génomes d’organismes, l'expression globale de ces gènes (transcriptome) et à la modification des protéines qui en découle (protéome). La plupart de ces données sont accessibles sur les bases de données internationales et peuvent être valorisées dans la mesure où des outils d’analyses sont disponibles et maîtrisés. Chaque développement nouveau de la biologie implique le développement nouveau d’un outil d’analyse. En effet, les outils d'intelligence artificielle, se sont démocratisés par un accès rapide à des machines de calculs de plus en plus puissantes, avec des capacités de stockages pratiquement illimitées. Cette facilité de calculs a engendré des avancés considérables dans la classification (supervisée ou pas) et les simulations in-silico via des réseaux de neurones profonds (connu sous le nom "deep learning"). \\
77
78
L'étude des systèmes biologiques suppose une collaboration pluridisciplinaire ; la bio-informaticienne Alia Ben Kahla et la bio-mathématicienne Ines Abdeljaoued-Tej travaillent sur la combinaison des systèmes polynomiaux biologiques aux techniques de modélisation des données. Annick Valibouze et Ihsen Yengui travaillent sur les plans d’expériences comme application de la théorie de Galois sur les corps finis i.e. sur les corps de Galois. D'autres approches purement statistiques existent et une combinaison des deux outils déterministe (Calcul Formel) et stochastique (construction de graphes ou de réseaux de régulations protéiques) est également à développer. Nous projetons donc une collaboration avec Hatem Hadj Kacem dont la maîtrise des outils de Deep Learning permet d'appréhender le problème de la reconstruction d'un réseau (représentant les interactions entre protéines) sous l'angle de l'apprentissage supervisé. L'objectif est d'approfondir nos connaissances sur les systèmes polynomiaux dynamiques ou galoisiens ainsi que de rechercher des algorithmes efficaces pour leur calcul. Les algorithmes portant sur les systèmes polynomiaux dynamiques (ou discrets) seront appliqués à des donnés biologiques réelles. La réussite de notre projet de recherche passera par un travail d'équipes pluridisciplinaires : assurer l'intégration des donnés d'expression des produits de gènes, ajuster des approches de plans d'expé\-rien\-ce à la construction de systèmes polynomiaux et de graphes de régulation géniques, ceci passera par un choix judicieux des donnés.
79
80
\section{Présentation de chaque équipe engagée}
81
82
Il y a une équipe française appartenant à Sorbonne Université et deux équipes tunisiennes de l'Université de Tunis El-Manar et de l'Université de Sfax.
83
84
\subsection{Identification des participants en France}
85
86
Depuis la fusion de P4 et P6, les participants font partie de Sorbonne Université. Il faut bien définir le {\bf Chef du projet français}, les {\bf Structures de Recherche} et la {\bf Composition de l'équipe}. \\
87
88
Philippe Aubry : MC, LIP6 (labo Info), calcul formel et Nombres Flous (données approchées)\\
89
https://www.lip6.fr/actualite/personnes-fiche.php?ident=P69\\
90
91
Annick Valibouze : PR, Dr Adj. ISUP (Inst. de Stat. de Paris), LIP6, LPSM (Proba-Stat), calcul formel, plans d'expériences, nombres flous, systèmes dynamiques, apprentissage et réseaux neuronaux\\ https://www-apr.lip6.fr/~avb/\\
92
93
Pierre Saurel : MC-HDR (enseigne à l'ESPE), Equipe RATIONALITÉS CONTEMPORAINES ; Math-Info, en copie, apprentissage par renforcement (thèse et HDR en IA), Membre IEEE et VP Chapitre "Computer (C016)" IEEE France.\\ http://www.espe-paris.fr/chercheur/saurel
94
95
\subsection{Identification des participants en Tunisie}
96
97
Il y a deux équipes tunisiennes se trouvant l'une à Sfax et l'autre à Tunis. Ici, il faut insérer le {\bf Chef du projet tunisien}, les {\bf Structures de Recherche} et la {\bf Composition de l'équipe}.
98
99
\subsubsection{Faculté des Sciences de Sfax}
100
101
Ihsen YENGUI : PR, Département de Maths : calcul formel, plans d'expériences, ... \\
102
103
Hacem Hadj kacem, MA à la Faculté des Sciences Économiques et de Gestion de Sfax (FSEGS), Département Informatique (Computer Science), membre du Laboratoire ReDCAD, Combinatoire, Parallélisme, calcul distribué. \\ http://www.redcad.org/members/hatem.hadjkacem/ (- ACM Professional Member- IEEE Professional Member (Computer Society) (à compléter, modifier ou améliorer car les infos ne sont pas sur la page). \\
104
105
M. Heni Bouhamed, MA : Advanced Technologies for Image and Signal Processing unit (ATISP, ENET'COM), Machine Learning, Deep Learning, Bayesian Networks, Big data, Hadoop. http://sites.google.com/site/drhenibouhamed/).
106
107
\subsubsection{Laboratoire BIMS de l'Institut Pasteur de Tunis}
108
109
Laboratoire BIMS - Institut Pasteur de Tunis, Directrice : Alia Benkahla, Biologiste, Bioinformatique\\
110
BIMS : Bio-informatique, Bio-mathématiques et Bio-Statistique \\
111
http://www.pasteur.tn/\\
112
113
Ines Abdeljaoued : MA à ESSAI - Université de Carthage et membre du Laboratoire BIMS, calcul formel, bio-math, bio-info, deep-learning, ...\\
114
115
Alia Benkahla, DR Laboratoire BIMS, Biologiste, Bioinformatique, Institut Pasteur de Tunis. \\
116
117
Khadija El Matteli : Entame sa thèse en février à BIMS (sous la direction de Slimane Ben Miled et Ines Abdeljaoued-Tej), ...
118
119
\subsection{Coopérations antérieures des partenaires}
120
121
Une collaboration entre les équipes de Tunisie et de France a commencé à propos des systèmes polynomiaux galoisiens. Elle se traduit par la publication de plusieurs articles dont plusieurs signés en commun à propos des systèmes polynomiaux galoisiens en théorie de Galois et l’utilisation du Calcul Formel en biologie. \\
122
123
Nous avons travaillé sur des techniques relevant de l’algèbre, du calcul formel, du calcul scientifique et des récentes avancées du calcul symbolique/numérique auxquelles nous avons contribué [Orange]. Nous poursuivrons nos travaux sur les systèmes biologiques [Handbook] en général et les systèmes polynomiaux et leurs applications en biologie en particulier [Separateurs]. les systèmes polynomiaux galoisiens étant des systèmes possédant une symétrie particulière ; ils ont été introduits par A. Valibouze afin de calculer sans erreur avec les racines des polynômes univariés.\\
124
125
Depuis de nombreuses années, les équipes du réseau français ont un fort taux de collaboration. Par exemple, au travers du projet Galois dirigé par A. Valibouze, auquel I. Abdeljaoued (Tunisie) a également participé. \\
126
127
D'autre part, il y a eu l'organisation conjointe de conférences : \\
128
1) MAP'09, « Mathématiques-Algorithmes-Preuves » , Monastir (décembre 2009) organisé par Henri Lombardi et Ihsen Yengui. Plusieurs membres français et tunisiens de ce projet ont participé à ce colloque. \\
129
2) la Session parallèle "Calcul formel et Algèbre constructive" a été organisée par I. Yengui et A. Valibouze à l’occasion du Premier Colloque franco-tunisien de Mathématiques (Djerba, 16-20 mars 2009) organisé conjointement par la SMF et la SMT. Les membres de ce projet ont assisté à cette Session parallèle. M. Barkatou, P. Aubry, I. Abdeljaoued-Tej ont été des conférenciers de ce colloque. \\
130
3) La deuxième édition du « colloque franco-maghrébin de calcul formel » a été organisée par les deux responsables (coté français et coté tunisien) A. Valibouze et I. Yengui de ce projet du 29 septembre au 04 octobre 2011 aux îles de Kerkennah (Sfax, Tunisie).
131
132
\section{Données biologiques et médicales}
133
134
Je mets ce que je sais - A remplir
135
136
- Systèmes dynamiques discrets ( Abdeljaoued, Benkahla, ..., Valibouze) et application au Cancer \\
137
- Plan d'expériences (Yenguy, Valibouze, etc : voir section plus bas)\\
138
139
\subsection{Systèmes dynamiques discrets}
140
141
La Topologie de la carte d'interactions moléculaires (la mesure physique ou les prédictions informatiques des interactions protéiques, des interactions entre ADN et protéines et entre les divers produits de gènes) est codée par un jeu de variables dans lesquelles le temps agit dynamiquement. Le défi serait de mesurer ces changements et extraire de ces mesures toute la dynamique inhérente à ces changements. Ce travail ne peut être entrepris sans l'intégration des données bio-moléculaires et bio-informatiques. Cette intégration et cette collecte est une partie importante de notre travail [Handbook]. Mais d'autres thèmes purement mathématiques peuvent être développés afin de faciliter le traitement des données biologiques : il s'agit par exemple de l'utilisation du Calcul Formel et plus particulièrement des systèmes polynomiaux.\\
142
143
Un certain nombre d’outils statistiques ont été développés (notamment les réseaux bayésiens dynamiques), mais très peu de travaux portent sur les systèmes polynomiaux biologiques (outre le cas particulier des systèmes polynomiaux booléens). En effet, nés il y a moins d’un demi siècle, les travaux de R. Thomas datent de 1973 [Thomas], létude des systèmes dynamique booléens a connu un formidable développement tout au long des décennies précédentes. Un travail important a été réalisé il y a moins de 10 ans sur ce sujet : léquipe de R. Laubenbacher a généralisé cette théorie aux systèmes dynamiques polynomiaux, permettant de réaliser des modélisations innovantes en Biologie [Laubenbacher]. Ce que nous entreprenons dans le cadre de ce projet, c'est létude des systèmes biologiques qui suppose une combinaison d’outils déterministes (calcul formel) et d'outils stochastiques (construction de graphes ou de réseaux de régulations géniques ou protéiques pour modéliser des systèmes complexes). \\
144
145
Parmi les systèmes dynamiques à modéliser, nous avons entamé une étude à plusieurs échelles de tumeurs cancéreuses solides. Partant d'un nombre limité de cellules souches cancéreuses, notre objectif était de comprendre l'évolution de la taille de la tumeur cancéreuse, sachant que la croissance tumorale est tributaire de l'en\-vi\-ronnement (nutriments, densité de la matrice extra-cellulaire) mais aussi du génotype des cellules. Ce travail a été réalisé lors du mastère de Khadija El Matteli (soutenu en Octobre 2017) : outre la synthèse des outils utilisés jusque là, il s'agissait d'étudier les réseaux de neurones modélisant le phénotype, des EDP de réaction-diffusion pour expliquer la distribution du glucose, de l'hydrogène, de l'oxygène et de la densité de la matrice extra-cellulaire. La solution de ces équations influe sur la décision du réseau neuronal. Les simulations informatiques se sont basés sur le modèle d'automate cellulaire pour la croissance tumorale solide, dans lequel chaque cellule est équipée d'un réseau de neurones simulant la réponse micro-environnementale. \\
146
147
Des perspectives de recherche sont proposées, notamment avec l'étude du rôle des gènes sur l'hétérogénéité de la tumeur cancéreuse (selon le phénotype). Nous allons étudier également l'effet des mutations qui se produisent au niveau cellulaire et lors de l'apparition de l'angiogenèse. L'objectif principal de ces modèles de simulation est d'étudier la dynamique de la tumeur et son évolution ; obtenir des résultats statistiques sur le développement de la tumeur et sa croissance dans son environnement ; avoir des informations prédictives sur l'invasion tumorale. Cette modélisation permet aussi de combiner des données de plusieurs échelles et de comparer entre les tumeurs bénignes et celles qui sont cancéreuses. \\
148
149
La plupart des simulations se font sur SageMath, qui est un logiciel de mathématiques sous licence GPL. Il combine la puissance de nombreux programmes libres dans une interface commune basée sur le langage de programmation Python. Son objectif est de créer une alternative libre à Magma, Maple, Mathematica et Matlab. SageMath peut être utilisé soit en ligne de commande, soit avec son bloc-note originel ou soit avec le bloc-note Jupyter développé récemment pour piloter la plupart des langages de programmation. Dans [Thiery], nous avons présenté quelques exemples pratiques d'utilisation de SageMath dans la Biologie Théorique. Nous avons utilisé la plateforme cocalc.com pour effectuer nos simulations. Cette plateforme nous permettra effectivement de faire converger nos simulations numériques.
150
151
\subsection{Plan d'expériences}
152
153
L'introduction systématique de méthodes statistiques en planification d'expériences est due au statisticien britannique R. A. Fisher. Dans les années 1925-1937, au sein de la station de recherche agronomique de Rothamsted (GB), il entreprit de tenir compte dans les résultats d'expériences de l'hétérogénéité des parcelles, lieux des expérimentations, en y comparant les rendements des différentes variétés de semences qui y étaient cultivées ; il a ainsi introduit les plans en blocs complets, en blocs incomplets, etc. La construction et l'utilisation de ces plans est basée sur trois principes, à savoir la répétition, la randomisation et le contrôle local. La répétition a pour objectif de permettre une estimation de la variabilité résiduelle, et, d'accroître la précision de l'expérience. La randomisation permet d'obtenir des estimations non biaisées de la variabilité résiduelle et et de l'influence des variétés sur les rendements. Comme la répétition, le contrôle local a pour but, d'accroître la précision de l'expérience. \\
154
155
Depuis, afin d'étudier un phénomène de nature quelconque : médical, agronomique, physique, chimique, marketing ou autre, les bonnes pratiques consistent à chercher à effectuer, lorsque cela est possible, un nombre limité d'expériences, chacune de celles-ci apportant une information sur le phénomène permettant de l'identifier si possible de manière unique. Le phénomène est souvent régit par des modèles qui peuvent être pré-établis ou non, ce qui nécessite alors de les identifier par des méthodes telles celles d'apprentissage. \\
156
157
Par exemple, pour des expériences à données numériques discrètes dites {\it qualitatives}, tels les Plans Factoriels Fractionnaires, PFF, (jumeaux théoriques des codes correcteurs d'erreurs linéaires), le modèle est supposé connu a priori (une pré-étude peut-être nécessaire pour cela). Si un tel modèle est un polynôme, son nombre de variables est alors le nombre de ''{\it facteurs}'' et ses coefficients appartiennent à une structure algébrique contenant les valeurs que peuvent prendre ces facteurs (comme l'anneau des entiers, voir par exemple [Hanen-Tinsson], ou un anneau $Z/nZ$). Pour une expérience donnée et à l'aide d'un nombre minimal de points expérimentaux, il s'agit de déterminer les paramètres du modèle ; à savoir les coefficients du polynôme dans l'exemple précédent. \\
158
159
Eviter de réaliser toutes les expériences possibles pour déterminer les paramètres d'un modèle est exactement l'objectif de l'étude du plan d'expérience ; en effet, le plus souvent il y a impossibilité dans un temps raisonnable et/ou en pratique de mener toutes les expériences. La question est donc de choisir les points expérimentaux nécessaires et suffisants à ''interpoler'' le modèle ou tout au moins l'approcher au mieux selon le nombre d'expériences possiblement réalisables en pratique et/ou de leurs précisions ; cela peut inclure la nécessité d'éviter la mise en danger d'un patient ou encore d'un volontaire dans le cas d'essais cliniques. ''Interpoler le modèle'' signifie déterminer ses paramètres à partir des facteurs, d'où la dénomination ''Factoriel'' (au sens ``interpolation mathématique'' ou ``régression''). Nous disons qu'il s'agit de déterminer une {\it fraction} du Plan Factoriel. L'exemple que chacun pourra comprendre est le suivant : s'il n'y a qu'un seul facteur et que le modèle est un polynôme de degré $n$ (d'une variable puisque ''un seul facteur)'' ses coefficients liés à l'expérience sont déterminés par une interpolation de Lagrange classique : il suffit de réaliser l'expérience sur $n+1$ points distincts quelconques qui ainsi fractionneront le PFF ; l'identifiabilité du modèle dépend donc du nombre de valeurs de points expérimentaux distincts possibles pour l'expérience, à savoir au moins $n+1$ pour notre exemple. \\
160
161
L'étude des Plans d'Expériences est bien plus étendue que celle essentielle des Plans Factoriels Fractionnaires. Les données (résultats de l'expériences) peuvent être de nature quantitative : réelles (une température, une concentration, une pression, une longueur, ....), scalaires entières (un nombre d'éléments, ...) ou de nature qualitative (un type de matériel, de médicament, le genre des individus considérés, leurs niveaux de diplômes, leurs catégories socio-professionnelles, ...).
162
163
\subsection{Big-data - Données Massive}
164
165
Hacem Hadj Kacem et Heni Bouhamed \\
166
167
Voici les données brutes sortie des mails que j'ai transmis
168
169
\subsubsection{ce qui est proposé (voir mail)}
170
171
1/ Proposer un formalisme de modélisation permettant de construire un modèle non linéaire et scalable pour des données massives (big data), le Deep Forward Neural Network par exemple, avec des données mixtes,\\
172
173
2/ Produire une implémentation "scalable" permettant de déterminer, après un parcours "exhaustif", le meilleur modèle (polynôme) afin de le comparer avec ceux (modèles) trouvés par le "space-filling",
174
175
3/ Produire un algorithme parallèle pour le "space-filling"
176
177
\subsubsection{Réponses à mes questions (voir mail)}
178
179
Modèle scalable Big Data : modèle capable de s’adapter lorsqu’il y a un volume énorme de données à traiter ou lorsqu’il y a un nombre de traitement séquentiel énorme (dépassant les capacités des serveurs les plus puissants) à effectuer (voir « Understanding Big Data Scalability, Cory Isaakson, Prentice Hall, 2014)
180
181
1/ Proposer un formalisme de modélisation permettant de construire un modèle non linéaire et scalable pour des données massives (big data), le Deep Forward Neural Network par exemple, avec des données mixtes,
182
183
Comment voyez-vous cela ? Cette phrase est trop englobante pour que je comprenne vers quoi vous voulez aller.
184
185
n On veut aller vers la construction d’un modèle (Apprentissage d’un réseau de neurones profond) capable de s’adapter lorsqu’on a un volume de données énormes (Big Data) à traiter (une base de données distribuée/répliquée, HDFS, cassandra etc par exemple).
186
187
2/ Produire une implémentation "scalable" permettant de déterminer, après un parcours "exhaustif", le meilleur modèle (polynôme) afin de le comparer avec ceux (modèles) trouvés par le "space-filling",
188
189
Vous faite référence à 1/ ici ? Là encore, c'est trop général pour que je comprenne de quoi il s'agit.
190
191
n On voulait dire : produire une implémentation exploitant le multiprocessing (distribuer les traitements sur les core des processeurs disponibles), c’est facilement faisable avec python et permettra de trouver la meilleure solution avec un parcours exhaustif (même avec des données massives Big Data), qui pourra être comparé par la suite avec les résultats du space-filling (Afin de pouvoir lévaluer)
192
193
3/ Produire un algorithme parallèle pour le "space-filling",
194
195
L'aspect matriciel laisse envisager cela.
196
197
n On voulait dire : produire une implémentation du « space-filling » exploitant le multiprocessing (distribuer les traitements sur les core des processeurs disponibles), ce qui va permettre de l’adapter (space-filling) pour le traitement des données massives Big Data
198
199
\section{Données Floues et Plan d'expériences}
200
201
Aubry - Valibouze\\
202
203
sorti d'un projet de thèse avec Philippe (il y a des choses inutiles à retirer)\\
204
205
\subsection{Données Floues}
206
207
Les nombres flous interviennent dans de multiples applications dés lors qu’ils s’agit de traiter des données incertaines : actuariat, finance, biologie, chimie, (voir [1] et [2]).\\
208
209
Depuis peu, une méthodologie algébrique de résolution est appliquée aux nombres flous de supports bornés. Nous avons appliqué cette méthodologie aux nombres flous triangulaires dans [3] et [4].\\
210
211
L’algébrisation d’un nombre flou est rendue possible car sa définition est formelle (voir, par exemple, les publications de Didier Dubois et Henry Prade) .
212
Un nombre flou se définit comme une courbe continue définie par (x,N(x)) sous certaines contraintes. Par exemple, une nombre flou triangulaire est défini par un triplet (n,a,b) de trois valeurs réelles telles que a<=n<=b, N(n)=1, N(x) est nulle en dehors de l’intervalle ]a,b[, N(x) décrit une droite pour x entre les valeurs a et n (resp. n et b).\\
213
214
La méthodologie de résolution algébrique offre une certification des résultats mais aussi une résolutions globale ce que ne peuvent garantir ou offrir les méthodes locales utilisées avant l’introduction de l’algébrisation (voir [5] à [8]).\\
215
216
Un paquetage Fuzzy du système de Calcul Formel libre SageMath (Langage Python) a été conçu par Jérémy Marrez, M2 Math-Info USVQ, lors de son stage de M2 (financement LIP6 et co-encadrement P. Aubry et A. Valibouze). Jérémy Marrez est actuellement en thèse au LIP6 avec J.C. Barjard (Directeur du LIP6) dans le domaine de la cryptographie.\\
217
218
Nous proposons détendre cette méthodologie formelle des nombres flous triangulaires à diverses familles de nombres flous à supports bornés, comme les polynomiaux : les triangulaires sont polynomiaux de degrés 1, les quadratiques de degré 2.
219
220
Il s'agira aussi de développer des programmes dans le logiciel SageMath et s’intéresser aux champs d’applications et comparer les résultats aux méthodes locales (résaux de neurones, par exemple).
221
222
\subsection{Traitement des données mixtes}
223
224
Yengui - Valibouze et qui veut bien
225
226
C'est de là que c'est parti
227
228
%\noindent
229
%\underline{Axe du LABEX SMART} : Le développement des services numériques pour l'accès à la connaissance et à
230
%l'information, {\bf le traitement des données numériques}.\\
231
232
%\vspace{0.5in}
233
%\noindent
234
%\underline{ENCADRANTE} porteuse : \\
235
236
%\noindent
237
%Annick Valibouze, Professeure Université Paris 6, UPMC, France, laboratoires LSTA (Statistiques) et LIP6 (Informatique).\\
238
%Ihsen Yengui, Professeur, Faculté des Sciences de SFAX, Tunisie, Département de Mathématiques.
239
%\noindent
240
%\underline{CO-ENCADRANTS} : \\
241
%
242
%\noindent
243
%Pierre Saurel, Machines Learning, Université Paris 4.\\
244
%Michel Broniatowski (LSTA, UPMC) co-auteur du livre cité en référence.\\
245
%
246
%\vspace{0.5in}
247
%
248
%\noindent
249
%\underline{Laboratoires d'accueil universitaires} : LIP6 (Informatique) et LSTA (Statistiques) de l'UPMC, France.
250
%Département de Mathématiques, Faculté des Sciences de SFAX, Tunisie\\
251
%\vspace{0.5in}
252
253
%\noindent
254
%\underline{Durée du Stage} : 6 mois en 2017.
255
256
257
%\newpage
258
%\subsection{Présentation générale du contexte}
259
260
261
%\newpage
262
%\vspace{-0.3in}
263
264
%\section*{\bf Enjeux sociologiques et application à la Santé}
265
%
266
%Dans le domaine sensible des essais cliniques, en particulier sur des humains, il n'est pas aisé de trouver des volontaires pour les mener. Aussi, tant que les règlementations autoriseront l'expérimentation animale, il s'agit à la fois de réduire le nombre d'animaux dits de laboratoire (et pas seulement pour des raisons budgétaires, aussi pour des raisons éthiques) et d'éviter de mettre inutilement leur vie en danger.
267
%Au delà de la cause animale, il s'agit aussi et surtout que ces essais cliniques ne mettent pas en danger la vie, la santé, des patients, des volontaires.
268
%
269
%Pour éviter les risques, il n'est pas souhaitable d'administrer trop de traitements tests à un même patient, ni simultanément à différents patients, ni d'ailleurs de les administrer de manière trop rapprochée et en n'importe quelle quantité. Ces impératifs soulèvent des problèmes algébriques, combinatoires, statistiques et informatiques cruciaux pour la sécurité sanitaire.
270
%
271
%Il s'agit donc à la fois de former assez de scientifiques compétents (à ''multi-compétences'', en fait) pour accompagner les expériences cliniques tout en faisant avancer les connaissances et la mise à disposition des outils informatiques en le domaine. Le cadre du stage de M2 que nous proposons se place dans ce double objectif.
272
273
Il s'agit d'étudier des plans d'expériences dits ''space filling'' qui explorent au mieux l'espace des paramètres.\\
274
275
Plus précisément, il est proposé d'étudier une méthode particulière pour la construction d'un plan d'expérience ''space-filling'' adapté à des variables mixtes ; i.e. des expériences qui regroupent des variables à la fois quantitatives et qualitatives. L'échantillonnage sur hypercube latin (Latin Hypercube Sampling) est une technique couramment utilisée (voir [Sant2003]). Son succès est du à ses bonnes propriétés de répartition homogène dans l'espace ainsi que de projection unidimensionnelle, i.e. la projection de l'échantillon sur un des axes des variables possède une distribution uniforme sur celui-ci. Cependant les techniques adaptées à la production de plans d'expériences pour variables mixtes avec potentiellement de ''meilleures'' propriétés de projections sont plus rarement utilisées et étudiées. Il s'agit de pouvoir aborder la partie algébrique (par exemple, sur les corps finis, dits de Galois), avec un regard de statisticien qui possède des compétences en programmation. \\
276
277
Les données expérimentales en trop grand nombre peuvent être ou bien des données stockées ou récupérées par des flux (Big Data) ou alors des données productibles à partir d'un modèle expérimental.
278
279
Nous proposons dans un premier l'étude de l'article [Qian2009] et de ceux qui suivent ainsi que l'implémentation de la méthode sous [SageMath]. Cette méthode permet la construction d'un plan d'expériences ''space-filling'' pour des variables mixtes. Elle est appelée ''sliced space-filling design'' par les auteurs de l'article. Cette méthode concerne le calcul sur les corps finis et plus généralement le Calcul Formel (voir [Legrand-Val]).
280
281
%{\bf Pour Aller plus loin} \\
282
283
Nous nous intéressons aussi aux plans dits du ``plus proche voisin'' consistant à trouver les plans les plus pertinents pour réaliser des tests à intervalles de temps réguliers dans le secteur d'activités.
284
Par exemples, dans le contexte de la santé, il s'agit d'administrer des traitements à des patients ou à un même patient. Les conditions optimales de deux structures de corrélation (modèles) ont été déjà été étudiées dans le cas général ; à savoir les structures NN$m$ et AR($m$), où l'entier $m >0$ est la distance temporelle entre deux traitements (voir [Kone-Val1], [Kone-Val2]). \\
285
286
Un autre point d'étude concerne les PFF construits à partir des méthodes de résolution algébrique dont l'article fondateur est dû à [Pistone et Wynn]. Les applications sont nombreuses et variées (voir, par exemple, [Hanen-Tinsson]).
287
288
\section{Planification des résultats attendus}
289
290
Ici, insérer la planification des résultats attendus, pour l'équipe tunisienne et l'équipe française : {\bf Intérêts scientifiques}, {\bf Retombées socio-économiques}, {\bf Activités de Recherche diplômante}, etc. \\
291
292
\subsection{Equipe tunisienne}
293
294
Avec l'avancement des travaux en cours, d'autres doctorants pourraient rejoindre les équipes dans le cadre d'une co-encadrement.
295
296
\subsubsection{Intérêts scientifiques}
297
298
Bénéficier de l’aide des experts français dans la modélisation mathématiques, la conception et implémentation d’algorithmes en vue de les appliquer en traitement du signal et en biologie.
299
300
Renforcer la collaboration Calcul Formel/Bio (Tunisie) par des spécialistes français de résolution de systèmes polynomiaux et l’enrichir avec la statistique.
301
302
\subsubsection{Retombées socio-économiques}
303
304
L'algèbre a vu son contenu et ses méthodes évoluer beaucoup récemment grâce à des progrès conceptuels et logiciels qui rendent possibles de multiples applications, notamment dans le domaine de la protection de l’information, du traitement du signal et de la biologie.
305
306
\subsection{Equipe fran{\c c}aise}
307
\subsubsection{Intérêts scientifiques}
308
309
- Proposer des sujets de thèses en rapport avec les thèmes de recherche des équipes françaises.
310
- Renforcer les collaborations existantes qui ont déjà donné lieu à des publications (voir listes de publications).
311
- Faire collaborer simultanément des spécialistes des 3 domaines Statistique, Biologie et Calcul Formel ; ces collaborations nétant actuellement que bi-thématiques Stat/Bio (France) et Calcul Formel/Bio (Tunisie) en bénéficiant des compétences acquises par léquipe tunisienne.
312
- Trouver de nouvelles applications aux systèmes polynomiaux et faire avancer la recherche fondamentale face à de nouvelles problématiques.
313
314
\subsubsection{Retombées socio-économiques}
315
316
Faire participer des jeunes chercheurs dans les projets de recherche.
317
318
Que les nouvelles approches Sta/Bio, Calcul-Formel/Bio mises en synergies apportent des solutions nouvelles en terme de logiciels et avancées des connaissances dans les systèmes dynamiques biologiques ; nous espérons tout particulièrement un impact important dans le domaine médical.
319
320
\section{Besoins en matériel/séjours}
321
322
1 ordinateur portable (1 To, Intel Core i7, Quad-core, 15 pouces) ; \\
323
1 carte graphique pour effectuer des calculs sur le serveur de BIMS \\
324
1 séjour (junior) en France (pour assister à une école) ; \\
325
1 séjour (junior) pour un colloque ou une conférence ;
326
327
%\newpage
328
329
\section*{\bf Références}
330
331
\setlength{\parindent}{0pt}
332
\begin{enumerate}
333
\item [Broniatowski-Celant], M. Broniatowski et G. Celant, {\bf Interpolation and Extrapolation Optimal Designs 1.} Wiley, 2016, Print ISBN: 9781848219953, Published Online: 1 APR 2016, Online ISBN: 9781119292272, DOI: 10.1002/9781119292272.
334
\item [Hanen-Tinsson] Hanna Hanen, Walter Tinsson. Plans d'expérience pour mélange de mélanges. 41-ièmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France. 2009. https://hal.inria.fr/inria-00386588/file/p34.pdf, HAL-ID = $<$inria-00386588$>$.
335
336
\item [Kone-Val1] M. Koné, A. Valibouze, Plans en blocs incomplets : application à la santé.
337
Proceedings des Journées Internationales Analyse Statistique : Théorie et Applications, JIASTA2012, Oujda, Maroc, 113-116, 2012.
338
339
\item [Kone-Val2] M. Koné, A. Valibouze, Universal optimality of nearest neighbour balanced block designs
340
using any order correlated models. Preprint, 2016.
341
342
%[Kone-Val2] M. Koné, A. Valibouze,Plans en blocs incomplets pour la structure de corrélation NNm
343
%Annales de l'I.S.U.P. (Institut de Statistiques de l'Université de Paris), vol. 55 Num.2-3, pp 65--88 (2011)
344
%[Version préliminaire : HAL-CNRS hal-00589585 (29/04/2011)] .\\
345
346
\item [Legrand-Val] R. Legrand, A. Valibouze, {\bf Calcul Formel avec Maple.} (Livre interactif) Science Active Peter Burch (Ed.), Paris, France, ISBN : 978-2-917398-03-6, 2008.
347
348
\item [Pistone et Wynn] Pistone G., Wynn H., Generalised confounding with Gr{\"o}bner bases. Biometrika,
349
83, 653-666, 1996.
350
351
\item [Qian2009] P.Z.G. Qian, C.F.J. Wu, Sliced space-filling design. Biometrika, 96:4, 945-956, 2009.
352
353
\item [SageMath] SageMath, Système de Calcul Formel libre de langage Python interfacé avec R et des dizaines d'autres logiciels libres : http://www.sagemath.org/fr/ Ouverture de compte libre sur le cloud de SageMath. https://www.sagemathcloud.com/ (accès libre limité en espace et en temps mais suffisant pour le stage).
354
355
\item [Sant2003] T.J. Santner, B.J. Williams, W.I. Notz, The Design and Analysis of Computer Experiments. Springer-Verlag New York, 2003.
356
357
%[Val3] A. V. ''Réseaux Neuronaux'', Cours M2 de Statistiques, Université Pierre et Marie Curie.\\
358
359
\item [Val] A. Valibouze, La théorie de Galois en Informatique. Bicentenaire Evariste Galois. 2008. https://www-apr.lip6.fr/~avb/Bicentenaire.html.
360
361
\item[Thiery] J. Thiéry, I. Abdeljaoued-Tej, K. El-Matteli and S. BenMiled, SageMath pour l'enseignement de la biologie théorique, Juin 26-29, 2017. 37ème Colloque de la Société Francophone de Biologie Théorique.
362
363
\item[Orange] I. Abdeljaoued-Tej, S. Orange, G. Renault, A. Valibouze. 2004. Computation of the decomposition group of a triangular ideal, Journal of Applicable Algebra in Engineering, Communication and Computing, numéro 15, pages 279-294.
364
365
\item[Handbook] L. Guizani-Tabbane, A. Ben Kahla, I. Abdeljaoued-Tej, S. Ben Miled and K. Delagi. 2008. Chapter System biology and infectious diseases, Handbook of research on systems biology application in medicine, Max Planck Institute, Berlin.
366
367
\item[Separateurs] I. Abdeljaoued-Tej, A. Ben Kahla, G. Haddad, A. Valibouze, A Linear Algorithm For Computing Polynomial Dynamical Biological Systems, soumis à NGC.
368
369
\item[Thomas] R. Thomas, Kinetic logic: a boolean approach to the analysis of complex regulatory systems, Lecture Notes in Biomathematics, 29, (1979), 507 pp. \\
370
371
\item[Laubenbacher] R. Laubenbacher and B. Stigler, A computational algebra approach to the reverse engineering of gene regulatory networks, Journal of Theoretical Biology, 229 :523, 2004.
372
373
%Références :
374
375
%Applications (Livres) :
376
377
\item[1] First Course on Fuzzy Theory and Applications, Lee, K.,
378
Advances in Intelligent and Soft Computing, Springer, 2005
379
380
\item[2] Fuzzy Systems in Economy and Engineering,
381
J.G. Aluja, A.P. Tacu, H.N. Teodorescu,
382
Publishing House of The Romanian Acad, 1994
383
384
385
%Méthodes Globales Algébriques :
386
387
\item[3] Finding solutions of fuzzy polynomial equation systems by an Algebraic method.
388
M. Boroujeni, A. Basiri, S. Rahmany, Annick Valibouze
389
Journal of Intelligent \& Fuzzy System 30, 781-800, 2016
390
391
\item[4] Solving Fuzzy Systems in Dual Form Using Wu's Method.
392
Marziyeh Boroujeni, Abdolali Basiri, Sajjad Rahmany, Annick Valibouze
393
International Journal of Fuzzy Systems (issn=1562-2479), Ed. Springer Berlin Heidelberg, 1-11, 2015
394
395
%Méthodes Locales :
396
397
\item[5] Newton's method for solving fuzzy nonlinear equations
398
S. Abbasbandy, B. Asady
399
Applied Mathematics and Computation, Vol. 159 (2), 349-356, 2004.
400
401
\item[6] Numerical solution of fuzzy polynomials by fuzzy neural network.
402
S. Abbasbandy, M. Otadi
403
Applied Mathematics and Computation, Vol. 181 (2), 1084-1089, 2006.
404
405
\item[7] Numerical solution of a system of fuzzy polynomials by fuzzy neural network
406
S. Abbasbandy, M. Otadi, M. Mosleh
407
Inf. Sci., vol. 1788, 1948-1960, 2008.
408
409
\item[8] Solving fuzzy equations using evolutionary algorithms and neural nets
410
J. Buckley, T. Feuring Y. Hayashi,
411
Soft Comput., Vol. 6 (2), 116-123, 2002.
412
413
\end{enumerate}
414
\end{document}
415
416
417
418
419