Stage 1 : rŽalisation dÕun logiciel de reconstruction phylogŽnique par maximum de parcimonie

Les mŽthodes de reconstruction phylogŽnŽtique cherchent ˆ reconstruire lÕhistoire Žvolutive des espces ˆ partir de sŽquences biologiques. Le principe gŽnŽral de ce type de mŽthode est de dŽfinir un critre que lÕon peut estimer pour un arbre et de rechercher lÕarbre le meilleur au sens de ce critre.

Le maximum de parcimonie est lÕun des plus anciens critres. Il sÕest ensuite vu supplantŽ par le maximum de vraisemblance. De nombreuses heuristiques pour optimiser la vraisemblance ont ŽtŽ dŽveloppŽes. De nouvelles applications du maximum de parcimonie rendent ce critre  ˆ nouveau pertinent.

LÕobjectif de ce stage est de rŽaliser un logiciel utilisant le critre de maximum de parcimonie qui tire partie des heuristiques dŽveloppŽes dans le cadre du maximum de vraisemblance. Ce logiciel devra pouvoir tre utilisŽ au sein de notre laboratoire et pouvoir tre diffusŽ sur Internet. Ce qui implique une validation importante du logiciel notamment au travers de tests unitaires automatiques. LÕimplŽmentation se fera en C++ en sÕappuyant sur une librairie dŽveloppŽe ˆ lÕUM2 (bio++ : http://kimura.univ-montp2.fr/BioPP/).

Remarque : C++, algorithmique.

 

Stage 2 : rŽalisation dÕun logiciel de manipulation dÕarbres ŽtiquetŽs.

LÕobjectif de ce stage est de dŽvelopper un outil permettant de faire des opŽrations simples sur des arbres ŽtiquetŽs. Il faudra par exemple implŽmenter des mŽthodes pour le calcul de distances entre 2 arbres, dÕarbres consensus, de rŽ-enracinement et de filtrage des feuilles. Ce logiciel devra pouvoir tre utilisŽ au sein de notre laboratoire et pouvoir tre diffusŽ sur Internet. Ce qui implique une validation importante du logiciel notamment au travers de tests unitaires automatiques.

Remarque : C++, algorithmique, graphes.

 

Stage 3 : infŽrence de phylogŽnies ˆ partir de plusieurs gnes.

Les mŽthodes de reconstruction phylogŽnŽtique cherchent ˆ reconstruire lÕhistoire Žvolutive des espces ˆ partir de sŽquences biologiques. Le principe gŽnŽral de ce type de mŽthodes est de dŽfinir un critre que lÕon peut estimer pour un arbre et de rechercher lÕarbre le meilleur au sens de ce critre. De plus en plus dՎtudes phylogŽnŽtiques sÕappuient non plus sur un seul gne mais sur un ensemble de gnes. Une approche largement utilisŽe dans le cadre dÕanalyses multignes consiste ˆ concatŽner lÕensemble de ces donnŽes en un seul jeu de sŽquences alignŽes et ˆ utiliser une mŽthode conue ˆ lÕorigine pour traiter un seul gne. LÕobjectif de ce stage et dÕessayer de prendre en compte le fait que les donnŽes sont issues de plusieurs gnes afin dÕamŽliorer lÕheuristique dÕoptimisation. LÕimplŽmentation se fera en C++ en sÕappuyant sur une librairie dŽveloppŽe ˆ lÕUM2 (bio++ : http://kimura.univ-montp2.fr/BioPP/).

Remarque : C++, algorithmique.