L'analyse longitudinale




La prise en compte des effets attachés à l'écoulement du temps revêt une importance capitale en sciences sociales. On peut, très sommairement, distinguer deux grandes familles d'outils statistiques : les modèles de durée et les techniques d'appariement optimal. On retrouve en effet, dans l'analyse des phénomènes dynamiques, le même balancement que pour la statistique "classique", entre des approches plus descriptives et des approches plus modélisatrices. La singularité des techniques longitudinales tient au fait que les secondes (ici, les modèles de durée) sont davantage développées et pratiquées que les premières, dont le développement est à la fois plus tardif et plus confidentiel. Les deux ont cependant fait la preuve de leur fécondité pour les chercheurs en sciences sociales.

Pour ces deux grandes familles, je me contente de présenter ici des ressources pour les deux logiciels généralistes que je présente ailleurs, Stata et R, même si d'autres logiciels (SAS ou TDA, notamment) proposent de nombreuses fonctionnalités permettant de les mettre en oeuvre. 


Les modèles de durée


Les techniques d'appariement optimal



De quoi parle-t-on ?

Les techniques d'appariement optimal (qu'on appelle aussi "analyse de séquences")consistent non plus à modéliser les procesus dynamiques - comme le font les modèles de durée - mais à décrire des séquences temporelles, à les rapprocher et à les distribuer dans des typologies. Comme l'expliquent deux des introducteurs de ces techniques en France, "empruntées à la biologie moléculaire où elles ont contribué au séquençage du génôme, les MAO [Méthodes d'appariement optimal] permettent plus généralement de comparer le degré de similarité de séquences, autrement dit d'évaluer leur similarité (...). Les MAO ont pour finalité de bâtir une typologie de séquences, c'est-à-dire de rapprocher des suites d'éléments. Alors qu'il est impossible à l'oeil humain de comparer des milliers d'éléments et la manière dont ils s'enchaînent, les MAO permettent de les regrouper et de dégager des idéaux-types. La première étape de cette procédure consiste à calculer une distance entre les séquences. La seconde étape est la classification proprement dite des séquences (...)." (Lesnard, Saint Pol, 2004). 


On dispose de bonnes présentations de ces techniques, notamment dans les articles suivants:

- Lesnard, L. et Saint Pol, T. de, 2004, "Introduction aux méthodes d'appariement optimal (Optimal matching analysis)", Document de travail INSEE, (15), 30 p.

- Lesnard, L. et Saint Pol, T. de, s.d., "Décrire des données séquentielles en sciences sociales : mise en pratique des méthodes d'appariement optimal", Document de travail, 9 p.

- Lesnard, L., 2006, "Optimal matching and social sciences", Documents de travail INSEE, (1), 27 p.


La méthode a été initiée par Andrew Abbott, qui la présente dans deux articles pionniers et qui y revient dans deux articles plus tardifs (on trouvera ici une bibliographie des travaux d'Abbott sur cette technique) :

-
Abbott, A. et Forest, J., 1986, "Optimal matching methods for historical sequences", Journal of interdisciplinary history, 16 (3), p. 471-494.

- Abbott, A. et Hrycak, A., 1990, "Measuring resemblance in sequence data : an optimal matching analysis of musicians' careers", American journal of sociology, 96 (1), p. 144-185.

- Abbott, A., 1995, "Sequence analysis : new methods for old ideas", Annual review of sociology, 21, p. 435-458.

- Abbott, A. et Tsay, A., 2000, "Sequence analysis and optimal matching methods in sociology", Sociological methods and research, 29 (1), p. 3-33.



Pour des exemples de mise en oeuvre de l'analyse de séquences, on pourra notamment se reporter aux articles suivants :

- Blair-Loy, M., 1999, "Career-patterns of executive women in finance: an optimal matching analysis", American journal of sociology, 104 (5), p. 1346-1397.

- Lemercier, C., 2005, "Les carrières des membres des institutions consulaires parisiennes au 19ème siècle", Histoire et mesure, 20 (1-2), p. 59-95.

- Lesnard, L., 2008, "Off-scheduling within dual-earner couples: an unequal and negative externality for family time", American journal of sociology, 114 (2), p. 447-490.

- Stovel, K., Savage, M. et Bearman, P., 1996, "Ascription into achievement: models of career systems at Lloyd Banks, 1890-1970", American journal of sociology, 102 (2), p. 358-399.


Comment fait-on ?

Les méthodes d'appariement optimal ont été au départ développées par A. Abbott, qui propose son propre logiciel, "Optimize", pour procéder à l'analyse de séquence, qui peut cependant être opportunément remplacé par des fonctionnalités sous SAS, sous TDA, sous Stata et, surtout, sous R (avec FactoMineR).
 

Stata propose des fonctions permettant de procéder à des analyses de séquence (rassemblées dans le package "SQ-Ados"), que l'on trouvera en particulier présentées dans cet article :

- Brzinsky-Fay, C., Kohler, U., Luniak, M., 2006, « Sequence analysis with Stata », The Stata journal, 6 (4), p. 435-460.

Pour charger ce package, aller dans Stata et taper la ligne de commande: ssc install sq.

Laurent Lesnard a également développé une extension (plug-in) "Seqcomp" pour procéder à des analyses de séquence sous Stata, dont on trouve ici une présentation et les liens qui permettent de la charger.


C'est cependant R qui propose les fonctions les plus efficaces pour procéder à des analyses de séquences, grâce à la librairie TraMineR développée par des chercheurs de l'Université de Genève. L'usage de TraMineR suppose que l'on se soit préalablement formé à la syntaxe de R, puisque cette librairie n'est pas encore intégrée à R Commander (il semble cependant que cette insertion soit actuellement en projet...). Les auteurs de la librairie proposent une excellente introduction à l'usage de leur package dans le tutoriel suivant : 

-   Gabadinho, A., Ritschard, G., Studer, M., et Müller, N.S., 2010, Mining sequence data in R with the TraMineR package : A user's guide, Department of econometrics and Laboratory of demography, University of Geneva, 129 p.

Pour télécharger TraMineR et trouver de la documentation sur ce package, on pourra se rendre sur ce site de l'Université de Genève. En particulier, pour télécharger TraMineR à partir de la consolle R, taper (copier-coller pour éviter les soucis...) la commande suivante : 

R> install.packages("TraMineR", repos="http://mephisto.unige.ch/traminer/R") 

On trouvera par ailleurs de nombreuses présentations (dont certaines en français, en général en format power point) des fonctionnalités de TraMineR sur cette page.



Créer un site
Créer un site