Ajustement d’une série statistique double

Exemeple d'ajustement de type logistique1) AJUSTEMENT : INTRODUCTION

On étudie un ensemble d’individus sur lesquels on a mesuré 2 grandeurs X et Y.
Chacune de ces grandeurs pourraient être étudiée indépendamment de l’autre.
Dans ce cours, nous allons étudier simultanément les 2 grandeurs pour voir s’il existe un lien entre elles et si l’on peut calculer l’une en fonction de l’autre.
On dira que l’on étudie la série statistique double (X ; Y).

Tout d’abord, pour ceux qui ne souviennent plus des équations de droites, je vous propose les activités suivantes à faire en autonomie :

  1. Tracés de droites
  2. Calculs de a et de b
  3. Associer une représentation graphique à une équation
  4. Rôle de a et de b

A l’issue de ces activités, il est nécessaire d’avoir à l’esprit les notions suivantes :

  • quelle est la forme d’une équation de droite (non parallèle à l’axe des abscisses)
  • à quoi correspond le coefficient directeur a
  • à quoi correspond l’ordonnée à l’origine b
  • comment exprimer qu’un point M (x0 ; y0) appartient à une droite D d’équation
    y = ax + b

2) METHODES D’AJUSTEMENT

 2.1) Définitions

Représenter graphiquement une série statistique double (X ; Y), c’est placer dans un repère les points Mi ayant pour coordonnées les couples (xi ; yi)
Ajuster une courbe à un nuage de points, c’est déterminer la courbe qui passe « au plus
près  » du nuage de points.

Dans un premier temps, on ajustera les nuages dont les points son situés autour d’une
droite. Ca type d’ajustement est appelé ajustement affine.

2.2) Méthode des moindres carrés

C’est la méthode, parmi toutes celles qui existent, que nous allons développer et que nous utiliserons dans tous les exercices. Car elle permet de déterminer la droite (D) passant au plus du nuage de points selon un critère bien défini. Et de plus, elle offre la possibilité de juger de la qualité du lien mis en évidence. Ce n’est pas le cas de la méthode graphique ni de la méthode Mayer vues en exercice.

Suite du cours à télécharger

3) Notion de covariance. Autre formulation des paramètres a, b et r.

Il s’agit ici de préciser les formules précédentes en utilisant le paramètre statistique approprié. Cela donne plus d’élégance et de simplicité aux formules mais n’ajoute pas de notions fondamentales.

 Définition et applications

A l’issue de ces premiers paragraphes, voici un petit exercice sous forme de vidéo :

4) Variance totale, variance expliquée et variance résiduelle

Lorsque l’on réalise un ajustement, on cherche à déterminer un modèle pouvant expliquer les variations d’une grandeur Y en fonction de celles d’une grandeur X.

Si on effectue cette recherche, c’est que la réponse n’est pas évidente : les points du nuage ne sont pas parfaitement alignés sur une droite ou parfaitement situés sur une courbe. L’ajustement trouvé ne sera donc pas, en général, totalement satisfaisant.

Dans ce paragraphe important, on va donc déterminer à quel point le modèle obtenu rend compte de la variabilité du phénomène observé pour savoir quel confiance on peut lui accorder.

Il faut faire l’exercice proposé en introduction et apprendre les résultats mis en valeur dans le document suivant :

Variances

A l’issue de ce chapitre, un petit résumé en vidéo des points importants de la méthode :

 

5) Des applications

5.1) Construction d’un tarif de cubage

source : Emmanuel Nogaret et Pascal Lejeune

On dispose des données suivantes à partir des quelles on veut construire une correspondance entre le diamètre de base et le volume appelée tarif de cubage à 1 entrée. L’idée est de pouvoir calculer V en connaissant juste le diamètre de base sur les arbres non abattus.

 

mesure effectuées sur des bois abattus 2011
forêts de Chaource et de Jeugny BTS1 GF
Types de peuplements : TAR à dominante Chêne en conversion
D base (cm) D 1,30 m D médian D fin bout L (m) V m3
30 28 26 24 6 0,34
38 36 36 32 8 0,77
39 33 30 25 10,7 0,87
39 35 27 24 10,7 0,85
44 42 42 38 5 0,66
46 42 40 35 12 1,56
47 46 41 35 10 1,33
47 46 42 40 7,5 1,12
48 44 43 38 7,5 1,09
48 46 46 37 8,5 1,21
48 47 46 38 8,5 1,24
48 43 40 33 13 1,69
49 43 40 35 11 1,54
52 35 33 23 17 1,97
52 49 44 42 10 1,74
60 50 46 41 9,2 1,86
60 53 48 42 10,5 2,17
61 57 53 50 7 1,70
61 55 50 38 13 2,55
62 55 43 36 16,5 3,18
62 48 37 36 14 2,70
65 62 60 37 11 2,30
66 57 53 35 13,4 2,77
67 57 52 34 11,5 2,39
75 62 56 38 14 3,64
77 58 53 47 11 3,39
85 67 58 34 13,3 3,92

 

En effectuant un ajustement polynomial de degré 2, on obtient le modèle avec r2 = 0,89 ; comme tous ces arbres, de même essence, ont poussé dans les mêmes conditions, la variable hauteur est fonction du diamètre de base et le calcul de V n’impose pas sa donnée.

5.2) Étude d’un modèle de croissance d’un végétal

source : d’après Modélisation en biologie et en écologie de Alain Pavé Éditions Aléas

On considère les données suivante concernant le pin noir (Pinus negra) :

 

Age Hauteur Age Hauteur
7 1 32 12
9 2 36 13
12 3 39 14
14 4 42 15
16 5 45 16
18 6 48 17
20 7 52 18
23 8 56 19
25 9 61 20
27 10 66 20,75
30 11

En effectuant un ajustement de type polynomial de degré 3, on obtient :
et à la distribution des résidus :

5.3) Étude d’un modèle de croissance d’une racine de plantule

Parmi les modèles mathématiques utilisés dans les sciences du vivant figure le modèle logistique.

Les fonctions mises en jeu sont de la forme et sont obtenus par le changement de variables sur l’ordonnée :

Exemple :

Nb Jours 1 2 4 6 8 10
Longueur en mm 1 6 36 57 84 93
source : Vincent Marin

 

Avec le changement de variables : , on obtient le modèle

 

avec r2=0,97 représenté ci dessous :

{lang: 'fr'}

Une réponse

  1. I’m really enjoying the themedesign of your website. Do you ever run into any internet browser compatibility issues? A handful of my blog audience have complained about my site not operating correctly in Explorer but looks great in Firefox. Do you have any solutions to help fix this problem? kdcggecfbfgd

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *