LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

Régression linéaire simple

Guide pratique : Régression linéaire simple. Recherche parmi 297 000+ dissertations

Par   •  20 Novembre 2022  •  Guide pratique  •  3 290 Mots (14 Pages)  •  178 Vues

Page 1 sur 14

Régression linéaire simple Régression linéaire simple [pic 1][pic 2][pic 3]

Résumé

Ce chapitre introduit la notion de modèle linéaire par la version la

plus élémentaire : expliquer Y par une fonction affine de X. Après

avoir expliciter les hypothèses nécessaires et les termes du modèle,

les notions d’estimation des paramètres du modèle, de prévision par

intervalle de confiance, la signification des tests d’hypothèse sont discutées. Enfin une attention particulière est faite aux outils de diagnostics disponibles : valeurs influentes, et surtout graphe des résidus.

Retour au plan du cours.

1 Introduction

Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire, la régression linéaire simple où une variable X est ex pliquée, modélisée par une fonction affine d’une autre variable y. La finalité d’un tel modèle est multiple et dépend donc du contexte et surtout des ques tions sous-jacentes. Ce peut-être juste une approche exploratoire ou alors la recherche d’une réponse à une question du type : une variable quantitative X (e.g. la concentration d’une molécule) a-t-elle une influence sur la variable quantitative Y (e.g. une culture bactérienne) ? Ou enfin la recherche d’un mo dèle de prévision de Y en fonction de X : calibration d’un appareil de mesure d’une concentration à partir d’une mesure optique. Des concepts clefs : mo dèle, estimations, tests, diagnostics sont introduits et déclinés dans ce contexte élémentaire. Leur emploi et leur signification dépendent des objectifs. Ils se re trouvent dans une présentation plus général du modèle de régression multiple et ce chapitre sert donc d’introduction.

Avant tout travail de modélisation, une approche descriptive ou exploratoire est nécessaire pour dépister au plus tôt des difficultés dans les données : dis symétrie des distributions, valeurs atypiques, liaison non linéaire entre les va riables. En fonction des résultats obtenus, une transformation préalable des va riables peut s’avérer nécessaire. Dans l’exemple de la figure 1, le choix d’une

FIGURE 1 – Exemple de régression du poids d’un arbre en fonction de la variable diamètre × hauteur et diamètre × hauteur au carré

variable explicative homogène à un volume semble plus judicieux pour estimer le poids d’un arbre.

2 Modèle

On note Y la variable aléatoire réelle à expliquer (variable endogène, dé pendante ou réponse) et X la variable explicative ou effet fixe (exogène). Le modèle revient à supposer, qu’en moyenne, E(Y ), est une fonction affine de X. L’écriture du modèle suppose implicitement une notion préalable de cau salité dans le sens où Y dépend de X car le modèle n’est pas symétrique.

E(Y ) = f(X) = β0 + β1X ou Y = β0 + β1X + ε

Remarque : Nous supposerons pour simplifier que X est déterministe. Dans le cas contraire, X aléatoire, le modèle s’écrit alors conditionnellement aux observations de X : E(Y |X = x) = β0 + β1x et conduit aux mêmes estima tions.

Les hypothèses relatives à ce modèle sont les suivantes :

1. la distribution de l’erreur ε est indépendante de X ou X est fixe, 2. l’erreur est centrée et de variance constante (homoscédasticité) :

∀i = 1, . . . , n E(εi) = 0, Var(εi) = σ2.

3. β0 et β1 sont constants, pas de rupture du modèle.

1

Régression linéaire simple 4. Hypothèse complémentaire pour les inférences : ε ∼ N (0, σ2). [pic 4]

les résidus calculés ou estimés sont :

3 Estimation 3.1 Paramètres

ei = yi − ybi.

La variance σ2est estimée par la variation résiduelle :

L’estimation des paramètres β0, β1, σ2est obtenue en maximisant la vrai semblance, sous l’hypothèse que les erreurs sont gaussiennes, ou encore par minimisation de la somme des carrés des écarts entre observations et modèle

s2 =1 n − 2

Xn i=1

e2i.

(moindres carrés). Les deux approches conduisent aux mêmes estimation tan dis que le maximum de vraisemblance induit de meilleure propriétés des es timateurs. Pour une séquence d’observations {(xi, yi)i = 1 . . . , n}, le critère des moindres carrés s’écrit :

Xn 

Exemple : Analyse de régression : Poids en fonction de D2xH

L’équation de régression est

Poids = 0,0200 + 0,00829 D2xH

Régresseur Coef Er-T coef T P Constante 0,01999(1) 0,01365(3) 1,46 0,160

(yi − β0 − β1xi)2.

On pose :

min β01 

i=1

D2xH 0,0082897(2) 0,0002390(4) 34,68 0,000

(1) b0

(2) b1

x¯ =1nXn i=1

xi, y¯ =1nXn i=1

yi,

(3) écart-type de βc0 : sb0 

(4) écart-type de βc1 : sb1 

3.2 Qualité d’ajustement

s2x =1

n − 1

sxy =1 n − 1

Xn 

i=1 Xn 

i=1

(xi − x¯)2, s2y =1 n − 1

(xi − x¯)(yi − y¯), r =sxy sxsy;

...

Télécharger au format  txt (20.5 Kb)   pdf (135.7 Kb)   docx (45.3 Kb)  
Voir 13 pages de plus »
Uniquement disponible sur LaDissertation.com