LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

Etude sur la gonhrrée

Étude de cas : Etude sur la gonhrrée. Recherche parmi 298 000+ dissertations

Par   •  2 Novembre 2022  •  Étude de cas  •  2 300 Mots (10 Pages)  •  195 Vues

Page 1 sur 10

Etude sur la gonhrrée

Eve Bensimon, Samuel Arbona

2021/2022

[pic 1]

  1. Introduction        3
  2. Préparation du jeu  de données        4

II.1  Valeurs et données manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .        4

  1. Modification des variables qualitatives  . . . . . . . . . . . . . . . . . . . . . . . . . . .        4
  2. Choix des variables utiles à l’étude  . . . . . . . . . . . . . . . . . . . . . . . . . . . . .        5
  1. Analyse descriptive        7

III.1 Description de l’échantillon  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .        7

  1. Analyse qualitative des groupes à risque  . . . . . . . . . . . . . . . . . . . . . . . . . .        8
  1. Régression  Logistique et Interprétations        12
  2. Conclusion        13

[pic 2]

La gonorrhée est une maladie sexuellement transmissible (MST). Nous proposons ici une étude sur la contamination à la gonorrhée d’une population de 3144 individus. L’objectif est de mettre en évidence les groupes qui sont les plus à risque. Afin de caractériser ces groupes à risque, nous utilisons une étude effectuée sur un échantillon de 3144 patients s’étant fait dépister pour cette maladie. Ainsi nous pouvons expliquer la variable DIAGN pour savoir si le patient est atteint de cette maladie ou non.

Nous allons d’abord faire une analyse descriptive des variables du jeu de données puis dans un second temps nous commenterons ces données et utilserons la regression logistique pour déterminer quel groupe est le plus à risque.

La variable dépendante DIAGN sera donc expliquée par les variables explicatives suivantes :

  1. ID : Elle est indéxée de 0 à 3143 et donne l’identité de chaque individu de l’échantillon.
  2. SEXE : Elle donne le sexe de l’individu : 1 pour un homme , 0 pour une femme.
  3. ETAT_C : Elle donne l’état civil de l’individu : 1 célibtaire, 2 marié, 3 séparé ou divorcé, 4 veuf, 5 si pas de réponse.
  4. AGE : Elle donne l’âge en années de l’individu.
  5. ORIENT_SEX : Elle donne l’orientation sexuelle de l’individu : 1 homosexuel, 2 hétérosexuel.
  6. MTS_ANT : Elle permet de savoir si l’individu a déjà eu des MST dans le passé : 1 non, 2 oui.
  7. NB_MTS : Elle donne le nombre de MST que l’individus a contracté dans le passé.
  8. RAISON : Elle nous apprend la raison de la visite du patient : 1 symptomes , 2 cas contact,  3 dépistage simple , 4 visite contrôle , 5 autre.
  9. NB_PART : Elle donne le nombre de partenaires sexuels qu’a eu le patient.
  10. HISTOIRE : Elle permet de savoir si l’individu a eu des relations avec des partenaires conta- minés par une maladie sexuellement transmissible quelqu’elle soit dans le passé : 0 si pas de relation à risque, 1 si relation avec personnes contaminées.
  11. CULTURE : Cette variable permet de savoir sur quelle partie du corps la culture a été faite  et si elle a été positive : 0 négative, sinon : 1 gorge, 2 col ou urètre, 3 anus, 4 gorge ou urètre ou col, 5 gorge et anus, 6 urètres ou col et anus , 7 les 3 sites.

Après étude du jeu de données nous décidons de faire certains changements : certaines variables ne sont pas nécessaire et, nous allons également trier les données : retirer les données obsolètes et les individus n’ayant pas des données conluantes pour chaques variables conservées.

[pic 3]

  1. Valeurs et données manquantes

Nous remarquons que le dernier patient possède 4 données obsolètes marquées par des ’Nan’, nous le supprimons de la liste des patients. De plus, nous remarquons que plusieurs individus ont une ou plusieurs valeurs manquantes qui ne sont pas remplaçables. Nous gardons alors 2664 individus sur les 3144 individus initialement sondés soit 85% de l’échantillon. Une valeur manquante est représentée par un 9 ou un 99.

  1. Modification des variables qualitatives

L’énoncé de l’exercice nous suggère de modifier les variables qualitatives en variables quantitatives.

Tout d’abord, concernant la variable AGE, nous identifions les individus ayant plus ou moins de 30 ans :

[pic 4]

Il y a 1643 individus de moins de 30 ans et 1021 de plus de 30 ans. Puis, nous tranformons la variable

[pic 5]

NB_MTS, pour identifier les individus ayant déjà eu une MST dans le passé ou non :

[pic 6]

1401 individus ont déjà eu une MST, 1263 n’en ont jamais eu.

[pic 7]

Enfin, nous modifions la variable NB_PART et identifions les individus ayant une vie sexuelle peu ou très active (nous fixons le seuil à plus ou moins de 2 partenaires) :

[pic 8]

1688 individus ont une vie sexuelle peu active, 966 ont une vie sexuelle très active.

[pic 9]

  1. Choix des variables utiles à l’étude

Afin d’analyser le meilleur modèle possible nous allons mettre en lumière les variables présentant une corrélation de 1 en valeur absolue et les enlever du modèle.

[pic 10]

Dans cette matrice de corrélation, nous remarquons que les variables NB_MTS et MTS_ANT   sont totalement corrélées. Nous concluons qu’il n’est pas pertinent de garder ces deux variables. Nous retirons la variable NB_MTS.

Nous constatons que la variable CULTURE, lorsqu’elle prend les valeurs 4,5,6 et 7 ne permet pas de différencier les parties du corps. De plus, lorsqu’elle vaut 0, la variable CULTURE représente le fait qu’un individu est contaminé exactement comme la variable DIAGN quand elle vaut 0. Au final, la variable culture est trop proche de la variable DIAGN, nous décidons de la supprimer.

...

Télécharger au format  txt (12.8 Kb)   pdf (365.1 Kb)   docx (1.3 Mb)  
Voir 9 pages de plus »
Uniquement disponible sur LaDissertation.com