Rapid miner

Cours : Rapid miner. Recherche parmi 304 000+ dissertations

Par imadamzil • 8 Février 2018 • Cours • 765 Mots (4 Pages) • 1 306 Vues

Page 1 sur 4

[pic 1][pic 2][pic 3]

Rapport de TP1

[pic 4]

[pic 5][pic 6]

[pic 7]

Introduction :

RapidMiner :

Présentation

RapidMiner est une plate-forme logicielle de science des données développée par la société du même nom qui fournit un environnement intégré pour la préparation de données, l'apprentissage automatique, l'apprentissage en profondeur, l'exploration de texte et l'analyse prédictive. Il est utilisé pour les applications commerciales et commerciales, ainsi que pour la recherche, l'éducation, la formation, le prototypage rapide et le développement d'applications. Il prend en charge toutes les étapes du processus d'apprentissage machine: préparation des données, visualisation des résultats, validation et optimisation des modèles. Modèle de base ouvert.

RapidMiner Studio Free Edition, limitée à 1 processeur logique et à 10 000 lignes de données, est disponible sous licence AGPL. Les prix commerciaux commencent à 2500 $ et sont disponibles auprès du développeur.

Prise en main

A l'ouverture du programme, RapidMiner présente l'écran de la figure 1, qui vous propose soit de commencer un nouveau schéma de traitement de données, soit d'en ouvrir un précédemment écrit, soit de suivre le tutoriel en ligne (celui-ci suppose une connaissance préalable des méthodes et du vocabulaire du data mining, et devient vite très compliqué à suivre). Choisissez 'new proccess' ->’Blank’, ce qui vous amène à l'écran de la figure 2, où vous devez choisir l'endroit où se trouvera votre espace de travail.

Cet espace de travail se divise en cinq zones principales :

La zone centrale servira à dessiner le schéma du flux de données : il partira d'une source, qui passera successivement à travers plusieurs outils (préparation des données, traitement, évaluation de performances ...).
Les catalogues des outils, à gauche, où nous irons chercher les composants à utiliser dans la zone centrale. Ces composants peuvent être des sources de données, des modificateurs de données, des algorithmes de data mining, des évaluateurs de performances. Nous les utiliserons chacun à leur tour, un peu à la fois.
Pour chaque outil utilisé, la zone de droite listera ses paramètres.
La zone des informations en bas à droite renseigne sur le fonctionnement de l'outil courant.

[pic 8]

Figure 1:fenêtre "new process" le premier écran

[pic 9]

Figure 2:espace de travail

Réalisation :

Travail à faire :

L'exemple que nous allons utiliser est un exemple célèbre en statistiques, et souvent utilisé pour illustrer les algorithmes de data mining : les Iris de Fischer. Cet ensemble regroupe les descriptions de 150 iris, de trois sortes différentes. Chaque individu est décrit par 4 paramètres entiers : la longueur et la largeur des pétales et des sépales, et la cinquième valeur est la sorte d'iris de l'exemple. Le but du jeu est d'écrire un algorithme qui, à partir des quatre premiers paramètres, devine correctement la sorte d'iris. En regardant les données, comme nous allons le faire par la suite on pourra se rendre compte visuellement de la complexité (ou de la facilité) de cette tâche.

...

Télécharger au format txt (5.2 Kb) pdf (605.1 Kb) docx (2.1 Mb)

Voir 3 pages de plus »

Uniquement disponible sur LaDissertation.com

Lire le document complet Enregistrer