Aller au contenu principal

Régression linéaire sur des jeux de données volumineux dans Excel

Ce tutoriel explique comment réaliser une régression linéaire sur un jeu de données contenant des millions d’observations dans Excel avec le logiciel XLSTAT.

Données

Les données sont fictives et ont été créées pour ce tutoriel. Le nombre d’observations est ici limité mais vous pouvez suivre la même procédure pour un jeu de données contenant des millions de lignes.

Mise en place du chargement d’un fichier plat volumineux avec XLSTAT

Cette méthode de lecture de fichiers texte ajoute de nouvelles possibilités à XLSTAT car les données ne sont pas chargées dans une feuille de calcul mais directement en mémoire. Ainsi, vous pouvez charger des fichiers texte avec plus de données que celles proposées dans les limites d’une feuille de calculs d’Excel (1 048 576 lignes par 16 384 colonnes).

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Modélisation / Régression linéaire. Une fois le bouton cliqué, la boîte de dialogue correspondant à la régression apparaît. Afin d’utiliser les fichiers textes comme source de données, cliquez deux fois sur l’icône représentant une souris de telle sorte que l’icône devienne une feuille de papier orange. Un point d’interrogation apparait : Pour charger le fichier texte, cliquez sur le point d’interrogation et la fenêtre Importer un fichier de données apparaît. Remplissez les paramètres pour lire le fichier démo. Ceux-ci se composent de la zone Séparateur qui permet de définir le caractère de séparation des colonnes (dans notre cas, des tabulation sont utilisées), la zone Marqueur de texte qui définit des éléments complexes (c’est-à-dire qui contiennent des espaces, des caractères séparateurs, …), la zone Lire à partir de la ligne qui permet de refuser plusieurs premières lignes servant d’en-tête au fichier (dans notre cas, aucune lignes n’est utilisé comme en-tête) et la zone Symbole de commentaire pour définir le symbole qui marque les lignes de commentaire au sein du fichier. Cliquez sur le bouton OK pour sauvegarder ces paramètres. Pour voir un aperçu avant de charger les données en mémoire, cliquez sur Aperçu et la fenêtre Aperçu apparaît.

Exécuter une régression linéaire

Après avoir importé les données, nous pouvons maintenant sélectionner les données depuis l'onglet Général. Cliquez dans le champ Variables dépendantes. Une nouvelle fenêtre apparaît qui nous permet de sélectionner les variables. Sélectionnez la variable Y et cliquez sur le bouton OK. De la même façon, sélectionnez les autres variables dans le champ Variables explicatives.

Ensuite, nous pouvons paramétrer les autres sous-onglets (Options, etc.) afin de choisir les options and les sorties en fonction des besoins de notre analyse. Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Plus d’informations sur les différentes options de la boîte de dialogue Régression Linéaire ainsi que sur l’interprétation sont disponibles dans nos tutoriels Régression linéaire multiple dans Excel et Régression linéaire simple dans Excel.

Cet article vous a t-il été utile ?

  • Oui
  • Non