Dans cette séance nous traiterons des bases du langage statistique. Bien évidemment tout travail d’analyse repose sur une compréhension exhaustive des composants de la logique de l’analyse statistique.
Une analyse de données s’intéresse en premier lieu à une population à partir de laquelle elle extrait une fraction représentative, cette dernière doit être soumise à l’analyse. Une analyse de données porte sur les caractères ou valeurs d’une unité statistique, la somme des analyses ainsi faites permet au chercheur de prendre une décision éclairée sur ses hypothèses de recherche.
Nous verrons dans cette séance les principales décisions, les principaux procédés, qui président à la sélection d’un nombre d’individus en vue de réaliser une enquête. Le chercheur doit faire un choix sur la sous population qu’il doit sélectionner ainsi que le choix d’un outil de recherche et du moyen de son administration.
Nous définirons les deux notions d’échantillon et d’échantillonnage , puis nous discuterons des principaux types et techniques d’échantillonnage.
Le travail d’analyse de données débute par l’identification et la classification des variables à l’étude. Dans ce deuxième enseignement, vous apprendrez à mieux définir les concepts de base qui jalonnent l’analyse des données en sciences humaines. Nous passerons en revue les diverses définitions admises en statistiques et en sciences des données. Dans un second moment, nous nous intéresserons au travail sur les échelles de mesure, ces dernières sont à considérer comme le travail le plus élémentaire sur les données. En complément, on abordera les notions de représentations numériques (tableaux statistiques) et imagées (les graphiques) des données collectées.
Durant cette séance, nous aurons l’occasion d’introduire les bases de l’échantillonnage et du calcul des probabilités (ainsi que de l’analyse combinatoire). Nous avons sciemment utilisé le terme introduire car nous y reviendrons avec plus de détails dans la deuxième partie de cette séance. Cette introduction fait suite au Mémento de la séance précédente, elle fera bien évidement l’objet d’une séance de travaux dirigés. Les Mémentos et rappels sont accessibles sous la section Fiches cours & TD ainsi que dans la rubrique Annexes.
Vous noterez, à partir de la présente séance, l’apparition d’une nouvelle icone qui veut dire que l’on va apprendre les bases du langage python pour l’analyse des données. Pour ce qui est des logiciels WISWIG, SPSS ou JAMOVI, nous débuterons leur apprentissage à compter de la séance à venir.
Cette initiation vise en premier lieu à fournir à l’étudiant les moyens de concevoir un plan d’analyse des données brutes. D’un autre côté, le deuxième semestre d’enseignement porte sur l’usage des logiciels d’analyse de données, à cet effet, nous proposerons une alternative à l’approche classique de l’utilisation des logiciels WISWIG en intégrant grâce à la philosophie d’un programme tel que Python l’approche de l’analyse en ligne de commande.
Durant cette séance, nous visons les objectifs suivants :
Statistique, Population, Echantillon, Individu, Unité statistique, Caractère, Modalité, Valeur, Echelles de mesure (nominale, ordinale, d’intervalle, de rapport).
L’analyse des données est au fondement de la connaissance empirique. Dans un processus de recherche, l’analyse des données occupe une place importante car permettant de statuer sur la validité d’une approche théorique (vérificatoire) ou d’une connaissance issue d’un travail de terrain (générative).
Les données permettent de savoir, de s’informer et de connaître un peu plus un phénomène, de mieux l’appréhender. Les masses de données, lorsqu’elles sont traitées de manière systématique aident aussi dans la prise de décision. L’usage de données synthétisées permet d’articuler entre approche théorique et savoir empirique, les données ont une signification, et il revient au chercheur de les faire parler. La quantification, tout comme l’analyse qualitative, est un processus social, car permettant de s’interroger sur les catégories identifiées, une analyse à partir d’une enquête ne peut se priver de l’analyse du processus social qu’est l’enquête.
Les postures épistémologiques que doit adopter le chercheur dans son travail d’analyse témoigne de la richesse et de la profondeur d’une telle entreprise. L’analyse des données a été formalisée à partir des connaissances numériques et statistiques, processus ayant débuté depuis le dix-septième siècle et un processus, moins formalisée, orienté vers la subjectivité et considère l’information dans son versant qualitatif.
La diapositive qui suit retrace l'histoire de l'analyse de données, avec les dates clés ainsi que les thèmes et problématiques les plus importantes et les plus récurrentes.
Cette deuxième leçon, vous permettra de comprendre les bases du langage d’analyse de données, nous avons fait le choix de l’orienter vers les données quantitatives, on discutera de la nature des données qualitatives et des procédés de leur analyse un peu plus loin dans ce cours.
La population est l’ensemble des individus sur lesquels porte la recherche. En statistiques, les individus sont aussi appelés : unités statistiques. La population doit être bien définie, cette définition doit être univoque pour que l’on puisse déterminer effectivement l’appartenance d’une unité statistique à cet ensemble.
Le terme de population n'est pas strictement réservé aux seuls êtres humains, une population peut être l'ensemble des habitants d'un quartier, d'un village ou d'une ville, une population peut être aussi l'ensemble des articles de presse publiés par un journal concernant un événement donné. Une population peut être aussi l'ensemble des notes obtenues par les étudiants dans un module d'enseignement.
Un échantillon est un sous ensemble, de la population, choisit pour les besoins d'une recherche ou une enquête. L'échantillon peut être représentatif ou non, suivant les procédés qui ont permis de l'extraire de la population mère. On parle d'échantillonnage probabiliste et non probabiliste pour désigner les procédés qui ont donné lieu à l'élaboration de l'échantillon.
La figure suivante illustre les concepts de Population, échantillon et unité statistique.
Les observations relevées pour chaque caractéristique constituent des données. Les données représentent les mesures des observations. L’ensemble des données est la collection de toutes les mesures ou de toutes les observations. Une donnée est une mesure singulière ou une observation. Par définition, une donnée est considérée comme un fait contenant une information qui résulte d’une observation opérée sur la variable d’une population. Une variable est une caractéristique ou une condition qui varie ou possède différentes valeurs selon les individus. ou d’un échantillon.
Une variable est une caractéristique mesurable, soumise à analyse et à laquelle on peut attribuer plusieurs valeurs différentes.
A l'occasion d'une enquête, le chercheur peut poser des questions pour connaître le sexe (masculin ou féminin), l’âge (exprimé en années) ainsi que le nombre de frères et sœurs de chaque enquêté, ces trois éléments constituent des exemples de ce que l’on appelle en statistiques les variables. Les données sont donc l’ensemble des observations effectuées pour chacune des variables qui composent chaque unité statistique, l’opération de collecte des données une fois terminée donne lieu à une série statistique, chaque série statistique se caractérise par la nature des variables qu’elle contient.
Une variable peut être caractérisée par le type de valeur qui la définit. On distingue deux grands ensembles de variables : les variables qualitatives catégorielles et les variables quantitatives .
Lorsque l’on interroge les individus sur leur sexe ou la profession de leurs parents, on obtient des réponses qui représentent des catégories : masculin, féminin ; cadre, profession, libérale , sans emploi, etc. Les personnes ainsi interrogées peuvent être classés selon des catégories suivant les réponses qu’ils ont formulées. Lorsque les données générées par une variable représentent des catégories, on dit que cette dernière est qualitative.
Une variable qualitative catégorielle (dite aussi variable qualitative) est une variable dont les données associées sont des catégories, l’ensemble des catégories possibles que peut prendre la variable est nommée modalité (s).
Les données que l’on obtient pour la variable âge sont des valeurs numériques, on dit dans ce sens que la variable âge est une variable quantitative.
Une variable quantitative est une variable dont les données qui lui sont associées sont des valeurs numériques réelles.
Une variable quantitative peut être discrète ou continue.
La variable quantitative discrète : Les valeurs sont des nombres entiers ; elles sont associées à l’idée de dénombrement. (Exemple : nombre de frères et sœurs, nombre d’enfants dans un ménage, nombre d’étudiants présents à un examen, etc.). La variable discrète possède des valeurs séparées et indivisibles, il n’y a pas de valeurs intermédiaires entre deux valeurs adjacentes. (Exemple : jet de dés)
La variable quantitative continue : Une variable continue peut-être divisée en un infini nombre de fractions. (Exemple : temps, âge, poids, taille). En bref, Les valeurs appartiennent à un intervalle numérique.
Une échelle de mesure est le type d’informations que renfermé une variable, à chaque échelle de mesure correspond un ensemble de-procédures statistiques bien définies. Le terme échelles de mesure ainsi que les catégories qu’il renferme ont été introduits par le psychologue américain S.S. Stevens (1946), ce dernier considère que les échelles(ou classes) de mesure sont doublement déterminées, par les opérations empiriques invoquées dans le processus de mesure, et par leurs propriétés (mathématiques) formelles (des échelles).
Les catégories utilisées pour la mesure d’une variable forment une échelle de mesure, la relation entre les différentes catégories détermine les différents types d’échelles.
L’analyse des données est basée sur des principes mathématiques, surtout ceux des mathématiques appliquées. Les échelles de mesure sont fonction de la propriété des nombres.
Il existe quatre types d’échelles de mesure :
L’échelle nominale permet de nommer la catégorie à laquelle l’observation appartient. Chaque observation d’une variable nominale n’appartient qu’à une seule catégorie. Les informations contenues dans la variable nominale n’ont aucune propriété mathématique.
Dans une échelle nominale, les observations sont réparties de manière exhaustive (elles concernent toutes les possibilités) et exclusive (elles ne se recoupent pas), l’ordre des modalités n’a pas d’importance.
Exemple : les noms, couleurs des yeux, l’origine ethnique, la ville de naissance, le champ d’étude. Code postale, numéro de carte de crédit, code téléphonique internationale, ISBN/DOI, etc.
L’échelle ordinale est une variante de l’échelle nominale. Les modalités et valeurs d’une variable sont classées suivant un critère, l’échelle de mesure est ordinale car il y à une gradation dans les catégories utilisées.
L’échelle ordinale permet la mesure de la position de chaque observation relativement aux autres observations sur une variable, la position est appelée le rang. La relation d’ordre est transitive. Exemple : le niveau d’étude, les résultats d’une course.
Dans une échelle ordinale, les catégories sont organisées dans un ordre qui correspond à la différence entre les rangs.
Elle indique par une échelle abstraite l’intervalle entre la position d’une unité statistique et la position attribuée arbitrairement à la valeur zéro (le zéro arbitraire). Exemple : le Q.I. la mesure du temps, l’échelle de LICKERT (pour la mesure d’attitudes).
La valeur zéro indique l’absence de la caractéristique étudiée, le zéro est un zéro absolu. Exemple : la taille, l’âge.
Le tableau suivant montre les propriétés applicables aux échelles de mesure :
Echelles | Opérations empiriques de base | Structures des groupes mathématiques | Les calculs statistiques utilisables | Les tests de relation entre variables |
---|---|---|---|---|
Nominale | Détermination de l’égalité | Groupes de permutation \(x' = f(x)\) | Fréquence absolue et relative Mode | Khi-Carré, Coefficient de contingence, Coefficient phi, Lambda, régression linéaire |
Ordinale | Détermination du plus grand ou du plus petit | Groupe isotonique : \(x' = f(x) f(x)\) siginifie toute fonction monotone croissante | Ceux de l’échelle nominale plus : Médiane Mesure de position | Ceux de l’échelle nominale plus : Corrélation de rang, Autres tests non paramétriques, Régression logique ordinale |
Intervalle | Détermination de l’égalité des intervalles ou des différences d’intervalles | Groupe linéaire général : \(x' = ax + b\) | Ceux des deux échelles précédentes plus : Mesures de tendance centrale et de dispersion | Ceux des deux échelles précédentes plus : Analyse de la variance, Corrélation de Pearson, Régression simple et multiple. |
Rapport | Détermination de l’égalité des ratios | Groupes de similarité : \(x' = ax\) | Tous | Tous |
L’échantillonnage est le procédé consistant à extraire une partie de la population d’intérêt pour pouvoir réaliser une enquête. Dans ce sens l’échantillon doit être choisi pour représenter équitablement les caractéristiques de population mère. Cette dernière est composée d’individus, on dit aussi unités statistiques.
On appelle plan d’échantillonnage, les méthodes de sélection des échantillons.
Un bon plan d’échantillonnage implique le recours à l’utilisation de méthodes dites probabilistes, ces dernières ont pour objectif de limiter le jugement subjectif dans le choix des unités afin de réaliser une enquête (on dit aussi par coutume : sondage). [ Pour les définitions des termes statistiques voir, à titre d’exemple, le glossaire en ligne du site de statcan en cliquant ICI :) ]. Les échantillons tirés à l’aide de méthodes de probabilité sont appelés échantillons probabilistes ou aléatoires.
L’échantillonnage non probabiliste pour sa part, est basé sur une sélection par des moyens non aléatoires. Cela peut être utile pour certaines études, mais il ne fournit qu’une base faible pour la généralisation.
Dans les deux familles d’échantillonnage on parle souvent du biais d’échantillonnage pour souligner une incohérence, une inconsistance, dans le travail de réalisation technique des procédures d’échantillonnage. Il est certain que les échantillons tirés de manière aléatoire minimisent les biais, toutefois, il s’avère que méthodes d’extrapolation à partir d’un échantillon probabiliste à la population doit tenir compte de la méthode utilisée pour tirer l’échantillon ; sinon, des biais peuvent apparaître.
Un échantillon est un sous-ensemble des éléments ou membres d’une population. Le recours à l’étude de l’échantillon permet de collecter des informations à partir (ou sur) les éléments de telle façon que le résultat puisse représenter les informations de la population à partir de laquelle il a été extrait. [Nous remarquons un autre avantage de recourir à l’échantillonnage dans le sens où il représente un outil efficace et rentable pour pouvoir collecter des données qui peuvent à la fois réduire et améliorer la qualité des résultats obtenus].
Chaque échantillon est évalué à partir de deux propriétés : sa conception et sa mise en œuvre.
La représentativité (de l’échantillon) est un terme désignant dans quelle mesure les informations collectées sont applicables sur la population et avec quel niveau de risque d’erreur. En d’autres termes, dans quelle mesure les caractéristiques du petit groupe d’unités statistiques de l’échantillon peuvent rendre compte de celles de la population sujette à l’étude. (Lorsque nous parlons de population dans la recherche, cela ne signifie pas nécessairement un certain nombre de personnes).
Ainsi, une population peut être constituée d’objets, de personnes ou même d’événements (par ex. personnes malades, voitures, entreprises, etc.). Une liste complète des cas dans une population est appelée cadre d’échantillonnage. Cette liste peut être plus ou moins précise. Un échantillon est par conséquent, un certain nombre de cas sélectionnés dans la base d’échantillonnage et sur lequel on souhaite mener une étude plus approfondie.
Il n’y a pas de réponse statistiquement valable et définitive à cette question qui revient toujours à l’esprit. En théorie de l’échantillonnage, il est dit que plus les échantillons sont grand moins sont les erreurs liées à l’échantillonnage.
D’un autre côté, des échantillons plus petits peuvent être plus faciles à gérer et ont moins d’erreurs qui sont non dues à l’échantillonnage. Plus grand sont les échantillons, plus chers sont les coûts de leur réalisation et la durée de leur mise en œuvre. Le chercheur doit garder à esprit le fait que la détermination de la taille de l’échantillon est un travail qui demande une certaine pratique et des points de vue éclairés.
Les erreurs (on dit aussi biais) d’échantillonnage peuvent survenir au cours d’une enquête. Disons que c’est presque inévitable, même quand il s’agit d’organismes spécialisés ! Retenons qu’un plan d’échantillonnage aussi élaboré soit-il, souffre de lacunes, il revient au chercheur de se familiariser avec ces écueils et de trouver le moyen de concilier entre les objectifs de son travail et les exigences de son terrain d’investigation. On peut résumer les principales sources de biais d’échantillonnage dans les éléments qui suivent :
Ces éléments feront l'objet de discussion lors de la séance de travail dirigé qui leurs est, en partie, consacrée.
On distingue deux grandes familles d’échantillonnage : l’échantillonnage probabiliste (aléatoire) de l’échantillon non-probabiliste (non aléatoire).
Les techniques d’échantillonnage probabiliste donnent la représentation la plus fiable de l’ensemble de la population, tandis que les techniques non probabilistes, reposant sur le jugement du chercheur, ne peuvent pas être utilisé pour faire des généralisations (inférences) sur l’ensemble de la population.
L'essentiel dans cette section n'étant pas de donner une présentation détaillée des types d'échantillonnage, l'étudiant aura l'occasion de traiter cet élément dans le module de séminaire de méthodologie, mais de comprendre le principe qui régit les probabilités et qui est à la base de la différenciation entre les deux types, elle constitue en quelque sorte un prolongement de la toute première séance de travaux dirigés consacrée aux rappels mathématiques.
L’échantillonnage probabiliste se base sur l’utilisation de méthodes aléatoires pour sélectionner l’échantillon. Les procédures de sélection probabiliste visent à garantir que chaque élément (unité statistique) ait une chance égale d’être sélectionné et que toutes les combinaisons possibles des éléments ont également une chance égale d’être sélectionnés.
L’échantillonnage aléatoire simple est un cas particulier d’échantillonnage aléatoire. Il s’agit de sélectionner des unités par un mécanisme de hasard, de sorte que chaque unité a une chance égale et indépendante d’être sélectionnée.
L’échantillonnage aléatoire simple est utilisé lorsque la population est uniforme ou possède des caractéristiques communes dans tous les cas (par exemple, des étudiants d’une même faculté, les employés d’une entreprise, les numéros d’un quotidien). Une forme simple de sélection aléatoire serait d’assigner des numéros séquentiels aux entités de la population ce qui constituera une base de sondage puis utiliser une table des nombres aléatoires disponible dans la plupart des ouvrages statistiques ou celles générées par ordinateur.
L’échantillonnage systématique consiste à sélectionner des unités avec un intervalle fixe qu’on nomme le pas de sondage (K).
Il existe deux applications courantes de l’échantillonnage systématique :
On préfère recourir à l’utilisation de l’échantillonnage systématique pour sa simplicité pratique. L’échantillonnage systématique est une alternative à l’échantillonnage aléatoire et peut être utilisé lorsque la population est en nombre très important et sans caractéristiques connues, ou lorsque la population est connue pour être très uniforme (par exemple, les étudiants d’un même niveau, d’une même faculté).
Un échantillonnage stratifié est utilisé lorsque la population se présente (ou peut être subdivisée) en catégories ou des strates distinctes (les étudiants de plusieurs niveaux d’enseignements par exemple). La présence de strates différentes dans une population permet de réaliser un échantillon aléatoire simple à l’intérieur de ces sous-groupes.
Il existe deux types d’échantillonnage stratifié : proportionnel et non proportionnel. L’échantillonnage stratifié proportionnel consiste à contrôler les proportions de l’échantillon dans chaque strate (sous-groupe) pour égaler les proportions de la population. Si les strates sont corrélées avec les mesures d’enquête, cela aura pour effet d’augmenter la précision d’estimations de l’enquête. L’échantillonnage stratifié non proportionnel implique l’application de différentes fractions d’échantillonnage dans différentes strates. L’objectif est souvent d’augmenter la taille de l’échantillon d’un ou plusieurs sous-groupes importants pour lesquels des estimations distinctes sont requises. Dans cette situation, une stratification non proportionnelle réduit généralement la précision des estimations relatives à l’ensemble de la population étudiée, mais augmente la précision des estimations pour la strate sur-échantillonnée. Remarque - D’autres types d’échantillonnages aléatoires ne font pas l’objet de ce cours, il s’agit principalement de l’échantillonnage par grappes et de l’échantillonnage par grappes à plusieurs degrés. Ces deux types d’échantillonnage nécessitent des applications pratiques qu’il s’agira de réaliser dans les travaux dirigés du module d’approches quantitatives du niveau Master 1.L’échantillonnage non probabiliste est basé sur une sélection par des moyens non aléatoires. Cela peut être utile pour certaines études, mais il ne fournit qu’une base faible pour la généralisation des résultats.
L’échantillonnage accidentel consiste à sélectionner des unités d’échantillonnage facilement accessibles au chercheur. Le chercheur sélectionnera, par le biais de son bon sens et de son observation, les unités à échantillonner.
L’échantillonnage accidentel a l’avantage d’être simple à concevoir et peu coûteux. Parfois, cette forme d’échantillonnage peut être le moyen le plus efficace d’accéder à une population difficile à atteindre.
L’échantillonnage accidentel peut être utilisé pour la collecte de données qualitatives ou quantitatives.
L’échantillonnage de boule de neige peut être défini comme une technique pour rassembler des individus à enquêter à travers l’identification d’un individu clé qui est sollicité pour fournir les identités (coordonnées) d’autres participants qui qui prendront éventuellement part à l’enquête. L’échantillonnage par boule de neige est surtout utilisé dans le cas de sujet sensibles ou intimes.
L’échantillonnage par quotas est un type d’échantillonnage ayant pour objectif d’équilibrer le nombre d’individus interrogés dans chaque quota en sélectionnant les réponses à partir d’un nombre égal de répondants différents.
Nous avons vu dans cette séance que les données brutes doivent subir une série de transformation conceptuelle, numérique, le travail d’analyse commence une fois que les données ont été préparées.
Le Module ne possède pas de bibliographie finale (dans sa version en ligne), les renvois sont insérés à la fin de chaque Bloc.
Les questions qui suivent vous permettent de faire un état des connaissances discutées durant le Bloc, on fera une discussion durant les séances de Travaux Dirigés.
Le QCM comporte dix questions, à la fin vous aurez votre évaluation ainsi que le corrigé.
Pour accéder au QCM, cliquer sur l'icone suivante :
Dans cette section vous allez pouvoir télécharger des fiches en relation avec le présent cours.
Fiche 1 Table des lettres grecques : la fiche comporte l'intégralité des lettres grecques utiles pour comprendre le langage de l’analyse des données. La table comporte aussi une colonne pour la prononciation et une autre pour l’usage qui est convenu de faire de chaque lettre. Cliquez ICI pour télécharger la table.
Fiche 2 Fiche TD : cette deuxième fiche de travaux dirigés constitue une revue des principales notions de calcul des fréquences et des proportions, elle fait suite au premier mémento de la première séance. La fiche TD est téléchargeable en cliquant sur ce Lien
Fiche 3 Table des symboles mathématiques : cette table renferme les symboles mathématiques les plus usités (dans notre cours), durant la séance de Travaux Dirigés consacrée au présent Cours, nous travaillerons sur certains de ces symboles. Ce Mémento est à conserver car on en aura besoin pour la suite de notre enseignement. Lien
Pour aller plus loin dans votre apprentissage de ce deuxième Bloc, vous pouvez consulter les liens suivants :
Sur l'Appli du Cours, vous trouverez le résumé du présent Bloc, ainsi que des séries de Travaux Dirigés qui lui sont liées.
On trouvera aussi des renvois à des contenus multimédias qui intéressent le Bloc.
Dans le volet de Notifications, une mise à jour est prévue, elle se fera suivant les questionnements formulés par les étudiants durant les séances de Cours et de Travaux dirigés.
Une mise à jour concerne aussi les examens des sessions précédentes que l'on corrigera dans les séances de travaux dirigés pour préparer les examens de l'année en cours.
Dans ce tout premier coin Python, vous apprendrez à télécharger puis à installer le langage.
Durant la séance de travail dirigé consacrée à ce cours, vous serez plus familiarisé avec ce que l’on appelle les algorithmes, la conception d’une analyse est en partie liée à cet apprentissage de la logique interne d’un programme à déployer.
Afin de ne pas encombrer le texte, nous vous présentons les procédures d’installation dans l’accordéon suivant, à la fin vous pouvez tester en mettant en route votre programme.
Vous pouvez tout autant travailler à l’aide du compilateur en ligne mis gracieusement à notre disposition par trinket que nous remercions chaleureusement.
Python est un langage de programmation de haut niveau, interprété, et généraliste, il est conçu, en partie, pour la Data Science. Python permet un travail assez poussé sur les données, exploration, nettoyage, manipulation. Python est gratuit, simple à apprendre et les bibliothèques dédiées à l'analyse des données sont nombreuses et très développées. Il est multiplateforme : windows, mac, Linux, Rapsberry pie, etc.
Python a été créé par Guido Van Rossum en 1991.
Le nom Python ne vient pas du serpent, mais du groupe de comédiens britanniques Monty Python. Guido van Rossum est un fan de "Monty Python's Flying Circus" et a choisi ce nom pour refléter le caractère ludique du langage.
Pour télécharger python, rendez-vous à l’adresse officiel du programme : https://www.python.org/ , à la page d’accueil du site, on cliquera sur Downloads ce qui affichera la toute dernière version du langage.
Une fois le téléchargement du programme terminé, on cliquera sur exécuter (suivant le système dont vous disposez).
Python affiche une fenêtre récapitulant l’ensemble des information nécessaires pour l'installation' :
On cliquera sur le bouton Install Now , pour lancer l'utilitaire d'installation.
Une fois l’installation terminée, on se rendra sur le champs de recherche en bas à droite du bureau de travail (Windows), on entrera le mot : IDLE puis on cliquera sur le bouton : OK : Windows retourne comme réponse la version installée de Python (Python 3.12.4, dans notre cas), on cliquera dessus pour accéder à l'IDLE.
Une nouvelle fenêtre s’ouvre : IDLE Shell , elle affiche les informations concernant la version installée de Python ainsi que d’autres informations accessibles en tapant certaines commandes. On tapera à titre d’exemple : "copyright", puis on effectuera une opération mathématique et un affichage de texte pour s’assurer que tout va bien. Voir Fenêtre suivante.
Nous avons choisi d'installer Pycharm , l'un des IDE de Python le plus utilisé.
Pour installer PyCharm, on se rendra au site de son éditeur Jetbrains à l'adresse : https://www.jetbrains.com/, on cliquera sur le menu Developper Tools, on sélectionnera dans la liste PyCharm, comme le montre la figure suivante :
On cliquera sur le bouton Download , puis on sélectionnera le système d'exploitation adéquat et on choisira enfin la version Community qui est gratuite. On cliquera une autre fois sur le bouton Download , ce qui lancera le téléchargement de l'IDE.
Une fois le téléchargement terminé, on lancera le programme. La fenêtre d'installation apparaît, on notera au besoin le fichier d'installation du programme :
On cliquera sur le bouton Next, une nouvelle fenêtre apparaît, c'est la fenêtre des options d'installation (il faudra l'expliquer), il est préférable de cocher toutes les cases. On cliquera ensuite sur le bouton Next, le processus d'installation est assez simple rien de sera demandé.
Une fois installé, on lancera le programme, qui donnera la fenêtre d'accueil du PyCharm, on cliquera sur le bouton Creat, pour créer un nouveau projet
Dans la fenêtre New project, on s'assurera que notre projet possède un nom ( MonProjet1, dans notre cas), un dossier où sera stocké le fichier du nouveau projet créé et enfin un interpréteur (l'interpréteur, le compilateur, qui est la version de Python que l'on a installée) pour exécuter les lignes de code que l'on a à écrire.
En créant ce nouveau projet, on a le choix entre laisser la case Create a main.py script (où l'on écrira l'ensemble de notre code) telle quelle est, ou bien décocher cette case et créer un nouveau fichier avec le nom que l'on désire une fois le projet créé.
On cliquera sur le bouton Create pour lancer notre tout premier projet Python.
On remarquera que l'ensemble de notre projet python est contenu dans le fichier main.py.
Une fois créé, on essayera de tester notre fichier main.py en écrivant une ligne de code :
def calculate_sum(numbers):
return sum(numbers)
numbers = [1, 2, 3, 4, 5]
total = calculate_sum(numbers)
print("La somme des nombres est:", total)
Pour exécuter l'ensemble du code on peut cliquer sur la raccourci Maj + f10 , ou bien cliquer sur le triangle en haut de la fenêtre de notre éditeur. Pour exécuter des lignes bien spécifiques, on sélectionnera ces dernières à l'aide de la souris, puis on cliquera sur le bouton droit de la souris et enfin on choisira Run 'main'
Pour entreprendre un travail d'analyse de données à l'aide de python, il est nécessaire d'avoir recours à ce que l'on appel dans le jargon : les bibliothèques (on dit aussi librairie).
Une bibliothèque est un ensemble de fonctions, de classes, d'objets, etc. permettant de travailler sur un thème particulier.
Dans notre cas, on aura besoin à titre d'exemple des bibliothèques suivantes : Pandas, NumPy, Matplotlib, Seaborn, SciPy ... .
En installant Python et son environnement de travail on n'a pas installer les bibliothèques nécessaires à notre travail, on se doit de les télécharger et de leur faire appel pour les besoins de notre travail de terrain.
L'une des solutions consiste à télécharger et installer ANACONDA une plateforme qui regroupe les bibliothèques Python dédiées à l'analyse des données insi que l'environnement de travail intégré, et bien plus encore, nous allons découvrir tout cela dans les paragraphes qui suivent.
Télécharger et installer ANACONDA.
Pour télécharger ANACONDA, rendez-vous sur le site officiel de la plateforme à l'adresse : https://www.anaconda.com/ . A la page d'accueil, votre système d'exploitation est automatiquement détecté, on cliquera sur le bouton Download.
Une fois le téléchargement terminé, on lacera l'assistant d'installation de la plateforme
Présentation de la plateforme ANACONDA
Au lancement de la plateforme ANACONDA, une fenêtre d'accueil apparaît, elle est représentée par la figure suivante, elle contient tous les composants de la plateforme que nous allons décrire dans les lignes suivantes :
Le Carousel suivant donne les principaux renseignements pour chaque composant d'ANACONDA :
La fenêtre suivante, un Iframe de Trinket, vous permet de tester vos codes en Python (pour vous aider, vous pouvez poser vos requêtes dans la PanelBot en haut de cette page). Trinket est une plateforme en ligne qui permet aux utilisateurs de coder, de partager et d'intégrer des programmes interactifs dans leur navigateur web.
En utilisant le lien ci-dessous, vous pouvez télécharger la séance en format PDF :
Le forum vous permet d'échanger autour de cette deuxième séance, vous remarquerez la présence d'un bouton d'abonnement afin que vous puissiez suivre les discussions au sujet de la recherche en sciences humaines et sociales, c'est l'occasion aussi pour l'enseignant de répondre aux préoccupations et questions des étudiants.