Analyse Lexicale avec Le Sphinx Manuel d'utilisation
Copyright © Sphinx Développement 1986 – 2006. Tous droits réservés
Imprimé le 12 Septembre 2006
Le Sphinx Développement Développement Parc Altaïs 74650 Chavanod Téléphone : 04 50 69 82 98 Fax : 04 50 69 82 78 e-mail :
[email protected] Web : www.lesphinx.eu
Avant propos Ce manuel accompagne la nouvelle version du Sphinx que vous venez d'acquérir : Le Sphinx V5. Nous vous en félicitons. Ce logiciel s’appuie très fortement sur les interfaces et les protocoles de Windows. Vous retrouverez ainsi les habitudes que vous avez déjà acquises par l’expérience de ce système (gestion des fichiers, menus, dialogues, listes déroulantes, raccourcis…). Nous nous sommes efforcés de toujours respecter ces conventions bien établies. C’est pour cela que vous parviendrez très faci lement à l’utiliser. Vous serez également guidé par votre connaissance du travail des enquêtes, des études et de la statistique. Nous utilisons le langage de ces métiers et avons structuré le logiciel par p ar rapport aux grandes étapes d’une étude : questionnaire, saisie, dépouillement, analyse… Notre souci constant est de faciliter votre compréhension devant l’écran. A cette fin, de nombreux commentaires sont affichés pour vous aider à vous situer et à comprendre les menus, boutons de commande, options… Pour les opérations les plus complexes, vous êtes pris en charge par un assistant. Enfin, lorsque le sens d’un article ou d’un bouton vous échappe, il vous suffira d’essayer pour comprendre très vite son utilité. Pour toutes ces raisons, vous n’aurez aucune difficulté à vous servir de votre logiciel et peut-être pourrez-vous même vous passer du manuel. Mais vous risquez alors de le sous-utiliser ou de vous compliquer inutilement la vie. En effet, toutes les possibilités qu'il offre ne sont pas également visibles ni toujours très compréhensibles au premier abord et vous risquez de passer à côté de fonctions très utiles. Le premier objectif de ce manuel est de vous faire découvrir tout ce que vous pourrez faire avec le logiciel. A cette fin, il est organisé en doubles pages développant une tâche, une fonction, un résultat que vous pourrez entreprendre ou réaliser. La partie de droite vous montre le logiciel, ses écrans, ses menus, ses dialogues et les états (tableaux, graphiques) qu’il permet de produire.
2
La partie de gauche situe ce que fait le logiciel en terme de finalité, d’utilité et de méthodes mises en œuvre. Vous y trouverez également une explication détaillée des modes opératoires. Si vous êtes déjà utilisateur du Sphinx, vous pourrez rapidement identifier les nombreuses nouveautés et vous retrouverez facilement vos habitudes. Si vous découvrez ce logiciel, vous comprendrez facilement son organisation et son système de fonctionnement. La visite guidée que nous vous proposons en tout début du manuel vous accompagnera dans vos premiers pas. En vous reportant ensuite au manuel vous apprendrez à vous en servir complètement et deviendrez des experts. En vous souhaitant un bon travail. Yves Baulac, Jean Moscarola
Avant propos Ce manuel accompagne la nouvelle version du Sphinx que vous venez d'acquérir : Le Sphinx V5. Nous vous en félicitons. Ce logiciel s’appuie très fortement sur les interfaces et les protocoles de Windows. Vous retrouverez ainsi les habitudes que vous avez déjà acquises par l’expérience de ce système (gestion des fichiers, menus, dialogues, listes déroulantes, raccourcis…). Nous nous sommes efforcés de toujours respecter ces conventions bien établies. C’est pour cela que vous parviendrez très faci lement à l’utiliser. Vous serez également guidé par votre connaissance du travail des enquêtes, des études et de la statistique. Nous utilisons le langage de ces métiers et avons structuré le logiciel par p ar rapport aux grandes étapes d’une étude : questionnaire, saisie, dépouillement, analyse… Notre souci constant est de faciliter votre compréhension devant l’écran. A cette fin, de nombreux commentaires sont affichés pour vous aider à vous situer et à comprendre les menus, boutons de commande, options… Pour les opérations les plus complexes, vous êtes pris en charge par un assistant. Enfin, lorsque le sens d’un article ou d’un bouton vous échappe, il vous suffira d’essayer pour comprendre très vite son utilité. Pour toutes ces raisons, vous n’aurez aucune difficulté à vous servir de votre logiciel et peut-être pourrez-vous même vous passer du manuel. Mais vous risquez alors de le sous-utiliser ou de vous compliquer inutilement la vie. En effet, toutes les possibilités qu'il offre ne sont pas également visibles ni toujours très compréhensibles au premier abord et vous risquez de passer à côté de fonctions très utiles. Le premier objectif de ce manuel est de vous faire découvrir tout ce que vous pourrez faire avec le logiciel. A cette fin, il est organisé en doubles pages développant une tâche, une fonction, un résultat que vous pourrez entreprendre ou réaliser. La partie de droite vous montre le logiciel, ses écrans, ses menus, ses dialogues et les états (tableaux, graphiques) qu’il permet de produire.
2
La partie de gauche situe ce que fait le logiciel en terme de finalité, d’utilité et de méthodes mises en œuvre. Vous y trouverez également une explication détaillée des modes opératoires. Si vous êtes déjà utilisateur du Sphinx, vous pourrez rapidement identifier les nombreuses nouveautés et vous retrouverez facilement vos habitudes. Si vous découvrez ce logiciel, vous comprendrez facilement son organisation et son système de fonctionnement. La visite guidée que nous vous proposons en tout début du manuel vous accompagnera dans vos premiers pas. En vous reportant ensuite au manuel vous apprendrez à vous en servir complètement et deviendrez des experts. En vous souhaitant un bon travail. Yves Baulac, Jean Moscarola
La construction des lexiques.............. ............ .. 14
Sommaire Analyse des données qualitatives avec le Sphinx : les fondements........... 5 1. Les études « quali » .................................. 6 2. L’acquisition des données textuelles ........ 2 3. Produire des extraits ou faire du verbatim .................................................... 3 4. Faire de l’analyse de contenu ................... ................... 3 5. Analyse de données textuelles et approximation lexicale............................... 2 6. Privilégier une approche ou les combiner ? ................................................ 3
Le traitement simple des questions textes ......................... ............ ......................... ............ 5 1. 2. 3. 4.
Etudier les textes ....................................... 6 Faire du verbatim ...................................... ...................................... 8 Tableau de réponses ouvertes ou vertes ............... 10 Analyse de contenu simple, en cours de lecture ................................................ 12 5. Analyse de contenu c ontenu avec code-book ...... 14
L'analyse lexicale en bref ...................... ................ ...... 2 1. Les interfaces ............................................ 3 2. Du texte aux formes graphiques l’approximation lexicale ............................. 1 3. Du texte aux structures linguistiques : la statistique lexicale ................................. ................................. 3 4. L’atelier lexical en bref .............................. 5 5. Le panneau lexical : produire des lexiques ..................................................... 7 6. Le panneau lexical : segments répétés et lexiques relatifs ........................ 9 7. Le panneau lexical : du bilan aux réponses caractéristiques c aractéristiques ....................... 11
Sphinx V5
1. Caractères séparateurs et environnement ......................................... 15 2. Rechercher et marquer des éléments dans le lexique ......................................... 17 3. Réduire les lexiques ................................ 19 4. Groupements automatiques .................... 21 5. La gestion des dictionnaires ....................23 6. Les différents types de dictionnaires ....... 25 7. Analyse thématique ................................. 27 8. Lexique des expressions** ........................ 2 9. Rechercher les segments répétés** ..........4
Navigation lexicale et recherche de contexte ........................ ........... .......................... ..................... ........ 7 1. Du lexique au corpus : la navigation lexicale ....................................................... 8 2. Situer un mot dans son contexte textuel ......................................................10 3. Les lexiques relatifs** .............................. 12 4. Production d'extraits ................................ 14 5. Résumé des différentes manières de produire des extraits ................................ 16
Analyse syntaxique et lemmatisation ........................ ............ ......................... ............... .. 19 1. 2. 3. 4.
La lemmatisation ...................................... 20 Lancer la lemmatisation ........................... 22 Analyser un texte lemmatisé ................... 24 Modifier le corpus .................................... 26
La statistique lexicale ........................ ........... ............... .. 29 1. 2. 3. 4. 5.
Les indicateurs lexicaux .......................... 30 Bilan lexical .............................................. .............................................. 32 Construire un tableau lexical ................... 34 Listes des mots spécifiques ..................... 36 Sélections dans un tableau lexical ou dans des listes de mots spécifiques s pécifiques ........ 38 6. L'indice de spécificité ............................... ............................... 40 7. Comparer à un lexique de référence ....... ....... 42
Analyse des données qualitatives avec le Sphinx : les fondements
3
Codification automatique des textes..................................................... 45 1. Créer de nouvelles variables d’origine lexicale...................................... 46 2. Codification lexicale ................................ 48 3. Mesures lexicales.................................... 50 4. Modification du contenu d'une variable texte ........................................... 52 5. Fractionner une variable texte ................ 54
Ouvrir un fichier de données textuelles .............................................. 57 1. Du corpus textuel à la base de données .................................................. 58 2. Ouvrir un texte à analyser ....................... 60 3. Texte balisé ............................................... 1 4. Préparer et ouvrir un fichier d'entretiens semi-directifs ......................... 3 5. Texte annoté ............................................. 5 6. Exemples de textes annotés ..................... 7 7. Macro commandes pour la préparation des textes............................... 9
Etudes de cas ....................................... 11 1. Analyse des réclamations clients – Marque Hextra ........................................ 12 2. Identification du territoire de communication d’une marque ................. 14 3. Cas « Ovale » ........................................... 1 4. Le rêve des Français................................. 2 5. Les mots qui touchent : analyse textuelle des « tubes » de la chanson française. ................................................... 2
Bibliographie .......................................... 5
4
Analyse des données qualitatives avec le Sphinx : les fondements
Sphinx V5
Analyse des données qualitatives avec le Sphinx : les fondements
5
1. Les études « quali » Les situations de recherche Les « études quali » se définissent bien souvent par opposition aux « études quanti ». On indique ainsi que les informations étudiées proviennent de sources multiples documents, écrits ou discours et qu’elles sont analysées sans recourir au calcul. Comme nous le verrons cette simplification et abusive même si elle définit assez bien les situations de recherche dans lesquelles on a recours aux approches qualitatives. Les enquêtes : recueillir des informations nouvelles.
Le qualitatif apparaît avec la présence de questions ouvertes dans les questionnaires. Celles-ci échappent aux analyses statistiques qui font l’efficacité des dépouillements classiques et sont trop souvent tout simplement oubliées au moment de l’analyse. Avec les guides d’entretien, les interviews non directives, les entretiens de groupe, la conversation remplace le questionnaire. Le recueil des informations et leur analyse deviennent bien plus difficile (il faut enregistrer, retranscrire….) et implique tout un savoir faire bien spécifique. Il s’agît là de privilégier l’écoute plutôt que le questionnement, la compréhension et l’analyse en profondeur plutôt que le dénombrement. Les documents : exploiter les informations existantes
Avant de lancer l’enquête on a bien sûr étudié la bibliographie sur le sujet et les documents qui peuvent nous renseigner. Comme le font les historiens la quête porte alors sur les traces qui renvoient au domaine étudié (documents juridiques, transactionnels, commerciaux, comptes rendus, annonces et communications de toute sorte…). L’information recueillie peut être très abondante et hétérogène et pose les mêmes difficultés de compréhension et d’analyse. L’évolution des technologies de l’information et Internet notamment, bouleverse l’accès aux données que nous venons d’évoquer. Les enquêtes via le web simplifient considérablement la collecte des réponses aux questions ouvertes, les interviews par mail ou par dialogue électronique (chat) offrent de nouvelles opportunités… 6
Les bases de données bibliographiques, les moteurs de recherches permettent au chercheur de récupérer très facilement références et publications. En généralisant le format numérique les outils de traitement de texte rendent potentiellement accessibles toutes sortes de fichiers et archives électroniques. Ces évolutions mettent à disposition du chercheur un matériau considérable et posent de nouveau problèmes : comment traiter des informations dont l’abondance peut très vite décourager et dont la complexité pose des problèmes spécifiques pour lesquelles la statistique n’offre pas de réponse immédiate.
Les méthodes Ceci nous conduit à une autre caractéristique des études « quali ». Le terme renvoie à l’approche traditionnelle des textes par lecture et annotation sans autres instruments que le stylo le papier dans la tradition des études littéraire et de la critique. Le travail du chercheur consiste à rendre compte des textes étudiés en citant des extraits et en produisant un nouveau texte compréhensif et démonstratif dont, pour faire bref, la qualité ne tient qu’au talent de lecteur et d’écrivain du chercheur. Avec l’analyse de contenu ou analyse thématique, le classeur et le stylo de couleur s’ajoutent à la panoplie des instruments de recherche. Le travail de lecture devient plus systématique, le système de compréhension s’explicite en une grille qui guide le classement des citations et le repérage par couleurs ou annotations des passages du texte. Cet effort de méthode débouche naturellement sur le dénombrement des thèmes, si on admet que la répétition ou la fréquence peuvent également faire sens et que l’argument du décompte renforce la démonstration. L’appellation « quali » évoque ainsi le travail artisanal prudemment démarqué des méthodes scientifiques et de la statistique, mais l’approche des textes a aussi de tout temps été marquée par la fascination pour le chiffre ou le recours au comptage. Dans la tradition de la kabbale, de l’ exégèse et dans le travail des moines copistes les chiffres et les nombres guident vers les significations cachées ou permettent de contrôler l’exactitude des manuscrits. Des études sur la bible aux concordances de Saint Augustin le texte analysé est mis en fragments puis en cartes perforées… Les premières analyses par ordinateurs ont été effectuées en
1945 par IBM qui pour reconstituer les concordances de Saint Augustin.
étude de documents, ces corpus ont en commun d’être essentiellement formés de données textuelles.
Devenu donnée textuelle, le texte échappe à la tradition « quali » et se trouve aussi concerné par les problématiques « quanti » comme l’ont montrés des travaux sur l’étude de l’attribution des œuvres littéraires et l’usage déjà très ancien des techniques informatique par les services de renseignements…
Elles ont la complexité et l’ambiguïté de la langue. Leur sens n’est pas fixé a priori comme c’est le cas pour les données quanti pour lesquelles les unités de mesures (variables numériques) et les états observés (variables nominales) sont fixés par un accord tacite de compréhension entre le répondant et l’enquêteur. La signification des données textuelles est à découvrir dans le sens des mots des phrases et de l’organisation du discours. Chacun de ces niveaux (lexique, syntaxe, rhétorique) apporte une contribution au sens dégagé par la lecture.
En banalisant ces méthodes et en les rendant accessibles, les évolutions technologiques ajoutent l’ordinateur, le moteur de recherche et le logiciel d’analyse de données textuelle à la boite à outil du chercheur.
La spécificité des données textuelles et les voies d’analyse assistée par ordinateur. Réponses aux questions ouvertes dans les enquêtes, interviews ou entretiens de groupe, revue bibliographique,
Sphinx V5
Cette propriété justifie la méfiance de ceux qui pensent qu’on ne peut pas faire l’économie d’une lecture humaine et qu’une machine ne peut pas comprendre un texte. Toutefois sans pour autant souscrire à la prétention des tenants de l’intelligence artificielle nous pouvons accepter que l’ordinateur et sa puissance de calcul apportent une aide pour l’approche des corpus textuels et notamment lorsque ceux-ci sont de très grande taille.
Analyse des données qualitatives avec le Sphinx : les fondements
7
Nous montrerons dans ce qui suit que l’ordinateur peut être utilisé comme un auxiliaire pour rendre plus systématique les approches classiques et augmenter la productivité du chercheur et la qualité de ses résultats. - En effet, les fonctions de recherche peuvent considérablement accélérer le travail traditionnel nécessité par l’usage de la citation ou la production de verbatim - Pour l’analyse de contenu, la construction d’une grille thématique et la codification du corpus peuvent se faire en utilisant les ressources de l’informatique. Le travail de conception devient ainsi plus explicite et rigoureux et on gagne en souplesse et productivité pour la lecture et la codification Mais il peut aussi être mis en œuvre d’une manière beaucoup plus automatique en fournissant, à partir du repérage des formes graphiques qui composent le texte, des indications sur son contenu. - L’analyse de contenu peut ainsi être automatisée en construisant les listes de mots ou dictionnaires correspondant aux différentes catégories de la grille thématique. La fréquence avec laquelle ces éléments se trouvent dans le texte sert d’indicateurs pour mesurer la présence et l’intensité de ces catégories. On peut parler ici de sémiométrie puisque l’usage des dictionnaires permet de « mesurer » les significations ainsi repérées dans le texte - L’analyse lexicale offre une autre voie. Elle consiste, sans aucun a priori sur le texte à utiliser la redondance des données de langue et la statistique pour substituer à la lecture du texte celle d’éléments lexicaux qui en sont extraits : listes des mots les plus fréquents (mots clés), cartes visualisant la manières dont les mots se trouvent associés (zones thématiques) ou l’effets des circonstances ou des contextes (mots spécifiques) Ces approches sont particulièrement bien adaptées au traitement de très gros corpus. Plus le corpus est volumineux, plus on gagne de temps et plus les régularités et effets statistiques sont significatifs.
Outils et stratégies d’analyse Tout ceci ne peut bien sûr se faire qu’avec l’aide de logiciels adaptés. L’offre est désormais assez abondante, 2
mais quel logiciel choisir ? Tout dépend du type d’analyse envisagée et de degré de spécialisation des fonctions proposées. On peut distinguer 3 grandes classes de logiciels - Les logiciels de recherche. Ils permettent de retrouver dans le texte des passages en fonction du contenu ou du contexte et mettent en œuvre des procédures plus ou moins sophistiquées pour produire du verbatim (Lexico, WordMapper, Diction, Sphinx Lexica…) - Les logiciels d’analyse thématique et de contenu : ils aident au repérage, à la codification et à l’organisation des idées du texte, ainsi qu’à leur analyse et à leur synthèse (Nud’ist, Atlas ti, Modalisa, Sphinx Lexica…) - Les logiciels d’analyse de données textuelles : ils abordent le texte par le biais de la statistique (Spad T, Alceste, Hyperbase, Sphinx Lexica, …) Ces logiciels sont plus ou moins spécialisés sur leur fonction principale. Alceste par exemple est très spécialisé, Modalisa l’est beaucoup moins. Dans ce qui suit nous nous réfèrerons principalement à Sphinx Lexica qui est un outil très généraliste bien qu’à premier abord il semble s’adresser plus spécifiquement au traitement d’enquête. Quelque soit l’outil, le chercheur a un rôle essentiel. C’est lui qui pilote le logiciel et c’est lui qui lance sélectionne les citations et le verbatim, élabore la grille thématique lit et code le texte, c’est enfin lui, qui seul est capable d’interpréter et de donner sens aux résultats des statistiques lexicales. Pour cela il lui faudra maîtriser le passage obligé de l’acquisition des données et de l’intégration du corpus dans le logiciel et selon ces choix produire du verbatim, mener une analyse thématique de contenu, ou faire de l’analyse de données textuelles. Les techniques avec lesquelles il devra se familiariser reposent également sur une bonne connaissance des propriétés de la langue des textes et discours qu’elle permet de construire. Quelques connaissances utiles sur les propriétés de la langue, des textes et des idées….
2. L’acquisition textuelles
des
données
La première chose à faire consiste à mettre le texte sous une forme utilisable par le logiciel. Cela implique non seulement de l’avoir sous une forme numérique en le saisissant dans un traitement de texte ou en le recopiant depuis Internet par, mais aussi à le découper en distinguant les différents éléments qui le composent, bref le mettre sous la forme d’une « table de données ». Tout dépend alors des circonstances.
Les questionnaires S’il s’agît d’étudier les réponses aux questions ouvertes d’une enquête par questionnaire faite avec le logiciel, les texte est acquis au moment de la saisie des questionnaires pour le ‘enquêtes papier crayon’ ou directement entré par le répondant lorsqu’il répond à une enquête internet.
Les interviews non directives Pour les interviews non directives le travail est plus complexe car il faut d’abord «mettre l e texte dans Sphinx». La méthode la plus simple consiste à le retranscrire dans un questionnaire Sphinx composé des éléments suivants : 1- Des questions d’identité pour enregistrer le nom et les caractéristiques de l’interviewé 2- Une question pour noter le texte de la question et une autre pour le texte de la réponse Pour une interview on saisira ainsi autant d’observations que d’échange question réponse auquel il a donné lieu. Il faudra en outre pour chaque nouveau couple répéter les questions d’identité. Si les interviews ont déjà été saisies dans un traitement de texte on importe directement dans Sphinx le fichier qui les contient. Ce travail nécessite le respect des consignes suivantes : 1/ le fichier à importer doit être enregistré au format texte. Les fichiers de Word ne sont reconnus que s’ils ont été enregistrés sous se format. 2/ afin de distinguer le texte des questions et des réponses et indiquer quand on passe d’une interview à une autre, il faut ajouter des repères dans le texte. Ces repères doivent 2
respecter des règles qui permettront à l’ordinateur de les reconnaître et de les interpréter. Si seul le texte des réponses a été saisi il suffit d’ajouter en début le nom de la première interview puis celui de la deuxième et ainsi de suite pour repérer le passage d’une interview à l’autre. On appelle ces indications des jalons.
Les bases de données et l’utilisation des balises Le texte à analyser peut également provenir d’une d’une application informatique : logiciels de messagerie, banque documentaires… dans ce cas les données sont structurées par des balises : indications placées au début de chaque élément qui définissent la nature du texte consécutif. Par exemple pour une base de données bibliographique : Titre : les Misérables Auteur : Victor Hugo Editeur : Hachette Résumé : Histoire de Jean Valjean et Cosette…. Titre : les Sequestrés d’Altona Auteur : Jean Paul Sartre Editeur : Seuil Résumé :…
Analyse d’une collection de documents quelconques C’est le cas par exemple lorsque les données à analyser sont composées d’articles de presse ou d’autre sources documentaires constituant le corpus de l’étude. C’est à l’analyste d’ajouter dans le fichier texte où il a rassemblé tous ces éléments les annotations qui permettront d’indiquer qu’on passe d’un article à un autre ou d’une source à une autre. L’ordinateur pourra alors construire une table dans laquelle sera notée le nom de l’article ou de la source d’une part et le contenu d’autre part. Si les différents textes sont longs on peut en outre décider de les fragmentés paragraphes ou phrases.
Analyse de sites web ou une page de liens Le logiciel permet d’aspirer directement le contenu de sites ou de pages sélectionnées par un moteur de recherche. Cette possibilité ne permet malheureusement pas d’accéder aux contenus des sites dynamiques. Dans ce cas il faut procéder manuellement en parcourant le site et recopiant le texte dans un questionnaire conçu à cet effet.
3. Produire des extraits ou faire du verbatim Faire du verbatim (ou des citations) est la méthode la plus utilisée dans les études qualitatives. Ces citations peuvent être choisies en lisant le texte ou sélectionnées de manière systématique selon le contexte ou selon le contenu.
Verbatim par contexte Savoir qui dit quoi ou sélectionner les citations selon les circonstances ou tout autre information contenue dans les réponses aux questions fermées. Ce type de sélection peut être plus ou moins complexes : on peut n’utiliser qu’un seul critère, par exemple ce que disent les femmes ou en combiner plusieurs en s’intéressant aux femmes de moins de 30 ans et diplômées.. Dans les enquêtes de satisfaction le contexte pertinent sera plutôt tous ceux ou celles qui déclarent être insatisfaits, l’identité apparaissant comme la signature de chaque citation…
Verbatim selon le contenu Sélectionner les citations en fonction de ce qui est dit. Cette approche privilégie le contenu qui peut être repéré automatiquement par la présence dans le texte d’un ou plusieurs mots ou par un travail de codification préalable (voir analyse de contenu)
Sphinx V5
Les 2 approches par le contexte et par le contenu peuvent bien sûr être combinées pour restituer le texte par fragments relatifs aux différents angles de vue ou problématiques de l’étude.
4. Faire de l’analyse de contenu Cette méthode consiste à lire l’ensemble du corpus en repérant les thèmes ou idées qu’il contient pour ensuite produire du verbatim par thèmes et / ou mener une analyse statistique des thèmes. Les étapes du travail sont les suivantes. Illustrons-les sur le cas de l’analyse des questions ouvertes dans les questionnaires. Définir la grille des thèmes
Elle organise la description des idées susceptibles d’être présentes dans le texte. Par exemple pour analyser les réponses à la question : « Si vous gagniez au loto, que feriez vous ? » on distingue : - les actions : consommer, investir, donner… - les personnes concernées : moi, mes proches, les gens… - la tonalité de la réponse : neutre, sceptique, humour…. Ajouter au questionnaire les variables thématiques
Elles décrivent les thèmes et leurs catégories (modalités). Pour les implémenter, on va modifier le questionnaire et ajouter les questions correspondant à la grille Créer le code-book
C’est l’interface dans laquelle les idées du texte seront codées. Elle se présente comme un formulaire qui présente la réponse texte à analyser et les « questions » de la grille thématique. On peut rajouter une nouvelle variable texte pour recopier les expressions savoureuses et les retrouver plus facilement.
Analyse des données qualitatives avec le Sphinx : les fondements
3
Analyser la fréquence des thèmes et faire du verbatim
Une fois toutes les réponses lues et codées, l’analyse s’achève par l’étude statistique des thèmes et leur illustration par le verbatim qui leur correspond. Toutes les ressources statistiques sont alors disponibles pour confronter les thèmes entre eux ou les croiser avec les autres variables de l’enquête. Si la grille thématique est pertinente les résultats seront à coup sûr intéressants.
5. Analyse de données textuelles et approximation lexicale Cette approche s’impose lorsque le corpus est très volumineux. Elle permet de gagner beaucoup de temps mais requiert un savoir faire spécifique autant pour bien maîtriser les méthodes mises en œuvre que pour en interpréter les résultats.
Approcher le texte par le lexique 2
L’idée est simple : prendre connaissance du texte à partir de des mots les plus fréquemment utilisés. L’informatique et la statistique permettent de faire cela très vite quelque soit la taille du corpus. Plus il est volumineux, meilleurs sont les résultats. Il faut ensuite pouvoir se faire une idée du texte à partir d’une simple liste de mots classés par fréquences décroissantes et bien choisir cette liste. L’exemple ci-dessous donne les différents lexiques tirés de l’étude sur le rêve des français.
Les mots outils sont révélateurs de l’énonciation, ici la fréquence des je et j est vraiment remarquable. Il faut descendre plus bas pour trouver les premiers mots pleins, ou les supprimer (Lexique sans m ots outils). La lemmatisation ramène chaque mot à sa forme racine : l’infinitif des verbes, le masculin singulier des noms et adjectifs. Enfin, présenter le lexique par catégories grammaticales permet de focaliser l’attention sur les objets (substantifs), les actions (verbes) et évaluations (adjectifs). On peut enfin chercher à grouper les termes du lexique en utilisant des dictionnaires de termes équivalents pour encore réduire la variété lexicale et mieux approcher les différentes idées du texte et leur importance.
Segments répétés et cartes d’association lexicales Les lexiques donnent très rapidement un aperçu du texte analysé mais ils peuvent aussi conduire à des interprétations erronées. Il faut donc vérifier et resituer chaque mots dans son contexte en revenant au texte (verbatim) ou d’une manière plus synthétique en cherchant les segments répétés et en produisant des cartes d’associations lexicales.
Les « segments répétés » (séquences de mots répétés à l’identique) renvoient les rigidités du texte, les formules toutes faites ou la langue de bois. Il permettent aussi de soulever bien des ambiguïtés (arrêter de travailler) et révèlent les leitmotivs du corpus.
Les cartes d’association lexicales D'une manière moins rigide que les segments répétés la statistique des associations lexicales (via l’analyse factorielle des correspondances multiples) donne une idée de la propension à associer les mots les uns aux autres ou au contraire à ne pas les faire coexister dans une même expression. Ainsi, la carte ci dessous laisse apparaître dans les constellations proches ou distinctes les réseaux sémantiques, modèles cognitifs ou configurations mentales qui dans leur répétition structurent le discours. Ici on peut opposer les évocations généreuses à droite, à celles de l'utilitarisme à gauche.... La lecture de ces cartes conduit à identifier les thématiques du corpus. Elles ont l'avantage d'être produites sans biais cognitifs et de réduire très significativement la masse d'information qui devient ainsi partageable.... et discutable.
Influence des contextes : bilans lexicaux, tableaux croisés et vocabulaires spécifiques
listes peuvent être cartographiées pour mettre en évidence des zones de langages. Les jeunes se distinguent par un vocabulaire utilitariste (voiture, appartement, meuble) à la différence des plus âgés qui privilégient l’aide et le don….
Intensités lexicales et lexicométrie On peut aussi orienter la recherche par rapport à ce qu’on pense trouver. Comme on le ferait en lisant tout le texte pour repérer les idées qui s’y trouvent on confie cette tâche à l’ordinateur. Pour cela on dresse des listes de termes exprimant les idées que l’on cherche à repérer. Ces listes appelées dictionnaire permettent de calculer le nombre de fois où l’un des termes se trouve dans la réponse analysée. L’intensité lexicale est calculée comme le rapport entre ce nombre et le nombre total de mots de la réponse. Le poids de l’idée correspondante est « mesuré » par se rapport ou intensité lexicale. Cet usage de données lexicales pour mesurer l’importance d’une idée permet de parler de lexicométrie. Ainsi, à partir d’une expression libre on mesure l’importance des éléments du modèle pour ensuite poursuivre les analyses comme si ces mesures étaient établies en recueillant des opinions sur des échelles.
Comment ont répondu les différentes catégories de personnes interrogées ? C’est ce que permet d’établir un bilan lexical du type de celui-ci :
Le calcul des intensités lexicales permet de mettre en évidence les différences de réaction selon la catégorie de français.
Le corpus est à 56% formé de réponses de femmes soit 9 857 mots sur un total de 17 743. Leurs réponses sont en moyennes plus longues que celle des hommes, mais la catégorie la plus prolixe est les commerçants artisan.
Comment procéder dans la partie classique de Sphinx ?
Les mots utilisés sont ils les mêmes suivant l’identité de celui qui parle, les circonstances ou toute autre information qui situe le texte analysé ? On peut le savoir en croisant par exemple les réponses à une question fermée avec les mots les plus couramment utilisés. Les femmes sont proportionnellement plus nombreuses à utiliser « donner », les hommes se distinguent par l’usage de « travailler » et « investir »… Plus directement on peut sélectionner la liste des mots sur représentés dans telle ou telle catégorie et obtenir ainsi les mots spécifiques qui les caractérisent. Ces 2
Lemmatiser : Panneau de commande : Créer les variables lexicale ou dans l’Atelier Bouton Lemmatiser. Calculer les lexiques : Panneau de commande ou dans l’atelier bouton Réduire Regrouper Supprimer pour agir sur les mots marqués dans le lexique. Segments répétés : Panneau de commande, ou dans l’atelier article Expression du menu Lexique puis bouton Segments Cartes d’associations lexicales. Dans l’atelier : 1/ Sélectionner les mots à considérés dans la fenêtre du lexique
2/ Créer une variable codant la présence de ces mots : Recoder, Fermé sur les mots marqués du lexique. Nommer la nouvelle variable 3/ Lancer l’analyse factorielle des correspondances multiples à partir de la variable qui vient d’être crée : Menu Approfondir (menus déroulants du haut de l’écran), Analyse factorielle des correspondances multiples. 4/ Pour construire une typologie des thèmes : bouton Typologie et définir interactivement les classes Bilan lexicaux : Panneau de commande, Bilan par catégories ou tableau de bord en croisant une variable texte avec l’option de calcul Nombre de mots avec une autre variable fermée. Choisir les indicateurs (moyenne, somme, part…) dans l’onglet Tableau . Tableaux croisés lexicaux : Panneau de commande ou atelier lexical menu Vues, article Tableau lexical. Bouton Croiser pour sélectionner la variable à croiser avec le texte. Mots spécifiques : Panneau de commande ou dans l’atelier 1/ calculer la liste article Mots spécifiques du menu Vue puis bouton Croiser pour choisir la variable et Select. Pour fixer les seuils de spécificités et de fréquence. 2/ produire la liste des réponses caractéristiques de chaque catégorie (verbatim des réponses contenant le plus de mots spécifiques) : bouton Réponses caractéristiques. Intensités lexicales. La définition des dictionnaires peut se faire dans un traitement de texte ou en sélectionnant les mots dans l’atelier lexical. La procédure la plus rapide consiste à utiliser une thématique (ensemble de dictionnaires correspondant chacun à un thème) : atelier lexical, bouton Recoder et Analyse thématique. Sélectionner les fichiers des dictionnaires ou ouvrir une thématique existante puis Recoder. Pour chaque dictionnaire de la thématique une variable numérique contenant l’intensité lexicale de la réponse ou du fragment est crée. Ces variables peuvent être utilisées pour créer une typologie : Menu Approfondir, Classification automatique.
Sphinx V5
Comment procéder dans les tableau de bord multimédia ?
La lemmatisation et la définition des variables d’origine lexicales dont le calcul des intensités lexicale et le calcul des doivent se faire dans la partie classique et l’atelier lexical. Il en également ainsi pour le calcul de mots spécifiques. Calcul des lexiques : Choisir l’option Mise en classe des mots dans l’onglet Calcul. Le bouton Dictionnaire permet de supprimer les mots outils et, ou de restreindre le lexique à une liste ou au contenu d’un dictionnaire. Dans le même onglet les articles du menu Simplifier permettent de contrôler la longueur de la liste en fixant le nombre de lignes ou la fréquence minimum. Tableau croisés et cartes lexicales. Une variable texte présentée comme un lexique (mise en classes des mots) peut être croisée avec n’importe quelle autre variable avec la possibilité d’utiliser des représentations cartographiées des tableaux croisés ainsi obtenus (Carte dans onglet Graphique ou raccourcis montrer la carte ). Ceci permet notamment de caractériser les réponses selon les différentes catégories de répondant. Dans le tableau de groupe ci-dessus caractérisant les réponses par sexe et CSP, la variable texte et calculée selon l’option Nombre de mots de l’onglet Calcul et dans l’onglet Tableau, moyenne somme et effectif ont été sélectionnés.
6. Privilégier une approche ou les combiner ? Les approches que nous venons d’évoquer sont très différentes. Le verbatim est de loin la pratique la plus courante et la plus simple à mettre en œuvre. L’analyse de contenu par recodification présente l’avantage de reposer sur une thématique qui en ellemême est déjà une contribution à la compréhension du texte. La codification permet de préciser avec la rigueur de la statistique comment cette thématique s’applique et de mettre en évidence les interdépendances entre thèmes et de rechercher des explications contextuelles.
Analyse des données qualitatives avec le Sphinx : les fondements
3
D’autre par le vebatim associé à chaque catégorie de codification permet d’illustrer de manière concrète les idées générales et peut être d’en affecter la compréhension en leur donnant plus de vigueur ou de pertinence. Cependant ces 2 méthodes souffrent également de la subjectivité qui fatalement accompagne leur mise en œuvre dans le choix final de telle ou telle citation et dans la décision de coder de telle ou telle manière. L’usage des outils informatiques et statistiques permet de mieux contrôler ces biais subjectifs grâce à la formalisation et aux possibilités de recoupement. Enfin malgré ses nombreux avantages l’analyse de contenu est très consommatrice de temps et de ce fait très coûteuse pour l’analyse des gros corpus. L’analyse des données textuelle offre une voie bien différente et beaucoup plus technique. Elle présente l’avantage d’une réelle objectivité dans la production de substituts lexicaux (listes, cartes…). Bien que la subjectivité intervienne à nouveau au moment de la lecture et de l’interprétation elle bénéficie ainsi d’un crédit de scientificité que les autres approches n’ont pas. D’autre part, en détournant le regard du sens de surface vers l’interprétation des actes de langage (tout ce que le choix des mots révèle dans les répétitions ou les absences) ce procédé crée les conditions d’une distance critique et créatrice. Au risque bien sûr d’importants contre sens dont il faut se prémunir par des précautions élémentaires. - ces méthodes ne sont applicables que sur de très gros corpus, là ou les grands nombre et la statistique peuvent légitiment faire sens - un patient retour au texte reste absolument indispensable pour contrôler les interprétations rapidement acquises par ces techniques. A nouveau le verbatim s’impose - enfin certains aspects des contenus sont très difficiles à appréhender notamment pour tout ce qui concerne les évaluations ou les jugements. Il est facile de voir qu’il est question de travail ou de prix mais beaucoup plus difficile d’établir si le travail ou les prix sont évoqués positivement ou négativement. Les formes lexicales de l’évaluation et du jugement sont en effet très variées et complexes à appréhender… (pas trop, trop, trop peu ….). L’analyse lexicale doit être déconseillée pour traiter les réponses ouvertes dans des enquêtes sur un petit nombre de répondants (moins de 200). L’analyse de 4
contenu prendra moins de temps et les résultats en seront à coup sûr probants. Il est en revanche des situations où seule, compte tenu du temps ou des budgets disponible, l’analyse des données textuelles est envisageable. C’était par le exemple le cas pour l’analyse des 45000 pages du débat national sur l’avenir de l’école. Mais le plus souvent ces méthodes gagent à être mises en œuvre de manière complémentaire. Dans un premier temps l’analyse lexicale utilisée de manière exploratoire permet de rapidement prendre connaissance du corpus et dans les cas heureux de faire jaillir des pistes d’interprétation qu’on n’aurait peut être jamais empruntées autrement. C’est ainsi que la thématique émergente du texte peut être complétée par les problématiques, modèles et systèmes d’interprétation généraux qui permettront de construire ensuite une grille thématique plus pertinente. Enfin le travail méthodique d’analyse de contenu et de codage permettra si le corpus n’est pas trop volumineux de rigoureusement catégoriser les idées présentent dans le texte. Sinon il faudra lire le lexique pour le ventiler dans les dictionnaires qui permettront, par le calcul des intensités lexicales, d’automatiser le codage des idées présentes dans le texte. Enfin, après l’exposé des résultats statistiques, le texte reprendra ses droits grâce aux citations et verabtim qui ajouteront aux chiffres, le pouvoir du sens singulier des phrases ou des paroles.
Le traitement simple des questions textes
Sphinx V5
Le traitement simple des questions textes
5
1. Etudier les textes Le Sphinx permet d’analyser les textes des questions ouvertes. Lexica ajoute à cette possibilité celle d’ouvrir n’importe quel autre texte en offrant un stade supplémentaire Etudier des Textes (menu Stade ). Intéressons-nous ici au traitement des questions ouvertes. Il peut faire l’objet de 4 approches différentes : • Le verbatim : extraire un sous-ensemble de réponses en fonction de leur contenu ou de leur contexte. • La présentation en tableau : dresser un tableau de fréquence des réponses identiques et/ou des mots contenus dans les réponses en les croisant éventuellement avec une autre variable fermée. • L’analyse de contenu : lire et interpréter les réponses pour les codifier dans une nouvelle variable. • L’analyse lexicale : mettre en œuvre les techniques d’analyse lexicale dans l’environnement spécifique de l’atelier lexical (Plus² et Lexica uniquement) ou en lançant les procédures standards de Lexica. Ces possibilités sont offertes à partir de l’article Etudier les textes du menu Recoder ou en cliquant sur le bouton Etudier les textes apparaissant au bas de la fenêtre de dépouillement des questions textes (Dépouiller / Dépouillement automatique ).
Verbatim Cette fonction permet de sélectionner des extraits en fonction de leur contexte (selon les réponses à une autre variable) ou de leur contenu (vocabulaire de la réponse). Ces extraits peuvent être présentés sous forme de liste organisée par catégories de réponses. L’inclusion de ces extraits dans un rapport permet de rendre compte de l’enquête par une illustration raisonnée.
Tableaux de réponses On peut présenter les réponses dans des tableaux. Cette présentation est bien adaptée dans le cas de réponses très répétitives qu’on pourra croiser avec d’autres variables caractérisant les répondants. On peut également dresser le tableau des mots présents dans les réponses et ainsi opérer une recodification automatique en fonction du vocabulaire. 6
Analyse de contenu Dans cet environnement, on lit les réponses et on code leur contenu dans une nouvelle variable décrivant les principaux thèmes évoqués dans les réponses. Cette thématique peut être enrichie en cours de lecture par l’ajout de nouvelles modalités. Ce travail est facilité par la possibilité de voir les réponses selon les mots qu’elles contiennent.
Procédure et atelier lexical Plus² et Lexica donnent accès à un environnement spécifique aux fonctions avancées d’analyse lexicale.
Analyse de contenu : lire et interpréter
Tableau de réponses et de mots : dénombrer, recoder, croiser
Sphinx V5
Verbatim : citer, extraire, illustrer
Le traitement simple des questions textes
7
Contrôler les résultats et les éditer
2. Faire du verbatim La manière la plus simple de traiter les questions ouvertes consiste à restituer les réponses dans leur intégralité ou d'une manière raisonnée en opérant des sélections par rapport au contexte ou au contenu. On pourra produire des listes de réponses : • classées selon l'identité des répondants ; • restreintes à tel ou tel profil (les satisfaits, les mécontents...) ; • contenant tel ou tel mot. Les étapes consistent à choisir la variable, à définir les conditions de l'extraction, et à transférer les citations ainsi obtenues.
Sélectionner une variable texte Allez pour cela dans la fonction Etudier les textes du menu Recoder . Choisissez votre variable. En sélectionnant ensuite Extraits (Verbatim) , vous obtenez un dialogue dans lequel vous pouvez fixer les conditions de recherche et de présentation des extraits. •
Présenter les extraits en les classant La case à cocher Trier selon permet de choisir la variable par rapport à laquelle on veut classer les citations. Dans l’exemple proposé ci-contre, on a choisi le Sexe. Les réponses des hommes seront d’abord présentées, puis ce sont celles des femmes.
Définir un profil de recherche En cochant la case Réduire à un profil , on peut fixer les conditions auxquelles doivent répondre les extraits. En définissant une sélection selon une ou plusieurs autres variables, on limite les extraits à des conditions de contexte (identité, comportement, opinion...). On peut également filtrer selon le contenu. On définit dans le profil la condition que la variable analysée contienne tel ou tel mot. On peut en énumérer plusieurs. Ci-contre, on cherche les réponses contenant le mot amis (Plaisir de manger = amis ).
8
Les résultats de la recherche s'affichent dans une fenêtre. Le bouton Options permet si nécessaire de changer les conditions. Avec le bouton Transférer , on peut Imprimer ou Inclure dans le rapport...
Produire des listes L'article Produire des listes du menu Dépouiller offre une autre manière de faire du verbatim, mais dans cet environnement, on peut mettre dans les extraits le contenu de plusieurs variables en les présentant sous des formats listes ou fiches (Voir Produire des listes).
Faire du Verbatim
Présenter les réponses en les classant Sélectionner les réponses en les limitant à un profil
Sélectionner selon le contexte Sélectionner selon le contenu
Imprimer ou inclure dans le rapport
Sphinx V5
Le traitement simple des questions textes
9
Recoder une variable texte
3. Tableau de réponses ouvertes La manière la plus simple et la plus rapide d’étudier une question ouverte est d’en dresser la liste en regroupant les réponses identiques ou en dénombrant les mots qu’elle contient. On obtient des tableaux de ce type à partir de Recoder / Etudier les textes ou en sélectionnant une question ouverte dans le menu Analyser / Tableau à plat . Dans le panneau lexical (Lexica uniquement), on accède aussi à ce type de tableau par le bouton Tableau de fragments.
Tableau des réponses et tableau des mots Le tableau dresse la liste des réponses en affichant les effectifs et les pourcentages de chaque élément. Les boutons Mots et Réponses permettent de passer de la liste des mots à celle des réponses. Dans la liste des réponses, seules les réponses identiques sont dénombrées. Dans la liste des mots, on décompte le 1 nombre de fois où chaque mot apparaît. Les mots outils sont systématiquement ignorés. Ces tableaux peuvent être imprimés, copiés ou inclus dans un rapport (bouton Transférer ) de façon intégrale ou seulement pour les lignes sélectionnées (clic ). Le bouton Ordonner permet de changer la présentation des lignes du tableau. Caractériser donne le détail des effectifs composant chaque ligne. Il est particulièrement intéressant dans le cas des listes de mots.
Analyser selon le contexte Le bouton Croiser permet d’étudier les réponses aux questions ouvertes selon leur contexte : qui dit quoi ? Il suffit de choisir la variable selon laquelle on veut ventiler les réponses ou le vocabulaire. On revient à la liste non ventilée en décochant la case Croiser le tableau avec la variable accessible dans le bouton Croiser.
1
Ces mots sont définis par le dictionnaire des mots outils présent dans le répertoire dictionnaires « motoutils.dic ».
10
On peut créer une nouvelle variable définie à partir des éléments sélectionnés dans la liste des mots. Le bouton Recoder propose les choix suivants pour la nouvelle variable : • Fermée : les modalités de la nouvelle variable indiquent la présence ou l’absence des mots sélectionnés dans la réponse. • Ouverte numérique : la nouvelle variable enregistre le nombre de mots sélectionnés dans la réponse. Elle les dénombre tous si aucun n’est sélectionné. On obtient alors la longueur de la réponse (sans les mots outils). C’est un indicateur très utile. • Ouverte texte : la nouvelle variable est une variable texte dont les éléments sont réduits aux mots sélectionnés dans la liste. On fabrique ainsi des textes expurgés ou réduits à des séquences remarquables.
Analyser un tableau de textes Le bouton Analyser renvoie à l’environnement d’analyse des tableaux à plat ou croisés. On accède ainsi aux fonctions graphiques et statistiques classiques. On revient avec le bouton Liste .
Produire la liste des réponses
Produire la liste des mots
Croiser
Sélectionner
Analyser
Recoder
Sphinx V5
Le traitement simple des questions textes
11
La codification
4. Analyse de contenu simple, en cours de lecture L’analyse de contenu est un travail long qui peut être fastidieux. L’environnement de travail proposé permet de le rendre plus facile et plus rapide. Les thèmes peuvent être enrichis en cours d’analyse par l’ajout de modalités, par la possibilité de passer d’une réponse à l’autre en fonction de son contenu (navigation lexicale), et par l’affichage du contenu d’autres questions pour améliorer la qualité de la lecture.
Reprendre un travail en cours ou créer une nouvelle variable Après avoir sélectionné Analyse de contenu dans l’article Etudier les textes du menu Recoder , on choisit de reprendre un travail en cours en sélectionnant la variable dans laquelle on a commencé la codification. Si vous commencez votre recodage, il faut définir la variable dans laquelle vous souhaitez coder le contenu : une variable dont vous choisissez le type. Il s’agit le plus souvent d’une variable fermée dont les modalités se rapportent aux thèmes les plus fréquents, mais elle peut être aussi codée si on dispose d’un thésaurus ou d’un dictionnaire de thèmes, ou de type numérique pour donner une note à la réponse.
Elaborer la grille thématique et coder les réponses Dans le cas de la codification dans une variable fermée, le bouton Changer les modalités permet de modifier la liste des thèmes en nommant les modalités, en créant de nouveaux thèmes ou en réorganisant leur liste (Ajouter , Supprimer , Monter , Descendre dans la liste des modalités), et ceci à tout moment. Si on dispose d’une thématique déjà définie et très longue, on a tout intérêt à la rentrer dans un dictionnaire de codes éventuellement structuré. En associant cette liste à une variable code, on gagnera beaucoup de temps.
12
On code le contenu de la réponse en cours d’analyse en cochant la case correspondante ou en sélectionnant une ou plusieurs modalités dans la liste déroulante. Si vous avez plus de 10 modalités, les boutons Listes et Boutons vous permettent de choisir le mode d’affichage qui vous convient le mieux. Le passage à la réponse suivante (flèches de navigation ou retour chariot) valide les réponses préalablement recodées. Le bouton Revenir vous ramène à l’état initial de la variable (avant validation de la dernière réponse).
Lexique et navigation lexicale Vous pouvez faire apparaître la liste de tous les mots (lexique) contenus dans la variable analysée en déplaçant la séparation des deux parties de votre écran sur la droite. En sélectionnant un ou plusieurs mots dans cette liste, vous pourrez, avec les flèches de navigation, passer en revue les réponses contenant ces mots. Si vous cherchez un mot particulier, tapez-le rapidement au clavier, le curseur du lexique se positionnera dessus. Vous pouvez également limiter la navigation à certains types de réponses en définissant leur profil (vous accédez à ce dialogue avec le bouton N° situé en bas à gauche de la fenêtre d’analyse de contenu).
Reprendre un travail en cours Créer une nouvelle variable
Tirer pour agrandir ou réduire la fenêtre
Illustrer par une autre variable Tirer pour cacher ou montrer le lexique
Réponses en liste
Sphinx V5
Naviguer entre des réponses
Le traitement simple des questions textes
13
5. Analyse de contenu avec codebook Celle-ci doit s’effectuer dans l’environnement multimédia du Sphinx. Il s’agit de créer plusieurs questions pour recoder les réponses sur plusieurs dimensions : le thème, le sous-thème, la tonalité, les acteurs évoqués par exemple… On peut également prévoir une nouvelle question texte pour y recopier les "perles" ou les réponses particulièrement intéressantes. On commence par la création de nouvelles questions dans l’élaboration du questionnaire. On prépare ensuite un environnement personnalisé d’analyse de contenu dans les formulaires multimédia. L’analyse de contenu s’effectue depuis le menu Consulter/Modifier de l'environnement multimédia.
14
Sphinx V5
Le traitement simple des questions textes
15
L'analyse lexicale en bref
2
Le panneau de commandes lexicales
1. Les interfaces Pour aller plus loin dans l’analyse lexicale, Plus² et Lexica donnent accès à un environnement spécifique : l’atelier lexical (Etudier les textes / Atelier lexical / Panneau de commandes ). Celui-ci permet de : • Calculer différentes formes de lexiques (réduits, regroupés par racine, relatifs à un dictionnaire….) ; • Sélectionner des mots pour retrouver toutes les réponses qui les contiennent, produire des extraits ou des associations de termes ; • Repérer les expressions du texte et les segments répétés ; • Produire des tableaux lexicaux, des listes de mots spécifiques (relatifs aux modalités d’une autre variable), et des réponses caractéristiques ; • Transformer une variable texte en produisant un nouveau texte expurgé, fragmenté ou lemmatisé ; • Coder automatiquement le texte en fonction de son contenu lexical.
L’étude des textes fait l’objet de procédures mettant en œuvre des commandes complexes qui ont été en partie automatisées et que l’on peut ainsi directement exécuter sans passer par l’atelier lexical : • la production de différentes formes de lexiques 2 3 (réduits, lemmatisés , stemmatisés selon la forme grammaticale), la recherche d’associations lexicales (segments répétés, lexiques relatifs, cooccurrences…). • la mise en évidence des effets de contexte (indicateurs d’énonciation, tableaux lexicaux, listes de mots spécifiques, réponses caractéristiques…). Enfin, ce panneau permet d’ouvrir n’importe quel texte présent sous forme de fichier texte.
Toutes ces fonctions dotent le Sphinx Lexica d’un très puissant outil d’analyse. Pour en simplifier l’usage, quelques procédures standards ont été isolées. On peut les lancer à partir du panneau lexical disponible à partir du stade Etudier des Textes ou à partir de la fonction Etudier les textes . On obtient ainsi directement les résultats attendus sans avoir à en spécifier la procédure dans l’atelier lexical. Néanmoins, celui-ci sera très utile pour affiner les résultats et réaliser les opérations plus complexes qu’il autorise.
L’atelier lexical Cet écran est composé de 4 grandes parties : • A droite : une fenêtre présente différentes vues du corpus ; • A gauche : on peut voir le lexique des mots ou des expressions. En cliquant dans le lexique, on fait défiler les contenus correspondants dans la fenêtre de droite (navigation lexicale). • Le bandeau du haut contient un ensemble de boutons de commande contrôlant le calcul et la présentation du lexique, la mise en forme du corpus, sa présentation, et sa codification dans de nouvelles variables. • Les indications du bas de l’écran donnent des statistiques générales sur le texte étudié. Sphinx V5
2
chaque forme est ramenée à sa racine grammaticale (infinitif, singulier…) 3 chaque forme est ramenée à ses x premiers caractères
L'analyse lexicale en bref
3
4
2. Du texte aux formes graphiques - l’approximation lexicale L’analyse lexicale ignore la syntaxe de la phrase et donne la priorité aux mots. L’informatique permet en effet très facilement de dresser la liste des formes graphiques contenues dans un texte et d’en faire la statistique. C’est ce qu’on appelle extraire le lexique du texte. Une forme graphique est une suite de caractères ne comportant pas de séparateurs (blanc, apostrophe, caractères de ponctuation). Dans ce qui suit, on utilisera l’appellation mot, en l’appliquant en fait à la réalité d’une forme graphique. En assimilant ainsi les mots aux formes graphiques, on peut donner une approximation utile du contenu du texte par le seul examen des formes les plus fréquentes. Comme on le fait en survolant le lexique d’un livre pour avoir une idée de son contenu. Cette assimilation peut être trompeuse du fait des polysémies (la forme «avions» dans la phrase «Nous avions de beaux avions») et des significations composées (pas mal = bien). L’analyse lexicale repose ainsi sur une approximation, source d’erreurs, qu’on cherche à compenser par : • Un retour aisé au texte grâce à la navigation lexicale qui permet de situer le mot dans son contexte. La phrase est le contexte le plus naturel et nous verrons plus loin comment jouer sur l’étendue de ce contexte. • La recherche des segments répétés pour restituer les locutions et les expressions répétées dont chaque élément pris isolément peut induire un contre sens comme par exemple le trop de trop cher , le beau de pas beau... • Une intelligence artificielle du texte consistant, par le procédé de l’analyse syntaxique automatique, à soulever l’ambiguïté des formes graphiques. Dans l’exemple cidessus, en repérant la fonction de verbe de la première forme avions , on distingue les significations avoir et aéroplane. C’est ce qu’on appelle la lemmatisation. A l’inverse, les synonymes (mots différents ayant la même signification) ou les mots composés, peuvent être gérés par des dictionnaires de mots équivalents ou d’expressions.
En combinant ces différentes fonctions, le Sphinx autorise une approche rapide des textes : • Calcul du lexique pour comprimer le texte ; • Navigation lexicale pour revenir au texte ; • Dictionnaires, segments répétés, et lemmatisation pour une intelligence du texte. On peut ainsi réduire l’effort de lecture en produisant un matériau moins volumineux que le texte initial. Mais ce n’est là qu’une manière d’approcher son contenu. On y trouvera un gain de temps qui peut être considérable et une prise de distance que la lecture naturelle interdit.
Corpus texte
L’approximation lexicale sommaire : Réduire le texte au début du lexique : l’examen des mots les plus fréquents donne une idée du contenu.
Lexique
Calculer le lexique
Corpus texte
Interpreter
L’approximation lexicale contrôlée : Réduire le texte à son lexique et contrôler par la navigation lexicale le bien fondé des interprétations faites à partir du lexique.
Navigation lexicale
Verbatim
Lexique
L’approximation lexicale sélective : Travailler sur un lexique réduit après avoir éliminé les mots outils et solidarisé les segments. Concentrer l’attention sur l’examen des noms, verbes, adjectifs (utilisation de dictionnaires et de la lemmatisation).
Corpus texte
Lemmatisation
Sélectionner
Segments répétés
Corpus texte lemmatisé et solidarisé
Dictionnaire
Navigation lexicale
Verbatim
Lexique réduit et structuré
2
Nouvelle vision du texte
Intégration de l'analyse de données
3. Du texte aux structures linguistiques : la statistique lexicale La statistique lexicale et l’analyse des données textuelles permettent d’aller plus loin que la simple approximation déduite de l’examen du lexique ou de ses dérivés.
Appliquer les méthodes de l’analyse multivariée sur des variables d’origine lexicale considérées entre elles ou en relation avec d’autres variables de contexte. En intégrant ainsi l’analyse de données classiques avec l’analyse des données textuelles, on peut mettre à jour les structures internes des textes étudiés (analyse des co-occurrences) ou leur dépendance par rapport à des données de contexte (analyse des spécificités).
En dénombrant les associations de termes entre eux ou avec d’autres variables, on est conduit à un autre type de «lecture» totalement objective et susceptible de révéler les structures que la quantification du texte peut mettre à jour. On peut ainsi transformer le texte en le décrivant par des variables statistiques classiques (codification automatique, mesures lexicales...) ou en le recomposant sous forme de nouveaux textes (textes expurgés, réduits à leurs formes lemmatisées...). L’atelier lexical offre à cet égard de nombreuses possibilités pour mettre à jour les particularités lexicales des textes étudiés et prolonger leur analyse en utilisant toutes les techniques d’analyse de données du Sphinx.
Recherche des spécificités lexicales Etablir la statistique des mots du texte selon une variable externe non textuelle. Rechercher les spécificités lexicales selon ces contextes, et les visualiser sous forme de cartes cognitives. Produire les phrases les plus caractéristiques de chaque contexte.
Codification et mesures lexicales Décrire le texte par une ou plusieurs variables nominales codant la présence, dans les réponses, d’un ensemble de mots sélectionnés dans le lexique. Cette codification peut être enrichie de toutes les possibilités offertes par l’usage de dictionnaires thématiques, la lemmatisation, la recherche des segments répétés… Caractériser l’énonciation (longueurs de réponses, de phrases, fréquence d’usage des embrayeurs...) ou les énoncés (intensités lexicales de termes ou champs sémantiques...) en créant de nouvelles variables numériques pondérant, pour chaque fragment, l’importance de tel ou tel trait linguistique ou sémantique...
Sphinx V5
L'analyse lexicale en bref
3
Corpus texte
Segments répétés
Lemmatisation
Variable de contexte
Corpus texte lemmatisé et solidarisé Navigation lexicale
Dictionnaire
Lexique réduit et structuré
Mettre à jour les structures linguistiques
Listes demots spécifiques
Tableau lexical
Structures Stat. Phrases caractéristiques
Corpus texte
Lemmatisation
Variable de contexte
Segments répétés
Corpus texte lemmatisé et solidarisé
Dictionnaire
Intégrer les méthodes
Navigation lexicale
Verbatim
Lexique réduit et structuré Variables fermées sur les mots du lexique
Mesures lexicales : intensités banalités
Structures Stat.
4
Statistiques lexicales
4. L’atelier lexical en bref On accède à l’atelier lexical à partir du panneau lexical ou par l’article Etudier des textes du menu Recoder . Cet écran concentre l’ensemble des outils proposés par le Sphinx. Il permet d’effectuer 4 grands types de tâches appliquées au corpus de la variable sélectionnée : produire des lexiques, naviguer entre le lexique et le corpus, établir des statistiques, transformer le texte et créer de nouvelles variables.
Production de lexiques Le lexique des mots ou liste des formes graphiques s’affiche dans la fenêtre de gauche. Il dépend des caractères séparateurs retenus (bouton Apparier ). Son contenu et sa présentation sont affectés par les boutons Supprimer , Réduire , Regrouper , Compter et Classer . On peut ainsi éliminer ou regrouper des éléments et choisir l’ordre de leur présentation ainsi que les indicateurs statistiques les caractérisant (nombre d’occurrences ou nombre de réponses / fragments concernés). Le lexique des expressions (Lexica uniquement) prend la place du lexique des mots. On sélectionne pour cela Expressions dans le menu déroulant Lexique . Dans la fenêtre qui apparaît, on peut chercher les locutions et les segments répétés.
Navigation lexicale La navigation lexicale permet de faire apparaître, dans la fenêtre du corpus, les fragments de texte contenant les mots marqués dans le lexique. On passe d’un fragment à l’autre avec les flèches situées sous la fenêtre à droite. Les règles de navigation peuvent être modifiées par le menu déroulant Aller à . Un double clic dans la fenêtre du lexique fait apparaître le contexte du mot sélectionné (concordances ou lexiques relatifs). L’étendue du contexte est paramétrable avec le bouton Apparier . On revient par la touche Esc . Le bouton Marquer permet de sélectionner des éléments du lexique selon leurs propriétés, et les boutons 0 <> @ servent à annuler la sélection, à l’inverser ou à tout sélectionner. Grâce au bouton Illustrer , on fait apparaître une autre variable illustrative dans la fenêtre du corpus. Sphinx V5
Les caractéristiques statistiques du corpus du lexique et de chaque observation / fragment sont affichées sous les fenêtres correspondantes (taille, richesse, longueur moyenne, banalité, % de lecture). Avec le bouton Compter , on choisit les indicateurs statistiques du lexique. Comparer permet de le confronter à un lexique de référence. Dans le menu déroulant Vues (Lexica uniquement), les articles Bilan lexical , Tableau lexical et Mots spécifiques donnent accès aux statistiques résultant du croisement avec une autre variable.
Transformation du texte et création de nouvelles variables Les boutons Modifier et Remplacer permettent d’effectuer directement des transformations dans le texte du corpus. Avec Lemmatiser , on peut créer une nouvelle variable dans laquelle chaque mot est remplacé par sa forme racine. Recoder donne accès aux nombreuses possibilités de création de nouvelles variables : nominales, numériques, textes.
La barre d'outils Toutes les fonctions qui viennent rapidement d'être évoquées se lancent à partir de la barre d'outils. Les fonctions suivantes ne sont disponibles que dans Lexica : rechercher des expressions et des segments répétés, analyser l'environnement d'un mot, construire des bilans, des tableaux lexicaux ou des listes de mots spécifiques, lemmatiser.
Revenir à l'atelier lexical ou le quitter La touche Esc permet de revenir à l'écran principal de l'atelier ou d'en sortir.
Le panneau de commandes lexicales** Les procédures de recherche les plus courantes ont été automatisées et sont accessibles depuis le panneau de commandes lexicales. On peut ainsi rapidement établir des résultats qui seront ensuite affinés dans l'atelier.
L'analyse lexicale en bref
5
L’atelier lexical
Corpus
Lexique
Statistiques lexicales
Barre d’outils de Plus²
6
Verbes, Noms, Adjectifs
5. Le panneau lexical : produire des lexiques Une manière rapide de prendre connaissance d’un corpus consiste à dresser la liste des mots qu’il contient. La procédure Lexiques du panneau lexical permet d’aller plus loin que les tableaux de réponses ouvertes.
Formes graphiques et mots La machine peut identifier les formes graphiques composant votre texte : suite de caractères sans blanc ou signes de ponctuation. Malheureusement, un mot se présente en général sous différentes formes graphiques (singulier, pluriel, flexion des verbes…), ce qui réduit la qualité des listes construites sur le seul repérage de ces formes.
En dressant la liste des verbes, noms, adjectifs, vous désignez les actions, les objets et les évaluations du discours. Vous pouvez y ajouter la liste des noms propres et des mots grammaticaux… Cette liste est construite à partir d’une forme du texte où les statuts grammaticaux sont repérés (Nom_LC).
Poursuivre dans l’atelier lexical Vous pouvez sortir les résultats avec le bouton Transférer , mais vous pouvez aussi enrichir vos résultats dans l’atelier lexical en opérant des regroupements manuels ou des regroupements par dictionnaires (Regrouper ) sur le texte original ou sur ses formes lemmatisées (Nom_L et Nom_LC).
Pour surmonter cet inconvénient, le Sphinx peut faire une analyse syntaxique et remplacer chaque forme par son lemme (masculin singulier pour les noms et adjectifs, infinitif pour les verbes…). Vous avez également la possibilité de regrouper les mots construits sur la même racine (suite des x premières lettres). Bien qu’approximatif, ce procédé permet de regrouper dans un même item différentes formes exprimant la même idée (#famil pour famille, familier, familial…).
Sélectionner un type de lexique Cliquez sur Lexiques , un dialogue vous propose de construire la liste des formes graphiques qui composent votre texte en appliquant les options suivantes : • Ignorer les mots outils : ces mots sont pauvres pour qualifier l’énoncé mais ils peuvent être révélateurs de l’énonciation. • Ignorer les nombres. • Regrouper par racine : on indique le nombre de lettres définissant la racine. Les mots commençant ainsi seront regroupés. • Utiliser le lexique lemmatisé : le lexique est dressé à partir d’une forme lemmatisée du texte. L’analyse syntaxique est lancée automatiquement et une nouvelle variable (Nom_L) est créée. Vous pourrez alors l’utiliser à tout moment pour la suite de vos analyses. • Nombre maximum et Fréquence minimale permettent de limiter la longueur de la liste. Sphinx V5
L'analyse lexicale en bref
7
Calculer les lexiques
Lexique réduit
Lexique des racines
Lexique lemmatisé
Trouver les formes grammaticales
8
6. Le panneau lexical : segments répétés et lexiques relatifs Trouver les segments répétés On appelle Segment répété toute séquence de formes graphiques répétées à l’identique dans le texte. Ils révèlent les expressions, les formules toutes faites, la langue de bois.
Avec Lexiques relatifs , vous entrez le mot que vous voulez étudier puis sélectionnez : • Lexiques relatifs pour voir la fréquence des termes à gauche et à droite du mot recherché (mot pivot) ; • Concordance pour obtenir tous les passages contenant le mot. Les résultats de la recherche apparaissent dans une fenêtre qui vous donne accès à des options permettant d’affiner les résultats : enlever les mots outils (Réduire ), modifier la définition de l’environnement du mot (réponse, phrase, groupe) avec le bouton Apparier .
En les recherchant dans le texte lemmatisé, on fait ressortir encore plus fortement les répétitions et l es leitmotivs. En cliquant sur le bouton Segments répétés , vous avez le choix de lancer la recherche sur le texte original ou sur le texte lemmatisé (Utiliser le texte lemmatisé ), sur le texte qui contient ou non les mots outils (Ignorer les mots outils ). Vous pouvez enfin limiter la recherche aux segments d’une fréquence minimale. La liste des segments apparaît dans une fenêtre que vous pouvez imprimer ou inclure dans votre rapport (Bouton Transférer ). Vous pouvez affiner vos recherches dans l’atelier lexical (Vue Expressions , bouton Segments ). Vous pourrez ainsi limiter la recherche aux segments contenant des mots choisis par vous ou appliquer la recherche sur des formes modifiées du texte.
Les mots dans leur contexte Le lexique sort le vocabulaire de son contexte. Afin de préciser le sens des mots, vous pouvez produire la liste des phrases ou réponses dans lesquelles ils sont employés. Ces listes peuvent être longues, les lexiques relatifs donnant la fréquence des mots avec lesquels le mot étudié est utilisé. Elles font ressortir bien plus rapidement le contexte en donnant des indications très précises (fréquence d’utilisation à gauche et à droite…).
Sphinx V5
L'analyse lexicale en bref
9
Segments répétés
Lexiques relatifs et concordances
10
7. Le panneau lexical : du bilan aux réponses caractéristiques Vous pouvez apprécier l’influence des locuteurs en mettant en évidence les différences qui caractérisent leur texte. C’est l’objet des bilans lexicaux, des tableaux de caractéristiques, des listes de mots spécifiques et des réponses caractéristiques.
Bilan lexical Le bilan lexical rassemble les principaux indicateurs caractéristiques de l’énonciation : nombre de mots, longueur des fragments, richesse lexicale, spécialisation lexicale… Ces indicateurs sont calculés pour les modalités d’une variable et permettent ainsi de comparer différents locuteurs. La production du bilan est automatique : vous n’avez qu’à indiquer la variable selon laquelle vous voulez l’établir.
Tableaux lexicaux Un tableau lexical ventile l’utilisation des mots selon les modalités d’une variable de contexte. Vous avez également la possibilité de limiter la liste aux mots exclusifs, aux mots communs ou aux mots sur-représentés ou sousreprésentés dans chaque catégorie. A cet effet, choisissez dans le dialogue les mots que vous souhaitez inclure dans la liste : Inclure les mots exclusifs d’une catégorie , Inclure les mots communs à plusieurs catégories …
Choisissez d’abord une variable de contexte puis le bouton Restrictions vous permettra de fixer les conditions de recherche : se limiter aux mots exclusifs ou aux mots communs… (Inclure les mots exclusifs, Inclure les mots communs à toutes les catégories, Inclure les mots communs à certaines catégories ). Pour filtrer les mots selon leur spécificité, on coche la case Seuil de spécificité en donnant une valeur au seuil. Ne cocher Positive que pour limiter la liste aux mots surreprésentés. Vous pouvez enfin vous limiter aux n mots les plus spécifiques par catégorie en cochant Limiter à . Le résultat dresse, par catégorie, la liste des mots répondant aux conditions. Ils sont classés par ordre de spécificité ou de fréquence. En regard apparaît la fréquence et/ou l’indice de spécificité. Ces options sont modifiables dans l’atelier : Compter (faire afficher ou non la fréquence et l’indice) et Classer (définir l’ordre des listes).
Réponses caractéristiques Cette fonction repose sur la sélection de mots spécifiques mais donne comme résultat une liste de réponses sélectionnées en fonction du nombre de mots spécifiques qu’elles contiennent et de leur indice de spécificité moyen.
Vous pouvez enfin limiter le tableau aux mots ayant des effectifs minimums (Seuil de fréquence ).
Mots spécifiques Un mot est spécifique d’une catégorie s’il est surreprésenté dans cette catégorie. On utilise le rapport des fréquences (observées / théoriques) comme indicateur de spécificité. Le mot est d’autant plus sur-représenté (resp. sous-représenté) que ce rapport est supérieur (resp. inférieur) à 1. Il est infini pour les mots exclusifs qu’on repère avec une étoile.
Sphinx V5
L'analyse lexicale en bref
11
Variable de contexte
Bilan lexical
Conditions spécifiques
Tableau lexical
Mots spécifiques
Réponses caractéristiques
12
Sphinx V5
L'analyse lexicale en bref
13
La construction des lexiques
14
1. Caractères séparateurs et environnement Pour identifier les différents éléments composant un champ textuel, on définit des caractères séparateurs. Les séparateurs de fragments ou d’observations sont définis au moment de l’intégration d’un fichier de données (Voir Ouvrir un fichier de données textuelles ). Les séparateurs de formes graphiques permettent d’isoler les mots. Le blanc est le séparateur naturel mais on peut en retenir d’autres (‘ ()..). Les séparateurs de phrases ou de tout autre groupe permettant de définir un sous-ensemble signifiant (proposition, unité de signification...).
Choisir les règles de construction du lexique En cochant les cases Différencier les majuscules ou Différencier les lettres accentuées , on considère Maison ou maison et élève ou élevé comme des formes graphiques différentes ou non. En jouant sur les séparateurs de mots, on fait apparaître grand-père comme un seul mot ou comme 2 mots différents. Pour supprimer ou rajouter des séparateurs, il suffit d’aller écrire dans la boîte c orrespondante. Si à la saisie, on a utilisé le caractère _ comme liaison pour les mots composés sans tiret. On écrira ainsi pomme_de_terre. Mais pour que ce procédé fonctionne bien, il faudra vérifier que le caractère '_' n’est pas considéré comme un séparateur (ce qui est le cas par défaut).
Options pour la recherche des expressions
Apparier La définition de ces séparateurs conditionne la construction du lexique et la recherche de l’environnement d’un mot (concordances, lexiques relatifs). On peut modifier ces paramètres dans un dialogue ouvert par le bouton Apparier . Celui-ci permet de modifier les séparateurs de mots (formes graphiques), groupes ou phrases, de fixer les règles à suivre pour traiter les accents et majuscules et gérer les expressions formées de mots c omposés.
Si la case à cocher Composées de mots entiers n'est pas cochée, les séquences recherchées peuvent inclure des fragments de mots consécutifs. Si la case à cocher Différencier les séparateurs est cochée, on ne tient pas compte des séparateurs.
Enfin, il permet de fixer l’environnement à prendre en considération pour examiner le contexte d’un mot. On change les séparateurs en les frappant au clavier dans la zone qui leur est réservée. Les modifications introduites avec Apparier sont conservées à la prochaine ouverture du logiciel, néanmoins le bouton Restaurer permet de rétablir les solutions par défaut les plus courantes.
Sphinx V5
La construction des lexiques
15
Définir les séparateurs
Lexique
Concordances Lexiques relatifs
Verbatim
16
2. Rechercher et marquer des éléments dans le lexique Que l’on cherche à restituer les mots dans leur contexte ou à simplifier le lexique par regroupement d’éléments, le travail d’analyse lexicale consiste à repérer des mots et à les marquer. On peut procéder manuellement en faisant défiler la liste du lexique avec les ascenseurs et en cliquant sur les mots qui nous intéressent. Selon le besoin, on classera le lexique par ordre de fréquence, par ordre alphabétique ou par ordre d’apparition (bouton Classer ). On peut aussi procéder d’une manière automatique grâce au bouton Marquer . Il permet de trouver et marquer les éléments répondant aux conditions fixées.
Rechercher par le contenu Activer le bouton Le mot et entrer le mot recherché ou une partie de mot. Pour trouver plusieurs mots, tapez les à la suite. La (ou les) chaîne(s) de caractères que vous venez d’entrer sera(ont) recherchée(s) : • Dans son (leur) intégralité : bouton Mot entier . • Comme début de mot : bouton Début de mot , tous les mots commençant par cette chaîne seront marqués. Par exemple, en tapant «voit », on marquera voiture, voitures, voiturette. • Comme partie de mot : bouton Partie de mot , tous les mots contenant la chaîne seront marqués. Cette option est très utile pour marquer tous les verbes d’un texte lemmatisé. Ils sont marqués par la terminaison -V (chanter-V). • Selon la conformité à un modèle : bouton Modèle , tapez par exemple *isme pour trouver tous les mots se terminant par isme.
En limitant aux plus fréquents : cochez la case Les mots les plus fréquents, taper le nombre de mots que vous souhaitez dans la boîte en regard. Vous pourrez ainsi par exemple vous concentrer sur les 20 mots les plus fréquents.
Rechercher par dictionnaires En sélectionnant le bouton Les mots du dictionnaire , on peut utiliser un dictionnaire pour marquer dans le lexique tous les mots qui s’y trouvent. Le bouton Dictionnaire permet de changer le dictionnaire courant pour le remplacer par le dictionnaire de son choix.
Combiner les effets du marquage Le menu déroulant Sélection permet de combiner plusieurs recherches consécutives : • Compléter : les mots déjà marqués le restent, les nouveaux s’ajoutent à l’ensemble. • Remplacer : les mots déjà marqués s’effacent, les nouveaux les remplacent. • Affiner : seuls sont marqués les mots qui étaient déjà marqués, les autres sont effacés (intersection de 2 sélections). Enfin, les boutons 0, <>, @ permettent d’effacer toutes les marques, de les inverser ou de marquer tous les mots du lexique. Pour conserver dans le lexique un ensemble de mots sélectionnés, on les marque puis on inverse les marques pour supprimer ce qui ne nous intéresse pas.
Rechercher selon la fréquence En fixant une plage de fréquence : activez l’option Les mots de fréquence entre et indiquez l’intervalle correspondant au nombre d’apparitions des mots à marquer. Par exemple de 1 à 10 pour marquer les mots apparaissant moins de 10 fois, de 1 à 2 pour marquer les hapax (la borne supérieure de l’intervalle n’est pas comprise). Vous pouvez indiquer une seule des deux bornes. Sphinx V5
La construction des lexiques
17
En cliquant dans le lexique
En cliquant dans le corpus
Règles de recherche
Au clavier Selon la fréquence
Par dictionnaire
18
3. Réduire les lexiques C’est une phase essentielle de l’analyse lexicale. Pour analyser les mots les plus intéressants ou regrouper sous une même appellation ceux qui ont une signification commune, on peut procéder manuellement ou d’une manière automatique. L’examen manuel consiste à repérer les éléments à supprimer ou à regrouper. Les procédés automatiques reposent sur l’utilisation de dictionnaires de référence et/ou d'algorithmes morphologiques (stemmatisation) ou syntaxiques (lemmatisation).
Supprimer On peut passer en revue tout le lexique et marquer les mots à éliminer. Le bouton Supprimer permettra de les faire disparaître.
Ignorer les mots outils Le bouton Réduire comporte un premier automatisme en permettant d’éliminer les mots outils (selon le dictionnaire motoutil.doc fourni avec le Sphinx ), les nombres ou les mots courts (moins de x lettres ). Attention, le dictionnaire des mots outils contient des mots très intéressants à analyser comme les pronoms personnels, les négations... Pour revenir au lexique complet et les analyser, utiliser le bouton Reconstruire .
Ce même dialogue donne la possibilité de revoir les groupes (Voir Groupement automatique ). Les groupes sont conservés et retrouvés à la prochaine consultation de la variable. Défaire les groupes permet cependant d’annuler définitivement tous les regroupements.
Lemmatiser La lemmatisation (Lemmatiser ) permet d’opérer des regroupements intelligents en utilisant les règles de la syntaxe (singulier, pluriel, formes verbales ramenées à l’infinitif). Elle présente l’avantage de réduire certaines ambiguïtés en distinguant par exemple le nom du verbe (voyage peut correspondre au nom voyage ou au verbe voyager). Il est donc conseillé d’opérer le travail de réduction sur la base du texte lemmatisé.
Exploiter le lexique réduit Les regroupements sont conservés, mais vous pouvez créer une nouvelle variable réduite aux mots du lexique (Recoder ). Le bouton Verbatim permet de sortir les éléments sélectionnés.
Regrouper Le bouton Regrouper offre plusieurs choix pour remplacer plusieurs éléments par un seul : les mots marqués dans le lexique : • Grouper sélectionnez et donnez un nom au regroupement. • Rechercher tous les mots répondant à un modèle et les grouper. Entrez le modèle : les éléments qui y répondent seront automatiquement regroupés, par exemple, *isme pour les mots se terminant par isme. • Grouper les mots commençant par les mêmes lettres : groupement par racine ou stemmatisation. Indiquez le nombre de caractères à retenir pour la racine. Vous pourrez contrôler la validité de chaque groupe (Voir Stemmatisation). avec un dictionnaire . Choisissez un • Grouper dictionnaire. En utilisant un dictionnaire de groupement ou thésaurus, vous pourrez opérer en une seule fois plusieurs groupements (Voir Gestion de dictionnaires).
Sphinx V5
La construction des lexiques
19
Enlever les mots outils Lemmatiser
20
Regrouper
•
4. Groupements automatiques On gagne beaucoup de temps en procédant ainsi :
Regroupement selon un modèle Sélectionner l’option Grouper les mots sur le modèle puis rentrez le ou les modèles recherchés. Par exemple, alim* donne tous les mots commençant par alim , *ie ceux qui se terminent par ie . La syntaxe disponible offre de très grandes possibilités.
un dictionnaire de groupements regroupe plusieurs dictionnaires de mots. Chaque élément énumère une liste de mots équivalents. Les mots sont séparés par le signe =, et en tête de liste se trouve le nom de l’équivalent. Appliquer un dictionnaire de regroupements revient à appliquer successivement plusieurs dictionnaires de mots. Les mots d’une même ligne sont automatiquement remplacés par leur équivalent. Ces dictionnaires sont très utiles et peuvent être assimilés à des thésaurus de niveau 1.
Ci-dessous, à titre d'exemple, voici le dictionnaire correspondant à l'état du lexique de droite ci-contre :
Stemmatisation Ce terme indique le regroupement des mots ayant la même racine. Sélectionner la case Grouper automatiquement , puis de même racine et indiquer le nombre de lettres minimum que doit contenir la racine commune.
Modifier les groupes Il est important de pouvoir contrôler la qualité des groupements automatiques. A cet effet, le bouton Modifier interactivement les groupes permet de les revoir tous (utiliser les flèches) pour éventuellement supprimer des mots dont la signification n’est pas conforme (Enlever ). On peut également ajouter des mots en les entrant au clavier (Ajouter ). Défaire supprime le groupe. Pour renommer, entrez au clavier la nouvelle appellation. Par défaut, les groupes sont marqués d’un #. Leur nom reprend le modèle auquel il répond.
Dictionnaires
#faire*=faire=faire_la_cuisine=faire_plaisir= faire_envie=faire_attention #goûte*=goûter=goûteux #gastronomi*=gastronomie=gastronomique #avoir_*=avoir_envie=avoir_faim #quelque*=quelque_chose=quelquechose #enfant*=enfant=enfants #nature*=naturel=nature #prendre*=prendre_son_temps=prendre #vouloir*=vouloir=vouloir_dire #nourri*=nourrir=nourriture #cuisine*=cuisiner=cuisine #léger*=léger=LEGERE #restau*=restaurant=restau
Conservation des groupements
On peut également utiliser des dictionnaires. Sélectionner pour cela Grouper automatiquement et avec un dictionnaire . Utiliser le bouton Dictionnaire pour ouvrir le dictionnaire désiré, puis faire Regrouper . Le logiciel cherche les mots du dictionnaire présents dans le lexique et les regroupe sous un même item. On peut également procéder en marquant à partir du dictionnaire (Marquer les mots du dictionnaire ). Dictionnaire de mots et de groupements : • un dictionnaire de mot est une liste de termes ayant une même signification ou propriété. Cette liste se présente comme une énumération.
Sphinx V5
' Dictionnaire de regroupements $ C:\Donnees\barchoc310\barchoc310.que Plaisir_de_manger_L 1
Les groupements sont automatiquement conservés. Lorsqu’on revient sur une question pour laquelle des regroupements ont été effectués, un dialogue demande si on souhaite reprendre le lexique enregistré . En répondant oui, les regroupements antérieurs seront récupérés. Si vous répondez non, ils seront p erdus. Pour conserver les regroupements, le logiciel crée automatiquement dans le répertoire de l’enquête un dictionnaire de regroupement dont le nom est celui de la variable : nom_variable.lex.
La construction des lexiques
21
Grouper par racine Grouper par dictionnaire Grouper par modèle
Contrôler les groupements
22
• Travailler
5. La gestion des dictionnaires Le bouton Dictionnaires (qui se trouve dans la barre d’outils et dans le dialogue Marquer ) permet de manipuler les dictionnaires. Le dictionnaire courant est le dernier dictionnaire ouvert, c'est lui qui servira a u marquage. Dans la fenêtre Gestion des dictionnaires , on peut visualiser le contenu du dictionnaire, ouvrir un autre dictionnaire, créer un nouveau dictionnaire, enrichir le dictionnaire courant, ajouter les mots du lexique dans le dictionnaire courant.
Ouvrir un dictionnaire Les dictionnaires sont enregistrés comme des fichiers textes. Le bouton Ouvrir donne accès au dialogue Windows de gestion des fichiers. L’extension proposée par défaut est .dic. Elle n’est pas obligatoire mais permet de retrouver facilement les dictionnaires.
sur un texte lemmatisé et un dictionnaire de forme racine. • Utiliser un dictionnaire thématique pour marquer le lexique. Par exemple en cherchant les mots exprimant la satisfaction. • Effacer les mots ainsi marqués (bouton Supprimer ) et parcourir le lexique à la recherche d’autres mots se rapportant au thème du dictionnaire. • Ajouter ces mots au dictionnaire avec la séquence Dictionnaire / Ajouter . Ces mots viennent s’ajouter à ceux qui s’y trouvaient déjà. • Reconstruire le lexique (boutons Réduire, Reconstruire ) pour retrouver tous les mots qui vous intéressent à partir du dictionnaire enrichi. En répétant cette procédure d’une étude à l’autre, vous accumulerez une expertise conservée dans vos dictionnaires. La capacité maximum d’un dictionnaire est de 6 000 mots.
Créer un dictionnaire Utiliser le bouton Nouveau , donner le nom au fichier (en remplacement du nom donné par défaut "DICO.DIC"). Cette procédure ouvre un dictionnaire vide. Vous pouvez : • Y ajouter les mots marqués dans le lexique : bouton Ajouter . • Entrer au clavier les mots que vous désirez. Placez le curseur à l'endroit où vous voulez insérer un nouveau mot et entrez-le au clavier.
Marquer à partir du dictionnaire Un dictionnaire sert à marquer des mots dans le lexique. Utiliser le bouton Marquer puis sélectionner Les mots du dictionnaire (Voir le chapitre Construction de lexiques ). L’utilisation de dictionnaires permet d’accélérer considérablement l’analyse lexicale. Il est conseillé de travailler pour cela sur un texte lemmatisé et d’utiliser des dictionnaires de formes racines pour faire des regroupements automatiques (stemmatisation).
Ajouter des mots dans le dictionnaire Vous pouvez ajouter au dictionnaire ouvert les mots marqués dans le lexique (séquence Dictionnaire / Ajouter ). Ceci permet d’enrichir progressivement les dictionnaires d’une étude à l’autre. La procédure suivante est conseillée : Sphinx V5
La construction des lexiques
23
Ouvrir ou créer un dictionnaire Mettre dans le dictionnaire les mots marqués du lexique Entrer des éléments nouveaux au clavier Marquer les mots correspondants dans le lexique
Ouvrir ou créer un dictionnaire
24
Elaborer des dictionnaires
6. Les différents différents types types de dictionnaires Les dictionnaires permettent de stocker du vocabulaire de référence et peuvent ainsi considérablement accélérer l'analyse. A chaque utilisateur de créer les dictionnaires spécifiques à son domaine. On peut les utiliser pour réduire automatiquement le lexique (dictionnaire des mots outils) ou pour rechercher dans un corpus des marqueurs lexicaux de l'énonciation ou des champs sémantiques particuliers.
Différents types de dictionnaires Dictionnaire de mots : il comporte la liste des mots appartenant à un champ lexical particulier : les termes de l'alimentation, les pronoms personnels... Ces mots sont repérés par une seule forme graphique.
Un dictionnaire est un fichier texte qui comporte des mots se rapportant à des thèmes et/ou ayant une signification commune (champ lexical). La création de dictionnaires peut se faire dans un traitement de textes. Il suffit de dresser les listes correspondantes en respectant la syntaxe du type de dictionnaire à élaborer. Quelques dictionnaires simples sont fournis avec le logiciel comme l'ensemble des formes du verbe avoir, les pronoms personnels, les locutions temporelles. Le lemmatiseur met également en œuvre des dictionnaires pour la reconnaissance des formes verbales et le repérage des locutions usuelles. Il n'y a pas de limitation à la variété des dictionnaires envisageables.
Dictionnaire d'expressions : il comporte une liste d'expressions. Une expression par ligne comportant une ou plusieurs formes graphiques. Dictionnaire de groupements : il comporte une liste de formes graphiques équivalentes. Sur chaque ligne, on trouve le nom générique (toujours précédé de # ) suivi de la liste des formes équivalentes séparées par le signe =. Un dictionnaire de groupements peut résulter du regroupement de plusieurs dictionnaires de mots. Le contenu d'un dictionnaire de mots se trouve sur une ligne du dictionnaire de groupements. Dictionnaire de mots outils : c'est un dictionnaire de mots. Il est utilisé pour l'opération de réduction du lexique. Il peut être modifié comme tout autre dictionnaire. Dictionnaire de codes : ce type de dictionnaire sert à l'interprétation des codes (Voir Interpréter des codes ). Sur chaque ligne, on a la valeur du code et les différentes manières de l'interpréter. Lexique de référence : c'est un dictionnaire de mots indiquant la fréquence de chaque mot dans un corpus de référence. Cette fréquence peut s'exprimer en valeur absolue ou en pourcentage. On utilise ce type de dictionnaire pour comparer le corpus en cours d'analyse à la référence (Voir Comparer à un lexique de référence).
Sphinx V5
La construction des lexiques
25
Différents dictionnaires de mots
des mots outils
Lexique de référence
26
d’expressions
de groupements
Dictionnaire de codes
7. Analyse thématique Dans l’environnement de l’atelier lexical, une analyse thématique peut être actionnée en cliquant sur l’icône « Dictionnaire » Une thématique est une liste de dictionnaires, chacun étant composé de mots ou de regroupements relevant d’un même thème. Les dictionnaires ont été préparés par ailleurs en format texte. Cette opération autorise la présence d’un même mot dans plusieurs thèmes. La gestion des dictionnaires est présentée dans le chapitre 5 p. 312 (Plus²) ou 316 (Lexica) du manuel de référence. Une nouvelle thématique est créée en ajoutant autant de dictionnaires que souhaité dans la liste, grâce au bouton « Ajouter » Au moment du recodage, le logiciel propose la sauvegarde de la thématique, qui sera dénommée avec une terminaison « .the » et qui pourra être rappelée à tout moment depuis le bouton « Ouvrir une thématique ». En cliquant sur « Recoder », on va pouvoir créer de nouvelles variables afin d’identifier les thèmes pour chaque observation : l’intensité lexicale de chaque thème, - le nombre d’occurrences de chaque thème, - des variables fermées sur les thèmes, avec deux options de limitation : les n thèmes les plus fréquents dans la réponse et les thèmes dont l’intensité dans la réponse est au moins égale à x.
Sphinx V5
La construction des lexiques
27
• lister
les segments répétés trouvés dans le texte (bouton Segments ).
8. Lexique des expressions** Mots composés et expressions usuelles La construction du lexique à partir des formes graphiques ignore les mots composés, locutions, ou expressions (à moins qu’elles n’aient été explicitement saisies comme telles en utilisant le séparateur _ ). La possibilité de définir des listes ou dictionnaires d’expressions permet de les repérer dans le texte et de les identifier comme tels en introduisant un séparateur spécifique. On pourra alors générer une nouvelle variable dans laquelle les expressions apparaîtront comme une seule forme graphique. Cette approche convient pour les mots composés ou expressions usuelles répertoriés a priori dans des dictionnaires. Les expressions ou formes d’élocution spécifiques à certains contextes ne peuvent être identifiées qu’a posteriori à partir du constat de leur répétition à l’identique. C’est ce que permet la recherche des segments répétés.
Lexique des expressions Le lexique des expressions est rentré au clavier, constitué à partir d’un dictionnaire d’expressions ou établi par la recherche des segments répétés. Il fait l’objet d’une fenêtre particulière ouverte dans l’atelier lexical par le menu Lexique / Liste des expressions . Celui-ci ouvre une fenêtre vierge dans laquelle on peut : • entrer au clavier les expressions recherchées ; les éléments d’un dictionnaire • reporter d’expressions ;
2
En regard de la liste d’expressions ainsi constituée, s’affiche le nombre d’occurrences trouvées dans le corpus. On peut alors, comme pour le lexique des mots, sélectionner des éléments et les retrouver dans le texte (navigation lexicale).
Documenter le lexique des expressions à partir d’un dictionnaire Le bouton Dictionnaire permet d’ouvrir un dictionnaire d’expressions que l’on pourra déverser dans la fenêtre (bouton -->Liste ). Inversement, le bouton Ajouter permet d’envoyer dans le dictionnaire les expressions entrées dans la liste à partir du clavier ou du calcul des segments répétés.
Actions à partir de la liste des expressions Comme pour le lexique des mots, on peut supprimer des expressions, les classer, regrouper des expressions équivalentes (bouton Variantes ), et les sortir dans le rapport ou à l'imprimante (Transférer ).
Solidariser dans le corpus les expressions de la liste Le bouton Recoder permet de créer une nouvelle variable texte dans laquelle les expressions de la liste seront solidarisées par le signe _. En ouvrant cette nouvelle variable, les expressions apparaîtront comme une forme graphique. (Vérifier que le caractère _ n'est pas défini comme séparateur). Ce bouton permet également de dresser dans une variable nominale la liste des expressions du texte.
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
9. Rechercher les segments répétés** Tout texte comporte ses leitmotivs, sa langue de bois, ses petites phrases... On peut les repérer en cherchant les séquences de mots répétées exactement à l'identique. On obtient ainsi : • les locutions : très bien, à peu près ... ; • les phrases ou éléments de phrases répétés à l'identique : je ne pense pas, selon moi, il faut, • les expressions toutes faites, caractéristiques du domaine étudié : bon repas en famille, bien manger... Cette recherche permet également de soulever de nombreuses ambiguïtés.
Rechercher les segments répétés Pour éviter l'examen de listes trop longues, on peut cibler la recherche : • en fonction de la fréquence de répétition (bouton Fréquence minimale ) ; • en fonction de la présence dans les segments de mots déterminés, de mots marqués dans le lexique courant ou de mots énumérés par l’utilisateur (bouton Contenant ). • en ignorant les segments commençant par un mot outil ou par l’un des mots énumérés par l’utilisateur (bouton Ne commençant pas par) . Pour lancer la recherche, procédez ainsi : • sélectionnez dans le menu Lexique , la rubrique Expressions , et activez Segments ; • fixez vos paramètres de recherche ; • par défaut, la fréquence minimum proposée est égale à la répétition moyenne des mots du lexique ; • ciblez votre recherche en fixant les longueurs minimales et maximales et en restreignant à certains mots ou en ignorant les segments commençant par un mot outil.
4
Sélectionner les segments significatifs Les segments trouvés s’affichent dans une fenêtre dont le contenu peut être classé par ordre alphabétique ou par longueur (Trier ), imprimé ou copié (Transférer ) selon les procédures habituelles ou versé dans une liste d’expressions (--> Liste d’expressions ). Cette dernière opération permet de faire toutes les opérations autorisées dans la liste d’expressions : supprimer des segments sans intérêt, naviguer dans le corpus, retrouver le contexte d’un segment (Voir Concordances et lexiques relatifs ). On peut également créer une nouvelle variable texte solidarisant les segments, directement à partir de la fenêtre des segments (Relier ) ou depuis la liste d'expressions (Recoder, Texte modifié, Relier les mots de chaque expression ). En ouvrant cette nouvelle variable, les segments répétés seront traités comme des mots.
Segments contraints et segments de fréquence 1 Pas trop et pas trop cher sont des segments contraints. Pas trop apparaît 6 fois et pas trop cher 3 fois. Le premier est contenu dans le second. Mais leur fréquence les distingue. Ce phénomène est très fréquent et nécessite un examen attentif des segments que l’on souhaite retenir pour l’analyse.
Solidariser les segments répétés On peut créer une nouvelle variable texte dans laquelle les segments répétés seront reliés par le caractère _ . Ils apparaîtront ainsi dans le lexique de la nouvelle variable comme une seule forme graphique. Pour effectuer cette opération, faites Recoder et choisissez Texte modifié / Relier les mots de chaque expression . L'analyse de cette nouvelle variable permettra de produire un lexique tenant compte des segments répétés significatifs.
Rechercher les segments répétés
Définir les conditions Editer Créer une nouvelle variable Ajouter au lexique des expressions
Exemple : Si vous gagniez au loto
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
6
Navigation lexicale et recherche de contexte
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
1. Du lexique au corpus : la navigation lexicale La navigation lexicale s’apparente à la fonction d’un hyper-texte dont chaque mot serait l’objet d’un renvoi possible. On peut en effet, à partir d’un ou plusieurs mots marqués dans le lexique ou dans le texte lui-même : • retrouver toutes les réponses ou fragments de texte contenant ce mot ou ces mots ; • afficher la valeur quelconque de l’une des autres variables pour situer le contexte de la réponse ; • détailler toutes les données relatives à la réponse ; • caractériser l’emploi d’un mot par la répartition de telle ou telle variable dans la strate des observations qui le contiennent. On a ainsi la possibilité d'opérer des sélections pour restituer des fragments de texte ou contrôler l'interprétation des termes mis en évidence dans le lexique. On peut le faire en ne voyant qu'une réponse à la fois ou en se plaçant dans une fenêtre dans laquelle tout le corpus s'affiche à la suite.
Les flèches permettent de passer d'une observation à l'autre. Si des mots sont marqués dans le lexique, la navigation se fait selon la règle choisie (Aller à : d'un mot marqué à l'autre, d'une observations contenant tous les mots marqués à la prochaine...). On peut également limiter la navigation aux seules observations répondant au profil défini par le bouton N° (Voir aussi Modification / Consultation).
Vue du corpus entier L'article Observations du menu Vue ouvre une fenêtre dans laquelle s'affichent à la suite toutes les observations qu'on peut faire défiler avec l'ascenseur. Pour passer d'un mot marqué à l'autre, cliquez dans la fenêtre. Un menu apparaît dont l'article Marque suivante permet de passer au prochain mot marqué.
Caractériser et détailler les observations
L'article Observations du menu Vue ouvre une fenêtre montrant le texte d'une seule observation à la fois. On peut compléter par les données d'autres variables illustratives (Illustrer ). La hauteur de la fenêtre est modifiable en déplaçant le trait de séparation.
En cliquant sur un mot du texte, on fait apparaître un menu qui permet d'obtenir des informations complémentaires sur l'usage de ce mot : • voir l'environnement du mot dans l'ensemble des observations qui le contiennent : concordances ou lexiques relatifs (Environnement ) ; • identifier toutes les observations contenant ce mot en les caractérisant par rapport à une autre variable (Caractériser ) ou en consultant toutes les informations qui les concernent (Détailler ) ; les propriétés des observations • décrire concernées en les codant dans une nouvelle variable (Décrire ).
Sous la fenêtre, on lit les indicateurs statistiques caractérisant l'observation.
Copier ou imprimer les éléments sélectionnés
Vue par observation
L'article Copier du menu Edition copie le texte de l'observation courante. Pour éditer toutes les réponses contenant un mot marqué, utiliser l’option Verbatim, dont les possibilités sont décrites dans le chapitre Produire des extraits.
8
Vue par observation
Données de contexte Variable illustrative Indicateurs statistiques
Navigation
Vue du corpus entier
Règles de navigation
Editer les textes sélectionnés
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
2. Situer un mot dans son contexte textuel On peut examiner d’une manière plus précise l’environnement d’un mot en concentrant l’analyse sur son contexte immédiat : il peut s’agir d’un groupe de mots, de la phrase ou de la réponse toute entière. Dans le cas de réponses longues ou lorsque le texte a été découpé en paragraphes, il est préférable de se limiter à la phrase ou la proposition. On se place dans ce mode avec l’option Environnement de la liste déroulante Vue. On obtient le même effet en faisant un double clic sur un mot du lexique, ou en cliquant sur un mot dans le corpus. Un menu contextuel s'affiche. Choisir l'article Environnement pour contexte du mot choisi.
voir
Voir le contexte immédiat Lorsqu'on choisit Concordance , le contexte du mot pivot s'affiche. Deux options de présentation sont disponibles : • centrer les citations sur le mot pivot (case Mise en forme cochée) ou les aligner à droite (case Mise en forme non cochée) ; • faire disparaître les mots ignorés dans la construction du lexique en cochant la case Texte réduit . Par exemple pour ne pas montrer les mots outils.
le
On étudie ainsi : • la concordance du mot étudié, c’est-à-dire l’ensemble des éléments du texte contenant le mot. Ce procédé s’apparente à la production de verbatim ou de liste de citations centrées sur un mot particulier (Voir Consulter/Modifier et Listes structurées) ; • les lexiques relatifs à droite et à gauche du mot étudié. Deux boutons permettent de passer d’une analyse à l’autre. Il convient de fixer l’étendue du contexte qu’on souhaite analyser en agissant sur le bouton Apparier.
Fixer l’étendue du contexte Cette étendue est déterminée par des séparateurs de groupes de mots, de phrases et de réponses.
10
Le dialogue proposé par le bouton Apparier permet de : • spécifier des ensembles de séparateurs. Par défaut, le Sphinx considère 3 séparateurs de phrase : « . ! ? ». On peut modifier ces ensembles au clavier ; • choisir le niveau de contexte désiré : groupe, phrase, réponse pour fixer l’étendue du contexte à analyser autour du mot choisi. Dès qu’un des séparateurs est rencontré, on arrête l’extraction.
On peut enfin signer la citation en affichant la valeur d’une autre variable choisie par Le bouton Illustrer .
Extraire des citations Avec le bouton Transférer , on peut indifféremment imprimer le contenu de la fenêtre ou l'inclure dans le rapport.
Fixer l’étendue du contexte
Concordance
Double clic dans le lexique
Mot pivot
Lexiques relatifs
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
Présenter les lexiques relatifs
3. Les lexiques relatifs** La liste des citations illustrant l’emploi d’un mot peut être très longue. Les lexiques relatifs permettent un examen synthétique en faisant ressortir les mots avec lesquels le mot pivot est le plus fréquemment associé. Le principe consiste à construire un ou plusieurs lexiques présentant la liste des mots se trouvant à telle position par rapport au mot pivot choisi. Le bouton-radio Lexiques relatifs ouvre la fenêtre des lexiques relatifs. Par défaut, elle présente 2 lexiques : à gauche et à droite, pour les positions 2 mots avant (-2), 1 mot avant (-1), 1 mot après (1), 2 mots après (2).
Définir le nombre et la position des lexiques relatifs Le bouton Compter permet de modifier les lexiques relatifs en : • fixant le nombre de lexiques (boutons-radios 1, 2, 4 ) ; • indiquant pour chaque lexique la position par rapport au mot pivot des mots à recenser. Dans l'exemple ci-contre, 4 lexiques sont définis correspondant aux positions -1, +1, +1, +2 par rapport au mot pivot. Par défaut, les lexiques sont présentés par ordre d’occurrences décroissantes. On peut compléter la statistique des occurrences relatives à une position par : • le nombre total d’occurrences du mot dans le corpus (quelle que soit sa position) : Nombre total d’occurrences ; • le pourcentage d’apparition du mot à la position considérée par rapport au nombre total d'apparitions dans le corpus (quelle que soit la position) : Pourcentage dans le lexique relatif . C’est un indicateur de dépendance linguistique par rapport au mot pivot.
12
Le bouton Classer permet d’afficher les lexiques relatifs par ordre alphabétique ou par ordre d’apparition des mots dans le corpus. Le bouton Réduire permet, dans ce contexte également, d’ignorer ou de rétablir les mots outils. Le bouton Transférer donne les possibilités habituelles d’inclusion dans le rapport, de copie dans le pressepapiers et d’impression.
Interpréter les lexiques relatifs L’exemple ci-dessous donne des lexiques relatifs à l’environnement du mot France utilisé dans les deux livres de la campagne 1995 de Jacques Chirac. France y apparaît 12 fois sur un corpus total de 35 247 mots. Environnement -1 à 3 pivot -1 à +3 - 242 mots - 283 occ pays 6 ( 6.82% ; 88) Europe 4 ( 7.14% ; 56) avenir 3 ( 11.54% ; 26) changé 3 ( 17.65% ; 17) doit 3 ( 4.05% ; 74) Français 3 ( 2.91% ; 103) monde 3 ( 6.38% ; 47) nouvelle 3 ( 15.00% ; 20) puissance 3 ( 15.79% ; 19)
Le lexique de -1 à +3 affiche les 3 indicateurs. Ils montrent notamment que les mots nouvelle, puissance, changé sont plus souvent associés à France que Europe : Europe est 4 fois dans l’environnement de France pour un total de 56 apparitions, ce qui indique une faible dépendance linguistique (7,14 %).
Lexiques relatifs et segments répétés Le lexique relatif peut donner une idée des segments répétés, qu’il ne représente pas exactement. Il peut cependant être utile de mener une exploration préalable à partir des lexiques relatifs.
Définir les lexiques relatifs
Nombre
Positions par rapport au pivot
Indicateurs statistiques
4 lexiques avant et après
Lexique de l'environnement -2 à +2
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
•
4. Production d'extraits Dans Plus² et Lexica, la production d'extraits offre de plus grandes possibilités que dans Primo. En la lançant depuis l'atelier lexical, on peut sélectionner beaucoup plus finement les extraits selon leur contenu.
Le dialogue abrégé Celui-ci est directement disponible sans accéder forcément à l’atelier lexical, on peut générer du verbatim depuis une fonction spécifique. Choisir pour cela «Etudier les textes» dans le panneau de commandes ou dans la fonction « Recoder » puis « Verbatim » Dans ce menu, il est possible de définir des mots clés sur lesquels portera uniquement le verbatim. On peut aussi réduire cette opération à un profil d’observations donné et trier les extraits selon les modalités d’une variable choisie.Après avoir sélectionné les éléments du lexique, dont la pertinence peut être vérifiée grâce à la navigation lexicale, une action sur le bouton Verbatim ouvre un dialogue abrégé dans lequel on fixe les éléments à éditer ( Mots ou ou Textes ). ). Mots pour les éléments du lexique, Textes pour les réponses ou extraits correspondants. On peut compléter éventuellement les critères de sélection en précisant les options de présentation. Les extraits ainsi sélectionnés apparaissent dans une fenêtre dont le contenu peut être imprimé grâce au bouton Transférer . Une version plus complexe du dialogue est accessible avec depuis l’Atelier lexical. Elle offre les possibilités suivantes :
Le dialogue complet Le dialogue étendu offre de nombreuses possibilités : restreindre aux observations contenant des mots marqués dans le lexique : cochez l’un des boutons Les éléments concernés ou Tous les éléments . La sélection des extraits se fait en fonction de la règle de navigation lexicale retenue ; • fixer le contenu des extraits (cadre (cadre Contenu ) : afficher le texte de la variable étudiée et ou celui d'une autre variable ; • afficher la valeur des mesures lexicales relatives à l’observation : nombre de mots de l’observation (M), nombre de mots marqués (MM), banalité de l’observation (fréquence moyenne des mots de la réponse), intensité des mots marqués (MM/M) ; •
14
mettre les mots marqués en majuscules. majuscules.
Ci-contre un exemple d’affichage. Le mot manger est le mot sélectionné. Les premières indications documentent la réponse : mesures lexicales, variable illustrative.
Fixer l'étendue de l'extrait Selon l'option sélectionnée dans Apparier , l'étendue de l'extrait est fixée à la réponse entière, à la phrase ou au groupe de mots. Quand le texte des observations est long, il est intéressant de limiter l'extrait de la phrase contenant le mot.
Structurer la présentation des extraits Regrouper selon les modalités de la variable illustrative : ceci permet de présenter les extraits par catégorie de locuteurs. Classer : par défaut, l'affichage se fait dans l’ordre d'apparition. On peut également choisir de les présenter selon les indicateurs suivants : Nombre de mots , Nombre de mots marqués , Banalité de la réponse (pour (pour afficher les réponses des plus communes au plus originales), Intensité des mots marqués (pour faire ressortir l’intensité du thème correspondant aux mots sélectionnés dans le lexique).
Réduire le nombre d’extraits Limiter aux phrases contenant un mot marqué : quand les observations contiennent plusieurs phrases, on gagne en lisibilité et pouvoir de démonstration (Voir Apparier pour jouer sur les séparateurs). Limiter à un nombre déterminé d’extraits : enlever les réponses similaires . Deux réponses sont considérées comme similaires si elles contiennent les mêmes mots.
Les règles d’assimilation de 2 réponses sont paramétrables par le bouton Règles . On peut ainsi : • limiter la comparaison aux mots mots marqués ; • tenir ou ne pas tenir compte de l’ordre et du nombre d’occurrences des mots. Les groupes sont listés avec l'indication du nombre de réponses similaires précédé du signe #. A titre d'exemple, le texte de l'une des réponses est cité.
Dialogue abrégé
Dialogue complet
Nb de réponses similaires
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
Sélection en fonction du contexte
5. Résumé des différentes manières de produire des extraits En résumé, voici les différentes manières dans le Sphinx de sélectionner des extraits.
Sélection selon la variable Avec Dépouiller / Produire des listes , on choisit la ou les variables dont on veut extraire le contenu en le restreignant éventuellement à un profil donné. On peut jouer sur la présentation : format liste ou table, fiches personnalisées.
Sélection en fonction du contenu Dans l’atelier lexical, on peut faire de la Navigation lexicale à partir des mots marqués, puis Copier le contenu de la fenêtre courante. Très utile pour noter à la volée le contenu d'une observation à la fois. Extrait de l’environnement d’un mot pivot (Environnement, Co-occurrences ou lexiques relatifs ). Permet de situer un mot dans son contexte pour en apprécier les variations sémantiques. Verbatim permet de présenter l'ensemble des extraits relatifs aux mots marqués dans le lexique. Idéal pour faire du verbatim, pour restituer des réponses.
Cette fonction offre de nombreuses possibilités : • restreindre l'extrait à la phrase. Très utile dans le cas de réponses longues ; • compléter par des variables illustratives ; selon des indicateurs statistiques • classer (banalité, longueur...) ; • résumer en regroupant les réponses similaires.
16
En se plaçant dans une strate (Changer de strate ) et en opérant comme ci-dessus, on limite les productions d'extraits à la strate sélectionnée. On peut également procéder de manière plus directe : • en restreignant le contenu des Listes structurées à la définition d’un profil (Uniquement les observations telles que ) ; • en restreignant le Verbatim à la définition d’un profil (Réduire à un profil) ; • en listant les réponses caractéristiques (Mots spécifiques, Réponses caractéristiques ). Il faut enfin noter la possibilité, dans la fenêtre Caractériser les observations , de lister les réponses de chaque cellule d'un tableau ou dans l'atelier lexical celles caractérisant les effectifs utilisant tel ou tel mot (Caractériser ).
Dépouiller en produisant des listes
Atelier lexical : Verbatim
Atelier lexical : Environnement
Tableaux : Caractériser
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
18
Analyse syntaxique et lemmatisation
Cas OVALE - Analyse textuelle de sites Int ernet – Copyright Le Sphinx Développement 2005
1. La lemmatisation Principes de la lemmatisation L’approximation du contenu d'un texte par ses seules formes graphiques élémentaires peut conduire à des contresens ou laisser planer une grande ambiguïté. L’analyse syntaxique permet de résoudre correctement les ambiguïtés liées à la syntaxe. En appliquant les règles de la grammaire, on peut, dans la plupart des cas, distinguer verbes, substantifs, adjectifs, et leur substituer leur forme racine (singulier d’un substantif, infinitif d’un verbe par exemple), mais aussi identifier les mots composés et les locutions. Voici un exemple illustrant ce procédé : Corpus et lexique originaux J’ai aperçu les grands avions que nous avions vus hier a vec grand père avions (2), aperçu, avec, grand, grands, hier, j, père que, les, nous, vus
Corpus et lexique lemmatisés Je apercevoir_v le grand_a avion_n que nous a voir_v, voir_v hier_n avec grand_père_n apercevoir_v, avoir_v, avec, avion_n grand_a, grand_père_n, hier_n, je, que, le, nous, voir_v.
L’ambiguïté entre avions (avoir) et avions (aéroplanes) disparaît dans le corpus lemmatisé. Le statut grammatical des mots est en outre signalé par les suffixes _N, _V...
Réduire la forme graphique au mot racine La lemmatisation permet ainsi de substituer au lexique initial un lexique beaucoup plus efficace dans la phase d’approximation lexicale. Ci-contre on peut comparer, pour un corpus de 2 378 slogans publicitaires comportant 15 610 mots, le haut du lexique original au lexique lemmatisé.
20
Chaque forme graphique a été remplacée par sa forme canonique ou racine : le singulier pour un substantif ou un adjectif, l’infinitif pour un verbe. Ainsi, par exemple, toutes les formes le, la l, les , une partie des du sont regroupées sous la forme racine le . Les différentes flexions du verbe être (est, sont, ...) apparaissent à l’infinitif dans le lexique lemmatisé. Les singuliers et pluriels ont été regroupés : ainsi par exemple, homme et meilleur n’apparaissent qu’une fois dans le lexique lemmatisé regroupant les effectifs des formes originales singulières et plurielles.
Résoudre les ambiguïtés sémantiques Dans le lexique lemmatisé et réduit, on voit le mot avance cité 54 fois. Il s’agit du substantif avance (l’avance technologique) et non du verbe avancer (il avance plus vite). L’analyse syntaxique permet ainsi de résoudre les ambiguïtés sémantiques. Elle permet aussi de distinguer les mots composés et les locutions.
Identifier les formes grammaticales et les locutions Dans l’exemple précédent, la marque du statut grammatical n’apparaît pas, car, pour des raisons de lisibilité, le tiret du suffixe grammatical a été déclaré comme séparateur de mots. En procédant différemment, on peut faire apparaître à la suite de chaque mot son suffixe grammatical. Cela permet très rapidement de produire un lexique restreint aux Verbes (_ V), aux Adjectifs ( _A), aux substaNtifs (_N), aux adverBes (_B), aux mots Grammaticaux (_G).
Corpus lemmatisé Corpus lemmatisé avec indication des catégories syntaxiques
Lexique brut et lemmatisé : exemple des slogans publicitaires.
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
Indiquer la catégorie des mots : à chaque mot sera attaché l’un des suffixes qui le caractérise : _V pour le Verbe, _N pour un Nom commun, _P pour un nom Propre, _A pour un Adjectif, _B pour un adverBe, _G pour un mot Grammatical. conditions syntaxiques supplémentaires • Des peuvent être ajoutées en cliquant sur le bouton Grammaire complémentaire . •
2. Lancer la lemmatisation L’analyseur syntaxique Le lemmatiseur intégré au Sphinx est l'analyseur syntaxique SYLEX, développé par la société Ingénia Langage Naturel. Il est constitué d’un analyseur syntaxique et d’un dictionnaire. Le dictionnaire français contient 61 400 entrées, 521 400 formes lexicales et 25 600 locutions. Une version anglaise de l’analyseur syntaxique et un dictionnaire d’anglais sont également disponibles sur demande. La lemmatisation consiste à faire l’analyse syntaxique de la variable. Une nouvelle variable contenant la version lemmatisée du corpus sera ajoutée à la base de données. Cette variable pourra être ouverte et analysée comme n’importe quelle autre variable texte. On accède au Lemmatiser .
lemmatiseur
par
le
bouton
Options de lemmatisation L’analyseur syntaxique procède par étape. Il détermine le statut du mot, recherche sa forme racine et établit une nouvelle phrase composée des formes racines. Ces nouvelles phrases forment le corpus lemmatisé. Les options disponibles sont les suivantes : • Filtrer des mots grammaticaux : les mots grammaticaux n’apparaîtront pas dans le texte lemmatisé. A la différence de la réduction du lexique par les mots outils, cette option a pour effet de faire disparaître du nouveau corpus les mots grammaticaux ; • Repérer les locutions usuelles : elles figureront dans le nouveau corpus reliés par un tiret : pomme_de_terre ;
22
Faire un essai L’analyse syntaxique met en œuvre des techniques de l’intelligence artificielle, elle peut prendre quelques minutes pour un texte très long, surtout si votre machine n’est pas très rapide. Vous pouvez vous faire une idée en ne lemmatisant qu’une partie du texte. Placez-vous sur l’observation de votre choix et cliquer sur le bouton Aperçu pour lemmatiser le fragment correspondant.
Création d’une nouvelle variable contenant le texte lemmatisé Le bouton Lemmatiser lance la lemmatisation du corpus entier. Le résultat s’affiche dans une fenêtre où vous pouvez contrôler et éventuellement modifier le résultat. En effet, l’analyse syntaxique n’est pas un procédé fiable à 100 %, certaines ambiguïtés ne peuvent être résolues : les fautes de frappe ou d’orthographe sont un obstacle, le texte peut contenir des mots inconnus... Si c'est nécessaire, vous pourrez directement entrer vos corrections au clavier. Pour analyser le texte que vous avez sous les yeux, cliquer sur le bouton Etudier le texte lemmatisé . Cette action crée une nouvelle variable et vous met en position pour l'analyser.
Corpus d’origine
Choisir les options de lemmatisation
Contrôler, corriger
Créer une nouvelle variable
Corpus lemmatisé
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
3. Analyser un texte lemmatisé Il est très souvent préférable d’effectuer l’analyse d’une variable texte sous sa forme lemmatisée. L’approximation lexicale à partir des mots les plus fréquents du corpus sera de bien meilleure qualité. C’est notamment le cas lorsqu’il s’agit d’un texte comportant une syntaxe : réponses à des questions ouvertes formulées sous forme de phrases, interviews non directives, textes rédigés ou littéraires. Néanmoins, cela peut faire perdre certaines nuances très importantes véhiculées par des différences que la lemmatisation fait disparaître (parler de la femme ou des femmes, de finance ou de finances...).
Afficher le texte d’origine en même temps que le texte lemmatisé Pour faciliter la navigation lexicale sur un texte lemmatisé, il est utile de faire apparaître le texte de la variable d’origine (utiliser la séquence N° / Illustrer par la variable ) dans la fenêtre d’information sur l’observation courante (si nécessaire, cliquer dans cette zone pour voir la suite du texte).
Utiliser le type grammatical des mots Les substantifs dénomment les choses, les objets, la scène, le monde. Les noms propres évoquent les personnages, acteurs, lieux et objets personnifiés. Les verbes indiquent l’action, le mouvement, les transformations, et les adjectifs les appréciations, les évaluations, les jugements... En travaillant sur un corpus lemmatisé doté des marques grammaticales, il est très facile par exemple de dénombrer la présence de chaque type grammatical ou de dresser des listes selon le type.
24
L’importance relative dans un texte de chacune de ces catégories peut apporter beaucoup d’informations, notamment pour qualifier d’éventuelles variations selon l’origine (qui répond ?) ou selon la partie (à quel moment de l’argumentation ?)... A partir du panneau lexical, vous pouvez automatiquement obtenir la liste des mots les plus fréquents classés selon leur statut grammatical. Cette fonction automatise des opérations que vous pouvez affiner dans l'atelier lexical.
Rechercher les caractéristiques de l’énonciation Le travail sur un texte lemmatisé facilite grandement l’étude de l’énonciation : • usage des pronoms personnels (je et j se trouvent regroupés) ; • utilisation des adjectifs, adverbes... ; • travail sur les substantifs et les verbes pour déceler la présence de telle ou telle caractéristique des actes de langage. Comme en PNL (Programmation Neuro Linguistique), rechercher les champs lexicaux visuels, kinesthésiques, auditifs..., les traits positifs, négatifs...
Corpus lemmatisé
Corpus d’origine
Raccourcis du panneau lexical
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
Remplacer
4. Modifier le corpus On peut directement apporter des modifications dans le corpus. Le plus souvent, on le fera pour corriger des fautes de frappe ou des fautes d'orthographe. A cet égard, lorsqu'on travaille sur des textes importés, on a tout intérêt à les soumettre au préalable au correcteur orthographique.
Corriger ou annoter le texte Le bouton Modifier permet d’écrire dans la fenêtre du corpus et de le corriger. Outre la correction des fautes de frappe, cette possibilité est très utile pour : • gérer les polysémies : par exemple dans un corpus de slogans publicitaires, le mot aimer peut exprimer le goût ou le sentiment amoureux. On peut distinguer ces 2 formes en ajoutant par exemple une marque spécifique à l’une des significations. On ajoutera par exemple un $ lorsqu’il s’agit du sentiment ; • faire des annotations dans le texte. On peut ainsi faire de l’analyse de contenu à la manière classique en lisant les réponses et en notant dans un langage codé (mots précédés par un caractère particulier & par exemple) les thèmes rencontrés. On retrouvera très facilement l’ensemble des thèmes marqués à partir du caractère qui les distingue, pour enfin créer une nouvelle variable fermée sur ces thèmes (Voir le bouton Recoder ). Après chaque modification ou annotation, le texte est reconstruit et de nouveau enregistré. Pour gagner du temps, décocher la case Reconstruire immédiatement le lexique . Dans ce cas, à la fin de vos modifications, activer le bouton Rétablir pour que le lexique prenne en compte les modifications apportées.
26
Cette fonction est analogue à celle des logiciels de traitement de textes. Elle est très utile pour faire des substitutions systématiques. On y accède par le bouton Remplacer de la barre d’outils.
Reconstruire le lexique Tant que vous n'avez pas à revenir sur le lexique à des fins d'interprétation, vous n'avez pas intérêt à cocher le bouton Reconstruire immédiatement le lexique car cela peut ralentir inutilement le travail.
Modifier le corpus
Entrer les modifications au clavier
Reconstruire le lexique ou non
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
28
La statistique lexicale
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
Statistiques relatives au corpus •
1. Les indicateurs lexicaux Avec l'extraction du lexique, le logiciel calcule les indicateurs statistiques qui guident l'utilisateur dans son travail d'interprétation.
Statistiques des formes graphiques (mots) Avec le bouton Compter , on choisit les indicateurs affichés dans le lexique en regard de chaque mot : • Nombre d’occurrences : c’est le nombre de fois où un mot apparaît dans le corpus. On le note mi,. i est l'indice du mot. d’observations : c’est le nombre • Nombre d’observations ou fragments contenant au moins une fois le mot. Il est noté oi. Comme un mot peut apparaître à plusieurs reprises dans une observation, on a mi >=oi.
Statistiques relatives au lexique •
•
•
30
Taille du lexique. : c'est le nombre de mots différents présents dans le corpus, elle donne une indication sur la richesse du vocabulaire. Elle est notée l. Cette valeur, affichée en bas à droite de la fenêtre du corpus, est calculée sans les mots outils si ceux-ci ont été ignorés et sans les mots supprimés. Les nombres de mots ignorés et supprimés figurent entre parenthèses. Nombre de mots marqués : ces mots sont utilisés pour le calcul du pourcentage de lecture du corpus et des intensités lexicales. Pourcentage de lecture du corpus : c'est le rapport entre le nombre d’occurrences cumulées des mots marqués et la taille du corpus total. PL = 100 * Σοm / c avec c : taille du corpus, m indice des mots marqués. Il donne une indication de la fraction du corpus, vue par les termes sélectionnés dans le lexique.
•
Taille du corpus : c'est la longueur du texte, elle donne le nombre total de formes graphiques qui le composent. c = Σοi . Le calcul ne tient pas compte des mots ignorés (mots outils) ou supprimés. S'il y en a, ils figurent entre parenthèses. Répétition moyenne : c'est le nombre de fois qu'un mot se trouve en moyenne répété dans le texte. Rep = c / l. Selon le cas, le calcul est effectué en ignorant les mots outils ou les mots supprimés. La valeur de la répétitivité calculée sur la totalité du lexique et du corpus est donnée entre parenthèses.
Statistiques relatives à l'observation Pour chaque observation, on lit dans le cadran situé en bas de la fenêtre : • La taille de l'observation, en nombre de caractères et de mots (r) et le nombre de mots marqués (m) qu'elle contient. banalité : c'est le nombre moyen • La d'occurrences dans le corpus, des mots présents dans la réponse : b = (Σοr) / r avec (r) indice des mots de la réponse et r taille de l'observation. Elle mesure aussi la répétition moyenne des mots utilisés. Plus elle est élevée, plus la réponse est banale. La banalité est comprise entre 1 pour une observation ne contenant que des hapax et le nombre d'occurrences du mot le plus fréquent (pour le cas d'une observation qui ne contiendrait que ce mot). • L'intensité des mots marqués : c'est le rapport entre le nombre de mots marqués et le nombre de mots de la réponse ou du fragment (100* m/r). Cet indicateur permet d'apprécier l'intensité avec laquelle il fait référence au thème correspondant aux mots marqués dans le lexique.
Nb. occurrences
Nb. observations
Stat. des mots marqués
Stat. globales
Stat. de l ’observation
pourcentage de lecture des mots marqués
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
•
2. Bilan lexical Au stade du traitement, le tableau récapitulatif des variables textes donne, pour chaque variable, la taille du corpus (nombre de mots), celle du lexique (nombre de mots différents), et la longueur moyenne d'une observation (nombre de mots moyens...). Ce tableau est très utile pour comparer la manière dont ces variables sont documentées. Dans l'atelier lexical, on peut aller plus loin en comparant les caractéristiques lexicales de la variable étudiée selon les catégories définies par une autre variable (variable de contexte).
Lancer le bilan lexical Après avoir éventuellement réduit et agrégé le lexique, on choisit Bilan par contexte dans le menu Vue , puis on sélectionne la variable de contexte. On peut, dans la liste des modalités de la variable choisie, désélectionner celles qui ne nous intéressent pas ou sélectionner à nouveau celles qui nous intéressent (Ctrl + clic ).
Indicateurs propres à chaque contexte Les 2 premières séries d'indicateurs donnent des informations propres à chaque contexte : • Indications globales et de tendances : effectifs, nombre de mots, mot le plus fréquent (cette dernière information est significative quand on a ignoré les mots outils). • Moyenne et dispersion : longueur moyenne, nombre de mots différents, répétition, nombre de mots uniques (hapax). Les indicateurs suivants mettent l'accent sur les points communs et différences entre contextes :
32
Nombre de mots communs à toutes les catégories et nombre de mots exclusifs de chaque catégorie : par différence avec le nombre total de mots, on obtient le nombre de mots partagés (mais d'une manière partielle).
• • • •
Poids relatif du corpus des différentes catégories : ces indicateurs donnent une idée de la manière dont les zones de langage se recoupent : à l'intersection d'une ligne et d'une colonne, on lit le pourcentage de lecture du corpus de la catégorie en colonne, par le lexique qu'il a en commun avec la catégorie en ligne. Dans l'exemple ci-contre, on constate que le lexique que les employés partagent avec les cadres moyens couvre 67% du corpus des cadres moyens, alors qu'il ne couvre que 53% de celui des employés.
1 / Eventuellement réduire le lexique
Bilan lexical
2/ Choisir les contextes
Analyser les zones de langage
employés employés
Cas OVALE -cadres Analysemoyens textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005 ouvriers
•
3. Construire un tableau lexical Pour mettre en évidence les différences d'usage du vocabulaire selon l'identité des locuteurs, selon les parties d'un document, ou selon toute autre variable de contexte, on construit un tableau lexical. Ce tableau dispose en ligne les éléments lexicaux et en colonne les catégories définies par les modalités d’une variable nominale. On peut ainsi dénombrer la fréquence de chaque terme pour chaque catégorie.
Définition du tableau Pour définir les lignes du tableau, il faut marquer dans le lexique les mots qui figureront en ligne dans le tableau puis sélectionner Tableau lexical dans le menu Vue . Le dialogue qui apparaît permet de choisir la variable selon laquelle ventiler le lexique en cours d'analyse. On peut se limiter à certaines catégories en sélectionnant celles qui nous intéressent dans la liste des modalités. Le bouton Croiser permet de sélectionner une autre variable.
Choix des indicateurs à calculer Le bouton Compter permet de choisir les indicateurs à afficher : • Les effectifs : c’est l’affichage par défaut. Il donne l'effectif de chaque catégorie. La dernière colonne fait la somme des effectifs en ligne. Si toutes les modalités n'ont pas été sélectionnées, elle est différente de l'effectif sur l'ensemble du corpus. • Les % en ligne : ils donnent une indication sur la répartition entre modalités. Cette répartition dépend évidemment de l’effectif des modalités. L'indice de spécificité permet de prendre la mesure de cet effet.
34
Les indices de spécificité : l’indicateur de spécificité est le rapport entre le nombre d’utilisations observées et le nombre théorique d’utilisations tel qu’il résulterait d’un emploi proportionnel au nombre total de mots prononcés par la catégorie considérée. Les termes spécifiques d'une catégorie (sur utilisés par cette catégorie) ont un indice supérieur à 1. Les termes exclusifs sont suivis de *. Les mots sous représentés ont un indice inférieur à 1.
Modification des lignes ou colonnes du tableau lexical A moins d’avoir des idées a priori bien arrêtées pour ne s’intéresser qu’à un petit sous-ensemble du lexique, l’analyse d’un tableau lexical conduit à examiner de grands tableaux. Il est intéressant de réduire la dimension de ces tableaux en sélectionnant les mots intéressants ou en se limitant au termes les plus significatifs par leur effectif (fréquence absolue, spécificité...). On modifie les lignes du tableau en jouant sur les termes sélectionnés dans le lexique (utiliser la touche Esc pour revenir au lexique) ou en utilisant le bouton Sélect (Voir Sélections dans un tableau lexical). On peut changer les colonnes en revenant sur la sélection des modalités avec le bouton Croiser . On édite avec Transférer .
Poursuivre l'analyse du tableau lexical Le bouton Analyser transfère le tableau dans l'environnement d'analyse des tableaux croisés. On pourra approfondir l'analyse (Chi², AFC…) et illustrer les résultats par des graphiques ou des cartes situant les locuteurs par rapport au vocabulaire employé. Retour à l'atelier lexical par le bouton Lexique.
1/ Marquer les mots dans le lexique 2/ Choisir la variable de contexte
Tableau lexical
3/ Sélectionner les mots significatifs
4/ Analyser
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
Sélectionner les termes
4. Listes des mots spécifiques Un tableau lexical peut être présenté de manière plus directe en dressant, pour chaque colonne du tableau, la liste des mots utilisés par la catégorie correspondante. On peut ainsi chercher quels sont les mots qui distinguent chaque catégorie et analyser la variation des énoncés selon les parties du texte, selon les locuteurs, ou selon les catégories de répondants, c’est-à-dire selon le contexte.
Produire des listes de mots spécifiques Pour obtenir la liste des mots spécifiques à un contexte, allez dans la liste Vue et choisir Mots spécifiques . Comme pour un tableau lexical, choisissez la variable de contexte et / ou les modalités à retenir. Si cette variable est numérique, l'âge par exemple, commencez par définir des classes (Recoder, Mettre les numériques en classes ). Le bouton Croiser permet de changer la variable sélectionnée pour le croisement.
Présenter les listes Le Sphinx calcule le tableau lexical et affiche directement la liste des mots propres à chaque contexte en appliquant les paramètres courants de sélection (Voir Sélections dans un tableau lexical). On peut faire afficher les fréquences ou l'indice de spécificité en utilisant le bouton Compter qui permet également de paramétrer le calcul de l’indice de spécificité (Voir Indices de spécificité). Le bouton Classer permet d’afficher la liste des mots selon l'ordre du lexique courant ou par ordre décroissant des valeurs de l'indice de spécificité.
36
Outre la sélection préalable effectuée dans le lexique, le bouton Select permet d'affiner les conditions de sélection : • les mots exclusifs de chaque catégorie ; • les mots communs à toutes les catégories ; • les mots communs à certaines catégories seulement. Ces choix peuvent être complétés par des conditions sur les effectifs et/ou sur la spécificité (Voir Sélection dans un tableau lexical ). En bas de la fenêtre des mots spécifiques, on peut lire le nombre total de mots retenus. On peut ainsi contrôler la sévérité des sélections. Les boutons Analyser, Marquer, Réduire fonctionnent exactement comme dans la fenêtre du tableau lexical : Analyser pour poursuivre l'analyse en produisant des cartes d'AFC dans l'environnement d'analyse des tableaux croisés, Réduire pour éliminer les mots outils du lexique. Marquer permet d’aller marquer dans le lexique les mots sélectionnés. Ceci est nécessaire si on veut examiner leur environnement textuel, les ajouter dans un dictionnaire ou faire toute autre opération sur ce lexique particulier.
Les réponses caractéristiques Les réponses caractéristiques d'une catégorie sont celles qui contiennent le plus de mots spécifiques à cette catégorie. Grâce à un calcul effectué sur les indices de spécificité, on peut ainsi sortir, pour chaque catégorie, la liste des réponses qui la caractérisent le mieux. Pour lancer la recherche des réponses caractéristiques, activez le bouton Réponses caractéristiques qui se trouve en bas à gauche de l’écran.
1/ Marquer les mots dans le lexique 2/ Choisir la variable de contexte
Liste de mots spécifiques Nb. Occurrences
Indice de spécificité
3/ Affiner les conditions de sélection 4/ Sortir les réponses caractéristiques
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
Choisir les zones de langage
5. Sélections dans un tableau lexical ou dans des listes de mots spécifiques La recherche des caractéristiques lexicales d'un tableau lexical ou de listes de mots spécifiques permet de mettre en évidence les zones de langage, le jargon, ou le langage commun. C'est un temps fort de l'analyse lexicale. On peut procéder de manière systématique et aveugle avec l'inconvénient de produire des tableaux et listes très longs à examiner et dont les éléments ne sont pas forcément significatifs.
Procéder d'une manière sélective Le logiciel permet, par les actions sur le lexique et par un dialogue de sélection (Sélect ), de cibler la recherche : • Sélectionner les éléments lexicaux en fonction de leur contenu sémantique : on travaillera de préférence sur le texte lemmatisé, ou mieux encore sur une seule catégorie syntaxique (nom, verbe...). On a tout intérêt à éliminer les mots outils ou termes vides, effectuer des regroupements, ou sélectionner les termes les plus significatifs. Ce travail s'effectue dans le lexique par les boutons Supprimer , Regrouper , Marquer . • Filtrer par la statistique en tenant compte de 3 critères : la présence dans une seule catégorie, toutes les catégories ou certaines seulement, la fréquence et la spécificité.
Sélectionner selon le sens La case à cocher Uniquement les mots marqués permet de faire la sélection dans le lexique. Seuls les mots marqués figureront dans le tableau ou les listes. Si aucun mot n'est marqué, le lexique entier est analysé. Le bouton Marquer réalise l'opération inverse en marquant dans le lexique les mots sélectionnés grâce à la statistique.
38
Les 3 cases à cocher Inclure les mots exclusifs d'une catégorie , Inclure les mots communs à toutes les catégories , Inclure les mots communs à certaines catégories permettent de concentrer l'analyse sur des zones de langage particulières ; ce qui est essentiel du point de vue de la communication.
Limiter par la fréquence La case à cocher Seuil de fréquence permet de n'examiner que les termes suffisamment fréquents dans le corpus (on peut par exemple ne retenir que les termes de fréquence supérieure à la moyenne). Cette condition peut être nuancée en l'imposant à chaque catégorie ou à une au moins.
Tenir compte de la spécificité La spécificité indique dans quelle mesure un terme est sur-représenté ou sous-représenté dans une catégorie. L'indicateur est égal à 1 si la proportion dans laquelle il est utilisé est la même que sur l'ensemble du corpus. Si le terme est sur-employé, l’indicateur est supérieur à 1. Il est inférieur à 1 dans le cas inverse. On peut fixer un seuil et choisir de ne tenir compte que des termes de spécificité positive (case Positive cochée). En cochant également Négative , on retient tous les termes sur-représentés (marqués +) ou sous-représentés (marqués -). Les exclusifs sont marqués d’un *.
Combiner les critères de sélection On joue sur l'ensemble de ces critères en les combinant. On réduit indifféremment la sélection en jouant sur le seuil de spécificité ou sur la fréquence. Le nombre de mots sélectionnés peut orienter la recherche. Cette indication figure au bas de la fenêtre.
Sélection dans le tableau lexical et la liste de mots spécifiques
Identifier les zones de langage
Limiter par la spécificité
Limiter par la fréquence
Limiter selon le sens des mots Limiter par longueur de la liste Effectifs
Indice de spécificité
Mot sur-représenté
Mot sous-représenté
Mots exclusifs
Nb. de mots retenus Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
6. L'indice de spécificité Dans le Sphinx, les calculs de spécificité sont utilisés en différentes circonstances : rechercher des caractéristiques (Caractériser , Tableau de caractéristiques ), ), établir des listes de modalités spécifiques (Tableau de modalités spécifiques ). Ils obéissent toujours au même principe.
Comparer la distribution observée à une distribution de référence Ces calculs s'apparentent aux calculs effectués 2 pour le test du Chi . Il s'agit de mettre en évidence des écarts à une répartition de référence. On procède en calculant un effectif théorique répondant à une hypothèse de répartition proportionnelle des éléments étudiés. L'écart à la référence est mis en évidence par le rapport entre l'effectif théorique et celui qu'on observe : • si les 2 effectifs sont identiques, le rapport est égal à 1, la répartition est proportionnelle ; • si l'effectif réel est supérieur à l'effectif théorique, l'élément considéré est sur-représenté et le rapport est supérieur à 1 ; • si l'effectif réel est inférieur à l'effectif théorique, l'élément considéré est sous-représenté et le rapport est inférieur à 1.
La méthode de calcul Si on note N le nombre total de mots dans le corpus, m le mot utilisé, c la catégorie considérée, Nm le nombre de fois où le mot m est utilisé par toutes les catégories confondues, Nc le nombre total de mots dans la catégorie c et Ncm le nombre de fois où le mot m est utilisé dans la catégorie c, l’indicateur de spécificité est égal à : Ncm / (Nc * Nm / N)
40
Par défaut, cet indicateur est calculé par rapport à l'effectif total des seuls mots figurant dans le tableau. Pour que N et Nc soient calculés pour tous les mots présents dans le lexique courant il faut cocher l’option Calculé sur l’ensemble du lexique (bouton Compter ). ). En général, le calcul par rapport à l'ensemble des mots du lexique a plus de pertinence. Il renvoie à la globalité du discours. En se limitant à l'ensemble des mots sélectionnés, on risque de se référer à un ensemble dénué de fondement en terme d'énonciation.
Choisir un seuil de sélection 2
A la différence du test du Chi , on n'utilise pas ici de modèle probabiliste pour formuler un jugement sur la significativité de l'indicateur. Il s'agit plutôt de l'utiliser d'une manière relative pour sélectionner les écarts les plus forts. Le problème est en effet ici de trouver des moyens efficaces et pertinents pour réduire la variété lexicale et ne retenir que les éléments sur lesquels les différences sont les plus fortes. S'il s'agit maintenant d'apprécier la significativité de 2 ces écarts, on pourra se reporter au test du Chi après avoir recodé les éléments lexicaux étudiés dans une variable nominale (Voir Recoder les textes).
Indicateur de spécificité
Tableau lexical
Effectif théorique (hypothèse de répartition proportionnelle)
Indicateur de spécificité
=
Nb. total de tous les mots dans la catégorie ( Nc)
Effectif réel (Ncm)
=
Nb d ’occurrence du mot toutes catégories ( Nm)
X
Nb. total d ’occurrence de tous les mots dans toutes les catégories ( N)
1,09 = 9 / (33 * 27 / 108) )
Effectif théorique
Liste de mots spécifiques
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
7. Comparer à un lexique de référence
Ainsi, si on étudie chaque semaine le corpus d’une émission télévisée, on pourra, semaine après semaine, construire le dictionnaire de référence de cette émission et comparer le vocabulaire de l’émission en cours à l’ensemble des émissions précédentes, et ceci, sans traiter le trop volumineux corpus de l’ensemble des émissions.
La fonction Comparer , accessible par un des boutons de commande de l’atelier lexical, permet d’effectuer une comparaison du lexique avec un dictionnaire de référence. Le dictionnaire de référence est un ensemble de mots assortis d’une fréquence. Comparer le lexique du corpus étudié avec un dictionnaire de référence, c’est retrouver les mots qui sont surreprésentés ou sous-représentés dans le texte par rapport à cette référence.
Quelle référence ? Un dictionnaire de référence peut être général, par exemple le lexique de tous les mots utilisés dans tous les articles du journal « Les Echos ». On comparera une coupure de presse à cette référence pour mesurer si elle est dans le ton. Un dictionnaire de référence peut être thématique, par exemple les verbes modaux dans l’ensemble des discours d’une personnalité politique. On comparera l’utilisation de ces verbes entre sa dernière prestation et l’ensemble de ses discours.
Créer / enrichir un dictionnaire de référence La syntaxe d’un dictionnaire de référence est : jaune rouge vert bleu noir
24 31 23 94 45
Chaque mot est suivi sur la même ligne de sa fréquence. Un tel dictionnaire peut être construit dans un traitement de textes à partir de valeurs obtenues par ailleurs. Le dictionnaire peut aussi être enrichi en lui ajoutant le lexique du corpus en cours d’étude.
42
Résultats de la comparaison Chacun des mots pourra être : dans le corpus mais pas dans la référence ; • dans la référence mais pas dans le corpus ; • sous-représenté dans le le corpus ; • sur-représenté dans le corpus. corpus. •
On cochera les éléments souhaités dans le dialogue des options.
Options de calcul Le calcul qui permet de fonder la sur-représentation ou la sous-représentation est le Rapport des fréquences ou ou la Comparaison de fréquences . Les fréquences servant de base au calcul peuvent aussi être calculées de deux manières : • le pourcentage d’apparition du mot par rapport à l’ensemble des mots concernés (corpus ou référence) ; • le pourcentage d’apparition du mot par rapport à l’ensemble des mots communs au corpus et à la référence. Ces différents modes de calcul ont déjà été décrits dans le cadre des listes de m ots spécifiques.
Limiter la comparaison Comme dans les listes de mots spécifiques, le résultat de cette comparaison est trop volumineux et il faut limiter cette comparaison pour n’en restituer que l’essentiel. On limitera ainsi la comparaison aux seuls m ots ayant une fréquence minimale n dans le corpus étudié. On appliquera un seuil à la comparaison pour ne restituer que les éléments vraiment sur-représentés ou sousreprésentés. On ne restituera que les n mots les plus caractéristiques.
5 des couleurs référencées n’apparaissent pas dans le texte
Les couleurs dans le texte ne sont qu’au nombre de trois et ne représentent que 1,32% du corpus
Le mot “ rouge ” est nettement surreprésenté dans le texte. En effet, il représente 77,8 % des occurrences des couleurs dans le corpus et 20,8 % des occurrences des couleurs dans le dictionnaire de référence.
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
44
Codification automatique des textes
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
Sélectionner une variable texte
1. Créer de nouvelles variables d’origine lexicale Une variable texte peut être transformée par la lemmatisation et enregistrée sous la forme d’une nouvelle variable contenant le texte lemmatisé. Le Sphinx offre d’autres opportunités pour créer de nouvelles variables à partir du texte anal ysé : • Variables nominales pour repérer dans le texte la présence d’un ou plusieurs mots définis a priori comme les modalités de la nouvelle variable : le texte est codifié automatiquement en fonction des mots marqués dans le lexique. • Variables numériques pour enregistrer une mesure de nature lexicale effectuée sur chaque observation : le texte est quantifié. • Variable texte pour enregistrer un texte modifié par rapport à l’original : le texte est transformé. Toutes ces opérations donnent lieu à la création d’une nouvelle variable qui vient s’ajouter à la suite de la liste des variables et des questions. Ces nouvelles variables seront disponibles pour toutes les analyses statistiques que le Sphinx propose par ailleurs. La possibilité de créer ainsi de nouvelles variables nominales ou numériques permet de ramener l’analyse d’un corpus textuel à des procédures statistiques classiques. D'autre part, en transformant le texte, on peut conserver définitivement les réductions opérées à partir du lexique (éliminations, regroupements thématiques, solidarisation des expressions et segments...). La séquence des opérations est la suivante :
46
L'article Etudier les textes du menu Stade et du menu Recoder permet de choisir la variable texte et vous place dans l'atelier lexical. Dans l'atelier, vous pouvez aussi directement choisir une autre variable en utilisant le bouton Autre .
Sélectionner les éléments lexicaux à prendre en considération Dans le lexique des mots ou opère les réductions, regroupements utiles. Puis éléments à partir desquels nouvelles variables.
des expressions, on suppressions ou on sélectionne les seront créées les
Sélection d'une procédure de recodification Le bouton Recoder ouvre le dialogue dans lequel on définit le type de la nouvelle variable et les opérations à mettre en œuvre pour la créer.
Dénomination et enregistrement de la nouvelle variable Le dialogue habituel de création d'une nouvelle variable s'affiche. La première étape consiste à donner un nom à cette variable. Pour la suite des analyses, il est utile de noter toutes les indications nécessaires afin de retrouver l’origine des nouvelles variables ainsi créées. A cet effet, utiliser le cadre prévu pour la description de la variable en notant les principales étapes qui la définissent.
1/ Sélectionner une variable texte 2/ Préparer le lexique et / ou marquer les é léments à prendre en considération
3/ Sélectionner le type de la nouvelle variable
Recoder selon la présence des mots mar ués
Mesurer les propriétés lexicales
Transformer le texte
4/ Nommer la nouvelle variable et la créer
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
2. Codification lexicale Il s'agit de codifier le texte en repérant automatiquement la présence, dans les réponses, des mots marqués dans le lexique. Cette méthode est très efficace si le lexique a été au préalable correctement mis en forme : lemmatisation ou regroupement des différentes formes d’un même mot, regroupement des synonymes ou équivalents, usage de dictionnaires thématiques pour regrouper entre eux tous les termes porteurs d’une même signification. Sous ces conditions, on peut faire l’économie de la méthode classique d’analyse de contenu (Voir Coder des textes ) dont les inconvénients sont largement compensés par le caractère automatique et objectif de la procédure qui suit. La démarche générale est la suivante : • préparer le lexique : analyser de préférence un corpus lemmatisé et effectuer les groupements nécessaires ; • marquer dans le lexique les éléments que l’on souhaite repérer dans la réponse. S’il s’agit de termes regroupés (éléments commençant par un #), la présence d’un au moins des éléments du groupe suffit pour identifier la présence du thème correspondant ; • agir sur le bouton Recoder et choisir Variable fermée pour définir le type de variable à créer.
Création de variables oui/non Si vous sélectionnez l’option Variable oui/non : la nouvelle variable aura deux modalités de réponses : « Oui » et « Non ». La modalité « Oui » correspond au cas où l’un des mots sélectionnés dans le lexique est présent au moins une fois dans la réponse.
48
Attention : le balayage des réponses se fait en suivant les règles de la navigation lexicale. Si la liste déroulante Navigation est sur l’option Obs. avec le mot actif , seules les observations contenant ce mot activeront la modalité « Oui ». Pour repérer la présence de l'un des mots, il convient donc de sélectionner l’option Obs. ayant un des mots marqués .
Par défaut, la liste des mots marqués est reprise dans le libellé de la nouvelle variable sauf si vous entrez votre propre description. L’énumération est tronquée si la liste est trop longue.
Création d’une variable fermée sur les mots du lexique Si vous optez pour Fermée sur les mots marqués du lexique , la nouvelle variable a autant de modalités que de mots marqués dans le lexique. Au maximum 50 ; ce qui correspond à la limite des réponses aux questions fermées. Une même réponse peut contenir plusieurs mots marqués. Ainsi la nouvelle variable est à réponses fermées multiples. Le nombre maximum de réponses possibles est a priori égal au nombre de mots sélectionnés. Il est finalement ajusté par le logiciel en fonction du nombre maximum de mots effectivement présents dans une réponse. Le résultat du dépouillement à plat de la nouvelle variable ne correspond pas nécessairement au nombre d’occurrences affichées dans le lexique. En effet, les variables fermées sur les mots du lexique dénombrent des réponses et non des mots. Si un mot est présent plusieurs fois dans une même réponse, l’effectif des réponses n’est incrémenté que de 1. L'effectif obtenu indique le nombre d'observations contenant au moins une fois le mot considéré.
Coder les mots marqués dans le lexique
Eléments lexicaux pris en compte
Variable Oui / Non
Plaisir de manger 12
Oui Non TOTAL OBS.
Plaisir de manger_R2
Cas OVALE - Analyse textuelle de sites
Non- réponse manger Variable fermée sur les bon repas mots du lexique ami goût plaisir plat faim aliment #famille restaurant table Inte rnet – Copyright Le Sphinx Développement 2005 TOTAL -OBS.
Nb. cit . 236 74 310
Nb. cit. 74 107 95 50 38 24 23 19 15 14 26 13 10 310
F réq. 76,1% 23,9% 100%
Fréq. 23,9% 34,5% 30,6% 16,1% 12,3% 7,7% 7,4% 6,1% 4,8% 4,5% 8,4% 4,2% 3,2%
3. Mesures lexicales
L’option Pour chaque mot permet de créer autant de variables que de mots sélectionnés. Leur nom contient celui du mot suivi de l'extension _O. Elles enregistrent le nombre de fois où le mot est présent dans l'observation.
On cherche à caractériser les énoncés par le poids de certains mots ou l'énonciation par les caractéristiques de chaque observation. Ceci peut donner lieu aux mesures suivantes :
En sélectionnant Pour l'ensemble des mots , une seule variable est créée : elle donne le nombre fois où l'un des mots marqués est présent.
Indications relatives à la présence de certains mots On cherche à mesurer l'importance dans le corpus des mots sélectionnés dans le lexique : • Nombre d’occurrences des mots marqués : calculer le nombre de fois où ces mots apparaissent ; • Intensité lexicale des mots marqués : calculer leur poids relatif par rapport au nombre total de mots de la réponse (100*Nb. mots marqués / Nb. total de mots). Ces calculs peuvent s’appliquer à l’ensemble des mots marqués ou à chacun d’eux. Dans ce dernier cas, on crée autant de variables que de mots marqués.
Caractéristiques des observations On prend en compte le lexique courant sans tenir compte des mots marqués : • Longueur de l'observation : compter le nombre de mots utilisés ; • Banalité de l'observation : calculer le nombre moyen de fois où les mots de la réponse sont répétés dans tout le corpus ; • Richesse de l'observation : calculer le nombre de mots différents. Pour construire ces indicateurs, on sélectionne l'une des mesure lexicales proposées.
Nombre d’occurrences des mots marqués S'il n'y a pas de m ots marqués, le calcul tient compte de la totalité des mots du lexique courant (sans les mots ignorés ou supprimés).
50
Intensité lexicale des mots marqués Cet indicateur permet de mesurer l’importance relative d’un mot ou d’un groupe de mots. Il exprime, en pourcentages, la place accordée aux thèmes ou significations que ces mots représentent. On a les mêmes options que pour le nombre d'occurrences : calculer une variable pour chaque mot (notée mot_I) ou une seule variable pour l'ensemble des mots .
Banalité de l'observation Cet indicateur est égal au nombre de fois où les mots de l'observation apparaissent en moyenne dans tout le corpus. Cette variable permet ensuite de sélectionner les réponses les plus banales, les moins banales et de les lister... Il est préférable de calculer la banalité en ignorant les mots outils.
Nombre total de mots (longueur de l'observation) En calculant le nombre de mots de l'observation - la longueur - (sur la base du lexique courant et sans tenir compte des mots marqués), on obtient un indicateur très utile dans l'analyse des questions ouvertes. Il est identique à celui obtenu en choisissant Nombre d’occurrences des mots marqués avec l'option Pour l'ensemble des mots et sans mots marqués dans le lexique.
Richesse de l'observation Elle est égale au nombre de mots différents. Ce calcul ne tient pas compte des mots marqués et se fait sur la base des éléments du lexique courant.
Mesures lexicales
Groupe des variables de cha ue mot
Valeur moyenne
Somme
0,37 0,34 0,17 0,09 0,08 0,08 0,08 0,06 0,05 0,05 0,04 0,03 0,12
115 105 53 29 26 24 24 20 15 14 13 10 448
manger_O bon_O repas_O chose_O #en_famille_O goût_O plaisir_O plat_O faim_O aliment_O restaurant_O table_O Ensemble
Une variable pour l’ensemble des mots
Plaisir de manger__R
F ré q.
Non- réponse 1 0,3% Moins de 1,00 73 23,5% De 1,00 à 2,00 104 33,5% De 2,00 à 3,00 71 22,9% De 3,00 à 4,00 38 12,3% De 4,00 à 5,00 18 5,8% Plus de 5,00 5 1,6% TOTAL OBS. 310 100% Minimum = 0, Maximum = 6 Somme = 458 Moyenne = 1,48 Ecart-typ e = 1,24
Nombre d’occurrences des mots marqués
Intensité
N b. ci t.
=100*Nb. Occurrence marquées/ Nb. total de mots
Longueur
Banalité Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
Richesse
•
4. Modification du contenu d'une variable texte Comme on le fait quand on lemmatise un texte, il s’agit là de créer une nouvelle variable texte contenant un texte modifié. Cette possibilité permet : • d’enregistrer un nouveau texte en tenant compte des réductions, suppressions et regroupements opérés dans le lexique des mots ou des expressions. Ceci est utile pour travailler ensuite sur des textes rectifiés ou expurgés ; • de changer le niveau d’analyse d’un texte en fractionnant chaque observation en fragment de texte plus fin.
Texte réduit aux mots du lexique Après avoir fait dans le lexique les modifications désirées : ignorer des mots (Réduire ), en supprimer (Supprimer ), en regrouper (Regrouper ), on exécute la séquence Recoder / Texte modifié / Texte réduit aux mots du lexique . Dans le contenu de la nouvelle variable texte, les mots ignorés ou supprimés n'apparaîtront plus, et les éléments d'un groupement défini dans le lexique seront remplacés par le nom de ce groupement. Si des mots sont marqués dans le lexique, eux seuls seront utilisés pour construire la nouvelle variable.
Relier les mots consécutifs Il faut distinguer 2 cas :
52
•
Lexique des mots : si c'est le lexique des mots qui est ouvert (menu Lexique / Mots ), marquez dans le lexique les éléments appartenant aux mots composés que vous souhaitez reconstituer, puis exécutez : la séquence Recoder / Texte modifié / Relier les mots marqués consécutifs. On crée ainsi un nouveau texte où les suites consécutives seront solidarisées par un tiret ( _ ) pour ne former qu'une seule forme graphique. C'est une manière de solidariser les mots composés. Mais il est beaucoup plus intéressant de procéder à partir du lexique des expressions. Lexique des expressions : lorsque le lexique des expressions est ouvert, le dialogue du bouton Recoder offre 2 possibilités : Texte réduit aux expressions (la nouvelle variable texte ne contiendra que ces expressions) ou Relier les mots de chaque expression. Dans ce dernier cas, la nouvelle variable conserve l'intégralité du texte original mais les expressions apparaîtront comme une seule forme graphique (les éléments formant l'expression sont reliés par _ : mot_composé).
Modifier le texte Transformer en fonction des mots
Transformer les expressions Réduire aux mots du lexique
Relier les expressions
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
• dans
5. Fractionner une variable texte Cette option est utile quand on analyse des textes dont le découpage initial se révèle inadéquat ou quand les réponses sont longues et comportent plusieurs phrases. Il est en effet gênant, pour certaines opérations (lecture de la fenêtre corpus, navigation lexicale, création de variables fermées sur les mots du lexique), d’avoir, au niveau de l’observation, un texte trop long ou comportant de trop nombreuses unités de significations ou de trop nombreuses phrases. Le principe consiste alors à fractionner chaque observation en fonction des séparateurs spécifiés : retour chariot pour découper en paragraphes, point pour les phrases, autres signes de ponctuation pour les propositions, ou tout autre caractère introduit dans le texte à cette fin. On opère ainsi un changement d'unité statistique (d'une population de paragraphes à une population de phrases...). Une nouvelle enquête est alors créée : elle comporte un nombre d’observations supérieur à la première et répond aux caractéristiques suivantes : • la nouvelle variable texte contient les fragments résultant du découpage ; • la valeur de toutes les autres variables est reprise à l’identique pour chaque nouvelle observation créée par éclatement de l’originale ; • le texte des autres variables textes n’est repris qu’une seule fois dans l’observation correspondant au premier fragment du texte éclaté. Pour les autres fragments, elle est vide ; • une variable CLEF, de type numérique, est créée automatiquement à la fin de la liste des variables. Elle contient, pour chaque nouvelle observation, la provenance de la partie fractionnée. Pour fractionner une variable texte, procédez ainsi :
54
le dialogue ouvert par le bouton Recoder , sélectionnez Texte modifié / Fractionner les réponses ; • choisissez le ou les séparateurs désirés en les tapant dans la boîte Fractionner les réponses pour les séparateurs ; • un dialogue vous avertit qu’une nouvelle enquête va être générée ; • dans le dialogue standard de gestion de fichiers, donner un nom de répertoire pour la nouvelle enquête ; • le logiciel procède au découpage et à la création de la nouvelle enquête dans laquelle vous vous retrouvez. C’est la nouvelle variable qui se trouve maintenant active. Vous pouvez vérifier que le nombre d’observations a changé. Pour revenir à l’enquête d’origine, il faut l’ouvrir à nouveau.
Changement d'unité statistique En procédant ainsi, on passe par exemple d'une population de paragraphes à une population de phrases. On change d'unité statistique. Un cas particulier de cette opération consiste à fractionner la réponse en autant de mots qu'elle contient. Ceci est particulièrement intéressant si la réponse contient par exemple des noms de marque. Ce fractionnement s'effectue au stade de la Saisie des réponses , dans le menu Gérer et dans la fonction Changer d'unité statistique : option Autant d'unités que de fragments d'une question texte (Voir le paragraphe Changer d'unité statistique).
Texte initial
l
Texte fractionné
t
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
56
Ouvrir un fichier de données textuelles
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
1. Du corpus textuel à la base de données On peut, avec le Sphinx, analyser n’importe quel corpus disponible sous la forme d’un fichier texte (ASCII) : • interviews non structurées, tables rondes, comptes rendus de réunions, ... saisis dans un traitement de textes ; • documents de toute nature : articles de presse, textes littéraires, pages Html, … récupérés dans un fichier texte ; • bases de données : fichiers d’adresses, bases bibliographiques, … exportés sous forme de fichier t exte. Pour analyser ce type de données, il faut tout d’abord les intégrer dans Sphinx en créant, à partir du ou des fichiers d'origine, une base de données adéquate. C’est ce qu’on peut faire à partir du menu Fichier et de la rubrique Ouvrir un fichier de données . Mais au préalable, il faut réfléchir à la structuration du corpus. Est-il formé naturellement d'unités élémentaires qui se répètent comme les enregistrements d'une base bibliographique ou les couples questions/réponses d'une interview ? Peut on identifier différents sous-ensembles de textes comme les titres et les résumés d'une base bibliographique, ou les questions et les réponses dans une interview ? Est-il structuré en catégories homogènes comme l'entretien auquel attribuer un couple de question / réponse dans un corpus regroupant plusieurs interviews où une année situant le titre et le résumé d'un ouvrage ? La réponse à ces questions dépend de la structuration "naturelle" du corpus, mais également de la stratégie d'analyse envisagée. Elle conduit à : Définir les observations : selon quelles élémentaires découper le corpus ?
58
unités
Phrases, paragraphes, pages, parties, documents, répliques, ensembles de répliques, interviews, fiches... constitueront la population à analyser. En analyse de données textuelles, on utilise souvent le mot fragment pour qualifier ces unités élémentaires, qui correspondent aux individus ou observations formant la population étudiée. Définir les variables : selon quels points de vue structurer le corpus ? • On peut considérer le texte relatif à une unité élémentaire comme un tout ou distinguer plusieurs sousensembles (la question et la réponse, le titre et le résumé...) et définir ainsi une ou plusieurs variables textes. • On peut aussi identifier des catégories auxquelles appartiennent les unités élémentaires : le document ou la partie qui situe la phrase, le nom de la personne interviewée qui situe la question et la réponse, l'année pour le titre et le résumé. On crée pour cela des variables nominales dites variables de contexte qui situent les variables textes.
La base de données créée à partir du corpus sera organisée en fonction des indications de découpage et de structuration. Elle sera composée d’autant de fragments (lignes / observations...) que le texte contient d’unités élémentaires. Chaque fragment sera composé d’une ou plusieurs variables : textes et contextes définissant le statut des textes. A titre d'exemple, le schéma ci-contre illustre les différentes manières de structurer le texte de 3 interviews non directives : • découper selon l'entretien : la base comporte 3 observations (les interviews), une variable texte (texte des questions ou des réponses), une variable de contexte (l'entretien). On ne peut pas faire la différence entre question et réponse ; • découper selon la prise de parole : la base comporte 24 observations (tour de parole ou réplique), une variable texte (texte des questions ou des réponses), 2 variables de contexte : l'interview, et le statut de la variable texte (Question ou Réponse). On ne peut pas croiser question et réponse ; • découper selon l'échange : la base comporte 12 observations (échanges question / réponse), deux variables textes (le texte de la question et le texte de la réponse), une variable de contexte (l'interview). Cette solution permet de distinguer question et réponse et de croiser leur vocabulaire.
... aux bases de données
Du texte …
Variables de contexte
Variables textes
Questions
Réponses
Questions
Réponses
Identité de l’interview Statut du texte (question/réponse) Texte des questions ou des réponses Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
3 entretiens
24 répliques
12 échanges question/réponse
• la
2. Ouvrir un texte à analyser C'est un cas particulier de l'ouverture de données externes. Vous devrez d'abord confirmer qu'il s'agit d'un texte à analyser, ouvrir ensuite le fichier, et choisir enfin à quel type de structuration il correspond.
Lancer la séquence d'ouverture Si vous venez de démarrer le Sphinx, utilisez le bouton Fichier de données . Si vous êtes déjà en train de travailler, utilisez dans le menu Fichier , l'article Ouvrir un fichier de données . Vous pouvez également utiliser le bouton Ouvrir un texte du panneau lexical.
Dans le premier cas, choisir l’option Les textes sont annotés : les indications naturelles de structurations sont inexistantes ou peu nombreuses, hormis les annotations et marques introduites dans une phase préparatoire pour guider le logiciel.
Dans le dialogue Ouvrir un fichier de données , choisissez l'option Un texte à analyser . Ne choisissez Des données formatées que si vos données sont présentées sous forme de tables (en provenance d'Excel ou Access par exemple).
Dans le deuxième cas, choisir l’option Les textes sont balisés : on trouve les traces de l'organisation des données (les balises), elles résultent de leur origine informatique (bases de données, fichiers) ou de leur mode d'élaboration (fiches de lectures, compte rendu d'entretiens...).
Ouvrir le fichier Avec le dialogue habituel de Windows, cherchez votre fichier et ouvrez-le. Une nouvelle fenêtre apparaît et vous montre le contenu du fichier. Si vous ne reconnaissez pas vos données, vous vous êtes trompé de fichier ou ce n'est pas un fichier au format texte. L'ouverture ne se passera correctement que si le fichier n'est pas utilisé en même temps dans un autre logiciel.
Choisir le format correspondant à la structuration des données Avant de passer à l'étape suivante, vous devez indiquer au logiciel comment il devra interpréter les indications de structuration présentes dans vos données. Deux possibilités vous sont offertes :
60
•
première correspond au cas où vous analysez un ou quelques textes, peu ou irrégulièrement structurés : discours, livre, rapport, pièce de théâtre, compte rendu de réunion, de table ronde, focus groups... ; la deuxième, au contraire, concerne des ensembles de textes régulièrement structurés : bases de données bibliographiques, sites Internet, collection de documents (coupures de presses, échanges dans une messagerie...), entretiens non directifs...
Le choix renvoie aussi au caractère répétitif ou non du matériau à analyser. L'option Les textes sont balisés correspond bien aux cas où la nature des données impose un découpage en unités élémentaires (la note documentaire, la fiche, la coupure de presse, le couple question / réponse). Au contraire, l’option Les textes sont annotés correspond au cas où aucun choix ne s'impose a priori.
Cas OVALE - Analyse textuelle de sites Inte rnet – Copyright Le Sphinx Développement - 2005
3. Texte balisé On obtient par exemple un texte balisé en extrayant des éléments d'une base de données ou en compilant un ensemble de messages électroniques. Ces données sont en effet structurées par les balises qui indiquent les différentes rubriques. Toutes ne sont pas forcément présentes, mais chaque information est rattachée à l'une d'elles. A partir des balises, le logiciel peut organiser la nouvelle base de données : il repère les balises dans le texte et les soumet pour validation à l'utilisateur. Puis il crée une variable par balise, et parcourt le texte en affectant ce qui suit chaque balise à la variable correspondante. Lorsqu'il rencontre à nouveau une balise, il crée une nouvelle observation.
Définir les caractères délimitant les balises Après avoir sélectionné l’option Les textes sont balisés , un écran vous propose de valider les caractères permettant de repérer les balises : remplir pour cela les cases Les balises commencent par , et Les balises finissent par. Le retour chariot (^p, saut à la ligne) et les deux points ( : ) sont proposés par défaut. Les blancs sont ignorés. Le logiciel explore les données et dresse la liste de tout ce qui se trouve entre 2 caractères délimiteurs. Les ":" qui peuvent par ailleurs être présents dans le texte sont des sources d'erreur qu'il conviendra d'ignorer.
Contrôler la validité des balises trouvées Le logiciel parcourt le texte et dresse la liste de tout ce qu'il trouve entre les caractères délimiteurs en indiquant les fréquences d'apparition. L'écran suivant affiche cette liste ; ce qui permet de préciser les éléments à considérer comme balises et ceux qui doivent être ignorés. Utilisez la case à cocher Ne pas considérer la chaîne comme une balise pour marquer d'un x les éléments à ignorer. Dans l'exemple ci-contre, c'est le cas de médecine , économie politique ...
Une autre case à cocher permet d'indiquer si, lorsqu'une balise est absente, le contenu de la variable doit être admis à non réponse ou si on doit plutôt Conserver la valeur précédente .
Identification des variables et des observations La validation des balises définit la structure de la table de données. A chaque balise correspond une variable de la table (colonnes). Il y a autant de variables que de balises et autant d'observations que le nombre de fois où la balise la plus fréquente apparaît dans le texte (lignes). Une observation est définie par l'ensemble des balises (variables). Le logiciel parcourt le texte en affectant ce qui suit une balise à la variable correspondante. La répétition d'une balise marque le passage à l'observation suivante. Pour les balises manquantes, la variable est mise à non réponse ou reprend la valeur précédente. En fin de lecture, le logiciel affiche la liste des variables et leur donne un type par défaut. On peut le modifier en indiquant le plus approprié dans la liste.
Création de la base Sphinx Après avoir contrôlé les variables, validez et donnez un nom à votre base. Une nouvelle enquête est créée, vous pourrez la reprendre et l’analyser comme toutes les autres.
2
Les questions / réponses
4. Préparer et ouvrir un fichier d'entretiens semi-directifs Les entretiens semi directifs sont insuffisamment structurés pour être saisis dans le cadre fixé a priori pour les questionnaires Sphinx, mais ils présentent un niveau de structuration qui conduit à les analyser comme des textes balisés. C'est dans cette optique qu'il convient d'organiser leur saisie. Dans l'exemple ci-contre, on utilise des balises en début de ligne (délimiteurs « ^p » et « : ») pour : • définir la signalétique de l'entretien (Entretien, Sexe, Age, CSP) ; • indiquer les grandes parties de l'entretien (Partie) ; • distinguer les questions et les réponses (Q, R).
Traitement des variables signalétiques
Ces balises ne sont pas marquées, elles définissent l'observation élémentaire, c'est-à-dire que leur répétition fait passer à l'observation suivante. Si 2 "Q" se suivent, ils appartiennent nécessairement à des observations différentes, et dans ce cas, on aura un "R" à non réponse.
Précautions à prendre au moment de la saisie Le logiciel applique aveuglément les "règles de reconnaissance" du texte. Il faut par conséquent s'assurer qu'elles ont bien été respectées à la saisie : • les délimiteurs de balises ne doivent pas être présents ailleurs dans le texte. Attention au " : " ou utilisez d'autres caractères( <, >, ]...) ; • toutes les balises de contexte doivent être documentées (même si elles sont éventuellement vides).
A la lecture du fichier, le logiciel repère que les balises Entretien, Sexe, Age, Csp sont en nombre inférieur aux autres. Il propose de les éliminer en les marquant comme éléments à ne pas considérer comme balise (case à cocher Ne pas considérer la chaîne comme une balise ). Il faut changer cela en indiquant que lorsque la balise est absente, la valeur précédente doit être conservée. En effet, on souhaite ici que le couple question/observation définisse l'observation élémentaire, les autres balises renvoyant à des variables de contexte. Pour que ces variables soient bien documentées, il faut cocher la case Si la balise est absente, conserver la valeur précédente .
Traitement des parties On procède de la même manière pour la balise Partie . Ceci implique que tout couple de question/réponse est rattaché à une partie. On peut ainsi indiquer la structuration générale de l'entretien sans devoir nécessairement trouver toutes les parties dans tous les entretiens ni tous les couples de questions/réponses d'une même partie les uns à la suite des autres. Seuls les changements de partie doivent être signalés ; c'est ce que permet l'option Si la balise est absente, conserver la valeur précédente.
Cas OVALE - Analyse textuelle de sites Int ernet – Copyright Le Sphinx Développement - 2005
Signalétique Variables de contexte Parties de l’interview
Questions
Réponses
4
Variables textes
les annotations globales de type JALON : tous les fragments, jusqu'à la prochaine annotation globale, sont désormais affectés par cette annotation ; • la syntaxe à respecter est la suivante : le contenu est défini entre crochets et précédé d'une mention précisant son type : [MT= contenu ] •
5. Texte annoté On utilise cette approche lorsque le ou les textes à analyser sont faiblement structurés ou pas du tout. Se pose alors la question du découpage en fragments élémentaires. La démarche la plus simple consiste à s'appuyer sur la structuration naturelle du texte. Enfin, la possibilité d'interpréter des annotations apportées dans le texte permet d'en repérer les éléments et/ou de les commenter.
Découper le texte en fragments élémentaires Indiquez si vous souhaitez découper le texte en phrases ou en paragraphes en cochant les boutons appropriés. Le Sphinx crée un nouveau fragment à chaque caractère de ponctuation forte (Phrases ) ou retour chariot (Paragraphes ). ). Vous pouvez également spécifier le caractère séparateur de votre choix pour découper selon vos propres indications (Caractères séparateurs ). ). Une opération un peu plus complexe vous permet de définir plusieurs caractères séparateurs dont certains serviront à structurer votre texte.
M= pour MARQUE (variable fermée) MT= pour MARQUE TEXTE (variable ouverte) J= pour JALON (variable fermée) JT= pour JALON TEXTE (variable ouverte)
Le bouton Détail disponible dans l’option Annotations permet : • d’indiquer les annotations qu'on souhaite utiliser (cocher la case correspondante) ; • de donner un nom à la variable ; • de préciser si on souhaite conserver les annotations dans le texte ; • d’organiser la propagation de la dernière annotation (Marque absente = Marque précédente ). ).
Numéroter les fragments et les parties Le bouton Numérotation permet de numéroter les fragments et / ou de les répartir en un nombre de parties à déterminer (Indicateur de parties ). ).
Par exemple, pour distinguer des chapitres et des sections, portez, dans votre texte, à chaque début de chapitre le caractère $, à chaque début de section, le caractère £. Pour indiquer que vous souhaitez découper votre texte en phrases et que les chapitres sont contenus dans des sections, cochez Niveaux et entrez vos caractères séparateurs sur le modèle ci contre. Les séparateurs de fragments figurent à gauche, ceux qui indiquent les chapitres et sections figurent en deuxième et troisième position (selon l'ordre d'inclusion).
Interpréter les annotations Les annotations sont des repères ou commentaires rajoutés dans le texte. Elles sont reconnues par le logiciel et permettent de créer des variables de contexte caractérisant les fragments auxquels elles s'appliquent. Le contenu de l'annotation peut donner lieu à une variable fermée ou ouverte texte. On peut, d'autre part, les distinguer selon leur portée : • les annotations locales de type MARQUE : un seul fragment sera affecté par l'annotation (le fragment qui la contient) ; Cas OVALE - Analyse textuelle de sites Int ernet – Copyright Le Sphinx Développement - 2005
1/ Découper 2/ Structurer
Structurer par niveaux
Structurer par décompte des fragments Structurer par annotations Jalon Marque
Séparateur
Sélectionner les annotations et définir les variables
6
6. Exemples de textes annotés Selon la nature du corpus analysé et des annotations qui ont été mises, on utilisera différemment les possibilités offertes par le dialogue d'ouverture d'un Texte annoté .
Analyse de discours On peut ramener à ce cas celui de tout texte mono bloc dans lequel aucune structuration particulière n'est mise en évidence hors mis celle de la syntaxe. La solution la mieux appropriée consiste à : • fragmenter le texte en phrases et dénombrer les paragraphes. Chaque phrase se trouve ainsi affectée à un paragraphe repéré par son numéro. Pour cela, sélectionner Niveaux et entrer les caractères de ponctuation forte dans la case de gauche et le retour chariot dans la case de droite ; • découper le texte en 5 parties consécutives et de longueur égale (en nombre de fragments). On peut ainsi identifier des parties de début, de milieu et de fin du texte. Pour cela, dans le dialogue Numérotation cocher Numérotation des parties et Indicateur de partie : 5 . La base de données obtenue comporte la variable texte et 3 variables de contexte contenant le numéro de fragment le numéro de paragraphe et de partie.
La nouvelle base contiendra la variable texte et 3 variables de contexte : le statut du texte (Question, Réponse), la Partie et le document d'origine (Fichier). En procédant ainsi, on peut définir la strate des questions, celle des réponses et se concentrer sur l'un ou l'autre des corpus. Mais on ne pourra pas rapprocher le texte d'une question de celui de la réponse qu'elle provoque. Cette stratégie convient aux entretiens non directifs. Mais si l'entretien est dirigé avec des questions qui reviennent à l'identique, il vaut mieux procéder comme pour un texte balisé. En assimilant le couple question / réponse à une observation, on pourra croiser les vocabulaires correspondants.
Pièce de théâtre Ce cas peut se ramener au cas précédent : on fait précéder chaque réplique d'une marque Personnage : [M=Harpagon], [M=Elise]. En début de chaque Scène, on pose un Jalon [J=Acte I Scène 1]..... Pour identifier les Actes indépendamment les uns des autres, on peut utiliser un séparateur de niveau en posant par exemple des $ au début de chaque Acte. La fragmentation peut se faire par phrases ou par répliques. Dans ce dernier cas, faire coïncider la réplique et le paragraphe ou introduisez un niveau réplique.
Entretien non directif Dans ce cas, on souhaite distinguer les questions des réponses pour pouvoir analyser le texte des réponses d'une manière isolée. Dans le texte, on porte les annotations [M=Question] et [M=Réponse] au début de chaque Question / Réponse et après un retour à la ligne. Pour identifier d'éventuelles parties, on ajoute des annotations de type jalon : [J=Introduction], [J=Partie 1]... au début de chaque partie. Pour découper le texte, choisissez Phrases et dans le dialogue Annotations , nommez Statut la variable Marque et Partie la variable Jalon. Cochez la case Marque absente = Marque précédente (ceci permet de ne pas répéter la marque à chaque phrase). Si vous avez plusieurs entretiens, vous pouvez faire un fichier pour chacun. Cochez alors la case Plusieurs fichiers. Cas OVALE - Analyse textuelle de sites Int ernet – Copyright Le Sphinx Développement - 2005
AVARE.DOC : tel qu’il nous est parvenu ACTE_V - SCENE_V ANSELME, HARPAGON, ELISE, MARIANE, FROSINE, VALERE, MAITRE_JACQUES, LE_COMMISSAIRE, SON_CLERC. HARPAGON : Oui, ils se sont donné l'un à l'autre une promesse de mariage. Cet affront vous regarde, seigneur Anselme, et c'est vous qui devez vous rendre partie contre lui et faire toutes les poursuites de la justice pour vous venger de son insolence. ANSELME : Ce n'est pas mon dessein de me faire épouser par force et de rien prétendre à un cœur qui se serait donné ; mais, pour vos intérêts, je suis prêt à les embrasser ainsi que les miens propres. HARPAGON : Voilà, monsieur, qui est un honnête commissaire, qui n'oubliera rien, à ce qu'il m'a dit, de la fonction de son office. (Au commissaire) Chargez-le comme il faut, monsieur, et rendez les choses bien criminelles.
Annotations Jalons acte et scène liste des personnages présents Marques nom du personnage didascalies
AVARE.TXT : après le traitement dans Word $[J=ACTE_V - SCENE_V][JT=ANSELME, HARPAGON, ELISE, MARIANE, FROSINE, VALERE, MAITRE_JACQUES, LE_COMMI SSAIRE, SON_CLERC] &[M = HARPAGON] Oui, ils se sont donné l'un à l'autre une promesse de mariage. Cet affront vous regarde, seigneur Anselme, et c'est vous qui devez vous rendre partie contre lui et faire toutes les poursuites de la justice pour vous venger de son insolence. &[M = ANSELME] Ce n'est pas mon dessein de me faire épouser par force et de rien prétendre à un cœur qui se serait donné ; mais, pour vos intérêts, je suis prêt à les embrasser ainsi que les miens propres. &[M = HARPAGON] Voilà, monsieur, qui est un honnête commissaire, qui n'oubliera rien, à ce qu'il m'a dit, de la fonction de son office. [MT=Au commissaire] Chargez-le comme il faut, monsieur, et rendez les choses bien criminelles.
AVARE.QUE : le dictionnaire des variables créées 1. REPLIQUES 2. DIDASCALIES 3. QUI PARLE 4. ACTE_SCENE 5. NUMERO_DANS_SCENE 6. NUMERO_DANS_PIECE 7. QUI EST SUR SCENE
8
O(texte) O(texte) F(unique) F(unique) O(numérique) O(numérique) F(multiples;11)
Hé quoi ! Charmante Elise,.... (à part) HARPAGON ; CLEANTE; ... ACTE1_SCENE1 ; .... 1 2 .......... 1 2 ...... HARPAGON ; CLEANTE; ...
•
7. Macro commandes pour la préparation des textes Préparer un texte, nous l'avons vu, c'est indiquer par des caractères la structure du texte. Certains caractères sont des séparateurs de fragments, d'autres entourent les annotations qui illustrent le texte. Le texte original ne présente pas en général cette structuration sous forme de caractères réservés. Par contre la typographie, les styles, la pagination contiennent des éléments de structure. Les traitements de textes proposent des fonctions de Rechercher / Remplacer sophistiquées qui sont très utiles pour automatiser le processus. Elles sont assez difficiles à mettre en œuvre et, pour le traitement de textes Microsoft Word (version 6 et suivantes), un ensemble de macrocommandes est disponible pour effectuer simplement les opérations les plus courantes.
Installer les macro-commandes Pour installer les macro-commandes, lancer Word, ouvrir le fichier Sphinx.dot qui se trouve dans le répertoire Sphinx2000 puis répondre affirmativement à la demande de confirmation. Les macro-commandes sont désormais disponibles et une barre d'outils spécifique a été créée. Dans cette barre d'outils, le bouton-outil … lance un dialogue permettant d'opérer des transformations sur l'ensemble du texte. Ces transformations consistent à insérer des séparateurs ou à transformer des portions du texte en annotations.
•
tous les n mots : on obtiendra des fragments de longueur identique ; avant le style "unstyle" : en répétant cette opération pour les styles Titre1, Titre2, Titre3, on aura un fragment pour chaque sous-partie du texte.
Repérer les annotations Les annotations sont les portions de textes qui illustrent les fragments. Elles donneront lieu à des variables fermées et n'apparaîtront pas dans le corpus proprement dit. Or dans le texte brut, ces annotations sont identifiables par le style (au sens de Word), par la typographie (gras, italique). Dans le dialogue, on trouve des options pour transformer en annotation : • texte ayant le style "unstyle" • texte en "gras" • texte entre ( et ) : tous les textes entre parenthèses seront transformés en annotations.
Recherche / remplacement avec attributs Word permet d'effectuer des remplacements sophistiqués : • en se fondant sur les attributs (police, taille, style, …) ; • en utilisant des caractères génériques ( * @ ?). L'utilisation de ces fonctions, bien documentées dans l'aide de Word, permet de résoudre automatiquement la plupart des cas de figures non traités directement par les macrocommandes installées par le Sphinx.
Ouvrir le fichier modifié Avant de quitter Word et de lancer l'analyse du fichier, il faut encore l'enregistrer au format texte, qui est le seul format reconnu par le Sphinx.
Placer des séparateurs Pour être certain de dédier un caractère (DOLLAR '$' par exemple) à la séparation de fragments, il est prudent de supprimer préalablement les occurrences éventuelles dans le texte (Enlever les séparateurs $ & § ). L'insertion des séparateurs peut se faire : • avant chaque page : on pourra construire un index des mots dans le texte ; Cas OVALE - Analyse textuelle de sites Int ernet – Copyright Le Sphinx Développement - 2005
Puis désigner le fichier “ Lexica.dot ” Choisir le bon type de fichier
Méthodologie
La barre d’outils pour transformer le texte sélectionné en annotation ou bien pour lancer le dialogue ci-dessous
Microsoft Word propose des options de recherche génériques ou par attributs
10
Etudes de cas
Cas OVALE - Analyse textuelle de sites Int ernet – Copyright Le Sphinx Développement - 2005
1. Analyse des réclamations clients – Marque Hextra Contexte général et objectifs du projet :
Une multinationale du secteur de l’agro-alimentaire souhaite exploiter le texte des réclamations clients qui lui sont adressées, à des fins de suivi qualité et de recherchedéveloppement. Plus précisément, les objectifs sont : - exploiter les réclamations consommateurs enregistrées par le centre de contacts clientèle : des données gratuites et disponibles trop souvent sous-utilisées - construire un baromètre de suivi quantitatif des principaux thèmes de réclamations - isoler dans le corpus des idées d’amélioration des produits existants ou des sources d’innovation Ressources humaines et technologiques mises en oeuvre dans ce projet :
La saisie des réclamations se fait systématiquement dans une base spécifique par deux opérateurs dédiés dans le centre de relations clientèle. L’intégration dans le Sphinx Lexica est effectuée par le chargé d’étude. Description de l'étude ou de l'application :
La démarche d’étude est la suivante : Recherche automatisée: 1. Identifier les thèmes principaux 2. Quantifier les thèmes Recherche manuelle 3. Explorer des sujets ciblés 4. Découvrir des idées
B. Quantifier les thèmes - Regroupement des formes textuelles par thèmes - Manuellement ou avec un dictionnaire - Création d’une nouvelle variable fermée
2/3 des déclarations évoquent au moins un de ces thèmes 3 sujets majeurs pratiquement ex-quo Croisement avec d’autres variables de l’étude Regroupement automatique des dates de saisie par mois Croisement en fonction du mois de saisie + représentation graphique
Extraits des résultats : A. Identifier les thèmes principaux - Analyse des co-occurrences sur les 100 mots et expressions les plus cités - Pour une première vision synthétique faisant apparaître les thématiques principales - Technique utilisée : analyse factorielle des correspondances
12
Identifier les produits Hextra évoqués par le consommateur Repérage des produits recherchés dans le texte Regroupements de plusieurs intitulés différents par produits
produits Non réponse
281 46,9%
pâtes
157 26,2%
46,9% 26,2%
Knackis
76 12,7%
jambon
32 5,3%
lardon
26 4,3%
pâte_feuilletée
23 3,8%
3,8%
pâte_pizza
21 3,5%
3,5%
pâte_brisée
18 3,0%
3,0% 1,3%
cervelas
12,7% 5,3% 4,3%
8 1,3%
Total
599
conservation jambon
DLC
pâte_pizza
Knackis allergies lardon
pâtes pâte_brisée
pâte_feuilletée
recettes
cervelas
C. Explorer des sujets ciblés - Exploration autour de l’allergie - Lire toutes les réponses relatives à ce thème = concordances - Mise en évidence du « lexique relatif » autour du mot clé pour identifier les thèmes d’allergie les plus fréquemment cités D. Découvrir des idées - Plusieurs stratégies de recherche envisagées - Parmi celles-ci, recherche autour du verbe « suggérer » 5 propositions émises par les consommateurs
Exemples : n°110 Ce consommateur trouve notre Poitrine Fumée par 3 ou 4 trop épaisse pour barder une volaille ou même pour manger avec des oeufs. Nous suggère de faire des tranches de 4mm et en mettre 5 par paquet et est certain que l'on ratisserait de la clientèle n°379 Bravo pour votre kit pizza. Cette expérienc e me permet de faire une suggestion. Pourquoi ne pas faire de pâte f euilletée comme les kit pizza , cela serait plus conforme à la plaque du four, faciliterait la découpe soit avec des ciseaux soit à la roulette n°431 "sur l'emballage, il y a marqué ""pensez à sortir votre pâte du réfrigérateur 20 min avant utilisation"" mais c'est à l'intérieur de l'emballage et on ne peut pas le lire avant d'avoir ouvert l'emballage elle suggère de le marquer à l'extérieur" n°439 Il est marqué 4 recettes à l'intérieur, pou rquoi ne pas les faire figurer à l'extérieur, c'est bien plus simple lorsque l'on fait ses courses pour connaître les ingrédients à acheter. Moi, je viens de rentrer de mes courses, j'ouvre la pâte, et je m'aperçois que je n'ai pas tous les ingrédients, et qu'il faut que je ressorte acheter ce qu'il me manque ! Cela m'agace et c'est pourquoi, je vous fais cette suggestion. n°489 je suggère que soit noté sur les emballages de pâte à quel moule cela correspond
Méthodologies résultats :
utilisées
pour
le
traitement
des
Un ensemble de techniques de l’analyse de données textuelles dont : - analyse de contenu, - regroupement de lexique par dictionnaire thématique, - analyse factorielle des correspondances sur les occurrences principales, - extractions sélectives de verbatims,
Cas OVALE - Analyse textuelle de sites Int ernet – Copyright Le Sphinx Développement - 2005
2. Identification du territoire de communication d’une marque Contexte général et objectifs du projet :
- trouver un territoire de communication pour un transporteur (nouvelle gamme de produits) face aux concurrents - peu d’information interne chez notre client et budget limité - donner une allure spectaculaire aux résultats, pour dynamiser une présentation aux forces de vente => d’où méthodologie par analyse textuelle des concurrents : leurs plaquettes papiers et l eurs sites Internet Description de l'étude ou de l'application : Objectif : trouver un territoire de communication pour un transporteur (nouvelle gamme de produits) face aux concurrents Méthodologie : Première étape : saisie complète du contenu des plaquettes (scan + OCR) + Capture des textes des pages web (automatique ou copier-coller) Deuxième étape : analyse lexicale Univers analysé : Plaquettes : ABX Logistics - Darfeuille - Exapaq - Gefco Geodis Calberson - Jet Services - Joyau - Mory - Norbert Dentressangle Web : ABX Logistics - Darfeuille - Exapaq - Gefco - Geodis Calberson - Jet Services - Joyau - Mory - Norbert Dentressangle - Extand - Graveleau
Un grand thème absent = le positionnement que le consultant va recommander à son client
14
Planning de mise en oeuvre : 10 jours Bénéfices et limites de l'étude ou de l'application :
Le client (transporteur) rassuré sur la pertinence des intuitions, conduisant au choix de son nouveau positionnement. La force de vente comprend le nouveau positionnement Conclusion : confirmation d’une intuition Résultats :
Sur la page, ci après, représentation des co-occurrences par analyse factorielle des correspondances.
3. Cas « Ovale » Analyse comparative des sites concurrents
En janvier 2004, nous avons récupéré le contenu complet des 5 sites institutionnels de Meyer, Fidel, Odense, Ovale et Onvista. Nous constatons des structures très similaires, comme nous le voyons dans le tableau ci-dessous ; avec pour toutes les entreprises étudiées, des espaces consacrés à la philosophie/culture de l’entreprise, aux produits, aux actionnaires/investisseurs, aux fournisseurs et parfois au sponsoring sportif. Une revue de presse est systématiquement disponible. Pour les cinq entreprises, il s’agit très nettement de sites dits « institutionnels ». Site www.meyer.com www.fidel.com www.odense.com www.ovale.com
www.onvista.com
Structure de premier niveau Home (company/news/maps) / Products / Locations / Contact / Jobs About us / Products / News / Investor information / Suppliers / Careers / Motorsports About Odense / Products / Technolog / Environment / News Releases / Events / Investors About Ovale / Activities & Technologies / Finance / Press / Join us / Suppliers / Ovale Service About Onvista / Investor relations / Newsroom / Technology / Careers
Sur le plan technique, tous les sites sont construits et développés en “PHP”, ce qui signifie qu’à partir d’une structure statique pré-définie, le contenu des pages est dynamique : il est alimenté et mis à jour régulièrement depuis un menu d’administration et une base de données. Cela signifie par ailleurs que les versions des sites en différentes langues suivent exactement la même structure et sont constituées de simples traductions. Autrement dit, il n’y a pas d’adaptation particulière au vocabulaire d’un pays donné. Méthodologie générale
Nous avons procédé à une analyse des données sur le logiciel Sphinx Lexica. Après réduction lexicale (retrait des mots outils du langage), nous constatons tout d’abord que pour quatre d’entre eux, ils sont de taille comparable (entre 30 000 et 40 000 mots), ce qui rend notre analyse statistique d’autant plus fiable et pertinente. Seul le site de Meyer est plus petit avec 10 000 mots. Ceci n’est pas très étonnant car l’entreprise ne couvre qu’une partie plus restreinte des technologies de l’équipement automobile. Pour les revues de presse, par souci d’homogénéité, nous avons sélectionné 20 articles par site, les plus récents ou ceux qui étaient présentés en premier sur la liste des articles. Bilan lexical (sur lexique réduit hors mots-outils)
Hormis Meyer, le site de Fidel est le plus « riche » et le moins répétitif. Sur ce critère, Ovale est troisième sur quatre. Si l’on compare les corpus des 5 sites et leurs intersections, le site de Ovale est plus « original » par rapport à ses concurrents avec près de 15% des mots qui lui sont exclusifs contre 9,5% à Onvista. Dans les caractéristiques de son corpus, le site de Ovale ressemble plutôt à celui de Onvista (77 et 79% de recouvrement) Répétition moyenne : répétition moyenne de l’ensemble des mots du site, plus cet indicateur est haut plus le texte est répétitif.
Mot exclusif : mot présent exclusivement dans le site d’une marque donnée Recouvrement des corpus : % du corpus d’une marque donnée partagée avec une autre marque
Nombre total de mots Mot le plus fréquent Fréquence de ce mot Nombre de mots différents Répétition moyenne
Ovale 37 874
Fidel Odense 31 064 31 313
Meyer 10 053
Onvista 39 306
ovale
fidel
odense
meyer
onvista
1 390
968
849
349
1 415
5 820 5 236 4 969 (2 652) 5 809 (15,4%) (16,9%) (15,9%) (26,3%) (14,8%) 6,51
5,93
6,30
Poids des 51.1% 48.4% 55.3% 1083 mots communs Nombre de 2 170 1 490 1 464 mots exclusifs (14.6%) (11.5%) (13.0%) Fidel Odense Recouvrement Ovale des corpus Ovale * 72.5% 76.9% Fidel 70.5% * 75.7% Odense 71.2% 70.3% * Meyer 58.3% 54.4% 62.8% Onvista 77.3% 81.1% 77.7%
(3,79)
6,77
63.4%
51.8%
514 (9.7%) Meyer
1 842 (9.5%) Onvista
77.5% 74.7% 76.2% * 80.7%
79.7% 79.1% 73.0% 58.1% *
Citations des marques
Nous avons calculé la fréquence de citation de la marque sur l’ensemble du site (en excluant bien évidemment les menus). Ovale est en tête avec un peu plus de 3%, suivi de près par Onvista. Odense est la marque la moins mise en valeur avec moins de 2% de fréquence.
1. Ovale 2. Onvista 3. Meyer 4. Fidel 5. Odense Total
2
Nb citations marque 1 202 1 168 270 724 625
Corpus 37 874 39 306 10 053 31 064 31 313 149 610
Fréquence marque 3,17% 2,97% 2,68% 2,33% 1,99%
Nous constatons dans le tableau ci-dessous que les concurrents ne se citent quasiment pas, à peine 4 citations croisées, dont 3 figurent sur le s ite de Onvista. Onvista Ovale Fidel Odense Meyer Ovale.com 1 0 0 0 Fidel.com 0 0 0 0 Odense.com 0 0 0 0 Meyer.com 0 0 0 0 Onvista.com 1 1 0 1
Analyse thématique des sites
Nous avons défini une liste de « thèmes-clé » et avons mesuré comparativement leur présence sur chacun des cinq sites. On exclut pour l’instant le thème de l’innovation ou de la recherche, qui sera spécifiquement traité plus loin.
D'après le tableau et la carte factorielle ci-dessous : On constate que le site de Ovale, comparativement à ses concurrents, insiste principalement sur la qualité, la technique, les services et l’après-vente. On y évoque plus souvent les fournisseurs et les actionnaires. Les sites de Fidel et Onvista sont assez proches. Onvista se caractérise par une mise en avant du consommateur et du client. Par ailleurs, on y parle beaucoup de performance, de design. Sur www.fidel.com, on cite souvent la puissance. Le site de Odense fait la part belle à l’environnement, mais aussi à l’investissement et au développement. RAPPEL : Carte factorielle: représentation graphique sur deux dimensions des correspondances identifiées statistiquement entre les marques et les thèmes. Proximité signifie corrélation, éloignement signifie répulsion. Les mots placés au centre sont communs, ceux qui sont en périphérie sont très spécifiques.
Key words x Firm
Ovale
Fidel
Odense
Meyer
Onvista
product
23.9%
25.0%
27.2%
4.7%
19.1%
development
26.6%
9.4%
29.4%
9.1%
25.4%
environment
19.5%
13.3%
50.0%
3.2%
14.0%
technology
20.4%
21.3%
22.4%
4.5%
31.4%
new
21.3%
15.0%
23.2%
11.7%
28.8%
customer
15.3%
20.3%
10.4%
8.1%
46.0%
services
44.8%
9.5%
8.9%
4.9%
31.9%
performance
19.1%
29.9%
9.6%
4.2%
37.3%
suppliers
33.6%
8.8%
13.4%
8.5%
35.7%
quality
34.8%
12.0%
10.1%
8.0%
35.1%
power
20.8%
38.9%
14.0%
3.0%
23.4%
design
18.7%
22.3%
11.7%
3.9%
43.5%
technical
67.3%
9.9%
4.9%
5.3%
12.7%
employees
21.3%
14.5%
25.5%
4.3%
34.5%
safety
29.3%
29.8%
19.2%
5.8%
15.9%
efficiency
22.2%
16.3%
24.6%
6.9%
30.0%
consumer
7.9%
18.0%
4.5%
0.0%
69.7%
shareholders
42.8%
2.5%
19.5%
0.0%
35.2%
international
31.2%
14.2%
22.7%
13.5%
18.4%
aftermarket
50.8%
5.1%
1.7%
0.8%
41.5%
investment
11.5%
4.9%
37.7%
6.6%
39.3%
cockpit
19.3%
40.1%
4.4%
9.4%
26.8%
Cas OVALE - Analyse textuelle de sites Int ernet – Copyright Le Sphinx Développement - 2005
Key words x Firm
Axe 2 (32.7%) consumer Fidel
cockpit
power performance customer design
technology
Onvista
investment
product employees
new
Axe 1 (41.1%) development
international suppliers quality
services
Ovale
shareholders aftermarket
technical
2
environment
efficiency
safety
Meyer
Odense
Utilisation des mots de l’innovation
Ovale est l’entreprise qui accorde proportionnellement le plus de place aux mots de l’innovation (innovation, innovations, innovative, research, new ou advanced technologies) dans son discours (0,47% du corpus du site), Onvista est n°2 avec 0,32%, les trois autres entreprises sont au même niveau avec une fréquence de 0,22%. Innovation x Firm (frequency) Innovative Innovations
Research
Innovation
New tech.
Advanced tech.
Total
1. Ovale 2. Onvista 3. Fidel 3. Odense 3. Meyer
0,12% 0,06% 0,09% 0,03% 0,10%
0,10% 0,16% 0,02% 0,00% 0,01%
0,10% 0,04% 0,03% 0,07% 0,08%
0,15% 0,05% 0,05% 0,01% 0,01%
0,00% 0,00% 0,03% 0,05% 0,02%
0,01% 0,00% 0,01% 0,05% 0,00%
0,47%
Total
0,08%
0,07%
0,06%
0,06%
0,02%
0,01%
0,31%
0,32% 0,22% 0,22% 0,22%
Parmi ces 6 termes identifiés, comme on peut le voir sur la carte factorielle c i-après, chaque firme a ses particularités ou ses préférences : Odense se distingue très nettement par l’emploi de « new technologies » ou « advanced technologies », Onvista se concentre très nettement sur « innovations » au pluriel, Ovale et Fidel privilégient « innovation » et « innovative », Meyer utilise plus volontiers « research ». Innovation x Firm (nb. Citations) Innovative Innovations Research
Innovation
New tech.
Advanced tech.
Total
Ovale Onvista Fidel Odense Meyer
46 25 28 10 10
36 63 7 0 1
39 17 9 23 8
55 20 14 3 1
1 1 9 15 2
2 1 2 17 0
179 127 69 68 22
Total
119
107
96
93
28
22
465
Advanced tech.
Research
Odense
Onvista
Innovation Innovations Ovale Meyer Fidel
New tech.
2
Concordances autour des mots de l’innovation pour chaque marque
Nous avons isolé grâce aux « lexiques relatifs » (voir définition) les mots qui concordent avec le vocabulaire de l’innovation sur les sites des cinq entreprises. On observe que Ovale fait référence à ses récompenses en matière d’innovation, à la qualité, à son engagement et à son approche. L’innovation est présentée ici comme une culture d’entreprise. Chez Onvista, la marque est systématiquement associée à l’innovation. On parle de produits, d’applications et de solutions : un discours – là encore – très orienté vers le client. Fidel également cite souvent sa marque, mais aussi son design et associe à l’innovation des adjectifs dynamiques comme « responsive », « proving » et « successful ». Odense ne compte que peu de mots associés au thème de l’innovation, qu’il met peu en exergue sur son site, comparativement aux autres firmes. Il préfère faire référence aux « new » ou « advanced » technologies. Lexique relatif = principaux mots situés autour d’un thème donné dans le texte, classés en fonction de leurs fréquences de concordance .
OVALE : Lexique relatif d’Innovation pivot -2 à -1 pivot +1 à +2 114 mots-180 occ 117 mots-197 occ equipment 9 award original 9 technologies ovale 8 commitment latest 7 quality technical 6 styling constant 5 approach prix 5 design technological 5 equip automotive 4 protect combines 3 silencio auto products technology
2
10 9 7 7 6 5 4 4 4 4 3 3 3
tools
3
ONVISTA : Lexique relatif d’Innovation pivot -2 à -1 64 mots-117 occ onvista corporate office audio feature story concepts deliver develop digital electronics
19 5 5 4 4 4 3 3 3 3 3
pivot +1 à +2 115 mots-198 occ home solutions vehicle center driving fuel high products wireless application continues deliver electronics enjoyment find help kerpen quickly systems technologies
6 6 6 5 4 4 4 4 4 3 3 3 3 3 3 3 3 3 3 3
Sur les fragments de texte que nous avons isolés et qui incluent les mots de l’innovation seulement (401 fragments), nous avons identifié les mots et expressions les plus spécifiques à chacune des marques. On retrouve ici les spécificités présentées dans les paragraphes précédents. Ovale insiste sur ses équipes, ses services, l’après-vente, sa technique mais aussi son approche générale de l’innovation. Odense évoque ses efforts, ses coûts et encore le contexte environnemental. Onvista lie très fortement sa marque à ses innovations, qui sont présentées très souvent au pluriel. Onvista évoque toujours le consommateur mais aussi son ingénierie. Meyer – situé ici au centre de la carte factorielle - tient un discours beaucoup moins spécifique sur l’innovation.
Axe 2 (28.2%) fields
efforts
billion
Denso
area
automakers communications
energy costs growth new_technologies sales research car markets important new_ways year capabilities environmental components cabin engine Behrintegrated meet further create continues moresafety products four future air_conditioning Delphi module consumer company high production manufacturing air help automotive comfort only applications developed working ford audio visteon_innovations market performance experience today fuel offer deliver manufacturers cost right employees group concept voice excellence best engineering consumers engineers while bass features Visteon said tm satellite_radio service teams innovations vehicle range Valeo design international project technical latest
Axe 1 (36.7%)
electrical
light approach
engine_cooling category equip_auto prize discover
2
wiper
aftermarket
4. Le rêve des Français Si vous gagniez au Loto que feriez-vous ? L’analyse de cet extrait d’une étude menée par le Credoc en 1992 permet d’illustrer les méthodes d’analyse quantitatives et qualitatives disponibles dans Sphinx : Analyse quantitative : tri à plats, tris croisés, analyses multivariées et typologie Analyse qualitative : approximation lexicale, sémiométrie et analyse de contenu par code book.
Le rêve des français. Echantillon total : 993 observations
Les lexiques
Lexique brut je
Si vous gagniez au Loto, que feriez vous ? On peut se faire une idée du contenu des réponses par l'examen des termes les plus fréquemments utilisés. Le lexique brut exprime la stimulation de l'égo (je, j) sur un mode plutôt indéfini (une, un) que défini (le la l)... Le lexique lemmatisé (chaque terme est ramené à sa forme racine) renvoie l'essentiel du contenu Les substantifs donnent les objets évoqués et les verbes les actions... On accède ainsi très rapidement au contenu des réponses comme les mots c lé donnent celui d'un livre.
2
1
Sans mots outils
Lemmatisé
Les sub stantifs
Les verbes
1182
maison
355
maison
354
maison
354
acheter
350
j
653
enfants
286
acheter
350
voyage
310
faire
296
de
613
voiture
198
voyage
310
enfant
259
placer
195
une
566
voyage
192
faire
297
voiture
194
donner
187
en
464
ferais
182
enfant
264
argent
118
voyager
148
à
412
voyages
158
placer
230
famille
117
aider
122
le
385
achèterais
150
voiture
194
monde
81
partir
91
des
362
famille
122
donner
187
don
75
travailler
91
un
362
argent
118
voyager
148
placement
71
profiter
81
maison
355
acheter
115
aider
122
appartement
65
investir
76
enfants
286
donnerais
113
argent
118
reste
65
mettre
71
la
286
placerais
111
famille
117
association
57
changer
63
pour
280
faire
107
partir
91
immobilier
55
aller
59
l
257
reste
97
travailler
91
partie
54
arrêter
58
mes
244
monde
95
monde
81
oeuvre
51
améliorer
48
les
240
placer
84
profiter
81
vie
49
prendre
38
et
208
travailler
79
investir
76
tour
45
vivre
37
voiture
198
vacances
79
don
75
vacance
43
partager
36
dans
194
achète
69
immobilier
74
achat
41
payer
33
voyage
192
voyagerais
68
beau
72
loisir
39
rester
33
ferais
182
immobilier
67
mettre
71
besoin
36
épargner
32
voyages
158
partie
64
placement
71
placer
35
avoir_besoin 30
ma
156
vie
64
appartement
65
gens
34
pouvoir
28
achèterais 150
dons
62
reste
65
ami
33
dépenser
27
aux
137
aider
61
changer
63
cadeau
33
distribuer
26
famille
122
côté
61
aller
59
plaisir
33
faire_plaisir
26
pas
120
appartement
58
arrêter
58
cancer
27
garder
26
argent
118
profiter
58
association
57
enfants
24
faire_le_tour
25
Le rêve des français. Echantillon total : 993 observations
Les usages selon les contextes : zones de langage selon l'âge
6 p = <0.1% ; chi2 = 741.32 ; ddl = 196 (TS) Axe 2 (13.7%) prendre
vacance vie
travailler changer
L'analyse factorielle des correspondances permet de généraliser la recherche des effets de contexte. Ici le choix des mots et des préoccupations apparaissent comme clairement déterminés par l'âge
vivre
améliorer
payer
humanitaire
gens
famille
arrêter
placement
achat
35-49
aller
autour_de don
immobilier
profiter 50-64
aider
voyager
enfant
maison oeuvre
reste ami
donner association
partager
investir
25-34
faire
partie
voyage monde
loisir
acheter tour
argent
65+
Axe 1 (72.2%)
placer voiture
en_vacances de_côté
beau cadeau
besoin
partir
mettre petit 18-24
un_peu
2
appartement
Le rêve des français. Echantillon total : 993 observations
9
Mesures lexicales : caractériser l'énonciation
La longueur des réponses, leur richesse (nombre de mots différents) et leur banalité (fréquence moyenne dans le corpus des mots utilisés par chacun) permet de caractériser les réponses. Les réponse longues sont les plus riches, mais la banalité est indépendante de la longueur ou de la richesse.
Banalité x Richesse
Longuer X Richesse
Longueur x Banalité
Moyenne
Moyenne
LONGUEUR RICHESSE
8.47
LONGUEUR
8.22
Total
BANALITE
8.34
Total
Moyenne
8.47
BANALITE
109.53
RICHESSE Total
58.92
r = + 0.99 (TS)
r = - 0.25 (NS)
r = - 0.26 (NS)
RICHESSE
BANALITE
RICHESSE
109.53 8.22 58.80
Les inactifs, ouvriers et agriculteurs font les réponses les plus courtes et les plus convenues (banalité). LONGUEUR
LONGUEUR
Moyenne = 8.47 Médiane = 8.00 Min = 0.00 Max = 19.00 - NS
Les nuages de point ci dessus illustrent bien la mesure du coefficient de corrélation. Ci dessous l'ACP donne une image de ces c orrélations. Longueur et richesse sont fortement liees. La b analité varie d'une manière totalement indépendante. Longueur x Richesse x Banalité
Longueur x Richesse x Banalité selon la CSP
Axe 2 (29.4%)
BANALITE Moyenne = 109.53 Médiane = 103.30 Min = 2.50 Max = 354.00
LONGUEUR RICHESSE
+ TS BANALITE
- NS LONGUEUR
RICHESSE Moyenne = 8.22 Médiane = 8.00 Min = 0.00 Max = 19.00
BANALITE
LONGUEUR
RICHESSE Axe 1 ( 70.3%)
BANALITE
Commerçant, artisan
9.32
9.15
98.85
Employés
8.91
8.64
113.40
Cadre.Prof.Intell. Sup.
8.55
8.33
103.05
Prof.Intermédiares
8.38
8.18
104.76
Retraités
8.34
8.07
101.51
Inactifs, Autre
8.27
8.07
110.42
Ouvriers
7.86
7.60
125.10
Agriculteurs
7.34
7.13
110.70
Total
8.47
8.22
109.53
CSP / LONGUEUR p = 8.0% ; F = 1.82 (PS) CSP / RICHESSE p = 5.3% ; F = 1.99 (PS) CSP / BANALITE p = 0.7% ; F = 2.80 (TS)
Cas OVALE - Analyse textuelle de sites Int ernet – Copyright Le Sphinx Développement - 2005
Analyse de contenu
Le code-book préparé dans Sphinx permet « d’industrialiser le travail de lecture ». Cette une approche alternative à l’analyse lexicale. Elle a le mérite de reposer sur une lecture intelligente (mais peut être biaisée) et de reposer sur une réflexion modélisatrice préalable.
2
5. Les mots qui touchent : analyse textuelle des « tubes » de la chanson française. L'objectif de ce travail consiste donc à isoler les caractéristiques lexicales des fleurons de la chanson française. Pour traiter la question posée, nous avons constitué deux groupes de textes écrits par 20 artistes francophones. Le premier groupe est composé de 100 succès et le second inclut une centaine d'œuvres restées dans l'anonymat. Grâce au logiciel Sphinx Lexica, le travail consiste ensuite à repérer les caractéristiques de chaque auteur et surtout à établir les particularités des chansons à succès. Nous analysons les différents lexiques afin de déterminer "les mots qui touchent", nous identifions les thématiques centrales et les segments répétés les plus marquants. Les résultats conduisent à des conclusions très intéressantes. En prolongement de cette étude lexicale, nous nous sommes intéressés à la dimension phonétique des textes, faisant l'hypothèse qu'au delà des mots proprement dits, l'importance des phonèmes choisis était prépondérante. Nous avons donc ensuite changé d'unité statistique pour nous concentrer sur les phonèmes spécifiques des textes à succès. Les issues de ce travail laissent entrevoir des perspectives de recherche tout à fait prometteuses. Un échantillon de 200 œuvres
Nous avons constitué une base de données textuelles de 200 chansons écrites en français. Vingt artistes ont été choisis parmi les plus célèbres de la profession. Pour chaque artiste, nous avons sélectionné cinq succès et cinq chansons peu connues, ce qui constitue finalement deux échantillons, l’un comprenant 100 tubes et l’autre 100 nontubes. Cette classification effectuée par l’auteur a donné lieu à une validation par un groupe de cinq experts : journalistes, disquaires, artistes, tous spécialistes de la chanson française. Ceux-ci - à partir de la liste alphabétique des 200 titres - ont construit leur propre classification. Pour chacun des cinq juges, le taux d’affectations différentes ne dépasse jamais 5%, ce qui est tout à fait satisfaisant.
2
Les textes ont été récupérés via l’Internet au sein de sites dédiés à la chanson française (les sites web de Alain Pierre et de David Baltaro, de Mikhail Foursov, de Leni "Botanaige", la French Music Database de Anthony Patrick Lee). Le corpus final compte 48669 formes pour un lexique de 5968 mots. Précisons que les refrains n’ont été saisis qu’une seule fois pour ne pas introduire de "fausses répétitions" au sein du texte. Des auteurs aux styles très différents
Avant de tester nos hypothèses, nous nous sommes intéressés aux différences entre les artistes. Afin de comparer les styles des auteurs, nous avons utilisé quatre indicateurs usuels. La longueur de la chanson est considérée tout d’abord (N) puis nous mesurons sa richesse (V) qui indique la longueur du lexique. Ainsi, N décompte le nombre total de formes graphiques présentes dans le texte, V le nombre de formes différentes. La répétition (R) indique le nombre de fois où chaque forme du texte se trouve répétée. R=N/V. La banalité (B) calcule la fréquence moyenne de chaque forme au niveau du lexique total. De par leur construction, la longueur et la richesse sont corrélées, tout comme la répétition et la banalité.
Les artistes de la chanson française se distinguent par leurs options mélodiques mais aussi - comme on le voit sur la figure ci-dessus - par les caractéristiques de leurs textes. On retrouve sur cette carte différents types d’écriture. A droite, les auteurs de "chansons à texte", qui se caractérisent par une certaine prolixité : Brassens, Renaud, Duteil, Goldman. A l’opposé, se retrouvent des artistes préférant la chanson ludique de type "gag" dont le texte n’est qu’un prétexte pour faire sonner la musique. Correspondant à ce profil, Gainsbourg ou Polnareff sont d’ailleurs des musiciens prodiges. Sur le deuxième axe, nous repérons d’une part, des chanteurs dont les paroles sont marquées par la simplicité et l’universalité, traitant de thèmes courants voire banals : Berger, Dassin, Fugain. D’autre part, Farmer ou Clerc traitent de sujets originaux et utilisent volontiers des formes lexicales remarquables. Les tubes : plus de répétition, moins d’originalité
Le propos de notre recherche est de tenter de mettre en évidence les composantes lexicales qui pourraient caractériser les chansons à succès, tant sur la forme que sur le fond. Les tubes sont ils plus courts, plus répétitifs ?
TUBES
AUTRES
Effectif de la catégorie
100
100
Nombre total de mots
24704
23965
Longueur moyenne
247.04
239.65
Nb de mots différents
3557
3980
Nombre d'hapax
1484
1788
Répétition corpus
6.95
6.02
Fréquence maximum
655
696
Mot le plus fréquent
de
de
Nombre de mots exclusifs
1988
2411
Pourcentage du corpus
50.8%
49.2%
TUBES AUTRES Total
Répétition de la chanson 2.33 2.15 2.24
On constate que les caractéristiques textuelles des tubes sont statistiquement différentes en ce qui concerne la répétition. Les chansons à succès sont plus répétitives et
donc moins riches. Par ailleurs, les tubes emploient des formes lexicales moins originales et donc plus banales. En ce qui concerne la longueur, la différence n’est pas statistiquement significative (F=0,3 et 1-p=41%). Le segment répété : une composante du tube
En isolant les segments répétés dont la fréquence est supérieure à 10 sur la totalité du corpus, on s’aperçoit que ces fragments appartiennent 2 fois sur 3 à une chanson à succès. Sur des bases de statistique textuelle (chi2 = 258,88, 1-p = 99,99%), nous pouvons donc dire que le segment répété est un élément qui semble faire partie intégrante de la chanson "performante". Favorisant la mémorisation, le principe de répétition est l’un des premiers préceptes des techniques de persuasion, couramment utilisé en publicité notamment. 5 premiers segments répétés des_petits_trous Ne_me_quitte_pas
TUBES AUTRES TOTAL 30 23
Y_a_pas_de_honte
23
touté_le_monde
2 18
Unis_vers_l_uni TOTAL des segments cités au moins 10 fois
220
0 0
30 23
0 16
23
0
18
100
320
18
L’intérêt d’une implication plus personnelle de l’artiste
L’intensité lexicale permet de mesurer le poids d’une forme au sein d’une unité statistique. Ici, nous nous intéressons au pourcentage de différents pronoms au sein des chansons. Nous lisons dans le tableau ci-dessous que l’intensité lexicale de "je" est nettement plus forte dans les tubes, alors que le poids de "tu" n’est pas statistiquement différent. Ce résultat traduit l’importance de l’implication personnelle de l’artiste dans sa communication avec son public.
TUBES AUTRES
Intensité de JE Intensité de TU 2.70 0.86 1.83 0.69
Total
2.26
Des verbes pour le dire
Cas OVALE - Analyse textuelle de sites Int ernet – Copyright Le Sphinx Développement - 2005
0.78
L’étude des verbes montre un phénomène intéressant. Les verbes les plus fréquemment utilisés et donc les plus courants sont employés indifféremment dans les deux types de chansons. En revanche, certains verbes sont spécifiquement usités dans les chansons à succès. Il est difficile de les caractériser même si l’on pourrait dire qu’il s’agit de verbes artistiques (chanter , danser ), communicants (parler , regarder ) ou affectifs (aimer , pleurer ). Dans les tableaux suivants, nous présentons les occurrences sur l’unité statistique de la chanson (94% des tubes utilisent le verbe être par exemple.
aimer parler chanter pleurer regarder connaître danser tomber
TUBES AUTRES 43 32 25 22 19 17
8 15 5
12 12 12 11 15 7 15
Des rimes qui sonnent
Le dernier volet de nos résultats traite des composantes phonétiques. Comme nous l’avons dit en introduction, en matière de chansons, il ne semble pas convenable de limiter notre réflexion aux seuls aspects textuels, la chanson est un exercice artistique où les mots, la musique et les sonorités entrent en synergie. Pour tester l’hypothèse selon laquelle il existerait des rimes privilégiées au sein des "tubes", nous avons tout d’abord isolé la rime finale de chaque vers, grâce à une procédure particulière du Sphinx Lexica. Nous avons ensuite travaillé sur les 50 rimes les plus fréquentes en les regroupant par phonèmes. Les résultats observés sont très significatifs. Il apparaît tout d’abord que les tubes utilisent des rimes beaucoup plus banales, ce qui confirme leur caractère répétitif. Par ailleurs, certains phonèmes sont effectivement sur-représentés dans l’échantillon des chansons à succès (chi2 = 175,75, 1-p = 99,99%). Il s’agit de phonèmes dominés par les "a", "an" et "in" notamment, ce qui représente les voyelles dites "nasales" (Warnant, 1973) qui produisent des sonorités relativement chaudes. Ces résultats valident les premières hypothèses qui pouvaient être formulées. 4
(extrait) Rimes en a Rimes en i
TUBES 284
AUTRES TOTAL 198 122
482 201
70
184
Rimes en in
79 114
Rimes en an
104
43
147
Rimes en our Rimes en o
86
39 35
125 75
Rime en ar
32 45
38
70
23
68
33
65
10
62
Rimes en ou Rimes en ère Rime en ème
40
32 52
Bibliographie
Cas OVALE - Analyse textuelle de sites Int ernet – Copyright Le Sphinx Développement - 2005