Wikiversité
frwikiversity
https://fr.wikiversity.org/wiki/Wikiversit%C3%A9:Accueil
MediaWiki 1.46.0-wmf.24
first-letter
Média
Spécial
Discussion
Utilisateur
Discussion utilisateur
Wikiversité
Discussion Wikiversité
Fichier
Discussion fichier
MediaWiki
Discussion MediaWiki
Modèle
Discussion modèle
Aide
Discussion aide
Catégorie
Discussion catégorie
Projet
Discussion Projet
Recherche
Discussion Recherche
Faculté
Discussion Faculté
Département
Discussion Département
Transwiki
Discussion Transwiki
TimedText
TimedText talk
Module
Discussion module
Event
Event talk
Sujet
Les registres littéraires
0
72910
982089
883914
2026-04-19T15:05:54Z
CorrecTeam
80184
Ajout d'un r aux deux occurrences de 1e (---> 1re). Mais je n'ai pas réussi à l'écrire en exposant...
982089
wikitext
text/x-wiki
{{Leçon du jour
| idfaculté = littérature
| département = Style littéraire
| cours = [[Français en seconde]]<br />[[Français en première générale et technologique]]
| niveau = 11
}}
Les registres désignent différentes manières de s'exprimer qui traduisent différentes '''manières''' de '''percevoir et faire percevoir''' le réel. Ils donnent donc le ton (ou la tonalité) d'un texte, c'est-à-dire l'état d'esprit qui accompagne les informations fournies. Chaque registre correspond à un certain type d'émotion que le locuteur ressent et cherche à susciter chez son destinataire. Il se transmet par des '''procédés précis''' qui visent à provoquer l'effet attendu.
{| class="wikitable"
! Registre
! Effet recherché
! Procédés caractéristiques les plus fréquents
|-
| '''Fantastique'''
| Susciter l'incertitude, le trouble, l’angoisse, la peur
|
* Expressions du doute (modalisations, interrogations)
* Focalisation interne et lexique des perceptions
* Comparaisons et personnifications
* Champs lexicaux de la peur, de l’étrange, du monstrueux
|-
| '''Epique'''
| Donner aux êtres, aux choses, une dimension qui les dépasse (héroïsation)
|
* Procédés d'insistance et d'amplification (hyperboles, superlatifs, intensifs, gradations, …)
* Amples périodes rhétoriques (longues phrases)
* Champs lexicaux de l'héroïsme et de l'exploit
|-
| '''Lyrique''' (élégiaque)
| Exprimer ses sentiments personnels (vie intime) et les faire partager ''plainte lyrique''
|
* Marques de la 1r<sup>e</sup> personne
* Marques d'expressivités (phrases exclamatives et interrogatives, apotrophes)
* Lexique des sensations et des sentiments
|-
| '''Pathétique'''
| Emouvoir le destinataire, éveiller sa compassion (plus ou moins « faire pleurer », souvent face à l'injustice)
|
* Interjections et apostrophes
* Phrases exclamatives
* Rythmes brisés (points de suspension)
* Lexique des émotions
|-
| '''Tragique'''
| Faire naitre la terreur et la pitié pour les personnages en montrant qu'il n'y a plus d'espoir (impuissance)
|
* Figures d'insistance, antithèses et oxymores
* Exclamations et interjections
* Futurs prophétiques (irréel du présent) et vocabulaire de la certitude
* Champs lexicaux de la fatalité, du sacrifice et du désespoir
|-
| '''Comique'''
| Faire rire ou sourire, amuser
|
* Différents types de comiques
* Jeux de mots et quiproquos
* Effets de chute, de rupture, de décalage
* Répétitions et procédés d'exagération (accumulation et gradation)
* Ironie, styles burlesque et héroï-comique
|-
| '''Satirique'''
| Dénoncer des défauts par le rire, attaque en se moquant
|
* Ironie et vocabulaire dépréciatif
* Caricatures et procédés de l’exagération
* Allusions et sous-entendus
* Naïveté feinte et éloge paradoxal
|-
| '''Polémique'''
| Réfuter ou refuser le dicours d'autrui, dénoncer un adversaire en cherchant à le discréditer
|
* Marques de la 1<sup>e</sup> personne
* Procédés de dévaloristion (vocabulaire péjoratif, ironie)
* Procédés d'insistance (anaphores, accumulations, …)
* Invectives et apostrophes
* Lexique de l'émotion (indignation, surprise)
|-
! colspan="3" | Registres complémentaires (traduisant des objectifs et accompagnant un autre registre)
|-
| '''Didactique'''
| Instruire, transmettre un savoir
|
* Progression lexique du propos (connecteurs, cause et conséquence)
* Recours à l'exemple
* Modalités de l'ordre et du conseil
* Lexique de la pédagogie
|-
| '''Délibératif'''
| Ouvrir un débat, discuter en vue d'une décision à prendre
|
* Articulations logiques (hypothèses notamment)
* Raisonnements concessifs
* Interrogations
|-
| '''Epidictique'''
| Louer ou blâmer
|
* Implication du locuteur : 1r<sup>e</sup> personne, modalisateurs, marques de jugement, vocabulaire mélioratif ou péjoratif
* Implication du destinataire : apostrophes, adresses, questions oratoires
* Amples périodes
* Lexique axiologique (évaluatif)
|}
b1siek8gpesab76camo8253npat8hi1
982090
982089
2026-04-19T15:25:49Z
Geoleplubo
7999
1<sup>ère</sup>
982090
wikitext
text/x-wiki
{{Leçon du jour
| idfaculté = littérature
| département = Style littéraire
| cours = [[Français en seconde]]<br />[[Français en première générale et technologique]]
| niveau = 11
}}
Les registres désignent différentes manières de s'exprimer qui traduisent différentes '''manières''' de '''percevoir et faire percevoir''' le réel. Ils donnent donc le ton (ou la tonalité) d'un texte, c'est-à-dire l'état d'esprit qui accompagne les informations fournies. Chaque registre correspond à un certain type d'émotion que le locuteur ressent et cherche à susciter chez son destinataire. Il se transmet par des '''procédés précis''' qui visent à provoquer l'effet attendu.
{| class="wikitable"
! Registre
! Effet recherché
! Procédés caractéristiques les plus fréquents
|-
| '''Fantastique'''
| Susciter l'incertitude, le trouble, l’angoisse, la peur
|
* Expressions du doute (modalisations, interrogations)
* Focalisation interne et lexique des perceptions
* Comparaisons et personnifications
* Champs lexicaux de la peur, de l’étrange, du monstrueux
|-
| '''Epique'''
| Donner aux êtres, aux choses, une dimension qui les dépasse (héroïsation)
|
* Procédés d'insistance et d'amplification (hyperboles, superlatifs, intensifs, gradations, …)
* Amples périodes rhétoriques (longues phrases)
* Champs lexicaux de l'héroïsme et de l'exploit
|-
| '''Lyrique''' (élégiaque)
| Exprimer ses sentiments personnels (vie intime) et les faire partager ''plainte lyrique''
|
* Marques de la 1<sup>ère</sup> personne
* Marques d'expressivités (phrases exclamatives et interrogatives, apotrophes)
* Lexique des sensations et des sentiments
|-
| '''Pathétique'''
| Emouvoir le destinataire, éveiller sa compassion (plus ou moins « faire pleurer », souvent face à l'injustice)
|
* Interjections et apostrophes
* Phrases exclamatives
* Rythmes brisés (points de suspension)
* Lexique des émotions
|-
| '''Tragique'''
| Faire naitre la terreur et la pitié pour les personnages en montrant qu'il n'y a plus d'espoir (impuissance)
|
* Figures d'insistance, antithèses et oxymores
* Exclamations et interjections
* Futurs prophétiques (irréel du présent) et vocabulaire de la certitude
* Champs lexicaux de la fatalité, du sacrifice et du désespoir
|-
| '''Comique'''
| Faire rire ou sourire, amuser
|
* Différents types de comiques
* Jeux de mots et quiproquos
* Effets de chute, de rupture, de décalage
* Répétitions et procédés d'exagération (accumulation et gradation)
* Ironie, styles burlesque et héroï-comique
|-
| '''Satirique'''
| Dénoncer des défauts par le rire, attaque en se moquant
|
* Ironie et vocabulaire dépréciatif
* Caricatures et procédés de l’exagération
* Allusions et sous-entendus
* Naïveté feinte et éloge paradoxal
|-
| '''Polémique'''
| Réfuter ou refuser le dicours d'autrui, dénoncer un adversaire en cherchant à le discréditer
|
* Marques de la 1<sup>ère</sup> personne
* Procédés de dévaloristion (vocabulaire péjoratif, ironie)
* Procédés d'insistance (anaphores, accumulations, …)
* Invectives et apostrophes
* Lexique de l'émotion (indignation, surprise)
|-
! colspan="3" | Registres complémentaires (traduisant des objectifs et accompagnant un autre registre)
|-
| '''Didactique'''
| Instruire, transmettre un savoir
|
* Progression lexique du propos (connecteurs, cause et conséquence)
* Recours à l'exemple
* Modalités de l'ordre et du conseil
* Lexique de la pédagogie
|-
| '''Délibératif'''
| Ouvrir un débat, discuter en vue d'une décision à prendre
|
* Articulations logiques (hypothèses notamment)
* Raisonnements concessifs
* Interrogations
|-
| '''Epidictique'''
| Louer ou blâmer
|
* Implication du locuteur : 1<sup>ère</sup> personne, modalisateurs, marques de jugement, vocabulaire mélioratif ou péjoratif
* Implication du destinataire : apostrophes, adresses, questions oratoires
* Amples périodes
* Lexique axiologique (évaluatif)
|}
3t0ytc2ovfqk3qqgufcl1prytpuo9yf
Discussion utilisateur:Projet PEP
3
85799
982080
964012
2026-04-19T13:56:01Z
Fourmidable
50100
/* "[Lire la suite]" */ nouvelle section
982080
wikitext
text/x-wiki
{{Bienvenue|Fourmidable|sign=--[[Utilisateur:Fourmidable|Fourmidable]] ([[Discussion utilisateur:Fourmidable|discuter]]) 22 mai 2025 à 08:49 (UTC)}}
== "[Lire la suite]" ==
Bonjour,
Quelle est la fonction de "[Lire la suite]" dans [[Contextes marginalisés et plurilinguisme/Présentation de la leçon]] ?
Wikiversitairement, [[Utilisateur:Fourmidable|Fourmidable]] ([[Discussion utilisateur:Fourmidable|discuter]]) 19 avril 2026 à 13:56 (UTC)
qsixhuaxaof4qbmx2leu9uen9rahhsp
Intercompréhension/Présentation de la leçon
0
85801
982119
972555
2026-04-20T06:52:20Z
Fourmidable
50100
982119
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
Le linguiste français {{W|Jules Ronjat}} (1913) a été le premier à conceptualiser le terme d’intercompréhension. Dans son ouvrage, il décrit le fait que les locuteurs de différents dialectes provençaux pouvaient se comprendre les uns les autres (Escudé, 2014, p. 46).
Aujourd’hui, il existe de nombreux termes pour en parler et de nombreuses définitions du concept. Celles-ci peuvent toutefois être classées en trois groupes. Ainsi, l'intercompréhension peut être considérée comme une pratique communicative, une compétence et une approche didactique.
{{AutoCat}}
5n7h6d1mslsb6oqarux0b9h2jdaw8ni
Intercompréhension/Référents
0
85805
982118
980214
2026-04-20T06:51:27Z
Fourmidable
50100
982118
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Filomena Capucho et Christoph Hülsmann]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
e0l4a9pksw0obvrqrvz7wk0eo6s5974
Pédagogie de la variation/Référents
0
85810
982117
980463
2026-04-20T06:50:56Z
Fourmidable
50100
982117
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Logambal Souprayen-Cavery]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
cw5hki8vy1i0vyh24bhe2i9vbw8clfh
Translanguaging/Référents
0
85833
982116
980658
2026-04-20T06:50:33Z
Fourmidable
50100
982116
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Christoph Hülsmann et Christian Ollivier]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
2i62wxjkww0k3xtd37q8kocl3pijki2
Inclusion langagière/Référents
0
85847
982115
980193
2026-04-20T06:50:08Z
Fourmidable
50100
982115
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Thierry Gaillat et Laura Uribe]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
2kpbb2dqolvq1j1artx4d7cruckbiju
Discussion Département:Didactique des langues
109
85874
982081
982017
2026-04-19T13:57:18Z
Fourmidable
50100
/* Ajout de leçons */ Réponse
982081
wikitext
text/x-wiki
== Ajout de leçons ==
Bonjour,
Le projet européen PEP crée des contenus (leçons) sur l'éducation plurilingue qui seront publiées dans le département de Didactique des langues. Nous aurions deux questions:
- Pourriez-vous nous indiquer comment ajouter les leçons sur la page du département?
- Serait-il possible de renommer le département en "didactiques du plurilinguisme" ou "éducation plurilingue"?
Merci d'avance
christian
[[Utilisateur:Projet PEP|Projet PEP]] ([[Discussion utilisateur:Projet PEP|discuter]]) 28 mai 2025 à 08:22 (UTC)
:Bonjour {{Mention|Projet PEP}} et merci beaucoup pour vos ajouts de qualité !
:# Pour ajouter des leçons sur la page du département, il suffit de créer des liens dans [[Département:Didactique des langues/Leçons par thèmes]] (ce que vous avez déjà fait), et pourquoi pas aussi dans [[Département:Didactique des langues/Leçons par niveaux]] s'il y a différents niveaux (L1 : [[Aide:Niveau/Niveau 14|niveau 14]] ; L2 : [[Aide:Niveau/Niveau 15|niveau 15]] ; etc.).
:# Techniquement, il est possible de renommer le département. Ce dernier s'intitulait à l'origine "didactiques du plurilinguisme", mais "''[[w:Didactique des langues|Didactique des langues]]''" semble plus usité (voir [[w:Didactique des langues|Wikipédia]]) ; on trouve [https://scholar.google.com/scholar?start=990&q=%22didactique+des+langues%22&hl=de&as_sdt=0,5 plus de 100 sources sur Google Scholar] contrairement à [https://scholar.google.com/scholar?start=90&q=%22didactique+du+plurilinguisme%22&hl=de&as_sdt=0,5 "didactique du plurilinguisme"] ou [https://scholar.google.com/scholar?start=90&q=%22%C3%A9ducation+plurilingue%22&hl=de&as_sdt=0,5 "éducation plurilingue"] qui semblent bien moins usités.
:Cordialement, [[Utilisateur:Fourmidable|Fourmidable]] ([[Discussion utilisateur:Fourmidable|discuter]]) 28 mai 2025 à 10:48 (UTC)
::Merci, Fourmidable.
::Pour les leçons, le souci est que les liens n'apparaissent pas dans le département... alors que je les vois dans la prévisualisation de la section "leçons"...
::En effet didactique des langues est plus fréquent, mais n'est pas forcément centré sur le plurilinguisme. S'il est possible de renommer, ce serait idéal. Sinon, on fera avec!
::christian [[Utilisateur:Projet PEP|Projet PEP]] ([[Discussion utilisateur:Projet PEP|discuter]]) 28 mai 2025 à 12:26 (UTC)
:::{{Mention|Projet PEP}}
:::# Je crois que cette partie n'est pas automatique, il faut lier les leçons soi-même. Je vais regarder...
:::# Quant aux titres des départements, il faut aussi se conformer aux intitulés de la plupart des formations officielles. Mon master s'intitule "[https://shs.u-paris.fr/masters/master-mention-didactique-des-langues/master-fle-fls/ Didactique des langues – Parcours Français langue étrangère, mobilités et interculturalité]". Dans l'esprit du plurilinguisme, on pourrait adopter "didactique des langues étrangères", puisque c'est bien ce dont il s'agit, n'est-ce pas ?
:::Cordialement, [[Utilisateur:Fourmidable|Fourmidable]] ([[Discussion utilisateur:Fourmidable|discuter]]) 29 mai 2025 à 19:38 (UTC)
::::Désolé de ne répondre que maintenant... En fait, nous visons un département de "Didactiques du plurilinguisme" ou "Education plurilingue". Je ne sais pas si le département "Didactique des langues" peut encore être renommé...
::::Merci de toute aide possible en tout cas. [[Utilisateur:Projet PEP|Projet PEP]] ([[Discussion utilisateur:Projet PEP|discuter]]) 17 avril 2026 à 09:50 (UTC)
:::::{{Mention|Projet PEP}} Il faut sans doute créer un nouveau département distinct dans ce cas. Je vais lire vos leçons en détail pour essayer d'avoir un avis plus éclairé sur le sujet. [[Utilisateur:Fourmidable|Fourmidable]] ([[Discussion utilisateur:Fourmidable|discuter]]) 19 avril 2026 à 13:57 (UTC)
pat6j4h3owdczrtx2hde5jr4u68gljr
Éveil aux langues/Référents
0
86188
982114
980091
2026-04-20T06:49:40Z
Fourmidable
50100
982114
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Eftychia Damaskou et Lisa Brinkmann]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
jwvzfxluhdmaw1f028pmfw3fd9ye2dt
Cortext/Tutoriels/L’analyse socio-sémantique par l’approche Sashimi
0
86373
982125
977159
2026-04-20T11:18:01Z
Solstag
13856
chargement des données; d'autres petits ajustements
982125
wikitext
text/x-wiki
Ce tutoriel introduit l'application de '''Sashimi''', une méthodologie pour l'étude quali-computationnelle de documents. Il commence par un exercice de modélisation domaine-thématique, suivi par l'usage d'une modélisation enchaînée pour détecter des périodes. Il continue par une sélection de domaines afin de délimiter le corpus, et d'un l'enrichissement du corpus par détection d'entités. Il s'achève par des modélisations enchaînées de ces entités et d'autres dimensions d'intérêt, en prenant compte de la délimitation réalisée.
Conceptuellement, chaque étape nous permettra de :
* '''Modélisation domaine-thématique (« domain-topic »)''' : permet d'enquêter la structure des thématiques (groupes de mots) et des domaines (groupes de documents) du corpus, constitués réciproquement selon la distribution d'occurrences des mots à l'intérieur des documents. Exemples :
** « De quelles manières, dans quels domaines, une thématique apparaît combinée à d'autres ? »
** « De quelles manières, dans quels domaines, deux thématiques se croisent ? »
** « Quelles sont les thématiques les plus transversales pour le corpus ou certains groupes de domaines ? »
* '''Modélisation enchaînée (« domain-chained ») temporelle''' : permet d'enquêter la structure du temps du corpus par périodes constitués selon la distribution de leurs documents dans les domaines. Exemples :
** « Quels sont les années de rupture thématique du corpus ? »
** « Quels sont les périodes quand une thématique donnée disparaît ? »
** « De quels domaines la proportion change le plus entre deux périodes majeures ? »
* '''Délimitation''' : permet de circonscrire un sous-corpus d'intérêt pour une question de recherche à traversa la sélection de domaines pertinents. Exemples :
** « Que voit-on en recentrant les instruments sur les domaines qui traitent d'une thématique d'intérêt ? »
** « Que voit-on en recentrant les instruments sur les domaines ayant monté en importance entre périodes ? »
** « Que voit-on en recentrant les instruments en excluant les domaines sans rapport direct à ma question ? »
* '''Modélisation enchaînée sous délimitation''' : permet d'enquêter la structure d'une dimension originale ou enrichie du corpus, à travers de clusters de ses éléments organisés selon leur distribution dans les domaines appartenant à la sélection. Exemples :
** « Comment les organisations nommés dans les textes se distribuent entre les domaines sélectionnés ? »
** « Comment les villes nommées dans les textes se distribuent entre les domaines, en excluant ceux qui traitent d'une thématique étrange au sujet d'intérêt ? »
== Chargement des données ==
Ce tutoriel utilise l'application web Cortext Manager, il est suggéré de se familiariser avec elle à l'aide du tutoriel : [[Cortext/Tutoriels/L’application Cortext Manager|L’application Cortext Manager]]. Les instructions qui suivent supposent qu'un projet a été crée et qu'un corpus a été intégré au projet — par exemple, à partir d'un jeu de données via l'opération ''Data parsing''.
== A. L’exploration avec Sashimi ==
'''Objectif :''' Réaliser une première modélisation du corpus complet pour appréhender la richesse des thématiques présentes et l’interconnexion entre domaines et topics ; puis réaliser une modélisation enchainée sur le temps pour appréhender l’évolution de la littérature entre différentes périodes.
🔖 Consulter [https://docs.cortext.net/sashimi/ Sashimi] dans la documentation de l'application Cortext Manager
=== 1. Usage de Sashimi ===
La méthode Sashimi dans Cortext Manager fonctionne avec 3 opérations différentes qu’on utilise d'abord en séquence :
* ''Prepare Corpus'' : à partir d’un choix de colonnes textuelles ou catégoriques à traiter, produit une préparation du corpus ;
* ''Domain Model'' : à partir d’une préparation du corpus, produit un modèle regroupant les documents en ''domaines'' et les items des colonnes préparées en ''topiques'' ;
* ''Domain Maps'' : à partir d’un modèle choisi et d’un choix de colonnes à afficher, produit les instruments de lecture et annotation.
=== 2. Créer une modélisation « domain-topic » ===
# Lancer le script ''Prepare Corpus'' en sélectionnant comme sources textuelles les colonnes correspondant au titre et au résumée ;
# Lancer le script ''Domain Model'' pour construire une modélisation '''domain-topic''' en s’appuyant sur le corpus préparé (selon la taille d'un corpus ce traitement peut être assez long) ;
# Créer les instruments de lecture (carte et réseaux) et annotation (workbook) associés au modèle, en lançant le script ''Domain Maps'' ;
#* Pour permettre une meilleure interprétation des résultats, remplir les champs relatifs aux colonnes à utiliser dans les instruments, dont au mois « Document title » et « Document date » ;
#* Pour donner accès aux documents à partir de la carte, renseigner le champ « URL field » en sélectionnant une colonne contenant des URLs pour les documents. Alternativement, sélectionnez une colonne contenant un identifiant, par exemple le <code>doi</code>, et modifiez le champ « URL template » de façon à construire un URL à partir de l'identifiant qui remplacera les signes <code>{}</code>:<ref>Pour un corpus [https://search.istex.fr/ Istex], vous pouvez utiliser l'identifiant <code>ark_id</code> avec l'« URL template » <code><nowiki>https://search.istex.fr/results?q=arkIstex.raw=</nowiki>"{}"</code></ref><syntaxhighlight lang="text">
https://doi.org/{}
</syntaxhighlight>
# Comprendre les instruments obtenus :
#* domain-topic map : carte interactive pour lire les domaines et topics ;
#* domain_workbook : tableur pour annotation de domaines et documents ;
#* networks : lecture relationnelle des liens entre domaines et topics.
#Avec l'aide des instruments, explorer et étudier le corpus à travers les domaines et topiques modélisés.
##Lire l'onglet « Help » du ''domain map'' et essayer les manipulations y décrites.
##Pour les ''networks'', chercher les échelles et caractéristiques qui produisent des résultats parlants.
##Pour un codage collaboratif d'un <code>domain_workbook</code>, vous pouvez l'importer dans un tableur en ligne.
=== 3. Créer une modélisation « enchaînée » ===
# Lancer une modélisation '''domain-chained''' pour la colonne correspondant à l'année de publication des documents (parfois appelée <code>ISIpubdate</code>), sur la base du modèle obtenu avec '''domain-topic''' ; si les documents n'ont pas d'année associée, utiliser une quelconque dimension catégorique;
# Créer les instruments pour le modèle enchaîné avec ''Domain map'' en choisissant l’option « domain-chained » et le modèle obtenu ;
#* L'instrument ''domain map'' ici s'appelle <code>domain-chained {colonne enchaînée} map</code>.
# Explorer en complémentarité avec la modélisation précédente.
#* Toujours à l'aide de l'onglet « Help » du ''domain map''.
=== Questions ===
<blockquote>🤔 A-t-on un intérêt à relancer la modélisation ? Que dit la documentation de la méthode ?</blockquote><blockquote>🤔 Quelle différence entre traiter des documents courts et homogènes, tels quels des résumés, et traiter des documents longs et variables, tels quels des rapports ou le texte intégral d'articles académiques ?</blockquote><blockquote>🤔 Peut-on modéliser avec « domain-topic » une dimension non textuelle ? Qu'obtient-on alors ?</blockquote>
== B. Explorer et se focaliser sur une sous-thématique ==
'''Objectif :''' Identifier une question de recherche et à partir d'elle choisir les sous-domaines pour lesquels conduire une exploration approfondie.
=== 1. Identifier une problématique et ses domaines d’intérêt ===
# Explorer le corpus à l’aide des cartes et réseaux obtenus, afin de choisir les domaines sur lesquels travailler :
#* A partir de leur constitution en terme de topics : les sujets pertinents
#* A partir des relations que les domaines entretiennent par leurs sujets
#* A partir de leur volume et profil temporel
# Conseils :
#* N'oubliez pas l'onglet « Help » des ''domain maps''.
#* Dans les blocs (''domain maps''), privilégier une lecture ascendante, à partir des niveaux plus fins et donc plus cohérents. Les niveaux plus élevés sont moins concrets et plus difficiles à interpréter. Utilisez la carte de topiques et la barre de recherche pour choisir des thématiques d’intérêt pour la question de recherche et ainsi rendre visible les domaines portant ces thématiques.
#* Dans les réseaux (''domain networks''), privilégier le niveau où ils sont lisibles et suffisamment riches, se ressemblant à des constellations. Au niveau 1 les réseaux sont souvent trop denses, mais on pourra y retrouver une lisibilité avec des cartes centrées sur une sélection de domaines.
#* Pour avoir toutes les informations sur les documents dans les cartes et workbook – auteurs, pays, journal etc – il est nécessaire de remplir les champs proposés lors du lancement de ''Domain map''.
#* Dans le livret de travail (''domain workbook''), les informations sont affichées de manière à faciliter l’annotation de domaines ou de documents en utilisant les colonnes libres à droite de ces éléments. La première feuille affiche l’ensemble des domaines, et chaque sous-domaine de niveau 1 fait l’objet d’une feuille présentant ses documents à laquelle on peut accéder – et revenir – via des hyperliens en utilisant “Ctrl+click”.
=== 2. Créer une carte centrée sur une sélection de domaines ===
# Une fois identifié un premier groupe de domaines d’intérêt, pour aller plus loin dans l’investigation nous pouvons créer des instruments centrés sur eux :
#* Relancer le script ''Domain map'', mais en précisant dans le champ « Domain selection » les étiquettes des sous-domaines que vous aurez identifiés.
# Les instruments portant sur une sélection de domaines permettent d’orienter le travail de lecture et d’annotation, et notamment rendent moins peuplés, et alors plus lisibles, les réseaux de niveau plus bas.
# Pour inclure des colonnes supplémentaires dans le ''domain workbook'', il suffit de les choisir dans le champ « Add columns to workbook ». Cela permet aussi de récupérer des identifiants pour produire à la source de données des requêtes ciblées au sous-corpus sélectionné.<ref>Par exemple, avec un corpus Istex, en incluant les <code>ark_id</code> dans le ''workbook'' vous pouvez les copier dans un [https://search.istex.fr/?searchMode=import import de liste d’identifiants] pour obtenir un téléchargement du sous-corpus.</ref>
== C. Enrichir le corpus ==
'''Objectif :''' Identifier dans les articles du corpus les entités de différents types grâce aux opérations ''Corpus term indexer'' et ''Named entity recognizer''.
🔖 Consulter [https://docs.cortext.net/corpus-terms-indexer/ Corpus Terms Indexer] et [https://docs.cortext.net/named-entity-recognizer/ Named Entity Recognizer] dans la documentation de l'application Cortext Manager
=== 1. Identifier des termes pré-établis avec Corpus Terms Indexer ===
L'opération Corpus Terms Indexer permet d'indexer dans les documents les usages d'une liste d'expressions fournies par l'utilisateur.
<ol>
<li> Téléverser dans Cortext Manager un fichier de tableur exporté au format TSV, contenant trois colonnes: les deux premières doivent contenir une forme standard qui va être retenue en tant qu'entité lors de l'indexation, la troisième contient toutes les formes a considérer comme équivalentes à l'entité, séparées par les signes <code>|&|</code>. Par exemple:
{| class="wikitable"
|+liste_de_termes.tsv
!Stem
!Main form
!Forms
|-
| align="left" |patate douce
| align="left" |patate douce
| align="left" |<nowiki>patate douce|&|patates douce|&|patates douces</nowiki>
|-
| align="left" |sauce tomate
| align="left" |sauce tomate
| align="left" |<nowiki>sauce tomate|&|sauce aux tomates|&|sauce à la tomate|&|tomates en sauce</nowiki>
|}
<li> Sélectionner l'opération ''Corpus Terms Indexer'' et choisir la liste téléversée.<li> Choisir les colonnes pour lesquelles détecter les entités, typiquement les mêmes utilisées pour la préparation du corpus. Au cas où le corpus contient le texte intégral des documents, considérer l'intérêt de le traiter ici.
<li> Donner un nom approprié à l'indexation dans le champ « Optionally you can name the new indexation that will be generated ».
<li> Lancer l'opération. L'indexation sera enregistrée en tant que nouvelle colonne du corpus avec le nom fourni.
</ol>
=== 2. Identifier des termes avec un modèle entraîné avec Named Entity Recognizer ===
L'opération ''Named Entity Recognizer'' permet d'indexer les usages de certains types de mots et d'expressions dans les documents. Par exemple, les noms d'organisations, de produits, les lieux et les personnes.
<ol>
<li> Sélectionner les types d'entité à indexer.
<li> Choisir les colonnes pour lesquelles détecter les entités, typiquement les mêmes utilisées pour la préparation du corpus. Au cas où le corpus contient le texte intégral des documents, considérer l'intérêt de le traiter ici.
<li> Donner un nom approprié à l'indexation dans le champ « Optionally you can name the new indexation that will be generated ».
<li> Lancer l'opération. Les indexations seront enregistrées en tant que nouvelles colonnes du corpus, nommées selon le type d'entité et avec le nom fourni en préfixe.
</ol>
== D. Travailler la question de recherche avec d'autres dimensions ==
=== 1. Dimensions enrichies ===
'''Objectif :''' Explorer des clusters d'entités présentes dans le corpus et la façon dont ils se distribuent entre les domaines.
# Produire une modélisation enchaînée sur les entités indexées
#* Sélectionner l'opération ''Domain model'' avec l'option « Domain-chained »
#* Sélectionner le modèle ''domain-topic'' obtenu précédemment
#* Sélectionner l'une des colonnes issues de l’indexation d'entités
#* Choisir entre une modélisation des clusters globale ou locale :
#** Globale, prend en compte la présence des entités sur le corpus entier ; rien à renseigner
#** Locale, restreinte à une sélection de sous-domaines ; renseigner le champ « Domain selection »
# Créer les instruments d'analyse pour le modèle inféré
#* Lancer ''Domain Maps'' sur le modèle obtenu
#* Dans le cas d'une modèle global, choisir entre :
#** Produire une visualisation globale, sur le corpus intégral
#** Produire une visualisation locale, restreinte à une sélection de sous-domaines via le champ « Domain selection »
# Procéder de façon similaire pour chacune des entités indexées
# Explorer la structuration de chacune de ses dimensions par rapport aux domaines du corpus et leurs thématiques
=== 2. Autres dimensions d'intérêt ===
'''Objectif :''' Explorer des clusters d’organisations impliquées dans le corpus, de références citées, ou de revues dans lesquelles les documents ont été publiés.
# Procéder de façon analogue au scénario au dessus pour les dimensions enrichies, en choisissant la colonne appropriée pour la dimension en question.
== Notes ==
kwdyrpqd3r292a1gprtirt2rmhk0jrr
982126
982125
2026-04-20T11:22:23Z
Solstag
13856
titres
982126
wikitext
text/x-wiki
Ce tutoriel introduit l'application de '''Sashimi''', une méthodologie pour l'étude quali-computationnelle de documents. Il commence par un exercice de modélisation domaine-thématique, suivi par l'usage d'une modélisation enchaînée pour détecter des périodes. Il continue par une sélection de domaines afin de délimiter le corpus, et d'un l'enrichissement du corpus par détection d'entités. Il s'achève par des modélisations enchaînées de ces entités et d'autres dimensions d'intérêt, en prenant compte de la délimitation réalisée.
Conceptuellement, chaque étape nous permettra de :
* '''Modélisation domaine-thématique (« domain-topic »)''' : permet d'enquêter la structure des thématiques (groupes de mots) et des domaines (groupes de documents) du corpus, constitués réciproquement selon la distribution d'occurrences des mots à l'intérieur des documents. Exemples :
** « De quelles manières, dans quels domaines, une thématique apparaît combinée à d'autres ? »
** « De quelles manières, dans quels domaines, deux thématiques se croisent ? »
** « Quelles sont les thématiques les plus transversales pour le corpus ou certains groupes de domaines ? »
* '''Modélisation enchaînée (« domain-chained ») temporelle''' : permet d'enquêter la structure du temps du corpus par périodes constitués selon la distribution de leurs documents dans les domaines. Exemples :
** « Quels sont les années de rupture thématique du corpus ? »
** « Quels sont les périodes quand une thématique donnée disparaît ? »
** « De quels domaines la proportion change le plus entre deux périodes majeures ? »
* '''Délimitation''' : permet de circonscrire un sous-corpus d'intérêt pour une question de recherche à traversa la sélection de domaines pertinents. Exemples :
** « Que voit-on en recentrant les instruments sur les domaines qui traitent d'une thématique d'intérêt ? »
** « Que voit-on en recentrant les instruments sur les domaines ayant monté en importance entre périodes ? »
** « Que voit-on en recentrant les instruments en excluant les domaines sans rapport direct à ma question ? »
* '''Modélisation enchaînée sous délimitation''' : permet d'enquêter la structure d'une dimension originale ou enrichie du corpus, à travers de clusters de ses éléments organisés selon leur distribution dans les domaines appartenant à la sélection. Exemples :
** « Comment les organisations nommés dans les textes se distribuent entre les domaines sélectionnés ? »
** « Comment les villes nommées dans les textes se distribuent entre les domaines, en excluant ceux qui traitent d'une thématique étrange au sujet d'intérêt ? »
== Chargement des données ==
Ce tutoriel utilise l'application web Cortext Manager, il est suggéré de se familiariser avec elle à l'aide du tutoriel : [[Cortext/Tutoriels/L’application Cortext Manager|L’application Cortext Manager]]. Les instructions qui suivent supposent qu'un projet a été crée et qu'un corpus a été intégré au projet — par exemple, à partir d'un jeu de données via l'opération ''Data parsing''.
== A. L’exploration avec Sashimi ==
'''Objectif :''' Réaliser une première modélisation du corpus complet pour appréhender la richesse des thématiques présentes et l’interconnexion entre domaines et topics ; puis réaliser une modélisation enchainée sur le temps pour appréhender l’évolution de la littérature entre différentes périodes.
🔖 Consulter [https://docs.cortext.net/sashimi/ Sashimi] dans la documentation de l'application Cortext Manager
=== Usage de Sashimi ===
La méthode Sashimi dans Cortext Manager fonctionne avec 3 opérations différentes qu’on utilise d'abord en séquence :
* ''Prepare Corpus'' : à partir d’un choix de colonnes textuelles ou catégoriques à traiter, produit une préparation du corpus ;
* ''Domain Model'' : à partir d’une préparation du corpus, produit un modèle regroupant les documents en ''domaines'' et les items des colonnes préparées en ''topiques'' ;
* ''Domain Maps'' : à partir d’un modèle choisi et d’un choix de colonnes à afficher, produit les instruments de lecture et annotation.
=== Enquêter avec une modélisation « domain-topic » ===
# Lancer le script ''Prepare Corpus'' en sélectionnant comme sources textuelles les colonnes correspondant au titre et au résumée ;
# Lancer le script ''Domain Model'' pour construire une modélisation '''domain-topic''' en s’appuyant sur le corpus préparé (selon la taille d'un corpus ce traitement peut être assez long) ;
# Créer les instruments de lecture (carte et réseaux) et annotation (workbook) associés au modèle, en lançant le script ''Domain Maps'' ;
#* Pour permettre une meilleure interprétation des résultats, remplir les champs relatifs aux colonnes à utiliser dans les instruments, dont au mois « Document title » et « Document date » ;
#* Pour donner accès aux documents à partir de la carte, renseigner le champ « URL field » en sélectionnant une colonne contenant des URLs pour les documents. Alternativement, sélectionnez une colonne contenant un identifiant, par exemple le <code>doi</code>, et modifiez le champ « URL template » de façon à construire un URL à partir de l'identifiant qui remplacera les signes <code>{}</code>:<ref>Pour un corpus [https://search.istex.fr/ Istex], vous pouvez utiliser l'identifiant <code>ark_id</code> avec l'« URL template » <code><nowiki>https://search.istex.fr/results?q=arkIstex.raw=</nowiki>"{}"</code></ref><syntaxhighlight lang="text">
https://doi.org/{}
</syntaxhighlight>
# Comprendre les instruments obtenus :
#* domain-topic map : carte interactive pour lire les domaines et topics ;
#* domain_workbook : tableur pour annotation de domaines et documents ;
#* networks : lecture relationnelle des liens entre domaines et topics.
#Avec l'aide des instruments, explorer et étudier le corpus à travers les domaines et topiques modélisés.
##Lire l'onglet « Help » du ''domain map'' et essayer les manipulations y décrites.
##Pour les ''networks'', chercher les échelles et caractéristiques qui produisent des résultats parlants.
##Pour un codage collaboratif d'un <code>domain_workbook</code>, vous pouvez l'importer dans un tableur en ligne.
=== Enquêter avec une modélisation « enchaînée » ===
# Lancer une modélisation '''domain-chained''' pour la colonne correspondant à l'année de publication des documents (parfois appelée <code>ISIpubdate</code>), sur la base du modèle obtenu avec '''domain-topic''' ; si les documents n'ont pas d'année associée, utiliser une quelconque dimension catégorique;
# Créer les instruments pour le modèle enchaîné avec ''Domain map'' en choisissant l’option « domain-chained » et le modèle obtenu ;
#* L'instrument ''domain map'' ici s'appelle <code>domain-chained {colonne enchaînée} map</code>.
# Explorer en complémentarité avec la modélisation précédente.
#* Toujours à l'aide de l'onglet « Help » du ''domain map''.
=== Questions ===
<blockquote>🤔 A-t-on un intérêt à relancer la modélisation ? Que dit la documentation de la méthode ?</blockquote><blockquote>🤔 Quelle différence entre traiter des documents courts et homogènes, tels quels des résumés, et traiter des documents longs et variables, tels quels des rapports ou le texte intégral d'articles académiques ?</blockquote><blockquote>🤔 Peut-on modéliser avec « domain-topic » une dimension non textuelle ? Qu'obtient-on alors ?</blockquote>
== B. Explorer et se focaliser sur une sous-thématique ==
'''Objectif :''' Identifier une question de recherche et à partir d'elle choisir les sous-domaines pour lesquels conduire une exploration approfondie.
=== Identifier une problématique et ses domaines d’intérêt ===
# Explorer le corpus à l’aide des cartes et réseaux obtenus, afin de choisir les domaines sur lesquels travailler :
#* A partir de leur constitution en terme de topics : les sujets pertinents
#* A partir des relations que les domaines entretiennent par leurs sujets
#* A partir de leur volume et profil temporel
# Conseils :
#* N'oubliez pas l'onglet « Help » des ''domain maps''.
#* Dans les blocs (''domain maps''), privilégier une lecture ascendante, à partir des niveaux plus fins et donc plus cohérents. Les niveaux plus élevés sont moins concrets et plus difficiles à interpréter. Utilisez la carte de topiques et la barre de recherche pour choisir des thématiques d’intérêt pour la question de recherche et ainsi rendre visible les domaines portant ces thématiques.
#* Dans les réseaux (''domain networks''), privilégier le niveau où ils sont lisibles et suffisamment riches, se ressemblant à des constellations. Au niveau 1 les réseaux sont souvent trop denses, mais on pourra y retrouver une lisibilité avec des cartes centrées sur une sélection de domaines.
#* Pour avoir toutes les informations sur les documents dans les cartes et workbook – auteurs, pays, journal etc – il est nécessaire de remplir les champs proposés lors du lancement de ''Domain map''.
#* Dans le livret de travail (''domain workbook''), les informations sont affichées de manière à faciliter l’annotation de domaines ou de documents en utilisant les colonnes libres à droite de ces éléments. La première feuille affiche l’ensemble des domaines, et chaque sous-domaine de niveau 1 fait l’objet d’une feuille présentant ses documents à laquelle on peut accéder – et revenir – via des hyperliens en utilisant “Ctrl+click”.
=== Créer une carte centrée sur une sélection de domaines ===
# Une fois identifié un premier groupe de domaines d’intérêt, pour aller plus loin dans l’investigation nous pouvons créer des instruments centrés sur eux :
#* Relancer le script ''Domain map'', mais en précisant dans le champ « Domain selection » les étiquettes des sous-domaines que vous aurez identifiés.
# Les instruments portant sur une sélection de domaines permettent d’orienter le travail de lecture et d’annotation, et notamment rendent moins peuplés, et alors plus lisibles, les réseaux de niveau plus bas.
# Pour inclure des colonnes supplémentaires dans le ''domain workbook'', il suffit de les choisir dans le champ « Add columns to workbook ». Cela permet aussi de récupérer des identifiants pour produire à la source de données des requêtes ciblées au sous-corpus sélectionné.<ref>Par exemple, avec un corpus Istex, en incluant les <code>ark_id</code> dans le ''workbook'' vous pouvez les copier dans un [https://search.istex.fr/?searchMode=import import de liste d’identifiants] pour obtenir un téléchargement du sous-corpus.</ref>
== C. Enrichir le corpus ==
'''Objectif :''' Identifier dans les articles du corpus les entités de différents types grâce aux opérations ''Corpus term indexer'' et ''Named entity recognizer''.
🔖 Consulter [https://docs.cortext.net/corpus-terms-indexer/ Corpus Terms Indexer] et [https://docs.cortext.net/named-entity-recognizer/ Named Entity Recognizer] dans la documentation de l'application Cortext Manager
=== Identifier des termes pré-établis avec Corpus Terms Indexer ===
L'opération Corpus Terms Indexer permet d'indexer dans les documents les usages d'une liste d'expressions fournies par l'utilisateur.
<ol>
<li> Téléverser dans Cortext Manager un fichier de tableur exporté au format TSV, contenant trois colonnes: les deux premières doivent contenir une forme standard qui va être retenue en tant qu'entité lors de l'indexation, la troisième contient toutes les formes a considérer comme équivalentes à l'entité, séparées par les signes <code>|&|</code>. Par exemple:
{| class="wikitable"
|+liste_de_termes.tsv
!Stem
!Main form
!Forms
|-
| align="left" |patate douce
| align="left" |patate douce
| align="left" |<nowiki>patate douce|&|patates douce|&|patates douces</nowiki>
|-
| align="left" |sauce tomate
| align="left" |sauce tomate
| align="left" |<nowiki>sauce tomate|&|sauce aux tomates|&|sauce à la tomate|&|tomates en sauce</nowiki>
|}
<li> Sélectionner l'opération ''Corpus Terms Indexer'' et choisir la liste téléversée.<li> Choisir les colonnes pour lesquelles détecter les entités, typiquement les mêmes utilisées pour la préparation du corpus. Au cas où le corpus contient le texte intégral des documents, considérer l'intérêt de le traiter ici.
<li> Donner un nom approprié à l'indexation dans le champ « Optionally you can name the new indexation that will be generated ».
<li> Lancer l'opération. L'indexation sera enregistrée en tant que nouvelle colonne du corpus avec le nom fourni.
</ol>
=== Identifier des termes avec un modèle entraîné avec Named Entity Recognizer ===
L'opération ''Named Entity Recognizer'' permet d'indexer les usages de certains types de mots et d'expressions dans les documents. Par exemple, les noms d'organisations, de produits, les lieux et les personnes.
<ol>
<li> Sélectionner les types d'entité à indexer.
<li> Choisir les colonnes pour lesquelles détecter les entités, typiquement les mêmes utilisées pour la préparation du corpus. Au cas où le corpus contient le texte intégral des documents, considérer l'intérêt de le traiter ici.
<li> Donner un nom approprié à l'indexation dans le champ « Optionally you can name the new indexation that will be generated ».
<li> Lancer l'opération. Les indexations seront enregistrées en tant que nouvelles colonnes du corpus, nommées selon le type d'entité et avec le nom fourni en préfixe.
</ol>
== D. Travailler la question de recherche avec d'autres dimensions ==
=== Dimensions enrichies ===
'''Objectif :''' Explorer des clusters d'entités présentes dans le corpus et la façon dont ils se distribuent entre les domaines.
# Produire une modélisation enchaînée sur les entités indexées
#* Sélectionner l'opération ''Domain model'' avec l'option « Domain-chained »
#* Sélectionner le modèle ''domain-topic'' obtenu précédemment
#* Sélectionner l'une des colonnes issues de l’indexation d'entités
#* Choisir entre une modélisation des clusters globale ou locale :
#** Globale, prend en compte la présence des entités sur le corpus entier ; rien à renseigner
#** Locale, restreinte à une sélection de sous-domaines ; renseigner le champ « Domain selection »
# Créer les instruments d'analyse pour le modèle inféré
#* Lancer ''Domain Maps'' sur le modèle obtenu
#* Dans le cas d'une modèle global, choisir entre :
#** Produire une visualisation globale, sur le corpus intégral
#** Produire une visualisation locale, restreinte à une sélection de sous-domaines via le champ « Domain selection »
# Procéder de façon similaire pour chacune des entités indexées
# Explorer la structuration de chacune de ses dimensions par rapport aux domaines du corpus et leurs thématiques
=== Autres dimensions d'intérêt ===
'''Objectif :''' Explorer des clusters d’organisations impliquées dans le corpus, de références citées, ou de revues dans lesquelles les documents ont été publiés.
# Procéder de façon analogue au scénario au dessus pour les dimensions enrichies, en choisissant la colonne appropriée pour la dimension en question.
== Notes ==
pkuxbtsbbsccmfjk1xvdikdqltkyfff
982127
982126
2026-04-20T11:32:13Z
Solstag
13856
description de modélisation enchaînée
982127
wikitext
text/x-wiki
Ce tutoriel introduit l'application de '''Sashimi''', une méthodologie pour l'étude quali-computationnelle de documents. Il commence par un exercice de modélisation domaine-thématique, suivi par l'usage d'une modélisation enchaînée pour détecter des périodes. Il continue par une sélection de domaines afin de délimiter le corpus, et d'un l'enrichissement du corpus par détection d'entités. Il s'achève par des modélisations enchaînées de ces entités et d'autres dimensions d'intérêt, en prenant compte de la délimitation réalisée.
Conceptuellement, chaque étape nous permettra de :
* '''Modélisation domaine-thématique (« domain-topic »)''' : permet d'enquêter la structure des thématiques (groupes de mots) et des domaines (groupes de documents) du corpus, constitués réciproquement selon la distribution d'occurrences des mots à l'intérieur des documents. Exemples :
** « De quelles manières, dans quels domaines, une thématique apparaît combinée à d'autres ? »
** « De quelles manières, dans quels domaines, deux thématiques se croisent ? »
** « Quelles sont les thématiques les plus transversales pour le corpus ou certains groupes de domaines ? »
* '''Modélisation enchaînée (« domain-chained »), par exemple temporelle''' : permet d'enquêter des évolutions du corpus à travers de périodes constituées selon la distribution de leurs documents dans les domaines. Exemples :
** « Quels sont les moments de rupture thématique du corpus ? »
** « Dans quelle période une certaine thématique apparaît, ou disparaît ? »
** « Quels sont les domaines dont la proportion change le plus entre les périodes majeures ? »
* '''Délimitation''' : permet de circonscrire un sous-corpus d'intérêt pour une question de recherche à traversa la sélection de domaines pertinents. Exemples :
** « Que voit-on en recentrant les instruments sur les domaines qui traitent d'une thématique d'intérêt ? »
** « Que voit-on en recentrant les instruments sur les domaines ayant monté en importance entre périodes ? »
** « Que voit-on en recentrant les instruments en excluant les domaines sans rapport direct à ma question ? »
* '''Modélisation enchaînée sous délimitation''' : permet d'enquêter la structure d'une dimension originale ou enrichie du corpus, à travers de clusters de ses éléments organisés selon leur distribution dans les domaines appartenant à la sélection. Exemples :
** « Comment les organisations nommés dans les textes se distribuent entre les domaines sélectionnés ? »
** « Comment les villes nommées dans les textes se distribuent entre les domaines, en excluant ceux qui traitent d'une thématique étrange au sujet d'intérêt ? »
== Chargement des données ==
Ce tutoriel utilise l'application web Cortext Manager, il est suggéré de se familiariser avec elle à l'aide du tutoriel : [[Cortext/Tutoriels/L’application Cortext Manager|L’application Cortext Manager]]. Les instructions qui suivent supposent qu'un projet a été crée et qu'un corpus a été intégré au projet — par exemple, à partir d'un jeu de données via l'opération ''Data parsing''.
== A. L’exploration avec Sashimi ==
'''Objectif :''' Réaliser une première modélisation du corpus complet pour appréhender la richesse des thématiques présentes et l’interconnexion entre domaines et topics ; puis réaliser une modélisation enchainée sur le temps pour appréhender l’évolution de la littérature entre différentes périodes.
🔖 Consulter [https://docs.cortext.net/sashimi/ Sashimi] dans la documentation de l'application Cortext Manager
=== Usage de Sashimi ===
La méthode Sashimi dans Cortext Manager fonctionne avec 3 opérations différentes qu’on utilise d'abord en séquence :
* ''Prepare Corpus'' : à partir d’un choix de colonnes textuelles ou catégoriques à traiter, produit une préparation du corpus ;
* ''Domain Model'' : à partir d’une préparation du corpus, produit un modèle regroupant les documents en ''domaines'' et les items des colonnes préparées en ''topiques'' ;
* ''Domain Maps'' : à partir d’un modèle choisi et d’un choix de colonnes à afficher, produit les instruments de lecture et annotation.
=== Enquêter avec une modélisation « domain-topic » ===
# Lancer le script ''Prepare Corpus'' en sélectionnant comme sources textuelles les colonnes correspondant au titre et au résumée ;
# Lancer le script ''Domain Model'' pour construire une modélisation '''domain-topic''' en s’appuyant sur le corpus préparé (selon la taille d'un corpus ce traitement peut être assez long) ;
# Créer les instruments de lecture (carte et réseaux) et annotation (workbook) associés au modèle, en lançant le script ''Domain Maps'' ;
#* Pour permettre une meilleure interprétation des résultats, remplir les champs relatifs aux colonnes à utiliser dans les instruments, dont au mois « Document title » et « Document date » ;
#* Pour donner accès aux documents à partir de la carte, renseigner le champ « URL field » en sélectionnant une colonne contenant des URLs pour les documents. Alternativement, sélectionnez une colonne contenant un identifiant, par exemple le <code>doi</code>, et modifiez le champ « URL template » de façon à construire un URL à partir de l'identifiant qui remplacera les signes <code>{}</code>:<ref>Pour un corpus [https://search.istex.fr/ Istex], vous pouvez utiliser l'identifiant <code>ark_id</code> avec l'« URL template » <code><nowiki>https://search.istex.fr/results?q=arkIstex.raw=</nowiki>"{}"</code></ref><syntaxhighlight lang="text">
https://doi.org/{}
</syntaxhighlight>
# Comprendre les instruments obtenus :
#* domain-topic map : carte interactive pour lire les domaines et topics ;
#* domain_workbook : tableur pour annotation de domaines et documents ;
#* networks : lecture relationnelle des liens entre domaines et topics.
#Avec l'aide des instruments, explorer et étudier le corpus à travers les domaines et topiques modélisés.
##Lire l'onglet « Help » du ''domain map'' et essayer les manipulations y décrites.
##Pour les ''networks'', chercher les échelles et caractéristiques qui produisent des résultats parlants.
##Pour un codage collaboratif d'un <code>domain_workbook</code>, vous pouvez l'importer dans un tableur en ligne.
=== Enquêter avec une modélisation « enchaînée » ===
# Lancer une modélisation '''domain-chained''' pour la colonne correspondant à l'année de publication des documents (parfois appelée <code>ISIpubdate</code>), sur la base du modèle obtenu avec '''domain-topic''' ; si les documents n'ont pas d'année associée, utiliser une quelconque dimension catégorique;
# Créer les instruments pour le modèle enchaîné avec ''Domain map'' en choisissant l’option « domain-chained » et le modèle obtenu ;
#* L'instrument ''domain map'' ici s'appelle <code>domain-chained {colonne enchaînée} map</code>.
# Explorer en complémentarité avec la modélisation précédente.
#* Toujours à l'aide de l'onglet « Help » du ''domain map''.
=== Questions ===
<blockquote>🤔 A-t-on un intérêt à relancer la modélisation ? Que dit la documentation de la méthode ?</blockquote><blockquote>🤔 Quelle différence entre traiter des documents courts et homogènes, tels quels des résumés, et traiter des documents longs et variables, tels quels des rapports ou le texte intégral d'articles académiques ?</blockquote><blockquote>🤔 Peut-on modéliser avec « domain-topic » une dimension non textuelle ? Qu'obtient-on alors ?</blockquote>
== B. Explorer et se focaliser sur une sous-thématique ==
'''Objectif :''' Identifier une question de recherche et à partir d'elle choisir les sous-domaines pour lesquels conduire une exploration approfondie.
=== Identifier une problématique et ses domaines d’intérêt ===
# Explorer le corpus à l’aide des cartes et réseaux obtenus, afin de choisir les domaines sur lesquels travailler :
#* A partir de leur constitution en terme de topics : les sujets pertinents
#* A partir des relations que les domaines entretiennent par leurs sujets
#* A partir de leur volume et profil temporel
# Conseils :
#* N'oubliez pas l'onglet « Help » des ''domain maps''.
#* Dans les blocs (''domain maps''), privilégier une lecture ascendante, à partir des niveaux plus fins et donc plus cohérents. Les niveaux plus élevés sont moins concrets et plus difficiles à interpréter. Utilisez la carte de topiques et la barre de recherche pour choisir des thématiques d’intérêt pour la question de recherche et ainsi rendre visible les domaines portant ces thématiques.
#* Dans les réseaux (''domain networks''), privilégier le niveau où ils sont lisibles et suffisamment riches, se ressemblant à des constellations. Au niveau 1 les réseaux sont souvent trop denses, mais on pourra y retrouver une lisibilité avec des cartes centrées sur une sélection de domaines.
#* Pour avoir toutes les informations sur les documents dans les cartes et workbook – auteurs, pays, journal etc – il est nécessaire de remplir les champs proposés lors du lancement de ''Domain map''.
#* Dans le livret de travail (''domain workbook''), les informations sont affichées de manière à faciliter l’annotation de domaines ou de documents en utilisant les colonnes libres à droite de ces éléments. La première feuille affiche l’ensemble des domaines, et chaque sous-domaine de niveau 1 fait l’objet d’une feuille présentant ses documents à laquelle on peut accéder – et revenir – via des hyperliens en utilisant “Ctrl+click”.
=== Créer une carte centrée sur une sélection de domaines ===
# Une fois identifié un premier groupe de domaines d’intérêt, pour aller plus loin dans l’investigation nous pouvons créer des instruments centrés sur eux :
#* Relancer le script ''Domain map'', mais en précisant dans le champ « Domain selection » les étiquettes des sous-domaines que vous aurez identifiés.
# Les instruments portant sur une sélection de domaines permettent d’orienter le travail de lecture et d’annotation, et notamment rendent moins peuplés, et alors plus lisibles, les réseaux de niveau plus bas.
# Pour inclure des colonnes supplémentaires dans le ''domain workbook'', il suffit de les choisir dans le champ « Add columns to workbook ». Cela permet aussi de récupérer des identifiants pour produire à la source de données des requêtes ciblées au sous-corpus sélectionné.<ref>Par exemple, avec un corpus Istex, en incluant les <code>ark_id</code> dans le ''workbook'' vous pouvez les copier dans un [https://search.istex.fr/?searchMode=import import de liste d’identifiants] pour obtenir un téléchargement du sous-corpus.</ref>
== C. Enrichir le corpus ==
'''Objectif :''' Identifier dans les articles du corpus les entités de différents types grâce aux opérations ''Corpus term indexer'' et ''Named entity recognizer''.
🔖 Consulter [https://docs.cortext.net/corpus-terms-indexer/ Corpus Terms Indexer] et [https://docs.cortext.net/named-entity-recognizer/ Named Entity Recognizer] dans la documentation de l'application Cortext Manager
=== Identifier des termes pré-établis avec Corpus Terms Indexer ===
L'opération Corpus Terms Indexer permet d'indexer dans les documents les usages d'une liste d'expressions fournies par l'utilisateur.
<ol>
<li> Téléverser dans Cortext Manager un fichier de tableur exporté au format TSV, contenant trois colonnes: les deux premières doivent contenir une forme standard qui va être retenue en tant qu'entité lors de l'indexation, la troisième contient toutes les formes a considérer comme équivalentes à l'entité, séparées par les signes <code>|&|</code>. Par exemple:
{| class="wikitable"
|+liste_de_termes.tsv
!Stem
!Main form
!Forms
|-
| align="left" |patate douce
| align="left" |patate douce
| align="left" |<nowiki>patate douce|&|patates douce|&|patates douces</nowiki>
|-
| align="left" |sauce tomate
| align="left" |sauce tomate
| align="left" |<nowiki>sauce tomate|&|sauce aux tomates|&|sauce à la tomate|&|tomates en sauce</nowiki>
|}
<li> Sélectionner l'opération ''Corpus Terms Indexer'' et choisir la liste téléversée.<li> Choisir les colonnes pour lesquelles détecter les entités, typiquement les mêmes utilisées pour la préparation du corpus. Au cas où le corpus contient le texte intégral des documents, considérer l'intérêt de le traiter ici.
<li> Donner un nom approprié à l'indexation dans le champ « Optionally you can name the new indexation that will be generated ».
<li> Lancer l'opération. L'indexation sera enregistrée en tant que nouvelle colonne du corpus avec le nom fourni.
</ol>
=== Identifier des termes avec un modèle entraîné avec Named Entity Recognizer ===
L'opération ''Named Entity Recognizer'' permet d'indexer les usages de certains types de mots et d'expressions dans les documents. Par exemple, les noms d'organisations, de produits, les lieux et les personnes.
<ol>
<li> Sélectionner les types d'entité à indexer.
<li> Choisir les colonnes pour lesquelles détecter les entités, typiquement les mêmes utilisées pour la préparation du corpus. Au cas où le corpus contient le texte intégral des documents, considérer l'intérêt de le traiter ici.
<li> Donner un nom approprié à l'indexation dans le champ « Optionally you can name the new indexation that will be generated ».
<li> Lancer l'opération. Les indexations seront enregistrées en tant que nouvelles colonnes du corpus, nommées selon le type d'entité et avec le nom fourni en préfixe.
</ol>
== D. Travailler la question de recherche avec d'autres dimensions ==
=== Dimensions enrichies ===
'''Objectif :''' Explorer des clusters d'entités présentes dans le corpus et la façon dont ils se distribuent entre les domaines.
# Produire une modélisation enchaînée sur les entités indexées
#* Sélectionner l'opération ''Domain model'' avec l'option « Domain-chained »
#* Sélectionner le modèle ''domain-topic'' obtenu précédemment
#* Sélectionner l'une des colonnes issues de l’indexation d'entités
#* Choisir entre une modélisation des clusters globale ou locale :
#** Globale, prend en compte la présence des entités sur le corpus entier ; rien à renseigner
#** Locale, restreinte à une sélection de sous-domaines ; renseigner le champ « Domain selection »
# Créer les instruments d'analyse pour le modèle inféré
#* Lancer ''Domain Maps'' sur le modèle obtenu
#* Dans le cas d'une modèle global, choisir entre :
#** Produire une visualisation globale, sur le corpus intégral
#** Produire une visualisation locale, restreinte à une sélection de sous-domaines via le champ « Domain selection »
# Procéder de façon similaire pour chacune des entités indexées
# Explorer la structuration de chacune de ses dimensions par rapport aux domaines du corpus et leurs thématiques
=== Autres dimensions d'intérêt ===
'''Objectif :''' Explorer des clusters d’organisations impliquées dans le corpus, de références citées, ou de revues dans lesquelles les documents ont été publiés.
# Procéder de façon analogue au scénario au dessus pour les dimensions enrichies, en choisissant la colonne appropriée pour la dimension en question.
== Notes ==
aahsf3d0m952q3djoogqfafwz8jauy8
Évaluation de la compétence plurilingue/Référents
0
86439
982113
980089
2026-04-20T06:49:10Z
Fourmidable
50100
982113
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Sílvia Melo-Pfeifer et Christian Ollivier]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
10hy6dxkfrkbfwhi7iqpexupfe1obr5
Évaluation des connaissances et des compétences des apprenants plurilingues/Référents
0
86452
982112
980090
2026-04-20T06:48:43Z
Fourmidable
50100
982112
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Sílvia Melo-Pfeifer et Christian Ollivier]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
10hy6dxkfrkbfwhi7iqpexupfe1obr5
Langue(s) maternelle(s), L1, langue familiale, langue(s) frontalière(s)… et plus encore !/Référents
0
86466
982111
980308
2026-04-20T06:48:16Z
Fourmidable
50100
982111
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Sílvia Melo-Pfeifer et Logambal Souprayen-Cavery]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
tvt6zip642cwblsmbrg5fh1f74hko7p
Le plurilinguisme dans le CECRL/Référents
0
86488
982110
980321
2026-04-20T06:47:47Z
Fourmidable
50100
982110
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Christian Ollivier et Eva Vetter]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
tk9ftvetusucte49a4opvyg9tep5zly
Perspective décoloniale dans l'éducation plurilingue/Référents
0
86502
982109
980468
2026-04-20T06:47:08Z
Fourmidable
50100
982109
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Lisa Brinkmann et Thierry Gaillat]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
qfuh3z704esu1rqg72rnu85v2fpf2uj
Approches plurielles/Référents
0
86514
982108
979909
2026-04-20T06:46:32Z
Fourmidable
50100
982108
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Eftychia Damaskou et Thierry Gaillat]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
39ieh8sdgotqt4jbth4o9kat62mi383
Constellation linguistique dominante/Référents
0
86526
982107
979991
2026-04-20T06:45:55Z
Fourmidable
50100
982107
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Lena Kratochwill et Eva Vetter]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
j7ey2ivy8o62fyhf4121et8tyj9qzwu
Compétence plurilingue et inter-/transculturelle/Référents
0
86546
982106
979979
2026-04-20T06:45:04Z
Fourmidable
50100
982106
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Thierry Gaillat et Margareta Strasser]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
0d5pfc8xqpefy8symd09rymzsmdl34w
Médiation langagière/Référents
0
86564
982101
980394
2026-04-19T16:13:56Z
Fourmidable
50100
982101
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Filomena Capucho et Sílvia Melo-Pfeifer]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
o8tdev9gvb13w6run4fyupzbtxsz7t1
Langues en danger et éducation plurilingue/Référents
0
86595
982100
980310
2026-04-19T16:08:19Z
Fourmidable
50100
982100
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Thierry Gaillat et Eva Vetter]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
b1zc6k4cxpdnfrrpwj6srk5sewemoe1
Langues d'héritage/Référents
0
86606
982099
980309
2026-04-19T16:02:22Z
Fourmidable
50100
982099
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Anastasia Gkaintartzi et Paulina Wagner]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
gewr30i1y897nf9jd0ea0pw5r7zak0f
Terminologie et éducation plurilingue/Référents
0
86639
982098
980634
2026-04-19T15:59:05Z
Fourmidable
50100
982098
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Melissa Lamonaca]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
hmvi52wfnva9tvp8xbkv87uvw98nejo
Portfolio linguistique/Référents
0
86656
982097
980486
2026-04-19T15:42:31Z
Fourmidable
50100
982097
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Lisa Brinkmann et Christoph Hülsmann]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
r2giw1g3ldafjdilp54eiygtcxxug39
Représentations des enseignants et plurilinguisme/Référents
0
86671
982096
980539
2026-04-19T15:41:55Z
Fourmidable
50100
982096
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Diego Cortés Velásquez et Sílvia Melo-Pfeifer]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
mnopkntsnt1l4wuajbbemdkuid04jnp
Conscience plurilingue - Conscience linguistique - Métacompétences/Référents
0
86683
982095
979990
2026-04-19T15:41:27Z
Fourmidable
50100
982095
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Diego Cortés Velásquez et Eftychia Damaskou]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
6hp3wdbkqrkeindhixwvdwdep8rgznv
Plurilinguisme et éducation plurilingue dans le passé/Référents
0
86696
982094
980479
2026-04-19T15:40:57Z
Fourmidable
50100
982094
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Margareta Strasser]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
mcc7hgfpm7pe57xskbj7lw2ae4xkoi8
CLIL-EMILE - Enseignement des Matières par l’Intégration d’une Langue Étrangère/Référents
0
86713
982093
979971
2026-04-19T15:40:20Z
Fourmidable
50100
982093
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Franziska Gerwers et Sílvia Melo-Pfeifer]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
h8hz70hacys7chfdveltvduv76iwzzy
Éducation plurilingue pour les personnes sourdes et malentendantes/Référents
0
86742
982092
980051
2026-04-19T15:39:37Z
Fourmidable
50100
982092
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Maria Roccaforte et Martina Carrazza]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
poxfewragt8e9dp2k9mtphddomtgol8
Analyses textuelles (M2 D2SN, 2025-2026)
0
86771
982128
981373
2026-04-20T11:33:57Z
Solstag
13856
Matériel pour « Documents »
982128
wikitext
text/x-wiki
[[Fichier:Alexandria Codex page 7.PNG|droite|sans_cadre|217x217px]]
Cours d'« Analyses textuelles » pour la promo 2025-2026 du [[D2SN|Master D2SN]] à l'UGE.
Responsable: Alexandre Hannud Abdo (@[[Utilisateur:Solstag|Solstag]])
Le programme ci-dessous est provisionnel et sera adapté en fonction de la progression du cours.
Sous-pages :
* [[Analyses textuelles (M2 D2SN, 2025-2026)/Participants|Participants]]
* [[Analyses textuelles (M2 D2SN, 2025-2026)/Évaluation|Évaluation]]
{{Créer accéder cahier}}
=== Matériel ===
Nouveau
* Adresse: https://cloud.univ-eiffel.fr/s/xWZRCNDMXLTridn
* Mot de passe : <code>R}U0(MFm37nUR<</code>
== Séance 1 : Introduction (2026-03-07 15h–18h) ==
* Parcours et attentes des participants
* Consignes d'usage de Wikiversité
* Introduction au programme du cours
** La diversité de sources de texte
** La multiplicité d'analyses textuelles
** L'usage en société des analyses textuelles
* Présentation
==== Matériel ====
* Présentation [https://solstag.gitlab.io/presentations/analyses-textuelles-2026/ Les analyses textuelles]
== Séance 2 : Données (2026-03-17 09h–13h) ==
=== Choix et constitution d'un corpus ===
* Qu'est-ce qu'un corpus ? Pour quelles questions?
* Inclusion et exclusion, extension et délimitation
* Exemples de sources données textuelles:
** Magazines, web et autres : [https://archive.org/ archive.org]
** Scientifiques : [https://openalex.org/ OpenAlex], [https://www.webofscience.com/ WebOfScience]
** Presse : [https://www.europresse.com/ Europresse], [https://www.dowjones.com/professional/factiva/ Factiva]
** Littérature : [https://www.gutenberg.org/ Project Gutenberg], [https://wikisource.org/ Wikisource]
* Outils de ''scraping'':
** Web crawling : [https://www.scrapy.org/ Scrapy] ([https://docs.scrapy.org/en/latest/intro/tutorial.html tutoriel])
** Automation de navigateur : [https://www.selenium.dev/ Selenium] ([https://www.selenium.dev/selenium-ide/ extension] pour Chrome ou Firefox)
** Extraction et transformation: [https://docling-project.github.io/docling/ Docling] (multi-format), [https://github.com/grobidOrg/grobid Grobid] (PDFs académiques)
=== Analyses ===
* Qu'est-ce qu'il y a dans un mot?
* Tokenisation et nettoyage
* Distribution temporelle et longueur des textes
* Fréquence et présence
==== Matériel ====
* Cahier ''[https://cloud.univ-eiffel.fr/s/xWZRCNDMXLTridn Data.ipynb]''
== Séance 3: Signes, morphosyntaxe et phraseologie (2026-03-30 09h–13h) ==
Signes
* Dictionnaires
* Heuristiques de spécificité
* Cooccurrence textuelle
* Cooccurrence paratextuelle
* Graphiques et matrices de couleur
Phrases
* Nature, fonction syntaxique. Phrases et signification.
* Étiquetage et fouille morphosyntaxiques.
* Entités nommées.
* Résolution de référentiels.
* [[wikipedia:N-gram|N-grams]]
* [[wikipedia:Distributional_semantics|Hypothèse distributionnelle]]
* [[wikipedia:Semantic_differential|Sémantique différentielle]]
* [[wikipedia:Word_embedding|Plongement lexical]]
=== Culture générale sur modèles de langage ===
* Vecteurs de mots et documents : [[w:en:Latent_semantic_analysis|Latent_semantic_analysis (LSA)]], [https://code.google.com/archive/p/word2vec/ Word2Vec], [https://nlp.stanford.edu/projects/glove/ GloVe]
* Modèles probabilistes : [[wikipedia:Probabilistic_latent_semantic_analysis|Probabilistic LSA (pLSA)]] [[wikipedia:Latent_Dirichlet_allocation|Latent_Dirichlet_allocation]], [https://gitlab.com/solstag/sashimi Stochastic Block Model]
* Transformers : [https://github.com/huggingface/transformers Transformers], [https://www.sbert.net/ Sentence Transformers],
==== Matériel ====
* Cahier ''[https://cloud.univ-eiffel.fr/s/xWZRCNDMXLTridn Signes.ipynb]''
* Cahier [https://cloud.univ-eiffel.fr/s/xWZRCNDMXLTridn Phrases''.ipynb'']
== Séance 4 : Énonciation et discours (2026-03-31 09h–13h) ==
* Énoncé et sens. Style, thème, tropismes grammaticaux et vocabulaires. Marqueurs de subjectivité ou figures rhétoriques. Intertextualité. Contraintes.
* Plongement de documents. Modèles thématiques<ref>{{Article|langue=en|prénom1=Justin|nom1=Grimmer|prénom2=Brandon M.|nom2=Stewart|titre=Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts|périodique=Political Analysis|volume=21|numéro=3|date=2013-07|issn=1047-1987|issn2=1476-4989|doi=10.1093/pan/mps028|lire en ligne=https://www.cambridge.org/core/journals/political-analysis/article/text-as-data-the-promise-and-pitfalls-of-automatic-content-analysis-methods-for-political-texts/F7AAC8B2909441603FEB25C156448F20|consulté le=2025-05-19|pages=267–297}}</ref> et domaine-thématiques<ref name=":0">{{Article|langue=en|prénom1=Alexandre|nom1=Hannud Abdo|prénom2=Jean-Philippe|nom2=Cointet|prénom3=Pascale|nom3=Bourret|prénom4=Alberto|nom4=Cambrosio|titre=Domain-topic models with chained dimensions: Charting an emergent domain of a major oncology conference|périodique=Journal of the Association for Information Science and Technology|volume=73|numéro=7|date=2022|issn=2330-1643|pmid=35873705|pmcid=9299004|doi=10.1002/asi.24606|lire en ligne=https://asistdl.onlinelibrary.wiley.com/doi/full/10.1002/asi.24606|consulté le=2025-05-19|pages=992–1011}}</ref>.
* Cartes domaine-thématiques, leur lecture et manipulation.<ref name=":0" />
* Réseaux hétérogènes et transfert d'apprentissage vers d'autres dimensions.
* Le temps comme dimension. Détection de périodes.
==== Matériel ====
* Tutoriel pour [[Cortext/Tutoriels/L’analyse socio-sémantique par l’approche Sashimi|explorer un corpus par modélisation domaine-thématique avec Cortext Manager]]
* Cahier [https://molab.marimo.io/notebooks/nb_Ga9KmDUQe36eNXnaxVSGgz Documents''_mo.py (sur Marimo Lab)'']
== Séance 5 : Sémiotique & Sociologie de la traduction (2026-04-07 14h–17h) ==
* Sémiotique<ref>{{Chapitre-B|langue=en|prénom1=Gianfranco|nom1=Marrone|titre chapitre=Introduction to the Semiotics of the Text|titre ouvrage=Introduction to the Semiotics of the Text|éditeur=De Gruyter Mouton|date=2021-11-08|isbn=978-3-11-068898-6|doi=10.1515/9783110688986/html|lire en ligne=https://www.degruyterbrill.com/document/doi/10.1515/9783110688986/html|consulté le=2025-05-19}}</ref>
** L'émergence des signes. Théorie de l'information. Neurobiologie du langage<ref name=":1" />. Signifiants, signifiés, inférences, valeurs, signification, générativité. Sémantique structurale, sémèmes, actants. Sémantique interprétative<ref>{{Article|langue=fr|prénom1=François|nom1=Rastier|titre=De la sémantique structurale à la sémiotique des cultures|périodique=Actes Sémiotiques|numéro=120|date=2017-01-31|issn=2270-4957|doi=10.25965/as.5734|lire en ligne=https://www.unilim.fr/actes-semiotiques/5734|consulté le=2025-05-19}}</ref>.
** Espaces sémantiques vectoriels, continus et discrets.
* Sociologie de la traduction<ref>{{Ouvrage|langue=fr|titre=Sociologie de la traduction : Textes fondateurs|éditeur=Presses des Mines|collection=Sciences sociales|date=2006|isbn=978-2-35671-023-9|doi=10.4000/books.pressesmines.1181|lire en ligne=https://books.openedition.org/pressesmines/1181|consulté le=2025-05-19}}</ref>
** Acteurs, humains et non-humains, en réseau. Traductions et les choses en train de se faire. Inscriptions, descriptions, symétries, réflexivités.
** La cartographie comme méthode. Les réseaux hétérogènes socio-sémantiques. Les « Digital Methods ».
== Notes ==
Pour répondre à la question « à quoi ça sert d'analyser les textes ? », il faut d'abord comprendre à quoi sert le texte. Si le langage est une compétence exclusivement humaine et indépendante de tout trait culturel ou historique<ref name=":1">{{Article|langue=en|prénom1=Johan J.|nom1=Bolhuis|prénom2=Ian|nom2=Tattersall|prénom3=Noam|nom3=Chomsky|prénom4=Robert C.|nom4=Berwick|titre=How Could Language Have Evolved?|périodique=PLOS Biology|volume=12|numéro=8|date=26 août 2014|issn=1545-7885|pmid=25157536|pmcid=4144795|doi=10.1371/journal.pbio.1001934|lire en ligne=https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1001934|consulté le=2025-05-18|pages=e1001934}}</ref>, son usage concret le mêle à des rôles et situations diversifiées et variables. Différentes personnes qui s'adressent dans différentes contextes à différents publics par différents médias sur différents sujets pour différentes raisons, à travers sociétés et époques, chacune prête au texte son caractère. De telle manière que le simple comptage de coprésence entre mots peut nous révéler les contours d'une situation, dont le déroulement se reflet dans l'évolution de ces fréquences dans le temps.
A son tour, les règles d'une langue nous permettent de distinguer les emplois d'un même signe et de détailler leurs rapports aux autres, apportant de la finesse aux observations. Tandis que la statistique des contextes textuels de chaque signe permet d'établir des abstractions de proximité, complémentarité et comparaison de leurs sens et thématiques. Ce qui permet également de classer lesdits contextes, qu'ils soient au niveau des phrases, paragraphes, chapitres ou documents. Ces derniers, par ailleurs, contiennent toujours des éléments extra-textuels — temporels, sociaux, géographiques ou autres, qu'ils soient renseignés ou extraits du texte — producteurs de statistiques qui peuvent se combiner à celles textuelles.
Munis de tout cela face à une question qui se déploie à travers les maintes dimensions d'une situation associée à un corpus, nous pouvons construire itérativement un choix approprié de ces opérations, avec leurs statistiques et représentations descriptives ou produites par des modèles, pour enfin étudier la question sous la lumière des résultats de nos analyses.
=== L'explicitation d'une question ===
Peu de questions sont intéressantes. L'idée que la donnée nous servira spontanément une bonne question sans effort qualitatif préalable est dans le meilleur des cas hasardeuse, dans le pire des cas nous conduira à investir dans une question à moindre intérêt. L'illusion qui peuvent donner certaines personnes qui semblent trouver leurs questions au long de l'exploration d'une base de données cache le bagage qualitatif de ces personnes qui ont déjà un grand nombre de questions latentes. Même si parfois elles-mêmes ne le reconnaissent pas. Avant de plonger dans un corpus il est donc important d'être en mesure de formuler un première question sur la base de connaissances qualitatives, empiriques ou théoriques, et de continuer à les approfondir pendant le travail.
=== La spécificité du corpus ===
Un corpus est, le plus souvent, une source limitée d'informations pour une question. Autrement dit, peu de questions intéressantes trouvent une réponse directement dans un corpus donnée. Partir d'une question claire permet aussi d'évaluer de quelles données et opérations on aurait besoin pour la répondre. Et donc, le plus souvent, de la modifier pour correspondre aux limites des données dont nous disposons ou que nous pouvons produire, ainsi que d'évaluer quelles enquêtes qualitatives pourraient les compléter. Encore ici, nos connaissances qualitatives sont nos meilleures guides pour identifier ces limites et pour modifier la question en gardant un niveau d'intérêt.
=== La construction des objets à étudier ===
Même une simple description se base sur un modèle de comment représenter et comment interpréter ce qui est représenté. Les objets à étudier sont alors à construire sur la base de la donnée et de nos connaissances. Est-ce que la question appelle à un regard par classement sémantique, thématique, ou à l'extraction de certains types d'entités ? Quels contextes servent uniquement à la construction d'autres objets, par exemple quand nous utilisons les phrases pour préciser le sens d'un mot ou des rapports entre mots, et quels sont eux-mêmes des objets d'analyse, comme c'est souvent le cas pour les documents ? Comment rendre compte de la complexité d'objets extra-textuels tels quels auteurs, public, lieu, références, rôles ou organisations ? Et de l'hétérogénéité inter-textuelle dans des corpus mixtes ? C'est souvent dans ce travail que les limitations du corpus deviennent apparentes, et que nous devons revoir nos choix, chercher de nouvelles méthodes, élargir ou délimiter le corpus, ou l'enrichir d'autres informations.
=== La temporalité ou séquentialité ===
La chronologie d'un corpus est autant essentielle qu'elle est difficile de saisir correctement. Produire des comparaisons valides exige une attention à plusieurs facteurs comme : la normalisation ou pas de fréquences ; le choix de périodes compatibles en terme leur durée ou distribution de caractéristiques ; la validité statistique des stratifications. Les méthodes d'inférence de périodes sont un outil souvent incontournable, mais doivent être utilisés de façon réfléchie sur les bonnes variables et délimitation.
=== Les statistiques et représentations ===
S'il faut célébrer l'existence d'outils d'analyse pratiques à manipuler, reconnaissons aussi la valeur d'une compréhension plus fine des méthodes que nous employons, et d'une préférence pour des méthodes plus transparentes dotées de représentations simples mais puissantes. Pour assister et orienter les chercheurs dans cette démarche, des infrastructures de recherche existent dont [https://www.cortext.net/ Cortext] en est une.
=== Bien choisir sa perspective ===
Quand utiliser — ou mélanger — analyse du discours, analyse sémiotique, sociologie de la traduction ?
== Références ==
[[Catégorie:Analyses textuelles (M2 D2SN, 2025-2026)]]
ol59wyipuat4lozlg7z40mbn3riex23
Éducation plurilingue non formelle et informelle/Référents
0
86832
982091
981705
2026-04-19T15:38:57Z
Fourmidable
50100
982091
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Margareta Strasser et Paulina Wagner]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
hzo91hoy508bxu1e2behaizuxxqh5i4
Le locuteur natif/Référents
0
86845
982088
981997
2026-04-19T14:04:11Z
Fourmidable
50100
982088
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Diego Cortes Velasquez et Logambal Souprayen-Cavery]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
2eqd5mi16yrzrmb41q79mbrzwz6s130
Biographies langagières et textes identitaires/Référents
0
86858
982087
981866
2026-04-19T14:03:55Z
Fourmidable
50100
982087
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Sílvia Melo-Pfeifer et Logambal Souprayen-Cavery]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
tvt6zip642cwblsmbrg5fh1f74hko7p
Télécollaboration et plurilinguisme/Référents
0
86863
982086
982005
2026-04-19T14:03:17Z
Fourmidable
50100
982086
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Diego Cortes Velasquez]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
nea8ql58qk3rwnypt9j1bt1hyi9wbix
Paysages linguistiques dans l'éducation/Référents
0
86877
982082
981888
2026-04-19T13:58:25Z
Fourmidable
50100
982082
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* Anastasia Gkaintartzi, Eva Vetter ou Paulina Wagner ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
tnzef0xgjlhugfi8h1byd3v9v4y3c28
982083
982082
2026-04-19T13:59:35Z
Fourmidable
50100
982083
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Anastasia Gkaintartzi, Eva Vetter ou Paulina Wagner]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
eyzlhqalszb4hulgliz8igwc2vl8gs5
Tournant plurilingue/Référents
0
86893
982085
982002
2026-04-19T14:03:00Z
Fourmidable
50100
982085
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Thierry Gaillat]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
dbdlw6vrwnlvjnfqvy62fgs4vjutv20
Contextes marginalisés et plurilinguisme/Objectifs
0
86895
982102
981962
2026-04-20T01:00:44Z
JackBot
8020
Formatage, [[Spécial:Pages non catégorisées]]
982102
wikitext
text/x-wiki
A l'issue de cette section, vous devriez être capable de…
* identifier des contextes socialement marginalisés ;
* caractériser ces contextes d’un point de vue social et linguistique ;
* analyser les besoins d’une éducation au plurilinguisme dans ces contextes ;
* décrire des pratiques concrètes visant le développement du plurilinguisme dans des contextes marginalisés ;
* indiquer les apports individuels et sociaux de ces pratiques.
{{AutoCat}}
gntp7l5ohtlyeyrzqdcr51bfje0w7lw
Contextes marginalisés et plurilinguisme/Présentation de la leçon
0
86896
982104
981963
2026-04-20T01:00:45Z
JackBot
8020
Formatage, [[Spécial:Pages non catégorisées]]
982104
wikitext
text/x-wiki
Le Cadre européen de référence pour les langues (CECRL) souligne le risque d’exclusion pour les personnes ne parlant pas les langues « utiles » dans une société de plus en plus interactive. Par exemple, les minorités linguistiques, comme les locuteurs du catalan, du basque ou du galicien en Espagne, ont souvent été stigmatisées ou interdites dans le passé, et leur revitalisation reste difficile. Dans les quartiers défavorisés, les populations issues de l’immigration ou des milieux précaires subissent un double désavantage : leur langue maternelle est dévalorisée, et l’accès à l’apprentissage des langues dominantes est limité. Les contextes marginalisés, comme les prisons, les zones rurales dépeuplées ou les milieux où vivent des personnes en situation de handicap, illustrent aussi ces inégalités...
[Lire la suite]
{{AutoCat}}
4b7jae8y7uqbhzlxubiazmyutit5b0o
Contextes marginalisés et plurilinguisme/Prérequis conseillés
0
86897
982103
981964
2026-04-20T01:00:45Z
JackBot
8020
Formatage, [[Spécial:Pages non catégorisées]]
982103
wikitext
text/x-wiki
Éventuellement, prenez connaissance des pages sur
* [[Théories et modèles du plurilinguisme|les théories et modèles du plurilinguisme]],
* l’[[intercompréhension]] et
* le [[translanguaging]].
{{AutoCat}}
coz1ju9h5j3717rivhj05e2rmxk6skz
Contextes marginalisés et plurilinguisme/Référents
0
86898
982084
981965
2026-04-19T14:02:42Z
Fourmidable
50100
982084
wikitext
text/x-wiki
__EXPECTED_UNCONNECTED_PAGE__
* [[Utilisateur:Projet PEP|Filomena Capucho et Aracelli Gomez Fernandez]] ([[Discussion utilisateur:Projet PEP|discuter]])
{{AutoCat}}
f5xwclpspg1d5zzpehmte1whgj3ya8y
Méthodologie de revue de littérature cumulative
0
86914
982105
982070
2026-04-20T04:01:15Z
JackBot
8020
Robot : correction d’une double redirection vers [[Recherche:Méthodologie de revue de littérature cumulative]]
982105
wikitext
text/x-wiki
#REDIRECTION [[Recherche:Méthodologie de revue de littérature cumulative]]
845vfd5jm25ygx7ixq68s11cfbew9gb
Humanités, littérature et philosophie en terminale générale/Présentation du cours
0
86918
982122
2026-04-20T08:07:11Z
~2026-24122-34
80193
Ajout d'une présentation générale de la spécialité HLP.
982122
wikitext
text/x-wiki
<ref>{{Lien web|langue=fr|nom1=BARTHOU|prénom1=LYCÉE LOUIS|titre=LYCÉE LOUIS BARTHOU - L'enseignement HLP|url=https://www.lyceelouisbarthou.fr/informations/i/44706717/l-enseignement-hlp-humanites-litterature-et-philosophie|site=www.lyceelouisbarthou.fr|consulté le=2026-04-20}}</ref>La spécialité HLP (Humanités, Littérature, Philosophie) a pour objectif de développer des capacités d'analyse, de réflexion et de débat sur des questions d'humanité. En classe de terminale, le volume horaire de la spécialité est de 6h, réparti en 3h de [[Philosophie en terminale générale|Philosophie]] et 3h de littératures.
dafapc8yf9ab8c0y7gzlokhz28amlq7