Analyse en composantes principales (PCA) : prépositions d’inclusion en français 🇫🇷

Xiaoou WANG

Question

Gréa (2017) compare 5 prépositions qui dénotent l’inclusion en français :

  • parmi

  • au centre de

  • au milieu de

  • au coeur de

  • au sein de

Quel est donc le profil sémantique de chaque préposition ? Plus concrètement, avec quel type d’entités tendent à apparaître ces prépositions ?

Métrique

Gréa utilise une mesure d’association appelée calcul des spécificités basées sur une distribution hypergéométrique.

En gros plus la valeur est grande, plus des éléments sont proches. Il a appliqué cette mesure sur le corpus FrWac. Pour plus de détails, allez sur le lien ci-dessous.

https://www.degruyter.com/document/doi/10.1515/cog-2015-0127/html

[6]:
load("TaLC2020.RData")
head(inclusion)
A data.frame: 6 × 5
centrecoeurmilieuparmisein
<dbl><dbl><dbl><dbl><dbl>
entreprise-281.14-651.39-545.23-1685.264226.02
équipe-274.36-913.40-432.42-1129.203829.95
groupe-218.55-932.95-269.59-1071.623490.06
établissement-128.13-367.62-236.78 -677.871913.47
association-114.08-330.25-172.95 -498.831522.44
service-103.45-279.61-181.29 -495.381443.34

PCA

Combien de dimensions

De toute évidence, les trois premières dimensions suffisent pour représenter les variables.

[13]:
library(FactoMineR)
library("factoextra")
mca.object <- PCA(inclusion, graph=FALSE)
eig.val <- get_eigenvalue(mca.object)
eig.val
fviz_screeplot(mca.object, addlabels = TRUE, ylim = c(0, 45))
pca.object <- PCA(inclusion, graph=F)
A matrix: 5 × 3 of type dbl
eigenvaluevariance.percentcumulative.variance.percent
Dim.12.0160061540.320123 40.32012
Dim.21.3707793027.415586 67.73571
Dim.31.0393764120.787528 88.52324
Dim.40.5071309910.142620 98.66586
Dim.50.06670716 1.334143100.00000
../images/linguistique_informatique_03_pca_inclusion_fr_4_1.png

Graphe des variables

Grâce au graphe des variables, vous pouvez voir se dessiner 3 profils :

  • au sein de (en haut à gauche)

  • au centre de et au coeur de (en haut à droite)

  • au milieu de et parmi (en bas à droite)

[15]:
 # graph of variables
 plot.PCA(pca.object, choix="var", title="")
 # graph of individuals
 plot.PCA(pca.object, cex=0.8, autoLab="auto", shadowtext = FALSE, title="")
../images/linguistique_informatique_03_pca_inclusion_fr_6_0.png
../images/linguistique_informatique_03_pca_inclusion_fr_6_1.png

Graphe des individus

Cependant, le graphe des individus est à peine lisible car il y a trop d’items. De ce fait nous devons filtrer les items peu utiles aux 3 profils mentionnés plus haut.

En mettant select="coord 20" comme option, seuls les 20 items aux valeurs les plus extrêmes sont affichés.

[16]:
plot.PCA(pca.object, select="coord 20", title="select=\"coord 20\"")
../images/linguistique_informatique_03_pca_inclusion_fr_8_0.png

Remarques et Conclusions

En combinant les informations provenant des variables et des individus, nous pouvons voir que :

  • au sein de tend à apparaître avec des noms collectifs dénotant des organisations constituées d’humains

  • au centre de et au coeur de tend à apparaître avec des noms dénotant des zones urbaines (ville, village, quartier) ainsi que des idées et pensées (préoccupations, débat).

  • Enfin, au milieu de et parmi tend à apparaître avec des noms dénotant des groupes d’individus (hommes, personnes, members).

Cependant, la distinction entre les types d’une même catégorie rest peu apparente. Au centre du conflit désigne par exemple un humain qui est soit l’enquêteur soit la partie directement concernée d’un conflit, alors que au coeur du conflit dénote plutôt quelque chose de temporel ou de spatial comme au pic du conflit/en plein conflit.

Références principales

Gréa, Philippe. 2017. “Inside in French.” Cognitive Linguistics 28 (1): 77–130.

Cours de Guillaume Desagulier intitulé linguistique outillée et traitements statistiques : https://corpling.modyco.fr/workshops/M2TAL/4.multivariate.html

Guillaume Desagulier. Multivariate Exploratory Approaches. 2020. ffhalshs-01926339v3ff

Paquot, M., & Gries, S. (2020). The practical handbook of corpus linguistics.