Le travail sur iTrameur

Afin de faire l’analyse textométrique, j’écris un petit script pour rassembler tous nos corpus récupérés. Ces corpus sont collés dans un nouveau répertoire « CONTEXTE_POUR_ANALYSE ». Le script nommé « programme.sh » dans le répertoire « PROGRAMMES » est présenté ci-dessous :

Ainsi, nous tapons la commande « bash ./PROGRAMMES/programmes.sh » sur le terminal. Ce nouveau fichier « concat_texte.txt » qui rassemble tous les corpus chinois va se lancer dans iTrameur. Mais, comme ces corpus chinois sont déjà segmentés, iTrameur ne nous permet pas de chercher la concordance 中国风 car il est déjà segmenté comme 中国 et 风 donc on va les concaténer. Mais nous trouvons que le terme 中国风 est souvent présenté dans les corpus avec les guillemets qui sont traités par iTrameur comme concurrents du terme 中国风, donc nous les considérés comme bruits. Ainsi, on tape les commandes ci-dessous dans le terminal pour supprimer l’espace et les guillemets.

Ainsi, nous pouvons enfin lancer notre corpus concat_texte.txt dans iTrameur !

La fréquence des cooccurrents de 中国风 :

Les graphes associés :

Les mots comme 流行(à la mode, populaire), 浓郁(fort), 引领(leader) nous donner impression que le mot 中国风(chinoiserie) possède un sens positif sur les webs chinoisn ce qui n’est pas le cas sur le français et en russe. Nous allons comparer nos résultats sur le plan sémantique et statistique afin de vérifier notre hypothèse.

Publié par annawenfeijuliette

Trois étudiantes qui ont hâte de savoir la vérité et de maîtriser des outils informatique... :)

Laisser un commentaire

Concevoir un site comme celui-ci avec WordPress.com
Commencer