La segmentation du chinois

Différent du français et du russe, le chinois est généralement écrit sans espaces entre les mot. Donc, pour que les motifs chinois sur les pages soient bien récupérés , il faut diviser les textes chinois en une séquence des mots.

Ayant cherché les logiciels de segmentation sur internet et consulté des blogs des années dernières, nous avons décidé d’utiliser le Stanford Word Segmenter servant de segmenter les textes. Deux modèles avec deux normes de segmentation différentes sont inclus dans ce programme : la norme Chinese Penn Treebank et la norme de l’Université de Pékin.

Le syntaxe de commande pour la segmentation est simple :

segment.sh [-k] [ctb|pku] <filename> <encoding> <size>

◆ segment.sh : celui-ci permet d’exécuter le programme Stanford Word Segmenter

◆ -k :cette option permet de grader des espaces

◆ ctb|pku : parmi ces deux arguments, on doit en choisir un comme norme de segmentation. La norme pku permet d’obtenir des tailles de vocabulaire chinois plus petites, mais ici, dans notre script, nous avons choisi la norme ctb afin que le terme « 中国风 » , traduction chinoise du mot « chinoiserie », est segmenté comme « 中国 » et »风 »

◆filename : le nom du fichier à segmenter

◆ encoding : encodage du fichier à segmenter

◆ 0 à la fin de commande indique que nous voulons la meilleure estimation de la segmentation, sans imprimer sa probabilité associée.

Nous prenons un text chinois comme exemple pour faire la segmentation :

Nous tapons la ligne de commande ci-dessous dans le terminal :

Celui ci exécute le programme dans le terminal :

Ainsi, on obtient un texte segmenté comme ci-dessous :

Ainsi, nous pouvons ajouter cette commande dans notre script final afin de récupérer notre motif chinois ainsi que d’obtenir les bigrammes !

Publié par annawenfeijuliette

Trois étudiantes qui ont hâte de savoir la vérité et de maîtriser des outils informatique... :)

Laisser un commentaire

Concevoir un site comme celui-ci avec WordPress.com
Commencer