Un module nooj pour le traitement automatique du chinois

Cette étude présente le développement du module permet de reconnaître dans les textes les unités lexicales en chinois moderne puis les groupes nominaux noyaux. Pour atteindre ces deux objectifs principaux, nous devions résoudre les problèmes suivants: 1) identifier les unités lexicales en chinois moderne; 2) déterminer leurs catégories; 3) C'est ainsi que nous avons été amené à constituer d'abord un corpus regroupant des textes littéraires et journalistiques publiés au XX siècle. Ces textes sont écrits en chinois moderne avec des caractères traditionnels. Grâce à ces données textuelles, nous avons pu receuillir des informations linguistiques telles qu'unités lexicales, structures syntagmatiques ou règles grammaticales. Ensuite, nous avons construit des dictionnaires électroniques dans lesquels chaque unité lexicale est représentée par une entrée, à laquelle sont associées des informations linguistiques telles que catégories lexicales, classes de distribution sémantique ou descriptions formelles de certaines formes lexicales. À ce stade, nous avons cherché à identifier les unités lexicales du lexique chinois et leurs catégories en les recensant.