Implémentation d’un outil d’indexation et de recherche des textes en arabe

DILEKH, Tahar (2011) Implémentation d’un outil d’indexation et de recherche des textes en arabe. Magister thesis, Université de Batna 2.

[img]
Preview
Text
Tahar DILEKH.pdf

Download (5MB) | Preview

Abstract

L'arabe, une des six langues officielles des Nations Unies, est la langue maternelle de plus de 300 millions de personnes1. Le domaine recherche d’information (RI) arabe, devenu un centre de la recherche et du développement commercial est du à la nécessité essentielle de tels outils pour des personnes dans l'ère électronique. Le nombre d'internautes arabophones en 2002 était environ 4.4 millions, environ 1.5% de la population du monde arabe2. Mais, de l'autre côté de la réalité, peu de moteurs de recherche sont mis à la disposition des utilisateurs arabophones, bien que les efforts soient en marche pour servir le nombre croissant d'utilisateurs. L'Arabe est une langue fortement flexionnelle qui a une structure morphologique complexe. La recherche d'information sur le texte arabe exige la forme de base du mot (racine ou lemme) pour être la plus pertinente, donc le processus de lemmatisation est nécessaire. La lemmatisation peut être définie comme un processus qui consiste à retirer tous les affixes (préfixes, infixes, ou/et suffixes) des mots pour ramener ces derniers à leurs lemmes ou racines. La complexité morphologique de la langue arabe rend particulièrement difficile le développement des applications pour le traitement en langue naturelle. Dans les langues sémitiques comme l'arabe, la plupart des lemmes de nom, d'adjectif, et de verbe sont dérivés de quelques mille racines par l'insertion de nouvelles lettres, par exemple, les mots مكتبة (bibliothèque), كتاب (livre), ك)ُ ت بُ livres), ك) تبَ il a écrit), et ك ت بُ (nَنous écrivons), de la racine كتب [Wig98]. Chaque langue naturelle a ses propres caractéristiques et dispositifs. Ainsi, il est difficile de suivre la même configuration de lemmatisation et d'appliquer les mêmes techniques pour toutes les langues. Une technique de lemmatisation pourrait être pertinente à une langue, mais ne peut pas être effectivement appliquée à d'autres langues. Il existe plusieurs techniques utilisées pour la lemmatisation des mots. Celles-ci incluent, des techniques de dictionnaires, d'analyse morphologique, de suppression des affixes, de statistiques, et de traduction. Dans ce travail, nous avons proposé une méthode hybride qui incorpore trois techniques différentes pour que la lemmatisation arabe résolve les problèmes liés à chaque technique précédente. Ces trois techniques sont: suppression d'affixe proposée par Kadri [Kad08], dictionnaires, et analyse morphologique.Ces techniques ont besoin d'une certaine adaptation pour être pertinentes pour l'utilisation. Chaque technique est adaptée individuellement pour résoudre les problèmes pratiques liés à ellemême. La contribution principale de ce travail concerne la démonstration de l’efficacité de la méthode hybride comparée aux autres méthodes, et le choix de l’enlèvement des suffixes avant les préfixes pendant l’opération de lemmatisation Arabe. Par exemple Mot Racine Suffixe – Préfixe Préfixe - Suffixe مھا ألام ألم ألامھم Leurs douleurs douleur douleurs Erreur

Item Type: Thesis (Magister)
Uncontrolled Keywords: Recherche d'information, lemmatisation, langue arabe.
Subjects: Informatique
Divisions: Institut d'hygiène et de sécurité industrielle > Département d'envirennement
Date Deposited: 02 Aug 2016 08:05
Last Modified: 02 Aug 2016 08:05
URI: http://eprints.univ-batna2.dz/id/eprint/167

Actions (login required)

View Item View Item