OCTOBRE 2018
Spécifications du format de fichier nart Auteur : MOHAMED BEN MERIEM
La zone des métadonnées : c’est la première ligne du fichier et occupe toujours les
premiers 32 octets du fichier. Les 4 premiers octets de cette zone représentent un
champ signature pour le format nart et prend toujours la valeur ASCII ‘N’,’A’,’R’,’T’ les
deux derniers octets de cette zone représentent la fin de cette ligne spéciale dans le fichier
nart et ce champ prend toujours la valeur ASCII CR, LF (Carriage Return, Line Feed).
La zone des données : c’est tout le reste du fichier .nart et contient le texte arabe
normalisé en utilisant le codage de fichier spécifié dans le champ codage dans la zone des
métadonnées (UTF-16, UTF-8, Windows-1256). les seuls caractères tolérés dans cette
zone sont ceux du tableau 2a qui suit.
En effet, ce jeu de caractères nart ne contient que les caractères fortement nécessaires
en TALA, fait qui lors d’une analyse morphosyntaxique du texte réduit considérablement le
nombre de possibilités ce qui facilite la prise de décision. De là vient l’utilité de ce format nart.
Bien entendu, il faut noter que ce format nart ne fait pas intervenir un nouveau codage
propre au format. Mais, il conserve le codage d’origine du fichier (UTF-16, UTF-8 ou Windows-
1256). Ceci, pour éviter le ralentissement du système de traitement par des opérations de
conversion de codes inutiles.
1
Spécifications du format de fichier nart Auteur : MOHAMED BEN MERIEM
Taille du
Offset
champ Valeur du champ Signification du champ
(en Hex)
(en Bytes)
Codage du fichier
0 : UTF-16
04 1 0,1 ou 2
1 : UTF-8
2 : Windows-1256
Etat de diacritisation
0 : fichier non diacrité ou
05 1 0 ou 1
partiellement diacrité
1 : fichier entièrement diacrité
06 24 0 Réservé
Tableau 1
Le tableau 2a qui suit donne en bref les caractères tolérés dans un fichier nart :
. ، ؛ : ؟ ! ( )
[ ] { } " SP CR LF
ء آ أ ؤ إ ئ ا ب
ة ت ث ج ح خ د ذ
ر ز س ش ص ض ط ظ
ع غ ف ق ك ل م ن
ه و ى ي ًً ًٌ ًٍ ًَ
ًُ ًِ ًّ ًْ ٱ پ ڤ گ
Tableau 2a
2
Spécifications du format de fichier nart Auteur : MOHAMED BEN MERIEM
Le tableau 2b qui suit donne en détail les caractères tolérés dans un fichier nart:
Son code
Caractère
Unicode Son nom Unicode Son rôle
toléré
(en Hex)
3
Spécifications du format de fichier nart Auteur : MOHAMED BEN MERIEM
Son code
Caractère
Unicode Son nom Unicode Son rôle
toléré
(en Hex)
Tableau 2b