Cette page vite faite (mal faite) fournit des pointeurs vers quatre tables de caractères, en l'occurrence ISO-8859-1 (ISO Latin1), ISO-8859-15 (ISO Latin9), CP1252 (WinLatin1) et CP850 (DOSLatin1).
Ces tables ont un certain nombre de points en commun. Tout d'abord, ce sont des tables sur 8 bits, où chaque caractère est donc représenté par un seul octet. Ensuite, la partie basse est constituée des 128 mêmes codes constituant la table ASCII 7 bits. Enfin, chacune d'entre elles peut être utilisée pour écrire, avec plus ou moins de bonheur, en français : en particulier, chaque lettre minuscule accentuée du français appartient aux quatre tables, mais certaines majuscules accentuées (Ÿ) ou lettres liées (œ) manquent parfois.
Dans ces tables, chaque caractère est accompagné d'un certain nombre d'informations. Prenons comme exemple le caractère euro, au croisement de la colonne A0 et de la ligne 04 dans la table ISO-8859-15 (ISO Latin9).
A4
164
€
Position (hexa) : A4
Position (décimal) : 164 Unicode : U+20AC Entité HTML : € UTF-8 : E2 82 AC U+20AC
€
E282AC
[€]
|
En haut à gauche, on trouve le numéro d'ordre du caractère dans la table. Ici, par exemple, c'est A4 en hexadécimal, soit 164 en décimal. Pour les tables incomplètes qui ne définissent pas un caractère à chaque position, il arrive que ce numéro d'ordre soit la seule information.
Lorsque le caractère existe réellement, alors il a forcément aussi un numéro d'ordre dans Unicode. Ce numéro est indiqué en haut à droite, par exemple U+20AC pour l'euro. Une fois traduit en décimal, on peut l'utiliser sous forme d'entité numérique dans une page HTML, sous la forme €.
En bas à gauche, on trouve l'encodage UTF-8 du caractère Unicode, sous forme d'un nombre variable de codes 8 bits. L'encodage de U+20AC est E2 82 AC. Pour faciliter la lecture de fichiers encodés en UTF-8 mais lus comme s'ils étaient en ISO-8859-1 ou en CP1252, on trouve l'affichage correspondant entre crochets : [€]. Attention ! le caractère du milieu, s'il ressemble à une virgule, se nomme en fait « SINGLE LOW-9 QUOTATION MARK », mais dans CP1252 seulement ; dans ISO-8859-1 il n'existe pas et pourrait s'afficher sous la forme d'un point d'interrogation [â?¬] ou ne pas s'afficher du tout [â¬].
Enfin, dans le cadre en bas à droite se trouve le glyphe du caractère : €.
Cette page :
http://www.miakinen.net/vrac/codeset
ASCII :
http://www.miakinen.net/vrac/codeset?set=ascii
ISO-8859-1 (ISO Latin1) :
http://www.miakinen.net/vrac/codeset?set=isolatin1
ISO-8859-15 (ISO Latin9) :
http://www.miakinen.net/vrac/codeset?set=isolatin9
CP1252 (WinLatin1) :
http://www.miakinen.net/vrac/codeset?set=cp1252
CP850 (DOSLatin1) :
http://www.miakinen.net/vrac/codeset?set=cp850