Romanian-HOWTO: Diferență între versiuni

Versiunea de la data 2 august 2008 19:34

Să ne facem Linuxul să vorbească și să scrie corect românește.

Cuprins

1 Introducere
2 Codificare
3 Fonturi
4 Tastatură
5 Ortografie și gramatică
6 Accesibilitate

Introducere

Localizarea sistemului pentru limba română ridică mai multe probleme:

codificarea și afișarea corectă a tuturor literelor din alfabetul limbii române precum și a semnelor tipografice în uz
formatarea corectă a datelor, numerelor, etc
traducerea aplicațiilor
dicționare, corectoare ortografice, despărțire în silabe, thesaurus, etc

Codificare

În ceea ce privește codificarea setului de caractere folosit există mai multe standarde, care bineînțeles nu sunt direct compatibile:

coduri de pagină DOS/Windows - metoda IBM/Microsoft, nu asigură interoperabilitate cu alte sisteme. Extensie a setului ASCII. Nu mai este folosit (?).
Latin2 (ISO 8859-2) - cel mai vechi standard internațional care suportă aproximativ limba română. Este o extensie a setului ASCII la 8 biți, care include variante greșite ale literelor ș și ț în setul extins. Nerecomandat.
Latin10 (ISO 8859-16) - tot o extensie a ASCII, cu caracterele corecte. Nerecomandat, întrucât nu permite interoperabilitatea decât cu sisteme care folosesc această codificare.
Unicode - o serie de standarde care ar trebui să acopere toate sistemele de scriere ale pământului (semne grafice, metode de codificare, reguli de sortare și afișare, etc). Un standard dezvoltat în paralel este ISO/IEC 10646 care asignează valori numerice pentru semnele grafice (simplificat: litere) din repertoriul Unicode.

Standardul preferat este Unicode, în particular folosind codificarea UTF-8. UTF-8 este compact pentru alfabetele europene, necesitând un octet pentru caracterele ASCII standard și cel mult doi octeți pentru diacritice. Indiferent de reprezentarea internă a caracterelor într-o aplicație, dacă aceasta permite salvarea de fișiere în format UTF-8, este posibilă o bună interoperabilitate cu alte aplicații, indiferent de sistemul de operare. Problema codificării setului de caractere folosit pentru limba română este tratată exhaustiv aici

UTF-8 a fost dezvoltat original la Bell Labs, de aceeași echipă care a dezvoltat între altele și Unixul și limbajele de programare C și C++. Ca atare, suportul pentru UTF-8 în Linux este excelent. Majoritatea distribuțiilor Linux sunt setate implicit pentru UTF-8.

Fonturi

Majoritatea fonturilor care vin implicit cu X suportă toate caracterele limbii române și acoperă o gamă largă de fomate precum courier, helvetica, times. Acestea sunt din păcate fonturi bitmap și nu se scalează bine în programele de editare grafică. Totuși, pentru operații de editare text, programare, etc., acestea sunt fonturile de bază.

Există o serie de fonturi true type fonts (TTF) de bună calitate sub Linux cu suport decent pentru limba română. Aceste fonturi vor funcționa perfect pentru editări grafice. Dintre acestea amintim în primul rând familia de fonturi DejaVu.

O listă de fonturi cu suport românesc, tipul lor, și de unde provin:

Helvetica: font bitmapped, http://xorg.freedesktop.org
Courier: font bitmapped, http://xorg.freedesktop.org
New Century Schoolbook: font bitmapped, http://xorg.freedesktop.org
Times: font bitmapped, http://xorg.freedesktop.org
Utopia: font bitmapped, http://xorg.freedesktop.org
Luxi (Bigelow & Holmes): font TTF, http://xorg.freedesktop.org
DejaVu: font TTF, http://dejavu.sourceforge.net/
FreeMono/Sans/Serif: font TTF, http://savannah.nongnu.org/projects/freefont/
Gentium: font TTF,  http://scripts.sil.org/gentium

Tastatură

Există o bucată de hardware comercializată sub numele de tastatură românească, asta dacă aveți norocul să o găsiți în magazine, însă în general aranjamentul de tastatură preferat în România este cel numit "Programmer's keyboard" (vezi Tastatură românească pentru X).

Acest aranjament implică maparea caracterelor diacritice românești cu ajutorul tastei Alt din partea dreaptă a barei de spațiu (AltGr) astfel:

AltGr + A = ă
AltGr + Shit + A = Ă
AltGr + Q = â
AltGr + Shit + Q = Â
AltGr + S = ș
AltGr + Shit + S = Ș
AltGr + t = ț
AltGr + Shit + T = Ț
AltGr + I = î
AltGr + Shit + I = Î
AltGr + [ = „ (99 jos)
AltGr + ] = ” (99 sus)
AltGr + < = «
AltGr + > = »
AltGr + c = © (copyright)
AltGr + e = € (euro)

Majoritatea distribuțiilor Linux nu setează corect tastatura pentru limba română. Meniurile din Gnome și Kde mapează în general setul de caractere cedilla și nu commabelow cum ar fi normal. De aceea, este necesar să vă setați manual tastatura. Pentru aceasta într-o fereastră xterm dați comanda:

# setxkbmap ro comma

Noua mapare va supraviețui până la următorul reboot.

Ortografie și gramatică

Dicționar DEX

Se numește dexonline și poate fi consultat direct din browser la [1]. Este un dicționar de foarte bună calitate care înglobează o serie de dicționare publicate în anii trecuți în România. Dexonline își publică baza de date SQL sub GPL v2.

De asemenea, dexonline oferă și acces pentru protocolul DICT descris în rfc2229. Există o serie de programe client care pot accesa acest dicționar, precum gnome-dictionary (vine instalat implicit cu GNOME). Pentru a accesa dicționarul din gnome-dictionary, programul trebuie setat cu dexonline.ro ca server, iar portul de comunicație este 2628.

Dicționare corectare ortografică

Motorul principal de spelling sub Linux (ca și sub *BSD) este aspell. Este distribuit de toate distribuțiile Linux, nu toate distribuie însă ultima versiune a dicționarului românesc postată la [2].

Un alt motor de spelling folosit sub Linux este hunspell. Este folosit în principal de produsele Mozilla și OpenOffice.org. Dicționare relativ curente sunt distribuite pe siturile acestor proiecte, nu și în distribuțiile Linux.

Puteți întotdeauna să luați ultimele versiuni de dicționare direct de pe pagina developerului la [3]. Un status al distribuirii diferitelor dicționare sub diferite distribuții Linux și *BSD îl găsiți la [4].

Dicționar despărțire în silabe

Există și așa ceva, este distribuit în mod curent în OpenOffice.org și Scribus.

Accesibilitate

Text-to-speech:

ESpeak: http://espeak.sourceforge.net/

Romanian-HOWTO: Diferență între versiuni

Versiunea de la data 2 august 2008 19:34

Cuprins

Introducere

Codificare

Fonturi

Tastatură

Ortografie și gramatică

Dicționar DEX

Dicționare corectare ortografică

Dicționar despărțire în silabe

Accesibilitate

Meniu de navigare

Unelte personale

Spații de nume

Variante

Vizualizări

Mai mult

Căutare

Navigare

Unelte

@@ Linia 1: / Linia 1: @@
 Să ne facem Linuxul să vorbească și să scrie corect românește.
-ÎN LUCRU! Ajutorul vostru va fi foarte apreciat.
 ==Introducere==
@@ Linia 10: / Linia 8: @@
 * formatarea corectă a datelor, numerelor, etc
 * traducerea aplicațiilor
-* ...
+* dicționare, corectoare ortografice, despărțire în silabe, thesaurus, etc
 ==Codificare==
@@ Linia 19: / Linia 18: @@
 * [[wikipedia:Latin-2|Latin2]] (ISO 8859-2) - cel mai vechi standard internațional care suportă aproximativ limba română. Este o extensie a setului ASCII la 8 biți, care include variante greșite ale literelor ș și ț în setul extins. Nerecomandat.
 * [[wikipedia:Latin-10|Latin10]] (ISO 8859-16) - tot o extensie a ASCII, cu caracterele corecte. Nerecomandat, întrucât nu permite interoperabilitatea decât cu sisteme care folosesc această codificare.
-* Unicode - o serie de standarde care ar trebui să acopere toate sistemele de scriere ale pământului (semne grafice, metode de codificare, reguli de sortare și afișare, etc). Un standard dezvoltat în paralel este ISO/IEC 10646 care asignează valori numerice pentru semnele grafice (simplifcat: litere) din repertoriul Unicode.
+* Unicode - o serie de standarde care ar trebui să acopere toate sistemele de scriere ale pământului (semne grafice, metode de codificare, reguli de sortare și afișare, etc). Un standard dezvoltat în paralel este ISO/IEC 10646 care asignează valori numerice pentru semnele grafice (simplificat: litere) din repertoriul Unicode.
+Standardul preferat este Unicode, în particular folosind codificarea UTF-8. UTF-8 este compact pentru
+alfabetele europene, necesitând un octet pentru caracterele ASCII standard și cel mult doi octeți pentru
+diacritice. Indiferent de reprezentarea internă a caracterelor într-o aplicație, dacă aceasta permite
+salvarea de fișiere în format UTF-8, este posibilă o bună interoperabilitate cu alte
+aplicații, indiferent de sistemul de operare.
+Problema codificării setului de caractere folosit pentru limba română este tratată
+exhaustiv [http://www.secarica.ro/html/ro.html aici]
-Standardul preferat este Unicode, în particular folosind codificarea UTF-8. UTF-8 este compact pentru alfabetele europene, necesitând 1 octet pentru caracterele ASCII standard și cel mult 2 octeți pentru diacritice.
+UTF-8 a fost dezvoltat original la Bell Labs, de aceeași echipă care a dezvoltat
-Indiferent de reprezentarea internă a caracterelor într-o aplicație, dacă aceasta permite salvarea de fișiere, comunicația etc folosind UTF-8, este posibilă o bună interoperabilitate cu alte aplicații, indiferent de sistemul de operare.
+între altele și Unixul și limbajele de programare C și C++. Ca atare, suportul pentru
+UTF-8 în Linux este excelent. Majoritatea distribuțiilor Linux sunt setate implicit pentru UTF-8.
-Problema codificării setului de caractere folosit pentru limba română este tratată exhaustiv [http://www.secarica.ro/html/ro.html aici]
 ==Fonturi==
-În X, precum și în consolă
+Majoritatea fonturilor care vin implicit cu X suportă toate caracterele limbii române și acoperă
+o gamă largă de fomate precum courier, helvetica, times. Acestea sunt din păcate
+fonturi bitmap și nu se scalează bine în programele de editare grafică.
+Totuși, pentru operații de editare text, programare, etc., acestea sunt fonturile de bază.
+Există o serie de fonturi true type fonts (TTF) de bună calitate sub Linux cu suport decent
+pentru limba română. Aceste fonturi vor funcționa perfect pentru editări grafice.
+Dintre acestea amintim în primul rând familia de fonturi DejaVu.
+O listă de fonturi cu suport românesc, tipul lor, și de unde provin:
+ Helvetica: font bitmapped, http://xorg.freedesktop.org
+ Courier: font bitmapped, http://xorg.freedesktop.org
+ New Century Schoolbook: font bitmapped, http://xorg.freedesktop.org
+ Times: font bitmapped, http://xorg.freedesktop.org
+ Utopia: font bitmapped, http://xorg.freedesktop.org
+ Luxi (Bigelow & Holmes): font TTF, http://xorg.freedesktop.org
+ DejaVu: font TTF, http://dejavu.sourceforge.net/
+ FreeMono/Sans/Serif: font TTF, http://savannah.nongnu.org/projects/freefont/
+ Gentium: font TTF,  http://scripts.sil.org/gentium
 ==Tastatură==
-În X, precum și în consolă
+Există o bucată de hardware comercializată sub numele de tastatură românească,
+asta dacă aveți norocul să o găsiți în magazine, însă în general aranjamentul
+de tastatură preferat în România este cel numit "Programmer's keyboard" (vezi
+[http://diacritice.sourceforge.net/tastaturi.html Tastatură românească pentru X]).
+Acest aranjament implică maparea caracterelor diacritice românești cu ajutorul
+tastei Alt din partea dreaptă a barei de spațiu (AltGr) astfel:
+ AltGr + A = ă
+ AltGr + Shit + A = Ă
+ AltGr + Q = â
+ AltGr + Shit + Q = Â
+ AltGr + S = ș
+ AltGr + Shit + S = Ș
+ AltGr + t = ț
+ AltGr + Shit + T = Ț
+ AltGr + I = î
+ AltGr + Shit + I = Î
+ AltGr + [ = „ (99 jos)
+ AltGr + ] = ” (99 sus)
+ AltGr + < = «
+ AltGr + > = »
+ AltGr + c = © (copyright)
+ AltGr + e = € (euro)
+Majoritatea distribuțiilor Linux nu setează corect tastatura pentru limba română.
+Meniurile din Gnome și Kde mapează în general setul de caractere cedilla și nu commabelow cum
+ar fi normal. De aceea, este necesar să vă setați manual tastatura. Pentru aceasta
+într-o fereastră xterm dați comanda:
+ # setxkbmap ro comma
+Noua mapare va supraviețui până la următorul reboot.
-[http://diacritice.sourceforge.net/tastaturi.html Tastatură românească pentru X]
 ==Ortografie și gramatică==
+===Dicționar DEX===
+Se numește dexonline și poate fi consultat direct din browser la [http://dexonline.ro].
+Este un dicționar de foarte bună calitate care înglobează o serie de dicționare
+publicate în anii trecuți în România. Dexonline își publică baza de date SQL
+sub GPL v2.
+De asemenea, dexonline oferă și acces pentru protocolul DICT
+descris în [http://tools.ietf.org/html/rfc2229 rfc2229]. Există o serie de programe
+client care pot accesa acest dicționar, precum gnome-dictionary (vine instalat
+implicit cu GNOME). Pentru a accesa dicționarul
+din gnome-dictionary, programul trebuie setat cu dexonline.ro ca server,
+iar portul de comunicație este 2628.
+===Dicționare corectare ortografică===
+Motorul principal de spelling sub Linux (ca și sub *BSD) este [http://aspell.net aspell]. Este
+distribuit de toate distribuțiile Linux, nu toate distribuie însă ultima versiune
+a dicționarului românesc postată la [ftp://ftp.gnu.org/gnu/aspell/dict/ro/].
+Un alt motor de spelling folosit sub Linux este [http://hunspell.sourceforge.net hunspell]. Este folosit în principal
+de produsele Mozilla și OpenOffice.org. Dicționare relativ curente
+sunt distribuite pe siturile acestor proiecte, nu și în distribuțiile Linux.
+Puteți întotdeauna să luați ultimele versiuni de dicționare direct de pe pagina developerului
+la [http://sourceforge.net/project/showfiles.php?group_id=144374].
+Un status al distribuirii diferitelor dicționare sub diferite distribuții Linux și *BSD îl găsiți
+la [http://groups.google.com/group/rospell/web/distribuire-corector-ortografic].
+===Dicționar despărțire în silabe===
+Există și așa ceva, este distribuit în mod curent în OpenOffice.org și Scribus.
 ==Accesibilitate==
 Text-to-speech:
 * ESpeak: http://espeak.sourceforge.net/