Esperantaj literoj en TTT

Unikodo

Kiam oni faras Unikodan TTT-paĝon, oni aŭ povas skribi la Esperantajn supersignajn literojn rekte per la kodprezento UTF-8, aŭ oni povas uzi numeran skribon. (Ekzistas ankaŭ aliaj kodprezentoj ol UTF-8, sed nur UTF-8 estas vere rekomendinda por normala uzo.)

Unikodo laŭ UTF-8 «

En UTF-8 ĉiuj signoj, kiu ne estas en simpla Askio (ASCII), estas kodita per du aŭ pli da bitokoj. La Esperantaj literoj estas ĉiuj skribataj per po du bitokoj. Jen tabelo, kiu montras la dekumajn numerojn de tiuj bitokoj, kiuj reprezentas la Esperantajn supersignajn literojn en UTF-8:

Majuskla C kun cirkumflekso196+136
Minuskla c kun cirkumflekso196+137
Majuskla G kun cirkumflekso196+156
Minuskla g kun cirkumflekso196+157
Majuskla H kun cirkumflekso196+164
Minuskla h kun cirkumflekso196+165
Majuskla J kun cirkumflekso196+180
Minuskla j kun cirkumflekso196+181
Majuskla S kun cirkumflekso197+156
Minuskla s kun cirkumflekso197+157
Majuskla U kun hoketo197+172
Minuskla u kun hoketo197+173

Sed normale oni ja ne bezonas scii pri tiuj teknikaĵoj. Oni simple uzu tekstoredaktilon, kiu regas UTF-8-on. Tia redaktilo estas ekzemple “Vim” (ekde versio 6).

Unikodo - numera skribo «

Se oni ne havas tekstoredaktilon, kiu regas Unikodon, oni povas en HTML (kaj ankaŭ en XML) anstataŭe skribi ĉiun Unikodan signon per ĝia numero. Plej bone funkcias skribi la numerojn dekume: Ĉ ĉ Ĝ...

Jene oni skribas la Esperantajn supersignajn literojn numere en HTML:

Majuskla C kun cirkumfleksoĈ
Minuskla c kun cirkumfleksoĉ
Majuskla G kun cirkumfleksoĜ
Minuskla g kun cirkumfleksoĝ
Majuskla H kun cirkumfleksoĤ
Minuskla h kun cirkumfleksoĥ
Majuskla J kun cirkumfleksoĴ
Minuskla j kun cirkumfleksoĵ
Majuskla S kun cirkumfleksoŜ
Minuskla s kun cirkumfleksoŝ
Majuskla U kun hoketoŬ
Minuskla u kun hoketoŭ

Por kelkaj signoj ekzistas en HTML ankaŭ nomaj kodoj: π σ..., sed ankoraŭ ne por la Esperantaj literoj.

Rudimenta ekzemplo

Jen sekvas ekzempla kodo de rudimenta Esperanta TTT-paĝo kun numeraj indikoj de la Unikodaj Esperantaj literoj. Post la kodo estas ligo al paĝo tiel verkita. Iru al tiu paĝo por vidi, kio rezultiĝas el la kodo. Rimarku, ke la kodo estas laŭ HTML5, la nova formo de HTML.

<!DOCTYPE html>
<html>
<head>
<title>Pa&#285;o pri la Esperantaj literoj</title>
</head>
<body>

<h1>La Esperantaj literoj</h1>

<p>
Jen iom da teksto:
E&#293;o&#349;an&#285;o &#265;iu&#309;a&#365;de.
E&#292;O&#348;AN&#284;O &#264;IU&#308;A&#364;DE.
</p>

</body>
</html>

Jen kiel prezentiĝas (por vi) la ĉi-antaŭa ekzemplo.

Jen tiu sama ekzemplo, sed kun Esperantaj literoj laŭ UTF-8.

Komentoj «

  • Por ke la Esperantaj signoj efektive aperu en legebla formo sur ekrano (aŭ surpapere) tamen necesas, ke tiparoj kun tiuj signoj estas uzataj de la TTT-legilo. Antaŭe mi konsilis ĉi tie, ke oni nepre lasu la elekton de tiparo al ĉiu leganto mem, kaj ke oni ne uzu indikojn pri specifaj tiparoj (nek per kodoj kiel <font face="...">, nek per stilfolio), ĉar principe ne eblas scii, ĉu tiu tipara versio, kiun la leganto havas en sia komputilo, enhavas Esperantajn literojn. Nuntempe tamen praktike ĉiuj ordinaraj tiparoj instalitaj en komputiloj – ĉu Vindozaj, ĉu Linuksaj, ĉu Makintoŝaj, ĉu alispecaj – enhavas la supersignajn literojn de Esperanto. Tial nuntempe oni kredeble ne plu bezonas atenti pri tiu konsilo, almenaŭ se oni indikas uzon de tiparoj, kiuj estas vaste uzataj.

    Krome nuntempe eblas en stilfolioj uzi indikojn de specialaj tiparoj, kiujn la TTT-legilo aparte elŝutu por uzado en la koncerna TTT-paĝo. Oni tiam uzas la stilfolian kodaĵon @font-face, kiu estas parto de versio 3 de la stilfolia lingvo CSS. Se oni uzas tiun eblon, oni povas scii ekzakte, kiujn signojn la tiparo enhavas. Sed oni zorge kontrolu la signorepertuaron, ĉar multaj TTT-ejoj, kiuj disponigas tiajn tiparojn, prezentas por senkosta elŝutado tiparojn, en kiuj niaj supersignaj literoj mankas! Tio estas tute komprenebla: Tiparoj elŝutataj por uzo en TTT-paĝoj prefere ne estu tro grandaj. Ideale ili enhavu nur tiujn signojn, kiuj estas efektive uzataj en la TTT-paĝo. Plej multaj TTT-paĝoj ne uzas Esperantajn literojn, almenaŭ statas tiel ankoraŭ en 2011 (eble kiam vi legos tion ĉi, estos alie...).

  • Kiam oni uzas UTF-8-on, oni ankaŭ povas enmiksi numere skribitajn signojn (&#264; &#265;...) kaj nomkodojn (&ouml; &eacute; &pi;...).

    Kiam oni skribas laŭ UTF-8, oni ne povas enmiksi unubitokajn signojn laŭ ekzemple Latino 1. Ĉiujn signojn ekster baza Askio (kun numeroj pli altaj ol 127) oni tiam devas aŭ skribi UTF-8-e (per po du aŭ pli da bitokoj), aŭ skribi nomkode, aŭ skribi numere (&Auml; &ntilde;... &#196; &#241;...).

  • Se oni uzas UTF-8-on, oni devas iel anonci al la TTT-legilo, ke tiu kodo estas uzata. Tion oni prefere faru per la tiel nomata HTTP-ĉapo. Tio estas informoj pri la paĝo, kiujn la servilo sendas al la TTT-legilo antaŭ ol ĝi sendas la efektivan paĝon. Por anonci, ke aperos HTML-paĝo kodita laŭ UTF-8, la servilo sendu la jenon:

    Content-type: text/html; charset=UTF-8

    (Nepre estu malplena linio post tiu HTTP-ĉapo!)

    Se oni ial ne havas eblon aŭ rajton agordi la servilon, ke ĝi faru tian anoncon pri UTF-8, oni povas anstataŭe fari la anoncon en meta-elemento ene de la HTML-paĝo. Jen ekzemplo:

    <!DOCTYPE html>
    <html>
    <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    <title>Paĝo pri la Esperantaj literoj</title>
    </head>
    <body>
    [...]

    Oni povas fari la anoncon en ambaŭ manieroj samtempe. Efektive tia anonco en meta-elemento povas esti utila, se oni legas HTML-paĝon loke (ne tra reta servilo). Tial povas esti konsilinde ĉiam inkluzivi tian meta-elementon, se oni uzas UTF-8-on.

    Efektive oni povas uzi ankaŭ aliajn signokodojn ol Unikodo, ekzemple Latinon 1, Latinon 2 aŭ KOI-8-R, kaj tamen enmiksi Esperantajn literojn. Tiam oni skribu la Esperantajn literojn ĉiam nur numere. Efektive en HTML-paĝo oni povas ĉiam skribi ĉiun ajn signon, kiu ekzistas en Unikodo, per tia numera indiko (aŭ per nomkodo), sendepende de la uzata signokodo de la paĝo. Tiam la numeroj ĉiam sekvu Unikodon, neniam la signokodon uzatan en la paĝo. Jen pli da informoj pri signokodoj.

  • Laŭ la normo HTML-dokumento devas komenciĝi per informo pri la dokumenta tipo (<!DOCTYPE ...>). Tia deklaro montras, kiu versio de HTML estas uzata en la dokumento. La DOCTYPE-deklaro en la ĉi-tieaj ekzemploj montras, ke estas uzata HTML5. Antaŭe neniu TTT-legilo vere atentis pri la anoncita dokumentotipo, sed nuntempe kelkaj legiloj ja atentas. Tiuj legiloj elektas surbaze de tiu deklaro (aŭ manko de deklaro), ĉu prezenti la paĝon (kiom ili povas) laŭ la ekzistantaj normoj por HTML kaj CSS (stilfolioj), aŭ ĉu imiti la prezentokapricojn kaj prezentoerarojn de malnovaj legiloj. Iafoje la prezento de paĝo povas draste ŝanĝiĝi se oni ŝanĝas la dokumentotipan deklaron. La deklaro, kiun mi montris ĉi-antaŭe, igas tiujn legilojn (provi) sekvi la normojn, kaj estas tial bona elekto.

    Estas ĉiam rekomendinde kontroli per tiucela programo, ĉu la paĝo estas valida (= ĝuste verkita): validumi la paĝon. En validumado dokumento-tipa deklaro estas necesa. Bona servo por validumi HTML-paĝojn ekzistas ĉe <http://validator.w3.org/>.

  • Kelkaj malnovaj TTT-legiloj, kiuj ĝenerale subtenas Unikodon, kaj kiuj povas montri Esperantajn supersignajn literojn, tamen havas problemojn pri tiaj signoj en iuj specialaj kuntekstoj. Problemoj povas aperi pri teksto en <title>-elementoj, alternativa teksto de bildoj (alt-atributo ene de img-marko), teksto en la statusa strio, kaj teksto en dialogujoj (kiujn oni povas aperigi ekz. per Javaskripto). Tiuj problemoj plejparte nun malaperis, sed ankoraŭ indas aparte kontroli la efektivan rezulton en tiaj specialaj kuntekstoj en diversaj TTT-legiloj.