Kotoistus > Kannanottopyynnöt > CLDR Bug reports (data) 510 ja 512
Tehdyt toimenpiteet

CLDR Bug reports (data) 510 ja 512

KANNANOTTOPYYNTÖ:  MERKISTÖT JA NIIDEN AAKKOSTUS

Tämän kannanottopyynnön johdosta esitettävät kommentit pyydetään lähettämään torstaihin 3.3.2005 mennessä sähköpostiosoitteella kotoistus(ät)kotus.fi.
(Tätä kannanottopyyntöä on tarkennettu aakkostuksen osalta 28.2.2005.)

Kysymyksessä ei ole virallinen lausuntopyyntö, jollaista käytetään mm. osana kansallisten standardien hyväksymismenettelyä. Niinpä, esim. jonkin yrityksen tai organisaation palveluksessa olevien asiantuntijoiden ei kommentoidessaan ole välttämätöntä sopia yhteisestä, ”yrityksen” kannasta silloinkaan, kun se osallistuu kotoistushankkeeseen.

Määritykset on tarkoitus julkaista CLDR-rekisterin seuraavassa versiossa (1.3). Merkeistä esitetään vain pienaakkoset.

Esitetyt kommentit käsitellään julkisina, ja niihin vastataan näillä verkkosivuilla.

Tehtäväkseen saaneena

Erkki I. Kolehmainen,
Kotoistushankkeen ohjaus- ja seurantaryhmän sihteeri

*

MERKISTÖT

Suomen kielen oikeinkirjoitukseen tarvitaan seuraavat merkit:

a-z, ä (U+00E4), å (U+00E5), ö (U+00F6), š (U+0161) = hattu-s, ž (U+017E) = hattu-z.

Tämä merkistö on hyväksytty vuonna 1998 SFS:n tietotekniikka-alaa silloin edustaneen toimialayhteisön (TIEKE) järjestämällä lausuntokierroksella, ja se myös esitetään suomen kielen vaatimuksena mm. osoitteessa http://europa.eu.int/comm/eurostat/research/index.htm.

Suomenkielisessä tekstissä tarvitaan kuitenkin usein edellä esitettyä perusmerkistöä laajempi merkkivalikoima, johon kuuluvat myös:

à (U+00E0) = a ja gravis (kielitausta: ranska),
á (U+00E1) = a ja akuutti (tšekki, unkari, islanti, saame, espanja, portugali),
ã (U+00E3) = a ja tilde (portugali),
æ (U+00E6) = ae-ligatuuri, ns. tanskalainen ä (tanska, norja, islanti),
è (U+00E8) = e ja gravis (ranska),
é (U+00E9) = e ja akuutti (ranska, tšekki, unkari, islanti, espanja, portugali),
ë (U+00EB) = e ja treema (ranska, albania),
ï (U+00EF) = i ja treema (ranska),
ô (U+00F4) = o ja sirkumfleksi (ranska),
õ (U+00F5) = o ja tilde (viro, portugali),
ø (U+00F8) = o ja vinoviiva yli, ns. tanskalainen ö (tanska, norja),
œ (U+0153) = oe-ligatuuri (ranska),
ü (U+00FC) = u ja treema, ns. saksalainen y (saksa, unkari, viro, turkki),
ç (U+00E7) = c ja sedilji (ranska, albania, portugali, turkki),
č (U+010D) = hattu-c (tšekki, latvia, liettua, saame, kroatia),
ñ (U+00F1) = n ja tilde (espanja),
ř (U+0159) = hattu-r (tšekki),
ß (U+00DF) = kaksois-s (saksa).

Tätä laajennettua suomen kielen merkistöä käytetään yleisesti mm. suomalaisissa sanomalehdissä, joten olisi suotavaa, että myös otsikoissa käytettävät fontit sisältäisivät nämä merkit. Sitä voidaan myös mm. käyttää tärkeimpien, tekstistä optisesti tunnistettavien merkkien määrittelyyn. Merkistöön kuuluvat oikeastaan myös suomen kielessä käytetyt numerot ja välimerkit.

Suomessa alueellisesti (fi_FI, suomen kieli Suomessa) tarvittavaan merkistöön kuuluvat myös Suomessa ja saamen osalta myös Ruotsissa ja Norjassa puhutuissa virallisissa vähemmistökielissä käytettävät lisämerkit:

Saamen kielet: â (U+00E2) = a ja sirkumfleksi; đ (U+0111) = d ja poikkiviiva; ń (U+0144) = n ja akuutti; ŋ (U+014B) = äng; ŧ (U+0167) = t ja poikkiviiva; ǥ (U+01E5) = g ja poikkiviiva; ǧ (U+01E7) = hattu-g; ǩ (U+01E9) = hattu-k; ǯ (U+01EF) = hattu-ezh, ʒ (U+0292) = ezh.
Suomessa puhuttu romanikieli: ȟ (U+021F) = hattu-h.

Nämä merkit tulisi ns. valtakieliä ensisijaisesti käyttävien, mm. kielivähemmistöjen asioita hoitavien viranomaisten, voida syöttää kohtuullisen vaivattomasti tietojärjestelmiin yhtä, yhteistä näppäimistökaaviota käyttäen. Sama kaavio ei kuitenkaan ole optimaalinen niille, jotka käyttävät ensisijaisesti vähemmistökieliä.

*

AAKKOSTUS

Edellä esitettyjen merkkien aakkostus määritellään UCA:n (Unicode Collation Algorithm) pohjalta seuraavasti:

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE ldml SYSTEM "http://www.unicode.org/cldr/dtd/1.3/ldml.dtd">
<ldml>
<identity>
<version number="1.3"/>
<generation date="2005-02-25"/>
<language type="fi"/> </identity>
<collations validSubLocales="fi_FI">
<collation type="standard" >
<rules>
<!--U+02A4, last letter w/ D's primary value.-->
<reset>ʤ</reset>
<s>đ</s>
<t>Đ</t>
<!--U+33C9, last letter w/ G's primary value.-->
<reset>㏉</reset> <s>ǥ</s>
<t>Ǥ</t>
<!--U+33BB, last letter w/ N's primary value.-->
<reset>㎻</reset>
<s>ŋ</s>
<t>Ŋ</t>
<!--U+02A7, last letter w/ T's primary value.-->
<reset>ʧ</reset>
<s>ŧ</s>
<t>Ŧ</t>
<reset>V</reset>
<s>w</s>
<t>W</t>
<reset>Y</reset>
<s>ü</s>
<t>Ü</t>
<!--U+018D, last letter w/ Z's primary value.-->
<reset>ƍ</reset>
<s>ʒ</s>
<t>Ʒ</t>
<s>ǯ</s>
<t>Ǯ</t>
<!--U+0291, last Z-like letter.-->
<reset>ʑ</reset>
<p>å</p>
<t>Å</t>
<p>ä</p>
<t>Ä</t>
<s>æ</s>
<t>Æ</t>
<p>ö</p>
<t>Ö</t>
<s>ø</s>
<t>Ø</t>
</rules>
</collation>
</collations>
</ldml>

Käytännössä tämä tarkoittaa sitä, että fi_FI-merkit aakkostetaan seuraavasti (pienet kirjaimet ennen suuria):

a; toissijaisesti á (U+00E1), à (U+00E0), â (U+00E2), ã (U+00E3);
b;
c; toiss. č (U+010D), ç (U+00E7);
d; toiss. đ (U+0111);
e; toiss. é (U+00E9), è (U+00E8), ë (U+00EB);
f;
g; toiss. ǧ (U+01E7), ǥ (U+01E5);
h; toiss. ȟ (U+021F);
i; toiss. ï (U+00EF);
j;
k; toiss. ǩ (U+01E9);
l;
m;
n; toiss. ń (U+0144); ñ (U+00F1); ŋ (U+014B);
o; toiss. ô (U+00F4); õ (U+00F5); œ (U+0153);
p;
q;
r; toiss. ř (U+0159);
s; toiss. š (U+0161); ß (U+00DF);
t; toiss. ŧ (U+0167), 
u;
v; toiss. w;
x;
y; toiss. ü (U+00FC)
z; toiss. ž (U+017E), ʒ (U+0292), ǯ (U+01EF);
å (U+00E5);
ä (U+00E4); toiss. æ (U+00E6);
ö (U+00F6); toiss. ø (U+00F8).

Toissijaisuus tarkoittaa sitä, että esim. sanalajittelussa merkit ovat eriarvoiset aakkostettaessa vain, mikäli sana on muuten sama, esim: sakki, šakki, salmiakki.

Ns. puhelinluettelokäyttöön tarvitaan erillinen määritys, jossa v ja w aakkostetaan eri merkkeinä.

Mainittakoon, että vähemmistökielten merkkien osalta edellä olevat aakkostussäännöt koskevat vain niiden esiintymistä suomenkielisessä tekstissä. Näiden kielten omat aakkostussäännöt määritellään erikseen kutakin kieltä varten.

*

Päivitetty 28.2.2005