CLDR-tietokanta

Kotoistussuositukset ovat kokoelma nimiä ja käytäntöjä eri kielillä. Unicode-konsortion CLDR-tietokanta (Common Locale Data Repository) sisältää muun muassa maiden, kielten ja kirjoitusjärjestelmien nimiä sekä päivämäärien ja kellonaikojen esitysmuotoja. Näitä tietoja käyttävät etenkin tietotekniikkavalmistajat lokalisoidessaan ohjelmistojaan ja laitteitaan, mutta ne toimivat myös tavallisen kansalaisen tietopankkina. Kotoistushanke julkaisee suomen suosituksia myös helppolukuisemmassa muodossa.

CLDR kehittyy  vuosittaisina kierroksina, jotka koostuvat syöttö-, äänestys- ja julkaisuvaiheista. Syöttövaiheessa tietokanta ottaa vastaan uusia arvoja, ja sen päätyttyä äänestetään esitettyjen vaihtoehtojen kesken. Jos osallistuvien asiantuntijatahojen mielipiteet eroavat, yksimielisyyteen pyritään pääsemään keskustelemalla lokaalikohtaisilla keskustelupalstoilla (Lokaali tarkoittaa kielen ja alueen yhdistelmää. Esimerkiksi ”sv_FI” on suomenruotsi.). Jos äänestyksiin jää eroavuuksia äänestysvaiheen päättyessä, eniten ääniä saanut vaihtoehto voittaa. Aikaisemmin valittuja arvoja voidaan muuttaa seuraavien syklien aikana.

Tietojen syöttäminen CLDR-tietokantaan tapahtuu teknisesti Survey Tool -nimisen käyttöliittymän kautta. CLDR:n käyttäjätunnuksen voi saada kuka tahansa tavallinen kansalainenkin, jolloin hän pääsee suoraan antamaan omia ehdotuksiaan ja äänestämään tarjottujen vaihtoehtojen välillä, mikäli niitä on useita. Muokkauslupa on lokaalikohtainen. Merkittäviksi tunnustetuilla yrityksillä ja muilla organisaatioilla on käytössään peruskäyttäjää suurempi äänivalta, mutta Kotoistuksella kansallisen asiantuntijaverkoston konsensusyhteisönä on vielä näitäkin enemmän painoarvoa.

CLDR-tietokannassa voidaan määrittää kullekin kielelle ns. periytymishierarkia (fallback chain), eli minkä maan ja kielen vastineisiin turvaudutaan silloin kun jotakin arvoa ei ole määritetty. Esimerkiksi suomenruotsin ns. emolokaali on Ruotsissa puhuttu ruotsi. Arvon puuttuessa kaikilta muilta tasoilta alin periytymistaso on järjestelmän käyttämä muutaman merkin mittainen koodi, joka ei ole peruskäyttäjän kannalta kovin informatiivinen.