Kotoistus > Kannanottopyynnöt > LUKUJEN ESITYKSEEN SEKÄ SEKALAISIIN YLEISMÄÄRITYKSIIN KOHDISTUVAT KANNANOTOT
Tehdyt toimenpiteet

LUKUJEN ESITYKSEEN SEKÄ SEKALAISIIN YLEISMÄÄRITYKSIIN KOHDISTUVAT KANNANOTOT

LUKUJEN ESITYKSEEN SEKÄ SEKALAISIIN YLEISMÄÄRITYKSIIN KOHDISTUVAT KANNANOTOT JA VASTAUKSET

Tähän on sisällytetty Jukka K. Korpelalta saatu kannanotto.

Siinä esitettyjä näkökohtia otetaan huomioon valmisteltaessa uutta kannanottopyyntöä siinä vaiheessa, kun CLDR 1.4:n sisällön määrittelevä LDML 1.4 on valmistunut.

Jukka K. Korpelan kannanotto (14.9.2005):

Kannanottonani ehdotukseen "Lukujen esitys sekä sekalaisia yleismäärityksiä" esitän:

Lainausmerkit

En ole aivan tyytyväinen tapaan, jolla kulmalainausmerkkejä tässäkin kohdellaan. Ne mainitaan vasta lopuksi, kuin erikoisuutena. Kuitenkin kulmalainausmerkkien käyttö on kauan ollut ja on edelleen yleinen käytäntö arvokirjallisuudessa. Kaarevat lainausmerkit ovat yleistyneet lähinnä tekstinkäsittelyohjelmien takia. Minusta kaarevat lainausmerkit ja kulmalainausmerkit tulisi esittää rinnakkaisina vaihtoehtoina, vaikka sitten lisättäisiinkin, että tietoteknisissä sovelluksissa käytetään kaarevia lainausmerkkejä. (Tämä lienee aiheen kannalta osuvampi kuvaus kuin maininta siitä, missä kulmalainausmerkkejä käytetään.)

Maininta lainausmerkkien sisäkkäisyydestä sisältää suomen kielen kannalta uuden periaatteen. Vanhastaan on esitetty, että sisempinä lainausmerkkeinä käytetään yksinkertaisia lainausmerkkejä, mutta suuremmasta sisäkkäisyydestä on vaiettu. Muodollisesti tulkiten nykyiset säännöt merkitsevät, että sisemmät lainausmerkit ovat aina yksinkertaisia, sillä onhan kyse lainauksesta lainauksen sisällä, vaikka ulompi lainaus sekin vielä olisi lainauksen sisällä. Tässä tulisi mielestäni todeta realistisesti asiaintila ilman, että siitä tehdään suomen kielen sääntöä, esimerkiksi seuraavasti:

Jos lainausmerkeillä merkityn lainauksen sisällä on lainausmerkein merkittävä lainaus, käytetään sisemmässä lainauksessa yksinkertaisia eli heittomerkin kaltaisia lainausmerkkejä. CLDR-tietokannan nykyisten sääntöjen mukaan tästä seuraa, että kokolainausmerkkiä ja puolilainausmerkkiä käytetään vuorotellen siten, että sisempään lainaukseen sisältyvässä, so. 3. tason lainauksessa käytetään taas kokolainausmerkkiä, 4. tason lainauksessa puolilainausmerkkiä, jne.
Tällainen periaate ei kuitenkaan sisälly suomen kielen sääntöihin.

Symbolit

Mielestäni mitään arvoja ei tulisi vahvistaa, ennen kuin on saatu paremmin tietoa siitä, miten kyseisiä määrittelyjä tullaan käyttämään CLDR-tietokannan soveltamisessa. Tarkoitan erityisesti kysymystä ns. graceful degradation -mekanismista eli siitä, miten määritellään toiminta silloin, kun joitakin käytettyjä merkkejä ei voida esittää jonkin rajoituksen (laite, fontti, ohjelma, merkkikoodi, datalle asetettu syntaktinen rajoitus jne.) takia. Esimerkiksi mitä tapahtuu, jos miinusmerkki ei ole esitettävissä? Etumerkin jääminen pois luvusta tai korvautuminen puuttuvan glyyfin symbolilla on tuskin hyvä ajatus.

Yhdistävän välilyönnin määritteleminen ryhmäerottimeksi on varsin ongelmallista. Käytännössä yhdistävä välimerkki on liian leveä ja lisäksi vakiolevyinen (ei levene välistystä suurennettaessa mutta ei myöskään kapene välistystä pienennettäessä). Niinpä se johtaa ulkoasuongelmiin, joihin ei ole nykyisin toimivaa ratkaisua pysyttäessä pelkän tekstin tasolla, koska Unicodesta puuttuu tähän sopiva merkki. Yhdistelmä ohuke (thin space, U+2009) + sanayhdistin (word joiner, U+2060) olisi kai teoreettisesti oikea mutta ei toimi, ja lisäksi symboli on CLDR:n nykymäärittelyn mukaan kai esitettävä yhtenä merkkinä.

Lisäksi Unicode-standardin osana oleva UAX #14 sanoo merkistä U+2007 figure space:
"This is the preferred space to use in numbers. It has the same width as a digit and keeps the number together for the purpose of line breaking."
Muotoilu todennäköisesti ei ilmaise aiottua tarkoitusta, mutta tämäkin osoittaa, että ortografisten ja typografisten sääntöjen (erottimena on tyhjä väli, jonka kohdalta rivitys on kielletty ja jonka tulisi olla normaalia sananväliä kapeampi) kuvaaminen Unicode-merkkien, saati yhden merkin, käytöllä on erittäin hankalaa ja tulkinnanvaraista.

Olisi hyvin riskialtista määritellä suomalaisiin asetuksiin merkkejä, joiden yleisestä toimivuudesta ei ole takeita, jos valtakielten asetukset noudattavat varovaista linjaa. Jos englannin, espanjan, ranskan jne.
asetuksissa miinusmerkkinä on tavuviiva-míinusmerkki eli "ASCII-miinus", on hyvin luultavaa, että ohjelmien suunnittelussa ei paljoa mietitä sitä, pitäisikö tehdä jotain, jos määritelty miinusmerkki ei ole tulostettavissa.

Äärettömän symboliksi esitetty merkki on tietysti kansainvälisesti tunnettu notaatio - matemaattisia merkintöjä tunteville. Suomessa se on varmaankin yhtä tunnettu kuin maailmassa yleensäkin. Herää kuitenkin kysymys, miksi se ylipäänsä sisältyy CLDR-määrittelyihin. Jos tarkoitus on kotoistaa tällainen asia, luulisi, että symboli voidaan ilmaista merkkijonolla, joka voi olla esimerkiksi "infinite" tai "ääretön" (ja jonka yleisenä oletusarvona voi tietysti olla äärettömän matemaattinen symboli).

Vastaavat näkökohdat koskevat NaN-symbolia. Jos tarkoituksena on tietotekniikan tuottamien merkintöjen kotoistaminen maailman kaikkien ihmisten ymmärrettäviksi oman äidinkielensä pohjalta, on suorastaan absurdia, että NaN pitää esittää yhdellä merkillä. Viittaaminen Java-kielen käytäntöön on aivan suhteetonta maailmassa, jossa yli 99 % ihmisistä ei tiedä eikä haluakaan tietää Java-kielestä mitään. Lisäksi U+FFFD:n käyttö tässä yhteydessä ei lainkaan vastaa sitä, miten Unicode-standardi määrittelee korvausmerkin U+FFFD.

POSIX-yhteensopivuuden edellyttämät vastausmääritykset

Koska tätä määrittelyä tullaan lukemaan ja käyttämään myös yleisenä tietolähteenä mm. toteutettaessa tietokoneohjelmia, tulisi näihin määrittelyihin mielestäni ehdottomasti liittää huomautus:
Nämä määritykset esitetään tässä suomen kielelle vain siitä syystä, että CLDR:n rakenne vaatii niitä. Suomen kielen vanhan käytännön mukainen tapa vastata kysymykseen, johon odotetaan myöntävää tai kieltävää vastausta, on käyttää tilanteen mukaista kieltoverbin muotoa taikka kysymyslauseen predikaatti puhujan aseman mukaisessa persoonamuodossa. Esimerkiksi kysymykseen, jonka predikaatti on "haluatko", vastataan "haluan" tai "en" (tai pitemmin "en halua"). Tämä käytäntö ei ole kuvattavissa POSIXin asettamissa puitteissa eikä muutoinkaan tavalla, joka olisi helppo siirtää ohjelmakoodiksi. Se voidaan kuitenkin ottaa huomioon silloin, kun kotoistettavalle ohjelmalle voidaan ilmoittaa vastausvaihtoehdot kysymyskohtaisesti.

Tässä esittämäni ongelma tulisi sopivalla tavalla saattaa myös CLDR-toiminnassa yleisesti huomioon otettavaksi. On todennäköistä, että jos suomalaiset eivät tuo sitä esiin, ei kukaan muukaan vaadi tätä kielemme ominaispiirrettä otettavaksi huomioon, vaikka jotakin vastaavaa tarvetta saattaa hyvinkin esiintyä joissakin muissakin kielissä.

Lukujen esitys

Viittaan ensinnäkin siihen, mitä edellä esitin ryhmäerottimesta.
Uskoakseni käytännöllinen ratkaisu nykytilanteessa on se, että ryhmäerottimeksi määritellään (tavallinen) välilyönti ja että CLDR:n määrittelyä kehitetään niin, että sen tasolla määritellään, että jos ryhmäerottimeksi on asetettu välilyönti, sen tulisi olla yhdistävä ja mahdollisuuksien mukaan kapeampi kuin normaali välilyönti, tyypillisesti ohukkeen levyinen. Toisin sanoen kysymys välilyöntimerkin tarkemmasta olemuksesta siirrettäisiin merkkitasoa ylemmälle protokollatasolle.

Virke "Rahasummissa voidaan tarvittaessa kuitenkin käyttää ryhmäerottimena myös pistettä <.>" on tällaiseen asiayhteyteen kuulumaton, koska sitä ei kai sentään ole tarkoitus viedä CLDR-tietokantaan. Lisäksi se edustaa vanhentunutta käytäntöä, jota on pidettävä suorastaan virheellisenä.
Todellisuudessa pisteet eivät estä väärennyksiä vaan aiheuttavat väärinkäsityksiä ja sekaannuksia.

Välin jättäminen miinusmerkin ja luvun väliin on vastoin kaikkia suosituksia ja ohjeita, joissa tällaiseen asiaan ylipäänsä puututaan, ja myös mm. kansainvälisen mittayksikköjärjestelmän (SI) kirjoitussääntöjä. Koko ajatuksen esittäminen on tässä yhteydessä aivan asiaankuulumatonta, koska tarkoituksena ei kai sentään pitäisi olla suomen kielen kirjoitussääntöjen muuttaminen vaan niiden mukaisten asetusten määrittely.

Tässä ei siis olisi tarpeen edes puuttua kyseisen ehdotuksen sisältöön, sillä vaikka sille olisi perusteluja, se olisi ensin käsiteltävä ja hyväksyttävä eri tahoilla. Senkin jälkeen olisi kyseenalaista, onko oikein viedä sitä CLDR:ään, ennen kuin se todellisuudessa tulee yleiseen käyttöön (mikä olisi erittäin kyseenalaista, vaikka ehdotus jostain kumman syystä hyväksyttäisiin normiksi).

Mainitsen kuitenkin, että miinusmerkki esiintyy vain harvoin sellaisessa yhteydessä, jossa käytetään ryhmäerotinta. Matematiikassa ja fysiikassa käytetään yleensä eksponenttiesitystä tai mittayksikön kerrannaisia, jolloin tarvetta ryhmäerottimen käyttöön ei synny (esimerkiksi ei "-1 234 560 m" vaan "-1,23456E6 m" tai "-1,23456 km"). Irralleen luvusta kirjoitettu miinusmerkki näyttäisi virheeltä, jonka tarkempaa laatua ei voi päätellä. Koska se poikkeaisi niin suomen kuin muidenkin kielten kirjoitussäännöistä, lukija pyrkisi tulkitsemaan sen eri tavoin, esimerkiksi ajatusviivaksi.

Kokonaan eri asia on, että typografisista syistä olisi usein aiheellista lisätä hiukan (esimerkiksi 0,1 mm) välistystä miinusmerkin ja sitä seuraavan merkin väliin, etenkin jos merkki on esimerkki "0" tai "6". Tämä ei kuitenkaan lainkaan kuulu CLDR-asioihin.

Virke "Tekstissä luku 0 näytetään aina, ellei sitä haluta jättää pois esimerkiksi taulukossa" on epälooginen. Miksi taulukkoa koskeva halu vaikuttaisi tekstiin? Tässä on ehkä tarkoitettu, että jos taulukkoon on tiiviyden vuoksi kirjoitettu esimerkiksi ",123", niin viitattaessa taulukon lukuun tekstissä käytettäisiin samaa muotoa. Vastustan sitä, että tässä asiakirjassa mainittaisiin suomen kielen sääntöjen vastainen lukujen esitys, ja vielä enemmän, jos maininta on epäselvä. Mielestäni ",123" ei myöskään vastaisi mitään käytäntöä, vaan se olisi sekoitus suomalaista ja englanninkielistä merkintätapaa. Siellä, missä nolla jätetään pois, käytetään pistettä: ".123".

Niinpä jos halutaan ratkaista kysymys lukujen lyhennetystä merkintätavasta taulukoissa, olisi samalla otettava tarkasteltavaksi myös desimaalipilkun korvaaminen desimaalipisteellä. Muutos voisi olla järkevä, koska ei desimaalipilkussa sinänsä ole mitään suomen kielen kannalta pyhää. Mutta se olisi iso muutos ja kuuluisi muilla foorumeilla päätettäväksi.

Nollan poisjättöä koskeva lausuma tulisi poistaa. Sillähän ei olisi vaikutusta CLDR-määrittelyihin. Ei myöskään ole syytä muuttaa lukujen kirjoittamista koskeita ohjeita vain siksi, että niitä rikotaan.

Lausumaa "Ellei käytettävän valuutan koodia ole erikseen määritelty, on oletusvaluutta euro (EUR <.>)" en ymmärrä. Käsittääkseni CLDR:n määrittelyssä erityisesti korostetaan, että rahamääriä ei koskaan saa sisäisesti käsitellä ja siirtää ilman tietoa rahayksiköstä. Ymmärtääkseni määrittelyssä ei edes ole mitään paikkaa oletusvaluutalle. Jos määritellään, miten valuutta tulostetaan silloin, kun valuutan koodia ei ole määritelty, niin tulostusasun ei tulisi vastata mitään todellista valuuttaa, ei varsinkaan yleisimmin käytettyä! Kysehän olisi virhetilanteesta, jossa tulosteen pitäisi vähintään kertoa, että jotain meni pieleen. (Edes merkki "¤" ei tähän kelpaisi.)

Epäjohdonmukaista on, että rahamäärän tulostusasu kerrotaan (otsikon "LUKUJEN ESITYS" alla!) muissa tapauksissa kuin suositelluimmassa. Onhan suositeltavinta esittää rahamäärä siten, että rahayksikkö ilmaistaan kirjoitettuna sanana, esimerkiksi "euroa". CLDR:ssä ei tietääkseni vielä ole määritelty, miltä pohjalta muodostetaan sellainen tulostusmuoto. On kuitenkin todennäköistä, että käytännössä tullaan käyttämään tulostusmuotoja, joissa käytetään CLDR:ään määriteltyjä valuuttojen nimiä.

Tämän takia asiasta tarvittaisiin erillinen varoitus, esimerkiksi seuraavanlainen: "Jos rahamäärä esitetään siten, että valuutta ilmaistaan sanalla tai sanoilla, tulee suomen kielen sääntöjen mukaan käyttää valuutan nimestä yksikön partitiivia (esim. '42 euroa'), luvun ollessa tasan yksi kuitenkin
yksikön nominatiivia (esim. '1 euro'). Tämän takia ei ole hyväksyttävää käyttää määriteltyjä valuuttojen nimiä sellaisinaan, taivuttamatta, rahamääriä ilmaistaessa."

16.1.2006