LUKUJEN ESITYKSEEN SEKÄ SEKALAISIIN YLEISMÄÄRITYKSIIN KOHDISTUVAT KANNANOTOT JA VASTAUKSET
Tähän on sisällytetty Jukka K. Korpelalta saatu kannanotto.
Siinä esitettyjä näkökohtia otetaan huomioon valmisteltaessa uutta kannanottopyyntöä siinä vaiheessa, kun CLDR 1.4:n sisällön määrittelevä LDML 1.4 on valmistunut.
Jukka K. Korpelan kannanotto (14.9.2005):
Kannanottonani ehdotukseen "Lukujen esitys sekä sekalaisia yleismäärityksiä" esitän:
Lainausmerkit
En ole aivan tyytyväinen tapaan, jolla kulmalainausmerkkejä tässäkin kohdellaan. Ne mainitaan vasta lopuksi, kuin erikoisuutena. Kuitenkin kulmalainausmerkkien käyttö on kauan ollut ja on edelleen yleinen käytäntö arvokirjallisuudessa. Kaarevat lainausmerkit ovat yleistyneet lähinnä tekstinkäsittelyohjelmien takia. Minusta kaarevat lainausmerkit ja kulmalainausmerkit tulisi esittää rinnakkaisina vaihtoehtoina, vaikka sitten lisättäisiinkin, että tietoteknisissä sovelluksissa käytetään kaarevia lainausmerkkejä. (Tämä lienee aiheen kannalta osuvampi kuvaus kuin maininta siitä, missä kulmalainausmerkkejä käytetään.)
Maininta lainausmerkkien sisäkkäisyydestä sisältää suomen kielen kannalta uuden periaatteen. Vanhastaan on esitetty, että sisempinä lainausmerkkeinä käytetään yksinkertaisia lainausmerkkejä, mutta suuremmasta sisäkkäisyydestä on vaiettu. Muodollisesti tulkiten nykyiset säännöt merkitsevät, että sisemmät lainausmerkit ovat aina yksinkertaisia, sillä onhan kyse lainauksesta lainauksen sisällä, vaikka ulompi lainaus sekin vielä olisi lainauksen sisällä. Tässä tulisi mielestäni todeta realistisesti asiaintila ilman, että siitä tehdään suomen kielen sääntöä, esimerkiksi seuraavasti:
Jos lainausmerkeillä merkityn lainauksen sisällä on lainausmerkein
merkittävä lainaus, käytetään sisemmässä lainauksessa yksinkertaisia
eli heittomerkin kaltaisia lainausmerkkejä. CLDR-tietokannan nykyisten
sääntöjen mukaan tästä seuraa, että kokolainausmerkkiä ja
puolilainausmerkkiä käytetään vuorotellen siten, että sisempään
lainaukseen sisältyvässä, so. 3. tason lainauksessa käytetään taas
kokolainausmerkkiä, 4. tason lainauksessa puolilainausmerkkiä, jne.
Tällainen periaate ei kuitenkaan sisälly suomen kielen sääntöihin.
Symbolit
Mielestäni mitään arvoja ei tulisi vahvistaa, ennen kuin on saatu paremmin tietoa siitä, miten kyseisiä määrittelyjä tullaan käyttämään CLDR-tietokannan soveltamisessa. Tarkoitan erityisesti kysymystä ns. graceful degradation -mekanismista eli siitä, miten määritellään toiminta silloin, kun joitakin käytettyjä merkkejä ei voida esittää jonkin rajoituksen (laite, fontti, ohjelma, merkkikoodi, datalle asetettu syntaktinen rajoitus jne.) takia. Esimerkiksi mitä tapahtuu, jos miinusmerkki ei ole esitettävissä? Etumerkin jääminen pois luvusta tai korvautuminen puuttuvan glyyfin symbolilla on tuskin hyvä ajatus.
Yhdistävän välilyönnin määritteleminen ryhmäerottimeksi on varsin ongelmallista. Käytännössä yhdistävä välimerkki on liian leveä ja lisäksi vakiolevyinen (ei levene välistystä suurennettaessa mutta ei myöskään kapene välistystä pienennettäessä). Niinpä se johtaa ulkoasuongelmiin, joihin ei ole nykyisin toimivaa ratkaisua pysyttäessä pelkän tekstin tasolla, koska Unicodesta puuttuu tähän sopiva merkki. Yhdistelmä ohuke (thin space, U+2009) + sanayhdistin (word joiner, U+2060) olisi kai teoreettisesti oikea mutta ei toimi, ja lisäksi symboli on CLDR:n nykymäärittelyn mukaan kai esitettävä yhtenä merkkinä.
Lisäksi Unicode-standardin osana oleva UAX #14 sanoo merkistä U+2007 figure space:
"This is the preferred space to use in numbers. It has the same width
as a digit and keeps the number together for the purpose of line
breaking."
Muotoilu todennäköisesti ei ilmaise aiottua tarkoitusta, mutta tämäkin
osoittaa, että ortografisten ja typografisten sääntöjen (erottimena
on tyhjä väli, jonka kohdalta rivitys on kielletty ja jonka tulisi olla
normaalia sananväliä kapeampi) kuvaaminen Unicode-merkkien, saati yhden
merkin, käytöllä on erittäin hankalaa ja tulkinnanvaraista.
Olisi hyvin riskialtista määritellä suomalaisiin asetuksiin
merkkejä, joiden yleisestä toimivuudesta ei ole takeita, jos
valtakielten asetukset noudattavat varovaista linjaa. Jos englannin,
espanjan, ranskan jne.
asetuksissa miinusmerkkinä on tavuviiva-míinusmerkki eli
"ASCII-miinus", on hyvin luultavaa, että ohjelmien suunnittelussa ei
paljoa mietitä sitä, pitäisikö tehdä jotain, jos määritelty
miinusmerkki ei ole tulostettavissa.
Äärettömän symboliksi esitetty merkki on tietysti kansainvälisesti tunnettu notaatio - matemaattisia merkintöjä tunteville. Suomessa se on varmaankin yhtä tunnettu kuin maailmassa yleensäkin. Herää kuitenkin kysymys, miksi se ylipäänsä sisältyy CLDR-määrittelyihin. Jos tarkoitus on kotoistaa tällainen asia, luulisi, että symboli voidaan ilmaista merkkijonolla, joka voi olla esimerkiksi "infinite" tai "ääretön" (ja jonka yleisenä oletusarvona voi tietysti olla äärettömän matemaattinen symboli).
Vastaavat näkökohdat koskevat NaN-symbolia. Jos tarkoituksena on tietotekniikan tuottamien merkintöjen kotoistaminen maailman kaikkien ihmisten ymmärrettäviksi oman äidinkielensä pohjalta, on suorastaan absurdia, että NaN pitää esittää yhdellä merkillä. Viittaaminen Java-kielen käytäntöön on aivan suhteetonta maailmassa, jossa yli 99 % ihmisistä ei tiedä eikä haluakaan tietää Java-kielestä mitään. Lisäksi U+FFFD:n käyttö tässä yhteydessä ei lainkaan vastaa sitä, miten Unicode-standardi määrittelee korvausmerkin U+FFFD.
POSIX-yhteensopivuuden edellyttämät vastausmääritykset
Koska tätä määrittelyä tullaan lukemaan ja käyttämään myös yleisenä
tietolähteenä mm. toteutettaessa tietokoneohjelmia, tulisi näihin
määrittelyihin mielestäni ehdottomasti liittää huomautus:
Nämä määritykset esitetään tässä suomen kielelle vain siitä syystä,
että CLDR:n rakenne vaatii niitä. Suomen kielen vanhan käytännön
mukainen tapa vastata kysymykseen, johon odotetaan myöntävää tai
kieltävää vastausta, on käyttää tilanteen mukaista kieltoverbin muotoa
taikka kysymyslauseen predikaatti puhujan aseman mukaisessa
persoonamuodossa. Esimerkiksi kysymykseen, jonka predikaatti on
"haluatko", vastataan "haluan" tai "en" (tai pitemmin "en halua"). Tämä
käytäntö ei ole kuvattavissa POSIXin asettamissa puitteissa eikä
muutoinkaan tavalla, joka olisi helppo siirtää ohjelmakoodiksi. Se
voidaan kuitenkin ottaa huomioon silloin, kun kotoistettavalle
ohjelmalle voidaan ilmoittaa vastausvaihtoehdot kysymyskohtaisesti.
Tässä esittämäni ongelma tulisi sopivalla tavalla saattaa myös CLDR-toiminnassa yleisesti huomioon otettavaksi. On todennäköistä, että jos suomalaiset eivät tuo sitä esiin, ei kukaan muukaan vaadi tätä kielemme ominaispiirrettä otettavaksi huomioon, vaikka jotakin vastaavaa tarvetta saattaa hyvinkin esiintyä joissakin muissakin kielissä.
Lukujen esitys
Viittaan ensinnäkin siihen, mitä edellä esitin ryhmäerottimesta.
Uskoakseni käytännöllinen ratkaisu nykytilanteessa on se, että
ryhmäerottimeksi määritellään (tavallinen) välilyönti ja että CLDR:n
määrittelyä kehitetään niin, että sen tasolla määritellään, että jos
ryhmäerottimeksi on asetettu välilyönti, sen tulisi olla yhdistävä ja
mahdollisuuksien mukaan kapeampi kuin normaali välilyönti,
tyypillisesti ohukkeen levyinen. Toisin sanoen kysymys välilyöntimerkin
tarkemmasta olemuksesta siirrettäisiin merkkitasoa ylemmälle
protokollatasolle.
Virke "Rahasummissa voidaan tarvittaessa kuitenkin käyttää
ryhmäerottimena myös pistettä <.>" on tällaiseen asiayhteyteen
kuulumaton, koska sitä ei kai sentään ole tarkoitus viedä
CLDR-tietokantaan. Lisäksi se edustaa vanhentunutta käytäntöä, jota on
pidettävä suorastaan virheellisenä.
Todellisuudessa pisteet eivät estä väärennyksiä vaan aiheuttavat väärinkäsityksiä ja sekaannuksia.
Välin jättäminen miinusmerkin ja luvun väliin on vastoin kaikkia suosituksia ja ohjeita, joissa tällaiseen asiaan ylipäänsä puututaan, ja myös mm. kansainvälisen mittayksikköjärjestelmän (SI) kirjoitussääntöjä. Koko ajatuksen esittäminen on tässä yhteydessä aivan asiaankuulumatonta, koska tarkoituksena ei kai sentään pitäisi olla suomen kielen kirjoitussääntöjen muuttaminen vaan niiden mukaisten asetusten määrittely.
Tässä ei siis olisi tarpeen edes puuttua kyseisen ehdotuksen sisältöön, sillä vaikka sille olisi perusteluja, se olisi ensin käsiteltävä ja hyväksyttävä eri tahoilla. Senkin jälkeen olisi kyseenalaista, onko oikein viedä sitä CLDR:ään, ennen kuin se todellisuudessa tulee yleiseen käyttöön (mikä olisi erittäin kyseenalaista, vaikka ehdotus jostain kumman syystä hyväksyttäisiin normiksi).
Mainitsen kuitenkin, että miinusmerkki esiintyy vain harvoin sellaisessa yhteydessä, jossa käytetään ryhmäerotinta. Matematiikassa ja fysiikassa käytetään yleensä eksponenttiesitystä tai mittayksikön kerrannaisia, jolloin tarvetta ryhmäerottimen käyttöön ei synny (esimerkiksi ei "-1 234 560 m" vaan "-1,23456E6 m" tai "-1,23456 km"). Irralleen luvusta kirjoitettu miinusmerkki näyttäisi virheeltä, jonka tarkempaa laatua ei voi päätellä. Koska se poikkeaisi niin suomen kuin muidenkin kielten kirjoitussäännöistä, lukija pyrkisi tulkitsemaan sen eri tavoin, esimerkiksi ajatusviivaksi.
Kokonaan eri asia on, että typografisista syistä olisi usein aiheellista lisätä hiukan (esimerkiksi 0,1 mm) välistystä miinusmerkin ja sitä seuraavan merkin väliin, etenkin jos merkki on esimerkki "0" tai "6". Tämä ei kuitenkaan lainkaan kuulu CLDR-asioihin.
Virke "Tekstissä luku 0 näytetään aina, ellei sitä haluta jättää pois esimerkiksi taulukossa" on epälooginen. Miksi taulukkoa koskeva halu vaikuttaisi tekstiin? Tässä on ehkä tarkoitettu, että jos taulukkoon on tiiviyden vuoksi kirjoitettu esimerkiksi ",123", niin viitattaessa taulukon lukuun tekstissä käytettäisiin samaa muotoa. Vastustan sitä, että tässä asiakirjassa mainittaisiin suomen kielen sääntöjen vastainen lukujen esitys, ja vielä enemmän, jos maininta on epäselvä. Mielestäni ",123" ei myöskään vastaisi mitään käytäntöä, vaan se olisi sekoitus suomalaista ja englanninkielistä merkintätapaa. Siellä, missä nolla jätetään pois, käytetään pistettä: ".123".
Niinpä jos halutaan ratkaista kysymys lukujen lyhennetystä merkintätavasta taulukoissa, olisi samalla otettava tarkasteltavaksi myös desimaalipilkun korvaaminen desimaalipisteellä. Muutos voisi olla järkevä, koska ei desimaalipilkussa sinänsä ole mitään suomen kielen kannalta pyhää. Mutta se olisi iso muutos ja kuuluisi muilla foorumeilla päätettäväksi.
Nollan poisjättöä koskeva lausuma tulisi poistaa. Sillähän ei olisi vaikutusta CLDR-määrittelyihin. Ei myöskään ole syytä muuttaa lukujen kirjoittamista koskeita ohjeita vain siksi, että niitä rikotaan.
Lausumaa "Ellei käytettävän valuutan koodia ole erikseen määritelty, on oletusvaluutta euro (EUR <.>)" en ymmärrä. Käsittääkseni CLDR:n määrittelyssä erityisesti korostetaan, että rahamääriä ei koskaan saa sisäisesti käsitellä ja siirtää ilman tietoa rahayksiköstä. Ymmärtääkseni määrittelyssä ei edes ole mitään paikkaa oletusvaluutalle. Jos määritellään, miten valuutta tulostetaan silloin, kun valuutan koodia ei ole määritelty, niin tulostusasun ei tulisi vastata mitään todellista valuuttaa, ei varsinkaan yleisimmin käytettyä! Kysehän olisi virhetilanteesta, jossa tulosteen pitäisi vähintään kertoa, että jotain meni pieleen. (Edes merkki "¤" ei tähän kelpaisi.)
Epäjohdonmukaista on, että rahamäärän tulostusasu kerrotaan (otsikon "LUKUJEN ESITYS" alla!) muissa tapauksissa kuin suositelluimmassa. Onhan suositeltavinta esittää rahamäärä siten, että rahayksikkö ilmaistaan kirjoitettuna sanana, esimerkiksi "euroa". CLDR:ssä ei tietääkseni vielä ole määritelty, miltä pohjalta muodostetaan sellainen tulostusmuoto. On kuitenkin todennäköistä, että käytännössä tullaan käyttämään tulostusmuotoja, joissa käytetään CLDR:ään määriteltyjä valuuttojen nimiä.
Tämän takia asiasta tarvittaisiin erillinen varoitus, esimerkiksi
seuraavanlainen:
"Jos rahamäärä esitetään siten, että valuutta ilmaistaan sanalla tai
sanoilla, tulee suomen kielen sääntöjen mukaan käyttää valuutan nimestä
yksikön partitiivia (esim. '42 euroa'), luvun ollessa tasan yksi
kuitenkin
yksikön nominatiivia (esim. '1 euro'). Tämän takia ei ole hyväksyttävää
käyttää määriteltyjä valuuttojen nimiä sellaisinaan, taivuttamatta,
rahamääriä ilmaistaessa."
16.1.2006