perjantai 6. elokuuta 2010

Suomen kielen sanalista

Jos tarvitset listaa (kaikista?) suomenkielisistä sanoista, löydät semmoisen Kotimaisten kielten tutkimuskeskuksen sivuilta. Lista on xml-muodossa, jonka käsitteleminen voi olla ei-tietoteknisille ihmisille hieman hankalaa. Linuxin ja Macin käyttäjät voivat helposti pullauttaa sanalistasta "ylimääräiset härpäkkeet" pois (kuten newsseissä joku neuvoo), komento on
sed -ne 's,.*<s>\(.*\)</s>.*,\1,p' kotus-sanalista_v1.xml > kotus_sanat.txt

Pullautin tuon sanalistan siistittyyn muotoon (= tiedosto, jossa on yksi sana per rivi) ja laitoin verkkosivuilleni, ihan siltä varalta että joku tarvitsee sanalistan "nyt heti" ilman että haluaa ruveta säätämään. Tiedoston voit ladata täältä: kotus_sanat.txt. Sen jälkeen voit leikkiä vaikkapa anagrammigeneraattorilla :-).

16 kommenttia:

  1. Työkaveri teki tuota käyttävän tietokoneohjelman, joka ratkaisee sen tv-pelin, jossa muodostetaan sanoja annetuista kirjaimista, oikeat ratkaisut hetkessä. Vähän lisätienestiä. ;)

    VastaaPoista
  2. Ei ole kaikkia sanoja, esimerkiksi sana blogi puuttuu.

    VastaaPoista
  3. Tuo sanalista on vuodelta 2006. Uudesta Kielitoimiston sanakirjasta (2.0) blogi löytyy. Toinen hyvä esimerkki on läppäri. Sekin puuttuu tuosta listasta.

    VastaaPoista
  4. Hyvä lista. Koska en osaa ohjelmoida, en olisi osannut "puhdistaa" tuota listaa, koska en käsitä niistä jutuista höykäsen pöläystä. Olen itse puuhaillut pienempien sanalistojen kanssa, tämä on mammutti. Tallensin sen heti. Aion linkittää tähän blogiin. Lista olisi samalla sanakirja, joka toimii klikkaamalla ja käyttää Googlen sanakirjaa, jos se on html-muodossa. Haluaisin kokeilla laittaa sen sellaiseksi. En osaa tätä puolta, mutta luulen, että jos listan saisi yhteen pötköön, siis ilman rivinvaihtoja, se jopa mahtuisi blogiin.
    Jos sinulla on mahdollisuus tehdä sellainen, siis ilman rivinvaihtoja ja laittaa samalla tavalla ladattavaksi. Tuo yksipalstainen on tosi hyvä sekin, omassa wordissa tai vastaavassa se toimii sutjakasti. Olen harrastanut sellaista Text Mechanic-arpomiskonetta, johon juuri pitää olla rivimuodossa. Sanojen käsittelyohjelmasta on helppo poimia lyhyempi tai pidempi pätkä.
    Mutta jos tosiaan haluaisi laittaa koko listan nettiin, sanojen pitäisi olla peräkkäin, ilman rivinvaihtoja. En tiedä kuinka hitaasti tuollainen mastodonttilista toimisi. Netissä voisi myös hakea kuvia sanoille uudella kuvahaulla ja tietysti kaikkea muutakin.
    Minun blogini on tämä: http://saaressa.blogspot.com/
    Tulossa on postauksia juuri sanalistoista. Olen yrittänyt tehdä resurssipankkia suomen opetukseen esim. ulkomaalaisille. JM

    VastaaPoista
  5. Outoa, jostain syystä kommentti on hävinnyt. Eli ylläoleva postaukseni oli vastaus tähän:

    Hyvä lista. Koska en osaa ohjelmoida, en olisi osannut "puhdistaa" tuota listaa, koska en käsitä niistä jutuista höykäsen pöläystä. Olen itse puuhaillut pienempien sanalistojen kanssa, tämä on mammutti. Tallensin sen heti. Aion linkittää tähän blogiin. Lista olisi samalla sanakirja, joka toimii klikkaamalla ja käyttää Googlen sanakirjaa, jos se on html-muodossa. Haluaisin kokeilla laittaa sen sellaiseksi. En osaa tätä puolta, mutta luulen, että jos listan saisi yhteen pötköön, siis ilman rivinvaihtoja, se jopa mahtuisi blogiin.

    Jos sinulla on mahdollisuus tehdä sellainen, siis ilman rivinvaihtoja ja laittaa samalla tavalla ladattavaksi. Tuo yksipalstainen on tosi hyvä sekin, omassa wordissa tai vastaavassa se toimii sutjakasti. Olen harrastanut sellaista Text Mechanic-arpomiskonetta, johon juuri pitää olla rivimuodossa. Sanojen käsittelyohjelmasta on helppo poimia lyhyempi tai pidempi pätkä.
    Mutta jos tosiaan haluaisi laittaa koko listan nettiin, sanojen pitäisi olla peräkkäin, ilman rivinvaihtoja. En tiedä kuinka hitaasti tuollainen mastodonttilista toimisi. Netissä voisi myös hakea kuvia sanoille uudella kuvahaulla ja tietysti kaikkea muutakin.

    Minun blogini on tämä: http://saaressa.blogspot.com/
    Tulossa on postauksia juuri sanalistoista. Olen yrittänyt tehdä resurssipankkia suomen opetukseen esim. ulkomaalaisille. JM

    VastaaPoista
  6. Kiitokisia oikein paljon, minusta tuo oli hieno teko ei vain minulle vaan toivottavasti monelle suomen opiskelijalle.JM

    VastaaPoista
  7. Lista toimii hyvin sanakirjana, sanoilla voi hakea kaikenlaista kuvista alkaen.

    Jaoin listan kahteen blogimerkintään, mutta on siinäkin melkoinen lista. Julkaisen sen reilun viikon kuluttua. JM

    VastaaPoista
  8. Joopa... Joo...
    Onhan niitä nuita sanakirijoja ja mitä ne lienekhhään.
    Mie se ko' *Jorisen* tuone 'lokhiini' tällä Kemijoen varren murtheela, niin joskus tullee milheen - misthään sen sais semmosen 'pumaskan' josta seleviäis, että kirijotankhaan mie ny' aivan oikijjaa murretta, vai onkhaan tämä sitä 'mitä-sattuu-sekotusta' - sitä'hän son...!?

    VastaaPoista
  9. Netistä ei taida löytyä suoraan, mutta näköjään on tällainen: "Suomen murteiden sana-arkisto"

    http://www.kotus.fi/index.phtml?s=194

    ja "Suomen murteiden sanakirja"

    http://www.kotus.fi/index.phtml?s=195

    Murresanakirjoja (perinteisenä paperikirjana) lienee toimitettu useita. Itse muistan lapsuudesta rauman kielen sanakirjan, jonka nimi on "Sillail oikke". Googlaamalla löytynee lisää murresanakirjoja.

    VastaaPoista
  10. Kyllä löyty... *Kiitän ja Pokkaan*
    Minun kyllä häätyy sanua - tuo kielen kirijottaminen - meinaan - Suomen - on ollu aina ko' 'tervan-juontia'. Kirijota sitten 'oikein' nuila mutheila...!
    Sieltä löytyy milijoonia sanoja - ei muuta-ko'-opiskelheen...!
    Täytyy kyllä 'vettää länket kauhlaan'- ja yrittää tulla toihmeen jollaki laila tällä vanhala systeemilä: älä paa d-kirijainta mihinkhään - paa h-kirijanin joka paikhaan - ja sillä laila.
    Son kumma - sitä puhhuu tuota murrettaa 'vanhasta muistista ko' tyhyjää vain - mutta kirijotappa sillä ...
    Syntymästhään asti sitä on puhunu sujuvasti - mutta murtheela kirijotettu on ko' tavvais jotaki ulukomaan kieltä...?
    Kemijoela aikoihnaan 'Eela' julukasi kirijan *Kosken Kohinaa* Kemijoen varren murtheela. Jo on vaikijjaa luettavvaa...!
    Mie ko' oon 'vanha valokuvvaaja' - olen hyvilhään siittä - ettei valokuvia voi esittää murtheela.
    Muuten aattelin sanua - nuo murtheekki taitavat olla ehtoo puolela. Niitten harrastajat ja puhujat häviävät. Statin puhumisesta ei oo väliä...!
    Mie en ylleensä vanhana miehenä essiinny nimettömänä.
    Tuosa eellisesä kommentisa tuli 'lipsaus'.
    Kyllähän täsä 'netisä' saa ollakki joskus 'tarkkanaki'..!

    VastaaPoista
  11. Täältä löytyy Kotuksen sanalista kahtena blogimerkintänä. Jos asentaa OTT-työkalupalkin, se on samalla sanakirja. Sanoilla voi tehdä kaikenlaisia hakuja.

    VastaaPoista
  12. "Outoa, jostain syystä kommentti on hävinnyt."

    Nyt mysteeri (= kommentistasi tuli ilmoitus sähköpostiini, mutta sitä ei näkynyt blogissa) selvisi. Kun kirjauduin tänään Bloggerin hallintapaneeliin, siellä oli ilmoitus:
    "Olemme ottaneet käyttöön automaattisen roskapostitunnistuksen kommenttien suhteen. Roskapostilaatikkoon joutuneet kommentit kannattaa tarkastaa aika ajoin. Lue lisätietoja Bloggerin roskapostitunnistuksesta tai ilmoita ongelmista. Kommenttien helpompaa hallinnointia varten olemme luoneet uuden Kommentit-välilehden, jonka kautta pääset niihin käsiksi."

    Eli Google on elokuun alkupuolella lisännyt tuollaisen suodatuksen, mutta nyt vasta älysi kertoa siitä. Ja siellä roskapostikansiossahan kommenttisi oli.

    VastaaPoista
  13. Kuuntelen parastaa aikaa Turku Radiota ja aiheena on imago ja tavaramerkki.
    Slangi-lainasana "brändi" on tähän mennessä
    mainittu yli sata kertaa ! Kaikki adjektiivit
    on suomalaisen (joka luulee tietävänsä enemmän
    kun muut) mukaan brändiä ! Typerää suomen kielen
    käyttöä radiossa.

    VastaaPoista
  14. Itse pistin tuon samantien irc-bottiini, joka lukee tekstitiedostoista randomilla aina jonkun rivin. Nyt sitä voi sitten komennolla !sanasuomi pyytää arpomaan jonkun tuon listan sanoista :)

    VastaaPoista
  15. Itsekin latasin tuon suomen kielen sanalistan XML -tiedostona viralliselta Kotuksen sivulta. Teen vapaa -ajalla Javalla pieniä ohjelmia, ja kielellä leikittely on hauskaa. Kiva, että Kotus julkaisee vapaalla lisenssillä sanalistaa XML -muodossa.

    VastaaPoista