sed -ne 's,.*<s>\(.*\)</s>.*,\1,p' kotus-sanalista_v1.xml > kotus_sanat.txt
Pullautin tuon sanalistan siistittyyn muotoon (= tiedosto, jossa on yksi sana per rivi) ja laitoin verkkosivuilleni, ihan siltä varalta että joku tarvitsee sanalistan "nyt heti" ilman että haluaa ruveta säätämään. Tiedoston voit ladata täältä: kotus_sanat.txt. Sen jälkeen voit leikkiä vaikkapa anagrammigeneraattorilla :-).
Työkaveri teki tuota käyttävän tietokoneohjelman, joka ratkaisee sen tv-pelin, jossa muodostetaan sanoja annetuista kirjaimista, oikeat ratkaisut hetkessä. Vähän lisätienestiä. ;)
VastaaPoistaEi ole kaikkia sanoja, esimerkiksi sana blogi puuttuu.
VastaaPoistaTuo sanalista on vuodelta 2006. Uudesta Kielitoimiston sanakirjasta (2.0) blogi löytyy. Toinen hyvä esimerkki on läppäri. Sekin puuttuu tuosta listasta.
VastaaPoistaHyvä lista. Koska en osaa ohjelmoida, en olisi osannut "puhdistaa" tuota listaa, koska en käsitä niistä jutuista höykäsen pöläystä. Olen itse puuhaillut pienempien sanalistojen kanssa, tämä on mammutti. Tallensin sen heti. Aion linkittää tähän blogiin. Lista olisi samalla sanakirja, joka toimii klikkaamalla ja käyttää Googlen sanakirjaa, jos se on html-muodossa. Haluaisin kokeilla laittaa sen sellaiseksi. En osaa tätä puolta, mutta luulen, että jos listan saisi yhteen pötköön, siis ilman rivinvaihtoja, se jopa mahtuisi blogiin.
VastaaPoistaJos sinulla on mahdollisuus tehdä sellainen, siis ilman rivinvaihtoja ja laittaa samalla tavalla ladattavaksi. Tuo yksipalstainen on tosi hyvä sekin, omassa wordissa tai vastaavassa se toimii sutjakasti. Olen harrastanut sellaista Text Mechanic-arpomiskonetta, johon juuri pitää olla rivimuodossa. Sanojen käsittelyohjelmasta on helppo poimia lyhyempi tai pidempi pätkä.
Mutta jos tosiaan haluaisi laittaa koko listan nettiin, sanojen pitäisi olla peräkkäin, ilman rivinvaihtoja. En tiedä kuinka hitaasti tuollainen mastodonttilista toimisi. Netissä voisi myös hakea kuvia sanoille uudella kuvahaulla ja tietysti kaikkea muutakin.
Minun blogini on tämä: http://saaressa.blogspot.com/
Tulossa on postauksia juuri sanalistoista. Olen yrittänyt tehdä resurssipankkia suomen opetukseen esim. ulkomaalaisille. JM
Tässä vielä yleisön pyynnöstä ilman rivinvaihtoja.
VastaaPoistaOutoa, jostain syystä kommentti on hävinnyt. Eli ylläoleva postaukseni oli vastaus tähän:
VastaaPoistaHyvä lista. Koska en osaa ohjelmoida, en olisi osannut "puhdistaa" tuota listaa, koska en käsitä niistä jutuista höykäsen pöläystä. Olen itse puuhaillut pienempien sanalistojen kanssa, tämä on mammutti. Tallensin sen heti. Aion linkittää tähän blogiin. Lista olisi samalla sanakirja, joka toimii klikkaamalla ja käyttää Googlen sanakirjaa, jos se on html-muodossa. Haluaisin kokeilla laittaa sen sellaiseksi. En osaa tätä puolta, mutta luulen, että jos listan saisi yhteen pötköön, siis ilman rivinvaihtoja, se jopa mahtuisi blogiin.
Jos sinulla on mahdollisuus tehdä sellainen, siis ilman rivinvaihtoja ja laittaa samalla tavalla ladattavaksi. Tuo yksipalstainen on tosi hyvä sekin, omassa wordissa tai vastaavassa se toimii sutjakasti. Olen harrastanut sellaista Text Mechanic-arpomiskonetta, johon juuri pitää olla rivimuodossa. Sanojen käsittelyohjelmasta on helppo poimia lyhyempi tai pidempi pätkä.
Mutta jos tosiaan haluaisi laittaa koko listan nettiin, sanojen pitäisi olla peräkkäin, ilman rivinvaihtoja. En tiedä kuinka hitaasti tuollainen mastodonttilista toimisi. Netissä voisi myös hakea kuvia sanoille uudella kuvahaulla ja tietysti kaikkea muutakin.
Minun blogini on tämä: http://saaressa.blogspot.com/
Tulossa on postauksia juuri sanalistoista. Olen yrittänyt tehdä resurssipankkia suomen opetukseen esim. ulkomaalaisille. JM
Kiitokisia oikein paljon, minusta tuo oli hieno teko ei vain minulle vaan toivottavasti monelle suomen opiskelijalle.JM
VastaaPoistaLista toimii hyvin sanakirjana, sanoilla voi hakea kaikenlaista kuvista alkaen.
VastaaPoistaJaoin listan kahteen blogimerkintään, mutta on siinäkin melkoinen lista. Julkaisen sen reilun viikon kuluttua. JM
Joopa... Joo...
VastaaPoistaOnhan niitä nuita sanakirijoja ja mitä ne lienekhhään.
Mie se ko' *Jorisen* tuone 'lokhiini' tällä Kemijoen varren murtheela, niin joskus tullee milheen - misthään sen sais semmosen 'pumaskan' josta seleviäis, että kirijotankhaan mie ny' aivan oikijjaa murretta, vai onkhaan tämä sitä 'mitä-sattuu-sekotusta' - sitä'hän son...!?
Netistä ei taida löytyä suoraan, mutta näköjään on tällainen: "Suomen murteiden sana-arkisto"
VastaaPoistahttp://www.kotus.fi/index.phtml?s=194
ja "Suomen murteiden sanakirja"
http://www.kotus.fi/index.phtml?s=195
Murresanakirjoja (perinteisenä paperikirjana) lienee toimitettu useita. Itse muistan lapsuudesta rauman kielen sanakirjan, jonka nimi on "Sillail oikke". Googlaamalla löytynee lisää murresanakirjoja.
Kyllä löyty... *Kiitän ja Pokkaan*
VastaaPoistaMinun kyllä häätyy sanua - tuo kielen kirijottaminen - meinaan - Suomen - on ollu aina ko' 'tervan-juontia'. Kirijota sitten 'oikein' nuila mutheila...!
Sieltä löytyy milijoonia sanoja - ei muuta-ko'-opiskelheen...!
Täytyy kyllä 'vettää länket kauhlaan'- ja yrittää tulla toihmeen jollaki laila tällä vanhala systeemilä: älä paa d-kirijainta mihinkhään - paa h-kirijanin joka paikhaan - ja sillä laila.
Son kumma - sitä puhhuu tuota murrettaa 'vanhasta muistista ko' tyhyjää vain - mutta kirijotappa sillä ...
Syntymästhään asti sitä on puhunu sujuvasti - mutta murtheela kirijotettu on ko' tavvais jotaki ulukomaan kieltä...?
Kemijoela aikoihnaan 'Eela' julukasi kirijan *Kosken Kohinaa* Kemijoen varren murtheela. Jo on vaikijjaa luettavvaa...!
Mie ko' oon 'vanha valokuvvaaja' - olen hyvilhään siittä - ettei valokuvia voi esittää murtheela.
Muuten aattelin sanua - nuo murtheekki taitavat olla ehtoo puolela. Niitten harrastajat ja puhujat häviävät. Statin puhumisesta ei oo väliä...!
Mie en ylleensä vanhana miehenä essiinny nimettömänä.
Tuosa eellisesä kommentisa tuli 'lipsaus'.
Kyllähän täsä 'netisä' saa ollakki joskus 'tarkkanaki'..!
Täältä löytyy Kotuksen sanalista kahtena blogimerkintänä. Jos asentaa OTT-työkalupalkin, se on samalla sanakirja. Sanoilla voi tehdä kaikenlaisia hakuja.
VastaaPoista"Outoa, jostain syystä kommentti on hävinnyt."
VastaaPoistaNyt mysteeri (= kommentistasi tuli ilmoitus sähköpostiini, mutta sitä ei näkynyt blogissa) selvisi. Kun kirjauduin tänään Bloggerin hallintapaneeliin, siellä oli ilmoitus:
"Olemme ottaneet käyttöön automaattisen roskapostitunnistuksen kommenttien suhteen. Roskapostilaatikkoon joutuneet kommentit kannattaa tarkastaa aika ajoin. Lue lisätietoja Bloggerin roskapostitunnistuksesta tai ilmoita ongelmista. Kommenttien helpompaa hallinnointia varten olemme luoneet uuden Kommentit-välilehden, jonka kautta pääset niihin käsiksi."
Eli Google on elokuun alkupuolella lisännyt tuollaisen suodatuksen, mutta nyt vasta älysi kertoa siitä. Ja siellä roskapostikansiossahan kommenttisi oli.
Kuuntelen parastaa aikaa Turku Radiota ja aiheena on imago ja tavaramerkki.
VastaaPoistaSlangi-lainasana "brändi" on tähän mennessä
mainittu yli sata kertaa ! Kaikki adjektiivit
on suomalaisen (joka luulee tietävänsä enemmän
kun muut) mukaan brändiä ! Typerää suomen kielen
käyttöä radiossa.
Itse pistin tuon samantien irc-bottiini, joka lukee tekstitiedostoista randomilla aina jonkun rivin. Nyt sitä voi sitten komennolla !sanasuomi pyytää arpomaan jonkun tuon listan sanoista :)
VastaaPoistaItsekin latasin tuon suomen kielen sanalistan XML -tiedostona viralliselta Kotuksen sivulta. Teen vapaa -ajalla Javalla pieniä ohjelmia, ja kielellä leikittely on hauskaa. Kiva, että Kotus julkaisee vapaalla lisenssillä sanalistaa XML -muodossa.
VastaaPoista