České CC0 slovníky

O slovníku

Ve zkratceKe staženíPotřebujete něco jiného?Jak slovník vypadá a jak vzniklJak slovník vylepšitProč se píše o českých slovnících, když je tu jediný?Kontakt

Ve zkratce

  • český slovník kontroly pravopisu s licencí umožňující libovolné využití,

  • k vyzkoušení jako rozšíření pro kancelářský balík LibreOffice a na zdejším webu,

  • experimentální, sice s obsáhlou slovní zásobou, ale s výraznými systematickými mezerami,

  • slova lze snadno doplňovat prostřednictvím Wikidat.

Ke stažení

Potřebujete něco jiného?

Jak slovník vypadá a jak vznikl

Slovník spojuje data ze dvou zdrojů:

  • Českého tvaroslovného slovníku, který vytvořili na Masarykově univerzitě v Brně na základě jazykového korpusu; zveřejnili ho v únoru 2019.

  • Slovníkových hesel pro český jazyk zadaných do Wikidat, databáze původně vytvořené pro potřeby Wikipedie. Obsah do Wikidat přidává a spravuje množství dobrovolných přispěvatelů. Slovníková data v nich byla zavedena během roku 2018.

Oba zdroje jsou zveřejněny pod licencí odpovídající licenci Creative Commons CC0, díky níž je můžeme využívat pro jakékoliv účely.

Drtivá většina slov pochází z Tvaroslovného slovníku, podíl tvarů získaných z Wikidat se pohybuje v řádu procent. Obrovská výhoda Wikidat však spočívá v tom, že do nich můžeme snadno zadávat nová slova, jejich tvary a další informace (kategorie, příznaky apod.). A co víc: odhlédneme-li od tohoto konkrétního slovníku, takto budovaná databáze češtiny, na jednom místě a společnými silami, má potenciál stát se na poli slovníků tím, čím se stala Wikipedie mezi encyklopediemi.

Slovník je nutné považovat za experimentální, nevhodný pro běžné nasazení. Přestože Tvaroslovný slovník vzešel z analýzy celé slovní zásoby, zveřejněny byly jen tři slovní druhy: podstatná a přídavná jména a slovesa. Wikidata, kde nalezneme slovní druhy bez omezení, jsou zase výsledkem mravenčí práce jednotlivců a zatím pokrývají jen malou část jazyka. Při zkoušení slovníku si záhy všimnete i dalších systematických nedostatků: chybí stupňovaná přídavná jména a vlastní jména, zahrnuty jsou některé nespisovné tvary a podobně.

Formátem je široce používaný Hunspell. Zdrojové kódy slovníku jsou k dispozici na GitLabu, k vyzkoušení je připraveno rozšíření pro LibreOffice a v repozitáři nalezneme také doplněk pro software Mozilly, například Firefox.

Kontrola pravopisu pomocí rozšíření pro LibreOffice

Jak slovník vylepšit

Slovníku zbývá urazit značný kus cesty k tomu, aby byl spolehlivý – vlastními silami ho ale může zdokonalit každý z nás!

Chybějící slovo

Scházející slovo snadno přidáte do Wikidat (tam navíc bude užitečné nejen pro tento slovník, ale pro kohokoliv, kdo s Wikidaty pracuje):

  1. Ujistěte se, že se slovo na Wikidatech ještě nenachází, např. pomocí
    vyhledávání na stránce Ordia.

  2. Vytvořte nové slovo, v terminologii Wikidat „lexém“, pomocí příslušné stránky nebo použijte přívětivější šablony; ty jsou však dostupné jen pro některé české slovní druhy.

Pokud je potřeba doplnit nové tvary k již existujícímu základnímu tvaru, upravte stránku s lexémem, případně u šablon použijte volbu „Pokročilé“.

K lexémům můžete kromě tvarů doplňovat řadu informací jako významy (s propojením na položku „skutečných“, tj. nikoliv slovníkových Wikidat), výslovnost, dělení slova, příznaky nebo odkazy na slova stejného či opačného významu.

V práci s lexémy vám pomůže nápověda Wikidat (převážně anglicky). Budete-li potřebovat radu nebo si chtít něco vyjasnit, využijte diskusi (obecnou k Wikidatům v češtině nebo ke slovníkovým datům v angličtině).

Mějte na paměti, že Wikidata mají nejvolnější možnou licenci, proto do nich nelze přebírat slova z jiných slovníků či zdrojů, ty mají v naprosté většině licenci omezenější! Nelze tedy využít ani data ze slovníku kontroly pravopisu pod licencí GNU GPL, který je aktuálně nejpoužívanějším svobodným slovníkem svého druhu (ale už léta ho nikdo neaktualizuje).

Nesprávné slovo

Nejdřív zkontrolujte, zda se nesprávné slovo nenachází na Wikidatech, a tam ho můžete případně upravit (například mu přiřadit příznak, že se jedná o nespisovný tvar). Pravděpodobně však bude pocházet z Tvaroslovného slovníku, v tom případě je řešením přidat slovo do seznamu zakázaných slov (blacklistu); to už vyžaduje práci s repozitářem.

Další možnosti

Obohatit Wikidata a vylepšit slovník můžeme i jinak. Také tyto činnosti vyžadují pokročilejší znalosti:

  • zadávání nových a úpravu stávajících lexémů by usnadnily nové šablony pro češtinu, schází namátkou šablona pro slovesa nebo stupňovaná přídavná jména,

  • hunspellový slovník je aktuálně tvořen prostým seznamem všech tvarů, přidání pravidel (vzorů) by nejen zmenšilo výsledný soubor, ale především by se tím do slovníku dostala informace o skloňování a časování,

  • některé lexémy by bylo možné vytvořit z položek Wikidat (například vlastní jména českých obcí),

  • díky stejné licenci lze do Wikidat vkládat data z Tvaroslovného slovníku, kvůli nespisovným a hovorovým tvarům by však import nemohl být plně automatický,

  • z Wikislovníku, jiného projektu se stejným obsahem jako slovníková data na Wikidatech, kvůli odlišné licenci data importovat nelze, pokud s tím nesouhlasí autoři – někteří však tak již učinili.

Proč se píše o českých slovnících, když je tu jediný?

U slov ve Wikidatech, odkud slovník přebírá data, lze uvádět různorodé informace. Ačkoliv jich tam je v současnosti poskrovnu, jednou z nich snad budeme moci vytvořit nejen slovník kontroly pravopisu, ale třeba také slovník dělení slov, synonym, antonym či výkladový slovník.

Kontakt

O slovník se stará tým, který lokalizuje do češtiny kancelářský balík LibreOffice. Napsat nám můžete do e-mailové konference na adresu lokalizace@cz.libreoffice.org (e-mail bude veřejně viditelný).