Wikislovník:Pod lípou: Porovnání verzí
Smazaný obsah Přidaný obsah
m →Wikislovník jako černá díra na strukturované informace: chybějící a přebývající slova |
→Wikislovník jako černá díra na strukturované informace: reakce na jednotlivé podněty, včetně nové nabídky svobodných dat pro češtinu |
||
Řádek 810:
Ani ten slavný en.wikt to (například v překladech) nemá o moc lepší. Snad akorát díky většímu počtu uživatelů s různou jazykovou základnou jsou překlady lépe pokryty podle jednotlivých významů. Ale jaká hrůza, názvy jazyků tam nejsou šablonou, ale natvrdo vypsány. Co když tam bude v některém jazyku překlep? Na en.wikt si totiž nevystačím se spoléháním se na t+, t-, tø, protože řada překladů dokonce vůbec není šablonovaná. A kdo mi zaručí, že některý ten překlad není zvandalizovaný. Při počtu hesel tam je dost nepravděpodobné, že zrovna někdo znalý zrovna narazí na plíživě zvandalizovaný obsah, takže to tam může přetrvávat roky. --[[Uživatel:Reaperman|Reaperman]] ([[Diskuse s uživatelem:Reaperman|diskuse]]) 28. 9. 2013, 21:28 (UTC)
:Děkuji vám za obsáhlou reakci, která mne jenom utvrdila v nadějích, které vkládám do Wikidat, a pokud to bude v mých silách, rád přispěji k integraci českého Wikislovníku do nich, jakmile to bude aktuální. Prosím pamatujte, že můj text výše nebyl míněn jako kritika Wikislovníku nebo jeho komunity, ale pouze jako reakce na žádost jednoho z editorů o vyjádření, proč ačkoliv aktivní wikipedista a počítačový lingvista nepřispívám do Wikislovníku a mám problémy už i jen s jeho využíváním.
:Děkuji vám i za shrnutí historie Wikislovníku. Pociťovanou nepřízeň tvůrců MediaWiki snad už brzy prolomí právě Wikidata, ale pak mne trochu zaráží, proč je už proti zatím jen plánům na jejich dobrovolné zavedení takový odpor na odkazované diskuzi - jako kdyby někteří wikislovníkáři vlastně žádnou pomoc nechtěli a byli spokojení s tím, na co jsou zvyklí. Trošku na technickou nótu si dovoluji upozornit, že zatímco substování šablony je nezvratný proces, běžně vloženou šablonu si lze nechat expandovat ("substovat") kdykoliv na požádání přes API, takže tabulku všech tvarů lze snadno získat a přitom v kódu mít jen šablonu s parametry a není třeba na straně vývojaře nic parsovat.
:Když píšete o českém Wikislovníku a nedostatku hesel, předpokládám, že máte na mysli především česká hesla. V tom vaši lítost nad nedostatkem zdrojů sdílím. Jinak už je tomu ale u jiných jazyků (které sem - z toho, jak je vystavěn celý projekt Wikislovníku) také patří - a v diskuzi výše šlo právě o příklad latiny, ke které zdroje jsou: minimálně anglický Wikislovník, který dosud jako jediný indexuje všechny tvary slov a o jehož imitaci zde se Martin Kotačka dlouhodobě záslužně snaží. A je podle mne smutné, že Martin musí vše kopírovat ručně (už jsem mu nabídl nějakou robotickou pomoc), že to musí vůbec kopírovat (v budoucnu by to snad mělo jít natahat vlastně jen robotickým založením prostých hesel s šablonou odkazující pro tvary do Wikidat) a že z toho pak po natáhání ještě vznikají ještě ne nejšťastněji strukturované informace (šablona tabulky je substována). Ono to možná nakonec vypadá spíš tak, jako kdybych konkrétně jeho odrazoval od toho, co dělá, ale poukazuje to myslím i obecněji na to, proč je bohužel práce na Wikislovníku dost často tak trochu zbytečná a aspoň z části asi i na to, proč Wikislovník tak obtížně získává nové přispěvatele. V tomto smyslu nelze nepodpořit ty z vás, kteří tady vytvářejí obsah, který jinde není dostupný (nebo není dostupný pod svobodnou licencí), ale i jejich práce by byla lépe zhodnocená, kdyby se už vše připravilo lépe na to, že jednou se jejich data budou dát přetáhnout do nějakého centrálního úložiště a naráz budou moci daty k češtině disponovat všechny Wikislovníky.
:Složitost editace slovníkových hesel je problém, kterého se asi tak snadno nezbavíme, bohužel. Buď vysvětlíte nováčkovi šablonu, nebo ho musíte přesně seznámit se strukturou a formátováním hesla (kde i každá jedna kurzíva nebo tečka může hrát pro další zpracování roli). Druhá cesta má tu nevýhodu, že ji lze nepozorností zkazit (zatímco šablona buď funguje, nebo nefunguje - víceméně).
:Opět připomínám, že mi primárně šlo o latinské vzory (které jsou poměrně dobře vžité a aktivitám Martina Kotačky i podle vyjádření Mildy stačí těch pár základních), ale určitě by šlo něco dělat i s těmi českými. Zmíněná dvojtisícovka vzorů byla minimálě jednou standardizována a k podstatnému jménu vzor snadno zjistíte [http://nlp.fi.muni.cz/projekty/wwwajka/WwwAjkaSkripty/morph-analyser.cgi?jazyk=0&slovo=medv%ECd&akce=3&kodovani=0 přes veřejně dostupnou aplikaci] (např. "medvěd" je vzoru "1363-slon"). Navíc si myslím, že by se šlo s informatiky z FI MU určitě dohodnout i na nějaké další spolupráci, vždyť přece oni mají jako občasní "vycucávači" o kvalitu vašich dat také zájem. Pokud byste s tím skutečně chtěli něco dělat, mohu se dokonce pokusit něco v tomto směru sám vyjednat (mimochodem, čerstvě dokonce nabízejí [http://nlp.fi.muni.cz/ma/free.html na milion slovních tvarů pod CC-BY-SA] - že by výzva pro Wikislovník?). A ty tisíce jsou samozřejmě hlavně podvzory, zatímco základních vzorů zůstává pořád jenom těch pár školních, takže by se daly šablonou třeba i zapisovat/zobrazovat ty informace obě dvě. Popis těchto "brněnských vzorů" (i když ne přímo jejich seznam) najdete v [http://nlp.fi.muni.cz/poc_lingv/pala_zprac.pdf#47] (str. 47).
:I problém plíživého vandalismu by pomohla řešit Wikidata, protože by se všechny tvary svahilských slov zakládaly tam (a tady jenom hesla s voláním příslušné obecné šablony tahající tvary z Wikidat), no a na Wikidatech by se určitě už pár mluvčích svahilštiny ke vzájemné kontrole sešlo, tím spíše, že by stejná data zřejmě jako svá primární používali i přímo redaktoři svahilského Wikisloníku. Znásobování práce nad stejnými daty napříč všemi jazykovými verzemi Wikislovníku mi od začátku připadalo asi jako vůbec největší nelogičnost/zbytečnost tohoto projektu, i když teď po jeho bližším průzkumu už aspoň trochu chápu, že k tomu mohou být i nějaké aspoň trochu legitimní důvody (ale i tak pořád jen k samé existenci jazykových verzí, ale nikoliv už ke znásobování stejných dat).
:Nakonec se ještě zopakuji a poděkuji za podnětné reakce. Snad tahle diskuze nevyzní úplně do prázdna a třeba se nám podaří alespoň se dobře připravit na očekávané budoucí změny nebo třeba i dosáhnout nějakého okamžitějšího užitečného posunu už teď. [[Uživatel:Blahma|Blahma]] ([[Diskuse s uživatelem:Blahma|diskuse]]) 29. 9. 2013, 01:54 (UTC)
|