Wikislovník:Pod lípou: Porovnání verzí

Smazaný obsah Přidaný obsah
Blahma (diskuse | příspěvky)
Řádek 749:
P.S.
Zkusím to zformulovat ještě jinak: opravdu ony dvě snadno odstranitelné chyby a snad i jakási potřeba ''vychovávat'' nezbedného spolueditora váží více než přítomnost/nepřítomnost <small>(troufnu si říci, relativně kvalitně zpracovaného)</small> užívaného českého výrazu v našem projektu?
 
== Wikislovník jako černá díra na strukturované informace ==
 
:''Tato diskuse sem byla přesunuta z [[Diskuse s uživatelem:Martin Kotačka#Přízvuky v latině]]. [[Uživatel:Blahma|Blahma]] ([[Diskuse s uživatelem:Blahma|diskuse]]) 28. 9. 2013, 14:14 (UTC)''
 
Zdravím (a omlouvám se předem za svůj poněkud rozsáhlý příspěvek, ve kterém jsem byl požádán pokusit se vystihnout v souvislosti s touto diskuzí své hlavní důvody, proč jako počítačový lingvista nedovedu využívat pro další práci Wikislovník tak, jak by si to on zasloužil). Vkládání deklinačních šablon (a jakýchkoliv jiných vůbec) pomocí substituce má totiž základní problém: Při takovém vkládání se ztratí původní informace, ze které autor článku vycházel. V případě Martinovy ukázky jde o vzor, podle kterého se slovo "munimentum" skloňuje. Nikde nezůstane napsáno, že je podle vzoru "verbum", přičemž na nauce o vzorech (a memorování jejich deklinačních či konjugačních tabulkách) je naše soudobá výuka latiny založena. Obdobně to ostaně funguje i u jiných jazyků. Za absence té informace (proč ji ale v první řadě vůbec schovávat?) jsem si musel vypomoct ruční analýzou všech koncovek s tím, co znám z hlavy nebo co jsem si našel mezi šablonami či na anglickém Wikislovníku (a představte si, jak složitá taková orientace bude, pokud nepůjde o 12 tvarů substantiva, ale o nějaké složité sloveso s mnoha tabulkami), nebo se dá ještě řídit informací nad tabulkou, která uvádí "rod střední (''neutrum''), 2. deklinace (o-kmeny)". Proč to ale prosím vás uvádí jen jako textovou informaci, jako dvě položky seznamu, bez ladu a skladu, jejichž místo ani formát nejsou nijak předepsány a zdánlivě s tou šablonou nijak nesouvisí? Jak je zajištěna integrita dat? Kdo mi zaručí, že k takovému heslu někdo (ať už omylem nebo vandal) nenapíše třeba "rod mužský (''maskulinum''), 3. deklinace"?
 
A je v každém okamžiku zaručeno, že všechny tyhle textové informace (které bych já hned převedl na šablony) mají jednotný formát? Možná sice původně vznikají nějakou substitucí (hledal jsem dlouho, ale nepodařilo se mi najít, jestli se i celé latinské heslo vytváří substitucí, nebo se prostě zkopíruje a upraví z jiného existujícího hesla - to ukazuje, že používání substituce navíc znesnadňuje orientaci novým přispěvatelům, kteří z hotových stránek nedovedou odvodit, jak vznikly a jak by tedy mohli oni sami založit novou podobnou, resp. je to navádí k zakládání nových kopírováním, což není vhodné nebo je minimálně zbytečně zdlouhavé), ale jakékoliv opravy po substituci už pak každopádně probíhají přímo ve výsledném kódu, takže když třeba při nějaké manipulaci s heslem přepíšu (opět ať už schválně nebo třeba v rámci nějaké legitimní opravy) ty informace novými v nějaké nestandardní podobě (např. "střední rod" a ne "rod střední", nebo zapomenu na "o-kmeny", nebo popíšu vícerodá substantiva jiným způsobem, než jste zde zvyklí), hned tak vytvořím informaci, která je sice pro čtenáře dál pochopitelná (a dost možná stále úplně pravdivá), ale pro jakékoliv další hromadnější počítačové zpracování už pak naprosto nepoužitelná.
 
A právě to, že Wikislovník je orientován primárně na čtenáře a nepomýšlí na strojové zpracování (tj. je psán primárně ve wikikódu a šablony v něm, a zvláště tady v českém, vlastně jen jednorázově usnadňují editorům práci s vypisováním schémat), jej velkou měrou diskvalifikuje z většího strojového využití. Jak rád bych jako tvůrce počítačově-lingvistických aplikací využíval data z Wikislovníku!
 
První překážkou je už nutnost, muset si před napsáním parseru, který by mi vytahal z Wikislovníku data, zvolit jednu jeho konkrétní jazykovou verzi (proč ale prosím vás Wikislovník vůbec od počátku lexikografickou práci na každém jazyce dělá počet jazyků -krát? - tj. musím si nejprve vůbec vybrat, které z vydání Wikislovníku má latinská slova nejúplněji a nejvhodněji pokrytá... na něco jako Wikidata se mělo myslet ještě před vznikem Wikislovníku, protože by se tak všem strašně usnadnila práce a ušetřil čas - články nelze kopírovat, ale informace o slovech jsou z velké části "mezinárodní").
 
A druhým nedostatkem je pak právě zkušenost, že snaha o úspěšné využití zdroje se obvykle zasekne na výjimkách ve struktuře dat, které sice tvoří jen poměrně malou část celku, ale za to je jich tolik různorodých, že jejich pokrytí (typicky vyžadující množství manuálních oprav či složité programování detekce a ošetření výjimek) velmi znepříjemňuje, pokud to vůbec úplně neznemožňuje. A celá myšlenka muset parsovat text, abych z něj zpět získal informace, které byly jednou vloženy jako původně strukturované, je z pohledu jakéhokoliv dalšího automatického zpracování (nebo třeba i prostého vyhledávání - pokusil jsem se nyní např. vyhledat všechna latinská substantiva stejného typu jako "munimentum" a neuspěl jsem) zvrácená: Proč zde např. existuje - což je dobře - šablona {{Šablona|n}} (vypisující "<abbr class="genus" title="neutrum (střední rod)">s</abbr>"), ale podobná věc už neexistuje pro výpis onoho "rod střední (''neutrum'')"?
 
Na konec ještě jeden příklad: V rámci evropského projektu vedeného Masarykovou univerzitou brzy začne vývoj mnohojazyčného bezplatného internetového kurzu češtiny pro cizince, jehož důležitou součástí bude samozřejmě i mnohojazyčný překladový slovník. Zdálo by se být ideální ušetřit při jeho tvorbě veřejné prostředky, nevynalézat znovu kolo a využít co největší měrou dat již dostupných zde na Wikislovníku, samozřejmě s uvedením licence apod., což by tedy bylo zároveň i skvělou reklamou na Wikislovník. Jenže musím předem říct, a mrzí mne to, že raději budeme spolupracovat s počítačovými lingvisty a využijeme jejich data, ačkoliv třeba ne tak snadno dostupná, se složitějším licencováním apod. To proto, že data z Wikislovníku bych si musel nejprve sám složitě extrahovat (není divu, že to dosud více či méně úspěšně bylo provedeno pouze u několika málo jazyků - pátrání např. po seznamu všech slovních tvarů s přiřazením k nim jejich základních tvarů podle Wikislovníku ukáže k obecnému překvapení pramálo výsledků, přitom na Wikislovníku všechny tyto informace jsou - jenže ouha, v substovaných tabulkách, pro každý cílový jazyk jinak a taky v každé jazykové verzi Wikislovníku jinak). A také když už tam ty informace najdu, tak jejich nedostatečně formální struktura (srozumitelná pouze na pohled čtenáři, ale nikoliv už stroji) často znemožňuje jakékoliv jejich další zpracování a použití. Jako příklad si vezměme heslo [[pes]]: Pokud bych si chtěl z článku vytáhnout překlady toho slova do jiných jazyků, jdu se svým programem do sekce "čeština" (proč to není <nowiki>{{čeština}}</nowiki>, aneb kdo mi zaručí, že tam v tu chvíli, kdy data zpracovávám, nestojí zrovna třeba "český jazyk" a jsem jako programátor nahraný?) a tam prohlížím podsekci "překlady". Z ní by si zjevně šlo už prostě jen vytáhnout druhý a třetí parametr ode všech volání šablony {{Šablona|P}} a dostal bych dvojice jazyk-překlad. Jenže ouha, ty překlady jsou rozděleny do tří částí (každá v šabloně {{Šablona|Překlady}}), lišících se významem! Význam je popsán slovy (to ostatně moc líp udělat nejde, ani strojově). Takže bych na základě této informace vytvořil ve své databázi pro slovo "pes" tři významy a tyto významy blíže popsal. Jsou přece vypsány v sekci "význam"... Jenže ouha: Tam je významů za prvé šest (nikoliv tři), za druhé chybí jakékoliv provázání mezi "významy z překladů" a "významy v sekci významy" (i když alespoň pořadí tentokrát sedí) a za třetí jsou ty významy popsány v každé ze sekcí trochu, a někdy i dost podstatně jinak (u překladů: "zlý člověk" vs. u významů: "nedobrý, krutý člověk"), a jak si tedy mám být dál jistý, že jde pořád o jeden a ten samý význam, a který z popisů pak do své databáze vybrat (jeden, druhý, oba...?). Prostě hned u psa bych jako programátor zkrachoval, a nebo v lepším případě vydal výsledky jen velmi nepřesné a/nebo velmi omezené... Wikislovník se mi proto z mého pohledu jeví jako černá díra, do které lidé sypou strukturované informace, které z něj po vložení pak už nikdy nelze v původní podobě získat zpět. Jediné, co zůstává, je víceméně textové a jen pro člověka (snad) srozumitelné "povídání" o slovech. I proto bych do takového projektu sám za sebe nikdy nemohl přispívat a nepřispívám, a i proto se naopak tolik raduji ze vzniku Wikidat, která snad konečně budou lékem na "strukturovanou wiki" a která dovedou všechny naše wikiprojekty posunout v oblasti znovuvyužitelnosti mílovými kroky dopředu. Není proto divu, že se právě v těchto dnech o podobném postupu [[:wikidata:Wikidata:Wiktionary|na Wikidatech hovoří]] i v souvislosti s Wikislovníkem, což mne velice těší. [[Uživatel:Blahma|Blahma]] ([[Diskuse s uživatelem:Blahma|diskuse]]) 28. 9. 2013, 12:31 (UTC)
: Myslím, že by bylo vhodné tento příspěvek přesunout spíše [[Wikislovník:Pod lípou|pod lípu]], protože kolem toho bude jistě delší diskuse, tak abychom nespamovali zdejší uživatelskou diskusi.<br />{{Uživatel:Danny B./podpis}} 28. 9. 2013, 13:23 (UTC)
:Hmmmm... tak to já Wikislovník chápu jako výpomoc jednoho člověka druhému. Nikdy jsem to nebrala jako databázi "zadara" na vycucávání dat (to už mi lehounce zavání parazitismem). Jeden Wikislovník pro celý svět je ideál, který tvrdě naráží na množství radikálních wikislovníkářů na jednotlivých národních mutacích, kteří mají často velmi odlišné názory na jednu věc :). --[[Uživatel:Dubicko|Dubicko]] ([[Diskuse s uživatelem:Dubicko|diskuse]]) 28. 9. 2013, 13:25 (UTC)
::S návrhem na přesun souhlasím a rád přesunu. Teď k tomu ještě čtu diskuzi na Wikidatech a hlavně sekce [[:wikidata:Wikidata_talk:Wiktionary#Why.3F]] ukazuje, že jsou podstatné rozdíly v tom, kdo a jak vidí přínos Wikislovníku ve spíše textové resp. spíše strukturované formě. A zjevně je zde i problém v chápání významu svobodné licence: jakési "vycucávání zadara" (rozuměj: za uvedení zdroje a zpřístupnění odvozených dat pod stejnou licencí opět všem k "vycucávání zadara", což není málo a jde vlastně spíš o jakési "já teď pomůžu tobě, a ty jednou zas mně") je plně podporováno současnou licencí a předpokládal bych, že každý, kdo do projektů Wikimedia přispívá, si je tohoto vědom, když sem přispívá. Ale pokud je skutečně cílem většiny wikislovníkářů úmyslně data prezentovat tak, aby znovuvyužitelná nebyla, pak to jde proti cílům stanoveným nadací jako správcem tohoto projektu a do takového projektu už pak tuplem přispívat radši nebudu. [[Uživatel:Blahma|Blahma]] ([[Diskuse s uživatelem:Blahma|diskuse]]) 28. 9. 2013, 14:10 (UTC)