Články

Nejazyková analýza webu - zní to strašně, ale používáme to každý den

Autor: Michal Rada
Opět trochu zabrousíme do přístupnosti, i když tentokrát z poněkud asi překvapivého úhlu. Že webová stránka splňující pravidla přístupnosti je 'čitelná' třeba i pro zdravotně postižené a jejich programové prostředky asi nikoho nepřekvapí. Ale z vývoje přístupnosti se občas odloupne zdánlivě nesouvisející kamínek, který pak spustí lavinu. Dnes si budeme povídat o tom, že lze analyzovat webové stránky a jejich obsah, aniž by analyzér musel nutně umět jazyk. Využívají to dnes již nejen vyhledávače. A tak umí robot hledat konkrétní informace na českých stránkách, aniž by uměl česky? Jak je to možné? No možná vás to překvapí, ale na počátku bylo slovo - a to slovo bylo 'přístupnost'.
Pojďme si říci podrobněji něco o analýze a prohledávání obsahu webové stránky. Také zabrousíme do technologických výhod. Webová stránka, která splňuje základní principy přístupnosti a ergonomie se daleko lépe strojově zpracovává. Musíme si uvědomit, že jak třeba i hendikepovaný uživatel, tak jiná asistivní technologie (včetně klasického prohlížeče webů) pracuje s webovou stránkou určitým způsobem a ten se v mnohých případech může značně lišit.

Ale jedno si hned vezměme za své: Kdekoliv budeme v tomto článku hovořit o přístupnosti, zároveň hovoříme i o ergonomii a - překvapivě - i o obecných principech chodu a struktury stránky. Z toho nám už začíná být jasněji, že přístupnost, respektive její aplikování, mohou nést dodatečné - vlastně snad ještě významnější ovoce.

Dva pohledy na webovou stránku

Pojďme se na webovou stránku podívat ze dvou úhlů.

  1. 1. Pro běžně vidícího návštěvníka webové stránky je pouhým pohledem relativně snadné určit, která informace z webu je pro něj v danou chvíli důležitá. Na stejné stránce může být pro někoho důležitá navigace (pokud je na hlavní straně webu a hledá konkrétní informaci), pro jiného hlavní text stránky (pokud třeba zjišťuje nový obsah na webu), pro někoho některý z formulářových prvků. Všichni tři tito uživatelé dokáží pohledem na stránku snadno identifikovat vizuální oblast, kde se informace pro ně důležitá nachází.
  2. 2. Uživatel přistupující k obsahu webu pomocí některé z asistivních technologií web nevnímá jako celý soubor informací, ale jako lineárně navazující seznam. Každý prvek (text, nadpis, odkaz, obrázek) vnímá jako samostatnou informaci, kterou lze zasadit do kontextu s ostatními pouze seznámením se s okolními objekty. Informaci tedy nevnímá jako pohledovou analýzu toho, kde je 'vizuálně vidět' na webu, ale jako konkrétní bod ve struktuře stránky.

Webová stránka tedy musí být koncipována tak, aby její ergonomii bylo možno snadno a rychle rozpoznat oběma výše popsanými způsoby. Proto je tak důležité uspořádat informace na webové stránce tak, aby dávaly smysl procházené postupně. Přístupnost se snaží právě o tento princip, který může sloužit i pro jiné účely, než je právě procházení webů osobou s hendikepem.

A o těchto účelech si dnes právě povíme. Jedním z vedlejších efektů nasazení pravidel přístupnosti totiž je, že právě třeba umíme rozpoznat význam a postavení určitých informací na webu a umíme tak personalizovat jeho analýzu.

Lineární chápání stránky

Abychom lépe pochopili přístup technologie k obsahu stránky, zkusme si stránku představit jako lineární seznam informací, nestrukturovaný, tedy v jedné úrovni, kde každá informace je na samostatném řádku a souvisí pouze s informací předchozí a následující. Nemáme tedy za sebou všechny odkazy, pak všechny nadpisy a pak veškerý zbylý text, ale stránku máme jako seznam třeba v posloupnosti nadpis; text; dva odkazy; další text; dvacet odkazů...Pouhými informacemi o typu objektu dokážeme zjistit, co je text (tedy nosná informace) a co je nadpis, nebo odkaz, nebo formulářový prvek (tedy informace vztahující se k funkcím webu).

Teprve správnou posloupností nadpisů, odkazů a textů dostaneme správnou představu o obsahu stránky jako celku, víme-li, že čím vyšší úroveň nadpisu, tím důležitější text, jsme schopni strojově identifikovat důležitý obsah na stránce (v nadpisu H1), navigaci stránky (opakující se série odkazů), nebo méně důležitý text (text v nadpisu nižší úrovně).

Nejazyková strojová analýza webu

A jdeme k jádru věci. Na ideálním příkladě si ukážeme, jak funguje nejen strojová analýza stránky, ale i přístup některých technologií (ne pouze asistivních):

Vizuální vzhled stránky

Máme otevřenou stránku firmy, kde je logo, nahoře lišta s důležitými odkazy, v levém pruhu nabídka služeb, pod tím hledání, uprostřed text o historii firmy, v pravém pruhu jsou informace o aktuálních slevách a akcích a úplně dole informace o provozovateli webu.

Technická struktura stránky

Stránka obsahuje jeden nadpis typu H1, který uvozuje informace o historii firmy, několik nadpisů nižší úrovně v levém a pravém panelu, horní grafickou lištu s textovými odkazy a logem, dva formuláře, z nichž jeden slouží pro vyhledávání a druhý pro přihlášení zákazníka.

Technický postup strojové analýzy

Robot provede prvotní ohledání kódu stránek, oddělí odkazy a nadpisy a netextové elementy od zbytku textu, rozdělí si stránku podle jednotlivých nadpisů a podle několika stránek z webu zjistí, které elementy jsou na nich společné a zda se vždy nacházejí na stejném místě. Robot zjistí, že jeden z prvních elementů na stránce je obrázek a zjistí, že je umístěn v levém horním rohu stránky, aniž by tedy musel nutně znát význam názvu obrázku, může tento obrázek považovat za logo, neboť je stejný na všech stránkách a vždy na stejné pozici. Robot zjistí dvě série odkazů (vizuálně horní lištu a levý panel s nabídkou služeb). Tyto série jsou na všech stránkách a jsou vždy na stejné pozici. Robot tedy může určit, že toto jsou prvky navigace. Robot zjistí, že na stránce je nadpis typu H1, na každé stránce je jiný nadpis, ale vždy na stejné pozici. Po tomto nadpise následuje vždy jiný text. Robot tedy i bez jazykové znalosti může automaticky určit, že toto je důležitý obsah stránky a v této části jsou na každé stránce hlavní informace. Robot dále zjistí několik bloků informací uvedených nadpisy nižší úrovně, které mohou, ale také nemusí, být stejné na všech stránkách. Přesto, že tedy robot nevnímá, že jsou umístěny vpravo, může je považovat za informace s nižší důležitostí. Robot najde na stránce dva formuláře - jeden pouze s editačním polem a tlačítkem, druhý se dvěma editačními poli, z nichž jedno je pole pro zadání hesla a tlačítkem. Nerozpozná sice význam prvního formuláře, ale je schopen určit, že druhý formulář je určen k přihlášení někam pomocí údajů jako je jméno a heslo.

Výsledek strojové analýzy

Robot je v ideálním případě schopen rozpoznat důležitý text na všech stránkách firmy, tedy primárně provádí analýzu tohoto důležitého textu, jako druhé pak analyzuje informace v části s výhodnými akcemi a většinou navigace se v analýze nezabývá. Výsledkem tak je, že když kupříkladu vyhledáváme na internetu slova 'FIRMA HISTORIE' jako první stránka z webu se ve vyhledávači zobrazí právě stránka 'Historie naší firmy', teprve potom se budou nabízet ostatní stránky, kde se slovo historie vyskytuje. Analyzátor vyhledávače tak bez znalosti českého jazyka dokázal relevantně odpovědět náš dotaz a vyhledat požadovanou stránku.

Poznámka: Námi uvedený příklad je ideálním stavem, pochopitelně nemusí vždy fungovat všechny uvedené principy.

Shrňme si to

Budou-li stránky této firmy vytvořeny podle pravidel přístupnosti, bude pravděpodobně program strojové analýzy schopen lépe poznat i obsahovou důležitost informací na webu. Zajistí se to třeba následujícími pravidly:

  • Hlavní text stránky je uvozen nadpisem nejvyšší úrovně.
  • Méně důležitý text stránky (nebo části hlavního textu) jsou uvozeny nadpisy nižší úrovně
  • Navigace je vždy na stejném místě a je uvozena vždy stejnými nadpisy a logicky oddělena.

Z výše uvedeného příkladu jasně plyne, že zachování základních ergonomických pravidel a vytvoření webu se zachováním alespoň některých pravidel přístupnosti nesouvisí pouze s možností přístupu k informacím skutečně pro každého, ale třeba i s činností vyhledavačů, analyzátorů obsahu, nebo mobilních zařízení.

Je jednoznačným faktem, že na stránkách vytvořených podle pravidel přístupnosti se lze lépe orientovat a zároveň lze jak pohledem, tak lineárním čtením snáze dosáhnout konkrétních informací. Nejen asistivní technologie, ale i řada alternativních internetových prohlížečů, zařízení PDA nebo inteligentních přístrojů pracujících s webem pomáhá uživateli se na stránkách orientovat. Klasickým příkladem této pomoci je možnost zobrazení struktury stránky jako stromu nadpisů od nejvyšší úrovně k nejnižší tak, jak to známe třeba ze strukturovaných dokumentů PDF, z textových procesorů, nebo třeba z nejnovějších verzí prohlížečů Opera nebo Internet Explorer. Je-li obsah stránky správně strukturován a jsou-li úrovně jednotlivých nadpisů správně nastaveny, vidí uživatel zcela přehlednou formou strukturu stránky a je schopen velmi rychle přejít na konkrétní místo.

Tento článek je součástí webu IIO

Žádné komentáře
 

© 2009 Iniciativa informatiky pro občany
Elektronický kontakt na Kancelář, Právně-legislativní sekci, Publikační sekci, Poradnu, Webmastera