Co je co

WWW

Jádrem textu je seznámení s jazykem HTML. Na začátek bychom si však měli alespoň stručně objasnit základní pojmy fenoménu zvaného INTERNET nebo spíše jeho služby WWW.

 World-Wide Web, často také WWW nebo taky 3W, je jednou z nejnovějších služeb Internetu. Je velmi ambiciózní, ale díky svým vlastnostem také náročná na přenosové kapacity. Lze ji charakterizovat jako systém:

hypertextový - dokument (stránka) může obsahovat odkazy na jiné dokumenty, dokonce i na jiné služby sítě. Jedním kliknutím myší se můžete přenést z Ameriky třeba do Austrálie.

multimediální - dokumenty nejsou omezeny na textové informace, kromě textu dokáže dokument pracovat také s obrázky, se zvukem, prostě vším, co dokážeme rozumně převést do digitální podoby - tady používáme pojem multimédia.

uživatelsky přívětivý - tímto označením je většinou charakterizováno grafické uživatelské rozhraní, jehož používání je většinou snadné a intuitivní.

 

WWW vychází z modelu klient-server. Uživatel musí mít pro jeho využívání speciální klientský program (často označovaný termínem prohlížeč nebo také anglicky browser, který pro něj obstarává komunikaci se serverem. Specialitou WWW je přisouzení velmi významné role právě klientovi. Ten kromě vytváření dotazu musí zajistit i interpretaci a formátovaní dokumentu, který získal jako odpovědi na své dotazy, spouštění Java Appletů apod. Vzhled a chování WWW tedy leží na bedrech klienta.

 Ve světě WWW se také určitě setkáte s pojmy :

HyperText Transfer Protocol (HTTP) je protokol, který definuje pravidla komunikace mezi klientem a serverem. Tento protokol je bezstavový. To znamená, že jednotlivé dotazy a jim příslušející odpovědi představují zcela samostatné jednotky komunikace. Jestliže server odešle odpověď na dotaz klienta, celá transakce pro něj končí. Pokud vzápětí obdrží od téhož klienta další dotaz, nedává jej do žádné souvislosti s dotazem předchozím. Veškeré vazby obstarává klient.

HyperText Markup Language (HTML) označuje jazyk pro popis dokumentu. Dokumenty WWW musí dodržovat pravidla HTML, aby je klienti mohli zobrazit. Vzhled dokumentu je jednoznačně v kompetenci klienta. Na klientovi záleží, jak bude formátovat jednotlivé prvky dokumentu - proto se nevyplácí “partyzánské” postupy některých autorů ve snaze zlepšení vzhledu dokumentu. Na jedné straně sice zvyšují atraktivnost svých dokumentů, ale zároveň tím do HTML vnášejí chaos. Dokumenty vytvořené na míru určitému klientovi mohou působit problémy jinému. V současné době se ve WWW můžete setkat s HTML dokumenty pracujícími s HTML verze 2.0, ale také s dokumenty využívající HTML verze 3, rozšiřujícího původní verzi.

Unified Resource Locator (URL) slouží k definici odkazu na adresu dokumentu. Jeho prostřednictvím lze popsat, jak získat v Internetu určitou informaci. URL identifikuje službu, kterou musíte použít, server a místo na něm, kde se dotyčná informace nachází.

Klienti pro WWW

Existuje celá řada klientských programů pro různé operační systémy.

Mosaic představuje jeden z milníků v historii WWW. Tento grafický klient je dostupný pro X Window System (Unix), System 7 (Macintosh) a MS-Windows (PC).

NetScape více méně vystřídal Mosaic jako nejoblíbenější klient. Jeho silnou devizou je, že zobrazuje dokument za chodu. Můžete číst začátek textu, jehož konec teprve přichází z Internetu. NetScape je k dispozici pro tytéž platformy jako Mosaic.

Arena je experimentální klient. Poskytuje sice nejmenší uživatelský komfort, ale jeho podpora HTML verze 3 je v současnosti asi nejrozsáhlejší. Je k dispozici jen pro X Window System (Unix).

Lynx na rozdíl od předchozích klientů pracuje v textovém režimu. Je implementován pro operační systémy Unix a MS-DOS. Je používán pro veřejné anonymní klienty.

Microsoft Internet Explorer je v zásadě nováčkem na trhu prohlížečů. Díky marketingovým schopnostem firmy Microsoft se však šíří přímo lavinovitě.

HTML a dokumenty

Jazyk HTML je v podstatě jazyk pro formátování textu (obohacený o možnost odkazovat se na další dokumenty). Ty bývají v angličtině označovány termínem markup language. Jejich charakteristickým znakem je, že příkazy (v terminologii HTML se jim říká značky), ovlivňující vzhled dokumentu, jsou vpisovány přímo do textu. Zpravidla pro jejich zápis slouží určitá rezervovaná slova či znaky. Tato příručka přináší pokud možno veškerá rezervovaná slova či znaky, se kterými se můžete v současné době v HTML dokumentech setkat, ale již předem je třeba upozornit, že ne všechny současné prohlížeče (tzn. klienti) s těmito značkami HTML verze 3 dokáží správně pracovat. Proto vždy upozorníme, zda se jedná o součást HTML verze 3.

 Jak vytvořit HTML dokument ? Existuje několik možností:

 HTML editor
Jedná se o editor, určený přímo k tvorbě HTML dokumentu. Zpravidla zná všechny komponenty jazyka, dokáže kontrolovat správnost dokumentu (ne vždy) a spustit WWW klient k prohlédnutí výsledku. Existuje řada produktů této kategorie - asi nejčastěji se setkáte s programem HotDog či FrontPage. Kromě nich existují také nadstavby běžných textových editorů (např. HTML Assistant pro MS WORD), umožňující vyrábět HTML z jejich normálních dokumentů.

Konvertor
Tyto programy slouží k převodu dokumentu z nejrůznějších existujících typografických či textových systémů do HTML. Často však narazíme na konflikty mezi schopnostmi jednotlivých systémů a HTML. Výsledek konverze je proto často nutno ručně upravit do výsledné podoby. Konvertory existují z LATEXu, *roffu, RTF a jiných systémů či formátů.

Přímá editace HTML stránek
Postačí libovolný ASCII editor a znalost HTML. Vytvoří se nebo importuje text a do něj se zapíší přímo jednotlivé značky formátující HTML stránku.

Značky

Příkazům, ovlivňujícím vzhled dokumentu, se v terminologii HTML říká značky. Jejich prostřednictvím se vymezují prvky dokumentu, které mají být zpracovány určitým specifickým způsobem. Pomocí značek lze definovat různé druhy písma, záhlaví, odkazy na jiné dokumenty či vložené obrázky.

V jazyce HTML je značka tvořena slovem (jménem), uzavřeným mezi znaky < a >. Například <BODY> zahajuje tělo dokumentu. Nezáleží na velikosti písmen ve jméně značky. Můžete psát <body> i <BodY>. Budete-li dokumenty tvořit přímou editací, doporučujeme stanovit si svoji vlastní konvenci a zapisovat značky jednotným způsobem (např. velkými písmeny).

 Názvy jednotlivých značek jsou součásti definice jazyka HTML. Narazí-li klient v dokumentu na značku jemu neznámou, měl by ji ignorovat. Díky tomuto pravidlu může alespoň do jisté míry zpracovat a zobrazit dokument, obsahující nestandardní značky. Nicméně jejich používání byste se jako potenciální HTML autoři měli vyhnout.

 Řada značek se vyskytuje v párech, vymezujících rozsah jejich působnosti. V takovém případě je ukončující značka totožná se zahajující, ale jejímu jménu je předsazeno lomítko (/). Tělo HTML dokumentu je tedy zahájeno značkou <BODY> a ukončeno </BODY>.

 Chování mnoha značek můžete ovlivnit prostřednictvím atributu. Podrobněji budou popsány v části věnované odkazům.

Základní prvky HTML

Kostra dokumentu

Každý HTML dokument by měl dodržovat určitou pevnou strukturu. Zahrnuje několik značek, vymezujících jeho základní části.

Správný dokument by měl vypadat takto:

 <HTML>
<HEAD>
hlavička dokumentu
</HEAD>
<BODY>
tělo dokumentu
</BODY>
</HTML>

Celý dokument je ohraničen značkami <HTML> a </HTML>. Jeho text je rozdělen na dvě části: hlavičku (tu vymezují značky <HEAD> a </HEAD>) a tělo (uzavřeno mezi <BODY> a </BODY>). Hlavička obsahuje především režijní informace, určené klientskému programu. Tělo je pro nás daleko zajímavější, protože obsahuje vlastní text, který bude zobrazen uživateli. Hlavička zpravidla bývá velmi jednoduchá. Měla by vždy obsahovat titulek dokumentu, uzavřený mezi značky <TITLE> a </TITLE>. Řada prohlížečů jej zobrazí v záhlaví okna s dokumentem. Titulek má také význam při vytváření záložek (bookmark), neboť bude použit jako položka v seznamu záložek. Existuje několik dalších prvků hlavičky, ty ale zatím vynecháme.

 Prohlížeče (tj. programy pro prohlížení WWW stránek) bývají benevolentní a zpravidla snesou dokument, který nesplňuje výše uvedené požadavky. Doporučujeme však, abyste své dokumenty vždy opatřili uvedeným základním obalem a titulkem.

Formátování dokumentu

HTML zcela ignoruje uspořádání textu. Nedělá rozdíly mezi koncem řádku a mezerou, libovolný počet mezer platí jako jedna. Představujte si chovaní klienta tak, že přečte dokument a přerovná jej celý do jedné řádky (nahradí všechny konce řádků mezerami). Mezi jednotlivými slovy ponechá vždy jen jednu mezeru. Teprve poté se začne zabývat otázkou, jak dokument zobrazí. Veškerá informace o jeho původním tvaru tedy zanikla. Chcete-li výsledný text jakýmkoli způsobem uspořádat, musíte to dát najevo patřičnými značkami.

 Základní členění textu na odstavce a případně řádky zprostředkovávají dvě značky:

<P> zahajuje nový odstavec (Paragraph)

<BR> zahajuje nový řádek (line BReak).

 Ruční ukončení řádku pomocí <BR> se používá jen ve výjimečných případech. Normální text rozděluje do řádků klient podle momentální šířky okna.

 Chcete-li ještě více zdůraznit rozdělení textu, můžete použít značku <HR>, která vytvoří vodorovnou čáru přes celou šířku dokumentu (Horizontal Rule).

Písmo

Jedním z nejčastějších požadavků na libovolný systém pro práci s textem je používání různých druhů a velikostí písem. Otázka "Kolik to umí druhů písma?" bývá jednou z prvních, zejména v případě začátečníků. Odpovědět na ni v případě HTML je poněkud ošidné. Jak už bylo několikrát naznačeno, závisí odpověď do značné míry na klientovi. Vlastní jazyk HTML obsahuje několik párových značek, umožňujících ovlivňovat použité písmo. Elementární, přímo používaná písma, jsou čtyři:

 <B>...</B> tučné písmo (Bold),

<I>...</I> kurzíva (Italics),

<U>...</U> podtržené (Underline),

<TT>...</TT> písmo s pevnou šířkou znaku, podobné psacímu stroji (TypewriTer).

 Předchozí čtyři páry značek umožňují pevně předepsat druh písma, který má klient použít. Doporučuje se však dávat přednost označení logickému. Tedy navyknout si uvažovat v termínech "tento text chci zvýraznit" místo přízemního "tento text chci psát kurzívou". Takový přístup více odpovídá myšlence HTML. Navíc autor klienta zpravidla vytvoří esteticky vyváženou kombinaci jednotlivých způsobů vyznačování, kterou lze díky logickým značkám využívat.

K těmto několika značkám pro fyzické vyznačování textu přibyly v HTML 3. také další značky a dvě z nich jsou pro nás opravdu důležité (jsou to především horní a dolní index) :

 <SUB>...</SUB> dolní index,

<SUP>...</SUP> horní index,

<SMALL>...</SMALL> malé,

<BIG>...</BIG> velké,

<S>...</S> přeškrtnuté.

Pro vyznačení logických prvků v textu jsou k dispozici tyto značky:

 <EM>...</EM> zvýrazněný text (EMphasized; klientům je doporučeno zobrazovat tyto partie kurzívou),

<STRONG>...</STRONG> důrazně zvýrazněný text (doporučeno tučně),

<CITE>...</CITE> citace (doporučeno kurzívou),

<CODE>...</CODE> část kódu (doporučeno písmem TT),

<SAMP>...</SAMP> ukázka (doporučeno písmem TT),

<KBD>...</KBD> ukázka uživatelského vstupu (doporučeno písmem TT),

<VAR>...</VAR> proměnná (doporučeno písmem TT).

 Existuje několik dalších značek pro logické zvýrazňování textu, které jsou však součástí HTML verze 3 a ne všichni klienti dokáží s těmito znaky pracovat a formátovat tak text. Pro úplný výčet je však uvádíme také:

 <DFN>...</DFN> definující výskyt výrazu,

<Q>...</Q> krátká citace,

<LANG>...</LANG> změna jazykového kontextu,

<AU>...</AU> jméno autora,

<PERSON>...</PERSON> jména osob,

<ACRONYM>...</ACRONYM> alias,

<ABBREV>...</ABBREV> zkratka,

<INS>...</INS> vložený text (např. v právnických dokumentech),

<DEL>...</DEL> vypuštěný text (např. v právnických dokumentech).

Speciální znaky a kódy

Možná jste si již položili otázku, jak vložit do textu znaky menší než < a větší než >, když jsou stejné znaky určeny pro vymezování značek. Problém speciálních znaků je společný všem jazykům kategorie markup language. Mají-li být příkazy součástí textu, musí být nějak odlišeny. Typické řešení je vyhradit několik znaků se speciálním významem a jejich prostřednictvím vyznačovat důležité konstrukce jazyka. Pochopitelně je třeba poskytnout konstrukce, které do výsledného textu vloží právě zmíněné speciální znaky.

 V případě HTML slouží k těmto účelům

&lt; vytvoří znak menší než (<),

&gt; vytvoří znak větší než (>),

&amp; vytvoří znak ampersand (&),

&quot; vytvoří znak uvozovky (").

 Značky pro vkládání speciálních znaků mají společný rys - všechny začínají znakem & a jsou ukončeny středníkem. Na něj rozhodně nezapomínejte. Jinak byste se názorně přesvědčili o rozličném chování jednotlivých klientů. Někteří z nich totiž při chybějícím středníku "spolknou" mezeru za speciálním znakem.

 Kromě výše uvedených je k dispozici řada dalších značek pro různé symboly, písmena národních abeced atd. Navíc je k dispozici značka &#kod; která vysází znak s daným kódem. Jejím prostřednictvím můžete do HTML textu vložit libovolný znak (ovšem pozor - dokument se tak stává závislým na použitém kódování).

Tím se náš popis jazyka HTML zcela nenápadně ocitá v oblasti kódu. Bohužel nás tvůrci HTML pustili k vodě a stanovili jediným pravým pro HTML kód ISO 8859-1 (známý též jako Latin 1). Ten sice obsahuje některé z našich akcentovaných znaků, ale zdaleka ne všechny.
Z čehož pro nás (vlastně i pro ně) vyplývá následující: s češtinou je problém. Teprve HTML verze 3 by mělo (zdůrazňujeme mělo) podporovat další znakové kódy, mezi nimi i ISO 8859-2 (ISO Latin 2), který uspokojí naše potřeby na zobrazování znaků s diakritikou.

Většinou se však převod na požadovaný typ kódování řeší programově, použitím tzv. CGI skriptů.