Tworzenie stron WWW z polskimi znakami przy użyciu Macintosha


Jest to nieco zmodyfikowana wersja artykułu zamieszczonego w czerwcowym numerze czasopisma Macworld i Publish (czerwiec 1997 oczywiście). Na płytce towarzyszącej temu wydaniu znajduje się większość omawianych tu programów.

  1. Nic nie mówiący WSTĘP, którego jedynym celem jest wprawienie czytelnika w dobry nastrój (można pominąć).
  2. WIEŻA BABEL, czyli sposoby kodowania polskich znaków (nic odkrywczego).
  3. PRZEGLĄDARKI WWW - czy tu jest jakiś problem?
  4. KONWERTERY - omówienie kilku wybranych narzędzi do konwersji tekstu.
  5. NARZĘDZIA OBRÓBKI WSTĘPNEJ - programy do zamiany tekstu na postać HTML.
  6. EDYTORY JĘZYKA HTML
  7. HOT JAVA? - krótka, lecz druzgocząca krytyka :-)
  8. UWAGI KOŃCOWE - o powiadomieniu przeglądarki, że jesteśmy Polakami i o transmisji FTP.

 

     Żyjemy w epoce cybernetycznej. Nasz sąsiad niedawno został internautą. Pryszczaty młodzieniec mieszkający nad nami jest MUDowcem. Pani Krysia spod piątki poznała swojego męża na IRCu. Dzieci naszych znajomych całe dni spędzają w wirtualnej rzeczywistości. Nasz kolega z piaskownicy został (o zgrozo) hackerem. W zeszłym tygodniu krawcowa z parteru przez pomyłkę zatelnetowała się do Japonii, ale szczęśliwie udało jej się powrócić... To jednak, co łączy wszystkie te osoby bez względu na wyznanie (Mac, PC czy Unix) i internetowe nałogi, to jest surfowanie po sieci przy pomocy różnej maści Netscape'ów, Explorerów czy Lynxów. Większość z tych osób posiada również swoją stronę WWW, której zadaniem jest pobicie strony sąsiada popularnością i liczbą zastosowanych bajerów. Każdy HTMLuje, robi animowane gify, pisze skrypty w Javie, komponuje muzykę, która ma rozbrzmiewać, gdy ktoś odwiedzi jego zakątek... A jednak ci, którzy tak bardzo pragną uatrakcyjnić swoje produkcje WWW, czasem zapominają o rzeczy tak podstawowej, jak poprawność wyświetlania polskich znaków (Ach, przepraszam, nie dotyczy to tych, którzy piszą po angielsku :-> ). Często w sieci spotykamy strony, gdzie zamiast polskich ogonków mamy jakieś dziwne robaczki. I dzieje się to nie tylko na jakichś tam małych stronach osobistych, gdzie przedstawia się światu swoje zainteresowania oraz zdjęcie psa, ale również na całkiem sporych i oficjalnych stronach, za przygotowanie których wzięto zapewne duże pieniądze.
 

WIEŻA BABEL

     Skąd całe to zamieszanie z polskimi ogonkami? Czy można stworzyć wrażenie wieży Babel posługując się tylko jednym językiem? Polak potrafi... Bałagan oczywiście bierze się stąd, że brak jest jednolitego standardu kodowania polskich liter. Najważniejsze stosowane obecnie w Polsce standardy to:
Kody polskich liter w tych standardach przedstawiają się następująco:

ĄĆĘŁŃÓŚŹŻąćęłńóśźż
ISO Latin 2161198202163209211166172175177230234179241243182188191
Mac CE132140162252193238229143251136141171184196151230144253
Win (CP1250)165198202163209211140143175185230234179241243156159191
IBM (CP852)164143168157227224151141189165134169136228162152171190
Mazovia143149144156165163152160161134141145146164162158166167

Oznacza to, że każdy na swojej platformie posługuje się innym standardem. Gdybym był złośliwy, to powiedziałbym, że niektóre platformy są szczególnie uprzywilejowane, jako że mają do wyboru kilka standardów, ale że złośliwość nie leży w mojej naturze, więc oszczędzę PC-towcom tego docinku...
Być może za jakiś czas wszystkie problemy rozwiąże nowy, dwubajtowy standard Unicode, pod warunkiem, że przyjmie się i kodowanie to zostanie wbudowane w systemy operacyjne (może Rhapsody?).
 

PRZEGLĄDARKI WWW

     Antyczne wersje (sprzed 2-3 lat) Netscape Navigatora i NCSA Mosaic (tę ostatnią przeglądarkę już chyba tylko najstarsi ludzie pamiętają) nie potrafiły obsługiwać znaków narodowych - wyświetlały wszystko jak leci, więc strony tworzone na jednej platformie traciły znaki narodowe, gdy były oglądane na innych. W Polsce sprowadziło się to tego, że twórcy stron WWW rezygnowali z ogonków albo używali standardu Windows (CP 1250), co pokutuje do dzisiaj. Nieliczni tylko wtajemniczeni tworzyli strony ze znakami w standardzie ISO Latin 2, zdając sobie sprawę, że to musi stać się normą. Oglądanie takich stron z polskimi literami było możliwe jedynie poprzez stosowanie w przeglądarkach odpowiednich czcionek ISO Latin 2 - powstało ich całkiem sporo dla PC-tów, natomiast dla Macintoshy, o ile mi wiadomo, nie było takich. Jednak dopiero z chwilą pojawienia się przeglądarek WWW z wbudowanymi mechanizmami przekodowywania znaków narodowych ze standardu uniwersalnego na standard danej platformy sensownym, moim zdaniem, stało się używanie polskich liter.
Na Macintoshu przekodowywanie ze standardu ISO Latin 2 pojawiło się wraz z Netscape Navigatorem 2.0 (na PC-cie dopiero z Netscape Navigatorem 3.0). Cyberdog 2.0 również sobie z tym radzi. Najnowsze wersje Microsoft Internet Explorera też posiadają wbudowaną obsługę znaków narodowych. Tak więc obecnie, z punktu widzenia przeciętnego "surfującego cybernauty", bez względu na to, jakiej platformy używa, nie ma problemu z oglądaniem stron WWW w języku polskim. Pozostaje tylko ból tworzenia.
 

KONWERTERY

     Zwykle tekst, który mamy zamieścić w sieci WWW ma polskie znaki w standardzie Mac CE lub Windows EE i musimy dokonać zamiany kodów. Na szczęście narzędzi do konwersji jest dużo, zarówno freeware'owych jak i shareware'owych. Mamy kilka bardzo dobrych programów napisanych przez polskich programistów. Najczęściej przeze mnie stosowanym jest freeware'owy Konwerter napisany przez Roberta Miklasa. Program oferuje kilka gotowych zestawów konwersji i jest wystarczający do większości zastosowań. Dla niektórych jednakże wadą tego programu może być brak możliwości definiowania własnych sposobów konwersji (wiem, wiem, da się to zrobić grzebiąc ResEditem w programie, ale normalni ludzie tego nie robią). Wersja 1.1 tego programu ma sporo ulepszeń, między innymi umożliwia konwersję wycinka oraz jest skryptowalna.
Programem o podobnej nazwie jest napisany przez Jacka Iwańskiego Prosty Konwerter, który należy do kategorii shareware. Umożliwia on stworzenie dowolnego zestawu konwersji i również jest godny polecenia.
Starszym, lecz również dobrym programem, jest napisany przez Cezarego Lichacza freeware'owy ConverTable i on również pozwala na zdefiniowanie własnych sposobów konwersji.
Inne mocne narzędzia, których można użyć do konwersji to Add/Strip, Power Replace, Torquemada.
 

NARZĘDZIA OBRÓBKI WSTĘPNEJ

     Gdy mamy już polskie znaki odpowiednio przekonwertowane do ISO Latin 2, to możemy przystąpić do formatowania tekstu w języku HTML. Można to zrobić ręcznie, jednakże przy większej ilości tekstu lepiej jest skorzystać z programów, które zrobią to za nas. Nawet jeśli nie zrobią wszystkiego, to będzie to i tak większa część czarnej roboty. Szczególnie polecałbym pracę z tekstem w postaci RTF. RTF (Rich Text Format) jest to format, w którym potrafi zapisywać większość komercyjnych edytorów tekstu (np. Word, Claris Works). Dzięki programom umożliwiającym przekształcanie plików RTF na HTML (TextToHTML, rtftohtml) będziemy z dobrym przybliżeniem mogli zachować oryginalny układ tekstu (pogrubienia, kursywy, itd.). Zanim jednak przekształcimy plik RTF zawierający polskie litery na plik HTML, musimy wcześniej dokonać konwersji znaków na ISO Latin 2 (np. za pomocą PowerReplace i odpowiednich rozszerzeń).
Freeware'owy program TextToHTML (najbliżej w Szwecji) jest solidnym narzędziem do wstępnego przekształcania plików tekstowych lub plików w formacie RTF na pliki HTML i od niego proponowałbym zacząć. Pierwsze zetknięcie z programem może być zniechęcające, gdyż przepuszczony przezeń tekst traci polskie litery - program zamienia znaki o kodach powyżej 128 na siedmiobitowe odpowiedniki postaci &kod;   zgodne z normą ISO Latin 1, gdzie kod  jest nazwą znaku (np. ó oznacza o z kreską). Jednakże dzięki temu, że program jest łatwo konfigurowalny przy pomocy aplikacji pomocniczej Setup TextToHTML, można go ustawić tak, by polskie kody nie były zmieniane na 7-mio bitowe odpowiedniki. Tu znajdziesz aplikację modyfikującą wersję 1.3.2 lub 1.3.4 tego programu dla polskich potrzeb.
Dokładnie tak samo sprawa ma się z malutkim programikiem Hyperize do przekształcania plików tekstowych na HTML, tylko w tym wypadku modyfikacje muszą być wykonane przy pomocy programu ResEdit. Tu znajdziesz aplikację modyfikującą Hyperize 1.1 dla polskich potrzeb.
Po wstępnym sformatowaniu tekstu możemy się rozejrzeć za edytorem, który pozwoli nam na wykończenie strony.
 

EDYTORY JĘZYKA HTML

     Programy, których zwykle używamy, nie są tworzone w Polsce i dlatego rzadko uwzględniają one nasze specyficzne wymagania. Szczególnie dotkliwie daje się to odczuć w przypadku edytorów języka HTML. Żaden ze znanych mi edytorów nie jest w pełni zadowalający pod względem obsługi standardu ISO Latin 2, a niektóre z nich tak usilnie przeszkadzają przy wprowadzaniu polskich znaków, że pomimo innych zalet jestem zmuszony z nich zrezygnować. Właściwie najbardziej użyteczne okazały się edytory, które nie pretendują do zaszczytnego miana WYSIWYG. Skrót WYSIWYG w slangu komputerowo-internetowym oznacza "What you see is what you get", czyli "To co widzisz to dostajesz". Określenie to stosowane jest często do edytorów stron WWW, które w pełni graficznie przedstawiają budowaną stronę, ukrywając przed użytkownikiem komendy formatujące języka HTML, tzw. tagi. Najbardziej znane edytory WYSIWYG to Netcape Navigator Gold, Adobe PageMill, Claris HomePage, Golive, AOL Press.
Do dobrych edytorów pracujących w trybie tekstowym, należy zaliczyć BBEdit z rozszerzeniami, Page Spinner, Alpha z rozszerzeniami.
 

HTML W PEŁNEJ KRASIE

     Zacznijmy może od tych ostatnich. Ich wielką, naprawdę wielką zaletą jest to, że w przeciwieństwie do WYSIWYGowców nie ingerują w to, co im się wpisze. Nie wtrącają się do tego, jakich liter i jakich tagów używa się i dlatego z ich pomocą można zrealizować dokładnie to, co się zamierzy. Mogę te edytory jednak polecić tylko tym ludziom, którzy mają nieco doświadczenia w tworzeniu stron WWW i wiedzą, co robią. W edytorach tych możemy pisać używając normalnych czcionek CE i na końcu robić konwersję MacCE->ISO Latin 2, lub pisać od razu w ISO Latin 2 przy użyciu odpowiednich czcionek ISO L2 i układów klawiatur i zapomnieć o konwersjach.

     Shareware'owy edytor Alpha z rozszerzeniem HTML for Alpha  daje bardzo dobry edytor tekstowy stron WWW. Po zainstalowaniu HTML for Alpha  należy w Config:Current Mode:Menus...  ustawić htmlMenu, co spowoduje pojawienie się w pasku dodatkowego menu z ikonką Netscape'a. Z niego można wybrać opcję Palette, co spowoduje pojawienie się palety z narzędziami i właściwie jesteśmy gotowi do pracy. Jeszcze tylko musimy wyłączyć skróty klawiszowe, które się pokrywają z polskimi literami (np. option-x) - robimy to wybierając Edit:Emacs:Disable Emacs.  Jeśli chcemy używać jakiejś czcionki ISO L2, to musimy ją ustawić w Config:Set Font Tabs... 

     Popularny edytor BBEdit zamienia się w edytor HTML po dodaniu rozszerzeń: BBEdit HTML extensions (mirror w Szwecji), BBEdit HTML Tools. Jest to solidne narzędzie i wielu twórców stron WWW posługuje się nim z powodzeniem. Freeware'owa wersja Lite jest nieco mniej wygodna ze względu na brak palety. Właściwie nic więcej nie można o nim napisać, gdyż jeśli chodzi o polskie litery to nie sprawia on żadnych problemów.

     Shareware'owy edytor PageSpinner (najbliżej na szwedzkim mirrorze info-maca) jest wyspecjalizowanym edytorem HTML i dosyć dobrze się z nim pracuje. Można w nim ustawić czcionkę ISO L2 poprzez File:Preferences:Editor...  i bezpośrednio pisać w języku polskim bez konieczności późniejszych konwersji. Jednakże aby stworzone przez niego strony miały polskie znaczki muszą być spełnione dwa warunki:

 
WYSIWYG CZY WYSIWYL?

     Zrozumiałą rzeczą jest, że większość ludzi budujących strony WWW nie chce uczyć się języka HTML, a niektórzy nie chcą go nawet na oczy oglądać, twierdząc, że jest nieestetyczny. Dla nich właśnie stworzone są edytory WYSIWYG. Jednakże dla Polaków w tym miejscu zaczyna się problem, gdyż większość programów tego typu dokonuje zamiany znaków o kodach powyżej 128 na opisowe siedmiobitowe odpowiedniki. Niektórzy twórcy stron nie przejmują się tym i pozwalają edytorom podmieniać polskie znaki, a problem rozwiązują w ten sposób, że po ukończeniu strony robią z powrotem konwersję na 8-mio bitowe znaki w kodzie ISO Latin 2.

     Edytorem, który robi taką niepożądaną zamianę jest Claris HomePage, który poza tym jest bardzo dobrym narzędziem i dlatego warto zadać sobie trochę trudu i po ukończeniu strony zamienić polskie ogonki z powrotem na 8 bitów. (Gotowe zestawy do konwersji przeznaczone do współpracy z PowerReplace można ściągnąć tutaj). W edytorze tym można otwierać tylko teksty z literami w standardzie Mac CE, gdyż niektóre kody ISO Latin 2 są zamieniane na niepożądane odpowiedniki siedmiobitowe (np. litera ć zamieniana jest na  , czyli na twardą spację, która jest bardzo często używana). Oznacza to, że jeśli zamieścimy jakąś stronę w sieci z właściwym kodowaniem, a później ściągniemy ją, by dokonać poprawek, to nie możemy otwierać jej bezpośrednio w HomePage'u (bo uzyskamy efekt "To co widzisz właśnie straciłeś"), tylko wcześniej musimy dokonać konwersji na Mac CE.

     Podobnie zachowuje się Adobe PageMill, tylko że zarówno dla znaków w standardzie Mac CE jak i ISO Latin 2 generuje takie odpowiedniki siedmiobitowe, że konwersja jest niemożliwa. Przykro mi to stwierdzić, ale w wersji 2.0 ten edytor zupełnie nie nadaje się dla polskich twórców stron WWW.

     W Netscape Navigatorze 3.0 Gold (mirror na sunsite.icm.edu.pl) możemy dokonywać edycji stron z polskimi ogonkami w ISO Latin 2 pod warunkiem, że w menu Options:Document Encoding  wybierzemy "Central European (Mac) ". Dlaczego "Central European (Mac) ", a nie "Central European (Latin2) "? Z powodu bardzo dziwnego zachowania edytora Netscape'a z zaznaczoną opcją kodowania Latin 2 - gdy otworzymy jakąś stronę WWW z polskimi literami w standardzie ISO Latin 2 w trybie edycji, to tekst zostanie przekonwertowany na Mac CE i zapisany do pliku! Typowy przykład na to, że edytory WYSIWYG powinny nazywać się WYSIWYL, czyli "What you see is what you lost". Niektórzy jednak mogą uznać takie zachowanie za zaletę, gdyż możemy używać do edycji polskich czcionek systemowych i normalnie pisać po polsku, ale po zrobieniu strony w tym trybie musimy zatrudnić któryś z konwerterów i zamienić kody na ISO Latin 2. Jest to dodatkowa zabawa, której można uniknąć. Otóż gdy mamy zaznaczoną opcję "Central European (Mac) ", edytor Netscape'a nie włącza żadnego mechanizmu konwersji i nie wprowadza żadnych zmian w sposobie kodowania polskich znaków, a to już jest połowa sukcesu. Kolejnym krokiem do sukcesu byłoby oglądanie polskich znaczków w trybie edycji - pamiętajmy, że Netscape wyświetla nam teraz wszystko jak leci i nie widzimy polskich znaków - więc należy zastosować czcionkę ze znakami ISO Latin 2 i ustawić ją w Options:General Preferences...:Fonts:Central European. Do pełni szczęścia brakuje nam już teraz tylko odpowiedniego układu klawiatury, byśmy mogli bezpośrednio pisać w ISO Latin 2. Powracając do trybu przeglądarki dobrze jest zamienić kodowanie na "Central European (Latin2) " i czcionki na normalne CE, by ostatecznie sprawdzić wynik naszej pracy. Edytor Netscape Navigatora Gold jest całkiem przyzwoity i dla prostych zastosowań zupełnie wystarczający, więc to rozwiązanie powinno zadowolić większość osób amatorsko tworzących strony WWW.

     Freeware'owy GoLive 1.1 Lite (zamieszczony przez czasopismo Polski Macworld na płytce z listopada 96) jest edytorem, który nie ingeruje w kody liter spoza ASCII, co sprawia, że doskonale nadaje się do tworzenia stron z polskimi ogonkami. Wielkim atutem tego edytora jest również to, że tworzenie ramek (tzw. framesów) jest w nim dziecinnie proste. Wadą jest brak narzędzi do tworzenia tabel. Obecnie firma GoLive nie udostępnia już freeware'owej wersji swojego edytora, a nowy komercyjny GoLive CyberStudio, ma wbudowaną pełną obsługę języków używających znaków spoza ASCII.

     Jest jeszcze darmowy edytor AOLpress, którego nie daje się zmusić do poprawnej pracy z polskimi literami. Jedyne co da się zrobić, to edytować tekst ze znakami w standardzie Mac CE, które i tak będą źle wyświetlane, a po zakończeniu pracy przekonwertować tekst na ISO Latin 2 przy pomocy PowerReplace z filtrem AOL MacCE &html->ISO L2. Nie da się natomiast zrobić tego w przypadku tekstu ze znakami w standardzie ISO Latin 2, gdyż AOLpress zamienia "ś" i "Ś" na ten sam kod: &182;, co sprawia, że nie ma możliwości powrotu. Po co więc w ogóle zawracać sobie głowę takim edytorem? Otóż warto z niego korzystać, gdyż ma on najlepsze narzędzia budowy skomplikowanych tabel i można przy jego pomocy w łatwy sposób tworzyć tabele z łączonymi komórkami, rzędami i kolumnami - po prostu nie znalazłem niczego lepszego w tej dziedzinie (przynajmniej nie za darmo).
 

HOT JAVA?

     Gdy piszemy o sieci WWW, nie możemy pominąć milczeniem Javy. Gorąca Java trafia pod strzechy i do serc moich znajomych makowców i pc-towców, gdyż obiecuje bardzo wiele. A jednak na razie nie może trafić do mojego serca. Czy dlatego, że w ogóle nie lubię kawy? Otóż nie. To, co sprawia, że Java mnie nie grzeje, to brak w obecnym jej wcieleniu mechanizmów obsługi polskich liter oraz tragiczna powolność. Na razie więc wolę zaczekać, aż to cudowne dziecko Suna wydorośleje i nauczy się obcych języków.
 

UWAGI KOŃCOWE

     Nowe przeglądarki WWW można powiadomić o tym, jakie kodowanie liter spoza ASCII jest stosowane w dokumencie. W ten sposób przeglądarka automatycznie uruchamia właściwy mechanizm przekodowywania, niezależnie od tego, jaki tryb jest ustawiony przez użytkownika. Aby powiadomić o kodowaniu ISO Latin 2, wystarczy na początku dokumentu, po tagu <HEAD> napisać:
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=ISO-8859-2">.

     Należy pamiętać, by przygotowaną przez nas stronę z polskimi literami przenosić na serwer docelowy w trybie binarnym (8-mio bitowym), gdyż przy transmisji tekstowej (7-mio bitowej) efekt naszej pracy zostanie zniszczony przez obcięcie ósmego bitu i rezultat będzie opłakany - nie będzie polskich liter w żadnym standardzie. Jeśli do transmisji FTP używamy Fetcha to musimy ustawić transmisję binarną oraz w preferencjach Customize:Preferences...:Upload:Default text format  ustawić Raw Data  (do transmisji dołączonych plików graficznych należy również ustawić Raw Data  dla Default non-text format ). W programie Anarchie w menu FTP  należy ustawić tryb Binary.

Wszelkie uwagi na temat tego tekstu proszę kierować na adres: tkukiel@ire.pw.edu.pl


Original file name: artykuł.rtf.out

This page was created using TextToHTML. TextToHTML is a free software for Macintosh and is (c) 1995,1996 by Kris Coppieters