Uwaga:
Co robi z bdami (oznaczonymi nawiasami klamrowymi)?
Wyrzucenie caych form moe zepsu dziaanie taggera, a naprawianie
bdw moe by pracochonne (ok. 4 tysice oznacze).
Postuluj naprawia - otrzymujemy tekst gotowy do dalszego wykorzystania.
Tekst z bdami, nawet odzwierciedlajcymi posta materiau rdowego
ma znikom warto - jego wykorzystanie ogranicza si do prezentacji
tekstu rdowego w niezmienionej formie. Ale warto poczeka na nowsze 
pliki korpusu.


Pomys na sprawdzenie, czy na listach wystpuj wszystkie formy 
z tekstw sownika:

Utworzenie listy form wystpujcych w tekcie sownika frekwencyjnego
(poczone wszystkie pi stylw).
Formy sczytane z transz w specjalny sposb, posortowane, usunite 
duplikaty (formy s wpisywane na list z uwzgldnieniem "starych"
kodw oraz oznacze nazw wasnych i skrtowcw - takie oznaczenie 
spowoduje, e adna informacja nie zostanie stracona, bo formy oznaczone
tak samo s przecie jednoznaczne - tj. nie do odrnienia na poziomie
analizy automatycznej, bez kontekstu).
Dla czterech stylw otrzymujemy list ponad stu tysicy rnych form
(w tym 11 tys. nazw wasnych i znikoma liczba skrtowcw).
Na tym etapie ulegy te naprawie bdy w korpusie (poprawiem literwki, 
usunem bezsensowne znaki - wykaz zmian dla kadego ze stylw 
znajduje si w pliku 'poprawki.txt').

Rczne poprawki:

Rczne poprawki w kodach, dodanie oznacze nieodmiennych i nieznanych
zapisanych przez Kasi i tych ze sownika drukowanego; utworzenie listy 
form nieznanych (do otagowania przez lingwist) - moe nawet mona by 
zrobi list takich form wraz z kontekstem (np. 10 sw z kadej strony
z otoczenia), by jaki polonista mg si temu przyjrze
lub na tym etapie mona zdecydowa, e nie interesuj nas tak rzadkie
przypadki (skoro sprawiaj problemy, nie uywa si ich chyba zbyt czsto).
