Dawny format wynikowy pliku z dopisanymi kodami - jak zrodlowy 
(kody w nawiasach kwadratowych, pozostawione wszystkie oznaczenia 
nieliczbowe procz informacji o nazwach wlasnych i skrotowcach, 
bo te s juz zawarte w nowym tagsecie).

Formy niejednoznaczne maja kilka kodow, oddzielonych slashami.

Problemy:
- brak kodow z racji niedostatecznej informacji SAMa (brak klasyfikacji
  nieodmiennych);
- znaki X w kodach - niedostateczna informacja (np. forma oznaczona w pewien
  sposob w korpusie, lecz nie znana SAMowi -> powstaje kod czastkowy).

W pliku z kodami jest 130 tys. linii (form). 
Wsrod nich jest ok. 20 tys. wierszy z iksami (nieznana kategoria)
i ok. 10 tys. wierszy z ukosnikami (wiele mozliwych kategorii).

Wsrod nich oczywiscie znajduje sie wiele form tego samego hasla,
wiec w rzeczywistosci problem sprowadza sie do jednej decyzji dla wielu
hasel i pracy jest duzo mniej - co najmniej o polowe.

Zrobi prb: sczyta do pliku, a nastpnie posortowa wszystkie sowa
z wszystkich stylw. Zapisa je w postaci lewej strony listy kodw,
a wic "aaar+123" itp. Usun duplikaty. Poprawnie osbuy formy
wielowyrazowe - np. drugim przebiegiem, dzielc plik na czci oddzielone 
plusami. W ten sposb otrzymamy list wszystkich sw w ksztacie takim,
jaki jest w korpusie.
