Format pliku z dopisanymi kodami - jak zrodlowy (kody w nawiasach
kwadratowych, pozostawione wszystkie oznaczenia nieliczbowe procz informacji 
o nazwach wlasnych i skrotowcach, bo te s juz zawarte w nowym tagsecie).

Formy niejednoznaczne maja kilka kodow, oddzielonych slashami.

Problemy:
- brak kodow z racji niedostatecznej informacji SAMa (brak klasyfikacji
  nieodmiennych);
- znaki X w kodach - niedostateczna informacja (np. forma oznaczona w pewien
  sposob w korpusie, lecz nie znana SAMowi -> powstaje kod czastkowy).
- brak wygodnego zapisu form wielowyrazowych ('na zawsze', 'po prostu');
  teraz: na[...] [+] zawsze[...]

W pliku z kodami jest 130 tys. linii (form). 
Wsrod nich jest ok. 20 tys. wierszy z iksami (nieznana kategoria)
i ok. 10 tys. wierszy z ukosnikami (wiele mozliwych kategorii).

Wsrod nich oczywiscie znajduje sie wiele form tego samego hasla,
wiec w rzeczywistosci problem sprowadza sie do jednej decyzji dla wielu
hasel i pracy jest duzo mniej - co najmniej o polowe.
