Dobrym pomysem przy dopisywaniu hase moe by zapisywanie do osobnego
pliku wszystkich form z tekstu, dla ktrych na licie kodw nie ma
odpowiedniego zapisu. Ciekawe, jak duo ich bdzie?

Ciekawy blok (wczeniej jest blok o nagwku: 'linia'):
  0.00   0.00
    0    0   19    0    0   19 linie 112
    0    0    1    0    0    1 linie 142
    0    0    1    0    0    1 lini@e 
    0    0    4    0    0    4 linii 121
    0    0    5    0    0    5 linii 122
    0    0    1    0    0    1 linii 131
    0    0    4    0    0    4 linii 161
  441


Wykryty i poprawiony bd w pliku 04.pl - konieczne powtrne przeliczenie:
bd w nazwie zmiennej rodzaju, bdne kody 11- a nie 12-literowe.

Zaczem rczne dopisywanie rodzaju rzeczownikw, by przekona si,
jakie jeszcze problemy mog wynikn. Oto one:

Problemy z dopisywaniem rodzaju rzeczownikw:
- Z SAMa nawet dla liczby mnogiej dopisywane s rodzaje liczby pojedynczej:
  PAIFN, nie RO.
- Jakie dziaania maj sens dla nazw wasnych? Czsto jako nazwa wasna
  oznaczone s zoenia typu "Morze Beringa"

Niektre rodzaje problemw na przykadach:
- Dla nazw wasnych czsto trudno jest okreli 'rodzaj' - np. dla
  hasa 'agricola' bdzie pewnie mskoosobowy, ale co z hasami typu
  'bartek', 'batory', 'cerber' czy 'cezar'? Moe by te problem 
  z przymiotnikami w uyciu rzeczownikowym: 'centralny' (to moe by 
  o kierowniku albo o kotle).
- hasa pochodzenia obcego: 'izwiestia'.
  'izrael' - pastwo czy imi? podobnie 'jarosaw'
  'kuba' - ??? niszczyciel
  ponadto: nazwy pierwiastkw, imiona wasne homonimiczne
  z rzeczownikami pospolitymi;
  Zreszt - czy opis rodzaju jest w ogle do czego potrzebny?
  Moe opis za pomoc przypadka i liczby wystarczy do zapewnienia
  zgodnoci skadniowej i dlatego stare kody sownika nie zapisuj rodzaju?

A co robi w przypadku, gdy w tekcie rodzaj uyty jest bdnie
(np. 'izwiestia podaa, e ...')

Moe by te problem w uyciu nazwisk: np. 'Lewiski powiedziaa...'

W niektrych przypadkach niejednoznacznoci mona rozstrzygn 
na podstawie samych form, np. 'cassini' - nie wiadomo (moe by 
sonda Cassini), ale forma brzmi: 'cassiniego', wic rodzaj mskoosobowy; 
'kekkonen' - prezydent Finlandii lub jego ona pisarka, ale jest 
'kekkonena', wic te P, 'heidi' - raczej kobieta, ale jest 'heidiego',
wic P.

'krzyyki' z tak sam form hasow - wic jest to pewnie nazwa
miejscowoci -> T.

Uwaga na dziwne kodowanie hase o odmianie nieregularnej: 'ludzie'
to osobne haso (nie zwizane z hasem 'czowiek'), wic trzeba je
oznacza jako T, podobnie 'rodzice', 'lata'!

Dla nazwisk znanych osb dopisywaem kody zgodnie z zasad 
prawdopodobiestwa - 'einstein' to zapewne Albert, ale waciwie nie wiemy,
czy nie bya to jego matka.

Bardzo duo imion, dla ktrych dopisywanie kodw jest atwe.

W ogle - dopisywanie jest w duej mierze intuicyjne.


Statystyka obrbki rcznej:
- dopisane przeze mnie 5.000 kodw rodzajw rzeczownikowych,
- ok. 1.000 kodw form nieodmiennych i nie posiadajcych adnych
  kodw przetworzonych do postaci nowego tagsetu z plikw z dopisanymi
  kiedy przez Kasi kodami w stylu sownikowym (kod trzycyfrowy);
- dopisane przeze mnie 2.500 penych kodw rzeczownikw;


Cay plik z kodami liczy 100 tys. linii:
- 75 tys. linii kodw dopisanych cakowicie automatycznie:
  + 60 tys. poprawnych, jednoznacznych;
  + 15 tys. niejednoznacznosci - przybyo ich po uwzgldnieniu synkretyzmw;
    - 13 tys. przymiotnikw - niejednoznacznoci pochodz w prostej linii
      z SAMa, wic s 'waciwe' fleksyjnie, ale zawieraj wszystkie 
      SAMowe konwencje, a wiec m. in. podzia na trzy rodzaje mskie
      (6 500). Czy warto je rozstrzyga?
    - znikoma liczba liczebnikowych;
    - pozostae - rzeczowniki:
      + 1200 to problemy z woaczem - niemoliwe do opisania bez sprawdzenia
        w korpusie - ale moe woacz by zawsze kodowany rcznie?
        (800: miejscownik-woacz, 400: mianownik-woacz),
      + 500 - inne, np. dopeniacz z biernikiem.
- 22 tys. - za mao informacji, by program mg to zrobi samodzielnie:
  + 11 tys. linii - rzeczowniki i przymiotniki z brakujc kategori rodzaju.
    - 7 tys. rzeczownikw; kategoria rodzaju nie zmienia si w obrbie
      bloku, jeli wic w korpusie byo dodatkowe oznaczenie liczby,
      rodzaj mona dopisywa globalnie, tylko dla dla hase nagwkowych
      (5.300 linii);
      5.000 kodw dopisanych rcznie - zostay 2.000
    - 4 tys. przymiotnikw;
  + 11 tys. innych form.


Cel: Doprowadzenie do postaci kodowej z mniejsz liczb niejednoznacznoci
i bdw ni w pierwszej wersji.

Do poprawienia:
- kody form nieodmiennych, obecne w starej wersji pliku kodowego
  (dopisywane dla caych blokw na podstawie oznaczenia z nagwka),
  nie przepisana informacja z gwek,
- absorbowa - brak trybu,
- brak informacji ze starych kodw dla czasownikw!
- za analiza bezokolicznikw?
- by moe duo niezgodnoci (SPRAWDZENIE) bierze si z rnego
  kodowania imiesoww?
- jakie problemy z czasownikami - patrz 'zsiniay';
- jest co nie tak z dopisywaniem synkretyzmw biernika (i moe woacza)
  dla form liczby mnogiej ('codziennoci', 'cudownoci');
- synkretyzmy dopisywane s na podstawie analiz SAMa - jeli s one
  bdne, mog zosta bdnie rozszerzone;
- niejednoznacznoci mog bra si z SAMa - np. brygadzisty jest opisane
  jako forma deprecjatywna mianownika - trzeba by kodowa kategori
  deprecjatywnoci
- dodanie kodw czasownikw z korpusu (i sprawdzenie, jak byy opisywane
  czasowniki zoone)



Doda nowe kategorie:
- przypadki, z jakimi cz si przyimki (mog by zapisane w polu
  przypadka),
- imiesowy - jak przymiotniki i przyswki (jak w starym tagsecie)
- dodatkowe pole w tagsecie obejmujce dziwne warianty:
  + poprzyimkowo: po przyimkach 'mi' czy 'mnie',
  + akcentowo: 'przed' - 'przede'.

Sprawdzi formy:
- chlustali, chlustaa
- gmera, wszystkie z 'x'

Problemy przy dopisywaniu kodw:
- cudzysowy, spacje przed oznaczeniem nazwy wasnej, spacja przed
  otwierajcym nawiasem kwadratowym, bdne kody cyfrowe


Trzeba stworzy program dopisujcy (z osobnego pliku) do zbioru z kodami 
kody dopisane rcznie.

Na podstawie korpusu mona by przeprowadzi ciekawe badania dotyczce
np. czstoci wystpowania liter, par liter obok siebie, trjek itp.
W ten sposb mona by identyfikowa jzyk tekstu.


Oczywicie, trzeba pamita, e automatyczne dopisywanie kodw nie
gwarantuje stuprocentowej zgodnoci otrzymanych wynikw z powstaymi
w wyniku analizy przez czowieka. 

Z racji synkretyzmw form, z ktrych, jak si okazuje, nie wszystkie
zostay ujednoznacznione w trakcie tworzenia sownika, dane, ktrym
analizator przypisa wicej ni jedn interpretacj musz by 
ujednoznacznione przez czowieka. W niektrych przypadkach (nietypowe 
formy) nie jest to trudne.
