Por.Bwnanie wersji korpusu.

miaem:
(to jeszcze nie ma informacji bibliograficznych)

-rw-r--r--    1 marcin   marcin     846955 lip 24  1993 DRAMAT.DAT
-rw-r--r--    1 marcin   marcin     960591 lip 23  1993 POPUL.DAT
-rw-r--r--    1 marcin   marcin     985150 lip 23  1993 PRASA.DAT
-rw-r--r--    1 marcin   marcin     930703 lip 24  1993 PROZA.DAT
-rw-r--r--    1 marcin   marcin     972327 lip 24  1993 PUBLI.DAT 

Maciek przysa1 marca:

-rw-rw-rw-    1 marcin   marcin    1136466 maj 22  2000 a-publi.txt
-rw-rw-rw-    1 marcin   marcin    1206571 lut  2 16:38 b-prasa.txt
-rw-rw-rw-    1 marcin   marcin    1205570 lip 10  2000 c-popul.txt
-rw-rw-rw-    1 marcin   marcin    1155739 sie  5  2000 d-proza.txt
-rw-rw-rw-    1 marcin   marcin    1140912 cze  8  2000 e-dramat.txt

Liczba prbek:

najwyszy numer |      ile prbek:
		v      stary:  Maka:
PUBLI.DAT     2000	 1995  2000
PRASA.DAT     2080	 2033  2080-19 [brak fiszki]
POPUL.DAT     2000	 1974  2000
PROZA.DAT     2000	 1988  2000
DRAMAT.DAT    2000	 1989  2000

Grepy na korpusie Maka:
(W plikach kady akapit jest w jednym wierszu).

egrep -v '[[~]' *
a-publi.txt:<publi>
b-prasa.txt:<prasa>
e-dramat.txt:Wyt3umacz mi, co to jest ,,dziurka bzdurka''! Uspoksj sij, moje dziecko. ,,Des'' jest to obni?ony chromatycznie drugi stopieq skali diatonicznej ,,Des-dur'', tonacja natomiast to po prostu gama opatrzona pijcioma bemolami jako znakami przykluczowymi.
e-dramat.txt:

Cigw sw bez kodw nie stanowicych caych akapitw jest wicej.
Np.

egrep -ci '([a-z󎳎񎼎]+ ){15,}' * 
a-publi.txt:0
b-prasa.txt:0
c-popul.txt:0
d-proza.txt:1
e-dramat.txt:6

egrep -ci '([a-z󎳎񎼎]+ ){9,}' * 
a-publi.txt:2
b-prasa.txt:2
c-popul.txt:8
d-proza.txt:9
e-dramat.txt:84

Wikszo掠stanowi koce prbek --- zapewne dopisane przez poprawiaczy.

Prbki, ktrych brakowao w ,,starej'' wersji wydajsiꎠw zasadzie
mie掠kody gramatyczne.  (Czyli braki tylko, gdy dopisywany byz
papieru obcity ,,ogon'' prbki.  Czy kody byy na papierowych
fiszkach???)
