Spejd 0.8.4 Copyright (C) IPI PAN, 2007-2010. Wszelkie prawa zastrzeżone. Spejd jest rozprowadzany na warunkach Powszechnej Licencji Publicznej GNU (GNU GPL); patrz plik doc/gpl.txt O PROGRAMIE Spejd to Składniowy Parser (Ewidentnie Jednocześnie Dezambiguator). Spejd jest parserem powierzchniowym, umożliwiającym jednoczesne identyfikowanie konstrukcji składniowych i ujednoznacznianie wyników analizy morfologicznej, opracowanym w Instytucie Podstaw Informatyki PAN. Strona o Spejdzie: http://nlp.ipipan.waw.pl/Spejd/ Ostatnie wersje: 0.8.4: bugfix 0.8.3: bugfix 0.8.2: bugfix 0.8.1: Zmiany w porównaniu z ostatnią stabilną wersją programu obejmują między innymi: - Zintegrowany z programem moduł przetwarzania czystego tekstu oraz analizator morfosyntaktyczny Morfologik (http://morfologik.blogspot.com/). Moduł przetwarzania czystego tekstu wymaga, aby pliki wejściowe posiadały rozszerzenie .txt oraz kodowanie znaków określone przez parametr inputEncoding w pliku konfiguracyjnym. Przetwarzanie czystego tekstu określa parametr inputType (auto lub txt). - Równoległe przetwarzanie (efekty widoczne na maszynach wieloprocesorowych). Liczba wątków przetwarzających określona jest parametrem maxThreads w pliku konfiguracyjnym. - Nieskomplikowany moduł korekty pisowni, a zwłaszcza braku polskich znaków diakrytycznych ("ogonków"). Listę przekształceń zawiera plik ogonkifier.ini. - Zmiany opisane w doc/changes0_5.txt. WYMAGANIA Sun Java Runtime Environment w wersji 1.5 lub wyższej. Uwaga: program może dać się uruchomić na alternatywnych implementacjach Javy, jednak ze względu na różnice w implementacji wyrażeń regularnych, nie możemy zagwarantować jego poprawnego działania. INSTALACJA Wystarczy rozpakować plik z programem do dowolnie wybranego katalogu. WYWOŁANIE PROGRAMU java -jar spejd.jar sciezka [opcje] Gdzie: - sciezka - plik lub katalog zawierający pliki do przetworzenia w formacie XML CES (.xml) lub tekstowym (.txt); dodatkowo, parsowane bedą tylko pliki pasujące do wzorca zdefiniowanego w config.ini (parametr inputFiles); podkatalogi bedą sprawdzane rekurencyjnie). - opcje - opcjonalny ciąg argumentów postaci zmienna=wartość; zmienne odpowiadają zmiennym z pliku config.ini, wartości przekazane jako parametr wywołania "nadpisują" konfigurację domyślną z pliku Przykłady: java -jar spejd.jar corpus nullAgreement=1 java -jar spejd.jar corpus rules=rules2.sr logDir=log2 java -jar spejd.jar corpus discardDeleted=true outputSuffix=.sh2.xml WYNIKI W przypadku plików xml, dla każdego podkatalogu, w którym znaleziony zostanie plik.xml lub plik.xml.gz, tworzony jest plikSh.xml, który stanowi kopię plik.xml z przydzielonymi identyfikatorami, oznakowanymi wyrazami i grupami składniowymi. W przypadku plików tekstowych tworzony jest nowy plik xml. W podkatalogu log generowane są ponadto następujące pliki: rules.compiled - skompilowany zbiór reguł rules.matched.csv - statystyki reguł: dla każdej reguły podawana jest liczba ukończonych (ewaluowanych do true) dopasowań, liczba dopasowań w ogóle, czas dopasowywania, czas ewaluacji, łączny czas tagdict.ini - słowniczek tłumaczeniowy z tagsetu zdefiniowanego w pliku konfiguracyjnym na wewnętrzny format pozycyjny DOKUMENTACJA doc/spade.pdf - artykuł o Spejdzie doc/xcesAnaIPI.dtd - DTD wejściowego formatu plików api/ - dokumentacja techniczna PRZYKŁAD ./sample-morfeusz.cfg - przykładowy tagset Morfeusza ./sample-morfologik.cfg - przykładowy tagset Morfologika (wymagany dla plików tekstowych) ./rules.sr - przykładowy zbiór reguł doc/morph.xml - przykładowe wejście (XML) do parsera doc/morphSh.xml - przykładowe wyjście doc/display.* - arkusze stylów i przykładowe wyjście KONTAKT Pytania, uwagi, nowe lepsze wersje Spejda można umieszczac na bugtrackerze Spejda na sourceforge (link ze strony domowej).