Size: 2818
Comment:
|
Size: 3376
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 1: | Line 1: |
## page was renamed from Zasoby ## page was renamed from zasoby Strona zawiera informacje dotyczące zasobów i narzędzi związanych z przetwarzaniem języka naturalnego, które można uruchomić lokalnie lub poprzez internet. Strony WWW, opisujące jedynie działanie takich zasobów czy narzędzi lub podające jedynie przykłady ich działania, ale nie mające pełnej funkcjonalności ostatecznego produktu, nie są tutaj podane. Z kolei dowiązania do stron WWW przedstawiających istotne i pożyteczne próbki zasobów zostały tu umieszczone. Ponieważ kryteria wyboru prezentowanych poniżej zasobów nie są jednoznaczne, wszelkie uwagi mile widziane. |
= Language Tools and Resources for Polish = |
Line 5: | Line 3: |
Korpusy tekstów języka polskiego: * Wersja [[http://www.mimuw.edu.pl/polszczyzna/pl196x/|Polskiego słownika frekwencyjnego]] * [[http://korpus.pwn.pl/|Korpus PWN]] * [[http://www.korpus.pl/|Korpus IPI PAN]] * [[http://www.staff.amu.edu.pl/~przemka/picle.html|Korpus PICLE]] (polska część korpusu International Corpus of Learner English; P. Kaszubski) |
== Written corpora and corpus-related tools == * [[http://nkjp.pl/index.php?page=0&lang=1|National Corpus of Polish]] (under development), * [[http://www.korpus.pl/index.php?lang=en|IPI PAN Corpus]], * [[http://korpus.pwn.pl/|PWN Corpus]], * [[http://korpus.ia.uni.lodz.pl/|PELCRA Corpus]], * [[http://www.mimuw.edu.pl/polszczyzna/pl196x/index_en.htm|Polish language of the XX century sixties]], * [[http://ifa.amu.edu.pl/~ifaconc/blog/?page_id=60|PICLE corpus]] (the Polish sub-corpus of the [[http://www.fltr.ucl.ac.be/fltr/germ/etan/cecl/Cecl-Projects/Icle/icle.htm|International Corpus of Learner English]] (ICLE), * [[http://poliqarp.sourceforge.net/|Poliqarp]] – a corpus indexing and search engine, * [[http://nlp.ipipan.waw.pl/Anotatornia/|Anotatornia]] – a system for multi-level manual annotation of corpora. |
Line 11: | Line 13: |
Analizatory morfologiczne / Słowniki fleksyjne: * Analizator morfologiczny [[http://sgjp.pl/morfeusz/|Morfeusz SGJP]] * Analizator morfologiczny SAM-95 (K. Szafran) * Fleksyjna baza danych (W. Lubaszewski et al.; demo) * [[http://gram.neurosoft.pl/|Neurosoft Gram]] (demo) * Narzędzia Xerox (tokenizator, analizator morfologiczny, dezambiguator; demo) * [[http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.Daciuk/personal/fsa_polski.html|Narzędzia leksykalne wykorzystujące automaty skończone]] (J. Daciuk) * [[http://www.cs.put.poznan.pl/dweiss/xml/projects/lametyzator/index.xml?lang=en|lematyzator]] D. Weissa * [[http://getopt.org/stempel/|Stempel]], jeszcze jeden lematyzator (A. Białecki) |
== Parallel corpora == * [[http://opus.lingfil.uu.se/index.php|OPUS]] – an open source parallel corpus (European Parliament, EMEA, KDE, movie subtitles), * [[http://corpus.leeds.ac.uk/internet.html|Leeds collection of Internet corpora]], * [[http://korpus.hiztegia.org/|LAGUN corpus]], * [[http://langtech.jrc.it/JRC-Acquis.html|JRC-Acquis Multilingual Parallel Corpus]], |
Line 21: | Line 19: |
Analizatory składniowe / Gramatyki elektroniczne: * Prototyp gramatyki HPSG języka polskiego (IPI PAN) |
== Morphological tools and resources == * [[http://sgjp.pl/morfeusz/|Morfeusz SGJP]] – morphological analyser (Z. Saloni, W. Gruszczyński, M. Woliński, R. Wołosz), * [[http://morfologik.blogspot.com/|Morfologik]] – morphological analyser (M. Miłkowski), * [[http://sgalus.republika.pl/indexe.html]] – lexical analyser and a Polish proof-reader (S. Galus), * [[http://gram.neurosoft.pl/|Neurosoft Gram]] (demo of a morphological analyser), * [[http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.Daciuk/personal/fsa_polski.html|Finite state utilities ]] (J. Daciuk), * [[http://www.cs.put.poznan.pl/dweiss/xml/projects/lametyzator/index.xml?lang=en|Stemming engine for Polish ]] (D. Weiss), * [[http://getopt.org/stempel/|Stempel]], another stemmer (A. Białecki). |
Line 24: | Line 30: |
Systemy tłumaczenia maszynowego (demo dostępne przez internet): * [[http://www.translatica.pl/|Translatica]] (dwukierunkowy angielsko-polski system tłumaczący) * [[http://www.tranexp.com/|InterTran]] (różne pary języków) * [[http://www.poltran.com/|LingvoBit]] (dwukierunkowy angielsko-polski system tłumaczący) * [[http://www.systran.co.uk/|Systran]] (z angielskiego na polski i z polskiego na francuski, oprócz innych par języków) * Thetos (system tłumaczący polski tekst na polski język migowy) |
== Taggers == * [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] – a morphosyntactic tagger for Polish, * [[http://code.google.com/p/pantera-tagger/|PANTERA]] – a morphosyntactic tagger for Polish, |
Line 31: | Line 34: |
Inne: * [[http://plwordnet.pwr.wroc.pl/wordnet|plWordNet, polski WordNet]] (M. Piasecki) * [[http://www.mimuw.edu.pl/polszczyzna/kolokacje/index.htm|Kolokacje]], program do znajdowania kolokacji (A. Buczyński) * [[http://nlp.ipipan.waw.pl/CRIT2/|Zbiór zdań testowych języka polskiego IPI PAN]] * [[http://www.lingwistyka.uni.wroc.pl/bql/|Bibliografia polskiej lingwistyki kwantytatywnej]] (A. Pawłowski) |
== Parsers, grammars, treebanks == * [[http://nlp.ipipan.waw.pl/~wolinski/swigra/|Świgra]] – a DCG parser, * [[http://nlp.ipipan.waw.pl/Spejd/|Spejd]] – a shallow parsing and disambiguation system, * [[http://sourceforge.net/projects/dendrarium/|Dendrarium]] – a treebank development system (under development), * [[http://nlp.ipipan.waw.pl/CRIT2/|A Treebank / Test Suite for Polish]]. == Machine translation demonstrations == * [[http://www.translatica.pl/|Translatica]] (EN-PL-EN), * [[http://www.tranexp.com/|InterTran]] (multilingual), * [[http://www.poltran.com/|LingvoBit]] (EN-PL-EN), * [[http://www.systran.co.uk/|Systran]] (EN-PL, PL-FR and some more). == Other == * [[http://plwordnet.pwr.wroc.pl/wordnet|plWordNet, Polish WordNet]] (M. Piasecki), * [[http://www.mimuw.edu.pl/polszczyzna/kolokacje/index.htm|Kolokacje]], a Web crawler and collocation finder (A. Buczyński) * [[http://nlp.ipipan.waw.pl/WSDDE/|WSDDE]] – a system for designing and performing Word Sense Disambiguation experiments (forthcoming), * [[http://nlp.ipipan.waw.pl/PPJP/|etc.]] |
Language Tools and Resources for Polish
Written corpora and corpus-related tools
National Corpus of Polish (under development),
PICLE corpus (the Polish sub-corpus of the International Corpus of Learner English (ICLE),
Poliqarp – a corpus indexing and search engine,
Anotatornia – a system for multi-level manual annotation of corpora.
Parallel corpora
OPUS – an open source parallel corpus (European Parliament, EMEA, KDE, movie subtitles),
Morphological tools and resources
Morfeusz SGJP – morphological analyser (Z. Saloni, W. Gruszczyński, M. Woliński, R. Wołosz),
Morfologik – morphological analyser (M. Miłkowski),
http://sgalus.republika.pl/indexe.html – lexical analyser and a Polish proof-reader (S. Galus),
Neurosoft Gram (demo of a morphological analyser),
[[http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.Daciuk/personal/fsa_polski.html|Finite state utilities
]] (J. Daciuk),
[[http://www.cs.put.poznan.pl/dweiss/xml/projects/lametyzator/index.xml?lang=en|Stemming engine for Polish
]] (D. Weiss),
Stempel, another stemmer (A. Białecki).
Taggers
Parsers, grammars, treebanks
Świgra – a DCG parser,
Spejd – a shallow parsing and disambiguation system,
Dendrarium – a treebank development system (under development),
Machine translation demonstrations
Translatica (EN-PL-EN),
InterTran (multilingual),
LingvoBit (EN-PL-EN),
Systran (EN-PL, PL-FR and some more).
Other
plWordNet, Polish WordNet (M. Piasecki),
Kolokacje, a Web crawler and collocation finder (A. Buczyński)
WSDDE – a system for designing and performing Word Sense Disambiguation experiments (forthcoming),