Locked History Actions

Diff for "LRT"

Differences between revisions 1 and 39 (spanning 38 versions)
Revision 1 as of 2011-02-28 17:54:09
Size: 2751
Comment:
Revision 39 as of 2011-04-13 21:46:39
Size: 6446
Comment:
Deletions are marked like this. Additions are marked like this.
Line 1: Line 1:
Strona zawiera informacje dotyczące zasobów i narzędzi związanych z przetwarzaniem języka naturalnego, które można uruchomić lokalnie lub poprzez internet. Strony WWW, opisujące jedynie działanie takich zasobów czy narzędzi lub podające jedynie przykłady ich działania, ale nie mające pełnej funkcjonalności ostatecznego produktu, nie są tutaj podane. Z kolei dowiązania do stron WWW przedstawiających istotne i pożyteczne próbki zasobów zostały tu umieszczone. Ponieważ kryteria wyboru prezentowanych poniżej zasobów nie są jednoznaczne, wszelkie uwagi mile widziane. = Language Tools and Resources for Polish =
Line 3: Line 3:
Korpusy tekstów języka polskiego:
 * Wersja [[http://www.mimuw.edu.pl/polszczyzna/pl196x/|Polskiego słownika frekwencyjnego]]
 * [[http://korpus.pwn.pl/|Korpus PWN]]
 * [[http://www.korpus.pl/|Korpus IPI PAN]]
 * [[http://www.staff.amu.edu.pl/~przemka/picle.html|Korpus PICLE]] (polska część korpusu International Corpus of Learner English; P. Kaszubski)
This page contains a list of ''publicly available'' language tools and resources.
Line 9: Line 5:
Analizatory morfologiczne / Słowniki fleksyjne:
 * Analizator morfologiczny [[http://sgjp.pl/morfeusz/|Morfeusz SGJP]
 * Analizator morfologiczny SAM-95 (K. Szafran)
 * Fleksyjna baza danych (W. Lubaszewski et al.; demo)
 * [[http://gram.neurosoft.pl/|Neurosoft Gram]] (demo)
 * Narzędzia Xerox (tokenizator, analizator morfologiczny, dezambiguator; demo)
 * [[http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.Daciuk/personal/fsa_polski.html|Narzędzia leksykalne wykorzystujące automaty skończone]] (J. Daciuk)
 * [[http://www.cs.put.poznan.pl/dweiss/xml/projects/lametyzator/index.xml?lang=en|lematyzator]] D. Weissa
 * [[http://getopt.org/stempel/|Stempel]], jeszcze jeden lematyzator (A. Białecki)
== Written corpora and corpus-related tools ==
 * [[http://nkjp.pl/index.php?page=0&lang=1|National Corpus of Polish]] (under development),
 * [[http://www.korpus.pl/index.php?lang=en|IPI PAN Corpus]],
 * [[http://korpus.pwn.pl/|PWN Corpus]],
 * [[http://korpus.ia.uni.lodz.pl/|PELCRA Corpus]],
 * [[Polish language of the XX century sixties]],
 * [[http://www.ijp-pan.krakow.pl/index2.php?strona=korpus_tekst_star|Old Polish corpus]],
 * [[http://ifa.amu.edu.pl/~ifaconc/blog/?page_id=60|PICLE corpus]] (the Polish sub-corpus of the [[http://www.fltr.ucl.ac.be/fltr/germ/etan/cecl/Cecl-Projects/Icle/icle.htm|International Corpus of Learner English]] (ICLE)),
 * [[http://poliqarp.sourceforge.net/|Poliqarp]] – a corpus indexing and search engine,
 * [[http://nlp.ipipan.waw.pl/Anotatornia/|Anotatornia]] – a system for multi-level manual annotation of corpora,
 * [[http://smyrna.danieljanus.pl/|Smyrna]] - a simple, light-weight Polish concordancer.
Line 19: Line 17:
Analizatory składniowe / Gramatyki elektroniczne:
 * Prototyp gramatyki HPSG języka polskiego (IPI PAN)
== Parallel corpora ==
 * [[http://opus.lingfil.uu.se/index.php|OPUS]] – an open source parallel corpus (European Parliament, EMEA, KDE, movie subtitles),
 * [[http://corpus.leeds.ac.uk/internet.html|Leeds collection of Internet corpora]],
 * [[http://korpus.hiztegia.org/|LAGUN corpus]],
 * [[http://langtech.jrc.it/JRC-Acquis.html|JRC-Acquis Multilingual Parallel Corpus]].
Line 22: Line 23:
Systemy tłumaczenia maszynowego (demo dostępne przez internet):
 * [[http://www.translatica.pl/|Translatica]] (dwukierunkowy angielsko-polski system tłumaczący)
 * [[http://www.tranexp.com/|InterTran]] (różne pary języków)
 * [[http://www.poltran.com/|LingvoBit]] (dwukierunkowy angielsko-polski system tłumaczący)
 * [[http://www.systran.co.uk/|Systran]] (z angielskiego na polski i z polskiego na francuski, oprócz innych par języków)
 * Thetos (system tłumaczący polski tekst na polski język migowy)
== Morphological tools and resources ==
 * [[http://sgjp.pl/morfeusz/|Morfeusz SGJP]] – morphological analyser (Z. Saloni, W. Gruszczyński, M. Woliński, R. Wołosz),
 * [[http://morfologik.blogspot.com/|Morfologik]] – morphological analyser (M. Miłkowski, D. Weiss),
 * [[ftp://ftp.mimuw.edu.pl/pub/users/polszczyzna/SAM-95/|SAM]] – morphological analyser (K. Szafran),
 * [[http://utt.amu.edu.pl/|UAM Text Tools]] (P. Obrębski, Z. Vetulani; see also [[http://utt.wmi.amu.edu.pl/trac/wiki/]]),
 * [[http://nlp.pwr.wroc.pl/redmine/projects/libpltagger/wiki|MACA]], Morphological Analysis Converter and Aggregator (A. Radziszewski, T. Śniatowski),
 * [[http://sgalus.republika.pl/indexe.html|Lexical analyser and a Polish proof-reader]] (S. Galus),
 * [[http://gram.neurosoft.pl/|Neurosoft Gram]] (demo of a morphological analyser),
 * [[http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.Daciuk/personal/fsa_polski.html|Finite state utilities]] (J. Daciuk),
 * [[http://getopt.org/stempel/|Stempel]], another stemmer (A. Białecki).
Line 29: Line 34:
Inne:
 * [[http://plwordnet.pwr.wroc.pl/wordnet|plWordNet]], polski WordNet (M. Piasecki)
 * [[http://www.mimuw.edu.pl/polszczyzna/kolokacje/index.htm|Kolokacje]], program do znajdowania kolokacji (A. Buczyński)
 * [[http://nlp.ipipan.waw.pl/CRIT2/|Zbiór zdań testowych języka polskiego IPI PAN]]
 * [[http://www.lingwistyka.uni.wroc.pl/bql/|Bibliografia polskiej lingwistyki kwantytatywnej]] (A. Pawłowski)
== Taggers ==
 * [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] – a morphosyntactic tagger for Polish,
 * [[http://code.google.com/p/pantera-tagger/|PANTERA]] – a morphosyntactic tagger for Polish,
 * a prototype [[http://nlp.ipipan.waw.pl/~adamp/msc/mastalerz.radomir/CD.tgz|implementation]] of Maximum Entropy tagging created within Radomir Mastalerz's [[http://nlp.ipipan.waw.pl/~adamp/msc/mastalerz.radomir/1000-MGR-INF-97543.pdf.gz|MSc]].

== Parsers, grammars, treebanks ==
 * [[http://nlp.ipipan.waw.pl/~wolinski/swigra/|Świgra]] – a DCG parser,
 * [[Spejd]] – a shallow parsing and disambiguation system,
 * [[http://sourceforge.net/projects/dendrarium/|Dendrarium]] – a treebank development system (under development),
 * [[http://nlp.ipipan.waw.pl/CRIT2/|A Treebank / Test Suite for Polish]].

== Machine-readable dictionaries ==
 * [[http://plwordnet.pwr.wroc.pl/wordnet|plWordNet, Polish WordNet]] (M. Piasecki),
 * [[http://synonimy.ux.pl/|Polish OpenThesaurus]] – a crowdsourced Polish thesaurus (M. Miłkowski),
 * [[http://www.sjp.pl/|Słownik języka polskiego (d. alternatywny)]] – Polish ispell dictionaries, along with some definitions and online form display.
 * [[http://www.ispan.waw.pl/zakjez/pracjcz/slowniki/slowniki.html|Słownik składniowy języka polskiego]] (Z. Greń),
/* * [[http://home.agh.edu.pl/~bziolko/dokuwiki/lib/exe/fetch.php?media=art:ziolkofull.pdf|N-gram model of Polish]] (B. Ziółko, D. Skurzok) */

== Human-readable dictionaries ==
 * [[http://www.wsjp.pl/|Wielki Słownik Języka Polskiego]],
 * [[http://pl.wiktionary.org|Wikisłownik]],
 * [[http://www.slownik-online.pl/index.php|Słownik wyrazów obcych i zwrotów obcojęzycznych Władysława Kopalińskiego]],
 * [[http://leksykony.interia.pl/synonim|Słownik synonimów i antonimów Piotra Żmigrodzkiego]].

== Speech analysis and synthesis tools ==
 * [[http://skrybot.pl/en/products/skrybot-home-speech-recognition/|Skrybot]] - commercial speech recognition system (L. Pawlaczyk, P. Bosky)
 * [[http://www.ivona.com/|Ivona]] - commercial text-to-speech system (Expressivo)
/* * [[http://home.agh.edu.pl/~bziolko/dokuwiki/lib/exe/fetch.php?media=art:4154a450.pdf|ASR]] – an automatic speech recognition system for Polish (M. Ziółko, J.Gałka, B. Ziółko, T. Jadczyk, D. Skurzok). */
/* * [[http://home.agh.edu.pl/~bziolko/dokuwiki/lib/exe/fetch.php?media=art:anotator.pdf|Anotator]] – a fast speech corpora anotator dedicated for Polish and focused on connecting existing resources (B. Ziółko, B. Miga). */

== Machine translation demonstrations ==
 * [[http://www.translatica.pl/|Translatica]] (EN-PL-EN),
 * [[http://www.microsofttranslator.com/|Bing Translator]] (multilingual),
 * [[http://translate.google.com/|Google Translate]] (multilingual),
 * [[http://www.tranexp.com/|InterTran]] (multilingual),
 * [[http://www.poltran.com/|LingvoBit]] (EN-PL-EN),
 * [[http://www.systran.co.uk/|Systran]] (EN-PL, PL-FR and some more),
 * [[http://www.xdobry.de/esperantoedit/index_pl.html|Esperantilo]] (integrated Esperanto editor, with MT for EO-PL-DE-EN-SV)
 * [[http://thetos.aei.polsl.pl/|Thetos]] (PL-Sign language).

== Other ==
 * [[http://www.mimuw.edu.pl/polszczyzna/kolokacje/index.htm|Kolokacje]], a Web crawler and collocation finder (A. Buczyński),
 * [[http://nlp.ipipan.waw.pl/WSDDE/|WSDDE]] – a system for designing and performing Word Sense Disambiguation experiments (R. Młodzki ''et al.''),
 * [[http://segment.sourceforge.net/|Segment]], a rule-based sentence tokenizer supporting SRX standard (J. Lipski; the Polish rules are available in [[http://languagetool.svn.sourceforge.net/viewvc/languagetool/trunk/JLanguageTool/src/resource/segment.srx|LanguageTool project]]),
 * [[http://www.cs.put.poznan.pl/dweiss/research/lakon/|Lakon]], a system for news summarization (master's thesis by A. Dudczak).

Language Tools and Resources for Polish

This page contains a list of publicly available language tools and resources.

Parallel corpora

Morphological tools and resources

Taggers

  • TaKIPI – a morphosyntactic tagger for Polish,

  • PANTERA – a morphosyntactic tagger for Polish,

  • a prototype implementation of Maximum Entropy tagging created within Radomir Mastalerz's MSc.

Parsers, grammars, treebanks

Machine-readable dictionaries

Human-readable dictionaries

Speech analysis and synthesis tools

  • Skrybot - commercial speech recognition system (L. Pawlaczyk, P. Bosky)

  • Ivona - commercial text-to-speech system (Expressivo)

Machine translation demonstrations

Other

  • Kolokacje, a Web crawler and collocation finder (A. Buczyński),

  • WSDDE – a system for designing and performing Word Sense Disambiguation experiments (R. Młodzki et al.),

  • Segment, a rule-based sentence tokenizer supporting SRX standard (J. Lipski; the Polish rules are available in LanguageTool project),

  • Lakon, a system for news summarization (master's thesis by A. Dudczak).