pl en
NKJP logo
Narodowy Korpus Języka Polskiego

konsorcjum

IPI PAN PWN UŁ IJP PAN

O projekcie NKJP

Korpus językowy to zbiór tekstów, w którym szukamy typowych użyć słów i konstrukcji oraz innych informacji o ich znaczeniu i funkcji. Bez dostępu do korpusu nie da się dziś prowadzić badań językoznawczych, pisać słowników ani podręczników języków obcych, tworzyć wyszukiwarek uwzględniających polską odmianę, tłumaczy komputerowych ani innych programów zaawansowanej technologii językowej. Korpus jest niezbędny do pracy językoznawcom, ale korzystają zeń często także informatycy, historycy, bibliotekarze, badacze literatury i kultury oraz specjaliści z wielu innych dziedzin humanistycznych i informatycznych.

Swoje korpusy narodowe mają już Brytyjczycy, Niemcy, Czesi i Rosjanie. Także Polakom potrzebny jest wielki, zrównoważony gatunkowo i tematycznie, korpus językowy – internetowy skarbiec polszczyzny.

Narodowy Korpus Języka Polskiego jest wspólną inicjatywą Instytutu Podstaw Informatyki PAN (koordynator), Instytutu Języka Polskiego PAN, Wydawnictwa Naukowego PWN oraz Zakładu Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego, zarejestrowaną jako projekt badawczy rozwojowy Ministerstwa Nauki i Szkolnictwa Wyższego.

Te cztery instytucje wspólnie budują korpus referencyjny polszczyzny wielkości kilkuset milionów słów. Korpus, który pojawi się niebawem na tej stronie, można będzie przeszukiwać zaawansowanymi narzędziami uwzględniającymi odmianę polskich wyrazów, a nawet analizującymi budowę polskich zdań.

Lista źródeł korpusu zawiera nie tylko klasykę literatury polskiej, ale też prasę codzienną i specjalistyczną, nagrania rozmów, teksty ulotne i internetowe. Zróżnicowanie tematyczne i gatunkowe tekstów, dbałość o reprezentację rozmówców obu płci, w różnym wieku i z różnych regionów, są dla wiarygodności korpusu równie ważne jak jego wielkość.

Zachęcamy wszystkich do korzystania z Narodowego Korpusu Języka Polskiego oraz do współtworzenia go. Będziemy wdzięczni wszystkim autorom, wydawcom książek, gazet i czasopism za dostarczanie tekstów do korpusu. Teksty będą rozpowszechniane wyłącznie jako cytaty ilustrujące znaczenie lub funkcję gramatyczną wyrazów i konstrukcji.

© Narodowy Korpus Języka Polskiego 2008-2010
Praca naukowa finansowana ze środków na naukę
w latach 2007-2010 jako projekt rozwojowy.
design by enkrotka