Język polski w świetle statystyk

29 sierpnia 2013 JezykoznawstwoOpracowania  Brak komentarzy

1. Częstość fonemów 

 • Fonologia jest – obok leksyki – najlepiej opracowanym statystycznie podsystemem języka polskiego.
 • Najczęstsze są samogłoski średnie /e/, /o/ oraz niska /a/, natomiast wysokie /i/, /y/, /u/ – jako trudniejsze artykulacyjnie – są rzadsze.
 • Struktura statystyczna inwentarza fonemów w jest polszczyźnie względnie stała i niezależna od pisanej lub ustnej odmiany języka.
 • Struktura inwentarza fonemów jest względnie stała także w różnych stylach języka – jest to cecha nie tylko polszczyzny, ale także innych języków indoeuropejskich.

 

2. Częstość liter oraz połączeń wyrazowych

 • Probabilistyczna struktura języka jest ważna z punktu widzenia procesu komunikacji – decyduje o stopniu przewidywalności jednostek w tekście, dzięki temu pozwala rozumieć teksty uszkodzone i niepełne.
 • Najczęstszą literą jest i – wynika to z wielości jej funkcji: oznaczenie głoski /i/ oraz oznaczenie miękkości.

 

3. Entropia i redundancja w języku. Polszczyzna jako język spółgłoskowy

 • W polskim tekście pisanym znacznie łatwiej dają się zrekonstruować opuszczone litery samogłoskowe niż spółgłoskowe.
 • Samogłoski w polskim tekście są bardzo łatwo przewidywalne na podstawie kontekstu – maja więc dużą redundancję, a małą entropię
 • Przewidywalność spółgłosek jest o wiele mniejsza – a więc mniejsza jest ich redundancja, większa zaś entropia.
 • Entropia – jest to przeciętna ilość informacji przypadająca na jeden sygnał. Jej jednostką jest 1 bit, czyli ilość informacji, jaką niesie jeden z dwu sygnałów jednakowo prawdopodobnych.

 

4. Struktura informacyjna tekstu

 • Pojęcie entropii można także wykorzystać do wyznaczania granic elementów tekstu – np. wyrazów, morfemów, sylab.
 • Maksymalną entropią – największą nieprzewidywalnością – odznaczają się początek tekstu oraz początkowe litery wyrazu.
 • Tę własność języka wykorzystuje się tworząc skróty typu prof., doc., gen., tzw., np., a także skrótowce literowe, głoskowe i sylabowe.
 • Najmniejszą entropię mają środkowe części wyrazów – stąd tworzy się skróty typu dr, mgr, W-wa.

 

5. Probabilistyczny model tworzenia tekstu

 • Tworzenie pisanego tekstu języka naturalnego polega na tworzeniu określonych sekwencji liter.
 • W procesie tworzenia tekstu dużą rolę odgrywa struktura probabilistyczna elementów tekstu, np. liter.
 • Wpływ czynnika statystycznego jest ograniczony, gdyż w procesie tworzenia tekstu ważniejsze są czynniki gramatyczne, semantyczne i pragmatyczne.

 

6. Statystyka części mowy w słowniku i w tekstach

 • W słowniku najliczniejszą klasą części mowy jest rzeczownik (ponad połowa). Towarzyszący mu przymiotnik stanowi jedną piątą część słownika, podobnie czasownik. Wyrazy gramatyczne to niespełna 2%.
 • W tekstach najliczniejszą klasą części mowy są wyrazy gramatyczne – spójniki, przyimki, zaimki – stanowiące Az trzecią część każdego tekstu. Ranga samodzielnych części mowy jest tu niższa.
 • Rzeczowniki tworzą trzon słownika, natomiast słownictwo gramatyczne stanowi niezbędny kościec gramatyczny zdań.
 • Wśród stylów pisanych uwidacznia się nominalny charakter (duży udział rzeczowników i przymiotników) stylu popularnonaukowego, drobnych wiadomości prasowych i publicystyki.
 • Natomiast proza artystyczna i dramat mają charakter werbalny – udział czasowników i przysłówków.
 • Teksty ustne są raczej werbalne niż nominalne.

 

7. Liczebność typów słowotwórczych

 • Informacje prefiksalne są charakterystyczne dla języka mówionego oraz stylów prozy i dialogu artystycznego.
 • W tekstach tych dominuje przede wszystkim przedrostek po-, natomiast dla prozy artystycznej charakterystyczny jest przedrostek za-.
 • W stylu popularnonaukowym na pierwszym miejscu stoi przedrostek s-/z-.
 • Te trzy przedrostki są najczęstsze także w pozostałych stylach – a więc we współczesnej polszczyźnie czasowniki prefiksalne są zazwyczaj tworzone przez przedrostki po-, za-, s-/z-, w-.

 

8. Liczebność składników zdania

 • Zależność między liczbą składników w zdaniu pojedynczym a liczba zdań pojedynczych w zdaniu złożonym zmieniała się w historii języka polskiego od XVI do XX wieku.
 • Rosła liczba składników zdania pojedynczego i wraz z nią liczba stopni wewnętrznej podrzędności.
 • Malała złożoność zdań wchodzących w skład zdań złożonych.
 • Typowe zdanie retoryki staropolskiej – to zdanie wielokrotnie złożone, zbudowane z krótkich zdań składowych z czasownikiem w roli głównej.
 • Typowe zdanie współczesnych przemówień – to zdanie dwukrotnie złożone, zbudowane z długich zdań składowych z rzeczownikami w roli głównej.
 • W prozie XX wieku udział hipotaksy wielopiętrowej jest o wiele mniejszy, znaczniejszy jest udział hipotaksy dwupiętrowej.
 • Wydłuża się natomiast średnia długość zdania.
 • Rozwój polskiej składni przebiegał od przewagi konstrukcji werbalnych i wielopiętrowej hipotaksy do przewagi konstrukcji nominalnych i uproszczonej hipotaksy połączonej ze wzrostem pojemności wewnętrznej zdania pojedynczego.

 

9. Liczebność słownictwa w języku i słownikach

 • Liczebność słownictwa w danym języku jest wielkością trudną do ustalenia – słownictwo to zbiór otwarty i ulegający ciągłym zmianom.
 • Słownik języka polskiego Witolda Doroszewskiego – 11 tomów, największy zarejestrowany zbiór wyrazów języka polskiego – około 130 000 jednostek.
 • Słownik języka polskiego Mieczysława Szymczaka – 3 tomy, około 70 000 wyrazów.
 • Słownik czynny, jaki tworzą wyrazy znane i używane przez przeciętnego użytkownika ze średnim wykształceniem obejmuje około 15-20 tys. wyrazów.

 

10. Częstości wyrazów i „sfery leksyki”

 • Słownik frekwencyjny polszczyzny współczesnej – podaje częstości poszczególnych wyrazów, oparty na tekstach mówionych.
 • Wyrazy najczęstsze – to jednostki gramatyczne, najkrótsze i najstarsze:

 przyimki w, na, z;

  spójniki i, że;

  czasowniki być, mieć, móc;

  rzeczowniki pan, rok, sprawca;

  przymiotniki inny, nasz;

  przysłówek bardzo;

 • Wyrazy najrzadsze – są najdłuższe i pełnoznaczne (nie ma więc wśród nich słownictwa gramatycznego), występują tu też derywaty i neologizmy.
 • W Słowniku frekwencyjnym… podano obok frekwencji F także wskaźnik dyspersji D – jako miarę równomierności rozkładu częstości.
 • Wskaźniki te pozwalają na wydzielenie czterech sfer leksyki:

1)      Słownictwo gramatyczne – wyrazy o największych częstościach.

2)      Słownictwo podstawowe – wyrazy autosemantyczne, mające bardzo wysoką częstość i dość dużą równomierność rozkładu D > 50, występują równomiernie we wszystkich stylach, należą tu:

o   rzeczowniki: człowiek, związek, sprawa, miejsce, część

o   czasowniki: znać, istnieć;

o   przymiotniki: główny, inny;

o   przysłówki: bardzo, daleko, często;

3)      Słownictwo charakterystyczne – hasła częste, ale ograniczone w swym występowaniu do jednego lub dwóch stylów funkcjonalnych, F > 10, D < 50, np. atom, ambasada;

4)      Słownictwo rzadkie – wyznacza je tylko wskaźnik F, umowna granica  F < 5.

 

11. Statystyczne prawa językowe

 • Odkrywcą statystycznych praw językowych był Gilbert Zipf – opisał metodami matematycznymi zależność między częstością wyrazów a ich rangą, długością, liczba znaczeń.
 • Wraz ze wzrostem częstości rośnie liczba znaczeń wyrazów.
 • Prawo Menzeratha – „im dłuższa konstrukcja, tym mniejsza przeciętna długość jej składników”.
 • Prawo Kryłowa – udział leksemów mającym w danym słowniku 1, 2, 3 itd. znaczenia oscyluje około 50%, 25%, 12,5% itd. Słownictwo zaś o dużej liczbie znaczeń stanowi znikomy procent leksyki danego słownika.

 

12. Wyrazy tematyczne i wyrazy klucze

 • Oba te pojęcia wprowadził francuski autor Pierre Guiraud.
 • Wyrazy tematyczne – to wyrazy niegramatyczne, mające najwyższe częstości w tekstach danego autora i danego stylu.
 • Wyrazy klucze – są to wyrazy charakterystyczne dla danego autora, stylu, tekstu. Są pojęciem relacyjnym: określa się je przez porównanie słownictwa danego tekstu ze słownictwem przeciętnym, uznanym za normę podaną w ogólnym słowniku frekwencyjnym.
 • Pojęcia te pozostają w relacji inkluzji – wszystkie wyrazy klucze są jednocześnie tematyczne, ale nie odwrotnie.
 • Słownictwo tematyczne prozy artystycznej i dramatu różni się diametralnie od abstrakcyjnego, intelektualnego słownictwa stylu naukowego i publicystycznego.
 • Zarówno dramat jak i proza są bardzo werbalne. Zawierają liczne czasowniki ruchu (iść, chodzić, pójść), hasła oznaczające stany fizyczne (stać, leżeć), mentalne (znać, wiedzieć).

 

 • Słownictwo tematyczne w prozie:

 nazwy ogólne: człowiek, ludzie,

 hasła takie, jak: kobieta, dziecko, matka, ojciec,

  oznaczenia części ciała: ręka, noga, oko, głowa,

  przedmioty życia codziennego: dom, drzwi, okno,

 określenia czasu: dzień, noc, godzina, chwila.

 

 • Słownictwo tematyczne dramatu

 przede wszystkim zaimki,

 hasło pan,

  określenia familiarne: mama, żona,

  hasło Bóg – wyjątkowo częste tylko w tym stylu,

  czasowniki oznaczające postawy emocjonalne: lubić, kochać, bać się, dziękować.

 

 • Słownictwo tematyczne stylu naukowego:

 ogólne słownictwo abstrakcyjne: przypadek, proces, zjawisko,

  wyrazy tematyczne, określające desygnaty i ich cechy, w tym:

  ogólne wyrazy typu: życie, ziemia, powietrze,

  bardziej konkretne nazwy: zwierzę, silnik,

  określenia podstawowych zjawisk: prąd, fala,

  określenia cech podstawowych zjawisk: prędkość, wysokość, temperatura.

 

 • Słownictwo tematyczne stylu publicystycznego:

 rzeczowniki oznaczające podstawowe struktury społeczne: państwo, naród, kraj,

  podstawowe działy gospodarki i działalności narodowej: produkcja, przemysł, kultura, nauka,

  podstawowe jednostki organizacyjne: zakład, przedsiębiorstwo,

  przymiotniki pochodne od powyższych rzeczowników: narodowy, społeczny, gospodarczy, polityczny.

 

 • Słownictwo w polszczyźnie ustnej:

 nazwy pan i pani,

  rzeczowniki: ludzie, człowiek, dziecko, kobieta,

  nazwy zawodowe: nauczyciel, lekarz,

  nazwy miejsc: szkoła, dom, klasa, zakład,

  miary czasu: chwila, lato, dzień,

  rzeczowniki abstrakcyjne: prawda, czas, temat, koniec.

 

 

 

 

Twoja odpowiedź