Jeśli jesteś właścicielem tej strony, możesz wyłączyć reklamę poniżej zmieniając pakiet na PRO lub VIP w panelu naszego hostingu już od 4zł! Do you want to support owner of this site? Click here and donate to his account some amount, he will be able to use it to pay for any of our services, including removing this ad.

Język polski w świetle statystyk

29 sierpnia 2013 JezykoznawstwoOpracowania  Brak komentarzy

1. Częstość fonemów 

  • Fonologia jest – obok leksyki – najlepiej opracowanym statystycznie podsystemem języka polskiego.
  • Najczęstsze są samogłoski średnie /e/, /o/ oraz niska /a/, natomiast wysokie /i/, /y/, /u/ – jako trudniejsze artykulacyjnie – są rzadsze.
  • Struktura statystyczna inwentarza fonemów w jest polszczyźnie względnie stała i niezależna od pisanej lub ustnej odmiany języka.
  • Struktura inwentarza fonemów jest względnie stała także w różnych stylach języka – jest to cecha nie tylko polszczyzny, ale także innych języków indoeuropejskich.

 

2. Częstość liter oraz połączeń wyrazowych

  • Probabilistyczna struktura języka jest ważna z punktu widzenia procesu komunikacji – decyduje o stopniu przewidywalności jednostek w tekście, dzięki temu pozwala rozumieć teksty uszkodzone i niepełne.
  • Najczęstszą literą jest i – wynika to z wielości jej funkcji: oznaczenie głoski /i/ oraz oznaczenie miękkości.

 

3. Entropia i redundancja w języku. Polszczyzna jako język spółgłoskowy

  • W polskim tekście pisanym znacznie łatwiej dają się zrekonstruować opuszczone litery samogłoskowe niż spółgłoskowe.
  • Samogłoski w polskim tekście są bardzo łatwo przewidywalne na podstawie kontekstu – maja więc dużą redundancję, a małą entropię
  • Przewidywalność spółgłosek jest o wiele mniejsza – a więc mniejsza jest ich redundancja, większa zaś entropia.
  • Entropia – jest to przeciętna ilość informacji przypadająca na jeden sygnał. Jej jednostką jest 1 bit, czyli ilość informacji, jaką niesie jeden z dwu sygnałów jednakowo prawdopodobnych.

 

4. Struktura informacyjna tekstu

  • Pojęcie entropii można także wykorzystać do wyznaczania granic elementów tekstu – np. wyrazów, morfemów, sylab.
  • Maksymalną entropią – największą nieprzewidywalnością – odznaczają się początek tekstu oraz początkowe litery wyrazu.
  • Tę własność języka wykorzystuje się tworząc skróty typu prof., doc., gen., tzw., np., a także skrótowce literowe, głoskowe i sylabowe.
  • Najmniejszą entropię mają środkowe części wyrazów – stąd tworzy się skróty typu dr, mgr, W-wa.

 

5. Probabilistyczny model tworzenia tekstu

  • Tworzenie pisanego tekstu języka naturalnego polega na tworzeniu określonych sekwencji liter.
  • W procesie tworzenia tekstu dużą rolę odgrywa struktura probabilistyczna elementów tekstu, np. liter.
  • Wpływ czynnika statystycznego jest ograniczony, gdyż w procesie tworzenia tekstu ważniejsze są czynniki gramatyczne, semantyczne i pragmatyczne.

 

6. Statystyka części mowy w słowniku i w tekstach

  • W słowniku najliczniejszą klasą części mowy jest rzeczownik (ponad połowa). Towarzyszący mu przymiotnik stanowi jedną piątą część słownika, podobnie czasownik. Wyrazy gramatyczne to niespełna 2%.
  • W tekstach najliczniejszą klasą części mowy są wyrazy gramatyczne – spójniki, przyimki, zaimki – stanowiące Az trzecią część każdego tekstu. Ranga samodzielnych części mowy jest tu niższa.
  • Rzeczowniki tworzą trzon słownika, natomiast słownictwo gramatyczne stanowi niezbędny kościec gramatyczny zdań.
  • Wśród stylów pisanych uwidacznia się nominalny charakter (duży udział rzeczowników i przymiotników) stylu popularnonaukowego, drobnych wiadomości prasowych i publicystyki.
  • Natomiast proza artystyczna i dramat mają charakter werbalny – udział czasowników i przysłówków.
  • Teksty ustne są raczej werbalne niż nominalne.

 

7. Liczebność typów słowotwórczych

  • Informacje prefiksalne są charakterystyczne dla języka mówionego oraz stylów prozy i dialogu artystycznego.
  • W tekstach tych dominuje przede wszystkim przedrostek po-, natomiast dla prozy artystycznej charakterystyczny jest przedrostek za-.
  • W stylu popularnonaukowym na pierwszym miejscu stoi przedrostek s-/z-.
  • Te trzy przedrostki są najczęstsze także w pozostałych stylach – a więc we współczesnej polszczyźnie czasowniki prefiksalne są zazwyczaj tworzone przez przedrostki po-, za-, s-/z-, w-.

 

8. Liczebność składników zdania

  • Zależność między liczbą składników w zdaniu pojedynczym a liczba zdań pojedynczych w zdaniu złożonym zmieniała się w historii języka polskiego od XVI do XX wieku.
  • Rosła liczba składników zdania pojedynczego i wraz z nią liczba stopni wewnętrznej podrzędności.
  • Malała złożoność zdań wchodzących w skład zdań złożonych.
  • Typowe zdanie retoryki staropolskiej – to zdanie wielokrotnie złożone, zbudowane z krótkich zdań składowych z czasownikiem w roli głównej.
  • Typowe zdanie współczesnych przemówień – to zdanie dwukrotnie złożone, zbudowane z długich zdań składowych z rzeczownikami w roli głównej.
  • W prozie XX wieku udział hipotaksy wielopiętrowej jest o wiele mniejszy, znaczniejszy jest udział hipotaksy dwupiętrowej.
  • Wydłuża się natomiast średnia długość zdania.
  • Rozwój polskiej składni przebiegał od przewagi konstrukcji werbalnych i wielopiętrowej hipotaksy do przewagi konstrukcji nominalnych i uproszczonej hipotaksy połączonej ze wzrostem pojemności wewnętrznej zdania pojedynczego.

 

9. Liczebność słownictwa w języku i słownikach

  • Liczebność słownictwa w danym języku jest wielkością trudną do ustalenia – słownictwo to zbiór otwarty i ulegający ciągłym zmianom.
  • Słownik języka polskiego Witolda Doroszewskiego – 11 tomów, największy zarejestrowany zbiór wyrazów języka polskiego – około 130 000 jednostek.
  • Słownik języka polskiego Mieczysława Szymczaka – 3 tomy, około 70 000 wyrazów.
  • Słownik czynny, jaki tworzą wyrazy znane i używane przez przeciętnego użytkownika ze średnim wykształceniem obejmuje około 15-20 tys. wyrazów.

 

10. Częstości wyrazów i „sfery leksyki”

  • Słownik frekwencyjny polszczyzny współczesnej – podaje częstości poszczególnych wyrazów, oparty na tekstach mówionych.
  • Wyrazy najczęstsze – to jednostki gramatyczne, najkrótsze i najstarsze:

 przyimki w, na, z;

  spójniki i, że;

  czasowniki być, mieć, móc;

  rzeczowniki pan, rok, sprawca;

  przymiotniki inny, nasz;

  przysłówek bardzo;

  • Wyrazy najrzadsze – są najdłuższe i pełnoznaczne (nie ma więc wśród nich słownictwa gramatycznego), występują tu też derywaty i neologizmy.
  • W Słowniku frekwencyjnym… podano obok frekwencji F także wskaźnik dyspersji D – jako miarę równomierności rozkładu częstości.
  • Wskaźniki te pozwalają na wydzielenie czterech sfer leksyki:

1)      Słownictwo gramatyczne – wyrazy o największych częstościach.

2)      Słownictwo podstawowe – wyrazy autosemantyczne, mające bardzo wysoką częstość i dość dużą równomierność rozkładu D > 50, występują równomiernie we wszystkich stylach, należą tu:

o   rzeczowniki: człowiek, związek, sprawa, miejsce, część

o   czasowniki: znać, istnieć;

o   przymiotniki: główny, inny;

o   przysłówki: bardzo, daleko, często;

3)      Słownictwo charakterystyczne – hasła częste, ale ograniczone w swym występowaniu do jednego lub dwóch stylów funkcjonalnych, F > 10, D < 50, np. atom, ambasada;

4)      Słownictwo rzadkie – wyznacza je tylko wskaźnik F, umowna granica  F < 5.

 

11. Statystyczne prawa językowe

  • Odkrywcą statystycznych praw językowych był Gilbert Zipf – opisał metodami matematycznymi zależność między częstością wyrazów a ich rangą, długością, liczba znaczeń.
  • Wraz ze wzrostem częstości rośnie liczba znaczeń wyrazów.
  • Prawo Menzeratha – „im dłuższa konstrukcja, tym mniejsza przeciętna długość jej składników”.
  • Prawo Kryłowa – udział leksemów mającym w danym słowniku 1, 2, 3 itd. znaczenia oscyluje około 50%, 25%, 12,5% itd. Słownictwo zaś o dużej liczbie znaczeń stanowi znikomy procent leksyki danego słownika.

 

12. Wyrazy tematyczne i wyrazy klucze

  • Oba te pojęcia wprowadził francuski autor Pierre Guiraud.
  • Wyrazy tematyczne – to wyrazy niegramatyczne, mające najwyższe częstości w tekstach danego autora i danego stylu.
  • Wyrazy klucze – są to wyrazy charakterystyczne dla danego autora, stylu, tekstu. Są pojęciem relacyjnym: określa się je przez porównanie słownictwa danego tekstu ze słownictwem przeciętnym, uznanym za normę podaną w ogólnym słowniku frekwencyjnym.
  • Pojęcia te pozostają w relacji inkluzji – wszystkie wyrazy klucze są jednocześnie tematyczne, ale nie odwrotnie.
  • Słownictwo tematyczne prozy artystycznej i dramatu różni się diametralnie od abstrakcyjnego, intelektualnego słownictwa stylu naukowego i publicystycznego.
  • Zarówno dramat jak i proza są bardzo werbalne. Zawierają liczne czasowniki ruchu (iść, chodzić, pójść), hasła oznaczające stany fizyczne (stać, leżeć), mentalne (znać, wiedzieć).

 

  • Słownictwo tematyczne w prozie:

 nazwy ogólne: człowiek, ludzie,

 hasła takie, jak: kobieta, dziecko, matka, ojciec,

  oznaczenia części ciała: ręka, noga, oko, głowa,

  przedmioty życia codziennego: dom, drzwi, okno,

 określenia czasu: dzień, noc, godzina, chwila.

 

  • Słownictwo tematyczne dramatu

 przede wszystkim zaimki,

 hasło pan,

  określenia familiarne: mama, żona,

  hasło Bóg – wyjątkowo częste tylko w tym stylu,

  czasowniki oznaczające postawy emocjonalne: lubić, kochać, bać się, dziękować.

 

  • Słownictwo tematyczne stylu naukowego:

 ogólne słownictwo abstrakcyjne: przypadek, proces, zjawisko,

  wyrazy tematyczne, określające desygnaty i ich cechy, w tym:

  ogólne wyrazy typu: życie, ziemia, powietrze,

  bardziej konkretne nazwy: zwierzę, silnik,

  określenia podstawowych zjawisk: prąd, fala,

  określenia cech podstawowych zjawisk: prędkość, wysokość, temperatura.

 

  • Słownictwo tematyczne stylu publicystycznego:

 rzeczowniki oznaczające podstawowe struktury społeczne: państwo, naród, kraj,

  podstawowe działy gospodarki i działalności narodowej: produkcja, przemysł, kultura, nauka,

  podstawowe jednostki organizacyjne: zakład, przedsiębiorstwo,

  przymiotniki pochodne od powyższych rzeczowników: narodowy, społeczny, gospodarczy, polityczny.

 

  • Słownictwo w polszczyźnie ustnej:

 nazwy pan i pani,

  rzeczowniki: ludzie, człowiek, dziecko, kobieta,

  nazwy zawodowe: nauczyciel, lekarz,

  nazwy miejsc: szkoła, dom, klasa, zakład,

  miary czasu: chwila, lato, dzień,

  rzeczowniki abstrakcyjne: prawda, czas, temat, koniec.

 

 

 

 

Twoja odpowiedź