Jeśli jesteś właścicielem tej strony, możesz wyłączyć reklamę poniżej zmieniając pakiet na PRO lub VIP w panelu naszego hostingu już od 4zł!

Język polski w świetle statystyk

29 August 2013 JezykoznawstwoOpracowania  Brak komentarzy

1. Częstość fonemów 

  • Fonologia jest – obok leksyki – najlepiej opracowanym statystycznie podsystemem języka polskiego.
  • Najczęstsze są samogłoski średnie /e/, /o/ oraz niska /a/, natomiast wysokie /i/, /y/, /u/ – jako trudniejsze artykulacyjnie – są rzadsze.
  • Struktura statystyczna inwentarza fonemów w jest polszczyźnie względnie stała i niezależna od pisanej lub ustnej odmiany języka.
  • Struktura inwentarza fonemów jest względnie stała także w różnych stylach języka – jest to cecha nie tylko polszczyzny, ale także innych języków indoeuropejskich.

 

2. Częstość liter oraz połączeń wyrazowych

  • Probabilistyczna struktura języka jest ważna z punktu widzenia procesu komunikacji – decyduje o stopniu przewidywalności jednostek w tekście, dzięki temu pozwala rozumieć teksty uszkodzone i niepełne.
  • Najczęstszą literą jest i – wynika to z wielości jej funkcji: oznaczenie głoski /i/ oraz oznaczenie miękkości.

 

3. Entropia i redundancja w języku. Polszczyzna jako język spółgłoskowy

  • W polskim tekście pisanym znacznie łatwiej dają się zrekonstruować opuszczone litery samogłoskowe niż spółgłoskowe.
  • Samogłoski w polskim tekście są bardzo łatwo przewidywalne na podstawie kontekstu – maja więc dużą redundancję, a małą entropię
  • Przewidywalność spółgłosek jest o wiele mniejsza – a więc mniejsza jest ich redundancja, większa zaś entropia.
  • Entropia – jest to przeciętna ilość informacji przypadająca na jeden sygnał. Jej jednostką jest 1 bit, czyli ilość informacji, jaką niesie jeden z dwu sygnałów jednakowo prawdopodobnych.

 

4. Struktura informacyjna tekstu

  • Pojęcie entropii można także wykorzystać do wyznaczania granic elementów tekstu – np. wyrazów, morfemów, sylab.
  • Maksymalną entropią – największą nieprzewidywalnością – odznaczają się początek tekstu oraz początkowe litery wyrazu.
  • Tę własność języka wykorzystuje się tworząc skróty typu prof., doc., gen., tzw., np., a także skrótowce literowe, głoskowe i sylabowe.
  • Najmniejszą entropię mają środkowe części wyrazów – stąd tworzy się skróty typu dr, mgr, W-wa.

 

5. Probabilistyczny model tworzenia tekstu

  • Tworzenie pisanego tekstu języka naturalnego polega na tworzeniu określonych sekwencji liter.
  • W procesie tworzenia tekstu dużą rolę odgrywa struktura probabilistyczna elementów tekstu, np. liter.
  • Wpływ czynnika statystycznego jest ograniczony, gdyż w procesie tworzenia tekstu ważniejsze są czynniki gramatyczne, semantyczne i pragmatyczne.

 

6. Statystyka części mowy w słowniku i w tekstach

  • W słowniku najliczniejszą klasą części mowy jest rzeczownik (ponad połowa). Towarzyszący mu przymiotnik stanowi jedną piątą część słownika, podobnie czasownik. Wyrazy gramatyczne to niespełna 2%.
  • W tekstach najliczniejszą klasą części mowy są wyrazy gramatyczne – spójniki, przyimki, zaimki – stanowiące Az trzecią część każdego tekstu. Ranga samodzielnych części mowy jest tu niższa.
  • Rzeczowniki tworzą trzon słownika, natomiast słownictwo gramatyczne stanowi niezbędny kościec gramatyczny zdań.
  • Wśród stylów pisanych uwidacznia się nominalny charakter (duży udział rzeczowników i przymiotników) stylu popularnonaukowego, drobnych wiadomości prasowych i publicystyki.
  • Natomiast proza artystyczna i dramat mają charakter werbalny – udział czasowników i przysłówków.
  • Teksty ustne są raczej werbalne niż nominalne.

 

7. Liczebność typów słowotwórczych

  • Informacje prefiksalne są charakterystyczne dla języka mówionego oraz stylów prozy i dialogu artystycznego.
  • W tekstach tych dominuje przede wszystkim przedrostek po-, natomiast dla prozy artystycznej charakterystyczny jest przedrostek za-.
  • W stylu popularnonaukowym na pierwszym miejscu stoi przedrostek s-/z-.
  • Te trzy przedrostki są najczęstsze także w pozostałych stylach – a więc we współczesnej polszczyźnie czasowniki prefiksalne są zazwyczaj tworzone przez przedrostki po-, za-, s-/z-, w-.

 

8. Liczebność składników zdania

  • Zależność między liczbą składników w zdaniu pojedynczym a liczba zdań pojedynczych w zdaniu złożonym zmieniała się w historii języka polskiego od XVI do XX wieku.
  • Rosła liczba składników zdania pojedynczego i wraz z nią liczba stopni wewnętrznej podrzędności.
  • Malała złożoność zdań wchodzących w skład zdań złożonych.
  • Typowe zdanie retoryki staropolskiej – to zdanie wielokrotnie złożone, zbudowane z krótkich zdań składowych z czasownikiem w roli głównej.
  • Typowe zdanie współczesnych przemówień – to zdanie dwukrotnie złożone, zbudowane z długich zdań składowych z rzeczownikami w roli głównej.
  • W prozie XX wieku udział hipotaksy wielopiętrowej jest o wiele mniejszy, znaczniejszy jest udział hipotaksy dwupiętrowej.
  • Wydłuża się natomiast średnia długość zdania.
  • Rozwój polskiej składni przebiegał od przewagi konstrukcji werbalnych i wielopiętrowej hipotaksy do przewagi konstrukcji nominalnych i uproszczonej hipotaksy połączonej ze wzrostem pojemności wewnętrznej zdania pojedynczego.

 

9. Liczebność słownictwa w języku i słownikach

  • Liczebność słownictwa w danym języku jest wielkością trudną do ustalenia – słownictwo to zbiór otwarty i ulegający ciągłym zmianom.
  • Słownik języka polskiego Witolda Doroszewskiego – 11 tomów, największy zarejestrowany zbiór wyrazów języka polskiego – około 130 000 jednostek.
  • Słownik języka polskiego Mieczysława Szymczaka – 3 tomy, około 70 000 wyrazów.
  • Słownik czynny, jaki tworzą wyrazy znane i używane przez przeciętnego użytkownika ze średnim wykształceniem obejmuje około 15-20 tys. wyrazów.

 

10. Częstości wyrazów i „sfery leksyki”

  • Słownik frekwencyjny polszczyzny współczesnej – podaje częstości poszczególnych wyrazów, oparty na tekstach mówionych.
  • Wyrazy najczęstsze – to jednostki gramatyczne, najkrótsze i najstarsze:

 przyimki w, na, z;

  spójniki i, że;

  czasowniki być, mieć, móc;

  rzeczowniki pan, rok, sprawca;

  przymiotniki inny, nasz;

  przysłówek bardzo;

  • Wyrazy najrzadsze – są najdłuższe i pełnoznaczne (nie ma więc wśród nich słownictwa gramatycznego), występują tu też derywaty i neologizmy.
  • W Słowniku frekwencyjnym… podano obok frekwencji F także wskaźnik dyspersji D – jako miarę równomierności rozkładu częstości.
  • Wskaźniki te pozwalają na wydzielenie czterech sfer leksyki:

1)      Słownictwo gramatyczne – wyrazy o największych częstościach.

2)      Słownictwo podstawowe – wyrazy autosemantyczne, mające bardzo wysoką częstość i dość dużą równomierność rozkładu D > 50, występują równomiernie we wszystkich stylach, należą tu:

o   rzeczowniki: człowiek, związek, sprawa, miejsce, część

o   czasowniki: znać, istnieć;

o   przymiotniki: główny, inny;

o   przysłówki: bardzo, daleko, często;

3)      Słownictwo charakterystyczne – hasła częste, ale ograniczone w swym występowaniu do jednego lub dwóch stylów funkcjonalnych, F > 10, D < 50, np. atom, ambasada;

4)      Słownictwo rzadkie – wyznacza je tylko wskaźnik F, umowna granica  F < 5.

 

11. Statystyczne prawa językowe

  • Odkrywcą statystycznych praw językowych był Gilbert Zipf – opisał metodami matematycznymi zależność między częstością wyrazów a ich rangą, długością, liczba znaczeń.
  • Wraz ze wzrostem częstości rośnie liczba znaczeń wyrazów.
  • Prawo Menzeratha – „im dłuższa konstrukcja, tym mniejsza przeciętna długość jej składników”.
  • Prawo Kryłowa – udział leksemów mającym w danym słowniku 1, 2, 3 itd. znaczenia oscyluje około 50%, 25%, 12,5% itd. Słownictwo zaś o dużej liczbie znaczeń stanowi znikomy procent leksyki danego słownika.

 

12. Wyrazy tematyczne i wyrazy klucze

  • Oba te pojęcia wprowadził francuski autor Pierre Guiraud.
  • Wyrazy tematyczne – to wyrazy niegramatyczne, mające najwyższe częstości w tekstach danego autora i danego stylu.
  • Wyrazy klucze – są to wyrazy charakterystyczne dla danego autora, stylu, tekstu. Są pojęciem relacyjnym: określa się je przez porównanie słownictwa danego tekstu ze słownictwem przeciętnym, uznanym za normę podaną w ogólnym słowniku frekwencyjnym.
  • Pojęcia te pozostają w relacji inkluzji – wszystkie wyrazy klucze są jednocześnie tematyczne, ale nie odwrotnie.
  • Słownictwo tematyczne prozy artystycznej i dramatu różni się diametralnie od abstrakcyjnego, intelektualnego słownictwa stylu naukowego i publicystycznego.
  • Zarówno dramat jak i proza są bardzo werbalne. Zawierają liczne czasowniki ruchu (iść, chodzić, pójść), hasła oznaczające stany fizyczne (stać, leżeć), mentalne (znać, wiedzieć).

 

  • Słownictwo tematyczne w prozie:

 nazwy ogólne: człowiek, ludzie,

 hasła takie, jak: kobieta, dziecko, matka, ojciec,

  oznaczenia części ciała: ręka, noga, oko, głowa,

  przedmioty życia codziennego: dom, drzwi, okno,

 określenia czasu: dzień, noc, godzina, chwila.

 

  • Słownictwo tematyczne dramatu

 przede wszystkim zaimki,

 hasło pan,

  określenia familiarne: mama, żona,

  hasło Bóg – wyjątkowo częste tylko w tym stylu,

  czasowniki oznaczające postawy emocjonalne: lubić, kochać, bać się, dziękować.

 

  • Słownictwo tematyczne stylu naukowego:

 ogólne słownictwo abstrakcyjne: przypadek, proces, zjawisko,

  wyrazy tematyczne, określające desygnaty i ich cechy, w tym:

  ogólne wyrazy typu: życie, ziemia, powietrze,

  bardziej konkretne nazwy: zwierzę, silnik,

  określenia podstawowych zjawisk: prąd, fala,

  określenia cech podstawowych zjawisk: prędkość, wysokość, temperatura.

 

  • Słownictwo tematyczne stylu publicystycznego:

 rzeczowniki oznaczające podstawowe struktury społeczne: państwo, naród, kraj,

  podstawowe działy gospodarki i działalności narodowej: produkcja, przemysł, kultura, nauka,

  podstawowe jednostki organizacyjne: zakład, przedsiębiorstwo,

  przymiotniki pochodne od powyższych rzeczowników: narodowy, społeczny, gospodarczy, polityczny.

 

  • Słownictwo w polszczyźnie ustnej:

 nazwy pan i pani,

  rzeczowniki: ludzie, człowiek, dziecko, kobieta,

  nazwy zawodowe: nauczyciel, lekarz,

  nazwy miejsc: szkoła, dom, klasa, zakład,

  miary czasu: chwila, lato, dzień,

  rzeczowniki abstrakcyjne: prawda, czas, temat, koniec.

 

 

 

 

Twoja odpowiedź

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>