Розв’язання лексико-граматичної омонімії неособової форми англійського дієслова Participle II (на матеріалі корпусу англійських текстів)

  • Вид работы:
    Дипломная (ВКР)
  • Предмет:
    Английский
  • Язык:
    Украинский
    ,
    Формат файла:
    MS Word
    155,98 Кб
  • Опубликовано:
    2014-09-16
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Розв’язання лексико-граматичної омонімії неособової форми англійського дієслова Participle II (на матеріалі корпусу англійських текстів)

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

КИЇВСЬКИЙ НАЦІОНАЛЬНИЙ ЛІНГВІСТИЧНИЙ УНІВЕРСИТЕТ

Кафедра німецької філології та перекладу і прикладної лінгвістики








Дипломна робота бакалавра на тему:

«Розв’язання лексико-граматичної омонімії неособової форми англійського дієслова Participle II (на матеріалі корпусу англійських текстів)»

Студентки ПЛ-23б-10 групи

факультету перекладачів Туз Вероніки Анатоліївни

Науковий керівник

кандидат філологічних наук, Л.С. Савельєва







Київ - 2014

ЗМІСТ

Вступ

Розділ 1. Аспекти вивчення та розв’язання лексико-граматичної омонімії неособової форми англійського дієслова Рarticiple II

.1 Традиційні та прикладні аспекти вивчення неособової форми англійського дієслова Participle II

.2 Особливості кодування Participle II у корпусах текстів

.3 Проблема омонімії в англійській мові

.4 Встановлення омонімічних ланцюгів Participle II

Висновок до першого розділу

Розділ 2. Побудова алгоритму зняття омонімії

.1 Дистрибутивний аналіз оточення форм Participle II

.2 Правила утворення Participle ІІ регулярних і нерегулярних дієслів

.3 Побудова алгоритму зняття омонімії Participle II

Висновок до другого розділу

Розділ 3. Програмна реалізація алгоритму

.1 Етапи створення бази даних

.2 Особливості програмної реалізації алгоритму

.3 Тестування програми зняття омонімії форм Participle II в довільному тексті

Висновки до третього розділу

Висновки

Список використаних джерел

Додатки

ВСТУП

Явище омонімії властиве всім мовам світу, зокрема англійській мові. Спроби розв’язати проблему омонімії у традиційній лінгвістиці мають давню традицію. Дослідженню явища омонімії в англійській мові приділяли увагу Дж. Купер («Граматика», 1685 р.), Дж. Мердок «Словник розрізнень», 1811 р.). Ці та багато інших авторів виявляли зацікавленість у вивченні омонімів, їх походження та розвитку в окремих мовах, у сім’ях і групах мов.

На сьогодні проблеми омонімії ще активніше обговорюються у зв’язку з широко розгорнутою роботою зі створення систем автоматичного опрацювання текстової інформації, укладенням та удосконаленням тлумачних і перекладацьких словників. Незважаючи на значну кількість праць, ця ділянка роботи лінгвістів залишається актуальною, оскільки жодна зі створених систем автоматичного морфологічного аналізу не знімає омонімію на 100%.

Актуальність дослідження зумовлена необхідністю створення програм комп’ютерного морфологічного аналізу, спроможних автоматично знімати омонімію.

Об’єкт дослідження становлять омонімічні форми англійської неособової форми дієслова Participle II.

Предметом дослідження є омонімія форм Participle II в англійській мові та способи її зняття.

Матеріалом дослідження слугував обернений частотний словник англійської мови та відкритий корпус текстів ОANC (Open American National Corpus), BNC (British National Corpus), COCA (Corpus of Contemporary American English). На основі формалізованих процедур аналізу розмітки ОANC створено електронну базу даних, яка виконує функції інформаційно-довідкової та дослідницької комп’ютерної системи і слугує підґрунтям для написання алгоритму зняття омонімії, програмна реалізація якого уможливила створення системи автоматичного морфологічного аналізу, спроможної знімати омонімію.

Мета дослідження - розроблення методологічного та процедурного апарату для створення програми автоматичного зняття омонімії форм Participle II. Відповідно до головної мети, дослідження складалося з етапів, що вимагали вирішення низки самостійних теоретичних і практичних питань. Зокрема, необхідно було виконати такі дослідницькі завдання:

1)   вивчити явище омонімії і закономірності вживання омонімічних форм Participle II;

2)      укласти ланцюги з частин мови, що можуть бути омонімічними до Participle II;

)        написати алгоритм зняття омонімії форм Participle II;

)        створити програму мовою С# для автоматичного зняття омонімії;

)        тестувати програму зняття омонімії форм Participle II на довільному тексті.

Структурно робота складалася зі вступу, двох розділів, висновків та списку використаних джерел (36 найменувань, з них 2 - іноземними мовами).

У першому розділі «Аспекти вивчення та розв’язання лексико-граматичної омонімії неособової форми англійського дієслова Рarticiple II» здійснено аналіз традиційних та прикладних аспектів вивчення неособової форми англійського дієслова Participle II, вивчено проблему омонімії в англійській мові, виявлено особливості кодування Participle II у корпусах текстів опрацьовано корпус текстів ANC (American National Corpus), встановлено омонімічні ланцюги досліджуваних форм.

У другому розділі «Побудова алгоритму зняття омонімії» здійснено дистрибутивний аналіз формальних ознак форм Participle II, що можуть мати омоніми; запропоновано алгоритм зняття омонімії форм Participle II.

У третьому розділі «Програмна реалізація алгоритму» представлено етапи укладання бази даних, здійснено програмну реалізацію алгоритму зняття омонімії, представлено результати тестування програми.

РОЗДІЛ 1. АСПЕКТИ ВИВЧЕННЯ ТА РОЗВ’ЯЗАННЯ ЛЕКСИКО-ГРАМАТИЧНОЇ ОМОНІМІЇ НЕОСОБОВОЇ ФОРМИ АНГЛІЙСЬКОГО ДІЄСЛОВА РARTICIPLE II


1.1 Традиційні та прикладні аспекти вивчення неособової форми англійського дієслова Participle II


Неособові форми дієслова (вербалії) є об’єктом постійного аналізу в сучасній лінгвістиці. Результати дослідження включено до курсів теоретичної та практичної граматики англійської мови. Аналіз наукової літератури свідчить, що наразі в лінгвістиці відсутнє одностайне тлумачення «безособовості», а також багатьох проблем, пов’язаних із цим поняттям. Поняття «безособовості» найчастіше визначається як дія без діяча, без суб’єкта дії (що часто ототожнюється з особою), яка перетворюється з активної дії в дію-стан.

Значення та вживання Participle II. З визначенням у традиційній лінгвістиці, Participle ІІ має лише одну форму і є пасивним дієприкметником. Він вживається тоді, коли іменник або займенник, до якого він відноситься, позначає об’єкт вираженої ним дії:

англ. I have my task done.

укр. Моє завдання виконане.

англ. The patient has an arm broken.

укр. У хворого зламана рука.

Здебільшого Past Participle виражає дію, що передує дії, вираженій присудком речення:

англ. We looked at the destroyed bridge.

укр. Ми дивилися на зруйнований міст (міст було зруйновано раніше, ніж ми дивилися на нього).

Але Past Participle може також виражати дію, одночасну з дією, вираженою дієсловом-присудком, а також дію, безвідносну до часу:

англ. Her mother is a teacher loved and respected by everybody.

укр. Її мати - вчитель, якого всі люблять і поважають.

англ. A central angle is an angle formed by two radii [reidiai].

укр. Центральний кут - це кут, утворений двома радіусами.

Застосування комп’ютерних засобів до збирання, організації та програмного оброблення мовного матеріалу зумовило стрімку динаміку розвитку корпусної лінгвістики, що дозволяє оптимізувати і об’єктивізувати лінгвістичні дослідження.

У нашому дослідженні корпус текстів є інструментом, який скорочує час на технічну роботу. Оскільки, корпус як інформаційно-довідкова система дозволяє одержувати відповіді на значну кількість питань, пов’язаних із дослідженням мови за максимально короткий час.

Таким чином, за допомогою корпусного методу було встановлено парадигматичні класи англійської форми дієслова Participle ІІ. Зауважимо, що під парадигматичним класом, розуміємо множину слів з однаковим характером відношень між основою вихідної форми й основами інших словоформ парадигми, а також з однаковим набором кінцевих афіксів. Різні парадигматичні класи - це різні моделі формотворення.

Корпусний метод дозволив встановити 56 парадигматичних класів нерегулярних дієслів і 12 парадигматичних класів регулярних дієслів (див. п. 2.2.).

Розгортання парадигми здійснюється за спеціальними машинними правилами, які зв’язують інформацію двох таблиць (таблиці основ з номером парадигматичного класу) і приписують відповідну граматичну інформацію. Зворотна процедура, коли за словоформою треба вивести вихідну форму, передбачає інші машинні правила: текстова словоформа, синтезована із двох таблиць, одержує за відповідним кодом вихідну форму [7, с. 61].

Зняття омонімії неможливе без дослідження усіх можливих контекстів уживання слова. Досягти такого результату неможливо без звернення до корпусу текстів, який надає об’єктивні кількісні дані, забезпечуючи досягнення більш ґрунтовних та переконливих висновків. Водночас зауважимо, що незважаючи на революційні можливості корпусної лінгвістики, вона є лише частиною численного методологічного інструментарію сучасної лінгвістики. Навіть великі за обсягом корпуси не в змозі відобразити все можливе в мові, а натомість і незначні за обсягом корпуси можуть надати інформацію, яку нереально було б отримати не звертаючись до корпусного дослідження.

1.2 Особливості кодування Participle II в корпусах текстів


Кодування тієї чи іншої форми дає можливість зробити вибірку аналізованих форм із корпусу текстів. Дослідження систем кодування корпусів текстів дало можливість встановити наступне:(British National Corpus) кодує Participle II наступним чином: The past participle form of lexical verbs (форма дієприкметника минулого часу лексичних дієслів) e.g. forgotten, sent, lived, returned;The past participle form of the verb HAVE (форма дієприкметника минулого часу дієслова «мати»): had;The past participle form of the verb BE (форма дієприкметника минулого часу дієслова «бути»): been;The past participle form of the verb DO (форма дієприкметника минулого часу дієслова «робити»): done.(Corpus of Contemporary American English) кодує Participle II як:had (past participle); past participle of lexical verb (форма дієприкметника минулого часу лексичного дієслова): given, worked;past participle catenative (bound in be bound to).(American National Corpus) кодує Participle II як:verb, past participle (дієслово, дієприкметника минулого часу): mentioned.

Аналіз тегів трьох корпусів показує, що кодування форми Participle II дещо відрізняється, оскільки в BNC кодів більше за рахунок допоміжних дієслів, хоча є спільні коди (VVN, VHN та VBN).

Оскільки в нашому дослідженні використано American National Corpus, то й кодування застосовуємо відповідне.

Для опису ланцюгів омонімії також використовуємо прийняте в цьому корпусі кодування, а саме:verb, past participle (дієслово, дієприкметник минулого часу): mentioned;adjective (прикметник): bound;verb, past tense (дієслово минулого часу): designed;noun (іменник): bound.

1.3 Проблема омонімії в англійській мові


Існують різні визначення омонімії, засновані на розбіжностях поглядах лінгвістів щодо розуміння мовної форми. Ряд дослідників обмежує її звуковою оболонкою слова, інші вчені розширюють поняття форми, включаючи в нього і графічне представлення; таким чином, омонімічними можуть називатися всі можливі збіги одиниць у плані вираження. Цим пояснюється існування різних класифікацій омонімів, що враховують відмінності за формою, як загальні, так і по словоформам, ступінь збігу форми, а також належність омонімів до однієї і тієї ж, або різних частин мови.

У відповідності з формою омоніми поділяються на омофони, омографи й абсолютні омоніми. Омофони (homophones) 1. Arm - рука; 2. Arm (s) - зброя. 3. Bay - затока, бухта; 4. Bay - проліт, ніша; 5. Bay - гавкіт, гавкати; 6. Bay - гнідий; 7. Bay - лавр, лаврове дерево; 8. Bay - загата.

Ступінь збігу формальної сторони омонімів дозволяє виділити омоніми повні, що збігаються парадигмами (lighter - device; lighter -boat, PI. lighters), і часткові, що збігаються тільки в деяких словоформах (Rose - flower; Past form of the Verb «rise»), інші словоформи, зокрема множина іменника та інфінітив дієслова, не омонімічні; аналогічний приклад - словоформи saw (минулий час від дієслова see і однину іменника saw). Часткові омоніми (за термінологією В. В. Виноградова - «морфологічні омоніми», часто також називають «омоформи») дуже характерні для флективних мов з великою кількістю словоформ, однак їх немало і в англійській мові.

Залежно від приналежності кожного з омонімів до певної частини мови розрізняють омоніми лексичні, граматичні та лексико-граматичні. Лексичні омоніми однакові за граматичними характеристиками, але різні за значенням. Так, омоніми match - contest і match - person належать до однієї і тієї ж частини мови, але не зводяться до спільного значення. Однакова звукографічна форма і граматичні ознаки дозволяють вважати їх омонімами, але значеннєва різниця відносить ці омоніми до розряду лексичних. У граматичних омонімах можна виявити смислову спільність, але належать вони до різних частин мови, що, зокрема, відрізняє їх від багатозначного слова. Так, омоніми match - contest (noun) і match - put smth in competition (verb) не тільки однакові з погляду вимови та графіки, але і зв’язані спільним значенням compete; однак їх категоріальна відмінність робить ці слова граматичними омонімами. В аналогічних відношеннях перебувають омоніми mere (Noun) - pond, small lake і mere (adj) - not more than, пов’язані загальною семою «малість». Що стосується лексико-граматичних омонімів, то їхній збіг обмежується формальною стороною, а відмінності стосуються і граматичної, і лексичної характеристик. Приклади такої омонімії - пари match - possible husband / match - put smth in competition; stem - severe, strict /stern - back end of a ship і безліч інших. У цьому випадку, як правило, у формуванні омонімічної групи бере участь словотворча конверсія, а сам процес іменується модельованою омонімією. Наявність модельованої омонімії визнається не всіма лінгвістами через близькість лексичних значень цих омонімів. Однак, оскільки утворені з конверсії одиниці безсумнівно є самостійними словами, що володіють спільністю форми, логічно відносити їх до омонімів.

Омонімія в англійській мові може стосуватися не тільки слів і словоформ, але й інших одиниць мови, наприклад морфем (-s: 3rd person Sg, Present Indefinite form of a verb / Pl of a noun / Possessive marker;-er: Nounsuffix / Comparison form of Adjective suffix).

В основу кожної з наведених вище класифікацій покладено якусь одну ознаку. Існують, крім того, типології омонімів, побудовані на двох і більше параметрах (Єлісєєва В.В).

У даному дослідженні, розглядалась саме лексико-граматична омонімія, оскільки неособова форма дієслова Participle II може утворювати омонімію з іншими частинами мови, а також з особовою формою деяких дієслів Past Indefinite Active.

1.4 Встановлення омонімічних ланцюгів Participle II


У даному дослідженні розглядаємо лексико-граматичну омонімію Particilpe II. Для відбору найчастотніших форм англійського дієслова Participle II було використано English Conjugation: System And Functioning (reference-book), що подає кількісні характеристики вживаності словозмінних форм англійського дієслова [22].

Дані довідника базуються на дослідженні чотирьох масивів текстів (художня проза, драма, наукові та газетні тексти) загальним обсягом понад 12 млн. слововживань. Аналізу підлягали 287 дієслів, що входять у першу тисячу найбільш уживаних слів, і 805 утворених від них дієслів з післялогами. Кількісні характеристики 50 найчастотніших форм Participle II, розташованих за спадом частоти їх уживаності, подаємо в таблиці 1.4.1.

Таблиця 1.4.1

Кількісні характеристики найчастотніших форм Participle II

№ з/п

Participle II

Частота вживання

1

BASED

146,46

2

PRINTED

92,01

3

MENTIONED

85,53

4

DESIRED

78,33

5

ADVANCED

77,18

6

DIRECTED

71,17

7

MARKED

65,28

8

DRESSED

65,03

9

CHARGED

62,56

10

CLOSED

60,68

11

CONTROLLED

59,19

12

RECORDED

58,06

13

COVERED

55,73

14

SAID

55,22

15

BOUND

49,46

16

SURPRISED

47,46

17

DESCRIBED

45,43

18

EXTENDED

44,53

19

WRITTEN

40,50

20

PLANNED

39,07

21

FOLLOWED

38,38

22

RAISED

37,23

23

SPREAD

37,09

24

PREPARED

36,86

25

INCREASED

36,65

26

SIGNED

36,56

27

CALLED

35,69

28

USED

35,00

29

FORCED

33,17

30

PRODUCED

32,12

31

REPORTED

32,07

32

CARRIED OUT

31,84

33

SUPPLIED

31,36

34

DRIED

31,02

35

FITTED

30,34

36

PLACED

29,54

37

FILLED

29,11

38

BUILT

28,88

39

LOST

28,47

40

EXPRESSED

27,75

41

COOKED

27,42

42

LAID

26,54

43

EXPECTED

26,48

44

OFFERED

26,35

45

SEATED

26,10

46

RECEIVED

25,01

47

NEEDED

24,92

48

SUPPORTED

24,27

49

SPENT

24,16

50

DEVELOPED

23,88


Омонімічні ланцюги подано в таблиці 1.4.2.

Таблиця 1.4.2

Омонімічні ланцюги найчастотніших форм Participle II

№ з/п

Participle II

Homonymy

1

BOUND

PII - N - V - А

2

BASED

PII - A - V

3

MENTIONED

PII - A - V

4

ADVANCED

PII - A - V

5

DIRECTED

PII - A - V

6

MARKED

PII - A - V

7

DRESSED

PII - A - V

8

CONTROLLED

PII - A - V

9

CALLED

PII - A - V

10

FORCED

PII - A - V

11

PRODUCED

PII - A - V

12

DRIED

PII - A - V

13

FILLED

PII - A - V

14

BUILT

PII - A - V

15

SEATED

PII - A - V

16

SPENT

PII - A - V


За даними таблиці 1.4.2 акцентуємо увагу на таких спостереженнях:

.        З 50 (100%) найчастотніших Participle II в омонімію вступає 16 форм Participle II (32%);

.        Найдовший ланцюжок омонімії має наступний вигляд BOUND - PII - N - V - А (N - іменник, V - дієслово, А - прикметник);

Усі проаналізовані форми можна розподілити на два типи за складом ланцюгів: 1) PII - N - V - А; 2) PII - A - V. Приклади омонімічних ланцюгів Participle II подано в таблиці 2.2.3.

Таблиця 1.4.3

Приклади омонімічних ланцюгів найчастотніших форм Participle II

Participle II

Homonymy

Example

1

BOUND

Adjective

Take the bound newspapers to the recycling bin, but leave the loose ones.



Verb

The colt bound through the meadow.



Noun

This area is out of bound.

2

BASED

Adjective

Based rules make me nervous.



Verb

He based his assumption of her guilt on the fact that she had no alibi.

3

MENTIONED

Adjective

Mentioned name was very familiar to me.



Verb

He mentioned this information several times.

4

ADVANCED

Adjective

Our plans are too advanced to make the change now.



Verb

The general advanced his troops to the new position.

5

DIRECTED

Adjective

He gave me a carefully directed program.



Verb

He directed the company through a difficult time.

6

MARKED

Adjective

We have to read the marked pages.



Verb

We marked all the books with prices.

7

DRESSED

Adjective

Dressed in white snow trees were so beautiful.



Verb

He woke up and dressed.

8

CONTROLLED

Adjective

Controlled office was full with beginners.



Verb

She always controlled everybody.

CALLED

Adjective

The so called boyfriend loves you very much.



Verb

My friend called me Niki.

10

FORCED

Adjective

He gave a forced smile.



Verb

He forced his way through the crowd.

11

PRODUCED

Adjective

Produced dress was ready for sale.



Verb

Her joke produced laughter.

12

DRIED

Adjective

Dried ground needs to be watered.



Verb

He dried his shirt.

13

FILLED

Adjective

Filled with tears eyes.



Verb

Water filled the basin.

14

BUILT

Adjective

These cars are really built.



Verb

He built this house with his best friend.

15

SEATED

Adjective

The seated woman refused to stop staring at him.



Verb

The usher seated me in the back row.

16

SPENT

Adjective

Spent money gave me no peace.



Verb

We spent a few days in Baltimore.


Висновок до першого розділу


У ході дослідження встановлено 21 парадигматичний клас англійської форми дієслова Past Participle. Їх виділення залежало від утворення дієсловом форми Past Participle.

Визначено диференційні ознаки Participle II, зокрема такі: 1) Past Participle має лише одну форму і є пасивним дієприкметником. Він вживається тоді, коли іменник або займенник, до якого він відноситься, позначає об’єкт вираженої ним дії; 2) здебільшого Past Participle виражає дію, що передує дії, вираженій присудком речення; 3) Past Participle може також виражати дію, одночасну з дією, вираженою дієсловом-присудком, а також дію, безвідносну до часу.

Неособова форма англійського дієслова Participle II збігається за формальними ознаками з особовою формою деяких дієслів Past Indefinite Active (правильні дієслова та незмінні дієслова put-put-put). Слід розрізняти ці дві форми, оскільки вони хоч і збігаються формально, та все ж семантично різні. На відміну від Participle II, Past Indefinite вживається для вираження одноразової або постійної дії в минулому: I watched TV yesterday - Я дивилася телевізор учора; ряду послідовних дій у минулому: I dressed, had some coffee and decided to go for a walk with my friend - Я одягнулась, випила чашку кави та вирішила піти погуляти зі своєю подругою; повторювану дію в минулому: I watched that serial every Saturday - Я дивилася той серіал кожної суботи.

Дослідження виконувалося на основі корпусу текстів American National Corpus, тому форми Participle II мають код: VBN verb, past participle (дієслово, дієприкметника минулого часу).

РОЗДІЛ 2. ПОБУДОВА АЛГОРИТМУ ЗНЯТТЯ ОМОНІМІЇ

2.1 Дистрибутивний аналіз оточення форм Participle II


Дистрибутивний аналіз виходить із розуміння, що кожна мовна одиниця має своє особливе оточення, тобто в дистрибутивних властивостях мовної одиниці реалізуються її внутрішні властивості, які відображають її функціональну роль. Немає двох одиниць, оточення яких би повністю збігалося. Деякі одиниці мови мають навіть одиничну дистрибуцію, як, скажімо, англ. am вживається тільки з І. Навіть коли дві одиниці абсолютно однаково звучать, наприклад, англ. two [tu:] «два» і too [tu:] «також», то вони мають різне сусідство: після англ. Two [tu:] можуть іти іменники (/ have two [tu:] sons «Я маю двох синів»), тоді як частка too стоїть, як правило, в кінці фрази і не може мати ад’юнктів (/ am too [tu:] «Я також», І have too [tu:] «Я маю також»).II поєднує в собі ознаки прикметника (Adjective) та дієслова (Verb). Тому, спочатку потрібно встановити сполучуваність прикметника та дієслова, а потім з’ясувати сполучуваність Participle II.

Отже, можливість сполучення одних частин мови з іншими визначає синтаксична дистрибуція/ сполучуваність. Для дієслів основною є,,ліва” та,,права” сполучуваності з іменниками (obtain franchises - obtain a contract - obtain information), з займенниками (earned it), з прислівниками (borrow again - borrow heavily), з дієсловами (it paid to be so - he got paid to follow).

Лексеми, які заповнюють правосторонні або лівосторонні позиції дієслова, прийнято називати актантами.

Синтаксично дієслова можуть поєднуватись у лівосторонній та правосторонній позиції з іменниками, займенниками, іменниковими групами, а також прислівниками, прийменниками, інфінітивами або мати незаповнену правосторонню позицію. Іменникова група представлена іменником або займенником у функції підмета або додатка.

У лексичному ракурсі розглядається специфіка сполучуваності лексичних одиниць з тотожними або близькими значеннями, а при семантичній дистрибуції реалізуються різні поєднання в словосполученнях.

О. І. Смирницький зазначає, що дистрибуція лексем проявляється та існує завдяки лексико-семантичним зв’язкам між лексемами. Окремі слова можуть зв’язуватися за смислом. І така дистрибуція лексем за смислом можлива лише завдяки тому, що у нашій свідомості відображаються зв’язки та відношення між зазначеними предметами та явищами реального світу [28, с. 115]. Під лексичною дистрибуцією мовної одиниці розуміють здатність конкретної мовної одиниці поєднуватись з іншими мовними одиницями при утворенні речень у зв’язному мовленні, це одна з фундаментальних якостей мовних одиниць, яка виражає синтагматичні відноси між одиницями [28, с. 116]. Під дистрибуцією ми розуміємо ідентифікацію усіх лексико-граматичних і семантичних комбінацій дієслів з метою визначення їх комунікативної мети.

Тепер розглянемо прикметник: прикметник у реченні може вживатися або перед іменником (a quiet park), або після дієслова-зв’язки (are happy):’ve got a new toy. (У мене є нова іграшка.)toy is new. (Моя іграшка - нова.)

Існують випадки, коли прикметник можна вживати у реченні лише у певній позиції. Певні прикметники вживаються тільки перед означуваним іменником: chief (=main), elder (=older), eldest (=oldest), inner, outdoor, outer, principal (=main), upper та ін.:don’t like indoor games. (Мені не подобаються ігри, які відбуваються в приміщенні.)only problem he has is he’s got no free time. (Єдина проблема полягає в тому, що у нього немає часу.)

На противагу їм тільки після дієслова-зв’язки вживаються такі прикметники:, alone, alike, ashamed, awake, glad, unwell, well тощо.am pleased to meet you. (Я радий познайомитися з вами.)

Є прикметники, з якими можна вживати означений артикль для того, щоб назвати певну сукупність чи спільноту людей:young usually like to travel. (Молодь любить подорожувати.)must care for the sick. (Миповинні турбуватися про хворих.)

Виділяють такі групи прикметників, що вживаються з the:) соціальні чи економічні угрупування: the homeless - безпритульні, the hungry - голодні, the poor - бідні, the rich - багаті, the strong - сильні, the weak - слабкі тощо;

б) фізичний стан чи здоров’я: the blind - сліпі, the deaf - глухі, the sick -хворі та ін.

в) вік: the elderly - літні люди, the middle-aged - люди середнього віку, the old - старі, the young - молоді тощо.

Отже, основними опорними точками можна виділити іменник, дієслово-зв’язку та артикль.

Але виникає одна проблема, це - Participial Adjectives, тобто коли і Participle II і прикметник формально і семантично збігаються за всіма параметрами. Оскільки Participle II (дієприкметник минулого часу) за структурою виглядає як прикметник та ще й збігається з ним у вживанні в реченні, в англійській мові прийнято вживати термін Participial Adjectives. Такі Participle II вживаються для опису іменника, до якого вони відносяться, тобто так само як і звичайний прикметник. У деяких випадках Participial Adjectives мають дієслово-відповідник (to annoy, to computerize, to excite, etc), в той час як інші не мають (to renown, to self-centre, to talent). Як правило, Participial Adjectives, так само як інші прикметники можуть мати у препозиції такі слова: very, extremely, чи less (very determined, extremely self-centred). Більшість Participial Adjectives можуть виконувати роль означення, та предикатива в реченні. He’s a talented footballer. (означення); That footballer is talented. (предикатив). Але не слід сплутувати Participle II з Participle I, тому що Participle I також може вживатись у подібній ролі, але вони мають трохи різне значення. Наприклад: bored man went to sleep during the discussion. boring man put other people to sleep during the discussion.

У першому реченні «bored» означає те, що чоловіку було нудно, а в другому реченні «boring» означало те, що інші люди вважали чоловіка занудою. Отже, для вирішення омонімії формального контекстного аналізу не достатньо, тут потрібен семантичний аналіз.

2.2 Правила утворення Participle ІІ регулярних і нерегулярних дієслів


Як відомо, в англійській мові розрізняють регулярні і нерегулярні дієслова. Регулярні дієслова - це правильні дієслова, які утворюються за правилами. Нерегулярні дієслова (їх ще називають неправильними) утворюються не за правилами регулярних. Схематично, правила утворення Participle ІІ досліджуваних дієслів подані у вигляді таблиць, у яких перераховано квазіфлексії з приписуваними правилами: для регулярних дієслів - табл. 2.2.1, для нерегулярних дієслів - табл. 2.2.2.

Таблиця 2.2.1

Правила утворення Participle ІІ регулярних дієслів


Суть правила

Правило

1.

>ed

PR1р

2.

>d

PR2р

3.

<i >ed

PR3р

4.

>ned

PR4р

5.

>ped

PR5р

6.

>red

PR6р

7.

>led

PR7р

8.

>ged

PR8р

9.

>ted

PR9р

10.

>med

PR10р

11.

>ded

PR11р

12.

>bed

PR12р

Для того щоб розрізняти правила регулярних і нерегулярних дієслів, до номера правила дописувалися індекси р і н: наприклад, PR1р - правило утворення Participle ІІ для тих правильних дієслів, до яких додається флексія >ed, PR24н - правило утворення Participle ІІ для тих неправильних дієслів, в яких буквосполучення an перед кінцевою d чергується з подвоєнням голосних oo - <oo*, де * означає незмінність кінцевої d і т. д.

У таблиці для нерегулярних дієслів до PR1н належать дієслова, які не мають форми Participle ІІ. Це такі дієслова, як can, may, must, shall, ought, should, will. До PR3н належать ті дієслова, форма який незмінна у Participle ІІ: come, put, spit, upset, set, read, become, burst, cost, hit, knit, let, rid, shut, split. Проте є такі дієслова в англійській мові, які мають дві форми Participle ІІ, одна з яких може утворюватися за PR3н (табл. 2.2.2).

Таблиця 2.2.2

Правила утворення Participle ІІ нерегулярних дієслів


Правило

Номер правила

1.

-

PR1н

2.

<.

PR2н

3.

<> 

PR3н

4.

<a*

PR4н

5.

<ai >n

PR5н

6.

<aug* >t

PR6н

7.

<ck >en

PR7н

8.

<d >en

PR8н

9.

<d*

PR9н

10.

<d.

PR10н

11.

<e**

PR11н

12.

<ft.

PR12н

13.

<i >d

PR13н

14.

<lt

PR14н

15.

<o >wn

PR15н

16.

<o*

PR16н

17.

<o* >ten

PR17н

18.

<o**

PR18н

19.

<o** >en

PR19н

20.

<o** >n

PR20н

21.

<o*d

PR21н

22.

<oke >n

PR22н

23.

<ole >n

PR23н

24.

<oo*

PR24н

25.

<orn

PR25н

26.

<ou >ght

PR26н

27.

<ou* >ht

PR27н

28.

<oug >ht

PR28н

29.

<ough >t

PR29н

30.

<oun >d

PR30н

31.

<ozen

PR31н

32.

<pt

PR32н

33.

<sen

PR33н

34.

<t

PR34н

35.

<t >en

PR35н

36.

<t.

PR36н

37.

<t..

PR37н

38.

<u*

PR38н

39.

<u**

PR39н

40.

<uck

PR40н

41.

<ug* >t

PR41н

42.

<t.

PR36н

43.

<t..

PR37н

44.

<u*

PR38н

45.

<u**

PR39н

46.

<uck

PR40н

47.

<ug* >t

PR41н

48.

>den

PR42н

49.

>en

PR43н

50.

>n

PR44н

51.

>ne

PR45н

52.

>t

PR46н

53.

<ou* >n

PR47н

54.

>d

PR48н

55.

<t.

PR36н

56.

<t..

PR37н

57.

<u*

PR38н

58.

<u**

PR39н

59.

<uck

PR40н

60.

<ug* >t

PR41н

61.

>den

PR42н

62.

>en

PR43н

63.

>n

PR44н

64.

>ne

PR45н

65.

>t

PR46н

66.

<ou* >n

PR47н

67.

>d

PR48н


На основі вже створених правил утворення Participle ІІ (див. вище) були виділені такі парадигматичні класи для регулярних та нерегулярних дієслів: для регулярних дієслів - табл. 2.2.3, для нерегулярних дієслів - табл. 2.2.4.

Таблиця 2.2.3

Парадигматичні класи регулярних дієслів

№ з/п

Правило

Парклас

1.

PR1р

2.

PR2р

3.

PR3р

4.

PR4р

5.

PR5р

6.

PR6р

7.

PR7р

8.

PR8р

9.

PR9р

10.

10р

11.

PR11р

11р

12.

PR12р

12р


Таблиця 2.2.4

Парадигматичні класи нерегулярних дієслів

1.

PR1н

2.

PR2н

3.

PR2н + PR8н

4.

PR2н + PR35н

5.

PR3н

6.

PR3н + PR11р

7.

PR3н + PR9р

8.

PR3н + PR4н

9.

PR5н

10.

PR6н

10н

11.

PR8н

11н

12.

PR9н

12н

13.

PR10н

13н

14.

PR11н

14н

15.

PR12н

15н

16.

PR13н

16н

17.

PR14н

17н

18.

PR14н + PR7р

18н

19.

PR15н

19н

20.

PR16н + PR17н

20н

21.

PR16н

21н

22.

PR18н + PR2р

22н

23.

PR19н + PR1р

23н

24.

PR19н + PR2р

24н

25.

PR21н

25н

26.

PR22н

26н

27.

PR23н

27н

28.

PR24н

28н

29.

PR25н

29н

30.

PR26н

30н

31.

PR27н

31н

32.

PR28н

32н

33.

PR29н

33н

34.

PR30н

34н

35.

PR31н

35н

36.

PR32н

36н

37.

PR33н

37н

38.

PR34н

38н

39.

PR35н

39н

40.

PR35н + PR1р

40н

41.

PR36н

41н

42.

PR37н + PR1р

42н

43.

PR38н

43н

44.

PR39н

44н

45.

PR39н + PR1р

45н

46.

PR40н + PR7н

46н

47.

PR41н

47н

48.

PR42н

48н

49.

PR43н

49н

50.

PR44н

50н

51.

PR44н + PR1р

51н

52.

PR45н

52н

53.

PR46н

53н

54.

PR46н + PR1р

54н

55.

PR47н

55н

56.

PR48н

56н


Парадигматичні класи правильних дієслів повністю збігаються з правилами, наприклад, дієслова accepted, acquainted, adopted і т. д. відносяться до першого парадигматичного класу, оскільки Participle II утворюється за PR1р - додавання ed; appeal, control, expel - до сьомого парадигматичного класу, оскільки Past Participle утворюється за PR7р - додаванням led, і т. п.

Парадигматичні класи неправильних дієслів не збігаються з правилами. Цьому спричинила варіантність форм основного дієслова:

-       до 3н паркласу (парадигматичного класу) входять дієслова, які мають дві форми Past Participle і які утворюються за PR2н і PR8н: hide - hidden, hid;

-       до 4н паркласу - за PR2н і PR35н: bite - bitten, bit;

-       до 6н паркласу - за PR3н і PR11р: hid - hid, hidden;

-       до 7н паркласу - за PR3н і PR9р: knit - knit, knitted;

-       до 8н паркласу - за PR3н і PR4н: spit - spit, spat;

-       до 18н паркласу - за PR14н і PR1р: kneel - knelt, kneelled;

-       до 20н паркласу - за PR16н і PR17н: get - got, gotten;

-       до 22н паркласу - за PR18н і PR2р: shine - shone, shined;

-       до 23н паркласу - за PR19н і PR1р: swell - swollen, swelled;

-       до 24н паркласу - за PR19н і PR 2р: wake - woken, waked;

-       до 40н паркласу - за PR35н і PR1р: dwell - dwelt, dwelled;

-       до 42н паркласу - за PR37н і PR1р: light - lighted, lit;

-       до 45н паркласу - за PR39н і PR1р: hang - hung, hanged;

-       до 46н паркласу - за PR40н і PR7н: strike - stuck, stricken;

-       до 51н паркласу - за PR44н і PR1р: mow - mown, mowed;

-       до 54н паркласу - за PR46н і PR1р: spoil - spoilt, spoiled;

У загальному, нараховано 56 парадигматичних класів нерегулярних дієслів і 12 парадигматичних класів регулярних дієслів.

2.3 Побудова алгоритму зняття омонімії Participle II


Наведені вище правила утворення Participle II дають можливість збудувати алгоритм зняття омонімії. Оскільки Participle II вступає в омонімію з дієсловом Past Indefinite Active та з іменником, то потрібно було спочатку встановити правила щодо розпізнавання в тексті дієслів та іменників, а потім на основі їх аналізу встановити правила розпізнавання безпосередньо Participle II. Потім необхідно було зв’язати з програмою потрібні бази даних. Отже, алгоритм має настпуний вигляд.

Алгоритм зняття омонімії типу PII- V   

1.   У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they), а у постпозиції присвійний займенник (his, her (hers), its, our(ours), your (yours), their (theirs)), за яким слідує іменник? Так - п. 2, ні - п. 3.

2.      Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть іменник, а у постпозиції теж іменник? Так - п.4, ні - п.5.

.        Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they) та прислівник, а у постпозиції - сполучник та дієслово? Так - п. 6, ні - п. 7.

.        Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть іменник, а постпозиції прийменник? Так - п. 8, ні - п. 9.

.        Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they), а у постпозиції займенник (this, these, that, those, such, (the) same)? Так - п. 10, ні - п. 11.

.        Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть іменник, а у постпозиції присвійний займенник (his, her (hers), its, our(ours), your (yours), their (theirs))? Так - п. 12, ні - п. 13.

.        Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they), а у постпозиції іменник? Так - п.14, ні - п.15.

.        Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they), а у постпозиції займенник (each, every, everybody, everyone, everything, all, either, both, other, another)? Так - п. 16, ні - п. 17.

.        Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть сполучник, а у постпозиції кінець речення? Так - п. 18, ні - п. 19.

.        Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they), а за ним слідує прислівник, у постпозиції стоїть теж займенник (each, every, everybody, everyone, everything, all, either, both, other, another)? Так - п. 20, ні - п. 21.

.        Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).

.        Перевірити умову. У препозиції до аналізованої словоформи стоїть іменник, а у постпозиції дієслово, чи прийменник чи взагалі кінець речення? Так - п. 8, ні - п. 9.

.        Приписати аналізованій словоформі код Participle II.

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть дієслово, а у постпозиції - сполучник? Так - п.10, ні - п.11.

.        Приписати аналізованій словоформі код Participle II.

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть прислівник ступеня, а у постпозиції - інфінітив дієслова, іменник чи прийменник? Так - п.12, ні - п.13.

.        Приписати аналізованій словоформі код Participle II.

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник, а у постпозиції прийменник? Так - п. 14, ні - п.15.

.        Приписати аналізованій словоформі код Participle II.

.        Вивести на екран «Омонімія не розв’язана». Вийти з програми.

Алгоритм зняття омонімії типу PII- N

1.   У препозиції до аналізованої словоформи стоїть прислівник, а постпозиції кінець речення? Так - п. 2, ні - п. 3.

2.      Приписати аналізованій словоформі код іменника.

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть дієслово, а у постпозиції - сполучник? Так - п. 4, ні - п. 5.

.        Приписати аналізованій словоформі код Participle II.

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть прислівник ступеня, а у постпозиції - інфінітив дієслова, іменник чи прийменник? Так - п. 6, ні - п. 7.

.        Приписати аналізованій словоформі код Participle II.

.        Перевірити умову. У препозиції до аналізованої словоформи стоїть іменник, а у постпозиції дієслово, чи прийменник чи взагалі кінець речення? Так - п. 8, ні - п. 9.

.        Приписати аналізованій словоформі код Participle II.

.        Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник, а у постпозиції прийменник? Так - п. 10, ні - п. 11.

.        Приписати аналізованій словоформі код Participle II.

.        Вивести на екран «Омонімія не розв’язана». Вийти з програми.

 

Висновок до другого розділу


Дослідження виконувалося на основі корпусу текстів American National Corpus. Побудові алгоритму передував етап з визначення правил утворення форм Participle ІІ. На основі визначених правил утворення Participle ІІ були виділені парадигматичні класи регулярних та нерегулярних дієслів. Корпусний метод дозволив встановити 56 парадигматичних класів нерегулярних дієслів і 12 парадигматичних класів регулярних дієслів. Зокрема, було виявлено, що парадигматичні класи правильних дієслів повністю збігаються з правилами, наприклад, дієслова accepted, acquainted, adopted і т. д. відносяться до першого парадигматичного класу, оскільки Participle ІІ утворюється за правилом PR1р - додаванням ed; appeal, control, expel - до сьомого парадигматичного класу, оскільки Participle ІІ утворюється за моделлю PR7р - додаванням led і т. п. Парадигматичні класи неправильних дієслів з правилами не збігаються, що обумовлено варіантністю форм основного дієслова. У свою чергу, визначення правил утворення Participle II дало можливість збудувати алгоритм зняття омонімії.

РОЗДІЛ 3. ПРОГРАМНА РЕАЛІЗАЦІЯ АЛГОРИТМУ

3.1 Особливості програмної реалізації алгоритму


Створена нами програма автоматичного зняття омонімії використовує статистичний принцип морфологічного аналізу. Такий принцип передбачає наявність двох складових - статистичної моделі та статистичного аналізатора.

Суть такого підходу полягає в тому, що використовується корпус текстів з готовою морфологічної розміткою, де кожному слову вже приписано морфологічний тег. Тег в даному випадку позначає належність слова до однієї з частин мови чи форми слова. Наприклад, у відкритому американському національному корпусі тег VBN означає Participle II (наприклад based), а NNS іменник в множині (наприклад tables). Набір тегів та їх назви повністю залежать від домовленості між розробниками корпусу. Розмічений корпус текстів можна використовувати для багатьох лінгвістичних цілей, зокрема і для морфологічного аналізу. У такому випадку передбачається попередня обробка корпусу.

Також цей підхід називають «навчанням на прикладах», оскільки аналізатор визначає тег слова із введеного тексту за допомогою вже наявних у тексті тегів розмітки. Теоретично, якби аналізатор міг вербалізувати свої думки, це б виглядало наступним чином: Є слово table у контексті «John has a table in his room.». У вже проаналізованих текстах слово table у такому ж контексті найчастіше (або завжди) зустрічається з тегом NN. Отже, в цьому контексті воно теж NN з імовірністю Х% (Х = кількість вживань як NN поділене на кількість усіх вживань).

Практичне втілення такого підходу стикається з деякими труднощами.

По-перше, складним завданням є аналіз, який спирається на звернення до корпусу текстів у цілому. Навіть якщо допустити, що одне звернення до корпусу займає одну секунду. Тоді аналіз одного смс повідомлення займе до 160-ти секунд, що дорівнює майже 3-м хвилинам.

По-друге, рішення буде занадто громіздким, оскільки програма буде прив’язана до корпусу, розмір якого може обчислюватися гігабайтами.

Набагато доцільніше використовувати вже підготовлені дані. Наприклад, підраховану статистичну модель, яка буде являти собою список усіх можливих контекстів для кожного слова з співвіднесеною йому частиною мови і відносною (або абсолютною) частотою. Така модель може займати десятки мегабайт, але це набагато менше ніж гігабайти, і пошук за такою моделлю буде здійснюватися за мілісекунди.

Як уже згадувалося, статистична модель являє собою таблицю контекстів і тегів. Така відповідність набагато спрощує роботу програми, але все ще припускає тривалу ітерацію по таблиці, тобто пошук потрібного контексту.

Також проблемним є спосіб утримання такої моделі. Тримати таку модель у файлі можливо, але потрібно визначити структуру і спеціально реалізовувати процес зчитування та перевірки даних. Усе це, а також функцію швидкого пошуку (індексування), сортування та стиснення даних, включає в себе будь-яка база даних, зокрема, використана нами, Microsoft Access.

 

.2 Етапи створення бази даних


І етап. Створення словника найчастотніших форм PARTICIPLE II.

На даному етапі було використано словник English Conjugation:System And Functioning(reference-book) [22]. За допомогою нього було проаналізовано 290 форм Participle II та виділено 50 найчастотніших.

ІІ етап. Створення словника ланцюгів омонімів до PARTICIPLE II.

На цьому етапі створення бази даних було використано обернений словник англійської мови. За допомогою даного словника було прописано омонімію для найчастотніших Participle II.

Рис. 1. Словник ланцюгів омонімів до PARTICIPLE II

омонімія англійський дієслово participle

ІІІ етап. Створення конкордансу вживань форм PARTICIPLE II (рис. 2).

Конкорданс вживань форм Participle II має таку структурою:

left1 - слово, що стоїть на відстані 2 слів зліва від шуканого;

left0 - слово, що стоїть безпосередньо зліва від шуканого;

word - шукане слово (словоформа);

base - лема шуканого слова в даному контексті;

MSD - тег шуканого слова в даному контексті;

right0 - слово, що стоїть безпосередньо праворуч від шуканого;

right1 - слово, що стоїть праворуч від слова, яке стоїть безпосередньо праворуч від шуканого;

frequency - частота даного контексту (з урахуванням слів, що стоять ліворуч, праворуч, а також леми і тега).

ІV етап Визначення найчастотніших моделей контекстного оточення форм PARTICIPLE II.етап. Дистрибутивний аналіз найчастотніших моделей контекстного оточення форм PARTICIPLE II та виведення правил алгоритму (Додаток 1).

Рис. 2. Конкорданс уживань форм PARTICIPLE II

Відкритий Американський Національний корпус (OANC) - це електронна колекція американської англійської мови, в тому числі текстів усіх жанрів та стенограми усних даних, отриманих з 1990 і надалі. Всі дані та анотації знаходяться у вільному доступі та необмежені для будь-якого використання. У корпусі представлено 15000000 слів сучасної американської англійської мови з автоматично-виробленими анотаціями для різних мовних явищ. 500000 слів рівномірно розподілені в більш ніж 19 жанрах американського варіанту англійської мови.

Подано таблицю кодувань зі структурою:

Tag - тег американського корпусу;

AbstractTag - тег, який має вивести програма.

Це потрібно для того, щоб визначити якою частиною мови є слово.

У випадку, коли програмі потрібно вивести не просто тег, а всі теги слова, використовується ще одна таблиця зі структурою:

base - лема слова;

tag_chain - ланцюжок можливих тегів.

 


3.3 Тестування програми зняття омонімії форм Participle II у довільному тексті


Програму зняття омонімії створено для Windows 7 та написано мовою C#.

Маючи в своєму розпорядженні базу даних контекстів, програма спочатку виділяє в тексті слова таким чином, яким це було зроблено в корпусі. Якщо в корпусі don’t ділиться на do і n’t, то і програма робить так само. Текст аналізується наступним чином:

. У циклі йдемо за словами, запам’ятовуючи контекст. Додаємо кожне слово в чергу, де всього 5 елементів. Перші п’ять слів просто додаються в чергу. Кожне наступне слово зрушує всі наявні в черзі на одне вперед (друге стає першим, третє другим і т.д.).

. Як тільки з’являється або змінюється середнє слово в черзі, перевіряється список з наявних слів у списку контекстів. Якщо це слово, для якого в базі є контексти, проводимо аналіз.

. Спочатку намагаємося знайти найчастотніший тег для повного контексту (два слова ліворуч, два праворуч), якщо тег не знайдений тоді:

.1. намагаємося знайти тег за двома лівими і одним правим словом, якщо тег не знайдений, тоді:

.2. намагаємося знайти тег за двома правими і одним лівим словом, якщо тег не знайдений, тоді:

.3. намагаємося знайти тег по одному лівому і одному правому слову, якщо тег не знайдений, тоді:

.4. намагаємося знайти тег за двома правими словами, якщо тег не знайдений, тоді:

.5. беремо найчастотніший тег для слова.

. Приписуємо знайдений тег слову.

. Коли всі слова проаналізовані, будуємо вихідний текст. Слова з тегом обертаються в маркери <tag> word </ tag >, решта записуються без змін.

. За маркерами шукаємо і помічаємо слова кольором.

Робоче поле програми виглядає так:

Рис. Вікно програми зняття омонімії

Для перевірки роботи програми, потрібно знайти файл WindowsFormsClient.exe та натиснути на нього. Після чого відкривається два віконця та дві кнопки. У перше віконце потрібно ввести довільний англійський текст, після цього натиснувши кнопку process, програма виведе протегований текст у другому віконці. Потрібному слову буде приписаний тег відповідної частини мови, а також виділено його кольором. У програмі також є кнопка tags, натиснувши на неї, можна побачити таблицю із тегами для всіх частин мови (для наглядного розуміння роботи програми див. Додаток 2 та Додаток 3).

Висновки до третього розділу

Програмна реалізація алгоритму зняття омонімії спиралася на статистичний принцип морфологічного аналізу, що передбачає наявність статистичної моделі та статистичного аналізатора. Матеріалом для дослідження слугував відкритий Американський національний корпус (OANC) - корпус англійських текстів усіх жанрів. Застосування статистичного принципу полягало в тому, що використовувався корпус текстів з готовою морфологічної розміткою, де кожному слову вже приписано морфологічний тег. На основі даних розмітки вказаного корпусу текстів було створено статистичну модель кожного аналізованого слова - список усіх можливих контекстів для кожного слова з співвіднесеною йому частиною мови і відносною (або абсолютною) частотою.

Укладання правил творення дієприкметника минулого часу Participle ІІ для регулярних і нерегулярних дієслів, визначення парадигматичних класів для словозмінних форм дієслів та дослідження контекстів кожного аналізованого слова дало можливість створити алгоритм, що забезпечує: 1) розпізнавання форм Participle ІІ в тексті або реченні, 2) зведення до початкової форми, та враховуючи частотні характеристики 3) визначення граматичного класу. Даний алгоритм програми основується на статистичних даних і розрахований на закріплення знань про форми Participle ІІ дієслів активного стану в англійській мові, а також може виступати в ролі морфологічного словника англійського дієслова.

ВИСНОВКИ

Розв’язання омонімії на основі лінгвістичних методів та його програмна реалізація спрямовані на удосконалення систем комп’ютерного морфологічного аналізу тексту. Дослідження наукової літератури з проблеми розв’язання омонімії показало, що це завдання може бути розв’язане різними способами. Формально-граматичний підхід спрямований на створення складних систем правил, які дозволяли б у кожному конкретному випадку приймати рішення про належність слова до певного граматичного класу. Статистичний підхід спирається на збір статистики зустрічальності слова у схожому контексті, на основі якого і приймається рішення про граматичні характеристики слова. Спираючись на ці два підходи в пропонованому дослідженні здійснено спробу розв’язанні омонімії форм Participle II.

Для досягнення мети було виконано такі основні завдання: 1) досліджено явище омонімії і закономірності вживання омонімічних форм Participle II англійської мови; 2) укладено списки частин мови, що можуть бути омонімічними до Participle II в англійській мові; 3) визначено типи моделей сполучуваності для Participle II та омонімічних до нього форм; 4) побудовано алгоритм зняття омонімії форм Participle II англійської мови; 5) створено програму мовою С# для автоматичного зняття омонімії.

Перспективи подальших досліджень вбачаємо в необхідності удосконалення алгоритму, врахувавши всі ті диференційні ознаки варіантів форм, які не є загальними у вивченні, але й які можуть зустрічатися в різних стилях англійської мови. Це дасть змогу глибше розкрити систему словозмінних форм дієслова англійської мови.

СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ


1.                Анализатор предложных связей // Синтаксический анализ научного текста на ЭВМ. - К.: Наукова думка, 1999. - 127-163 с.

2.      Арнольд I. В. Лексикология современного английского языка. - М.: Высшая школа. - 1986. - 296 с.

.        Блох М. Я. Теоретическая грамматика английского языка: / Марк Яковлевич Блох [Електронний ресурс]. - Режим доступу: (дата звернення: 12.12.2013).

4.      Большакова Е. И., Мальковский М. Г., Пильщиков В. Н. Искусственный интеллект: методы и алгоритмы эвристического поиска / Е. И. Большакова, М. Г. Мальковский, В. Н. Пильщиков. - М.: МГУ, 2002. - 527 с. - [Електронний ресурс]. - Режим доступу: #"886506.files/image004.gif">

Похожие работы на - Розв’язання лексико-граматичної омонімії неособової форми англійського дієслова Participle II (на матеріалі корпусу англійських текстів)

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!