Обзор методов обработки естественного языка в задачах дистанционного обучения
Обзор методов
обработки естественного языка в задачах дистанционного обучения.
Задача обработки
естественного языка при помощи ЭВМ с каждым днем становится все актуальней и
актуальней. Развитие научно-технического прогресса во всем мире привело к тому,
что объем новой информации постоянно растет со стремительно увеличивающейся
скоростью. Человек во многих случаях становится не в состоянии самостоятельно
переработать всю необходимую для его профессиональной деятельности информацию.
И тогда компьютерные системы, использующие новейшие алгоритмы обработки естественного
языка, могут оказать ему реальную помощь.
В последнее время
компьютеры стали активно внедряться в систему образования /1,2,3/. Создано
огромное количество программных продуктов, направленных на обучение различного
рода предметам. Если раньше дисциплины, изучаемые с помощью компьютерных
программ относились в основном к техническим, то теперь компьютер широко
используется и при подготовке специалистов по гуманитарным предметам, ведущую
роль среди которых, бесспорно, занимают иностранные языки. Повышение интереса к
иностранным языкам, и в особенности к английскому, за последние несколько лет
легко объясняется изменениями политического и экономического характера, и как
следствие, возрастанием роли знания иностранного языка.
Потребности
нашего общества в компьютеризации обучения языку сегодня резко возросли в связи
со следующими факторами:
-
невозможность
прохождения специальных языковых курсов без отрыва от основной работы;
-
постоянный
рост оснащенности персональными компьютерами населения России;
-
ориентация
учащейся молодежи на ЭВМ как на главное средство автоматизации
интеллектуального труда;
-
острый
дефицит кадров педагогов языковых дисциплин;
и ряд других.
Стремительное
развитие компьютерных и информационных технологий естественным образом
отразились и на системе образования. Возможности, которые появились благодаря
внедрению передовых сетевых технологий (Internet - технологий) на территории России, послужили поводом для
начала серьезных проектов, связанных с новым типом обучения - дистанционным
обучением (ДО). Под термином ДО понимается обучение, при котором преподаватель
и обучаемый разделены пространственно.
Немного об
истории и развитии ДО /1/. ДО возникло более века тому назад. Принято различать
4 поколения развития ДО.
Первое поколение
ДО начало развиваться в конце 19, в начале 20 века. Самыми распространенными
тогда материалами были отпечатанные в типографиях учебники и сборники
упражнений к ним. Взаимодействие обучаемого с преподавателем происходило с
помощью обычной почтовой связи (обмен письмами).
Второе поколение
ДО начало развиваться в 70-е годы. Был создан ряд университетов (в основном в
Англии), цель которых была готовить студентов, которые по тем или иным причинам
не имели возможности обучаться в очной форме. Учебные материалы давались с
использованием местного телевидения и радио или путем пересылки по почте аудио
записей курсов. Аудио-конференции с использованием телефонных систем, тоже
являются частью второго поколения развития ДО.
Третье поколение
ДО (начало 80-х годов) связывают с появлением спутниковых технологий и
развитием компьютерной техники. Доставка информации стала возможна с помощью
компьютерных сетей в цифровом виде. К третьему поколению развития ДО также
относят видеоконференции и использование носителей CD-ROM.
Четвертое
поколение ДО возникло с момента распространением Internet-технологии по всему миру. Internet намного облегчил доступ у информации. Сделал возможным как
синхронное (chat, видео и аудио конференции),
так и асинхронное (e-mail) взаимодействие обучаемого с
преподавателем. Использование в ДО технологий базирующихся на WEB дает возможность применять во время
учебного процесса не только текстовую информацию, но и звук и видео.
Как видно из выше
сказанного, основным вопросом в организации ДО является способ доставки и
организации учебного материала /1/. Одним из перспективных способов передачи
информации при организации ДО является e-mail. За последние годы в
различных университетах мира проводилось обучение по экспериментальной
методике, особенность которой была в том, что взаимодействие учащихся
(студентов 2-ых и 3-их курсов) и преподавателей, либо полностью, либо частично,
происходило с помощью e-mail /2/. Курсовые материалы,
использованные в экспериментах, были хорошо структурированы и подготовлены для
самостоятельного освоения. В результате было показано, что усвоение пройденного
материала студентами обучающимися с помощью e-mail, происходит не хуже, а на
некоторых курсах лучше студентов, обучающихся традиционно. Так же
преподавателями и студентами, участвующими в эксперименте, был отмечен ряд
преимуществ такого подхода к обучению /2/.
Преподавателями
были отмечены следующие положительные качества этого метода:
-
студент
практически не зависит от расписания;
-
доставка
и “чтение” материалов курса регистрируется преподавателем (при открытии письма
учащимся, автоматически высылается письмо преподавателю);
-
работа с
курсом практически не требует бумаги, что обеспечивает удобство работы и
быстроту копирования материала;
-
однажды
подготовленный курсовой материал может быть использован в последующие годы.
Так же важно
отметить ряд преимуществ использования e-mail, которые нашли для себя
учащиеся:
-
использование
e-mail не требует присутствия на лекциях курса;
-
возможность
работы с материалом в удобное для учащихся время;
-
весь
курсовой материал хорошо систематизирован и может быть легко воспроизведен в
полном объеме самостоятельно даже после окончания обучения.
Все перечисленные
выше преимущества только малая часть того, что может дать образованию
использование информационных технологий и методов ДО по сравнению с
традиционными подходами.
Какие новые
возможности позволяет использовать ДО по сравнению с широко известной заочной
формой?
1.
Возможность
оперативного обмена информации по изучаемой проблеме, как с преподавателем, так
и с другими участниками, изучающими курс.
2.
Доступ к
различным источникам информации, в том числе удаленным и распределенным базам
данных, многочисленным конференциям по всему миру, огромному количеству
библиотек.
3.
Возможность
организации совместных международных конференций по изучаемой проблеме,
возможность запроса и получение ответа на интересующие вопросы через
электронные конференции.
4.
Возможность
обучения в престижных зарубежных вузах, не покидая родного дома.
Из выше
сказанного можно сделать вывод о необходимости и перспективности развития ДО.
Важно сформулировать основные требования к создаваемым продуктам,
ориентированным на применение для дистанционного обучения иностранному языку.
Основные требования:
-
организация
знаний о языке в виде целостной модели;
-
представление
этой модели на ЭВМ в доступной для учащегося форме;
-
использование
алгоритмов и методов искусственного интеллекта (ИИ) с целью повышения
эффективности обучаемого комплекса;
-
обеспечение
контроля знаний учащегося при помощи ЭВМ;
-
обеспечение
работы системы, как в локальной сети, так и в глобальной сети Internet;
-
обеспечение
открытости системы для удобства наполнения и корректировки базы знаний и
тренажеров;
-
обеспечение
платформенной независимости системы;
-
обеспечение
модульности системы с целью быстрой замены, добавления или удаления приложений,
используемых в обучении;
-
обеспечение
связи с преподавателем.
В данной работе
уделяется особое внимание вопросу использования в такого рода проектах методов
ИИ. Речь пойдет об алгоритмах работы с текстовой информацией.
Задача
интеллектуальной обработки текстов на естественном языке впервые появилась на
рубеже 60х—70х гг. /7/. С тех пор было предпринято множество различных попыток
ее решения, созданы десятки экспериментальных программ, способных вести диалог
с пользователем на естественном языке. Однако широкого распространения такие
системы пока не получили — как правило, из-за невысокого качества распознавания
фраз, жестких требований к синтаксису “естественного языка”, а также больших
затрат машинного времени и ресурсов, необходимых для их работы. Практически во
всех системах машинного понимания текста используется ограниченный естественный
язык, поскольку полной и строгой формальной модели ни для одного естественного
языка пока не создано.
Тем не менее
естественно-языковые средства общения человека с ЭВМ постоянно развиваются,
оставаясь одним из наиболее перспективных способов построения пользовательского
интерфейса к сложным информационным системам.
Исследования этой
области в Европе и США привлекают внимание крупнейших частных фирм и
государственных организаций самого высокого уровня. Серьезная работа в
направлении решении проблем автоматической обработки ЕЯ началась с основанных
ARPA программ в 1980-х годах /7/, среди которых:
-
программа
распознавания речи ATIS;
-
программа,
направленная на решение задач понимания и извлечение информации из текстов IE
(Information Extraction);
-
программа
TIPSTER, существовавшая с 1991 по 1998 год, основной целью которой было
сравнение и оценка результатов работы различных поисковых систем и систем
реферирования.
Необходимо
отметить, что такие задачи как распознавание и генерации речи, создание
поисковых систем и систем реферирования, до настоящего времени решаются с
минимальным участием лингвистов. Это обусловлено использованием при решении
вышеупомянутых задач в основном статистических методов.
Несмотря на это,
за долгие годы четко определились области, в которых наиболее сильны позиции
профессиональных лингвистов. Это лексико-грамматический анализ (Part of Speech tagging)
предложения /4,5,6/, синтаксический анализ (Text Parsing) предложения, нахождение имен
собственных в тексте и автоматическое реферирование.
Задача лексико-грамматического анализа — автоматически распознать, какой
части речи принадлежит каждое слово тексте. На рис.1 показан пример
предложения, в котором каждому слову поставлен в соответствие
лексико-грамматический класс.
The/AT
man/NN still/RB saw/VBD her/PPO./.
Обозначения
RB -
наречие
AT - опр. артикль
NN - существительное
VB – глагол
VBD –
глагол в прошедшем времени
PPO –
объектное местоимение
PP$ -
личное местоимение
. - точка
Рис.1
Данную задачу не
трудно выполнить для русского языка благодаря его развитой морфологии практически
со стопроцентной точностью. В английском языке простой алгоритм, присваивающий
каждому слову в тексте наиболее вероятный для данного слова
лексико-грамматический класс (часть речи) работает с точностью около 90%, что
обусловлено лексической многозначностью английского языка.
Для улучшения
точности лексико-грамматического анализа используются два типа алгоритмов:
вероятностно-статистические и основанные на продукционных правилах, оперирующих
словами и кодами.
Большинство
вероятностно-статистических алгоритмов /4/ использует два источника информации:
1. Словарь
словоформ языка /5/, в котором каждой словоформе соответствует множество
лексико-грамматических классов, которые могут иметься у данной словоформы.
Например, для словоформы well в словаре указано, что она может быть наречием,
существительным, прилагательным и междометием. Для каждого
лексико-грамматического класса словоформы указывается частота его встречаемости
относительно других лексико-грамматических классов данной словоформы. Частота обычно
подсчитывается на корпусе текстов, в котором предварительно вручную каждому
слову приведен в соответствие лексико-грамматический класс. Таким образом,
словоформа well в словаре будет представлена следующим образом (рис.2):
Словоформа |
Часть речи |
Частота |
Well |
существительное |
4 |
Well |
наречие |
Well |
прилагательное |
6 |
Well |
междометие |
1 |
Рис.2
2. Информацию о встречаемости всех возможных последовательностей
лексико-грамматических классов. В зависимости от того, как представлена данная
информация, разделяют биграмную, триграмную и квадриграмную модели. В биграмной
модели используется информация о всех возможных последовательностях из двух
кодов (рис.3):
Последовательность
|
Частота
|
неопр.артикль
+ сущ.ед.ч
|
35983
|
неопр.артикль
+ сущ.мн.ч
|
7494
|
Опр.артикль
+ сущ.ед.ч
|
13838
|
неопр.артикль
+ сущ.мн.ч
|
47
|
Рис.3
В триграмной
модели и квадриграмной модели используется соответственно информация о всех
возможных последовательностях из 3-х и 4-х кодов.
Рассмотрим
подробнее пример разбора предложения, представленного на рис.1. Прежде всего,
определяются все возможные значения частей речи, входящих в предложение,
словоформ. Так словоформа “The” может
быть только AT; “man” - NN или VB; “still” - NN, VB или RB; “saw” - NN или VBD; “her”-PPO или PP$. Далее воспользовавшись таблицей
частотности, присваиваем словоформам тот или иной лексико-грамматический класс.
Пример таблицы частотности для нашего предложения приведен на рис. 4.
|
NN
|
PPO
|
PP$
|
RB
|
VB
|
VBD
|
.
|
AT
|
186
|
0
|
0
|
8
|
1
|
8
|
9
|
NN
|
4
|
1
|
3
|
40
|
9
|
66
|
186
|
PPO
|
7
|
3
|
16
|
164
|
109
|
16
|
313
|
PP$
|
176
|
0
|
0
|
5
|
1
|
1
|
2
|
RB
|
5
|
3
|
16
|
164
|
109
|
16
|
313
|
22
|
694
|
146
|
98
|
9
|
1
|
59
|
VBD
|
11
|
584
|
143
|
160
|
2
|
1
|
91
|
Рис.4
Например
сочетание “The man” может быть либо (AT-NN) либо (AT-VB), c соответствующими
вероятностями 186 и 1. Далее, аналогично, сравниваются вероятности p(AT-NN-NN)=744, p(AT-NN-VB)=1674 и p(AT-NN-RB)=7440 и т.д. В итоге мы
получим следующую комбинацию: “AT-NN-RB-VBD-PPO”, что и будет являться результатом
работы вероятностно-статистического алгоритма.
Представленная
выше информация обрабатывается программой, использующей статистические
алгоритмы, чаще всего алгоритм скрытых цепей Маркова /4/ для нахождения
наиболее вероятного лексико-грамматического класса для каждого слова в
предложении.
Алгоритмы,
основанные на продукционных правилах, используют правила, собранные
автоматически с корпуса текстов, либо подготовленные квалифицированными
лингвистами. Примером могут быть следующие правила:
-
Если
словоформа может быть как глаголом, так и существительным, и перед ней стоит
артикль, эта словоформа в данном случае является существительным.
-
Если
словоформа может быть как предлогом, так и подчинительным союзом, и если после
нее до конца предложения нет глагола, эта словоформа в данном случае является
предлогом.
Оба подхода дают
примерно одинаковый результат. При их использовании раздельно либо в различных
комбинациях точность лексико-грамматического анализа улучшается до 96-98 %.
Поскольку точность при лексико-грамматическом анализе текста вручную также
имеет определенную погрешность (0,5-2 %), можно считать, что автоматизация
лексико-грамматического анализа достигла практически такой же точности.
Синтаксический
анализ /8/. В отличие от лексико-грамматического анализа текста, синтаксический
анализ — развивающаяся область прикладной лингвистики. Цель синтаксического
анализа — автоматическое построение функционального дерева фразы, т.е.
нахождение взаимозависимостей между разноуровневыми элементами предложения.
Считается, что имея успешно построенное функциональное дерево фразы, можно
выделить из предложения смысловые элементы: логический субъект, логический
предикат, прямые и косвенные дополнения и различные виды обстоятельств.
Существует большое количество различных подходов к синтаксическому анализу
текстов, например система LTAG/8/.
Главная особенность этой системы заключается в построении элементарных
смысловых деревьев предложения. Каждое элементарное дерево содержит в себе всю
синтаксическую и семантическую информацию о конкретном слове или группе слов. К
этим деревьям могут быть применены операции примыкания и подстановки.
Подстановка является простой операцией – подстановкой дерева к висящей вершине
другого дерева. Примыкание является более сложной операцией – присоединение
некоторого дерева к внутренним вершинам другого дерева. Данный алгоритм подробно
описан в работе /8/. Ниже рассмотрен один из общих подходов синтаксического
анализа предложения.
Синтаксический
разбор предложения происходит путем набора последовательных преобразований:
-
поиск
грамматических идиом;
-
лексико-грамматический
анализ предложения с устранением неоднозначности в определении частей речи;
-
нахождение
именной группы объекта и субъекта;
-
нахождение
глагольной группы;
-
выделение
главных и придаточных предложений.
Приведем пример
синтаксического разбора предложения рис.5.
[We]
{have found} / that [subsequent addition] (of [the second inducer]) (of [either
system]) <after {allowing} [single induction] {to proceed} +> (for [15
minutes]) (also) {results} (in [increased reproduction]) + \ + (of [both
enzymes]).
Обозначения:
[…]
– группа существительного;
(…)
– группа дополнения;
{…}
– глагольная группа;
/…\
и <…> - главные и придаточные предложения;
+
- окончание глагольного окружения.
Рис.5
В данной обзорной
работе описаны лишь некоторые алгоритмы и наиболее общие подходы к проблеме
автоматической обработки естественно-языковых текстов.
Сегодня в области
компьютерной лингвистики ежегодно проводится более 40 конференций по всему
миру, посвященных проблемам обработки естественного языка. Постоянно растет
количество программных продуктов, связанных с данной темой, повышается их
качество. Но, несмотря на это, те системы перевода, реферирования и экспертные
системы, которые на сегодняшний день считаются лучшими, далеко не идеальны и
требуют серьезных доработок. Все это говорит о необходимости продолжения
исследований вопросов, связанных с обработкой естественного языка в задачах ДО
и разработки новых подходов и алгоритмов, основанных на методах искусственного
интеллекта.