Кластеры существительных
Введение
В разных языках прилагательные, которые в словарях соотносятся как переводные эквиваленты, могут иметь разные поля употреблений. То есть, они имеют не полностью идентичную семантику, что часто становится проблемой при переводе для людей, не в совершенстве владеющих иностранным языком. Эта проблема относится к ряду вопросов, которые изучает область лингвистики, называемая лексико-семантической типологией.
Лингвистические теории о языке как показателе культуры народа-носителя подтверждают факт того, что переводные эквиваленты не всегда имеют абсолютно идентичные значения. Через изучение подобных различий в значениях тех слов, которые на первый взгляд кажутся совершенно точными переводами друг друга, можно понять больше о культуре народа и страны, а также об языковой картине мира носителей языка.
Дальнейшая разработка этой темы касается кластеризации существительных, для которых установлена сочетаемость с прилагательными заданного ряда в биграммах. При кластеризации в первую очередь учитывается эта сочетаемость. Кластеризация будет произведена тремя разными подходами: включающими и не включающими дополнительный этап разбиения на кластеры, основанный на семантических значениях.
Существуют различные способы классификации лексики, как правило, основанные на семантике. Способ, который будет представлен в этой работе, основан на сочетаемости единиц лексики. Семантический аспект будет иметь меньшее влияние на процесс кластеризации. В конце такой подход будет проанализирован с точки зрения того, насколько точно полученные кластеры связаны семантически.
Этапы работы включают в себя автоматическую обработку биграмм (что было частично выполнено в предыдущей работе), кластеризацию существительных из подходящих биграмм по сочетаемости с прилагательными заданного ряда и тестирование нескольких разных методов кластеризации. Следующий шаг - сравнение нескольких подходов с другими подходами к классификации слов. Целью исследования является поиск такого способа кластеризации существительных на основе их сочетаемости, который мог бы помочь различать семантические поля синонимичных прилагательных и их переводных эквивалентов.
Проблема того, как можно научить компьютер понимать значения слов, существует с момента начала изучения автоматической обработки языка. Было придумано некоторое количество способов, которые частично разрешают эту проблему, однако не всегда достаточно точно, отчего в некоторых случаях работы, включающие осознание значений слов, человеку проще производить вручную, не прибегая к помощи автоматической обработки. Но при больших объемах данных ручная обработка становится крайне трудоемким и длительным процессом, поэтому в некоторых случаях допустить определенный объем ошибок проще, чем безошибочно работать с данными, но тратить на это огромное количество времени.
В этом исследовании биграммы ограничивают процесс семантической классификации, так как более содержательные контексты (например, n-граммы с n больше двух, отдельные предложения и т.д.) могут дать более полную семантическую информацию и показать точное значение существительного в этом конкретном случае. Одновременно ограничение контекста может сделать процесс более быстрым и эффективным, поскольку в этом случае не требуется дополнительная обработка языковых данных для выяснения семантической информации, а также размер используемых данных в разы меньше.
Работа может помочь исследователям лексической типологии. Автоматизация компиляции семантических полей для разных слов может значительно ускорить этот процесс. Таким образом, он может быть полезным инструментом для дальнейшего исследования семантических полей и лексической типологии.
1. Обзор литературы
лингвистический язык кластеризация синоним
Язык отражает культуру народа, который на нем говорит. Об этом сказано в гипотезе Сепира-Уорфа о языковой относительности, а также в дальнейших работах многих лингвистов на эту тему (Апресян В. Ю., 2011). Эта гипотеза также легко объясняет то, почему многие слова (исключая предметные имена) не имеют таких переводных эквивалентов на других языках, которые полностью бы отражали все значения, вкладываемые в слово в исходном языке.
Подобное определение переводных эквивалентов совпадает с определением синонимов - слов, схожих по смыслу. Важнейший вывод, к которому пришла Московская семантическая школа, заключается в том, что полностью эквивалентных синонимов, то есть таких, которые бы имели абсолютно идентичное значение, не существует ни в одном языке. Даже при описании синонимов упор делается не на их сходство, а на их различия(Апресян Ю. Д., 1995). Каждое слово из ряда синонимов имеет хоть какое-нибудь минимальное отличие в той семантике, которую оно передает.
В работе Рахилиной Е. В. и Резниковой Т. И. (Рахилина & Резникова, 2013) переводные эквиваленты слов рассматриваются как расширение их синонимических рядов. Такой вывод получен на основе опыта составления двуязычных словарей. При составлении словарей и правил перевода встает проблема не идентичности всех оттенков значений переводимого слова и его переводного эквивалента. Более подробно об этой проблеме и ее решении рассказали Кюсева М. В., Резникова Т. И. и Рыжова Д. А. (Кюсева, Резникова, & Рыжова, 2013). В работе был описан способ сбора данных об оттенках значений и условий, ограничивающих сочетаемость слов. Проблему предложено решать установлением семантических фильтров на сочетаемость слов с определенными таксономическими классами.
Различия в употреблении синонимов и их переводных эквивалентов изучают исследователи лексической или лексико-семантической типологии - области лингвистики, занимающейся изучением разнообразия семантики лексических единиц в языках мира. Лексическая типология занимается изучением того, какими способами могут быть переданы лексические значения в разных языках. То есть, в поле изучения входит и то, какими различиями в оттенках значений могут обладать переводные эквиваленты и связанные с ними слова.
Лексическая типология также описывает семантические поля для различных явлений. Семантическими полями называют группы понятий, которым соответствуют предметы или явления, связанные между собой семантически. При построении предложений человек оперирует не отдельно взятыми словами, а семантическими полями, выбирая из поля наиболее уместно слово (Шеина, 2010). Описание семантического поля содержит в себе то, как входящие в него слова могут быть связаны, в каких контекстах они могут употребляться и какие оттенки значений имеют. Нередко слово может принадлежать не к одному, а к большему количеству семантических полей. Поля могут пересекаться, образовывать подполя. Значение каждого слова при этом может быть наиболее точно определено лишь в том случае, если определены значения всех слов, входящих в семантическое поле. С помощью составления семантических карт можно наглядно увидеть описываемое семантическое поле.
Как правило, в разных языках семантические поля для одних и тех же понятий имеют разную структуру. Кроме того, тот признак, который может связывать слова одного семантического поля в одном языке, может выступать как признак, который различает несколько семантических полей, для другого языка (Онлайн-энциклопедия «Кругосвет», 1997-2017). То есть, при описании семантического поля для одного языка, результаты не всегда оказываются верными и для другого. Описаниями таких различий занимаются исследователи лексико-семантической типологии.
Семантические поля могут содержать в себе разные фреймы и микрофреймы. Фреймовый подход - это один из подходов к исследованиям в области лексической типологии. Он был подробно описан Рахилиной Е. В. и Резниковой Т. И. (Рахилина & Резникова, 2013).Фреймы - это определенные языковые ситуации, обладающие определенными параметрами, которые могут различаться в зависимости от языка. Другими словами, фреймы - минимальные лексические категории, для которых будет использована отдельная лексема (Кюсева, Резникова, & Рыжова, 2013).
Процесс автоматизации сбора фреймового материала на основе биграммного материала был описан в работе Орехова Б. В. и Резниковой Т. И. (Орехов & Резникова, 2015). Дальнейшая работа предусматривает автоматизацию выделения семантических полей на основе автоматически выделенных фреймов, то есть классификацию полученных фреймов для дальнейших лексико-типологических исследований.
Классификация лексики - процесс по разбиению лексики на определенные группы со схожими признаками. Основным способом классификации была и остается классификация на основе сходства семантики.
Кроме того, классификация лексики может производиться по этимологическому родству и по сходству формы. Для классификации лексики по этимологии нужно проводить этимологический анализ, и, основываясь на полученных данных, классифицировать лексику (например, все заимствования из французского языка, пришедшие в русский в определенный период).
Классификация лексики по сходству формы основывается либо на схожести графического написания, либо на схожести звучания слова. По такому же принципу классифицируют омонимичные слова для словаря - слова, имеющие одинаковое написание, но разные значения.
Кластеризация или кластерный анализ - это задача разбиения множества данных на такие подмножества, что внутри каждого оказываются данные, которые схожи по определенным признакам. Кроме того, кластеры не пересекаются, то есть каждая единица данных может принадлежать только к одному кластеру.
В лингвистике кластеризация - это один из методов, которым может быть произведена классификация лексики. Опыт такого подхода при лингвистическом анализе описан в работах D. Lin, Н. Х. Нургалиевой и В. Ю. Апресян(Lin, 1998; Апресян, 2011; Нургалиева, 2013).
Одним из проблемных мест кластеризации является «чистота» данных, то есть кластеризация производится лучше на тех данных, которые позволяют однозначно отнести единицу данных в тот или иной кластер. В этой работе данные можно считать «чистыми» и без дополнительной обработки. Для существительного либо будет найден биграммный контекст с определенным прилагательным, либо нет. В совокупности все существительные могут быть классифицированы по тем наборам прилагательных, с которыми они употребляются.
Кластерный подход для анализа лингвистического материала позволяет находить межъязыковые обобщения материала, основываясь на сравнении признаков объектов одной группы. Недостаток этого метода в том, что кластеры могут получаться неустойчивыми, т.е. при каждом новом анализе кластеризация будет проходить по-другому. Результаты классификации рекомендовано проверять на других данных (Нургалиева, 2013).
Различают несколько подходов к кластеризации, каждый из которых имеет свои преимущества в зависимости от анализируемых данных.
При иерархической кластеризации строится дерево решений. Существует два способа иерархической кластеризации - нисходящий и восходящий. При кластеризации первым способом на каждом этапе происходит разбиение выборки на две или более групп. При кластеризации вторым - на первом этапе каждая единица данных рассматривается как отдельный кластер, на каждом следующем этапе кластеры попарно сливаются в один с самыми близкими им кластерами.
Основная проблема иерархической кластеризации - это остановка процесса. Если заранее не обозначить точку остановки, процесс дойдет либо до того, что каждому кластеру будет соответствовать по одной единице данных, либо до того, что все данные будут являться одним большим кластером.
При иерархической кластеризации данные разбиваются на кластеры поэтапно. При плоской кластеризации все данные разбиваются на кластеры за один раз.
Один из самых популярных методов кластеризации является метод k-средних. Действие этого алгоритма таково, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров. Число кластеров устанавливается заранее.
Для лингвистических целей более подходящими принято считать иерархические алгоритмы кластеризации, хотя по большей части выбор метода основывается на данных.
Один из основных вопросов кластерного анализа - это то, каким способом определяется «близость» данных. То есть, при отсутствии четко заданных или бинарных параметров, по которым производится кластеризация, определение «границы» между двумя кластерами затруднительно. Например, при разделении данных по численному параметру, численные значения которого неравномерно распределены, становится проблематичным определить то значение, которое можно было бы назвать пограничным. Например, в качестве границы можно выбрать медиану или среднее арифметическое.
. Этапы работы
Основной целью исследования является разработка метода автоматической кластеризации существительных, основанного на их сочетаемости в биграммах с заранее заданным рядом прилагательных. Была создана программа, которая работает в несколько этапов и на выходе даеттаблицы в формате csv с полученными кластерами существительных. На вход программе дается заранее подготовленный список синонимичных прилагательных и их переводных эквивалентов для русского, немецкого и английского языков.
Программа для работы была написана на языке программирования Python 3.Этот язык программирования очень удобен при работе с естественным языком. Он также имеет большое количество модулей, облегчающих работу по автоматической обработке языка.
В этой работе роль фреймов выполняют биграммные конструкции, первое слово которых - прилагательное из заранее заданного ряда синонимичных прилагательных и их переводных эквивалентов, а второе слово - существительное, найденное с одним из прилагательных в биграммном контексте.
Биграммы автоматически выбираются из заранее приготовленных файлов от корпорации Google, содержащие биграммы, найденные в коллекции литературы с XIXвека по сегодняшний день. Все найденные биграммы разделены на отдельные файлы. Каждый файл содержит те биграммы, первое слово которых начинается на определенные две буквы, которые также определяют название файла. На сегодняшний день Google представляет биграммы на английском, немецком, китайском, французском, испанском, итальянском, русском языках и иврите. Однако в настоящем исследовании работа производится только с русским, немецким и английским языками, так как во французском, итальянском и испанском языках и в иврите такой порядок слов, что прилагательное ставится после существительного, к которому оно относится. Это не дает заранее выбрать нужный файл из коллекции при производимой работе, так как при работе с английским, немецким и русским выбираются те файлы, биграммы из которых начинаются с прилагательного из заранее заданного ряда.
При отборе биграмм для коллекции компания Google смотрела также на их частотность во всей коллекции литературы. Биграммы должны были иметь некоторую определенную частотность по этой коллекции, чтобы попасть в окончательную выборку, поэтому большинство случайных употреблений нескольких слов подряд исключены. Однако для дополнительной отчистки от нерелевантных биграмм на русском языке в настоящей работе проводится дополнительная проверка морфологическим анализатором. В качестве анализатора используется анализатор MyStem от компании Yandex (https://tech.yandex.ru/mystem/), который свободно распространяется правообладателями. MyStem предназначен для морфологического анализа текстов на русском языке. Программа способна распознавать слова, производить их морфологический анализ и находить начальные формы слов (не разрешая при этом проблему омонимии).
При обработке биграмм на английском и немецком языкахиспользуется программа TreeTagger,разработанная Хелмутом Шмидом в институте компьютерной лингвистики университета Штутгарта. Эта программа предназначена для морфологической разметки текстов.
Для немецкого языка проверка биграмм на синтаксическую связанность выполняется вручную, без использования специально предназначенных программ. Но с помощью сторонней программы TreeTaggerдополнительно проверяется соответствие нужным частям речи, и находятся начальные формы слов, используемые в дальнейшей работе.
Для английского языка, слова в котором не имеют показателей синтаксической связанности, выполняется простая проверка на соответствие нужным частям речи с помощью TreeTagger.
На следующем этапе выполняется перевод отобранных на предыдущих этапах биграмм. Протестированы два способа перевода: с помощью предварительно обработанных электронных словарей и с помощью API двух сервисов машинного перевода (компаний ABBYY и Yandex).При использовании предварительно обработанных словарей и API машинного перевода компании ABBYY результаты перевода могли включать не один вариант перевода, то есть вставала дальнейшая задача разрешения семантической неоднозначности. При переводе с помощью API от Yandex результат всегда включает только один вариант, поэтому вся дальнейшая работа проводится с использованием API от компании Yandex. На перевод посылается не одно существительное, а вся биграмма, отчего семантическая неоднозначность разрешается при машинном переводе. Для дальнейшего удобства работы с этого этапа все существительные переводятся на английский язык.
Далее производится кластеризация полученных данных тремя способами.В этой работе производимую кластеризацию можно назвать нисходящей иерархической, так как на каждом шаге данные разбиваются на две части в зависимости от того, сочетаются ли они с прилагательным, которое анализируется на данном шаге. Кроме того, данные можно назвать «бинарными», то есть существительное либо было найдено, либо не было найдено с определенным прилагательным в биграммном контексте, что позволяет однозначно относить его к одному из двух кластеров на каждом шаге. Также такой тип данных решает основную проблему иерархической кластеризации - вопрос о том, когда процесс необходимо прерывать, потому что количество прилагательных сразу определяет количество производимых шагов.
Первый способ кластеризации, использованный в этой работе, заключается в автоматическом разбиении полученных существительных на кластеры по их сочетаемости. Полученные кластеры анализируются вручную, насколько существительные в них семантически связаны друг с другом.
Следующий способ почти повторяет первый, но добавляется автоматический поиск общего концепта кластера с помощью семантического тезауруса WordNet, разработанного в Принстонском университете и свободно распространяющегося. WordNetсостоит из групп слов (синонимических рядов), которые называются синсеты. Все синсеты имеют определенные семантические связи друг с другом. В этой работе общие связи между словами находятся через связи гипонимов гиперонимов.
Гиперонимы - слова, которые имеют более широкое значение, чем заданное слово, а гипонимы им противоположны, то есть имеют более узкое значение (например: клен-дерево, где клен - гипоним слова дерево, а дерево - гипероним слова клен).
Гипонимы наследуют все свойства более общего концепта, добавляя при этом как минимум одну деталь, которая добавляет некоторую специфику в значение (Miller, Beckwith, &Fel, 1993). Таким образом, при кластерном анализе поиск общего гиперонима для найденных кластеров может помочь определить общий концепт кластера.
Поиск общих гиперонимов, которые могут послужить названиями кластеров, проводится двумя способами. Первый способ заключался в том, что для каждого слова бесконечно выполняется поиск следующих слов гиперонимов, пока какой либо гипероним не будет общим среди рядов гиперонимов для всех слов кластера. Второй способ - это поиск всех гиперонимов определенного количества уровней. Для каждого гиперонима находится свой гипероним, и таким образом, поиск переходит на следующий «уровень». Далее среди всех уровней найденных слов-гиперонимов ищется такой гипероним, который имеет наибольшую частотность среди всех рядов гиперонимов для всех слов кластера.
Для итоговых результатов выбран второй способ, так как нахождение названия кластера первым способом может проводиться бесконечно долго в случае, если слова из найденного кластера никак семантически не связаны. Последующий поиск гиперонимов вторым способом подтвердил это: большое количество кластеров получило помету None, то есть для кластера на заданном количестве уровней гиперонимов не было найдено того определения, которое бы встретилось больше одного раза.
Количество уровней, выбранное для работы, было равно трем. Проведен поиск при количестве уровней равном пяти, десяти и даже пятнадцати, однако при таких количествах названия кластеров становятся менее специфичными: abstraction, concept, idea, object. Хотя, следует заметить, что при этом названия групп находятся для большего количества кластеров.
Ниже приведены результаты, которые были получены при выборе самого частотного слова-гиперонима, не обязательно встретившегося со всеми существительными из кластера.
1)Organism: case, man, road, body
)Region: terrain, quality, constitution, territory
)Communication: evidence, belief, commitment, agreement, composition
Проблема этого способа состоит в том, что полученные данным способом названия кластеров отражают общую идею существительных, однако не для всех слов кластера, так как самое частотное слово-гипероним не обязательно должно быть в рядах гиперонимов всех слов кластера. Поэтому следующий шаг - этовведение ограничения на то, чтобы слово-гипероним, выбираемое в качестве общего, должно быть найденов рядах гиперонимов всех существительных кластера. При этом количество уровней гиперонимов увеличено до семи.
При первой попытке выбора самого частотного слова-гиперонима в качестве названия кластера большинство крупных кластеров получило названия, в то время как более маленькие кластеры остались с пометой None. При попытке выбора в качестве названия кластера того слова, которое было найдено в качестве гиперонима со всеми существительными кластера, напротив самые крупные кластеры остались без названий, а маленький получали эти названия с большей вероятностью. Поэтому для финальной версии данного способа кластеризации выбран такой способ, который включает в себя оба пути нахождения общего слова. Название кластера определяется по следующему принципу: выбирается то слово, которое было бы общим словом-гиперонимом для всех существительных кластера. Если такого слова не найдено, выбирается самое частотное из них. Количество уровней выбрано средним между первыми двумя методами и равно пяти. Кроме того, поставлено дополнительное ограничение на те слова, которые могут быть выбраны в качестве названий кластера: исключены самые абстрактные (abstraction, concept, idea, object).
Третий способ осуществления кластеризации заключается в том, что существительные разбиваются на семантические кластеры с помощью WordNet перед тем, как они кластеризуются далее по своей сочетаемости с прилагательными.
Такой метод также опробован двумя способами. При кластеризации первым способом заранее определяется набор абстрактных названий кластеров (act, abstraction, concept, group, idea, object, part), а затем каждое слово определяется в кластер с тем названием, которое является его ближайшим гиперонимом среди всех абстрактных названий. Кроме того, слово получает помету other, если в определенном количестве уровней гиперонимов не найдено ни одного названия из определенного набора абстрактных названий.
Однако подобные названия кластеров оказались слишком абстрактными для дальнейшего анализа того, насколько они отражают концепты кластеров. Поэтому следующим шагом этого способа стал сбор гиперонимов определенного уровня для всех существительных каждого из полученных ранее абстрактных кластеров, отчего кластеры получают более точные и отражающие их концепт названия (clothing, nature, device). Абстрактные названия, которые были отобраны для предыдущего способа, тоже встречаются среди всех названий кластеров, но большой объем этих кластеров уже разделен над подкластеры, имеющие более точное название.
В дальнейшей работе первый шаг по разделению всех существительных на абстрактные кластеры не использовался, так как он практически никак не влияет на результат последующей кластеризации.
Существует модуль для языка программирования Python, который позволяет работать с WordNet с помощью простых функций, что делает автоматическую обработку более удобным процессом при работе с WordNet. Этот модуль также используется и в этой работе.
Результаты были получены в виде электронных таблиц сочетаемости ряда прилагательных с найденными существительными, объединенными в кластеры.
. Результаты
В ходе работы получены таблицы в формате csv, которые показывают распределение существительных по кластерам, а так же по тому, с какими прилагательными сочетаются полученные кластеры.
Ниже приведен анализ некоторого количества кластеров, полученных тремя способами, с целью понять то, насколько точно определяются кластеры каждым из способов.
Рассмотрим несколько кластеров, полученных при кластеризации первым из трех методов, то есть без дополнительного этапа рассмотрения семантики существительных. Ряд прилагательных, использованный для этого: твердый, жесткий, прочный - на русском языке, hard, solid, firm, tough - на английском языке и hart, schwer, fest - на немецком языке.
1)impression, state, idea, path.
Представленный кластер состоит из существительных, которые найдены в контекстах со всеми словами ряда, кроме слова жесткий.
Можно заметить, что все слова могут иметь значение ментального, относящегося к умственной деятельности события. Возможно, при использовании дополнительного поиска общей семантике, эти слова бы остались в одном кластере.
Эти слова имеют биграммный контекст с прилагательными hard, solid, fest, schwer, прочный, жесткий.
В этом кластере можно выделить две группы: trunkи box, называющие предметы, в которые можно помещать другие предметы, и stage и building, называющие помещения (stage в некоторой степени тоже можно назвать помещением, так как концепт сцены включает в себя идею «содержания в себя» людей, так же, как и building).
То есть, этот кластер был бы разделен на два подкластера при использовании дополнительного этапа с поиском общей семантики.
3)physique, operation, meal, passage, lid, capacity, master, employment.
Слова из этого кластера сочетаются с прилагательными hard, solid, fest, schwer.
Кажется, что эти слова не имеют ничего семантически общего, отчего отсутствие какой-либо автоматического поиска общей семантики не дает осознать общий концепт (или его отсутствие) у этого кластера.
4)exam, suppression, dilemma, taxation, dispute
Этот ряд существительных найден в биграммах с прилагательными hard, tough, hart, schwer, жесткий.
На первый взгляд, слова этого ряда мало что связывает семантически. Однако при более детальном анализе семантики этих существительных можно заметить, что каждое слово описывает то явление, которое может являться некоторым испытанием для человека, чем-то, что на него «накладывается тяжелым грузом».
5)injury, mischief, stress, importance, complaint
Этот кластер состоит из существительных, которые употребляются с прилагательными solid, hart, schwer.
Кроме слова importanceкаждое существительное имеет негативный оттенок значения. Также только слово injury обозначает что-то, что имеет физическое воплощение, остальные слова описывают непредметные явления. Но кроме этих связей межу словами больше не прослеживается ничего семантически общего.
Полученные результаты первым способом кластеризации существительных на основе их сочетаемости с прилагательными без привлечения дополнительной семантической обработки показывают, что связанность кластера может быть не всегда ясна. Кроме того, подобный способ хоть и может сократить время сбора лексико-типологического материала о сочетаемости существительных с синонимичными прилагательными на разных языках, но время, которое будет тратиться для дальнейшего поиска семантической связи слов в кластере, все равно остается прежним.
Следующие два метода кластеризации затрагивали работу с семантическим тезаурусом WordNet. При использовании модуля WordNet основной проблемой является отсутствие синсетов для некоторых слов. В случаях, если не было найдено ни одного синсета, это слово исключалось из дальнейшей выборки, так как при отсутствии какого-либо семантического маркирования дальнейшая работа с существительным этим методом представляется невозможной.
Другой проблемой при работе с WordNet является проблема выделения нужного синсета из нескольких найденных. Однако найденные синсеты распределяются по такому порядку, что первые синсеты - существительные, и в большинстве случаев самый первый синсет является именно тем, который нужен в дальнейшей работе. Поэтому решение этой проблемы заключается в простом выборе первого синсета, если он соответствует существительному.
Проанализируем результаты работы программы, полученные при дополнительном шаге с использованием тезауруса WordNet для дополнительного поиска общей семантики кластеров после их кластеризации по сочетаемости с прилагательными.
1)State: confidence, mood, tax
Слова из кластера найдены с прилагательными firm, hard, solid, tough, fest, schwer, жесткий.
Название state в переводе состояние подходит для двух слов кластера: confidenceиmood. Слово tax не подходит под подобный перевод, однако, вероятно, оно имеет отношение к слову stateв переводе штат, тогда связь между налогом и автоматически найденным названием кластера становится более объяснимой.
2)Message: envelope, demand, note
Эти слова найдены в биграммах с прилагательными firm, hard, solid, tough, твердый.
В целом, концепт сообщения подходит для каждого слова кластера: конверт, запрос и заметка. Однако слово envelopeописывает объект, используемый для сообщений, слово demand описывает сообщение как определенный коммуникативный акт, а слово noteможет пониматься и в первом, и во втором смыслах.Переводnote может соответствовать и записке, как какому-то объекту с посланием или же как замечанию, то есть чему-то, что тоже можно отнести к коммуникативному акту.
3)Person: champion, sponge, countenance, advocate, battalion, guard
Этот кластер найден в биграммах с прилагательными firm, solid, fest, hart, schwer, жесткий.
В целом, объяснения о связи с концептом person можно найти для каждого слова кластера, даже для существительного sponge, которое в разговорном варианте имеет вариант перевода пьяница. Но при этом, если между словами champion, sponge, advocateи guardхорошо прослеживается семантическая связь, слова countenanceиbattalion выделяются из этого ряда. Слово countenanceпереводится как лицо или выражение лица, то есть имеет отношение скорее к телу человека, а не прямо или косвенно описывает его занятия. Слово battalionописывает группу людей, что тоже не подходит под общий концепт остальных слов кластера.
4)Living thing: guy, legislation,selection
Существительные этого ряда найдены с прилагательными hard, solid, tough, fest, hart, твердый.
В данном кластере выбор названия совершенно не очевиден, так как к концепту живое существо можно отнести только слово guy. Слова legislation (законодательство) и selection (выбор) в таком случае кажутся совершенно неподходящими к данному кластеру.
5)Measure: trunk, box, stage, building
Эти слова были найдены в биграммах с прилагательными hard, solid, tough, fest, schwer, прочный.
Слово measure, выбранное в качестве заголовка для этого уже описанного выше кластера, кажется совсем не подходящим. Исходя из уже проведенного анализа кластера, можно было ожидать другое общее слово в качестве называния.
Проведенный анализ нескольких кластеров, полученных данным способом, показывает, что большинство названий, которые были автоматически выбраны для кластеров, хорошо описывают общий концепт кластера. Но далеко не каждое название можно было бы назвать таким словом, которое бы полностью отражало общую семантику всех слов кластера. Кроме того, часто общие слова-гиперонимы могут иметь разное отношение со словами кластера (например, и envelope, и demandмогут иметь отношение к понятию message), что не дает полного понимания тех отдельных значений, которые должны иметь слова при сочетании с определенными прилагательными.
Помету None в качестве названия кластера при этом способе получило 115 кластеров из 448. Этот результат лучше, чем результаты при нахождении самого частотного слова в качестве названия и выбора того слово, которое бы было встречено в рядах гиперонимов для всех существительных кластера (315 и 258 помет None соответственно).
Далее следует анализ результатов кластеризации третьим способом, когда первым этапом кластеризация производится по словам-гиперонимам, а далее уже по сочетаемости существительных с синонимичными прилагательными. Количество уровней поиска гиперонима, используемое для результатов, экспериментальным путем установлено равным пяти и трем. Большее количество уровней приводит к более расплывчатым и неоднозначным названиям кластеров, а меньшее количество приводит к более ясным и полно отражающим концепт кластера названиям. Но при количестве уровней гиперонимов равном пяти также получаются более крупные кластеры, а при заданном значении уровней равном трем кластеры в основном получаются маленькими, то есть состоят из одного или двух слов.
Проанализируем несколько кластеров, названия которых искались среди гиперонимов, расположенных в пяти уровнях от слов.
Worker: ranger, paratrooper, sergeant, trooper, cavalryman, marshal, warden, swagger
Этот кластер существительных имел сочетание с единственным прилагательным из ряда tough.
Все слова ряда, кроме слова swagger, в некоторой степени могут быть отнесены к понятию рабочий. Однако следует заметить, что каждое слово в большей или меньшей степени имеет значение не простого рабочего, а военного. Из этого можно сделать вывод, что меньшее количество уровней могло привести в данном случае к более точному подбору названия кластера.
Buildingcomplex: elm, flower, weld
Данный кластер существительных был найден в употреблениях с прилагательными hard, solid, tough.
Неясно, как понятия elmи flowerмогут быть отнесены к понятию-гиперониму комплекс зданий, так как они скорее относятся к объектам растительного мира.
Concept: community, institution, culture
Этот кластер сочетается с прилагательными hard, solid, tough, fest,прочный.
Название кластера, которое также принадлежит ранее определенному ряду абстрактных названий, в данном случае тоже слишком абстрактно определяет концепт слов кластера, что не дает в полной мере понять связь этих слов.
Далее рассмотрим и проанализируем несколько кластеров, полученных в результате поиска названий-гиперонимов на трех уровнях.
Ill health: pre-eclampsia, rheumatism, malaria, fiasco
Слова из данного кластера найдены в сочетаниях с прилагательным schwer.
Все слова, кроме fiascoназывают болезненные состояния, что хорошо описывается найденным понятием illhealth. Однако словоfiasco не совсем подходит в данный ряд, так как его семантика не имеет никакого отношения к здоровью. С другой стороны, в некоторой степени можно проследить его связь с остальными словами, так как болезни, как правило, имеют негативный оттенок значения, как и слово fiasco.
Vascular plant: elm, flower, weld
Данный кластер существительных был найден в употреблениях с прилагательными hard, solid, tough.
Этот уже рассмотренный выше кластер имеет более понятное связывающее его название здесь. Теперь становится ясно, что слово weld имеет здесь значение, не относящееся к строительству, а употреблено в другом своем значении - общеупотребительном названии растения.
Extremity: skyline, roadside, trotter, wayside
Слова из данного кластера употребляются с прилагательным hard.
В целом, каждое слово имеет оттенок значения крайности, пограничного состояния. Однако каждое из них понимается отдельно, между ними не прослеживается той связи, которую бы следовало ожидать от кластера. Skyline - абстрактная природная граница, roadsideиwayside - имеющие физическое воплощение границы определенных участков, а trotter - «пограничный» способ передвижения между ходьбой и бегом.
Также следует заметить и то, что внутри кластеров, которые могли бы быть получены в результате лишь поиска общих слов-гиперонимов без подразделения на кластеры по сочетаемости, не прослеживается сильных отличий между словами, имеющими разную сочетаемость с прилагательными. Приведем в пример несколько кластеров (таблицы 1, 2 и 3), полученных при поиске общих слов-гиперонимов на пяти уровнях.
Таблица 1. Сочетаемость существительных с семантической пометой cognitivepsychology и прилагательных
cognitive_psychologystudyhardsolidtoughhartzestkiycognitive_psychologycomparisonhardsolidtoughhartcognitive_psychologysurveyhardsolidcognitive_psychologysurveillancehardtoughcognitive_psychologyquizhardtoughcognitive_psychologyinspectionhardtough
Таблица 2. Сочетаемость существительных с семантической пометой mammal и прилагательных
mammalpighardsolidschwermammaldeerhardtoughmammalhorsesolidtoughschwermammalmuletoughmammalliontoughmammalhorsesschwer
Таблица 3. Сочетаемость существительных с семантической пометой artwork и прилагательных
artworktrianglehardsolidfestzestkiyartworkhexagonhardsolidartworkoctagonsolidartworkparabolasolidartworkquadranglesolidartworkellipsesolidartworkovaltverdiy
Из полученных результатов можно сделать вывод, что, возможно, дробление на кластеры также могло получиться слишком частым из-за большого количества прилагательных. Поэтому следующий шаг работы - это испытание методов на новых данных, включающих меньшее количество прилагательных.
Для испытания методик был выбран ряд синонимичных прилагательных dirty, filthy, messy - на английском языке, schmutzig, dreckig - на немецком языке и прилагательное грязный на русском языке.
Была проведена проверка второго и третьего способов кластеризации. Результаты второго способа кластеризации с трудом можно признать пригодными для дальнейших исследований, так как при меньшем количестве прилагательных кластеры существительных, которые получаются только на основе сочетания с прилагательными ряда, больше. В таком случае, при автоматическом нахождении общего слова-гиперонима в качестве названия кластера это название присваивается и очень большим кластерам, отчего утрачивается малейшее понимание семантической связи существительных. Ниже рассмотрены два примера некрупных кластеров, полученные в результате применения второго способа.
Collection: kiss, knot, pile
Слова из этого кластера употребляются с прилагательным messy.
Связь между существительными в кластере не прослеживается, а к общему определению collectionможно отнести только слово pile.
Act: activity, fight
Эти существительные найдены в биграммах с прилагательными dirty, messy, schmutzig.
Связь этого кластера сразу ясна, а также понятен его заголовок act. Однако таких кластеров, полученных данным способом меньшинство, потому что первоначально было получено небольшое количество маленьких кластеров, слова в которых бы легко связывались простым общим семантическим концептом.
Leader: shepherd, priest
Эти слова найдены в биграммных контекстах с прилагательными dirty, filthy.
Связь существительных с полученным названием достаточно ясна. И shepherd(пастух), и priest (священник) могут быть названы лидерами в своих родах дейтельности. Однако с первого взгляда связь этих наименований профессий не так очевидна, и не сразу бы угадывалась при ручном анализе кластеров.
Time period: March, November, December
Эти названия месяцев были встречены с прилагательным dirty.
Кроме вполне очевидной и ясной связи существительных данного кластера примечательно еще и то, что кроме этих названий месяцев в коллекции биграмм с заданным рядом прилагательных больше не было найдено других названий месяцев. То есть, данный кластер можно назвать точно выделенным с помощью автоматических методов.
Emotion: malice, thrill, spite, meanness, pall
Этот кластер существительных был найден в биграммах с прилагательным dirty.
Связь слов этого кластера так же ясна, как и связь слов предыдущего кластера. Кроме того, название отражает общую семантику всех существительных. Следует также заметить, что слова данного кластера не просто связаны общим значением наименования эмоций. Каждое слово описывает эмоцию или состояние, которые считаются отрицательными.
Kitchen utensil: kettle, skillet, pannikin, saucepan
Существительные из этого кластера употребляются с прилагательным dirty.
Этот кластер так же, как и предыдущие, обладают отчетливо понятной общей семантической идеей. Связь всех существительных довольно ясна, а также автоматически подобранное название кластера полностью уместно и описывает общую идею всех сущестительных.
Из рассмотренных примеров кластеров видно, что данный способ работает на данных с меньшим количеством прилагательных лучше. Результаты кластеризации получились более точными по сравнению со вторым методом, а также их можно назвать в некоторой степени лучше результатов, полученных с другим рядом синонимичных прилагательных.
Каждый из предложенных в работе способов кластеризации существительных не показал совершенно идеальных результатов. Каждый из результатов нуждается в дальнейшей обработке человеком. Однако некоторые полученные результаты частично дают представления о концептах кластеров, а каждый из опробованных способов имеет свои плюсы и минусы.
Первый способ кластеризации, исследуемый в работе, можно назвать полуавтоматическим, так как он требует полного анализа каждого кластера человеком и ручного подбора общего концепта.
Второй способ кластеризации также не идеален, однако именно в нем видится дальнейшая разработка заданной цели исследования. Основа кластеризации прилагательных по нему заключается в сочетаемости с прилагательными, а дальше уже кластерам автоматически присваиваются имена на основе их семантики. Следующим шагом к совершенствованию данной методики может являться расширение исходных данных, а также последний шаг по разбиению полученных на основе сочетаемости кластеров на подкластеры, основанные на семантике.
Третий же способ не столько зависит от сочетаемости существительных, сколько от их семантики, то есть он не совсем отвечает первоначально поставленной задаче. Хотя, находимые этим способом кластеры и их названия можно назвать наиболее точными.
Кроме того, было замечено, что второй способ кластеризации дает более точные кластеры при работе с большим количеством синонимичных прилагательных, в то время как третий способ дает противоположный результат: более точные кластеры получаются, когда ряд синонимичных прилагательных уже.
Оценка точности полученных данных приведена в таблице ниже (таблица 4).
Таблица 4. Точность полученных данных
способ получения кластеровколичество выделенных кластеровколичество релевантных кластеров%ряд hard244713730,6534042203950,45ряд dirty2371027,033140771250,6
Заключение
Было описано испытание метода произведения кластеризации существительных, который основывается на их сочетании в биграммах с прилагательными из заранее определенного ряда синонимичных прилагательных на английском, немецком и русском языках.
Полученные результаты трудно назвать совершенными и пригодными для дальнейшей работы в том виде, в котором они были получены, так как связь слов в части кластеров остается непонятной без дополнительного ручного семантического анализа. Для более точного определения общих концептов кластеров необходима дополнительная работа человека, а в некоторых случаях даже с ним не всегда ясно, что объединяет слова внутри кластера кроме их сочетаемости с прилагательными.
Выбор другого и более полного биграммного материала возможно мог бы улучшить результаты работы программы. Кроме того, поиск общего названия кластера не через гиперонимы семантического тезауруса WordNet, а через другие источники, способные отражать общие концепты семантики существительных, мог бы повлиять на результаты работы. Проблема работы сWordNet заключается в том, что одному слову может соответствовать несколько синсетов, каждому из синсет может соответствовать несколько гиперонимов и так далее. Более точный выбор нужного синсета или гиперонима мог бы проводиться более удачно, если бы контекст был более полным: например, с помощью алгоритма Леска.
Однако стоит отметить и то, что дальнейшая разработка методикиможет привести к улучшению результатов, а также к будущему применению программы для лингвистических исследований. Семантическую связь между существительными некоторых кластеров можно легко проследить, а также для некоторых кластеров автоматически находятся вполне объяснимые названия.
В целом, утверждение о том, что конкретные прилагательные из синонимического ряда на разных языках сочетаются со словами из определенных семантических полей, было подтверждено.
В дальнейшем данный способ кластеризации лексики может помочь автоматически описывать семантические поля. Кроме того, представляется возможной разработка данной методики не только для биграмм вида прилагательное и существительное, но и для словосочетаний, имеющих другую структуру, например существительных с глаголами. При дальнейших разработке и совершенствовании методики возможна разработка программы по автоматическому нахождению семантических полей синонимичных слов, что может помочь исследователям лексико-семантической типологии.
Литература
Lin, D. (1998). Automatic retrieval and clustering of similar words., G., Beckwith, R., & Fel, C. (1993). Introduction to WordNet: An On-line Lexical Database.
Абдурашитова, Г. М. (2016). Автоматизация лексико-типологической анкеты. Курсовая работа.
Апресян, В. Ю. (2011). Опыт кластерного анализа: русские и английские эмоциональные концепты. Вопросы языкознания, 19-51.
Апресян, Ю. Д. (1995). Лексические синонимы. В Избранные труды, том I. Лексическая семантика (стр. 216-255). Москва: "Восточная литература" РАН.
Кюсева, М. В., Резникова, Т. И., & Рыжова, Д. А. (2013). Совершенствование одноязычных, двуязычных и мультиязычных словарей: автоматизация процесса сборки материала.
Нургалиева, Н. Х. (2013). Кластерный подход в лингвистическом анализе (на материале корпуснолингвистического анализа заимствований из английского языка (англицизмов) в немецком языке). Филология и искусствоведение, 454-460.
Орехов, Б. В., & Резникова, Т. И. (2015). Компьютерные перспективы лексико-типологических исследований.
Рахилина, Е. В., & Резникова, Т. И. (2013). Фреймовый подход к лексической типологии. Вопросы Языкознания, 3-31.
Шеина, И. М. (2010). Лексико-семантическое поле как универсальный способ организации языкового опыта. Вестник московского государственного областного университета, 69-72.