Исследование и классификация артефактов археологического памятника Лузанова Сопка-2
АНАЛИЗ
И КЛАССИФИКАЦИЯ АРТЕФАКТОВ АРХЕОЛОГИЧЕСКОГО ПАМЯТНИКА ЛУЗАНОВА СОПКА-2
Анализ результатов археологических раскопок
производится на данных памятника «Лузанова Сопка-2», который находится в
Хорольском районе Приморского края.
Возраст этого памятника 5800 лет. Найденные
фрагменты сосудов были изучены, распределены к разным сосудам, в зависимости от
толщины стенок и материала изготовления сосудов, и зарисованы. Итак, каждый
сосуд может быть представлен одним или несколькими обломками.
Сосуды имеют характерные признаки, которые можно
разделить на четыре группы: форма венчика, наличие валика, форма среза венчика,
техника орнаментации.
Признаки из групп "форма венчика" и
"форма среза венчика" присутствуют на сосуде лишь один раз в отличие
от признаков групп "наличие валика" и "техника
орнаментации".
Все признаки сосудов представлены графически.
Каждый признак имеет свой буквенный и цифровой индекс, что упрощает дальнейшую
обработку.
Таблица
описания признаков
|
№
|
код
|
признак
|
|
№
|
код
|
признак
|
|
1
|
а
|
Прямой
венчик
|
|
12
|
м
|
Треугольники
по диагонали
|
|
2
|
б
|
Загнутый
венчик
|
|
13
|
н
|
Ромбы
в треугольнике
|
|
3
|
в
|
Валик
на сосуде
|
|
14
|
о
|
Гребенка
вертикальная
|
|
4
|
г
|
Горизонтальная
кромка
|
|
15
|
п
|
Гребенка
диагональная
|
|
5
|
д
|
Округлая
кромка
|
|
16
|
р
|
Лопатки
по горизонтали
|
|
6
|
е
|
Скошенная
внутрь кромка
|
|
17
|
с
|
Лопатки
в треугольнике
|
|
7
|
ж
|
Скошенная
наружу кромка
|
|
18
|
т
|
Отступающая
лопатка
|
|
8
|
Заостренная
кромка
|
|
19
|
у
|
Овалы
в линию
|
|
9
|
и
|
Орнамент
на кромке
|
|
20
|
ф
|
Прочерченная
линия
|
|
10
|
к
|
Ромбы
в шахматном порядке
|
|
21
|
х
|
Прочерченная
полукруглая линия
|
|
11
|
л
|
Ромбы
в ряд
|
|
|
|
|
|
Все признаки сосудов были закодированы: 1 - если
признак присутствует на сосуде, и 0 - если отсутствует, и занесены в таблицу,
которая и обрабатывалась.
Выбор основы типологии строится на наиболее
информативных признаках. Информативность признаков находится в несколько
приемов. Сначала строится таблица со встречаемости всех признаков. Все признаки
разделены на 3 группы: венчик, кромка, орнамент. Вторая, третья и четвертая
колонки таблицы относятся к выделенным группам. Пятая колонка обозначает
количество сосудов имеющих одинаковые сочетания признаков. Всего различных
возможных сочетаний 39. В шестой колонке подсчитаны частоты встречаемости
признаков, как отношение количества сосудов с одинаковым сочетанием признаков к
числу всех сочетаний, и обозначаются P. В седьмой колонке вычисляются P* log2P
для соответствующего сочетания признаков.
Таблица
Таблица
для определения энтропии для всех групп признаков
|
№
|
Форма
венчика
|
Форма
среза венчика
|
Орнамент
|
Число
сосудов с i-ым
сочетанием признаков
|
Частота
сочетания (P)
|
Pi*log2P
|
1
|
а
|
з
|
о
|
6
|
0,071
|
0,270
|
2
|
а
|
з
|
р
|
3
|
0,035
|
0,170
|
3
|
а
|
д
|
ф
|
4
|
0,047
|
0,208
|
4
|
а
|
ж
|
и
|
1
|
0,012
|
0,075
|
5
|
а
|
е
|
и
|
1
|
0,012
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
38
|
б
|
г
|
п
|
1
|
0,012
|
0,075
|
39
|
б
|
д
|
р
|
1
|
0,012
|
0,075
|
Далее суммируются данные последней колонки:
.
Аналогично строятся таблицы для
определения энтропии распределения сочетаний вариантов признаков без значений
признаков "форма венчика"), "форма среза венчика" и
"орнамент. В таблицах анализ проводится по двум группам признаков.
Для этих случаев формулы для
вычисления энтропии имеют вид:
, ,
.
Далее строится таблица встречаемости
на сосудах признаков из группы "форма венчика". В первом столбце
таблицы указываются два возможных признака из этой группы: прямой венчик и
загнутый венчик, во втором - число сосудов с этими признаками. В третьей и
четвертой колонке вычисляются частоты и P*log2P, аналогично
описанным выше вычислениям.
Суммируя значения последней колонки,
считается H1. Для определения неравномерности распределения сосудов
по значениям признака "форма венчика" вычисляются:
, ; ,
где в формуле - идеальное
значение энтропии для признака; R1 - коэффициент неравномерности.
Аналогично строятся таблицы
встречаемости на сосудах признаков из групп "форма среза венчика" и
"орнамент". Для них энтропия и коэффициент неравномерности посчитаны
по формулам:
, , .
, , .
В итоге были посчитаны, использую
вычисленные выше результаты, коэффициенты информативности (I1, I2, I3) и
нормированной информативности (Q1, Q2, Q3) по
формулам:
, , , ,
, .
Эти коэффициенты занесены в итоговую
таблицу и проанализированы.
Наиболее информативным признаком
оказался "орнамент" (Q3 = 0,128). Форма венчика и форма
среза венчика менее информативны (Q1 = 0,064, Q2 =
0,101). Как дополнительная характеристика признаков был подсчитан коэффициент
неравномерности их распределения (R). В итоге оказалось, что орнамент обладает
самой высокой информативностью и самым малым коэффициентом неравномерности (R3
= 0,128). Признак "форма венчика" обладает наименьшим коэффициентом
информативности и наибольшей неравномерностью (R1 = 0,574), надо
отметить, что это следствие того, что большинство единиц анализа относится к
одному значению, т.е. из 23 фрагментов 21 имеют признак "`прямой
венчик"', потому появление этого признака на керамике не определяет
значения остальных. В свою очередь, так как только два сосуда (сосуд 6 и сосуд
12) имеют признак "загнутый венчик", то возможно эти сосуды будут
определены в один кластер, состоящий только из этих двух сосудов.
Таким образом, в группировку введены
элементы иерархии, позволяющие упорядочить признаки по степени их значимости (в
статистическом смысле). Признак "орнамент", который имеет самую
большую информативность и небольшой коэффициент неравномерности, является
основанием типологии. Формы венчика и характер формы среза венчика
характеризуют вариантные признаки памятника Лузанова Сопка-2.
Для проведения кластерного анализа
были выбраны агломеративные иерархические алгоритмы, так как именно они
позволяют получить наиболее полное представление о структуре кластеров в виде
дендрограммы. В виду того, что не известны методы и меры, используемые для
решения такого рода задач, была проведена кластеризация по всем 7 методам,
которые реализованы в программе статистического анализа SPSS, для них
использовались 25 мер. Число кластеров определялось по динамике изменения
порога расщепления (слияния) кластеров. В программе SPSS по каждому методу
выводится таблица агломерации, с помощью которой можно оценить число кластеров.
Для этого необходимо проследить динамику увеличения расстояний по шагам
кластеризации и определить шаг, на котором отмечается резкое возрастание расстояний.
Оптимальному числу кластеров соответствует разность между числом объектов и
порядковым номером шага, на котором было обнаружено максимальное расстояние.
Проанализировав таблицы агломерации,
была построена таблица, в которой отмечено количество кластеров по всем методам
и мерам.
Результаты кластеризации, когда
получилось 2 и 20 кластеров считаются не верными, потому что это означает,
что-либо все сосуды принадлежат одному кластеру, либо каждый сосуд - это
отдельный кластер. По этой причине, методы связь внутри групп, ближайший сосед,
дальний сосед, кластеринг медиан и метод Уорда исключаются из анализа. По этой
же причине исключаются из рассмотрения семь мер: различие размера, вариация,
дисперсия, лямбда, Рассел и Рао, Сокал и Снит 2, Сокал и Снит 5.
В большинстве случае анализ
оставшихся 2 методов и 18 мер показывает, что сосуды делятся на 10 - 11 кл.
Сравнение результатов иерархических
методов было проведено с результатом метода К-средних. Перед выполнением метода
К-средних был проведен факторный анализ, для объединения зависимых признаков к
меньшему количеству независимых между собой факторов. Таким образом, 21 признак
был объединен в 7 факторов. Принадлежность признаков к факторам определяется по
матрице вращения.
Матрица вращения состоит из факторных
нагрузок. Максимальное абсолютное значение факторной нагрузки указывает на
отношение данного признака к фактору, что позволяется разделить признаки на
группы.
Для подтверждения правильности
распределения признаков по факторам были построены матрица корреляций,
используя коэффициент Пирсона, и граф связей признаков.
Граф связей признаков
венчик энтропия пирсон сосуд
Двойной линией в графе соединены признаки,
имеющие наибольший коэффициент корреляции, одинарной - наименьший, пунктирной
линией - с обратной зависимостью. В графе связей объединяются в группы
признаки, исходя из факторного анализа. Как видно из графа, группы не
пересекаются между собой, что подтверждает их разделение факторным анализом.
Затем был проведен метод К-средних, использующий
вместо признаков полученные значения факторов. В этом методе необходимо
указывать количество кластеров. Так как иерархические методы показали, что
должно быть 10-11 кластеров, то неиерархическим анализом была произведена
кластеризация для такого количества кластеров.
Сравнения результатов иерархических и метода
К-средних показывает совпадение разделения на кластеры 18 сосудов из 23, что
составляет 78%. Окончательным решение задачи кластеризации является таблица, в
которой указаны группы сосудов:
Группы
сосудов
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
Сосуд
7
|
Сосуд4
|
Сосуд8
|
Сосуд6
|
Сосуд13
|
Сосуд1
|
Сосуд2
|
Сосуд3
|
Сосуд17
|
Сосуд14
|
Сосуд26
|
Сосуд9
|
Сосуд12
|
Сосуд15
|
Сосуд23
|
|
|
|
|
Сосуд18
|
Сосуд27
|
Сосуд28
|
|
|
|
|
|
|
|
Сосуд19
|
|
|
|
|
|
|
|
|
|
Сосуд20
|
|
|
|
|
|
|
|
|
|
Сосуд21
|
|
|
|
|
|
|
|
|
|
Сосуд25
|
|
|
|
|
|
|
|
|
|
Наибольшей по количеству сосудов группе
соответствуют признаки, присущие памятнику «Лузанова Сопка-2»: «прямой венчик»,
«заостренная кромка», «орнамент на кромке», «гребенка вертикальная», «гребенка
диагональная».
В последних четырех группах присутствуют
признаки, которых нет на остальных сосудах, но на них много признаков из
основной (многочисленной) группы, что означает, что не сосуд пришел из другой
«культуры», а лишь орнаментальный признак.
Также было выявлено, что орнамент на кромке
влияет на форму среза венчика.
Список литературы
1. Барсегян
А.А. Технологии анализа данных: Data
Mining, Visual
Mining, Text
Mining, OLAP.-2-е
изд., прераб. и доп.-С-П.,2008.
. Ким
Дж.-О. Факторный, дискриминантный и кластерный анализ.-М.: Финансы и
статистика, 1989.-215 с.:ил.
. Наследов
А. SPSS 15
профессиональный статистический анализ данных.-С-П.,2008.